# Projeto Final da Disciplina Mineração de Textos e Web Ministrada pelo Prof. Luciano Barbosa

**Equipe:**
<br>David Soares do Monte
<br>Wanderson Rodrigues Marques


## Descrição do Projeto

O projeto desenvolvido teve a seguinte temática: Construção de um Sistema de Monitoramento de Reviews, e consistiu das seguintes etapas:

1. Seleção de um produto a ser monitorado;
2. Coleta de reviews de sites de e-commerce do produto selecionado, incluindo as seguintes informações:
  * Conteúdo do review;
  * Estrelas de avaliação;
  * Data do review.
3. Criação de classificador de sentimentos utilizando os seguintes critérios:
  * Random Forest com bag-of-words;
  * Redes: CNN, LSTM e BERT;
  * Pré-processamento: com e sem stemming;
  * Métricas de avaliação: F1, precision e recall.
4. Construção de frontend contendo itens como:
  * Plot de reviews positivos e negativos no tempo;
  * Word cloud dos reviews;
  * Reviews mais representativos.

O frontend desenvolvido encontra-se disponível no seguinte endereço:
https://public.tableau.com/views/MonitoramentodeReviews/Dashboard1?:language=en-US&:display_count=n&:origin=viz_share_link

GitHub do projeto:
<br> ...

### Sumário das Etapas de Desenvolvimento

* **Etapa 0**: Coleta das Reviews
  * Seleção do produto;
  * Coleta das reviews.
* **Etapa 1**: Dataset
  * Informações sobre o dataset
  * Importação das Bibliotecas Necessárias
  * Importação e Pré-processamento do Dataset
* **Etapa 2**: Processamento dos Dados Textuais
  * Importação das Bibliotecas Necessárias
  * Tokenização das Sentenças
  * Importação das Bibliotecas Necessárias
  * Tokenização e Construção do Dicionário de Palavras
* **Etapa 3**: Implementação dos Classificadores
  * Importação de Bibliotecas Necessárias
  * Pré-processamento
  * Agrupamento para Identificação das Reviews mais Representativas
  * C1: Random Forest
  * C2: CNN
    * Importação das Bibliotecas Necessárias
    * Divisão dos Conjuntos de Treinamento, Validação e Teste - CNN
    * Definição do Modelo - CNN
    * Predição e Métricas de Avaliação - CNN
    * Ajuste dos Hiperparâmetros com keras tuner - CNN
    * Predição e Métricas de Avaliação após busca de hiperparâmetros - CNN
  * C3: LSTM
    * Divisão dos Conjuntos de Treino, Validação e Teste - LSTM
    * Definição do Modelo - LSTM
    * Predição e Métricas de Avaliação - LSTM
    * Ajuste dos Hiperparâmetros com keras tuner - LSTM
    * Predição e Métricas de Avaliação após busca de hiperparâmetros - LSTM
  * C4: BERT
    * Divisão dos Conjuntos de Treino, Validação e Teste - BERT
    * Definição do Modelo - BERT
    * Predição e Métricas de Avaliação - BERT
* **Etapa 4**: Resumo das Melhores Métricas para Todos os Modelos
* **Etapa 5**: Frontend
  * Desenvolvimento do frontend no Tableau.

# Etapa 1: Dataset

## Informações sobre o dataset
O dataset é composto originalmente por 5890 avaliações obtidas no site da Amazon Brasil referentes ao produto "Suporte para Notebook, OCTOO, Uptable, UP-BL, Preto" (https://www.amazon.com.br/OCTOO-UP-BL-Suporte-Uptable-Preto/dp/B07BTC67VS/ref=zg-bs_furniture_1/144-8354270-3806822).

## Importação das Bibliotecas Necessárias

In [1]:
import pandas as pd
import numpy as np
import datetime as dt

## Importação e Pré-processamento do Dataset

In [2]:
# from google.colab import drive
# drive.mount('/content/drive')

In [3]:
df = pd.read_csv('../Datasets/fake_reviews_dataset.csv', usecols=['text_', 'rating', 'label'])

df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,rating,label,text_
0,5.0,CG,"Love this! Well made, sturdy, and very comfor..."
1,5.0,CG,"love it, a great upgrade from the original. I..."
2,5.0,CG,This pillow saved my back. I love the look and...
3,1.0,CG,"Missing information on how to use it, but it i..."
4,5.0,CG,Very nice set. Good quality. We have had the s...
...,...,...,...
40427,4.0,OR,I had read some reviews saying that this bra r...
40428,5.0,CG,I wasn't sure exactly what it would be. It is ...
40429,2.0,OR,"You can wear the hood by itself, wear it with ..."
40430,1.0,CG,I liked nothing about this dress. The only rea...


In [4]:
df.columns = ['star', 'label', 'reviews']

In [5]:
# Imprime formato do dataset
print('Shape do dataset:', df.shape)

Shape do dataset: (40432, 3)


In [6]:
df = df.iloc[0:5000,:]

In [7]:
# Imprime formato do dataset
print('Shape do dataset:', df.shape)

Shape do dataset: (5000, 3)


In [8]:
# Verificação de dados ausentes
(df.isna().sum())

star       0
label      0
reviews    0
dtype: int64

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   star     5000 non-null   float64
 1   label    5000 non-null   object 
 2   reviews  5000 non-null   object 
dtypes: float64(1), object(2)
memory usage: 117.3+ KB


In [10]:
# Verificação do balaceamento das classes - coluna 'sentiment'
per_var = pd.DataFrame()
per_var['count'] = df['label'].value_counts()
per_var['%'] = per_var['count']/len(df['label'])*100
per_var

Unnamed: 0,count,%
CG,2508,50.16
OR,2492,49.84


# Etapa 2: Processamento dos Dados Textuais

## Importação das Bibliotecas Necessárias

In [11]:
#from collections import Counter
from collections import Counter
import string
import nltk
#import spacy as sp
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
stemmer = PorterStemmer()

nltk.download('stopwords')
nltk.download('punkt') # A data model created by Jan Strunk that NLTK uses to split full texts into word lists

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/wanderson/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/wanderson/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Tokenização das Sentenças

### Importação das Bibliotecas Necessárias

In [12]:
!pip install gensim==4.1.2



In [13]:
import gensim
import gensim.downloader
gensim.__version__

'4.1.2'

In [14]:
from gensim.models import KeyedVectors #, Word2Vec 

### Tokenização e Construção do Dicionário de Palavras

* word2vec pré-treinado em português:
<br>http://www.nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc

In [None]:
word2vc_vectors = KeyedVectors.load_word2vec_format('cc.en.300.vec.gz')
# import gensim.downloader as api
# word2vc_vectors = api.load('word2vec-google-news-300')

In [None]:
# Tokenização
sentences_set_amz = []
sentence = []
dict_pt = {}
punct_set = list(string.punctuation) + ['..', '...', "''", "'''", '``', '```', '*', '**', '***', '…', '^', '^^', '-']
stop_words = set(stopwords.words('english'))

for item in df['reviews']:
  words = word_tokenize(item, language='english')
  for token in words:
    token = token.lower()                                        # Todas as palavras em minúsculo
    if token not in punct_set and token not in stop_words:       # Verifica se não é pontuação ou 'stop word'
      while (len(token) > 0 and token[0] in punct_set):          # Removendo pontuação do início das palavras
        token = token[1:]
      while (len(token) > 0 and token[-1] in punct_set):         # Removendo pontuação do fim das palavras
        token = token[:-1]
      if len(token) > 1 and token in word2vc_vectors.key_to_index: # Verifica se modelo pré- treinado contém o token
        sentence.append(token) 
  sentences_set_amz.append(sentence)

  word_freq = Counter(sentence)

  for word,freq in word_freq.items():
    if word in dict_pt.keys():
      dict_pt[word] = dict_pt[word] + freq
    else:
      dict_pt[word] = freq
  sentence = []

sentences_set = np.asarray(sentences_set_amz, dtype='object')

print('Nº de sentenças:', len(sentences_set))
print("Tamanho do vocabulário: ", len(dict_pt))
print("Vocabulário:\n", sorted(dict_pt.keys()))

* Transfere o dicionário de palavras e suas frequências de ocorrência para um dataframe e exibe as 10 palavras mais frequentes.

In [None]:
dict_pt_df = pd.DataFrame(sorted(list(dict_pt.items()), key=lambda v: v[1], reverse=True), columns=['words', 'freq'])
dict_pt_df.head(10)

* Verifica se há alguma sentença vazia e remove do conjunto de sentenças e do dataset.

In [None]:
null_sentences = []

for i,sentence in enumerate(sentences_set):
  if len(sentence) == 0:
    null_sentences.append(i)
    #print(sentence)
print(null_sentences)

sentences_set = np.delete(sentences_set, null_sentences)

# Atualiza a base de dados removendo as instâncias correspondentes a sentenças vazias
if len(null_sentences) > 0:
  df = df.drop(null_sentences, axis=0)
  df.reset_index(drop=True, inplace=True)

In [None]:
df.info()

In [None]:
#df_reviews.to_csv('df_reviews_processed.csv')

In [None]:
# Imprime um exemplo de sentença tokenizada
print(sentences_set[0])

# Etapa 3: Implementação dos Classificadores

## Importação de Bibliotecas Necessárias

In [None]:
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.decomposition import PCA
# from sklearn.pipeline import Pipeline

## Pré-processamento

* Pré-processamento da variável alvo: y = df_reviews['sentiment']

In [None]:
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['label'])

print('Classes numéricas:', np.unique(y))
print('Classes:', list(label_encoder.inverse_transform(np.unique(y))))
print('Nº de elementos de y:', len(y))

* Passando as sentenças tokenizadas para o modelo treinado para obter o conjunto de embeddings 'X'.

In [None]:
X = []
max_len = 0

for i,sentence in enumerate(sentences_set):
  vector = word2vc_vectors[sentence]
  X.append(vector)
  max_len = max(max_len, len(vector))

print('max_len:', max_len)
print('N° de elementos de X:', len(X))

* Redimensionamento e normalização dos vetores (X).

In [None]:
VECTOR_SIZE = 300

def transform(exemplos, dimension):
  results = np.zeros((len(exemplos), dimension, VECTOR_SIZE))
  for i, sequence in enumerate(exemplos):
    results[i, (dimension - len(sequence)):, :] = sequence    # Padding a esquerda
  return results
 
X = transform(X, max_len)

# Normalização de X para intervalo [-1,1]
X_min = X.min()
X_max = X.max()
range_X = X_max - X_min

X = ((X - X_min)/range_X - 0.5) * 2

print('Range após normalização:', [X.min(), X.max()])
print(X.shape)

## Agrupamento para Identificação das Reviews mais Representativas

* Material de referência: 
<br> https://dylancastillo.co/nlp-snippets-cluster-documents-using-word2vec/#generate-document-vectors

* Vetorização e redução das sentenças para um vetor único por meio da média dos vetores.

In [None]:
# Adaptado do material de referência

def mean_vectorize(list_of_docs, model):
    """Generate vectors for list of documents using a Word Embedding

    Args:
        list_of_docs: List of documents
        model: Gensim's Word Embedding (version 4.1.2)

    Returns:
        List of document vectors
    """
    features = []

    for tokens in list_of_docs:
        zero_vector = np.zeros(model.vector_size)
        vectors = []
        for token in tokens:
          vectors.append(model[token])
        if vectors:
            vectors = np.asarray(vectors)
            avg_vec = vectors.mean(axis=0)
            features.append(avg_vec)
        else:
            features.append(zero_vector)
    return features
    
vectorized_docs = mean_vectorize(sentences_set, model=word2vc_vectors)

print('Shape do vetor médio gerado para cada reviews após o embedding:', (len(vectorized_docs), len(vectorized_docs[0])))

* Busca do número ótimo de clusters através da análise de silhueta. O algoritmo de clusterização que está sendo utilizado é o k-means.

In [None]:
# Adaptado do material de referência

seed = 1275
SAMPLE_SIZE = 350
silhouette_score_list = []

for k in np.arange(2,21):
  km = KMeans(n_clusters=k, n_init=100, init='k-means++', random_state=seed).fit(vectorized_docs)
  silhouette_score_list.append(silhouette_score(vectorized_docs, km.labels_, metric="euclidean", sample_size=350, random_state=seed))

best_score = max(silhouette_score_list)
best_cluster = silhouette_score_list.index(best_score) + 2

print('Melhor silhueta:', best_score)
print('Nº de Clusters:', best_cluster)

In [None]:
plt.figure(figsize=(8, 5))
plt.plot(list(np.arange(2,21)), silhouette_score_list)
plt.title('Silhouette Score')
plt.xlabel('Clusters')
plt.ylabel('silhouette score')
plt.show()

* Calcula os parâmetros de silhueta de cada cluster.

In [None]:
# Adaptado do material de referência

def kmeans_clusters(
    X, 
    k, 
    mb, 
    print_silhouette_values, 
):
    """Generate clusters and print Silhouette metrics using Kmeans

    Args:
        X: Matrix of features.
        k: Number of clusters.
        mb: Size of mini-batches.
        print_silhouette_values: Print silhouette values per cluster.

    Returns:
        Trained clustering model and labels based on X.
    """
    km = KMeans(n_clusters=k, n_init=100, init='k-means++', random_state=seed).fit(X)
    print(f"For n_clusters = {k}")
    print(f"Silhouette coefficient: {silhouette_score(X, km.labels_):0.2f}")
    print(f"Inertia:{km.inertia_}")

    if print_silhouette_values:
        sample_silhouette_values = silhouette_samples(X, km.labels_)
        print(f"Silhouette values:")
        silhouette_values = []
        for i in np.arange(k):
            cluster_silhouette_values = sample_silhouette_values[km.labels_ == i]
            silhouette_values.append(
                (
                    i,
                    cluster_silhouette_values.shape[0],
                    cluster_silhouette_values.mean(),
                    cluster_silhouette_values.min(),
                    cluster_silhouette_values.max(),
                )
            )
        silhouette_values = sorted(
            silhouette_values, key=lambda tup: tup[2], reverse=True
        )
        for s in silhouette_values:
            print(
                f"    Cluster {s[0]}: Size:{s[1]} | Avg:{s[2]:.2f} | Min:{s[3]:.2f} | Max: {s[4]:.2f}"
            )
    return km, km.labels_

In [None]:
clustering, cluster_labels = kmeans_clusters(
    X=vectorized_docs,
    k=best_cluster,
    mb=500,
    print_silhouette_values=True,
)

* Redução de dimensionalidade com o PCA para visualização dos agrupamentos

In [None]:
scaler = StandardScaler()
scaled_docs = scaler.fit_transform(vectorized_docs)
pca = PCA(n_components=2)
pca_docs = pca.fit_transform(scaled_docs)
pca_docs.shape

In [None]:
plt.figure(figsize=(8, 5))
plt.scatter(pca_docs[:, 0], pca_docs[:, 1], c=cluster_labels, edgecolor='none', alpha=0.5, cmap='viridis', s=50)
plt.title('Visualização dos agrupamentos em duas dimensões')
plt.xlabel('componente 1')
plt.ylabel('componente 2')
plt.colorbar();

In [None]:
# Cria um df relacionando: 'sentiment', 'reviews', 'tokens', 'clusters'.
df_clusters = pd.DataFrame({
    "sentiment": df['label'],
    "reviews": df['reviews'],
    "tokens": [" ".join(text) for text in sentences_set],
    "cluster": cluster_labels
})

In [None]:
df_clusters.sample(5)

In [None]:
#df_clusters.to_csv('cluster_selection.csv')

numpy.argsort: Returns the indices that would sort an array
<br> https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
<br> numpy.linalg.norm: Matrix or vector norm
<br> https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html

* Documentos mais representativos para cada cluster.

In [None]:
# Adaptado do material de referência
most_representative_docs_c0 = np.argsort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[0], axis=1))
most_representative_docs_c1 = np.argsort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[1], axis=1))
# most_representative_docs_c2 = np.argsort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[2], axis=1))

for d in most_representative_docs_c0[:5]:
    print(df_clusters.iloc[d])
    print("-------------")

* Armazena em um dataframe os 30 documentos (reviews) mais representativas de cada cluster.

In [None]:
# Distâncias de cada documento para cada um dos centroídes
distance_docs_c0 = np.sort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[0], axis=1))
distance_docs_c1 = np.sort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[1], axis=1))
# distance_docs_c2 = np.sort(np.linalg.norm(vectorized_docs - clustering.cluster_centers_[2], axis=1))

In [None]:
# Adaptado do material de referência
# 30 reviews mais representativas em cada cluster
df_reviews_importance_c0 = df_clusters.iloc[most_representative_docs_c0[:30]]
df_reviews_importance_c1 = df_clusters.iloc[most_representative_docs_c1[:30]]
# df_reviews_importance_c2 = df_clusters.iloc[most_representative_docs_c2[:30]]

df_reviews_importance = pd.concat([df_reviews_importance_c0, df_reviews_importance_c1])
df_reviews_importance['position'] = np.concatenate((most_representative_docs_c0[:30], most_representative_docs_c1[:30]                                                  ), axis=None)
df_reviews_importance['distance'] = np.concatenate((distance_docs_c0[:30], distance_docs_c1[:30]), axis=None)

df_reviews_importance.reset_index(drop=True, inplace=True)
df_reviews_importance

In [None]:
#df_reviews_importance.to_csv('reviews_importance_distance.csv')

## C1: Random Forest

* Executa a busca de parâmetros para o Random Forest utilizando o k-fold estratificado com k = 10.

In [None]:
seed = 1275
X_rfc = np.reshape(X,(X.shape[0], max_len*VECTOR_SIZE))
y_rfc = y

# Divisao da base de dados em treinamento, validacao e teste
X_train, X_test, y_train, y_test = train_test_split(X_rfc, y_rfc, test_size=0.2, stratify=y_rfc, random_state=seed)
#X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size = 0.2, stratify=y_train, random_state=seed)

# Instanciando o modelo
rfc = RandomForestClassifier(random_state=seed)

# K-fold estratificado com k = 10
cv = StratifiedKFold(n_splits=10)

# definição dos parâmetros para a árvore de decisão
param_distributions = { 
                        'n_estimators': [10,11,12,15,16,17,18,19,20],
                        'criterion': ['gini', 'entropy'],
                        'max_depth': [12,14,15,16,17,18,20],
                        'min_samples_split': [15,16,17,18,19,20,21,25],
                        'min_samples_leaf': [4,5,6,7,8,9,10],
                        'max_features':['auto', 'sqrt'] #, 'log2']
                      }

# define random search for decision tree
rnd_search_rfc = RandomizedSearchCV(  estimator=rfc, 
                                      param_distributions = param_distributions, 
                                      n_iter=25, scoring='f1', 
                                      n_jobs=3, cv=cv, random_state=seed
                                    )
# execute search
result_rfc = rnd_search_rfc.fit(X_train, y_train)

* Sumariza as métricas de avaliação para o Random Forest.

In [None]:
# summarize result for random forest
print('=========Random Search Results for RandomForest==========')
print('Best Score: %s' % result_rfc.best_score_)
print('Best Hyperparameters: %s' % result_rfc.best_params_)

# Instanciando e avaliando o modelo
RFC = RandomForestClassifier(**result_rfc.best_params_, random_state=seed)

model = RFC.fit(X_train, y_train)
y_predicted = RFC.predict(X_test)

print('\nDesempenho médio do RandomForest:')

cv_results = cross_val_score(RFC, X_train, y_train, cv=cv, scoring='f1')
#cv_models_results['randomForest'] = cv_results

name = 'RandomForest'
msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
print(msg)

print("\nAcuracia do Random Forest: Treinamento",  RFC.score(X_train, y_train)," Teste", RFC.score(X_test, y_test))
print("\nClassification report:\n", classification_report(y_test, y_predicted))
print("Confusion matrix:\n", confusion_matrix(y_test, y_predicted))

In [None]:
# Matriz de confusão com heatmap
rf_confusion_matrix = pd.crosstab(y_test, y_predicted, rownames=['Valor Atual'], colnames=['Valor Predito'])

sn.heatmap(rf_confusion_matrix, annot=True, fmt="d", cmap='inferno', linewidths=.5)
plt.show()

## C2: CNN

### Importação das Bibliotecas Necessárias

Tensorflow Addons: https://github.com/tensorflow/addons

In [None]:
#!pip install tensorflow-addons

In [None]:
import tensorflow as tf
from tensorflow import keras
import tensorflow_addons as tfa
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout, LSTM, Conv1D #Embedding, Input

In [None]:
print("Tensorflow Version: ", tf.__version__)
print("GPUs Available: ", len(tf.config.list_physical_devices('GPU')))
print("Tensorflow Adons Version: ", tfa.__version__)

### Divisão dos Conjuntos de Treinamento, Validação e Teste - CNN

In [None]:
seed = 1275
# Divisao da base de dados em treinamento, validacao e teste
X_train_cnn, X_test_cnn, y_train_cnn, y_test_cnn = train_test_split(X, y, test_size=0.1, stratify=y, random_state=seed)
X_train_cnn, X_valid_cnn, y_train_cnn, y_valid_cnn = train_test_split(X_train_cnn, y_train_cnn, test_size = 0.2, stratify=y_train_cnn, random_state=seed)

print('Shape do Conjunto de Treino: ', X_train_cnn.shape)
print('Shape das labels de Treino: ', y_train_cnn.shape)
print('Shape do Conjunto de Validação: ', X_valid_cnn.shape)
print('Shape das labels de Validação: ', y_valid_cnn.shape)
print('Shape do Conjunto de Teste: ', X_test_cnn.shape)
print('Shape das labels de Teste: ', y_test_cnn.shape)

### Definição do Modelo - CNN

In [None]:
INPUT_SHAPE = (max_len, VECTOR_SIZE,)

# Hiperparameters
FILTERS_LAYER_1=32
KERNEL_SIZE=3
HIDDEN_LAYER_1_NODES=20 #100
HIDDEN_LAYER_2_NODES=10 #50
DROPOUT_PROB=0.30

model_cnn = keras.models.Sequential([
    keras.layers.Conv1D(FILTERS_LAYER_1, KERNEL_SIZE, strides= 1, padding="same", activation='relu', input_shape=INPUT_SHAPE),
    keras.layers.GlobalMaxPooling1D(),
    keras.layers.Dense(HIDDEN_LAYER_1_NODES, activation='relu'),
    keras.layers.Dropout(DROPOUT_PROB),
    keras.layers.Dense(HIDDEN_LAYER_2_NODES, activation='relu'),
    keras.layers.Dropout(DROPOUT_PROB),
    keras.layers.Dense(1, activation='sigmoid')
])

# Obs.: A última camada utiliza função de ativação sigmoid por se tratar de uma 
# classificação binária: a avaliação é positiva ou negativa

model_cnn.summary()

In [None]:
from tensorflow_addons.metrics.f_scores import F1Score
# F1Score = tfa.metrics.F1Score(num_classes=2, average="micro", threshold=0.5)
model_cnn.compile(loss="binary_crossentropy", optimizer="adam", metrics= F1Score(num_classes=2, average="micro", threshold=0.6))

In [None]:
BATCH_SIZE = 25    # Tamanho do batch de treinamento
N_EPOCHS = 100

In [None]:
callback = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10) 
# This callback will stop the training when there is no improvement in the loss for five consecutive epochs.

history_cnn = model_cnn.fit(
                            x=X_train_cnn, 
                            y=y_train_cnn, 
                            epochs=N_EPOCHS, 
                            batch_size=BATCH_SIZE, 
                            verbose='auto', 
                            validation_data=(X_valid_cnn,y_valid_cnn),
                            callbacks=[callback],
                          )
print('\nQuantidade de épocas executadas: ', len(history_cnn.history['val_loss']))

* Loss e F1-score para os conjuntos de validação e teste.

In [None]:
valid_loss_cnn, valid_f1_score_cnn = model_cnn.evaluate(X_valid_cnn, y_valid_cnn, verbose = 'auto')

print('Valid Loss:', valid_loss_cnn)
print('Valid F1 Score:', valid_f1_score_cnn)

In [None]:
test_loss_cnn, test_f1_score_cnn = model_cnn.evaluate(X_test_cnn, y_test_cnn, verbose = 'auto')

print('Test Loss:', test_loss_cnn)
print('Test F1 Score:', test_f1_score_cnn)

* Plotagem do histórico de treinamento  do modelo - CNN

In [None]:
plt.figure(figsize=(15, 5))
plt.subplot(1, 2, 1)
plt.plot(history_cnn.history['val_f1_score'], color='blue', label='val_f1_score')
plt.plot(history_cnn.history['f1_score'], color='red', label='train_f1_score')
plt.title('f1_score')
plt.xlabel('Epochs')
plt.ylabel('f1_score')
#plt.ylim(None, 1)
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(history_cnn.history['val_loss'], color='blue', label='val_loss')
plt.plot(history_cnn.history['loss'], color='red', label='train_loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
#plt.ylim(0, None);
plt.legend();

### Predição e Métricas de Avaliação - CNN

In [None]:
y_predicted_cnn = (model_cnn.predict(X_test_cnn) > 0.5).astype('int8')
print(np.reshape(y_predicted_cnn, len(y_predicted_cnn)))

In [None]:
print("\nClassification report:\n", classification_report(y_test_cnn, y_predicted_cnn))
print("Confusion matrix:\n", confusion_matrix(y_test_cnn, y_predicted_cnn))

In [None]:
# Matriz de confusão com heatmap
cnn_confusion_matrix = pd.crosstab(np.reshape(y_test_cnn, len(y_test_cnn)), np.reshape(y_predicted_cnn, len(y_predicted_cnn)), rownames=['Valor Atual'], colnames=['Valor Predito'])

sn.heatmap(cnn_confusion_matrix, annot=True, fmt="d", cmap='inferno', linewidths=.5)
plt.show()

### Ajuste dos Hiperparâmetros com keras tuner - CNN

* Material de Referência: https://www.tensorflow.org/tutorials/keras/keras_tuner

In [None]:
#!pip install -q -U keras-tuner

In [None]:
import keras_tuner as kt

* Definindo o modelo e determinando quais hiperparâmetros serão testados.

In [None]:
from tensorflow_addons.metrics.f_scores import F1Score
METRICS_F1 = F1Score(num_classes=2, average="micro", threshold=0.6)

def model_cnn_builder(hp):
  # Hiperparameters
  KERNEL_SIZE=3
  DROPOUT_PROB=0.30
  INPUT_SHAPE = (max_len, VECTOR_SIZE,)

  HP_FILTERS_LAYER_1 = hp.Int('filters_1', min_value=16, max_value=256, step=16)
  HP_HIDDEN_LAYER_1_UNITS = hp.Int('units_1', min_value=10, max_value=100, step=10)
  HP_HIDDEN_LAYER_2_UNITS = hp.Int('units_2', min_value=10, max_value=50, step=10)

  model_cnn_tn = keras.models.Sequential([
      keras.layers.Conv1D(filters=HP_FILTERS_LAYER_1, kernel_size=KERNEL_SIZE, strides= 1, padding="same", activation='relu', input_shape=INPUT_SHAPE),
      keras.layers.GlobalMaxPooling1D(),
      keras.layers.Dense(units=HP_HIDDEN_LAYER_1_UNITS, activation='relu'),
      keras.layers.Dropout(DROPOUT_PROB),
      keras.layers.Dense(units=HP_HIDDEN_LAYER_2_UNITS, activation='relu'),
      keras.layers.Dropout(DROPOUT_PROB),
      keras.layers.Dense(1, activation='sigmoid')
  ])
    
  #from tensorflow_addons.metrics.f_scores import F1Score

  HP_LEARNING_RATE = hp.Choice('learning_rate', values=[1e-2, 1e-3, 1e-4, 1e-5, 1e-6])

  model_cnn_tn.compile(
      loss="binary_crossentropy", 
      optimizer=keras.optimizers.Adam(learning_rate=HP_LEARNING_RATE), 
      metrics=METRICS_F1
  )

  return model_cnn_tn

* Definindo o objetivo da busca de hiperparâmetros e determinando o número máximo de épocas.

In [None]:
MAX_EPOCHS = 150

tuner_cnn = kt.Hyperband(
                          model_cnn_builder,
                          objective= kt.Objective('val_loss', direction='min'), #("val_f1_score", direction="max"),
                          max_epochs=MAX_EPOCHS,
                          factor=3,
                          directory='cnn_tuner_dir_2',
                          project_name='cnn_tuner_val_loss_1'
                        )
#tuner_cnn.search_space_summary()

* Executa a busca de hiperparâmetros.

In [None]:
stop_early = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)

BATCH_SIZE = 25    # Tamanho do batch de treinamento
N_EPOCHS = 100

tuner_cnn.search(
                  x=X_train_cnn, 
                  y=y_train_cnn, 
                  epochs=N_EPOCHS, 
                  batch_size=BATCH_SIZE, 
                  #verbose='auto', 
                  validation_data=(X_valid_cnn,y_valid_cnn),
                  callbacks=[stop_early],
                )

* Exibe os melhores hiperparâmetros encontrados durante a busca.

In [None]:
# Get the optimal hyperparameters
best_hps=tuner_cnn.get_best_hyperparameters(num_trials=1)[0]

for h_param in ['units_1', 'units_2'] + ['learning_rate'] + ['filters_1']:
  print(h_param, best_hps.get(h_param))

* Encontra o número ótimo de épocas para treinar o modelo com os hiperparâmetros obtidos na busca.

In [None]:
# Build the model with the optimal hyperparameters and train it on the data for 50 epochs
model_cnn_tn = tuner_cnn.hypermodel.build(best_hps)

history_cnn_tn = model_cnn_tn.fit(
                                    x=X_train_cnn, 
                                    y=y_train_cnn, 
                                    epochs=N_EPOCHS, 
                                    batch_size=BATCH_SIZE, 
                                    verbose='auto',
                                    validation_data=(X_valid_cnn,y_valid_cnn)
                                  )

val_loss_per_epoch = history_cnn_tn.history['val_loss']
best_epoch = val_loss_per_epoch.index(min(val_loss_per_epoch)) + 1
print('Best epoch: %d' % (best_epoch,))

In [None]:
plt.figure(figsize=(15, 5))
plt.subplot(1, 2, 1)
plt.plot(history_cnn_tn.history['val_f1_score'], color='blue', label='val_f1_score')
plt.plot(history_cnn_tn.history['f1_score'], color='red', label='train_f1_score')
plt.title('f1_score')
plt.xlabel('Epochs')
plt.ylabel('f1_score')
#plt.ylim(None, 1)
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(history_cnn_tn.history['val_loss'], color='blue', label='val_loss')
plt.plot(history_cnn_tn.history['loss'], color='red', label='train_loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
#plt.ylim(0, None);
plt.legend();

* Treina o modelo com os melhores hiperparâmetros e com o melhor número de épocas.

In [None]:
hypermodel_cnn = tuner_cnn.hypermodel.build(best_hps)

# Retrain the model
hypermodel_cnn.fit(
                    x=X_train_cnn, 
                    y=y_train_cnn,  
                    epochs=best_epoch,
                    batch_size=BATCH_SIZE, 
                    verbose='auto',
                    validation_data=(X_valid_cnn,y_valid_cnn)
                  )

* Calcula a loss e o F1-score para o conjunto de teste.

In [None]:
test_loss_cnn_tn, test_f1_score_cnn_tn = hypermodel_cnn.evaluate(X_test_cnn, y_test_cnn, verbose = 'auto')

print('Test Loss:', test_loss_cnn_tn)
print('Test F1 Score:', test_f1_score_cnn_tn)

### Predição e Métricas de Avaliação após busca de hiperparâmetros - CNN

In [None]:
y_predicted_hp_cnn = (hypermodel_cnn.predict(X_test_cnn) > 0.5).astype('int8')

print("\nClassification report:\n", classification_report(y_test_cnn, y_predicted_hp_cnn))
print("Confusion matrix:\n", confusion_matrix(y_test_cnn, y_predicted_hp_cnn))

In [None]:
cnn_confusion_matrix = pd.crosstab(np.reshape(y_test_cnn, len(y_test_cnn)), np.reshape(y_predicted_hp_cnn, len(y_predicted_hp_cnn)), rownames=['Valor Atual'], colnames=['Valor Predito'])

sn.heatmap(cnn_confusion_matrix, annot=True, fmt="d", cmap='viridis', linewidths=.5)
plt.show()

## C3: LSTM

### Divisão dos Conjuntos de Treino, Validação e Teste - LSTM

In [None]:
seed = 1275
# Divisao da base de dados em treinamento, validacao e teste
X_train_lstm, X_test_lstm, y_train_lstm, y_test_lstm = train_test_split(X, y, test_size=0.1, stratify=y, random_state=seed)
X_train_lstm, X_valid_lstm, y_train_lstm, y_valid_lstm = train_test_split(X_train_lstm, y_train_lstm, test_size = 0.2, stratify=y_train_lstm, random_state=seed)

print('Shape do Conjunto de Treino: ', X_train_lstm.shape)
print('Shape das labels de Treino: ', y_train_lstm.shape)
print('Shape do Conjunto de Validação: ', X_valid_lstm.shape)
print('Shape das labels de Validação: ', y_valid_lstm.shape)
print('Shape do Conjunto de Teste: ', X_test_lstm.shape)
print('Shape das labels de Teste: ', y_test_lstm.shape)

### Definição do Modelo - LSTM

In [None]:
#vocab_size = len(model_amazon.wv.vocab)
#embedding_dim = 10

INPUT_SHAPE = (max_len,VECTOR_SIZE,)

model_lstm = Sequential([ 
                         keras.layers.LSTM(32, input_shape=INPUT_SHAPE, activation='tanh'),
                         keras.layers.Dropout(0.3),   # Regularizador
                         keras.layers.Dense(20, activation='relu'),
                         keras.layers.Dropout(0.3),   # Regularizador
                         keras.layers.Dense(10, activation='relu'),
                         keras.layers.Dropout(0.3),   # Regularizador
                         keras.layers.Dense(1, activation='sigmoid')
                        ])
model_lstm.summary()

* Treinamento do modelo - LSTM.

In [None]:
from tensorflow_addons.metrics.f_scores import F1Score

model_lstm.compile(loss="binary_crossentropy", optimizer="adam", metrics= F1Score(num_classes=2, average="micro", threshold=0.6))

In [None]:
batch_size = 25    # Tamanho do batch de treinamento
n_epochs = 100

In [None]:
callback_lstm = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10) 
# This callback will stop the training when there is no improvement inthe loss for five consecutive epochs.

history_lstm = model_lstm.fit(
                          x=X_train_lstm, 
                          y=y_train_lstm, 
                          epochs=n_epochs, 
                          batch_size=batch_size, 
                          verbose='auto', 
                          validation_data=(X_valid_lstm,y_valid_lstm),
                          callbacks=[callback_lstm],
                        )
print('\nQuantidade de épocas executadas: ', len(history_lstm.history['val_f1_score']))

In [None]:
plt.figure(figsize=(15, 5))
plt.subplot(1, 2, 1)
plt.plot(history_lstm.history['val_f1_score'], color='blue', label='val_f1_score')
plt.plot(history_lstm.history['f1_score'], color='red', label='train_f1_score')
plt.title('f1_score')
plt.xlabel('Epochs')
plt.ylabel('f1_score')
#plt.ylim(None, 1)
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(history_lstm.history['val_loss'], color='blue', label='val_loss')
plt.plot(history_lstm.history['loss'], color='red', label='train_loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
#plt.ylim(0, None);
plt.legend();

### Predição e Métricas de Avaliação - LSTM

In [None]:
test_loss_lstm, test_f1_score_lstm = model_lstm.evaluate(X_test_lstm, y_test_lstm, verbose = 'auto')

print('Test Loss:', test_loss_lstm)
print('Test F1 Score:', test_f1_score_lstm)

In [None]:
y_predicted_lstm = (model_lstm.predict(X_test_lstm) > 0.5).astype('int8')
print(np.reshape(y_predicted_lstm, len(y_predicted_lstm)))

In [None]:
print("\nClassification report:\n", classification_report(y_test_lstm, y_predicted_lstm))
print("Confusion matrix:\n", confusion_matrix(y_test_lstm, y_predicted_lstm))

In [None]:
lstm_confusion_matrix = pd.crosstab(np.reshape(y_test_lstm, len(y_test_lstm)), np.reshape(y_predicted_lstm, len(y_predicted_lstm)), rownames=['Valor Atual'], colnames=['Valor Predito'])

sn.heatmap(lstm_confusion_matrix, annot=True, fmt="d", cmap='inferno', linewidths=.5)
plt.show()

### Ajuste dos Hiperparâmetros com keras tuner - LSTM

* Definindo o modelo e determinando quais hiperparâmetros serão testados.

In [None]:
from tensorflow_addons.metrics.f_scores import F1Score
METRICS_F1 = F1Score(num_classes=2, average="micro", threshold=0.6)

def model_lstm_builder(hp):
  # Hiperparameters
  #KERNEL_SIZE=3
  DROPOUT_PROB=0.30
  INPUT_SHAPE = (max_len, VECTOR_SIZE,)

  HP_LSTM_UNITS = hp.Int('units_1', min_value=16, max_value=256, step=16)
  HP_HIDDEN_LAYER_1_UNITS = hp.Int('units_2', min_value=10, max_value=100, step=10)
  HP_HIDDEN_LAYER_2_UNITS = hp.Int('units_3', min_value=10, max_value=50, step=10)

  INPUT_SHAPE = (max_len,VECTOR_SIZE,)

  model_lstm_tn = Sequential([ 
                         keras.layers.LSTM(32, input_shape=INPUT_SHAPE, activation='tanh'),
                         keras.layers.Dropout(DROPOUT_PROB),   # Regularizador
                         keras.layers.Dense(20, activation='relu'),
                         keras.layers.Dropout(DROPOUT_PROB),   # Regularizador
                         keras.layers.Dense(10, activation='relu'),
                         keras.layers.Dropout(DROPOUT_PROB),   # Regularizador
                         keras.layers.Dense(1, activation='sigmoid')
                        ])

  HP_LEARNING_RATE = hp.Choice('learning_rate', values=[1e-2, 1e-3, 1e-4, 1e-5, 1e-6])

  model_lstm_tn.compile(
      loss="binary_crossentropy", 
      optimizer=keras.optimizers.Adam(learning_rate=HP_LEARNING_RATE), 
      metrics=METRICS_F1
  )

  return model_lstm_tn

* Definindo o objetivo da busca de hiperparâmetros e determinando o número máximo de épocas.

In [None]:
MAX_EPOCHS = 150

tuner_lstm = kt.Hyperband(
                          model_lstm_builder,
                          objective= kt.Objective("val_loss", direction="min"),
                          max_epochs=MAX_EPOCHS,
                          factor=3,
                          directory='lstm_tuner_dir_1',
                          project_name='lstm_tuner_4'
                        )
#tuner_cnn.search_space_summary()

* Executa a busca de hiperparâmetros.

In [None]:
stop_early = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)

BATCH_SIZE = 25    # Tamanho do batch de treinamento
N_EPOCHS = 100

tuner_lstm.search(
                  x=X_train_lstm, 
                  y=y_train_lstm, 
                  epochs=N_EPOCHS, 
                  batch_size=BATCH_SIZE, 
                  #verbose='auto', 
                  validation_data=(X_valid_lstm,y_valid_lstm),
                  callbacks=[stop_early],
                )

* Exibe os melhores hiperparâmetros encontrados durante a busca.

In [None]:
# Get the optimal hyperparameters
best_hps_lstm=tuner_lstm.get_best_hyperparameters(num_trials=1)[0]

for h_param in ['units_1', 'units_2', 'units_3'] + ['learning_rate']:
  print(h_param, best_hps_lstm.get(h_param))

* Encontra o número ótimo de épocas para treinar o modelo com os hiperparâmetros obtidos na busca.

In [None]:
# Encontre o número ótimo de épocas para treinar o modelo com os hiperparâmetros obtidos na busca

# Build the model with the optimal hyperparameters and train it on the data for 50 epochs
model_lstm_tn = tuner_lstm.hypermodel.build(best_hps_lstm)

history_lstm_tn = model_lstm_tn.fit(
                                    x=X_train_lstm, 
                                    y=y_train_lstm, 
                                    epochs=N_EPOCHS, 
                                    batch_size=BATCH_SIZE, 
                                    verbose='auto',
                                    validation_data=(X_valid_lstm,y_valid_lstm)
                                  )

val_loss_per_epoch = history_lstm_tn.history['val_loss']
best_epoch = val_loss_per_epoch.index(min(val_loss_per_epoch)) + 1
print('Best epoch: %d' % (best_epoch,))

In [None]:
plt.figure(figsize=(15, 5))
plt.subplot(1, 2, 1)
plt.plot(history_lstm_tn.history['val_f1_score'], color='blue', label='val_f1_score')
plt.plot(history_lstm_tn.history['f1_score'], color='red', label='train_f1_score')
plt.title('f1_score')
plt.xlabel('Epochs')
plt.ylabel('f1_score')
#plt.ylim(None, 1)
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(history_lstm_tn.history['val_loss'], color='blue', label='val_loss')
plt.plot(history_lstm_tn.history['loss'], color='red', label='train_loss')
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
#plt.ylim(0, None);
plt.legend();

* Treina o modelo com os melhores hiperparâmetros e com o melhor número de épocas.

In [None]:
hypermodel_lstm = tuner_lstm.hypermodel.build(best_hps_lstm)

# Retrain the model
hypermodel_lstm.fit(
                    x=X_train_lstm, 
                    y=y_train_lstm,  
                    epochs=best_epoch,
                    batch_size=BATCH_SIZE, 
                    verbose='auto',
                    validation_data=(X_valid_lstm,y_valid_lstm)
                  )

* Calcula a loss e o F1-score para o conjunto de teste.

In [None]:
test_loss_lstm_tn, test_f1_score_lstm_tn = hypermodel_lstm.evaluate(X_test_lstm, y_test_lstm, verbose = 'auto')

print('Test Loss:', test_loss_lstm_tn)
print('Test F1 Score:', test_f1_score_lstm_tn)

### Predição e Métricas de Avaliação após busca de hiperparâmetros - LSTM

In [None]:
y_predicted_hp_lstm = (hypermodel_lstm.predict(X_test_lstm) > 0.5).astype('int8')

print("\nClassification report:\n", classification_report(y_test_lstm, y_predicted_hp_lstm))
print("Confusion matrix:\n", confusion_matrix(y_test_lstm, y_predicted_hp_lstm))

In [None]:
lstm_confusion_matrix = pd.crosstab(np.reshape(y_test_lstm, len(y_test_lstm)), np.reshape(y_predicted_hp_lstm, len(y_predicted_hp_lstm)), rownames=['Valor Atual'], colnames=['Valor Predito'])

sn.heatmap(lstm_confusion_matrix, annot=True, fmt="d", cmap='viridis', linewidths=.5)
plt.show()

## C4: BERT

* O BERT foi implementado em um notebook a parte e está disponível no repositório do GitHub do projeto na pasta "notebooks".

# Etapa 4: Resumo das Melhores Métricas para Todos os Modelos
* Random Forest, CNN e LSTM em duas condições:
  1. Sem o uso de `stemming`;
  2. Com o uso de `stemming`.
* BERT.

### Sem Stemming

| Modelo            | Classe   | Precision | Recall | F1 Score |
|------------------:|--------: |:---------:|:------:|:--------:|
| **Random Forest** | Negativa | 0.93      | 0.05   | 0.10     |
|                   | Positiva | 0.79      | 1.00   | 0.88     |
| **CNN**           | Negativa | 0.79      | 0.66   | 0.72     |
|                   | Positiva | 0.91      | 0.95   | 0.93     |
| **LSTM**          | Negativa | 0.73      | 0.77   | 0.75     |
|                   | Positiva | 0.93      | 0.92   | 0.92     |

### Com Stemming

| Modelo            | Classe   | Precision | Recall | F1 Score |
|------------------:|--------: |:---------:|:------:|:--------:|
| **Random Forest** | Negativa | 0.53      | 0.07   | 0.12     |
|                   | Positiva | 0.78      | 0.98   | 0.87     |
| **CNN**           | Negativa | 0.81      | 0.62   | 0.70     |
|                   | Positiva | 0.90      | 0.96   | 0.93     |
| **LSTM**          | Negativa | 0.55      | 0.76   | 0.63     |
|                   | Positiva | 0.92      | 0.82   | 0.86     |

### BERT

| Modelo    | Classe   | Precision | Recall | F1 Score |
|----------:|--------: |:---------:|:------:|:--------:|
| **BERT**  | Negativa | 0.83      | 0.84   | 0.83     |
|           | Positiva | 0.95      | 0.95   | 0.95     |