<a href="https://colab.research.google.com/github/ajuliasousa/TCC-2025-1/blob/main/TCC_Modelos_Tradicionais_DL_Dataset_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Panorama Geral do Trabalho**

**Título:**

Avaliação Comparativa de Modelos de Machine Learning e Deep Learning para Detecção de Discurso de Ódio com Diferentes Técnicas de Representação e Balanceamento de Dados

**Objetivo Geral:**

Avaliar e comparar o desempenho de diferentes algoritmos de classificação, incluindo modelos tradicionais de Machine Learning (ML) e arquiteturas de Deep Learning (DL), na tarefa de detecção de discurso de ódio em dados textuais, analisando o impacto de distintas abordagens de representação vetorial e técnicas de balanceamento de classes.

**Objetivos Específicos:**

1.	Realizar o pré-processamento e a limpeza de um corpus textual rotulado para discurso de ódio.
2.	Representar os dados textuais por meio de TF-IDF e embeddings (pré-treinados ou ajustados).
3.	Treinar e avaliar modelos de ML com TF-IDF: Naive Bayes, Regressão Logística, SVM, Random Forest, LightGBM, MLP.
4.	Preparar dados com tokenização, vocabulário e padding para modelos DL com embeddings.
5.	Treinar redes profundas: CNN e LSTM com embeddings.
6.	Aplicar diferentes estratégias de balanceamento de dados: oversampling, undersampling e uso de class_weight.
7.	Avaliar os modelos usando métricas: F1-score ponderado, AUC e acurácia.
8.	Comparar sistematicamente o desempenho dos modelos em diferentes cenários e técnicas de representação.
9.	Discutir os impactos do tipo de vetorização e do balanceamento nos resultados obtidos.



### **Dataset 3 : Hate Speech Detection**

**Link:** https://www.kaggle.com/datasets/waalbannyantudre/hate-speech-detection-curated-dataset/data



Este projeto também utiliza o **"Hate Speech Detection Curated Dataset"**, disponibilizado no Kaggle, que foi elaborado com o objetivo de refletir as atuais tendências de linguagem presentes em plataformas de redes sociais, onde a propagação de discursos de ódio ocorre frequentemente por meio de conteúdo textual. O dataset reúne sentenças curtas em inglês anotadas em duas classes: **"0" para conteúdo não odioso e "1" para conteúdo considerado discurso de ódio**.

Um dos principais diferenciais deste conjunto de dados é a incorporação de elementos típicos da comunicação online, como emojis, emoticons, hashtags, gírias e contrações — o que o torna especialmente relevante para aplicações práticas em ambientes digitais contemporâneos. Por ser um corpus curado e filtrado, ele pode ser utilizado com segurança em pesquisas e sistemas de detecção automática sem expor informações sensíveis ou identificáveis.

Assim, o dataset representa uma fonte valiosa para o treinamento e a avaliação de modelos de aprendizado de máquina e técnicas de Processamento de Linguagem Natural (PLN) voltadas à detecção de discurso de ódio, além de poder servir como benchmark em estudos futuros sobre o tema.

### **Bibliotecas e Visão do Dataset**

In [None]:
# bibliotecas
import pandas as pd
import numpy as np

# drive
from google.colab import drive
drive.mount('/content/drive')

file_path = '/content/drive/MyDrive/TCC/Datasets/Hate Speech Detection/HateSpeechDataset.csv'
df = pd.read_csv(file_path)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
print("Dataset:")
print("Primeiras linhas:")
print(df.head())
print("\nInformações:")
df.info()
print("\nDescrição estatística:")
print(df.describe())

Dataset:
Primeiras linhas:
                                             Content Label  \
0  denial of normal the con be asked to comment o...     1   
1  just by being able to tweet this insufferable ...     1   
2  that is retarded you too cute to be single tha...     1   
3  thought of a real badass mongol style declarat...     1   
4                                afro american basho     1   

                                         Content_int  
0  [146715, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,...  
1  [146715, 14, 15, 16, 17, 7, 18, 19, 20, 21, 22...  
2  [146715, 28, 29, 30, 26, 31, 32, 7, 5, 33, 28,...  
3  [146715, 35, 1, 24, 36, 37, 38, 39, 40, 1, 41,...  
4                       [146715, 46, 47, 48, 146714]  

Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440906 entries, 0 to 440905
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   Content      440906 non-null  object
 1   Label        44

O dataset analisado é composto por **440.906 observações**, cada uma representando uma sentença textual (coluna `Content`) anotada com um rótulo de classificação (`Label`) e uma representação numérica tokenizada (`Content_int`).

A coluna `Label` possui **três valores distintos**, com predominância da classe `0`, que representa **conteúdos não ofensivos**, totalizando **361.594 ocorrências** (cerca de 82% dos dados). As colunas `Content` e `Content_int` apresentam **417.561 valores únicos**, indicando que a maior parte das mensagens e suas representações inteiras são distintas entre si, refletindo a diversidade textual do corpus.



In [None]:
# verificação de label
print("\nValores únicos na coluna 'Label':", df['Label'].unique())

# tratamento dos dados
df = df[df['Label'].isin(['0', '1'])].copy() # mantém apenas linhas com labels '0' ou '1'

# conversão
df['Label'] = df['Label'].astype(int)

print("\nInformações do DataFrame após tratar a coluna 'Label':")
df.info()
print("\nContagem de valores na coluna 'Label' após tratamento:")
print(df['Label'].value_counts())


Valores únicos na coluna 'Label': ['1' '0' 'Label']

Informações do DataFrame após tratar a coluna 'Label':
<class 'pandas.core.frame.DataFrame'>
Index: 440899 entries, 0 to 440905
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   Content      440899 non-null  object
 1   Label        440899 non-null  int64 
 2   Content_int  440899 non-null  object
dtypes: int64(1), object(2)
memory usage: 13.5+ MB

Contagem de valores na coluna 'Label' após tratamento:
Label
0    361594
1     79305
Name: count, dtype: int64


Antes do tratamento, a coluna `Label` continha três valores únicos: `'1'`, `'0'` e `'Label'`, indicando a presença de uma string de cabeçalho indevidamente lida como dado. Após a correção, o dataset passou a conter **440.899 entradas válidas**, com os rótulos devidamente convertidos para o tipo `int64`.

A distribuição das classes mostra uma forte desproporcionalidade: **361.594 amostras (≈82%)** foram rotuladas como **não odiosas (classe 0)**, enquanto **79.305 amostras (≈18%)** foram classificadas como **discurso de ódio (classe 1)**. Esse desequilíbrio justifica a necessidade do uso de técnicas de balanceamento durante o treinamento dos modelos.

Dado o grande volume de dados presentes no dataset original — com mais de 440 mil observações —, optou-se pela criação de um **subconjunto estratificado de 25.000 amostras** para o desenvolvimento e experimentação dos modelos de machine learning.

Essa abordagem visa **reduzir o custo computacional** durante as etapas de pré-processamento, vetorização e treinamento, permitindo **execução mais rápida** e iterativa dos experimentos, sem comprometer significativamente a representatividade das classes.

O uso do parâmetro `stratify` ao aplicar `train_test_split` garante que o subconjunto preserve a **mesma proporção entre instâncias de discurso de ódio e conteúdo não odioso** encontrada no dataset completo. No subconjunto criado, foram selecionadas exatamente **20.503 instâncias da classe 0 (não odioso)** e **4.497 instâncias da classe 1 (discurso de ódio)**, refletindo fielmente a distribuição original das classes.


In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd

# recorte de subset por limitação computacional
subset_size = 25000

# verificação
if subset_size > len(df):
    print("O tamanho do subconjunto desejado é maior que o número total de linhas.")
    subset_size = len(df)
    print(f"Usando o tamanho total do dataset: {subset_size}")

# uso do train_test_split para selecionar um subconjunto estratificado.
# divisão o dataset original em um conjunto de treino (que será nosso 'df_subset') e um conjunto de teste
# a proporção para o conjunto de treino é subset_size / len(df).
# uso do stratify=df['Label'] para garantir que a proporção das classes seja mantida.

# uso do random_state para reprodutibilidade e stratify para garantir a proporção das classes.
df_subset, df_rest = train_test_split(
    df,
    train_size=subset_size,
    random_state=42,
    stratify=df['Label']
)

# reindeixação
df_subset = df_subset.reset_index(drop=True)

print(f"\nSubconjunto criado com {len(df_subset)} observações.")
print("\nDistribuição das classes no subconjunto:")
print(df_subset['Label'].value_counts())


Subconjunto criado com 25000 observações.

Distribuição das classes no subconjunto:
Label
0    20503
1     4497
Name: count, dtype: int64


### **Pré-processamento Textual**

**1. Limpeza com clean_text()**

Função que aplica regras para "limpar" os textos brutos:

    Remove URLs: tira links da internet (ex: http://...).

    Remove menções: elimina nomes de usuários (@usuario).

    Remove hashtags: exclui palavras precedidas de # (ou poderia apenas remover o símbolo).

    Remove caracteres não alfabéticos: exclui números, pontuações e símbolos, mantendo letras e acentuação.

    Converte para minúsculas: uniformiza o texto.

    Remove espaços extras: com strip().

Resultado: uma versão mais "limpa" do tweet.

**2. Tokenização e Processamento Avançado**

Com a função preprocess_text_advanced():

    Tokenização: divide o texto em palavras (tokens) com word_tokenize.

    Remoção de stopwords: elimina palavras muito comuns em inglês (ex: the, and, is) que pouco contribuem para a análise.

    Lematização: reduz as palavras à sua forma base (ex: running vira run, cars vira car), usando o WordNetLemmatizer.

In [None]:
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import pandas as pd


# regras de limpeza
def clean_text(text):
    text = re.sub(r'http\S+', '', text) # remove URLs
    text = re.sub(r'@\w+', '', text) # remove menções
    text = re.sub(r'#\w+', '', text) # remove hashtags (ou pode mantê-las sem o #)
    # removendo acentos para simplificar a lematização com WordNetLemmatizer
    text = re.sub(r'[^a-zA-Z\s]', '', text, re.I|re.A) # remove caracteres não alfabéticos
    text = text.lower() # converte para minúsculas
    text = text.strip()
    return text

# aplicação
df_subset['cleaned_content'] = df_subset['Content'].apply(clean_text)

print("\nExemplo de conteúdo limpo (df_subset):")
print(df_subset[['Content', 'cleaned_content']].head())


# recursos de lematização
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')
try:
    nltk.data.find('corpora/stopwords')
except LookupError:
    nltk.download('stopwords')
try:
    nltk.data.find('corpora/wordnet')
except LookupError:
    nltk.download('wordnet')
# tratativa de exceção
try:
    nltk.data.find('tokenizers/punkt_tab')
except LookupError:
    print("Downloading 'punkt_tab'...")
    nltk.download('punkt_tab')
    print("'punkt_tab' downloaded.")


# inicializa lematizador e stop words para inglês
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

def preprocess_text_advanced(text):
    if pd.isna(text) or not isinstance(text, str):
        return []
    tokens = word_tokenize(text)
    processed_tokens = [lemmatizer.lemmatize(word) for word in tokens if word not in stop_words and word.isalpha()] # Adicionado isalpha() para garantir que são palavras
    return processed_tokens

# aplica pré-processamento
df_subset['processed_tokens'] = df_subset['cleaned_content'].apply(preprocess_text_advanced)

print("\nExemplo de tokens processados (df_subset):")
print(df_subset[['Content', 'processed_tokens']].head())


Exemplo de conteúdo limpo (df_subset):
                                             Content  \
0  that is what it is being years since i read th...   
1  czar baldy bald does not have enough info to g...   
2  i ve seen some discussion that there are simil...   
3  they are weak and subhuman the problem is that...   
4  hitler what a slut the perfect guy in wwii ser...   

                                     cleaned_content  
0  that is what it is being years since i read th...  
1  czar baldy bald does not have enough info to g...  
2  i ve seen some discussion that there are simil...  
3  they are weak and subhuman the problem is that...  
4  hitler what a slut the perfect guy in wwii ser...  


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


Downloading 'punkt_tab'...


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


'punkt_tab' downloaded.

Exemplo de tokens processados (df_subset):
                                             Content  \
0  that is what it is being years since i read th...   
1  czar baldy bald does not have enough info to g...   
2  i ve seen some discussion that there are simil...   
3  they are weak and subhuman the problem is that...   
4  hitler what a slut the perfect guy in wwii ser...   

                                    processed_tokens  
0  [year, since, read, thing, book, felt, could, ...  
1    [czar, baldy, bald, enough, info, get, article]  
2  [seen, discussion, similarity, anon, tactic, c...  
3  [weak, subhuman, problem, monopoly, finance, m...  
4  [hitler, slut, perfect, guy, wwii, seriously, ...  


### **Vetorização com  TF-IDF**

Para transformar os textos dos tweets em uma representação numérica adequada aos algoritmos de aprendizado de máquina, foi utilizado o método de vetorização **TF-IDF (Term Frequency-Inverse Document Frequency).**

Esse processo converte cada tweet em um vetor que reflete a relevância de cada termo no contexto do corpus, penalizando palavras muito frequentes e destacando termos mais informativos. Antes da vetorização, os tokens de cada tweet foram recombinados em strings, já que o `TfidfVectorizer` opera sobre textos contínuos.

Após a definição do subconjunto com 25.000 observações, foi realizado o processo de **vetorização textual utilizando a técnica TF-IDF (Term Frequency-Inverse Document Frequency)**, com um limite de 5.000 features. Esse método transforma o conteúdo textual em uma matriz numérica esparsa, onde cada linha representa um documento (neste caso, um tweet) e cada coluna representa um termo relevante do vocabulário.

A matriz resultante do `df_subset` apresentou a forma **(25000, 5000)**, indicando 25.000 documentos e 5.000 termos distintos. Em seguida, essa matriz foi dividida em conjuntos de treino e teste utilizando `train_test_split`, com 80% dos dados destinados ao treinamento e 20% à avaliação. O conjunto de treino resultou em uma matriz de **(20000, 5000)** e o de teste em **(5000, 5000)**. As variáveis alvo (labels) correspondentes a cada conjunto apresentaram dimensões **(20000,)** e **(5000,)**, respectivamente.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# verificação de 'processed_tokens' e 'Label'
texts_for_tfidf = df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens))
labels = df_subset['Label']

# inicializa o TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=5000)

# aplica o vetorizador
tfidf_matrix = tfidf_vectorizer.fit_transform(texts_for_tfidf)

print("\nForma da matriz TF-IDF do df_subset:")
print(tfidf_matrix.shape)

# --- divide os dados vetorizados em treino e teste ---
X_train, X_test, y_train, y_test = train_test_split(
    tfidf_matrix,
    labels,
    test_size=0.20,
    random_state=42,
    stratify=labels
)

print("\nForma da matriz TF-IDF de Treino após o split:")
print(X_train.shape)
print("\nForma da matriz TF-IDF de Teste após o split:")
print(X_test.shape)
print("\nForma dos labels de Treino após o split:")
print(y_train.shape)
print("\nForma dos labels de Teste após o split:")
print(y_test.shape)


Forma da matriz TF-IDF do df_subset:
(25000, 5000)

Forma da matriz TF-IDF de Treino após o split:
(20000, 5000)

Forma da matriz TF-IDF de Teste após o split:
(5000, 5000)

Forma dos labels de Treino após o split:
(20000,)

Forma dos labels de Teste após o split:
(5000,)


### **Aplicação em dataset desbalanceado**

#### **Divisão em treino/ teste**

Após a vetorização dos dados, o conjunto TF-IDF foi dividido em dois subconjuntos: **80% para treino e 20% para teste**. O conjunto de treino possui **20.000 amostras**, enquanto o conjunto de teste contém **5.000 amostras**.

Ambos mantêm a mesma dimensionalidade de 5.000 features, correspondente aos termos mais relevantes extraídos do vocabulário do corpus. Essa divisão permite avaliar o desempenho dos modelos de forma justa, utilizando dados não vistos durante o treinamento.


In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd

# divisão em, treino/teste
X_split = tfidf_matrix
y_split = labels

X_train, X_test, y_train, y_test = train_test_split(
    X_split, y_split, test_size=0.20, random_state=42, stratify=y_split
)

print("Forma dos dados de treino (X_train, y_train):", X_train.shape, y_train.shape)
print("Forma dos dados de teste (X_test, y_test):", X_test.shape, y_test.shape)

Forma dos dados de treino (X_train, y_train): (20000, 5000) (20000,)
Forma dos dados de teste (X_test, y_test): (5000, 5000) (5000,)


#### **Modelos Tradicionais**

Quatro modelos de classificação supervisionada foram treinados para prever categorias de tweets (discurso de ódio, linguagem ofensiva ou nenhum dos dois), utilizando a matriz TF-IDF como entrada. Os modelos testados foram: **Regressão Logística, Naive Bayes Multinomial, Support Vector Machine (SVM com kernel linear) e Random Forest**. Cada modelo foi ajustado com os dados de treino e avaliado com os dados de teste usando métricas como **acurácia, F1-score (ponderado) e AUC (curva ROC, ponderada)**. Os resultados foram armazenados em um dicionário para facilitar a comparação de desempenho entre os classificadores.

**Regressão Logística**

A Regressão Logística foi utilizada como um modelo linear de base para classificação . Ela estima a probabilidade de um tweet pertencer a cada uma das classes com base nas palavras mais relevantes (extraídas via TF-IDF). O modelo foi treinado com um número maior de iterações (max_iter=1000) para garantir a convergência, dado o tamanho da matriz. Por oferecer suporte ao método predict_proba, foi possível calcular a métrica AUC ponderada (one-vs-rest), o que fornece uma medida robusta da capacidade do modelo em distinguir entre as classes.

**Naive Bayes Multinomial**

O modelo Naive Bayes Multinomial é especialmente adequado para tarefas de classificação de texto, por assumir que as características (neste caso, palavras) ocorrem de forma independente. Ele é simples, eficiente e frequentemente usado como forte baseline em PLN. No experimento, ele também permitiu a geração de probabilidades de classe (predict_proba), o que possibilitou o cálculo da AUC. Apesar de suas suposições simplificadas, o Naive Bayes costuma ter desempenho competitivo quando os dados estão bem vetorizados.

**Support Vector Machine (SVM)**

O SVM foi utilizado com kernel linear, uma configuração comum e eficaz para dados textuais de alta dimensionalidade, como é o caso da matriz TF-IDF. Foi ativada a opção probability=True para possibilitar o cálculo da AUC, embora isso torne o treinamento mais custoso computacionalmente. O SVM busca encontrar hiperplanos que melhor separam as classes, sendo especialmente útil quando há margens claras entre categorias. Apesar de não ser naturalmente probabilístico, sua robustez o torna uma escolha frequente em tarefas de classificação com múltiplas classes.

**Random Forest**

O modelo Random Forest foi treinado com 100 árvores de decisão, combinando os resultados de várias árvores para aumentar a estabilidade e a precisão da predição. Como um modelo de ensemble, ele lida bem com dados complexos e é menos sensível a overfitting do que uma única árvore. Também oferece suporte a predict_proba, permitindo calcular a AUC ponderada. Sua capacidade de capturar interações não lineares entre os termos dos textos pode ser vantajosa em relação a modelos lineares, especialmente quando o texto contém padrões mais sutis.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score, f1_score
import pandas as pd

results = {}

# 1. Regressão Logística
print("Treinando Regressão Logística...")
lr_model = LogisticRegression(max_iter=1000)
lr_model.fit(X_train, y_train)
lr_predictions = lr_model.predict(X_test)
lr_predictions_proba = lr_model.predict_proba(X_test)[:, 1]

print("Avaliação da Regressão Logística:")
print(classification_report(y_test, lr_predictions))
print("Acurácia: ", accuracy_score(y_test, lr_predictions))
print("Weighted F1-score:", f1_score(y_test, lr_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, lr_predictions_proba))


# dicionário de resultados
lr_report = classification_report(y_test, lr_predictions, output_dict=True)
results['Logistic Regression'] = {
    'accuracy': accuracy_score(y_test, lr_predictions),
    'precision (macro)': lr_report['macro avg']['precision'],
    'recall (macro)': lr_report['macro avg']['recall'],
    'f1-score (macro)': lr_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lr_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, lr_predictions_proba)
}

print("-" * 50)

# 2. Naive Bayes Multinomial
print("Treinando Naive Bayes Multinomial...")
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)
nb_predictions = nb_model.predict(X_test)
nb_predictions_proba = nb_model.predict_proba(X_test)[:, 1]

print("Avaliação do Naive Bayes Multinomial:")
print(classification_report(y_test, nb_predictions))
print("Acurácia: ", accuracy_score(y_test, nb_predictions))
print("Weighted F1-score:", f1_score(y_test, nb_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, nb_predictions_proba))

# dicionário de resultados
nb_report = classification_report(y_test, nb_predictions, output_dict=True)
results['Multinomial NB'] = {
    'accuracy': accuracy_score(y_test, nb_predictions),
    'precision (macro)': nb_report['macro avg']['precision'],
    'recall (macro)': nb_report['macro avg']['recall'],
    'f1-score (macro)': nb_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, nb_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, nb_predictions_proba)
}

print("-" * 50)

# 3. Support Vector Machine (SVM)
print("Treinando SVM (Kernel Linear)...")
svm_model = SVC(kernel='linear', probability=True)
svm_model.fit(X_train, y_train)
svm_predictions = svm_model.predict(X_test)
svm_predictions_proba = svm_model.predict_proba(X_test)[:, 1]

print("Avaliação do SVM:")
print(classification_report(y_test, svm_predictions))
print("Acurácia: ", accuracy_score(y_test, svm_predictions))
print("Weighted F1-score:", f1_score(y_test, svm_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, svm_predictions_proba))

# dicionário de resultados
svm_report = classification_report(y_test, svm_predictions, output_dict=True)
results['SVM'] = {
    'accuracy': accuracy_score(y_test, svm_predictions),
    'precision (macro)': svm_report['macro avg']['precision'],
    'recall (macro)': svm_report['macro avg']['recall'],
    'f1-score (macro)': svm_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, svm_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, svm_predictions_proba)
}


print("-" * 50)

# 4. Random Forest Classifier
print("Treinando Random Forest...")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)
rf_predictions_proba = rf_model.predict_proba(X_test)[:, 1]

print("Avaliação do Random Forest:")
print(classification_report(y_test, rf_predictions))
print("Acurácia: ", accuracy_score(y_test, rf_predictions))
print("Weighted F1-score:", f1_score(y_test, rf_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, rf_predictions_proba))

# dicionário de resultados
rf_report = classification_report(y_test, rf_predictions, output_dict=True)
results['Random Forest'] = {
    'accuracy': accuracy_score(y_test, rf_predictions),
    'precision (macro)': rf_report['macro avg']['precision'],
    'recall (macro)': rf_report['macro avg']['recall'],
    'f1-score (macro)': rf_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, rf_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, rf_predictions_proba)
}

print("\nResultados acumulados até agora:")
print(results)

Treinando Regressão Logística...
Avaliação da Regressão Logística:
              precision    recall  f1-score   support

           0       0.87      0.97      0.91      4101
           1       0.68      0.32      0.44       899

    accuracy                           0.85      5000
   macro avg       0.77      0.64      0.68      5000
weighted avg       0.83      0.85      0.83      5000

Acurácia:  0.8506
Weighted F1-score: 0.8281429780388009
AUC: 0.8609071175293256
--------------------------------------------------
Treinando Naive Bayes Multinomial...
Avaliação do Naive Bayes Multinomial:
              precision    recall  f1-score   support

           0       0.86      0.97      0.91      4101
           1       0.66      0.28      0.39       899

    accuracy                           0.84      5000
   macro avg       0.76      0.62      0.65      5000
weighted avg       0.82      0.84      0.82      5000

Acurácia:  0.8446
Weighted F1-score: 0.8175401737151381
AUC: 0.8493548197

In [None]:
# instalação
!pip install tensorflow

# importações de bibliotecas necessárias para a CNN
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder



In [None]:
# --- Modelos Avançados com TF-IDF ---

# 5. LightGBM (Gradient Boosting)
!pip install lightgbm

import lightgbm as lgb
import numpy as np
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score

print("\n" + "="*50)
print("Treinando LightGBM...")

# o número de classes será 2
num_classes = len(np.unique(y_train))

# converte matriz esparsa para o formato LightGBM
lgb_model = lgb.LGBMClassifier(objective='binary', random_state=42)
lgb_model.fit(X_train, y_train)
lgb_predictions = lgb_model.predict(X_test)

# obtém probabilidades da classe positiva para AUC
lgb_predictions_proba = lgb_model.predict_proba(X_test)[:, 1]

print("Avaliação do LightGBM:")
print(classification_report(y_test, lgb_predictions))
print("Acurácia: ", accuracy_score(y_test, lgb_predictions))
print("Weighted F1-score:", f1_score(y_test, lgb_predictions, average='weighted'))

# cálculo de AUC
try:
    lgb_auc_score = roc_auc_score(y_test, lgb_predictions_proba)
    print("AUC:", lgb_auc_score)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    lgb_auc_score = None


# dicionário de resultados
lgb_report = classification_report(y_test, lgb_predictions, output_dict=True)
results['LightGBM'] = {
    'accuracy': accuracy_score(y_test, lgb_predictions),
    'precision (macro)': lgb_report['macro avg']['precision'],
    'recall (macro)': lgb_report['macro avg']['recall'],
    'f1-score (macro)': lgb_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lgb_predictions, average='weighted'),
    'auc': lgb_auc_score #
}


print("-" * 50)

# 6. Rede Neural Densa (MLP) com TensorFlow/Keras
import tensorflow as tf
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score

print("Treinando Rede Neural Densa (MLP)...")

num_classes_mlp = len(np.unique(y_train))

# constrói o Modelo MLP
mlp_model = Sequential([
    Dense(256, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.5),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

mlp_model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])


# treino do Modelo MLP
epochs_mlp = 20
batch_size_mlp = 64


print("\nTreinando MLP...")
history_mlp = mlp_model.fit(X_train, y_train,
                          epochs=epochs_mlp,
                          batch_size=batch_size_mlp,
                          validation_data=(X_test, y_test),
                          verbose=1)


print("\nResumo do Modelo MLP:")
mlp_model.summary()

# avaliação do Modelo MLP
print("\nAvaliando MLP no conjunto de teste...")
loss_mlp, accuracy_mlp = mlp_model.evaluate(X_test, y_test, verbose=0)

print(f"\nAcurácia da MLP no conjunto de teste: {accuracy_mlp:.4f}")

# gera previsões de probabilidade
mlp_predictions_proba_positive = mlp_model.predict(X_test)

# obtém as classes preditas
mlp_predictions = (mlp_predictions_proba_positive >= 0.5).astype(int).flatten()

print("\nAvaliação completa da MLP:")
print(classification_report(y_test, mlp_predictions))

# cálculo de F1-score ponderado
mlp_weighted_f1 = f1_score(y_test, mlp_predictions, average='weighted')
print("Weighted F1-score:", mlp_weighted_f1)

# cálculo de AUC
try:
    mlp_auc_score = roc_auc_score(y_test, mlp_predictions_proba_positive)
    print("AUC:", mlp_auc_score)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    mlp_auc_score = None


# dicionário de resultados
mlp_report = classification_report(y_test, mlp_predictions, output_dict=True)
results['MLP (TF-IDF)'] = {
    'accuracy': accuracy_mlp,
    'precision (macro)': mlp_report['macro avg']['precision'],
    'recall (macro)': mlp_report['macro avg']['recall'],
    'f1-score (macro)': mlp_report['macro avg']['f1-score'],
    'f1-score (weighted)': mlp_weighted_f1,
    'auc': mlp_auc_score
}

print("="*50)


Treinando LightGBM...




[LightGBM] [Info] Number of positive: 3598, number of negative: 16402
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.454492 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 88850
[LightGBM] [Info] Number of data points in the train set: 20000, number of used features: 2680
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.179900 -> initscore=-1.517025
[LightGBM] [Info] Start training from score -1.517025


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Avaliação do LightGBM:
              precision    recall  f1-score   support

           0       0.87      0.96      0.91      4101
           1       0.63      0.35      0.45       899

    accuracy                           0.85      5000
   macro avg       0.75      0.65      0.68      5000
weighted avg       0.83      0.85      0.83      5000

Acurácia:  0.8456
Weighted F1-score: 0.8268504750781127
AUC: 0.8413867965137236
--------------------------------------------------
Treinando Rede Neural Densa (MLP)...

Treinando MLP...
Epoch 1/20
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 30ms/step - accuracy: 0.8092 - loss: 0.4551 - val_accuracy: 0.8500 - val_loss: 0.3493
Epoch 2/20
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 29ms/step - accuracy: 0.8683 - loss: 0.2976 - val_accuracy: 0.8518 - val_loss: 0.3542
Epoch 3/20
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 24ms/step - accuracy: 0.8996 - loss: 0.2382 - val_accuracy:


Avaliando MLP no conjunto de teste...

Acurácia da MLP no conjunto de teste: 0.8434
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step

Avaliação completa da MLP:
              precision    recall  f1-score   support

           0       0.88      0.93      0.91      4101
           1       0.58      0.44      0.51       899

    accuracy                           0.84      5000
   macro avg       0.73      0.69      0.71      5000
weighted avg       0.83      0.84      0.83      5000

Weighted F1-score: 0.8347655047605053
AUC: 0.8199473310044838


#### **Modelos de DL**

Para explorar abordagens mais profundas de aprendizado, foi implementada **uma rede neural convolucional (CNN)** voltada para a classificação de textos. Como esse tipo de modelo trabalha melhor com sequências de palavras em vez de vetores TF-IDF, os tweets foram tokenizados e convertidos em **sequências inteiras**, com padding para garantir um comprimento fixo.

O modelo foi construído com uma camada de embedding (para mapear palavras em vetores densos), seguida por uma **camada convolucional 1D** que captura padrões locais no texto e uma **camada de pooling** que extrai as informações mais relevantes. Camadas densas e dropout foram adicionadas para refinar o aprendizado e reduzir overfitting. O modelo foi treinado por 10 épocas e avaliado com base em métricas como acurácia, F1-score e AUC. Essa arquitetura permite capturar melhor a estrutura local e semântica dos textos, sendo especialmente útil para dados curtos e ruidosos como tweets.

In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np
from sklearn.utils.class_weight import compute_class_weight

# --- pré-processamento para CNN/LSTM  ---

max_words = 10000
max_sequence_length = 100

all_texts = df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens))
all_labels = df_subset['Label']

# --- tokenização ---
tokenizer = Tokenizer(num_words=max_words, oov_token="<OOV>")
tokenizer.fit_on_texts(all_texts)

# converte textos para sequências de inteiros
all_sequences = tokenizer.texts_to_sequences(all_texts)

# --- padding das Sequências ---
all_padded_sequences = pad_sequences(all_sequences, maxlen=max_sequence_length, padding='post', truncating='post')

print("\nExemplo de sequências padded (df_subset completo):")
print(all_padded_sequences[:5])
print("\nForma das sequências padded (df_subset completo):", all_padded_sequences.shape)

# --- prepara labels para CNN/LSTM ---
# as labels do df_subset já devem ser inteiros (0 ou 1) devido ao pré-processamento anterior.
encoded_all_labels = all_labels.values

print("\nLabels do df_subset:", np.unique(encoded_all_labels))

# --- divisão dos dados para CNN/LSTM (a partir do df_subset completo) ---
X_train_val, X_test_cnn_final, y_train_val, y_test_cnn_final = train_test_split(
    all_padded_sequences, encoded_all_labels, test_size=0.20, random_state=42, stratify=encoded_all_labels
)

X_train_cnn, X_val_cnn, y_train_cnn, y_val_cnn = train_test_split(
    X_train_val, y_train_val, test_size=0.25, random_state=42, stratify=y_train_val
    # test_size=0.25 para 25% do conjunto train_val, que é 20% do total original (0.25 * 0.80 = 0.20)
    # ao final aproximadamente 60% Treino, 20% Validação, 20% Teste.
)


print("\nForma dos dados de treino para CNN:", X_train_cnn.shape, y_train_cnn.shape)
print("Forma dos dados de validação para CNN:", X_val_cnn.shape, y_val_cnn.shape)
print("Forma dos dados de teste FINAL para CNN:", X_test_cnn_final.shape, y_test_cnn_final.shape)


# --- contrói o Modelo CNN ---

embedding_dim = 128
filter_sizes = [3]
num_filters = 128

model = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    Conv1D(filters=num_filters, kernel_size=filter_sizes[0], activation='relu'),
    GlobalMaxPooling1D(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# --- treino do Modelo CNN ---
epochs = 10
batch_size = 32

print("\nTreinando CNN...")
history = model.fit(X_train_cnn, y_train_cnn,
                    epochs=epochs,
                    batch_size=batch_size,
                    validation_data=(X_val_cnn, y_val_cnn),
                    verbose=1)

print("\nResumo do Modelo CNN:")
model.summary()

# ---avaliação do Modelo CNN ---
print("\nAvaliando CNN no conjunto de teste FINAL...")
loss_cnn_test, accuracy_cnn_test = model.evaluate(X_test_cnn_final, y_test_cnn_final, verbose=0)

print(f"\nAcurácia da CNN no conjunto de teste FINAL: {accuracy_cnn_test:.4f}")

# gera previsões e probabilidades
cnn_predictions_proba_positive_test = model.predict(X_test_cnn_final)
cnn_predictions_test = (cnn_predictions_proba_positive_test >= 0.5).astype(int).flatten()

print("\nAvaliação completa da CNN no conjunto de teste FINAL:")
print(classification_report(y_test_cnn_final, cnn_predictions_test))

# cálculo de F1-score ponderado e AUC
cnn_weighted_f1_test = f1_score(y_test_cnn_final, cnn_predictions_test, average='weighted')
print("Weighted F1-score:", cnn_weighted_f1_test)

try:
    cnn_auc_score_test = roc_auc_score(y_test_cnn_final, cnn_predictions_proba_positive_test)
    print("AUC:", cnn_auc_score_test)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    cnn_auc_score_test = None

print("="*50)

# dicionário de resultados

cnn_report_test = classification_report(y_test_cnn_final, cnn_predictions_test, output_dict=True)
results['CNN (Embedding+Seq) Test'] = {
    'accuracy': accuracy_cnn_test,
    'precision (macro)': cnn_report_test['macro avg']['precision'],
    'recall (macro)': cnn_report_test['macro avg']['recall'],
    'f1-score (macro)': cnn_report_test['macro avg']['f1-score'],
    'f1-score (weighted)': cnn_weighted_f1_test,
    'auc': cnn_auc_score_test
}


Exemplo de sequências padded (df_subset completo):
[[  57   84   90   47  156 1215   28 2589  146 3160 2199  101    1 2413
  2589  101 2200   14  113  681  680 4581    1    6 2589  101 1262   48
   194  348 3522    6 1263 3803    6   19  277 8319  997  942 2525   82
    35   23 1801   62  303  198  249    8  282   60 1361    8  583 8319
   375  363 8319 2161  198  370 1392 1008  363  252   47    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0]
 [   1    1 7440  224  285   19    2    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0



[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m23s[0m 45ms/step - accuracy: 0.8145 - loss: 0.4512 - val_accuracy: 0.8510 - val_loss: 0.3292
Epoch 2/10
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 47ms/step - accuracy: 0.8933 - loss: 0.2582 - val_accuracy: 0.8502 - val_loss: 0.3319
Epoch 3/10
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m39s[0m 44ms/step - accuracy: 0.9363 - loss: 0.1584 - val_accuracy: 0.8530 - val_loss: 0.3927
Epoch 4/10
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 45ms/step - accuracy: 0.9739 - loss: 0.0730 - val_accuracy: 0.8406 - val_loss: 0.5711
Epoch 5/10
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 43ms/step - accuracy: 0.9876 - loss: 0.0367 - val_accuracy: 0.8266 - val_loss: 0.6974
Epoch 6/10
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 44ms/step - accuracy: 0.9960 - loss: 0.0130 - val_accuracy: 0.8270 - val_loss: 0.7919
Epoch 7/10
[1m469/469[0m 


Avaliando CNN no conjunto de teste FINAL...

Acurácia da CNN no conjunto de teste FINAL: 0.8328
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 14ms/step

Avaliação completa da CNN no conjunto de teste FINAL:
              precision    recall  f1-score   support

           0       0.87      0.93      0.90      4101
           1       0.55      0.38      0.45       899

    accuracy                           0.83      5000
   macro avg       0.71      0.66      0.68      5000
weighted avg       0.82      0.83      0.82      5000

Weighted F1-score: 0.8205822285173583
AUC: 0.8076487218315944


In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Embedding, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np

# --- reutiliza dados preparados para a CNN ---

# --- constrói o Modelo LSTM ---

print("\n" + "="*50)
print("Construindo o Modelo LSTM...")

# como o problema é binário, a última camada da LSTM deve ter 1 unidade com ativação 'sigmoid'.


model_lstm = Sequential([
    # camada de Embedding: Reutiliza os mesmos parâmetros da CNN para consistência na base de embedding
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    # camada LSTM
    LSTM(128),
    # camada de Dropout
    Dropout(0.5),
    # camada densa (Fully Connected)
    Dense(64, activation='relu'), # Camada densa adicional
    Dropout(0.5),
    # camada de saída: 1 unidade com ativação 'sigmoid' para classificação binária
    Dense(1, activation='sigmoid')
])

model_lstm.compile(optimizer='adam',
                   loss='binary_crossentropy',
                   metrics=['accuracy'])


# --- treino do Modelo LSTM ---
epochs_lstm = 15
batch_size_lstm = 32

print("\nTreinando LSTM...")

history_lstm = model_lstm.fit(X_train_cnn, y_train_cnn,
                              epochs=epochs_lstm,
                              batch_size=batch_size_lstm,
                              validation_data=(X_val_cnn, y_val_cnn),
                              verbose=1)

print("\nResumo do Modelo LSTM:")
model_lstm.summary()

# --- avaliação do Modelo LSTM  ---
print("\nAvaliando LSTM no conjunto de teste FINAL...")
loss_lstm_test, accuracy_lstm_test = model_lstm.evaluate(X_test_cnn_final, y_test_cnn_final, verbose=0)

print(f"\nAcurácia da LSTM no conjunto de teste FINAL: {accuracy_lstm_test:.4f}")

# gera previsões (classes) e probabilidades para calcular métricas
lstm_predictions_proba_positive_test = model_lstm.predict(X_test_cnn_final)

# obtém as classes preditas
lstm_predictions_test = (lstm_predictions_proba_positive_test >= 0.5).astype(int).flatten()

print("\nAvaliação completa da LSTM no conjunto de teste FINAL:")
print(classification_report(y_test_cnn_final, lstm_predictions_test))


# cálculo de F1-score ponderado
lstm_weighted_f1_test = f1_score(y_test_cnn_final, lstm_predictions_test, average='weighted')
print("Weighted F1-score:", lstm_weighted_f1_test)

# cálculo de AUC
try:
    lstm_auc_score_test = roc_auc_score(y_test_cnn_final, lstm_predictions_proba_positive_test)
    print("AUC:", lstm_auc_score_test)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    lstm_auc_score_test = None


print("="*50)

# dicionário de resultados
lstm_report_test = classification_report(y_test_cnn_final, lstm_predictions_test, output_dict=True)

results['LSTM (Embedding+Seq) Test'] = {
    'accuracy': accuracy_lstm_test,
    'precision (macro)': lstm_report_test['macro avg']['precision'],
    'recall (macro)': lstm_report_test['macro avg']['recall'],
    'f1-score (macro)': lstm_report_test['macro avg']['f1-score'],
    'f1-score (weighted)': lstm_weighted_f1_test,
    'auc': lstm_auc_score_test
}


Construindo o Modelo LSTM...

Treinando LSTM...




Epoch 1/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m113s[0m 227ms/step - accuracy: 0.8182 - loss: 0.4988 - val_accuracy: 0.8202 - val_loss: 0.4721
Epoch 2/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m139s[0m 220ms/step - accuracy: 0.8214 - loss: 0.4798 - val_accuracy: 0.8202 - val_loss: 0.4709
Epoch 3/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m112s[0m 238ms/step - accuracy: 0.8236 - loss: 0.4720 - val_accuracy: 0.8202 - val_loss: 0.4689
Epoch 4/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m132s[0m 217ms/step - accuracy: 0.8151 - loss: 0.4821 - val_accuracy: 0.8204 - val_loss: 0.4669
Epoch 5/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m143s[0m 220ms/step - accuracy: 0.8240 - loss: 0.4653 - val_accuracy: 0.8204 - val_loss: 0.4684
Epoch 6/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m141s[0m 217ms/step - accuracy: 0.8195 - loss: 0.4637 - val_accuracy: 0.8202 - val_loss: 0.3822
Epoc


Avaliando LSTM no conjunto de teste FINAL...

Acurácia da LSTM no conjunto de teste FINAL: 0.8198
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 61ms/step

Avaliação completa da LSTM no conjunto de teste FINAL:
              precision    recall  f1-score   support

           0       0.89      0.89      0.89      4101
           1       0.50      0.51      0.50       899

    accuracy                           0.82      5000
   macro avg       0.70      0.70      0.70      5000
weighted avg       0.82      0.82      0.82      5000

Weighted F1-score: 0.820303736403071
AUC: 0.8144487941978937


### **Balanceamento do dataset e retreino dos modelos**

#### **Class_weight**

Nesta etapa do experimento, foi aplicado o **balanceamento de classes por meio do parâmetro class_weight**, com o objetivo de mitigar o impacto do desbalanceamento dos dados na performance dos modelos.

Utilizando a função `compute_class_weight` da biblioteca `sklearn`, foram calculados pesos proporcionais à frequência das classes no conjunto de treinamento. Esses pesos foram incorporados diretamente ao processo de treinamento em modelos que suportam esse recurso, como **Regressão Logística, SVM, Random Forest, LightGBM e Redes Neurais com Keras**.

A inclusão dos pesos penaliza erros cometidos em classes minoritárias, forçando os algoritmos a considerarem com maior atenção esses exemplos menos frequentes. Essa estratégia é especialmente eficaz em cenários de classificação desbalanceada, como o de detecção de discursos ofensivos, contribuindo para **melhorias em métricas como recall e F1-score das classes minoritárias, sem necessariamente comprometer a acurácia geral**.

Modelos como o Naive Bayes Multinomial, que não oferecem suporte direto a class_weight, foram mantidos como referência sem ajuste neste momento.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score, f1_score
import pandas as pd
from sklearn.utils.class_weight import compute_class_weight
import numpy as np

results = {}

print("Treinando modelos tradicionais COM Class Weight...")
print("-" * 50)

# 1. Regressão Logística
print("Treinando Regressão Logística (Class Weight)...")
lr_model = LogisticRegression(max_iter=1000, class_weight='balanced', random_state=42)
lr_model.fit(X_train, y_train)
lr_predictions = lr_model.predict(X_test)
lr_predictions_proba = lr_model.predict_proba(X_test)[:, 1]

print("Avaliação da Regressão Logística (Class Weight):")
print(classification_report(y_test, lr_predictions))
print("Acurácia: ", accuracy_score(y_test, lr_predictions))
print("Weighted F1-score:", f1_score(y_test, lr_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, lr_predictions_proba))

# dicionário de resultados
lr_report = classification_report(y_test, lr_predictions, output_dict=True)
results['Logistic Regression (Class Weight)'] = {
    'accuracy': accuracy_score(y_test, lr_predictions),
    'precision (macro)': lr_report['macro avg']['precision'],
    'recall (macro)': lr_report['macro avg']['recall'],
    'f1-score (macro)': lr_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lr_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, lr_predictions_proba)
}

print("-" * 50)

# 2. Naive Bayes Multinomial
# Nota: MultinomialNB NÃO tem o parâmetro class_weight.
# Naive Bayes já lida com a frequência das classes inerentemente na sua formulação de probabilidade.

print("Treinando Naive Bayes Multinomial (Não suporta class_weight)...")
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)
nb_predictions = nb_model.predict(X_test)
nb_predictions_proba = nb_model.predict_proba(X_test)[:, 1]

print("Avaliação do Naive Bayes Multinomial:")
print(classification_report(y_test, nb_predictions))
print("Acurácia: ", accuracy_score(y_test, nb_predictions))
print("Weighted F1-score:", f1_score(y_test, nb_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, nb_predictions_proba))

# dicionário de resultados
nb_report = classification_report(y_test, nb_predictions, output_dict=True)
results['Multinomial NB'] = {
    'accuracy': accuracy_score(y_test, nb_predictions),
    'precision (macro)': nb_report['macro avg']['precision'],
    'recall (macro)': nb_report['macro avg']['recall'],
    'f1-score (macro)': nb_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, nb_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, nb_predictions_proba)
}

print("-" * 50)


# 3. Support Vector Machine (SVM)
print("Treinando SVM (Kernel Linear) (Class Weight)...")
svm_model = SVC(kernel='linear', probability=True, class_weight='balanced', random_state=42)
svm_model.fit(X_train, y_train)
svm_predictions = svm_model.predict(X_test)
svm_predictions_proba = svm_model.predict_proba(X_test)[:, 1]

print("Avaliação do SVM (Class Weight):")
print(classification_report(y_test, svm_predictions))
print("Acurácia: ", accuracy_score(y_test, svm_predictions))
print("Weighted F1-score:", f1_score(y_test, svm_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, svm_predictions_proba))

# dicionário de resultados
svm_report = classification_report(y_test, svm_predictions, output_dict=True)
results['SVM (Class Weight)'] = {
    'accuracy': accuracy_score(y_test, svm_predictions),
    'precision (macro)': svm_report['macro avg']['precision'],
    'recall (macro)': svm_report['macro avg']['recall'],
    'f1-score (macro)': svm_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, svm_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, svm_predictions_proba)
}


print("-" * 50)

# 4. Random Forest Classifier
print("Treinando Random Forest (Class Weight)...")
rf_model = RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)
rf_model.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)
rf_predictions_proba = rf_model.predict_proba(X_test)[:, 1]

print("Avaliação do Random Forest (Class Weight):")
print(classification_report(y_test, rf_predictions))
print("Acurácia: ", accuracy_score(y_test, rf_predictions))
print("Weighted F1-score:", f1_score(y_test, rf_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, rf_predictions_proba))

# dicionário de resultados
rf_report = classification_report(y_test, rf_predictions, output_dict=True)
results['Random Forest (Class Weight)'] = {
    'accuracy': accuracy_score(y_test, rf_predictions),
    'precision (macro)': rf_report['macro avg']['precision'],
    'recall (macro)': rf_report['macro avg']['recall'],
    'f1-score (macro)': rf_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, rf_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, rf_predictions_proba)
}

print("\nResultados acumulados (incluindo Class Weight) até agora:")
print(results)

Treinando modelos tradicionais COM Class Weight...
--------------------------------------------------
Treinando Regressão Logística (Class Weight)...
Avaliação da Regressão Logística (Class Weight):
              precision    recall  f1-score   support

           0       0.93      0.82      0.87      4101
           1       0.47      0.72      0.57       899

    accuracy                           0.81      5000
   macro avg       0.70      0.77      0.72      5000
weighted avg       0.85      0.81      0.82      5000

Acurácia:  0.8054
Weighted F1-score: 0.819503615198162
AUC: 0.8599667353712529
--------------------------------------------------
Treinando Naive Bayes Multinomial (Não suporta class_weight)...
Avaliação do Naive Bayes Multinomial:
              precision    recall  f1-score   support

           0       0.86      0.97      0.91      4101
           1       0.66      0.28      0.39       899

    accuracy                           0.84      5000
   macro avg       0.76 

In [None]:
# --- Modelos Avançados com TF-IDF (com Class Weight) ---

# importação de bibliotecas
import lightgbm as lgb
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np
from sklearn.utils.class_weight import compute_class_weight


# --- cálculo de Class Weights ---
classes = np.unique(y_train)
class_weights = compute_class_weight('balanced', classes=classes, y=y_train)
class_weight_dict = dict(zip(classes, class_weights))

print("\nPesos das classes para TF-IDF (Class Weight):")
print(class_weight_dict)

print("\n" + "="*50)
print("Treinando Modelos Avançados com TF-IDF usando CLASS WEIGHT...")


# 5. LightGBM (Gradient Boosting) (com Class Weight)
print("Treinando LightGBM com Class Weight...")

lgb_model_cw = lgb.LGBMClassifier(objective='binary', random_state=42, class_weight=class_weight_dict)
lgb_model_cw.fit(X_train, y_train)
lgb_predictions_cw = lgb_model_cw.predict(X_test)
lgb_predictions_proba_cw = lgb_model_cw.predict_proba(X_test)[:, 1]

print("Avaliação do LightGBM (Class Weight):")
print(classification_report(y_test, lgb_predictions_cw))
print("Acurácia: ", accuracy_score(y_test, lgb_predictions_cw))
print("Weighted F1-score:", f1_score(y_test, lgb_predictions_cw, average='weighted'))
print("AUC:", roc_auc_score(y_test, lgb_predictions_proba_cw))


# dicionário de resultados
lgb_report_cw = classification_report(y_test, lgb_predictions_cw, output_dict=True)
results['LightGBM (Class Weight)'] = {
    'accuracy': accuracy_score(y_test, lgb_predictions_cw),
    'precision (macro)': lgb_report_cw['macro avg']['precision'],
    'recall (macro)': lgb_report_cw['macro avg']['recall'],
    'f1-score (macro)': lgb_report_cw['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lgb_predictions_cw, average='weighted'),
    'auc': roc_auc_score(y_test, lgb_predictions_proba_cw)
}


print("-" * 50)

# 6. Rede Neural Densa (MLP) com TensorFlow/Keras (com Class Weight)
print("Treinando Rede Neural Densa (MLP) com Class Weight...")

# o número de classes será 2 para a saída sigmoid
num_classes_mlp_cw = len(np.unique(y_train))
print(f"Número de classes em y_train para MLP (Class Weight): {num_classes_mlp_cw}")

mlp_model_cw = Sequential([
    Dense(256, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.5),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

mlp_model_cw.compile(optimizer='adam',
                     loss='binary_crossentropy',
                     metrics=['accuracy'])


# treino do Modelo MLP
epochs_mlp_cw = 20
batch_size_mlp_cw = 64


print("\nTreinando MLP (Class Weight)...")
history_mlp_cw = mlp_model_cw.fit(X_train, y_train,
                                  epochs=epochs_mlp_cw,
                                  batch_size=batch_size_mlp_cw,
                                  validation_data=(X_test, y_test),
                                  class_weight=class_weight_dict,
                                  verbose=1)


print("\nResumo do Modelo MLP (Class Weight):")
mlp_model_cw.summary()

# avaliação do modelo
print("\nAvaliando MLP (Class Weight) no conjunto de teste...")
loss_mlp_cw, accuracy_mlp_cw = mlp_model_cw.evaluate(X_test, y_test, verbose=0)

print(f"\nAcurácia da MLP (Class Weight) no conjunto de teste: {accuracy_mlp_cw:.4f}")

# gera previsões de probabilidade e classes
mlp_predictions_proba_positive_cw = mlp_model_cw.predict(X_test)
mlp_predictions_cw = (mlp_predictions_proba_positive_cw >= 0.5).astype(int).flatten()

print("\nAvaliação completa da MLP (Class Weight):")
print(classification_report(y_test, mlp_predictions_cw))

mlp_weighted_f1_cw = f1_score(y_test, mlp_predictions_cw, average='weighted')
print("Weighted F1-score:", mlp_weighted_f1_cw)

try:
    mlp_auc_score_cw = roc_auc_score(y_test, mlp_predictions_proba_positive_cw)
    print("AUC:", mlp_auc_score_cw)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    mlp_auc_score_cw = None


# dicionário de resultados
mlp_report_cw = classification_report(y_test, mlp_predictions_cw, output_dict=True)
results['MLP (Class Weight)'] = {
    'accuracy': accuracy_mlp_cw,
    'precision (macro)': mlp_report_cw['macro avg']['precision'],
    'recall (macro)': mlp_report_cw['macro avg']['recall'],
    'f1-score (macro)': mlp_report_cw['macro avg']['f1-score'],
    'f1-score (weighted)': mlp_weighted_f1_cw,
    'auc': mlp_auc_score_cw
}


print("="*50)


Pesos das classes para TF-IDF (Class Weight):
{np.int64(0): np.float64(0.6096817461285209), np.int64(1): np.float64(2.7793218454697053)}

Treinando Modelos Avançados com TF-IDF usando CLASS WEIGHT...
Treinando LightGBM com Class Weight...
[LightGBM] [Info] Number of positive: 3598, number of negative: 16402




[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.389267 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 88850
[LightGBM] [Info] Number of data points in the train set: 20000, number of used features: 2680
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000
[LightGBM] [Info] Start training from score 0.000000


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Avaliação do LightGBM (Class Weight):
              precision    recall  f1-score   support

           0       0.92      0.82      0.87      4101
           1       0.45      0.68      0.54       899

    accuracy                           0.79      5000
   macro avg       0.68      0.75      0.70      5000
weighted avg       0.84      0.79      0.81      5000

Acurácia:  0.7928
Weighted F1-score: 0.8075698695340502
AUC: 0.8360408310840922
--------------------------------------------------
Treinando Rede Neural Densa (MLP) com Class Weight...
Número de classes em y_train para MLP (Class Weight): 2

Treinando MLP (Class Weight)...
Epoch 1/20
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 22ms/step - accuracy: 0.7197 - loss: 0.6056 - val_accuracy: 0.7458 - val_loss: 0.4974
Epoch 2/20
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 26ms/step - accuracy: 0.8105 - loss: 0.3940 - val_accuracy: 0.7614 - val_loss: 0.4880
Epoch 3/20
[1m313/313[0m [32m━━━


Avaliando MLP (Class Weight) no conjunto de teste...

Acurácia da MLP (Class Weight) no conjunto de teste: 0.8156
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 8ms/step

Avaliação completa da MLP (Class Weight):
              precision    recall  f1-score   support

           0       0.90      0.87      0.89      4101
           1       0.49      0.55      0.52       899

    accuracy                           0.82      5000
   macro avg       0.69      0.71      0.70      5000
weighted avg       0.82      0.82      0.82      5000

Weighted F1-score: 0.8195258191616567
AUC: 0.8155262871667266


In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
# from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
from sklearn.utils.class_weight import compute_class_weight
import numpy as np

# --- pré-processamento para CNN ---

# tokenização para CNN (Sequências de Inteiros)
max_words = 10000
max_sequence_length = 100

tokenizer = Tokenizer(num_words=max_words, oov_token="<OOV>")
tokenizer.fit_on_texts(df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens)))

sequences = tokenizer.texts_to_sequences(df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens)))
padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length, padding='post', truncating='post')

print("\nExemplo de sequências padded:")
print(padded_sequences[:5])
print("\nForma das sequências padded:", padded_sequences.shape)

# --- prepara labels para CNN ---
encoded_y = df_subset['Label'].values

print("\nLabels originais (do df_subset):", df_subset['Label'].unique())
print("Labels usadas para treino (codificadas):", np.unique(encoded_y))

# --- divide dados para CNN (usando as sequências e labels codificadas) ---
X_cnn = padded_sequences
y_cnn = encoded_y

X_train_cnn, X_test_cnn, y_train_cnn, y_test_cnn = train_test_split(
    X_cnn, y_cnn, test_size=0.20, random_state=42, stratify=y_cnn
)

print("\nForma dos dados de treino para CNN:", X_train_cnn.shape, y_train_cnn.shape)
print("Forma dos dados de teste para CNN:", X_test_cnn.shape, y_test_cnn.shape)

# --- cálculo de Class Weights para a CNN (baseado em y_train_cnn) ---
classes_cnn = np.unique(y_train_cnn)
class_weights_cnn = compute_class_weight(class_weight='balanced', classes=classes_cnn, y=y_train_cnn)
class_weight_dict_cnn = dict(zip(classes_cnn, class_weights_cnn))

print("\nPesos das classes calculados para CNN (baseado em y_train_cnn):")
print(class_weight_dict_cnn)


# --- constrói o Modelo CNN ---
embedding_dim = 128
filter_sizes = [3]
num_filters = 128

model = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    Conv1D(filters=num_filters, kernel_size=filter_sizes[0], activation='relu'),
    GlobalMaxPooling1D(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.summary()

# --- treino do Modelo CNN (Com class_weight) ---
epochs = 10
batch_size = 32

print("\nTreinando CNN com class_weight...")
history = model.fit(X_train_cnn, y_train_cnn,
                    epochs=epochs,
                    batch_size=batch_size,
                    validation_split=0.1,
                    verbose=1,
                    class_weight=class_weight_dict_cnn)

# --- avaliação do Modelo CNN ---
print("\nAvaliando CNN no conjunto de teste...")
loss, accuracy = model.evaluate(X_test_cnn, y_test_cnn, verbose=0)

print(f"\nAcurácia da CNN no conjunto de teste: {accuracy:.4f}")

# classification report para CNN
cnn_predictions_probs = model.predict(X_test_cnn)
cnn_predictions = (cnn_predictions_probs >= 0.5).astype(int).flatten()

print("\nAvaliação completa da CNN:")
print(classification_report(y_test_cnn, cnn_predictions))

# cálculo de F1-score ponderado e AUC para a CNN
cnn_f1_weighted = f1_score(y_test_cnn, cnn_predictions, average='weighted')

try:
    cnn_auc = roc_auc_score(y_test_cnn, cnn_predictions_probs)
except ValueError as e:
    cnn_auc = f"N/A (problema ao calcular AUC: {e})"
except Exception as e:
    cnn_auc = f"N/A (problema ao calcular AUC: {e})"


print("F1-score ponderado (CNN):", cnn_f1_weighted)
if isinstance(cnn_auc, (float, int)):
    print("AUC:", cnn_auc)
else:
    print("AUC:", cnn_auc)


# dicionário de resultados
try:
    cnn_report = classification_report(y_test_cnn, cnn_predictions, output_dict=True)
    results['CNN (Embedding+Seq, Class_Weight)'] = {
        'accuracy': accuracy_score(y_test_cnn, cnn_predictions),
        'precision (macro)': cnn_report['macro avg']['precision'],
        'recall (macro)': cnn_report['macro avg']['recall'],
        'f1-score (macro)': cnn_report['macro avg']['f1-score'],
        'f1-score (weighted)': cnn_f1_weighted,
        'auc': cnn_auc if isinstance(cnn_auc, (float, int)) else None
    }
except NameError:
    print("Dicionário 'results' não encontrado. Os resultados da CNN (com class_weight) não foram armazenados.")


Exemplo de sequências padded:
[[  57   84   90   47  156 1215   28 2589  146 3160 2199  101    1 2413
  2589  101 2200   14  113  681  680 4581    1    6 2589  101 1262   48
   194  348 3522    6 1263 3803    6   19  277 8319  997  942 2525   82
    35   23 1801   62  303  198  249    8  282   60 1361    8  583 8319
   375  363 8319 2161  198  370 1392 1008  363  252   47    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0]
 [   1    1 7440  224  285   19    2    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    




Treinando CNN com class_weight...
Epoch 1/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 41ms/step - accuracy: 0.6588 - loss: 0.5978 - val_accuracy: 0.7785 - val_loss: 0.4713
Epoch 2/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 34ms/step - accuracy: 0.8581 - loss: 0.3207 - val_accuracy: 0.7785 - val_loss: 0.4866
Epoch 3/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m22s[0m 36ms/step - accuracy: 0.9215 - loss: 0.1796 - val_accuracy: 0.8165 - val_loss: 0.4869
Epoch 4/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 35ms/step - accuracy: 0.9647 - loss: 0.0884 - val_accuracy: 0.8365 - val_loss: 0.6431
Epoch 5/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 36ms/step - accuracy: 0.9813 - loss: 0.0463 - val_accuracy: 0.8295 - val_loss: 0.8108
Epoch 6/10
[1m563/563[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 33ms/step - accuracy: 0.9903 - loss: 0.0239 - val_accuracy: 0.8120 

In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Embedding, Dense, Dropout
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np
from sklearn.utils.class_weight import compute_class_weight

# --- reutiliza dados preparados na célula anterior para CNN ---

# uso do class_weight_dict_cnn calculado na célula anterior
class_weight_dict_lstm = class_weight_dict_cnn

print("\nPesos das classes calculados para LSTM (reutilizados de y_train_cnn):")
print(class_weight_dict_lstm)


print("\n" + "="*50)
print("Construindo e Treinando o Modelo LSTM com CLASS WEIGHT...")

# --- constrói o Modelo LSTM ---

embedding_dim = 128
model_lstm_cw = Sequential([
    # camada de Embedding: Reutiliza os mesmos parâmetros da CNN
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    # camada LSTM
    LSTM(128),
    # camada de Dropout
    Dropout(0.5),
    # camada densa (Fully Connected)
    Dense(64, activation='relu'), # Camada densa adicional
    Dropout(0.5),
    # camada de saída: 1 unidade com ativação 'sigmoid' para classificação binária
    Dense(1, activation='sigmoid')
])

model_lstm_cw.compile(optimizer='adam',
                   loss='binary_crossentropy',
                   metrics=['accuracy'])

print("\nResumo do Modelo LSTM (Class Weight):")
model_lstm_cw.summary()


# --- treino do Modelo LSTM (Com class_weight) ---
epochs_lstm_cw = 15
batch_size_lstm_cw = 32

print("\nTreinando LSTM (Class Weight)...")

history_lstm_cw = model_lstm_cw.fit(X_train_cnn, y_train_cnn,
                                  epochs=epochs_lstm_cw,
                                  batch_size=batch_size_lstm_cw,
                                  validation_data=(X_val_cnn, y_val_cnn),
                                  class_weight=class_weight_dict_lstm,
                                  verbose=1)


# --- avaliação do Modelo LSTM  ---
print("\nAvaliando LSTM (Class Weight) no conjunto de teste FINAL...")
loss_lstm_test_cw, accuracy_lstm_test_cw = model_lstm_cw.evaluate(X_test_cnn_final, y_test_cnn_final, verbose=0)

print(f"\nAcurácia da LSTM (Class Weight) no conjunto de teste FINAL: {accuracy_lstm_test_cw:.4f}")

# gera previsões (classes) e probabilidades para calcular métricas
lstm_predictions_proba_positive_test_cw = model_lstm_cw.predict(X_test_cnn_final)

# obtém as classes preditas
lstm_predictions_test_cw = (lstm_predictions_proba_positive_test_cw >= 0.5).astype(int).flatten()

print("\nAvaliação completa da LSTM (Class Weight) no conjunto de teste FINAL:")
print(classification_report(y_test_cnn_final, lstm_predictions_test_cw))

# cálculo de F1-score ponderado para LSTM
lstm_weighted_f1_test_cw = f1_score(y_test_cnn_final, lstm_predictions_test_cw, average='weighted')
print("Weighted F1-score:", lstm_weighted_f1_test_cw)

# cálculo de AUC para LSTM
try:
    lstm_auc_score_test_cw = roc_auc_score(y_test_cnn_final, lstm_predictions_proba_positive_test_cw)
    print("AUC:", lstm_auc_score_test_cw)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    lstm_auc_score_test_cw = None


print("="*50)

# dicionário de resultados

lstm_report_test_cw = classification_report(y_test_cnn_final, lstm_predictions_test_cw, output_dict=True)

try:
    results['LSTM (Embedding+Seq, Class_Weight) Test'] = {
        'accuracy': accuracy_lstm_test_cw,
        'precision (macro)': lstm_report_test_cw['macro avg']['precision'],
        'recall (macro)': lstm_report_test_cw['macro avg']['recall'],
        'f1-score (macro)': lstm_report_test_cw['macro avg']['f1-score'],
        'f1-score (weighted)': lstm_weighted_f1_test_cw,
        'auc': lstm_auc_score_test_cw
    }
except NameError:
     print("Dicionário 'results' não encontrado. Os resultados da LSTM (com class_weight) não foram armazenados.")


Pesos das classes calculados para LSTM (reutilizados de y_train_cnn):
{np.int64(0): np.float64(0.6097065279245589), np.int64(1): np.float64(2.7788069655427936)}

Construindo e Treinando o Modelo LSTM com CLASS WEIGHT...

Resumo do Modelo LSTM (Class Weight):



Treinando LSTM (Class Weight)...
Epoch 1/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m88s[0m 181ms/step - accuracy: 0.5565 - loss: 0.6899 - val_accuracy: 0.8174 - val_loss: 0.6914
Epoch 2/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m143s[0m 184ms/step - accuracy: 0.4515 - loss: 0.7014 - val_accuracy: 0.2286 - val_loss: 0.6796
Epoch 3/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m143s[0m 186ms/step - accuracy: 0.4730 - loss: 0.7272 - val_accuracy: 0.8204 - val_loss: 0.6646
Epoch 4/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m139s[0m 180ms/step - accuracy: 0.5088 - loss: 0.6941 - val_accuracy: 0.8202 - val_loss: 0.6880
Epoch 5/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m142s[0m 180ms/step - accuracy: 0.4873 - loss: 0.6908 - val_accuracy: 0.2040 - val_loss: 0.6962
Epoch 6/15
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m144s[0m 184ms/step - accuracy: 0.4680 - loss: 0.6793 - val_accurac

#### **Oversampling**

Como segunda abordagem para tratar o desbalanceamento entre as classes, foi utilizado o método de oversampling sintético **SMOTE (Synthetic Minority Over-sampling Technique)**. Essa técnica atua gerando novos exemplos sintéticos para as classes minoritárias com base na interpolação entre amostras reais vizinhas no espaço de atributos, equilibrando a distribuição sem simplesmente duplicar instâncias existentes.

O SMOTE foi aplicado exclusivamente ao conjunto de treino, preservando a distribuição real nos dados de teste. Com isso, as duas classes (0 e 1) passaram a ter exatamente o mesmo número de instâncias (16.402), conforme e.videnciado após o reamostramento.

Esse balanceamento favorece o aprendizado de modelos como Regressão Logística, SVM, Random Forest, LightGBM e MLP, aumentando sua capacidade de generalização para exemplos das classes originalmente sub-representadas. A técnica é especialmente vantajosa por evitar overfitting comum em métodos de duplicação, ao mesmo tempo em que permite o uso direto dos classificadores.

In [None]:
!pip install imbalanced-learn
from imblearn.over_sampling import SMOTE



In [None]:
print("\nDistribuição das classes no treino (antes do balanceamento):")
print(y_train.value_counts())

# inicializa SMOTE
# random_state para reprodutibilidade
# sampling_strategy='auto' reamostra todas as classes minoritárias para igualar a classe majoritária
smote = SMOTE(sampling_strategy='auto', random_state=42)

# aplica SMOTE apenas nos dados de TREINO
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

print("\nForma dos dados de treino após SMOTE:", X_train_resampled.shape, y_train_resampled.shape)
print("\nDistribuição das classes no treino (depois do SMOTE):")
print(y_train_resampled.value_counts())


Distribuição das classes no treino (antes do balanceamento):
Label
0    16402
1     3598
Name: count, dtype: int64

Forma dos dados de treino após SMOTE: (32804, 5000) (32804,)

Distribuição das classes no treino (depois do SMOTE):
Label
0    16402
1    16402
Name: count, dtype: int64


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score, f1_score
import pandas as pd

results = {}

print("Treinando modelos tradicionais COM SMOTE...")
print("-" * 50)

# 1. Regressão Logística
print("Treinando Regressão Logística com SMOTE-balanced data...")
lr_model = LogisticRegression(max_iter=1000, random_state=42)
lr_model.fit(X_train_resampled, y_train_resampled)
lr_predictions = lr_model.predict(X_test)
lr_predictions_proba = lr_model.predict_proba(X_test)[:, 1]

print("Avaliação da Regressão Logística (SMOTE):")
print(classification_report(y_test, lr_predictions))
print("Acurácia: ", accuracy_score(y_test, lr_predictions))
print("Weighted F1-score:", f1_score(y_test, lr_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, lr_predictions_proba))

# dicionário de resultados
lr_report = classification_report(y_test, lr_predictions, output_dict=True)
results['Logistic Regression (SMOTE)'] = {
    'accuracy': accuracy_score(y_test, lr_predictions),
    'precision (macro)': lr_report['macro avg']['precision'],
    'recall (macro)': lr_report['macro avg']['recall'],
    'f1-score (macro)': lr_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lr_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, lr_predictions_proba)
}

print("-" * 50)

# 2. Naive Bayes Multinomial
print("Treinando Naive Bayes Multinomial com SMOTE-balanced data...")
nb_model = MultinomialNB()
nb_model.fit(X_train_resampled, y_train_resampled)
nb_predictions = nb_model.predict(X_test)
nb_predictions_proba = nb_model.predict_proba(X_test)[:, 1]

print("Avaliação do Naive Bayes Multinomial (SMOTE):")
print(classification_report(y_test, nb_predictions))
print("Acurácia: ", accuracy_score(y_test, nb_predictions))
print("Weighted F1-score:", f1_score(y_test, nb_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, nb_predictions_proba))

# dicionário de resultados
nb_report = classification_report(y_test, nb_predictions, output_dict=True)
results['Multinomial NB (SMOTE)'] = {
    'accuracy': accuracy_score(y_test, nb_predictions),
    'precision (macro)': nb_report['macro avg']['precision'],
    'recall (macro)': nb_report['macro avg']['recall'],
    'f1-score (macro)': nb_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, nb_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, nb_predictions_proba)
}

print("-" * 50)

# 3. Support Vector Machine (SVM)

print("Treinando SVM (Kernel Linear) com SMOTE-balanced data...")

svm_model = SVC(kernel='linear', probability=True, random_state=42)
svm_model.fit(X_train_resampled, y_train_resampled)
svm_predictions = svm_model.predict(X_test)
svm_predictions_proba = svm_model.predict_proba(X_test)[:, 1]

print("Avaliação do SVM (SMOTE):")
print(classification_report(y_test, svm_predictions))
print("Acurácia: ", accuracy_score(y_test, svm_predictions))
print("Weighted F1-score:", f1_score(y_test, svm_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, svm_predictions_proba))

# dicionário de resultados
svm_report = classification_report(y_test, svm_predictions, output_dict=True)
results['SVM (SMOTE)'] = {
    'accuracy': accuracy_score(y_test, svm_predictions),
    'precision (macro)': svm_report['macro avg']['precision'],
    'recall (macro)': svm_report['macro avg']['recall'],
    'f1-score (macro)': svm_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, svm_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, svm_predictions_proba)
}

print("-" * 50)

# 4. Random Forest Classifier
print("Treinando Random Forest com SMOTE-balanced data...")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_resampled, y_train_resampled)
rf_predictions = rf_model.predict(X_test)
rf_predictions_proba = rf_model.predict_proba(X_test)[:, 1]

print("Avaliação do Random Forest (SMOTE):")
print(classification_report(y_test, rf_predictions))
print("Acurácia: ", accuracy_score(y_test, rf_predictions))
print("Weighted F1-score:", f1_score(y_test, rf_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, rf_predictions_proba))

# dicionário de resultados
rf_report = classification_report(y_test, rf_predictions, output_dict=True)
results['Random Forest (SMOTE)'] = {
    'accuracy': accuracy_score(y_test, rf_predictions),
    'precision (macro)': rf_report['macro avg']['precision'],
    'recall (macro)': rf_report['macro avg']['recall'],
    'f1-score (macro)': rf_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, rf_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, rf_predictions_proba)
}

print("\nResultados acumulados (incluindo SMOTE) até agora:")
print(results)

Treinando modelos tradicionais COM SMOTE...
--------------------------------------------------
Treinando Regressão Logística com SMOTE-balanced data...
Avaliação da Regressão Logística (SMOTE):
              precision    recall  f1-score   support

           0       0.92      0.79      0.85      4101
           1       0.42      0.69      0.52       899

    accuracy                           0.77      5000
   macro avg       0.67      0.74      0.69      5000
weighted avg       0.83      0.77      0.79      5000

Acurácia:  0.7732
Weighted F1-score: 0.7921488448488312
AUC: 0.827631096786128
--------------------------------------------------
Treinando Naive Bayes Multinomial com SMOTE-balanced data...
Avaliação do Naive Bayes Multinomial (SMOTE):
              precision    recall  f1-score   support

           0       0.94      0.75      0.84      4101
           1       0.41      0.78      0.54       899

    accuracy                           0.76      5000
   macro avg       0.68 

In [None]:
# --- Modelos Avançados com TF-IDF ---

# 5. LightGBM (Gradient Boosting)
!pip install lightgbm

import lightgbm as lgb
import numpy as np
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score

print("\n" + "="*50)
print("Treinando LightGBM com SMOTE-balanced data...")

# o número de classes será 2
num_classes_lgbm = len(np.unique(y_train_resampled))
print(f"Número de classes em y_train_resampled para LightGBM: {num_classes_lgbm}")

# converte matriz esparsa para o formato LightGBM
lgb_model = lgb.LGBMClassifier(objective='binary', random_state=42)

lgb_model.fit(X_train_resampled, y_train_resampled)
lgb_predictions = lgb_model.predict(X_test)
lgb_predictions_proba = lgb_model.predict_proba(X_test)[:, 1]

print("Avaliação do LightGBM (SMOTE):")
print(classification_report(y_test, lgb_predictions))
print("Acurácia: ", accuracy_score(y_test, lgb_predictions))
print("Weighted F1-score:", f1_score(y_test, lgb_predictions, average='weighted'))
print("AUC:", roc_auc_score(y_test, lgb_predictions_proba))

# dicionário de resultados
lgb_report = classification_report(y_test, lgb_predictions, output_dict=True)
results['LightGBM (SMOTE)'] = {
    'accuracy': accuracy_score(y_test, lgb_predictions),
    'precision (macro)': lgb_report['macro avg']['precision'],
    'recall (macro)': lgb_report['macro avg']['recall'],
    'f1-score (macro)': lgb_report['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lgb_predictions, average='weighted'),
    'auc': roc_auc_score(y_test, lgb_predictions_proba)
}

print("-" * 50)

# 6. Rede Neural Densa (MLP) com TensorFlow/Keras
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np

print("Treinando Rede Neural Densa (MLP) com SMOTE-balanced data...")

num_classes_mlp_smote = len(np.unique(y_train_resampled))
print(f"Número de classes em y_train_resampled para MLP: {num_classes_mlp_smote}")

# constrói o Modelo MLP
mlp_model_smote = Sequential([
    Dense(256, activation='relu', input_shape=(X_train_resampled.shape[1],)),
    Dropout(0.5),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

mlp_model_smote.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])


# treino do Modelo MLP
epochs_mlp_smote = 20
batch_size_mlp_smote = 64


print("\nTreinando MLP (SMOTE)...")
history_mlp_smote = mlp_model_smote.fit(X_train_resampled, y_train_resampled,
                          epochs=epochs_mlp_smote,
                          batch_size=batch_size_mlp_smote,
                          validation_data=(X_test, y_test),
                          verbose=1)


print("\nResumo do Modelo MLP (SMOTE):")
mlp_model_smote.summary()

# avaliação do Modelo MLP
print("\nAvaliando MLP (SMOTE) no conjunto de teste...")
loss_mlp_smote, accuracy_mlp_smote = mlp_model_smote.evaluate(X_test, y_test, verbose=0)

print(f"\nAcurácia da MLP (SMOTE) no conjunto de teste: {accuracy_mlp_smote:.4f}")

# gera previsões de probabilidade
mlp_predictions_proba_positive_smote = mlp_model_smote.predict(X_test) # Forma (n_samples, 1)

# obtém as classes preditas
mlp_predictions_smote = (mlp_predictions_proba_positive_smote >= 0.5).astype(int).flatten() # Converter para inteiros e garantir que é 1D

print("\nAvaliação completa da MLP (SMOTE):")
print(classification_report(y_test, mlp_predictions_smote))

# cálculo de F1-score ponderado para MLP (SMOTE)
mlp_weighted_f1_smote = f1_score(y_test, mlp_predictions_smote, average='weighted')
print("Weighted F1-score:", mlp_weighted_f1_smote)

# cálculo de AUC
try:
    mlp_auc_score_smote = roc_auc_score(y_test, mlp_predictions_proba_positive_smote)
    print("AUC:", mlp_auc_score_smote)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    mlp_auc_score_smote = None


# dicionário de resultados
mlp_report_smote = classification_report(y_test, mlp_predictions_smote, output_dict=True)
results['MLP (SMOTE)'] = {
    'accuracy': accuracy_mlp_smote,
    'precision (macro)': mlp_report_smote['macro avg']['precision'],
    'recall (macro)': mlp_report_smote['macro avg']['recall'],
    'f1-score (macro)': mlp_report_smote['macro avg']['f1-score'],
    'f1-score (weighted)': mlp_weighted_f1_smote,
    'auc': mlp_auc_score_smote
}

print("="*50)


Treinando LightGBM com SMOTE-balanced data...
Número de classes em y_train_resampled para LightGBM: 2




[LightGBM] [Info] Number of positive: 16402, number of negative: 16402
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 3.912111 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 129350
[LightGBM] [Info] Number of data points in the train set: 32804, number of used features: 3514
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000




Avaliação do LightGBM (SMOTE):
              precision    recall  f1-score   support

           0       0.92      0.80      0.85      4101
           1       0.42      0.67      0.51       899

    accuracy                           0.77      5000
   macro avg       0.67      0.73      0.68      5000
weighted avg       0.83      0.77      0.79      5000

Acurácia:  0.7732
Weighted F1-score: 0.7913133307892427
AUC: 0.8297703509195918
--------------------------------------------------
Treinando Rede Neural Densa (MLP) com SMOTE-balanced data...
Número de classes em y_train_resampled para MLP: 2

Treinando MLP (SMOTE)...


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 22ms/step - accuracy: 0.7634 - loss: 0.4726 - val_accuracy: 0.8224 - val_loss: 0.4253
Epoch 2/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 22ms/step - accuracy: 0.9378 - loss: 0.1745 - val_accuracy: 0.8332 - val_loss: 0.4955
Epoch 3/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 32ms/step - accuracy: 0.9715 - loss: 0.0913 - val_accuracy: 0.8422 - val_loss: 0.6018
Epoch 4/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 30ms/step - accuracy: 0.9828 - loss: 0.0606 - val_accuracy: 0.8352 - val_loss: 0.6713
Epoch 5/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 27ms/step - accuracy: 0.9891 - loss: 0.0400 - val_accuracy: 0.8360 - val_loss: 0.7464
Epoch 6/20
[1m513/513[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 22ms/step - accuracy: 0.9917 - loss: 0.0326 - val_accuracy: 0.8382 - val_loss: 0.8491
Epoch 7/20
[1m5


Avaliando MLP (SMOTE) no conjunto de teste...

Acurácia da MLP (SMOTE) no conjunto de teste: 0.8376
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step

Avaliação completa da MLP (SMOTE):
              precision    recall  f1-score   support

           0       0.88      0.93      0.90      4101
           1       0.56      0.42      0.48       899

    accuracy                           0.84      5000
   macro avg       0.72      0.68      0.69      5000
weighted avg       0.82      0.84      0.83      5000

Weighted F1-score: 0.8283018149738962
AUC: 0.8255558548214862


In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
from sklearn.utils.class_weight import compute_class_weight
import numpy as np

from imblearn.over_sampling import SMOTE

# ---pré-processamento para CNN/LSTM  ---

max_words = 10000
max_sequence_length = 100

all_texts = df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens))
all_labels = df_subset['Label']

# --- tokenização ---
tokenizer = Tokenizer(num_words=max_words, oov_token="<OOV>")
tokenizer.fit_on_texts(all_texts)

# converte textos para sequências de inteiros
all_sequences = tokenizer.texts_to_sequences(all_texts)

# --- padding das Sequências ---
all_padded_sequences = pad_sequences(all_sequences, maxlen=max_sequence_length, padding='post', truncating='post')

print("\nExemplo de sequências padded (df_subset completo):")
print(all_padded_sequences[:5])
print("\nForma das sequências padded (df_subset completo):", all_padded_sequences.shape)

# --- prepara labels para CNN/LSTM ---
encoded_all_labels = all_labels.values

print("\nLabels do df_subset:", np.unique(encoded_all_labels))

# --- divide dados para CNN/LSTM (a partir do df_subset completo) ---
X_train_val_cnn, X_test_cnn_final, y_train_val_cnn, y_test_cnn_final = train_test_split(
    all_padded_sequences, encoded_all_labels, test_size=0.20, random_state=42, stratify=encoded_all_labels
)

X_train_cnn, X_val_cnn, y_train_cnn, y_val_cnn = train_test_split(
    X_train_val_cnn, y_train_val_cnn, test_size=0.25, random_state=42, stratify=y_train_val_cnn
)

print("\nForma dos dados de treino para CNN (Antes do Oversampling):", X_train_cnn.shape, y_train_cnn.shape)
print("Forma dos dados de validação para CNN:", X_val_cnn.shape, y_val_cnn.shape)
print("Forma dos dados de teste FINAL para CNN:", X_test_cnn_final.shape, y_test_cnn_final.shape)

# --- aplica Oversampling (SMOTE) ---
print("\nAplicando SMOTE oversampling ao conjunto de treino...")

smote = SMOTE(random_state=42)
X_train_cnn_res, y_train_cnn_res = smote.fit_resample(X_train_cnn, y_train_cnn)

print(f"Forma dos dados de treino para CNN APÓS Oversampling (SMOTE): {X_train_cnn_res.shape}, {y_train_cnn_res.shape}")
print("Contagem de classes no treino APÓS Oversampling:", np.bincount(y_train_cnn_res))


# --- constrói o Modelo CNN ---
embedding_dim = 128
filter_sizes = [3]
num_filters = 128

model_cnn_oversample = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    Conv1D(filters=num_filters, kernel_size=filter_sizes[0], activation='relu'),
    GlobalMaxPooling1D(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model_cnn_oversample.compile(optimizer='adam',
                             loss='binary_crossentropy',
                             metrics=['accuracy'])

print("\nResumo do Modelo CNN (Oversample):")
model_cnn_oversample.summary()

# --- treino do Modelo CNN (Com Oversampling) ---
epochs_cnn_oversample = 10
batch_size_cnn_oversample = 32

print("\nTreinando CNN com Oversampling...")

history_cnn_oversample = model_cnn_oversample.fit(X_train_cnn_res, y_train_cnn_res,
                                                  epochs=epochs_cnn_oversample,
                                                  batch_size=batch_size_cnn_oversample,
                                                  validation_data=(X_val_cnn, y_val_cnn),
                                                  verbose=1)

# --- avaliação do modelo ---
print("\nAvaliando CNN (Oversample) no conjunto de teste FINAL...")

loss_cnn_test_os, accuracy_cnn_test_os = model_cnn_oversample.evaluate(X_test_cnn_final, y_test_cnn_final, verbose=0)
print(f"\nAcurácia da CNN (Oversample) no conjunto de teste FINAL: {accuracy_cnn_test_os:.4f}")

# gera previsões de probabilidade
cnn_predictions_probs_os = model_cnn_oversample.predict(X_test_cnn_final)
cnn_predictions_os = (cnn_predictions_probs_os >= 0.5).astype(int).flatten()

print("\nAvaliação completa da CNN (Oversample) no conjunto de teste FINAL:")
print(classification_report(y_test_cnn_final, cnn_predictions_os))

# cálculo de F1-score ponderado e AUC para a CNN (Oversample)
cnn_f1_weighted_os = f1_score(y_test_cnn_final, cnn_predictions_os, average='weighted')

try:
    cnn_auc_os = roc_auc_score(y_test_cnn_final, cnn_predictions_probs_os)
except ValueError as e:
    cnn_auc_os = f"N/A (problema ao calcular AUC: {e})"
except Exception as e:
    cnn_auc_os = f"N/A (problema ao calcular AUC: {e})"


print("F1-score ponderado (CNN Oversample):", cnn_f1_weighted_os)
if isinstance(cnn_auc_os, (float, int)):
    print("AUC:", cnn_auc_os)
else:
    print("AUC:", cnn_auc_os)


# dicionário de resultados
try:
    cnn_report_os = classification_report(y_test_cnn_final, cnn_predictions_os, output_dict=True)
    results['CNN (Embedding+Seq, Oversample) Test'] = {
        'accuracy': accuracy_cnn_test_os,
        'precision (macro)': cnn_report_os['macro avg']['precision'],
        'recall (macro)': cnn_report_os['macro avg']['recall'],
        'f1-score (macro)': cnn_report_os['macro avg']['f1-score'],
        'f1-score (weighted)': cnn_f1_weighted_os,
        'auc': cnn_auc_os if isinstance(cnn_auc_os, (float, int)) else None
    }
except NameError:
    print("Dicionário 'results' não encontrado. Os resultados da CNN (com oversampling) não foram armazenados.")


Exemplo de sequências padded (df_subset completo):
[[  57   84   90   47  156 1215   28 2589  146 3160 2199  101    1 2413
  2589  101 2200   14  113  681  680 4581    1    6 2589  101 1262   48
   194  348 3522    6 1263 3803    6   19  277 8319  997  942 2525   82
    35   23 1801   62  303  198  249    8  282   60 1361    8  583 8319
   375  363 8319 2161  198  370 1392 1008  363  252   47    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0]
 [   1    1 7440  224  285   19    2    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0




Treinando CNN com Oversampling...
Epoch 1/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m29s[0m 36ms/step - accuracy: 0.6756 - loss: 0.5991 - val_accuracy: 0.7040 - val_loss: 0.5389
Epoch 2/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 37ms/step - accuracy: 0.8349 - loss: 0.3635 - val_accuracy: 0.7398 - val_loss: 0.5146
Epoch 3/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 36ms/step - accuracy: 0.9412 - loss: 0.1568 - val_accuracy: 0.6792 - val_loss: 0.8654
Epoch 4/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 36ms/step - accuracy: 0.9776 - loss: 0.0617 - val_accuracy: 0.7370 - val_loss: 1.0194
Epoch 5/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 37ms/step - accuracy: 0.9886 - loss: 0.0313 - val_accuracy: 0.7384 - val_loss: 1.2431
Epoch 6/10
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 35ms/step - accuracy: 0.9922 - loss: 0.0187 - val_accuracy: 0.6860 

In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Embedding, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np
from imblearn.over_sampling import SMOTE


# --- reutiliza dados preparados na célula anterior para CNN/LSTM ---

# --- divide dados para CNN/LSTM (a partir do df_subset completo) ---

X_train_val_lstm, X_test_lstm_final, y_train_val_lstm, y_test_lstm_final = train_test_split(
    all_padded_sequences, encoded_all_labels, test_size=0.20, random_state=42, stratify=encoded_all_labels
)

X_train_lstm, X_val_lstm, y_train_lstm, y_val_lstm = train_test_split(
    X_train_val_lstm, y_train_val_lstm, test_size=0.25, random_state=42, stratify=y_train_val_lstm
)

print("\nForma dos dados de treino para LSTM (Antes do Oversampling):", X_train_lstm.shape, y_train_lstm.shape)
print("Forma dos dados de validação para LSTM:", X_val_lstm.shape, y_val_lstm.shape)
print("Forma dos dados de teste FINAL para LSTM:", X_test_lstm_final.shape, y_test_lstm_final.shape)


# --- aplica oversampling---
print("\nAplicando SMOTE oversampling ao conjunto de treino para LSTM...")

smote_lstm = SMOTE(random_state=42)
X_train_lstm_res, y_train_lstm_res = smote_lstm.fit_resample(X_train_lstm, y_train_lstm)

print(f"Forma dos dados de treino para LSTM APÓS Oversampling (SMOTE): {X_train_lstm_res.shape}, {y_train_lstm_res.shape}")
print("Contagem de classes no treino LSTM APÓS Oversampling:", np.bincount(y_train_lstm_res))


# --- construção e treino do Modelo LSTM  ---

print("\n" + "="*50)
print("Construindo e Treinando o Modelo LSTM com Oversampling...")

# reutiliza parâmetros de embedding e sequência
embedding_dim = 128
max_sequence_length = 100
max_words = 10000

model_lstm_oversample = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    LSTM(128),
    Dropout(0.5),
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model_lstm_oversample.compile(optimizer='adam',
                              loss='binary_crossentropy',
                              metrics=['accuracy'])

epochs_lstm_os = 15
batch_size_lstm_os = 32

print("\nTreinando LSTM com dados oversampleados...")

history_lstm_oversample = model_lstm_oversample.fit(X_train_lstm_res, y_train_lstm_res,
                                                    epochs=epochs_lstm_os,
                                                    batch_size=batch_size_lstm_os,
                                                    validation_data=(X_val_lstm, y_val_lstm),
                                                    verbose=1)

print("\nResumo do Modelo LSTM (Oversample):")
model_lstm_oversample.summary()


# --- avaliação do modelo ---
print("\nAvaliando LSTM (Oversample) no conjunto de teste FINAL...")

loss_lstm_os_test, accuracy_lstm_os_test = model_lstm_oversample.evaluate(X_test_lstm_final, y_test_lstm_final, verbose=0)
print(f"\nAcurácia da LSTM (Oversample) no conjunto de teste FINAL: {accuracy_lstm_os_test:.4f}")

# gera previsões e probabilidades
lstm_os_predictions_proba_test = model_lstm_oversample.predict(X_test_lstm_final)
lstm_os_predictions_test = (lstm_os_predictions_proba_test >= 0.5).astype(int).flatten()

print("\nAvaliação completa da LSTM (Oversample) no conjunto de teste FINAL:")
print(classification_report(y_test_lstm_final, lstm_os_predictions_test))

# cálculo de F1-score ponderado e AUC
lstm_f1_weighted_os_test = f1_score(y_test_lstm_final, lstm_os_predictions_test, average='weighted')

try:
    lstm_auc_os_test = roc_auc_score(y_test_lstm_final, lstm_os_predictions_proba_test)
except ValueError as e:
    lstm_auc_os_test = f"N/A (problema ao calcular AUC: {e})"
except Exception as e:
    lstm_auc_os_test = f"N/A (problema ao calcular AUC: {e})"


print("F1-score ponderado (LSTM Oversample):", lstm_f1_weighted_os_test)
if isinstance(lstm_auc_os_test, (float, int)):
    print("AUC:", lstm_auc_os_test)
else:
    print("AUC:", lstm_auc_os_test)


# dicionário de resultados
try:
    lstm_report_os_test = classification_report(y_test_lstm_final, lstm_os_predictions_test, output_dict=True)
    results['LSTM (Embedding+Seq, Oversample) Test'] = {
        'accuracy': accuracy_lstm_os_test,
        'precision (macro)': lstm_report_os_test['macro avg']['precision'],
        'recall (macro)': lstm_report_os_test['macro avg']['recall'],
        'f1-score (macro)': lstm_report_os_test['macro avg']['f1-score'],
        'f1-score (weighted)': lstm_f1_weighted_os_test,
        'auc': lstm_auc_os_test if isinstance(lstm_auc_os_test, (float, int)) else None
    }
except NameError:
    print("Dicionário 'results' não encontrado. Os resultados da LSTM (com oversampling) não foram armazenados.")


Forma dos dados de treino para LSTM (Antes do Oversampling): (15000, 100) (15000,)
Forma dos dados de validação para LSTM: (5000, 100) (5000,)
Forma dos dados de teste FINAL para LSTM: (5000, 100) (5000,)

Aplicando SMOTE oversampling ao conjunto de treino para LSTM...
Forma dos dados de treino para LSTM APÓS Oversampling (SMOTE): (24602, 100), (24602,)
Contagem de classes no treino LSTM APÓS Oversampling: [12301 12301]

Construindo e Treinando o Modelo LSTM com Oversampling...

Treinando LSTM com dados oversampleados...
Epoch 1/15




[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m139s[0m 177ms/step - accuracy: 0.5072 - loss: 0.6940 - val_accuracy: 0.8202 - val_loss: 0.6733
Epoch 2/15
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m142s[0m 176ms/step - accuracy: 0.5100 - loss: 0.6876 - val_accuracy: 0.5820 - val_loss: 0.5743
Epoch 3/15
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m142s[0m 176ms/step - accuracy: 0.6648 - loss: 0.6349 - val_accuracy: 0.5858 - val_loss: 0.6199
Epoch 4/15
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m142s[0m 177ms/step - accuracy: 0.7270 - loss: 0.5610 - val_accuracy: 0.6750 - val_loss: 0.5581
Epoch 5/15
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m141s[0m 176ms/step - accuracy: 0.8216 - loss: 0.4131 - val_accuracy: 0.6506 - val_loss: 0.6942
Epoch 6/15
[1m769/769[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m140s[0m 173ms/step - accuracy: 0.8930 - loss: 0.2732 - val_accuracy: 0.6540 - val_loss: 0.7504
Epoch 7/15
[1m


Avaliando LSTM (Oversample) no conjunto de teste FINAL...

Acurácia da LSTM (Oversample) no conjunto de teste FINAL: 0.6900
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 52ms/step

Avaliação completa da LSTM (Oversample) no conjunto de teste FINAL:
              precision    recall  f1-score   support

           0       0.89      0.71      0.79      4101
           1       0.31      0.61      0.41       899

    accuracy                           0.69      5000
   macro avg       0.60      0.66      0.60      5000
weighted avg       0.79      0.69      0.72      5000

F1-score ponderado (LSTM Oversample): 0.7217690458620953
AUC: 0.7149666960417425


#### **Undersampling**

Como terceira estratégia de balanceamento, foi empregado o método de undersampling aleatório, utilizando a técnica **RandomUnderSampler** da biblioteca `imbalanced-learn`. Diferente do SMOTE, que gera novas amostras para as classes minoritárias, o undersampling reduz o número de instâncias da classe majoritária, removendo exemplos aleatórios até que todas as classes tenham o mesmo número de ocorrências.

No experimento, o balanceamento foi aplicado apenas sobre o conjunto de treino, **igualando as classes 0 e 1 com 3.598 exemplos cada** — valor correspondente à classe originalmente menos representada. Essa abordagem visa mitigar o viés dos modelos em favor da classe dominante, porém com o custo potencial de perda de informação relevante.
Apesar disso, ela permite a avaliação do impacto da redução de dados no desempenho de algoritmos como **Regressão Logística, Naive Bayes, SVM, Random Forest, LightGBM e redes neurais densas**, todos treinados com a base reamostrada, possibilitando uma comparação direta com os resultados obtidos nas estratégias anteriores de balanceamento.

In [None]:
!pip install imbalanced-learn

from imblearn.under_sampling import RandomUnderSampler
import pandas as pd

print("\nDistribuição das classes no treino TF-IDF (antes do undersampling):")
print(pd.Series(y_train).value_counts())

# inicializa RandomUnderSampler
# random_state para reprodutibilidade
# sampling_strategy='auto' subamostra todas as classes majoritárias para igualar a classe minoritária
rus = RandomUnderSampler(sampling_strategy='auto', random_state=42)
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

print("\nForma dos dados de treino TF-IDF após Undersampling:", X_train_rus.shape, y_train_rus.shape)
print("\nDistribuição das classes no treino TF-IDF (depois do Undersampling):")
print(pd.Series(y_train_rus).value_counts())


Distribuição das classes no treino TF-IDF (antes do undersampling):
Label
0    16402
1     3598
Name: count, dtype: int64

Forma dos dados de treino TF-IDF após Undersampling: (7196, 5000) (7196,)

Distribuição das classes no treino TF-IDF (depois do Undersampling):
Label
0    3598
1    3598
Name: count, dtype: int64


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score, f1_score
import pandas as pd


results = {}

print("\n" + "="*50)
print("Treinando modelos tradicionais COM UNDERSAMPLING...")
print("-" * 50)

# 1. Regressão Logística (Undersampling)
print("Treinando Regressão Logística com Undersampling-balanced data...")
lr_model_rus = LogisticRegression(max_iter=1000, random_state=42)
lr_model_rus.fit(X_train_rus, y_train_rus)
lr_predictions_rus = lr_model_rus.predict(X_test)
lr_predictions_proba_rus = lr_model_rus.predict_proba(X_test)[:, 1]

print("Avaliação da Regressão Logística (Undersampling):")
print(classification_report(y_test, lr_predictions_rus))
print("Acurácia: ", accuracy_score(y_test, lr_predictions_rus))
print("Weighted F1-score:", f1_score(y_test, lr_predictions_rus, average='weighted'))
print("AUC:", roc_auc_score(y_test, lr_predictions_proba_rus))

lr_report_rus = classification_report(y_test, lr_predictions_rus, output_dict=True)
results['Logistic Regression (Undersample)'] = {
    'accuracy': accuracy_score(y_test, lr_predictions_rus),
    'precision (macro)': lr_report_rus['macro avg']['precision'],
    'recall (macro)': lr_report_rus['macro avg']['recall'],
    'f1-score (macro)': lr_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lr_predictions_rus, average='weighted'),
    'auc': roc_auc_score(y_test, lr_predictions_proba_rus)
}

print("-" * 50)

# 2. Naive Bayes Multinomial (Undersampling)
print("Treinando Naive Bayes Multinomial com Undersampling-balanced data...")
nb_model_rus = MultinomialNB()
nb_model_rus.fit(X_train_rus, y_train_rus)
nb_predictions_rus = nb_model_rus.predict(X_test)
nb_predictions_proba_rus = nb_model_rus.predict_proba(X_test)[:, 1]

print("Avaliação do Naive Bayes Multinomial (Undersampling):")
print(classification_report(y_test, nb_predictions_rus))
print("Acurácia: ", accuracy_score(y_test, nb_predictions_rus))
print("Weighted F1-score:", f1_score(y_test, nb_predictions_rus, average='weighted'))
print("AUC:", roc_auc_score(y_test, nb_predictions_proba_rus))

nb_report_rus = classification_report(y_test, nb_predictions_rus, output_dict=True)
results['Multinomial NB (Undersample)'] = {
    'accuracy': accuracy_score(y_test, nb_predictions_rus),
    'precision (macro)': nb_report_rus['macro avg']['precision'],
    'recall (macro)': nb_report_rus['macro avg']['recall'],
    'f1-score (macro)': nb_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, nb_predictions_rus, average='weighted'),
    'auc': roc_auc_score(y_test, nb_predictions_proba_rus)
}

print("-" * 50)

# 3. Support Vector Machine (SVM) (Undersampling)
print("Treinando SVM (Kernel Linear) com Undersampling-balanced data...")
svm_model_rus = SVC(kernel='linear', probability=True, random_state=42)
svm_model_rus.fit(X_train_rus, y_train_rus)
svm_predictions_rus = svm_model_rus.predict(X_test)
svm_predictions_proba_rus = svm_model_rus.predict_proba(X_test)[:, 1]

print("Avaliação do SVM (Undersampling):")
print(classification_report(y_test, svm_predictions_rus))
print("Acurácia: ", accuracy_score(y_test, svm_predictions_rus))
print("Weighted F1-score:", f1_score(y_test, svm_predictions_rus, average='weighted'))
print("AUC:", roc_auc_score(y_test, svm_predictions_proba_rus))

svm_report_rus = classification_report(y_test, svm_predictions_rus, output_dict=True)
results['SVM (Undersample)'] = {
    'accuracy': accuracy_score(y_test, svm_predictions_rus),
    'precision (macro)': svm_report_rus['macro avg']['precision'],
    'recall (macro)': svm_report_rus['macro avg']['recall'],
    'f1-score (macro)': svm_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, svm_predictions_rus, average='weighted'),
    'auc': roc_auc_score(y_test, svm_predictions_proba_rus)
}

print("-" * 50)

# 4. Random Forest Classifier (Undersampling)
print("Treinando Random Forest com Undersampling-balanced data...")
rf_model_rus = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model_rus.fit(X_train_rus, y_train_rus)
rf_predictions_rus = rf_model_rus.predict(X_test)
rf_predictions_proba_rus = rf_model_rus.predict_proba(X_test)[:, 1]

print("Avaliação do Random Forest (Undersampling):")
print(classification_report(y_test, rf_predictions_rus))
print("Acurácia: ", accuracy_score(y_test, rf_predictions_rus))
print("Weighted F1-score:", f1_score(y_test, rf_predictions_rus, average='weighted'))
print("AUC:", roc_auc_score(y_test, rf_predictions_proba_rus))

rf_report_rus = classification_report(y_test, rf_predictions_rus, output_dict=True)
results['Random Forest (Undersample)'] = {
    'accuracy': accuracy_score(y_test, rf_predictions_rus),
    'precision (macro)': rf_report_rus['macro avg']['precision'],
    'recall (macro)': rf_report_rus['macro avg']['recall'],
    'f1-score (macro)': rf_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, rf_predictions_rus, average='weighted'),
    'auc': roc_auc_score(y_test, rf_predictions_proba_rus)
}

print("\nResultados acumulados (incluindo SMOTE e Undersampling) até agora:")
print(results)


Treinando modelos tradicionais COM UNDERSAMPLING...
--------------------------------------------------
Treinando Regressão Logística com Undersampling-balanced data...
Avaliação da Regressão Logística (Undersampling):
              precision    recall  f1-score   support

           0       0.94      0.79      0.85      4101
           1       0.44      0.75      0.55       899

    accuracy                           0.78      5000
   macro avg       0.69      0.77      0.70      5000
weighted avg       0.85      0.78      0.80      5000

Acurácia:  0.7802
Weighted F1-score: 0.8000412990893742
AUC: 0.8511894735785707
--------------------------------------------------
Treinando Naive Bayes Multinomial com Undersampling-balanced data...
Avaliação do Naive Bayes Multinomial (Undersampling):
              precision    recall  f1-score   support

           0       0.95      0.72      0.82      4101
           1       0.39      0.82      0.53       899

    accuracy                        

In [None]:
# --- Modelos Avançados com TF-IDF (Undersampling) ---

# 5. LightGBM (Gradient Boosting) (Undersampling)
import lightgbm as lgb
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np

print("\n" + "="*50)
print("Treinando LightGBM com Undersampling-balanced data...")

# O número de classes será 2
num_classes_lgbm_rus = len(np.unique(y_train_rus))
print(f"Número de classes em y_train_rus para LightGBM: {num_classes_lgbm_rus}")

lgb_model_rus = lgb.LGBMClassifier(objective='binary', random_state=42)
lgb_model_rus.fit(X_train_rus, y_train_rus)
lgb_predictions_rus = lgb_model_rus.predict(X_test)
lgb_predictions_proba_rus = lgb_model_rus.predict_proba(X_test)[:, 1]

print("Avaliação do LightGBM (Undersampling):")
print(classification_report(y_test, lgb_predictions_rus))
print("Acurácia: ", accuracy_score(y_test, lgb_predictions_rus))
print("Weighted F1-score:", f1_score(y_test, lgb_predictions_rus, average='weighted'))
print("AUC:", roc_auc_score(y_test, lgb_predictions_proba_rus))

lgb_report_rus = classification_report(y_test, lgb_predictions_rus, output_dict=True)
results['LightGBM (Undersample)'] = {
    'accuracy': accuracy_score(y_test, lgb_predictions_rus),
    'precision (macro)': lgb_report_rus['macro avg']['precision'],
    'recall (macro)': lgb_report_rus['macro avg']['recall'],
    'f1-score (macro)': lgb_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': f1_score(y_test, lgb_predictions_rus, average='weighted'),
    'auc': roc_auc_score(y_test, lgb_predictions_proba_rus)
}

print("-" * 50)

# 6. Rede Neural Densa (MLP) com TensorFlow/Keras (Undersampling)
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np

print("Treinando Rede Neural Densa (MLP) com Undersampling-balanced data...")

# O número de classes será 2
num_classes_mlp_rus = len(np.unique(y_train_rus))
print(f"Número de classes em y_train_rus para MLP: {num_classes_mlp_rus}")

mlp_model_rus = Sequential([
    Dense(256, activation='relu', input_shape=(X_train_rus.shape[1],)),
    Dropout(0.5),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

mlp_model_rus.compile(optimizer='adam',
                      loss='binary_crossentropy',
                      metrics=['accuracy'])

epochs_mlp_rus = 20
batch_size_mlp_rus = 64

print("\nTreinando MLP (Undersampling)...")

history_mlp_rus = mlp_model_rus.fit(X_train_rus, y_train_rus,
                                  epochs=epochs_mlp_rus,
                                  batch_size=batch_size_mlp_rus,
                                  validation_data=(X_test, y_test),
                                  verbose=1)

print("\nResumo do Modelo MLP (Undersampling):")
mlp_model_rus.summary()

print("\nAvaliando MLP (Undersampling) no conjunto de teste...")
loss_mlp_rus, accuracy_mlp_rus = mlp_model_rus.evaluate(X_test, y_test, verbose=0)

print(f"\nAcurácia da MLP (Undersampling) no conjunto de teste: {accuracy_mlp_rus:.4f}")

mlp_predictions_proba_positive_rus = mlp_model_rus.predict(X_test)
mlp_predictions_rus = (mlp_predictions_proba_positive_rus >= 0.5).astype(int).flatten()

print("\nAvaliação completa da MLP (Undersampling):")
print(classification_report(y_test, mlp_predictions_rus))

mlp_weighted_f1_rus = f1_score(y_test, mlp_predictions_rus, average='weighted')
print("Weighted F1-score:", mlp_weighted_f1_rus)

try:
    mlp_auc_score_rus = roc_auc_score(y_test, mlp_predictions_proba_positive_rus)
    print("AUC:", mlp_auc_score_rus)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    mlp_auc_score_rus = None

mlp_report_rus = classification_report(y_test, mlp_predictions_rus, output_dict=True)
results['MLP (Undersample)'] = {
    'accuracy': accuracy_mlp_rus,
    'precision (macro)': mlp_report_rus['macro avg']['precision'],
    'recall (macro)': mlp_report_rus['macro avg']['recall'],
    'f1-score (macro)': mlp_report_rus['macro avg']['f1-score'],
    'f1-score (weighted)': mlp_weighted_f1_rus,
    'auc': mlp_auc_score_rus
}

print("="*50)


Treinando LightGBM com Undersampling-balanced data...
Número de classes em y_train_rus para LightGBM: 2
[LightGBM] [Info] Number of positive: 3598, number of negative: 3598




[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.094371 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 24457
[LightGBM] [Info] Number of data points in the train set: 7196, number of used features: 1055
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Avaliação do LightGBM (Undersampling):
              precision    recall  f1-score   support

           0       0.92      0.78      0.84      4101
           1       0.41      0.70      0.52       899

    accuracy                           0.77      5000
   macro avg       0.67      0.74      0.68      5000
weighted avg       0.83      0.77      0.79      5000

Acurácia:  0.7652
Weighted F1-score: 0.7860827080873041
AUC: 0.8301776147818203
--------------------------------------------------
Treinando Rede Neural Densa (MLP) com Undersampling-balanced data...
Número de classes em y_train_rus para MLP: 2

Treinando MLP (Undersampling)...
Epoch 1/20
[1m113/113[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 28ms/step - accuracy: 0.6347 - loss: 0.6496 - val_accuracy: 0.7910 - val_loss: 0.4298
Epoch 2/20
[1m113/113[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 24ms/step - accuracy: 0.8428 - loss: 0.3778 - val_accuracy: 0.7312 - val_loss: 0.5448
Epoch 3/20
[1m113/113[0m [


Avaliando MLP (Undersampling) no conjunto de teste...

Acurácia da MLP (Undersampling) no conjunto de teste: 0.7456
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 7ms/step

Avaliação completa da MLP (Undersampling):
              precision    recall  f1-score   support

           0       0.93      0.75      0.83      4101
           1       0.39      0.73      0.51       899

    accuracy                           0.75      5000
   macro avg       0.66      0.74      0.67      5000
weighted avg       0.83      0.75      0.77      5000

Weighted F1-score: 0.7708405891656657
AUC: 0.8147236939144228


In [None]:
# reutiliza TensorFlow e bibliotecas de pré-processamento
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score
import numpy as np
from imblearn.under_sampling import RandomUnderSampler


# --- pré-processamento para CNN/LSTM ---

max_words = 10000
max_sequence_length = 100

all_texts = df_subset['processed_tokens'].apply(lambda tokens: ' '.join(tokens))
all_labels = df_subset['Label']

# --- tokenização ---
tokenizer = Tokenizer(num_words=max_words, oov_token="<OOV>")
tokenizer.fit_on_texts(all_texts)

# converte textos para sequências de inteiros
all_sequences = tokenizer.texts_to_sequences(all_texts)

# --- padding das Sequências ---
all_padded_sequences = pad_sequences(all_sequences, maxlen=max_sequence_length, padding='post', truncating='post')

print("\nExemplo de sequências padded (df_subset completo):")
print(all_padded_sequences[:5])
print("\nForma das sequências padded (df_subset completo):", all_padded_sequences.shape)

# --- prepara labels para CNN/LSTM ---
encoded_all_labels = all_labels.values
print("\nLabels do df_subset:", np.unique(encoded_all_labels))

# --- divide dados para CNN/LSTM ---

X_train_val_cnn, X_test_cnn_final, y_train_val_cnn, y_test_cnn_final = train_test_split(
    all_padded_sequences, encoded_all_labels, test_size=0.20, random_state=42, stratify=encoded_all_labels
)

X_train_cnn, X_val_cnn, y_train_cnn, y_val_cnn = train_test_split(
    X_train_val_cnn, y_train_val_cnn, test_size=0.25, random_state=42, stratify=y_train_val_cnn
)

print("\nForma dos dados de treino para CNN (Antes do Undersampling):", X_train_cnn.shape, y_train_cnn.shape)
print("Forma dos dados de validação para CNN:", X_val_cnn.shape, y_val_cnn.shape)
print("Forma dos dados de teste FINAL para CNN:", X_test_cnn_final.shape, y_test_cnn_final.shape)

# --- aplicar undersampling  ---
print("\nAplicando RandomUnderSampler undersampling ao conjunto de treino...")

rus = RandomUnderSampler(random_state=42)
X_train_cnn_us, y_train_cnn_us = rus.fit_resample(X_train_cnn, y_train_cnn)

print(f"Forma dos dados de treino para CNN APÓS Undersampling: {X_train_cnn_us.shape}, {y_train_cnn_us.shape}")
print("Contagem de classes no treino APÓS Undersampling:", np.bincount(y_train_cnn_us))

# --- constrói o Modelo CNN ---
embedding_dim = 128
filter_sizes = [3]
num_filters = 128

model_cnn_undersample = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    Conv1D(filters=num_filters, kernel_size=filter_sizes[0], activation='relu'),
    GlobalMaxPooling1D(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model_cnn_undersample.compile(optimizer='adam',
                              loss='binary_crossentropy',
                              metrics=['accuracy'])

print("\nResumo do Modelo CNN (Undersample):")
model_cnn_undersample.summary()

# --- treino do Modelo CNN (Com Undersampling) ---
epochs_cnn_us = 10
batch_size_cnn_us = 32

print("\nTreinando CNN com Undersampling...")
history_cnn_undersample = model_cnn_undersample.fit(X_train_cnn_us, y_train_cnn_us,
                                                    epochs=epochs_cnn_us,
                                                    batch_size=batch_size_cnn_us,
                                                    validation_data=(X_val_cnn, y_val_cnn),
                                                    verbose=1)

# --- avaliação do modelo ---
print("\nAvaliando CNN (Undersample) no conjunto de teste FINAL...")
loss_cnn_test_us, accuracy_cnn_test_us = model_cnn_undersample.evaluate(X_test_cnn_final, y_test_cnn_final, verbose=0)

print(f"\nAcurácia da CNN (Undersample) no conjunto de teste FINAL: {accuracy_cnn_test_us:.4f}")

# gera previsões de probabilidade e classes
cnn_predictions_probs_us = model_cnn_undersample.predict(X_test_cnn_final)
cnn_predictions_us = (cnn_predictions_probs_us >= 0.5).astype(int).flatten()

print("\nAvaliação completa da CNN (Undersample) no conjunto de teste FINAL:")
print(classification_report(y_test_cnn_final, cnn_predictions_us))

# cálculo de F1-score ponderado e AUC para a CNN (Undersample)
cnn_f1_weighted_us = f1_score(y_test_cnn_final, cnn_predictions_us, average='weighted')

try:
    cnn_auc_us = roc_auc_score(y_test_cnn_final, cnn_predictions_probs_us)
except ValueError as e:
    cnn_auc_us = f"N/A (problema ao calcular AUC: {e})"
except Exception as e:
    cnn_auc_us = f"N/A (problema ao calcular AUC: {e})"


print("F1-score ponderado (CNN Undersample):", cnn_f1_weighted_us)
if isinstance(cnn_auc_us, (float, int)):
    print("AUC:", cnn_auc_us)
else:
    print("AUC:", cnn_auc_us)


# dicionário de resultados
try:
    cnn_report_us = classification_report(y_test_cnn_final, cnn_predictions_us, output_dict=True)
    results['CNN (Embedding+Seq, Undersample) Test'] = {
        'accuracy': accuracy_cnn_test_us,
        'precision (macro)': cnn_report_us['macro avg']['precision'],
        'recall (macro)': cnn_report_us['macro avg']['recall'],
        'f1-score (macro)': cnn_report_us['macro avg']['f1-score'],
        'f1-score (weighted)': cnn_f1_weighted_us,
        'auc': cnn_auc_us if isinstance(cnn_auc_us, (float, int)) else None
    }
except NameError:
    print("Dicionário 'results' não encontrado. Os resultados da CNN (com undersampling) não foram armazenados.")


Exemplo de sequências padded (df_subset completo):
[[  57   84   90   47  156 1215   28 2589  146 3160 2199  101    1 2413
  2589  101 2200   14  113  681  680 4581    1    6 2589  101 1262   48
   194  348 3522    6 1263 3803    6   19  277 8319  997  942 2525   82
    35   23 1801   62  303  198  249    8  282   60 1361    8  583 8319
   375  363 8319 2161  198  370 1392 1008  363  252   47    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0]
 [   1    1 7440  224  285   19    2    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0




Treinando CNN com Undersampling...
Epoch 1/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 56ms/step - accuracy: 0.5814 - loss: 0.6612 - val_accuracy: 0.7830 - val_loss: 0.4910
Epoch 2/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 41ms/step - accuracy: 0.8628 - loss: 0.3523 - val_accuracy: 0.7824 - val_loss: 0.4444
Epoch 3/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 48ms/step - accuracy: 0.9495 - loss: 0.1714 - val_accuracy: 0.7948 - val_loss: 0.5057
Epoch 4/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 39ms/step - accuracy: 0.9760 - loss: 0.0824 - val_accuracy: 0.7470 - val_loss: 0.7423
Epoch 5/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 40ms/step - accuracy: 0.9872 - loss: 0.0478 - val_accuracy: 0.7544 - val_loss: 0.8880
Epoch 6/10
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 48ms/step - accuracy: 0.9945 - loss: 0.0204 - val_accuracy: 0.7430 - v

In [None]:
# --- construção e treino do Modelo LSTM ---

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
from sklearn.metrics import classification_report, accuracy_score, f1_score, roc_auc_score

print("\n" + "="*50)
print("Construindo e Treinando o Modelo LSTM com Undersampling...")

# reutiliza parâmetros de embedding e LSTM da célula anterior

model_lstm_undersample = Sequential([
    Embedding(input_dim=max_words, output_dim=embedding_dim, input_length=max_sequence_length),
    LSTM(128),
    Dropout(0.5),
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model_lstm_undersample.compile(optimizer='adam',
                               loss='binary_crossentropy',
                               metrics=['accuracy'])

epochs_lstm_rus = 15
batch_size_lstm_rus = 32

print("\nTreinando LSTM com dados subamostrados...")

history_lstm_undersample = model_lstm_undersample.fit(X_train_cnn_us, y_train_cnn_us,
                                                   epochs=epochs_lstm_rus,
                                                   batch_size=batch_size_lstm_rus,
                                                   validation_data=(X_val_cnn, y_val_cnn),
                                                   verbose=1)

print("\nResumo do Modelo LSTM (Undersampling):")
model_lstm_undersample.summary()

# --- avaliação do modelo ---
print("\nAvaliando LSTM (Undersampling) no conjunto de validação...")
loss_lstm_us_val, accuracy_lstm_us_val = model_lstm_undersample.evaluate(X_val_cnn, y_val_cnn, verbose=0)

print(f"\nAcurácia da LSTM (Undersampling) no conjunto de validação: {accuracy_lstm_us_val:.4f}")

lstm_us_predictions_proba_val = model_lstm_undersample.predict(X_val_cnn)
lstm_us_predictions_val = (lstm_us_predictions_proba_val >= 0.5).astype(int).flatten()

print("\nAvaliação completa da LSTM (Undersampling) no conjunto de validação:")
print(classification_report(y_val_cnn, lstm_us_predictions_val))

lstm_us_weighted_f1_val = f1_score(y_val_cnn, lstm_us_predictions_val, average='weighted')
print("Weighted F1-score:", lstm_us_weighted_f1_val)

try:
    lstm_us_auc_score_val = roc_auc_score(y_val_cnn, lstm_us_predictions_proba_val)
    print("AUC:", lstm_us_auc_score_val)
except ValueError as e:
    print(f"Could not calculate AUC: {e}")
    lstm_us_auc_score_val = None

print("="*50)

# dicionário de resultados
lstm_us_report_val = classification_report(y_val_cnn, lstm_us_predictions_val, output_dict=True)
results['LSTM (Embedding+Seq) Undersample Validation'] = {
    'accuracy': accuracy_lstm_us_val,
    'precision (macro)': lstm_us_report_val['macro avg']['precision'],
    'recall (macro)': lstm_us_report_val['macro avg']['recall'],
    'f1-score (macro)': lstm_us_report_val['macro avg']['f1-score'],
    'f1-score (weighted)': lstm_us_weighted_f1_val,
    'auc': lstm_us_auc_score_val
}

print("\nResultados Finais Acumulados:")
print(results)


Construindo e Treinando o Modelo LSTM com Undersampling...

Treinando LSTM com dados subamostrados...




Epoch 1/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m45s[0m 229ms/step - accuracy: 0.4909 - loss: 0.6956 - val_accuracy: 0.8202 - val_loss: 0.6830
Epoch 2/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m38s[0m 226ms/step - accuracy: 0.5125 - loss: 0.6943 - val_accuracy: 0.8202 - val_loss: 0.6786
Epoch 3/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 230ms/step - accuracy: 0.4981 - loss: 0.6940 - val_accuracy: 0.2158 - val_loss: 0.7042
Epoch 4/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m39s[0m 215ms/step - accuracy: 0.5297 - loss: 0.6907 - val_accuracy: 0.2688 - val_loss: 0.6912
Epoch 5/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m43s[0m 226ms/step - accuracy: 0.5682 - loss: 0.7065 - val_accuracy: 0.8206 - val_loss: 0.6748
Epoch 6/15
[1m169/169[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m39s[0m 229ms/step - accuracy: 0.5455 - loss: 0.6800 - val_accuracy: 0.6430 - val_loss: 0.6559
Epoch 7/15


Avaliando LSTM (Undersampling) no conjunto de validação...

Acurácia da LSTM (Undersampling) no conjunto de validação: 0.5650
[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 54ms/step

Avaliação completa da LSTM (Undersampling) no conjunto de validação:
              precision    recall  f1-score   support

           0       0.97      0.49      0.65      4101
           1       0.28      0.92      0.43       899

    accuracy                           0.56      5000
   macro avg       0.62      0.71      0.54      5000
weighted avg       0.84      0.56      0.61      5000

Weighted F1-score: 0.6086216642306727
AUC: 0.7746843535543978

Resultados Finais Acumulados:
{'Logistic Regression (Undersample)': {'accuracy': 0.7802, 'precision (macro)': 0.6857815387738894, 'recall (macro)': 0.7700385890307554, 'f1-score (macro)': 0.7033413908942813, 'f1-score (weighted)': 0.8000412990893742, 'auc': np.float64(0.8511894735785707)}, 'Multinomial NB (Undersample)': {'accuracy': 0

### **Resultados**

#### **Dataset Original**

| Modelo                        | Acurácia | F1-score Ponderado | AUC (ponderado, OVR) |
| ----------------------------- | -------- | ------------------ | -------------------- |
| Regressão Logística           | 0.8506   | 0.8281             | 0.8609               |
| Naive Bayes Multinomial       | 0.8446   | 0.8175             | 0.8494               |
| SVM (Kernel Linear)           | 0.8522   | 0.8372             | 0.8339               |
| Random Forest                 | 0.8440   | 0.8283             | 0.8387               |
| LightGBM                      | 0.8456   | 0.8269             | 0.8414               |
| MLP (Perceptron Multicamadas) | 0.8400   | 0.8348             | 0.8199               |
| CNN (Convolutional NN)        | 0.8300   | 0.8206             | 0.8076               |
| LSTM                          | 0.8200   | 0.8203             | 0.8144               |



#### **Dataset Balanceado**

##### **Quadro Resumo dos Modelos com `class_weight`**

| Modelo                            | Acurácia | F1-score Ponderado | AUC (ponderado, OVR) |
| --------------------------------- | -------- | ------------------ | -------------------- |
| Regressão Logística           | 0.8054   | 0.8195             | 0.8600               |
| Naive Bayes Multinomial           | 0.8446   | 0.8175             | 0.8494 *(sem CW)*    |
| SVM (Kernel Linear)           | 0.7954   | 0.8109             | 0.8462               |
| Random Forest                | 0.8260   | 0.8184             | 0.8357               |
| LightGBM                      | 0.7928   | 0.8076             | 0.8360               |
| MLP (Perceptron Multicamadas) | 0.8200   | 0.8195             | 0.8155               |
| CNN                           | 0.8100   | 0.8200             | 0.8236               |
| LSTM                          | 0.8000   | 0.8151             | 0.8320               |



##### **Quadro Resumo dos Modelos com Oversampling**


| Modelo                          | Acurácia | F1-score Ponderado | AUC (ponderado, OVR) |
| ------------------------------- | -------- | ------------------ | -------------------- |
| Regressão Logística      | 0.7732   | 0.7921             | 0.8276               |
| Naive Bayes Multinomial  | 0.7584   | 0.7828             | 0.8549               |
| SVM (Kernel Linear)      | 0.7692   | 0.7886             | 0.8167               |
| Random Forest            | 0.8108   | 0.8143             | 0.8174               |
| LightGBM                 | 0.7732   | 0.7913             | 0.8298               |
| MLP                     | 0.8400   | 0.8283             | 0.8256               |
| CNN                 | 0.7400   | 0.7625             | 0.7328               |
| LSTM                | 0.6900   | 0.7218             | 0.7150               |



##### **Quadro Resumo dos Modelos com Undersampling**

| Modelo                               | Acurácia | F1-score Ponderado | AUC (ponderado, OVR) |
| ------------------------------------ | -------- | ------------------ | -------------------- |
| Regressão Logística           | 0.7802   | 0.8000             | 0.8512               |
| Naive Bayes Multinomial       | 0.7356   | 0.7644             | 0.8519               |
| SVM (Kernel Linear)           | 0.7742   | 0.7951             | 0.8384               |
| Random Forest                 | 0.7434   | 0.7692             | 0.8281               |
| LightGBM                      | 0.7652   | 0.7861             | 0.8302               |
| MLP  | 0.7500   | 0.7708             | 0.8147               |
| CNN                    | 0.7400   | 0.7691             | 0.8120               |
| LSTM                   | 0.5600   | 0.6086             | 0.7747               |
