<a href="https://colab.research.google.com/github/LuanBarbs/tcc-emotion-text-classifier/blob/main/notebooks/emotion_classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Configuração**

In [None]:
# Importações Básicas
import numpy as np
import pandas as pd

# Importações de Ferramentas de ML
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn import metrics
from sklearn.multiclass import OneVsRestClassifier

# Modelos de Classificação Utilizados
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# **Primeiro Dataset**

## **Carregando Dataset**

In [None]:
# Carregar o dataset (certifique-se de ter o arquivo dataset1.csv no ambiente do Colab)
# Link: https://zenodo.org/records/10823148

df = pd.read_csv('dataset1.csv', sep=',')

# Remover linhas na coluna 'content' com valores NaN
df.dropna(subset=['content'], inplace=True)

# Exibe as primeiras linhas do conjunto de dados
df.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,01e23c15-44bf-46b7-b280-40e880d9d49b,Shopee,app shope razoá apes fácil utiliz apresent alg...,positive,sadness
1,df40ba7c-075d-48dc-b798-21466dfb41d6,Shopee,app bem otimiz fácil visual produt ped rastrei...,positive,sadness
2,59490b23-b17b-4bba-855b-b5053dadc0db,Shopee,app bom prát fácil entend porém algum vend man...,positive,sadness
3,48fd8168-1e42-4475-9a99-935c2fd48769,Shopee,aplic bom alg chate bast fat pesquis produt co...,positive,sadness
4,f4e1468b-6d97-4f1a-927d-1afee2bfbe75,Shopee,app bom porém tid dificuldad pag cart crédit a...,negative,disgust


In [None]:
# Obtenha o shape do DataFrame (linhas, colunas)
df_shape = df.shape

print(f"Numero de linhas: {df_shape[0]}")
print(f"Numero de colunas: {df_shape[1]}")

Numero de linhas: 3010
Numero de colunas: 5


In [None]:
# Mostrar a contagem de cada classe na coluna 'sentiment_polarity'
print(df['sentiment_polarity'].value_counts())

sentiment_polarity
negative    1741
positive    1187
neutral       82
Name: count, dtype: int64


In [None]:
# Mostrar a contagem de cada classe na coluna 'sentiment'
print(df['sentiment'].value_counts())

# Mostra o número total de classes distintas
print("\nNumber of unique classes:", df['sentiment'].nunique())

sentiment
disgust      951
sadness      864
anger        743
happiness    319
neutral       82
fear          47
surprise       4
Name: count, dtype: int64

Number of unique classes: 7


## **Análise de Sentimentos**

In [None]:
# Separa as variáveis em entrada (content) e saída (rótulo - sentiment_polarity)
X = df["content"]
y = df['sentiment_polarity']

In [None]:
# Devide o conjunto de dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função para treinar e avaliar os modelos
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  # Pipeline que aplica o TF-IDF e treina o modelo
  text_clf = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', model),
  ])

  # Treinamento
  text_clf.fit(X_train, y_train)

  # Predição
  predictions = text_clf.predict(X_test)

  # Avaliação
  print(metrics.classification_report(y_test, predictions, zero_division=0))
  print("Acurácia: ", metrics.accuracy_score(y_test, predictions))

In [None]:
# Treinando e avaliando vários modelos

train_and_evaluate(LinearSVC(), "SVM (Linear)")
train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(), "Regressão Logística")
train_and_evaluate(DecisionTreeClassifier(), "Árvore de Decisão")
train_and_evaluate(RandomForestClassifier(), "Random Forest")


🔎 Avaliando modelo: SVM (Linear)
              precision    recall  f1-score   support

    negative       0.85      0.91      0.88       529
     neutral       0.00      0.00      0.00        25
    positive       0.84      0.80      0.82       349

    accuracy                           0.84       903
   macro avg       0.56      0.57      0.56       903
weighted avg       0.82      0.84      0.83       903

Acurácia:  0.8416389811738649

🔎 Avaliando modelo: Naive Bayes Multinomial
              precision    recall  f1-score   support

    negative       0.77      0.96      0.85       529
     neutral       0.00      0.00      0.00        25
    positive       0.89      0.62      0.73       349

    accuracy                           0.80       903
   macro avg       0.55      0.52      0.53       903
weighted avg       0.79      0.80      0.78       903

Acurácia:  0.7995570321151716

🔎 Avaliando modelo: Naive Bayes Bernoulli
              precision    recall  f1-score   support

 

## **Classificação de Emoções**

In [None]:
# Separa as variáveis em entrada (content) e saída (rótulo - sentiment)
X = df['content']
y = df['sentiment']

In [None]:
# Devide o conjunto de dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função para treinar e avaliar os modelos
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  # Pipeline que aplica o TF-IDF e treina o modelo
  text_clf = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', model),
  ])

  # Treinamento
  text_clf.fit(X_train, y_train)

  # Predição
  predictions = text_clf.predict(X_test)

  # Avaliação
  print(metrics.classification_report(y_test, predictions, zero_division=0))
  print("Acurácia: ", metrics.accuracy_score(y_test, predictions))

In [None]:
# Treinando e avaliando vários modelos

train_and_evaluate(LinearSVC(), "SVM (Linear)")
train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(), "Regressão Logística")
train_and_evaluate(DecisionTreeClassifier(), "Árvore de Decisão")
train_and_evaluate(RandomForestClassifier(), "Random Forest")


🔎 Avaliando modelo: SVM (Linear)
              precision    recall  f1-score   support

       anger       0.61      0.60      0.61       236
     disgust       0.54      0.61      0.57       285
        fear       0.00      0.00      0.00         8
   happiness       0.73      0.64      0.68       105
     neutral       0.25      0.04      0.07        25
     sadness       0.64      0.67      0.65       241
    surprise       0.00      0.00      0.00         3

    accuracy                           0.60       903
   macro avg       0.40      0.36      0.37       903
weighted avg       0.59      0.60      0.59       903

Acurácia:  0.602436323366556

🔎 Avaliando modelo: Naive Bayes Multinomial
              precision    recall  f1-score   support

       anger       0.68      0.33      0.45       236
     disgust       0.51      0.76      0.61       285
        fear       0.00      0.00      0.00         8
   happiness       0.00      0.00      0.00       105
     neutral       0.00 

## **Melhor por Dataset**

#### --> Regressão Logística

# **Segundo Dataset**

## **Carregando Dataset**

In [None]:
# Carregar o dataset (certifique-se de ter o arquivo dataset2.xlsx no ambiente do Colab)
# Link: https://github.com/MiningEmotion/EmotionsMiningPTBR/blob/main/base%20de%20dados/TweetEmotionsPTBR.xlsx

df = pd.read_excel('dataset2.xlsx')

# Remover linhas na coluna 'texto' com valores NaN
df.dropna(subset=['texto'], inplace=True)

# Exibe as primeiras linhas do conjunto de dados
df.head()

Unnamed: 0,texto,alegria,tristeza,raiva,medo,nojo,surpresa,confianca,antecipacao,sentimento
0,͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏\nque júbilo incalculável ver t...,1,0,0,0,0,0,0,0,alegria
1,". 𝘀𝗮𝗽𝗼𝗻𝘁𝗮𝗺𝗲𝗻𝘁𝗼𝗶\nSenhor, arranca do meu coraçã...",0,1,0,0,0,1,0,0,decepção
2,"A franquia continua ativa, com o desenvolvimen...",0,1,0,0,0,1,0,0,decepção
3,"Alessandro Barcellos, candidato a presidente d...",0,0,0,0,0,0,1,0,confianca
4,AVANTE PALESTRA E as contratações do Palmeiras...,0,0,0,1,0,0,1,0,submissão


In [None]:
# Obtenha o shape do DataFrame (linhas, colunas)
df_shape = df.shape

print(f"Number of rows: {df_shape[0]}")
print(f"Number of columns: {df_shape[1]}")

Number of rows: 12678
Number of columns: 10


In [None]:
# Mostrar a contagem de cada classe na coluna 'sentimento'
print(df['sentimento'].value_counts())

# Mostra o número total de classes distintas
print("\nNumber of unique classes:", df['sentimento'].nunique())

sentimento
tristeza         812
antecipacao      809
raiva            809
alegria          807
otimismo         806
confianca        805
desprezo         803
agressividade    802
decepção         801
nojo             799
amor             798
medo             798
submissão        797
remorso          785
surpresa         731
intimidação      716
Name: count, dtype: int64

Number of unique classes: 16


## **Classificação de Emoção**

In [None]:
# Separa as variáveis em entrada (texto) e saída (rótulo - sentimento)
X = df['texto']
y = df['sentimento']

In [None]:
# Devide o conjunto de dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função para treinar e avaliar os modelos
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  # Pipeline que aplica o TF-IDF e treina o modelo
  text_clf = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', model),
  ])

  # Treinamento
  text_clf.fit(X_train, y_train)

  # Predição
  predictions = text_clf.predict(X_test)

  # Avaliação
  print(metrics.classification_report(y_test, predictions, zero_division=0))
  print("Acurácia: ", metrics.accuracy_score(y_test, predictions))

In [None]:
# Treinando e avaliando vários modelos

train_and_evaluate(LinearSVC(), "SVM (Linear)")
train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(), "Regressão Logística")
train_and_evaluate(DecisionTreeClassifier(), "Árvore de Decisão")
train_and_evaluate(RandomForestClassifier(), "Random Forest")


🔎 Avaliando modelo: SVM (Linear)
               precision    recall  f1-score   support

agressividade       0.94      0.96      0.95       241
      alegria       0.96      0.93      0.95       254
         amor       0.92      0.97      0.94       238
  antecipacao       1.00      1.00      1.00       234
    confianca       0.94      0.96      0.95       229
     decepção       0.97      0.93      0.95       251
     desprezo       0.98      0.97      0.98       253
  intimidação       1.00      1.00      1.00       208
         medo       1.00      1.00      1.00       236
         nojo       0.97      0.98      0.98       249
     otimismo       0.99      1.00      0.99       240
        raiva       0.96      0.98      0.97       236
      remorso       0.98      0.97      0.98       248
    submissão       0.97      0.98      0.98       225
     surpresa       0.99      0.95      0.97       222
     tristeza       0.90      0.90      0.90       240

     accuracy                

## **Melhor por Dataset**

#### --> SVM (Linear)

# **Terceiro Dataset:**
### Apenas um processamento de dados do primeiro

## **Carregando Dataset**

In [None]:
# Carregar o dataset (certifique-se de ter o arquivo dataset3.xlsx no ambiente do Colab)
# Link: https://github.com/MiningEmotion/EmotionsMiningPTBR/blob/main/base%20de%20dados/Tweets-processado.xlsx

df = pd.read_excel('dataset3.xlsx')

# Remove rows in the 'content' column with NaN values
df.dropna(subset=['texto'], inplace=True)

# Exibe as primeiras linhas do conjunto de dados
df.head()

Unnamed: 0,UserTags,texto,alegria,tristeza,raiva,medo,nojo,surpresa,confianca,antecipacao,sentimento
0,@pascones\n·\n16 de jan,jubil incalcula ver tod quer prest ano pass en...,1,0,0,0,0,0,0,0,alegria
1,TiadoZap\n@LumaPatriota\n·\n5 de jan,sapontamento senh arranc coraca qualqu tip des...,0,1,0,0,0,1,0,0,decepção
2,JAPAH\n@j_a_p_a_h__\n·\n18 de dez de 2023,franqu continu ativ desenvolv segund jog emb p...,0,1,0,0,0,1,0,0,decepção
3,Guaíba Esporte\n@GuaibaEsporte\n·\n9 de dez,alessandr barcell candidat presid int sobr ren...,0,0,0,0,0,0,1,0,confianca
4,Rosemir Rosemir\n@RosemirRos10013\n·\n15 de jan,av palestr contrataco palm parec ja acab nao n...,0,0,0,1,0,0,1,0,submissão


In [None]:
# Obtenha o shape do DataFrame (linhas, colunas)
df_shape = df.shape

print(f"Number of rows: {df_shape[0]}")
print(f"Number of columns: {df_shape[1]}")

Number of rows: 12672
Number of columns: 11


In [None]:
# Mostrar a contagem de cada classe na coluna 'sentimento'
print(df['sentimento'].value_counts())

# Mostra o número total de classes distintas
print("\nNumber of unique classes:", df['sentimento'].nunique())

sentimento
tristeza         812
antecipacao      809
raiva            809
alegria          807
otimismo         806
confianca        805
desprezo         803
decepção         801
agressividade    801
nojo             799
amor             798
medo             798
submissão        796
remorso          784
surpresa         728
intimidação      716
Name: count, dtype: int64

Number of unique classes: 16


## **Classificação de Emoções**

In [None]:
# Separa as variáveis em entrada (texto) e saída (rótulo - sentimento)
X = df['texto']
y = df['sentimento']

In [None]:
# Devide o conjunto de dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função para treinar e avaliar os modelos
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  # Pipeline que aplica o TF-IDF e treina o modelo
  text_clf = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', model),
  ])

  # Treinamento
  text_clf.fit(X_train, y_train)

  # Predição
  predictions = text_clf.predict(X_test)

  # Avaliação
  print(metrics.classification_report(y_test, predictions, zero_division=0))
  print("Acurácia: ", metrics.accuracy_score(y_test, predictions))

In [None]:
# Treinando e avaliando vários modelos

train_and_evaluate(LinearSVC(), "SVM (Linear)")
train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(), "Regressão Logística")
train_and_evaluate(DecisionTreeClassifier(), "Árvore de Decisão")
train_and_evaluate(RandomForestClassifier(), "Random Forest")


🔎 Avaliando modelo: SVM (Linear)
               precision    recall  f1-score   support

agressividade       0.96      0.95      0.96       248
      alegria       0.90      0.91      0.91       237
         amor       0.90      0.93      0.92       240
  antecipacao       0.98      1.00      0.99       226
    confianca       0.93      0.95      0.94       243
     decepção       0.97      0.91      0.94       247
     desprezo       0.92      0.95      0.94       244
  intimidação       1.00      0.98      0.99       209
         medo       0.95      0.99      0.97       241
         nojo       0.95      0.95      0.95       243
     otimismo       0.98      0.98      0.98       243
        raiva       0.92      0.95      0.94       212
      remorso       0.96      0.98      0.97       243
    submissão       0.99      0.96      0.98       255
     surpresa       0.97      0.93      0.95       221
     tristeza       0.90      0.89      0.89       250

     accuracy                

## **Melhor por Dataset**

#### --> SVM (Linear)

#### Teve uma pequena perda de qualidade, observando-se apenas a acurácia

# **Quarto Dataset**

## **Carregando Dataset**

In [None]:
# Carregar o dataset (certifique-se de ter o arquivo dataset4.csv no ambiente do Colab)
# Link: https://github.com/diogocortiz/PortugueseEmotionRecognitionWeakSupervision/blob/main/test.csv

df = pd.read_csv('dataset4.csv', sep='\t')

# Remover linhas nas colunas 'tweet' ou 'categoria' com valores NaN
df.dropna(subset=['tweet', 'categoria'], inplace=True)

# Exibe as primeiras linhas do conjunto de dados
df.head()

Unnamed: 0,tweet_id,tweet,categoria
1,1407463939517173763,O único jogo que jogo bem é o Guitar Hero. É p...,0
2,1407523515645956097,Amg eu dei uma olhadinha tá muito incrível 🥺😍😍...,0
3,1407524564075171842,sexooo,0
4,1407525154884833281,Sempre foi de direita. Ela não está nem aí par...,0
6,1407501859212910601,é incrível como a maldade está nas curtidas me...,0


In [None]:
# Obtenha o shape do DataFrame (linhas, colunas)
df_shape = df.shape

print(f"Number of rows: {df_shape[0]}")
print(f"Number of columns: {df_shape[1]}")

Number of rows: 12975
Number of columns: 3


In [None]:
# Mostrar a contagem de cada classe na coluna 'sentiment_polarity'
print(df['categoria'].value_counts())

categoria
5        1525
1        1036
7        1021
2         941
0         685
13        661
22        609
12        596
16        527
23        422
26        403
18        381
20        375
17        361
15        339
6         334
21        307
24        305
3         301
11        293
19        276
8         274
27        215
4         199
10        192
25        191
9         161
14         35
11,15       5
11,17       1
12,13       1
16,17       1
18,19       1
20,21       1
Name: count, dtype: int64


In [None]:
# Remove linhas com categorias combinadas (com vírgula) (apenas 10 exemplos em 12975)
df = df[~df['categoria'].astype(str).str.contains(',')].copy()

# Converte os valores restantes para inteiro
df.loc[:, 'categoria'] = df['categoria'].astype(int)

# Exibe as primeiras linhas para ver o resultado
df.head()

Unnamed: 0,tweet_id,tweet,categoria
1,1407463939517173763,O único jogo que jogo bem é o Guitar Hero. É p...,0
2,1407523515645956097,Amg eu dei uma olhadinha tá muito incrível 🥺😍😍...,0
3,1407524564075171842,sexooo,0
4,1407525154884833281,Sempre foi de direita. Ela não está nem aí par...,0
6,1407501859212910601,é incrível como a maldade está nas curtidas me...,0


In [None]:
# Substituição da categoria de numero por nomes - Tentativa com base no arquivo: https://github.com/diogocortiz/PortugueseEmotionRecognitionWeakSupervision/blob/main/List%20of%20Lexical%20items%20
label_map = {
    0: 'admiração',
    1: 'diversão',
    2: 'raiva',
    3: 'aborrecimento',
    4: 'provação',
    5: 'confusão',
    6: 'curiosidade',
    7: 'desejo',
    8: 'decepção',
    9: 'desaprovação',
    10: 'nojo',
    11: 'vergonha',
    12: 'entusiasmo',
    13: 'medo',
    14: 'gratidão',
    15: 'luto',
    16: 'alegria',
    17: 'amor',
    18: 'nervosismo',
    19: 'otimismo',
    20: 'orgulho',
    21: 'alívio',
    22: 'remorso',
    23: 'tristeza',
    24: 'surpresa',
    25: 'saudade',
    26: 'inveja',
    27: 'compaixão',
}

df['categoria'] = df['categoria'].map(label_map)

df.head()

Unnamed: 0,tweet_id,tweet,categoria
1,1407463939517173763,O único jogo que jogo bem é o Guitar Hero. É p...,admiração
2,1407523515645956097,Amg eu dei uma olhadinha tá muito incrível 🥺😍😍...,admiração
3,1407524564075171842,sexooo,admiração
4,1407525154884833281,Sempre foi de direita. Ela não está nem aí par...,admiração
6,1407501859212910601,é incrível como a maldade está nas curtidas me...,admiração


## **Classificação de Emoções**

In [None]:
# Separa as variáveis em entrada (content) e saída (rótulo - sentiment)
X = df['tweet']
y = df['categoria']

In [None]:
# Devide o conjunto de dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função para treinar e avaliar os modelos
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  # Pipeline que aplica o TF-IDF e treina o modelo
  text_clf = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', model),
  ])

  # Treinamento
  text_clf.fit(X_train, y_train)

  # Predição
  predictions = text_clf.predict(X_test)

  # Avaliação
  print(metrics.classification_report(y_test, predictions, zero_division=0))
  print("Acurácia: ", metrics.accuracy_score(y_test, predictions))

In [None]:
# Treinando e avaliando vários modelos

train_and_evaluate(LinearSVC(), "SVM (Linear)")
train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(), "Regressão Logística")
train_and_evaluate(DecisionTreeClassifier(), "Árvore de Decisão")
train_and_evaluate(RandomForestClassifier(), "Random Forest")


🔎 Avaliando modelo: SVM (Linear)
               precision    recall  f1-score   support

aborrecimento       0.82      0.65      0.72        91
    admiração       0.73      0.79      0.76       204
      alegria       0.57      0.56      0.57       167
       alívio       0.89      0.83      0.86        89
         amor       0.73      0.66      0.69       116
    compaixão       0.65      0.48      0.55        75
     confusão       0.79      0.85      0.82       458
  curiosidade       0.85      0.83      0.84       101
     decepção       0.79      0.65      0.71        84
 desaprovação       0.74      0.69      0.71        45
       desejo       0.62      0.73      0.67       317
     diversão       0.66      0.74      0.69       310
   entusiasmo       0.73      0.81      0.77       160
     gratidão       0.83      0.56      0.67         9
       inveja       0.85      0.79      0.82       106
         luto       0.62      0.52      0.56       106
         medo       0.60      

## **Melhor por Dataset**

#### --> SVM (Linear)

# **Quinto Dataset**

## GoEmotions traduzido do inglês. Multilabel

## **Carregando Dataset**

In [None]:
# Carregar o dataset pelo kaggle
# Link: https://www.kaggle.com/datasets/antoniomenezes/go-emotions-ptbr?select=goemotions_1_pt.csv
import kagglehub
import os

# Baixar última versão do dataset
path = kagglehub.dataset_download("antoniomenezes/go-emotions-ptbr")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/antoniomenezes/go-emotions-ptbr?dataset_version_number=1...


100%|██████████| 22.9M/22.9M [00:01<00:00, 15.0MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/antoniomenezes/go-emotions-ptbr/versions/1


In [None]:
# Listar os arquivos dentro do diretório baixado
files = os.listdir(path)
print("Arquivos disponíveis: ", files)

Arquivos disponíveis:  ['goemotions_2_pt.csv', 'goemotions_3_pt.csv', 'goemotions_1_pt.csv']


In [None]:
# Concatena os DataFrames
dfs = [pd.read_csv(os.path.join(path, file)) for file in files]
df_full = pd.concat(dfs, ignore_index=True)

# Exibe as primeiras linhas do conjunto de dados
df_full.head()

Unnamed: 0,text,id,author,subreddit,link_id,parent_id,created_utc,rater_id,example_very_unclear,admiration,...,nervousness,optimism,pride,realization,relief,remorse,sadness,surprise,neutral,texto
0,We can hope,ee3o3ko,darkenseyreth,EdmontonOilers,t3_ag4r9j,t1_ee3mhad,1547529000.0,62,False,0,...,0,1,0,0,0,0,0,0,0,Nós podemos esperar
1,Shhh don't give them the idea!,eebl3z7,BoinkBoinkEtAliae,MurderedByWords,t3_ah3o76,t1_eeb68lo,1547777000.0,76,False,0,...,0,0,0,0,0,0,0,0,0,Shhh não dê a eles a idéia!
2,"Thank you so much, kind stranger. I really nee...",ed4fe9l,savageleaf,raisedbynarcissists,t3_abwh00,t1_ed4etbj,1546482000.0,24,False,0,...,0,0,0,0,0,0,0,0,0,"Muito obrigado, gentil estranho. eu realmente ..."
3,Ion know but it would be better for you to jus...,efavtdu,CADDiLLXC,darknet,t3_al4njw,t3_al4njw,1548800000.0,62,False,0,...,0,0,0,0,0,0,0,0,1,"Eu sei, mas seria melhor você comprar apenas a..."
4,I'm honestly surprised. We should have fallen ...,ee2imz2,CorporalThornberry,CollegeBasketball,t3_afxt6t,t1_ee22nyr,1547497000.0,55,False,0,...,0,0,0,0,0,0,0,0,0,Sinceramente estou surpreso. Deveríamos ter ca...


In [None]:
# Obtenha o shape do DataFrame (linhas, colunas)
df_full_shape = df_full.shape

print(f"Numero de linhas: {df_full_shape[0]}")
print(f"Numero de colunas: {df_full_shape[1]}")

Numero de linhas: 211225
Numero de colunas: 38


In [None]:
# Verificar colunas
print(df_full.columns)

Index(['text', 'id', 'author', 'subreddit', 'link_id', 'parent_id',
       'created_utc', 'rater_id', 'example_very_unclear', 'admiration',
       'amusement', 'anger', 'annoyance', 'approval', 'caring', 'confusion',
       'curiosity', 'desire', 'disappointment', 'disapproval', 'disgust',
       'embarrassment', 'excitement', 'fear', 'gratitude', 'grief', 'joy',
       'love', 'nervousness', 'optimism', 'pride', 'realization', 'relief',
       'remorse', 'sadness', 'surprise', 'neutral', 'texto'],
      dtype='object')


In [None]:
# Retirar dados irrelevantes
df_full = df_full.drop(columns=['text', 'id', 'author', 'subreddit', 'link_id', 'parent_id', 'created_utc', 'rater_id', 'example_very_unclear'])

# Verificar
df_full.head()

Unnamed: 0,admiration,amusement,anger,annoyance,approval,caring,confusion,curiosity,desire,disappointment,...,nervousness,optimism,pride,realization,relief,remorse,sadness,surprise,neutral,texto
0,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,Nós podemos esperar
1,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Shhh não dê a eles a idéia!
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,"Muito obrigado, gentil estranho. eu realmente ..."
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,"Eu sei, mas seria melhor você comprar apenas a..."
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Sinceramente estou surpreso. Deveríamos ter ca...


In [None]:
# Remover linhas com texto vazio
df_full.dropna(subset=['texto'], inplace=True)

## **Classificação de Emoções**

In [None]:
# Copiando dataset

df = df_full.copy()

# Definindo colunas de emoções
emotion_columns = [
    'admiration', 'amusement', 'anger', 'annoyance', 'approval', 'caring',
    'confusion', 'curiosity', 'desire', 'disappointment', 'disapproval',
    'disgust', 'embarrassment', 'excitement', 'fear', 'gratitude', 'grief',
    'joy', 'love', 'nervousness', 'optimism', 'pride', 'realization', 'relief',
    'remorse', 'sadness', 'surprise', 'neutral'
]

In [None]:
# Entradas e saídas
X = df['texto']
y = df[emotion_columns]

In [None]:
# Divisão treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Função de treino e avaliação
def train_and_evaluate(model, model_name):
  print(f"\n🔎 Avaliando modelo: {model_name}")

  pipeline = Pipeline([
      ('tfidf', TfidfVectorizer()),
      ('clf', OneVsRestClassifier(model)),
  ])
  pipeline.fit(X_train, y_train)

  y_pred = pipeline.predict(X_test)

  print(metrics.classification_report(y_test, y_pred, target_names=y.columns, zero_division=0))
  print("Hamming Loss: ", metrics.hamming_loss(y_test, y_pred))

In [None]:
# Treinando e avaliando vários modelos

# train_and_evaluate(LinearSVC(), "SVM (Linear)")
# train_and_evaluate(MultinomialNB(), "Naive Bayes Multinomial")
# train_and_evaluate(BernoulliNB(), "Naive Bayes Bernoulli")
train_and_evaluate(LogisticRegression(max_iter=1000), "Regressão Logística")

# Demoram muito mais que os outros:
# train_and_evaluate(DecisionTreeClassifier(max_depth=7), "Árvore de Decisão")
# train_and_evaluate(RandomForestClassifier(n_estimators=50, max_depth=5), "Random Forest")


🔎 Avaliando modelo: Regressão Logística
                precision    recall  f1-score   support

    admiration       0.68      0.21      0.32      5227
     amusement       0.63      0.25      0.36      2681
         anger       0.53      0.09      0.16      2404
     annoyance       0.36      0.01      0.02      4201
      approval       0.59      0.03      0.06      5299
        caring       0.49      0.04      0.07      1775
     confusion       0.55      0.04      0.07      2235
     curiosity       0.61      0.04      0.07      2983
        desire       0.47      0.06      0.11      1182
disappointment       0.62      0.02      0.03      2465
   disapproval       0.36      0.02      0.03      3435
       disgust       0.45      0.05      0.08      1634
 embarrassment       0.57      0.02      0.03       760
    excitement       0.54      0.04      0.08      1609
          fear       0.65      0.12      0.21       994
     gratitude       0.90      0.67      0.76      3539
      

## **Melhor por Dataset**

#### --> Regressão Logística