In [1]:
#El objetivo de este experimento es tomar los registros que tienen solo una categoría de emoción y usarlos como datos de entrenamiento para un clasificador de sentimientos.
#Los registros que tienen más de una categoría se utilizarán para el testing y que así se determine una emoción dominante.

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split


#Carga de datos
train_data = pd.read_csv("../../Data/OnlyOneEmotion/train_emotions.csv")
test_data = pd.read_csv("../../Data/OnlyOneEmotion/test_emotions.csv")

#Llenar los Textos vacíos con un espacio
train_data['Text'] = train_data['Text'].fillna(" ")
test_data['Text'] = test_data['Text'].fillna(" ")

#Hacer un split de train_data para obtener un conjunto de validación
train, valid = train_test_split(train_data, test_size=0.2, random_state=42)

#Vectorizar los textos
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train['Text'])
X_valid = vectorizer.transform(valid['Text'])
X_test = vectorizer.transform(test_data['Text'])

y_train = train['Emotion']
y_valid = valid['Emotion']
y_test = test_data['Emotion']

# Modelo (ejemplo con SVM)
clf = SVC(kernel='linear')
clf.fit(X_train, y_train)

# Validación
y_pred_valid = clf.predict(X_valid)
print("Validación:")
print(classification_report(y_valid, y_pred_valid, zero_division=0))


Validación:
              precision    recall  f1-score   support

           0       0.62      0.61      0.62       548
           1       0.65      0.85      0.74       333
           2       0.51      0.42      0.46       207
           3       0.32      0.12      0.17       292
           4       0.53      0.10      0.17       373
           5       0.45      0.12      0.19       120
           6       0.67      0.07      0.13       169
           7       0.62      0.08      0.14       303
           8       0.63      0.40      0.48        81
           9       0.63      0.11      0.19       149
          10       0.33      0.03      0.05       294
          11       0.46      0.36      0.40       107
          12       0.42      0.31      0.36        35
          13       0.42      0.12      0.18        93
          14       0.46      0.59      0.52        92
          15       0.92      0.92      0.92       383
          16       0.00      0.00      0.00         2
          17   

In [2]:

#Contar las emociones en el conjunto de entrenamiento
print(train['Emotion'].value_counts())

Emotion
27    10297
0      2162
4      1500
15     1474
1      1319
3      1159
18     1137
10     1108
7      1086
2       818
17      689
6       689
20      678
25      645
26      583
9       560
5       529
22      485
13      417
11      391
14      338
8       308
24      291
12      168
19       70
23       65
21       43
16       37
Name: count, dtype: int64


Primero tengo que aplicar el train sobre el test de una sola emocion
Después de eso, el mejor modelo echarlo a andar con aquellos subrreddits que tienen más de una emoción.
Una vez clasificados, añadir este dataset al train y volverlo a echar a andar con el test para ver si sigue funcionando

In [None]:

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix