In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [2]:
# Leer CSV
df = pd.read_csv('./data/allData.csv')
df.head()

Unnamed: 0,content,sentiment
0,@NoilyMV yo soy totalmente puntual,NONE
1,@SandraCauffman Hola Sandrita. No le habia des...,P
2,Si andan haciendo eso mejor se quedaran callad...,N
3,Que pereza quiero choco banano,N
4,"@robertobrenes Bueno, no es tanto lo mayor com...",N


In [3]:
# Sentimientos únicos
pd.DataFrame(df['sentiment'].unique(), columns=['Sentiments Unique'])

Unnamed: 0,Sentiments Unique
0,NONE
1,P
2,N
3,NEU


In [4]:
# Conversión de sentiments a variables numéricas
df['sentiment'] = df.sentiment.map({'NONE':0, 'N':1, 'NEU':2, 'P':3})

# Vizualización de los sentimientos modificados
df

Unnamed: 0,content,sentiment
0,@NoilyMV yo soy totalmente puntual,0
1,@SandraCauffman Hola Sandrita. No le habia des...,3
2,Si andan haciendo eso mejor se quedaran callad...,1
3,Que pereza quiero choco banano,1
4,"@robertobrenes Bueno, no es tanto lo mayor com...",1
...,...,...
3670,@AmorAKilates @Roocio_Mk si me pasa lo mismo!,0
3671,@clauchoarrionda pquno ladra y ls demas retwitean,2
3672,A mi desayuno le hizo falta un alfajor podrida...,1
3673,Viste cuando necesitas que alguien te escuche ...,1


In [5]:
wordCount = []
# Conteo de palabras
for i in df.content.tolist():
    wordCount.append(len(i.split()))
df = df.assign(wordcount = wordCount)
df

Unnamed: 0,content,sentiment,wordcount
0,@NoilyMV yo soy totalmente puntual,0,5
1,@SandraCauffman Hola Sandrita. No le habia des...,3,25
2,Si andan haciendo eso mejor se quedaran callad...,1,22
3,Que pereza quiero choco banano,1,5
4,"@robertobrenes Bueno, no es tanto lo mayor com...",1,24
...,...,...,...
3670,@AmorAKilates @Roocio_Mk si me pasa lo mismo!,0,7
3671,@clauchoarrionda pquno ladra y ls demas retwitean,2,7
3672,A mi desayuno le hizo falta un alfajor podrida...,1,14
3673,Viste cuando necesitas que alguien te escuche ...,1,13


In [6]:
# Resumen estadístico de los datos
df.describe()

Unnamed: 0,sentiment,wordcount
count,3675.0,3675.0
mean,1.521361,15.909116
std,1.092244,6.650208
min,0.0,5.0
25%,1.0,10.0
50%,1.0,16.0
75%,3.0,21.0
max,3.0,32.0


In [7]:
# Vizualizar cuantas valoraciones tenemos
# Sentimientos = NONE:0, N:1, NEU:2, P:3
print(df.groupby('sentiment').size())

sentiment
0     694
1    1410
2     532
3    1039
dtype: int64


In [8]:
# Preparación de los datos de entrenamiento y test
X = df[['wordcount']].values
y = df['sentiment'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [9]:
# Uso de k-Nearest Neighbor
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print('Accuracy of K-NN classifier on training set: {:.2f}'
     .format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
     .format(knn.score(X_test, y_test)))

Accuracy of K-NN classifier on training set: 0.32
Accuracy of K-NN classifier on test set: 0.30


In [10]:
# Precisión del modelo (Predicciones)
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))

[[ 16  97  34  23]
 [ 46 221  54  30]
 [ 14  84  14  13]
 [ 32 160  53  28]]
              precision    recall  f1-score   support

           0       0.15      0.09      0.12       170
           1       0.39      0.63      0.48       351
           2       0.09      0.11      0.10       125
           3       0.30      0.10      0.15       273

    accuracy                           0.30       919
   macro avg       0.23      0.23      0.21       919
weighted avg       0.28      0.30      0.27       919

[[ 16  97  34  23]
 [ 46 221  54  30]
 [ 14  84  14  13]
 [ 32 160  53  28]]
              precision    recall  f1-score   support

           0       0.15      0.09      0.12       170
           1       0.39      0.63      0.48       351
           2       0.09      0.11      0.10       125
           3       0.30      0.10      0.15       273

    accuracy                           0.30       919
   macro avg       0.23      0.23      0.21       919
weighted avg       0.28      0.