In [38]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [39]:
# Leer CSV
df = pd.read_csv('./data/country_CR_train.csv')
df.head()

Unnamed: 0,content,sentiment
0,@NoilyMV yo soy totalmente puntual,NONE
1,@SandraCauffman Hola Sandrita. No le habia des...,P
2,Si andan haciendo eso mejor se quedaran callad...,N
3,Que pereza quiero choco banano,N
4,"@robertobrenes Bueno, no es tanto lo mayor com...",N


In [40]:
# Sentimientos únicos
pd.DataFrame(df['sentiment'].unique(), columns=['Sentiments Unique'])

Unnamed: 0,Sentiments Unique
0,NONE
1,P
2,N
3,NEU


In [41]:
# Conversión de sentiments a variables numéricas
df['sentiment'] = df.sentiment.map({'NONE':0, 'N':1, 'NEU':2, 'P':3})

# Vizualización de los sentimientos modificados
df

Unnamed: 0,content,sentiment
0,@NoilyMV yo soy totalmente puntual,0
1,@SandraCauffman Hola Sandrita. No le habia des...,3
2,Si andan haciendo eso mejor se quedaran callad...,1
3,Que pereza quiero choco banano,1
4,"@robertobrenes Bueno, no es tanto lo mayor com...",1
...,...,...
772,Quiero como tener carro para hacer todo rápido,2
773,Tristeza más hp me da siempre en año nuevo,1
774,no encuentro ninguna buena serie en NF.,1
775,@Alphasniper97 Alpha suerte y ten un feliz año...,3


In [42]:
wordCount = []
# Conteo de palabras
for i in df.content.tolist():
    wordCount.append(len(i.split()))
df = df.assign(wordcount = wordCount)
df

Unnamed: 0,content,sentiment,wordcount
0,@NoilyMV yo soy totalmente puntual,0,5
1,@SandraCauffman Hola Sandrita. No le habia des...,3,25
2,Si andan haciendo eso mejor se quedaran callad...,1,22
3,Que pereza quiero choco banano,1,5
4,"@robertobrenes Bueno, no es tanto lo mayor com...",1,24
...,...,...,...
772,Quiero como tener carro para hacer todo rápido,2,8
773,Tristeza más hp me da siempre en año nuevo,1,9
774,no encuentro ninguna buena serie en NF.,1,7
775,@Alphasniper97 Alpha suerte y ten un feliz año...,3,9


In [43]:
# Resumen estadístico de los datos
df.describe()

Unnamed: 0,sentiment,wordcount
count,777.0,777.0
mean,1.486486,15.122265
std,1.104179,6.053178
min,0.0,5.0
25%,1.0,10.0
50%,1.0,15.0
75%,3.0,20.0
max,3.0,26.0


In [44]:
# Vizualizar cuantas valoraciones tenemos
# Sentimientos = NONE:0, N:1, NEU:2, P:3
print(df.groupby('sentiment').size())

sentiment
0    155
1    310
2     91
3    221
dtype: int64


In [45]:
# Preparación de los datos de entrenamiento y test
X = df[['wordcount']].values
y = df['sentiment'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [46]:
# Uso de k-Nearest Neighbor
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print('Accuracy of K-NN classifier on training set: {:.2f}'
     .format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
     .format(knn.score(X_test, y_test)))

Accuracy of K-NN classifier on training set: 0.36
Accuracy of K-NN classifier on test set: 0.33


In [47]:
# Precisión del modelo (Predicciones)
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))

[[ 4 28  0  8]
 [16 48  0 19]
 [ 5 12  0  2]
 [ 6 34  0 13]]
              precision    recall  f1-score   support

           0       0.13      0.10      0.11        40
           1       0.39      0.58      0.47        83
           2       0.00      0.00      0.00        19
           3       0.31      0.25      0.27        53

    accuracy                           0.33       195
   macro avg       0.21      0.23      0.21       195
weighted avg       0.28      0.33      0.30       195

[[ 4 28  0  8]
 [16 48  0 19]
 [ 5 12  0  2]
 [ 6 34  0 13]]
              precision    recall  f1-score   support

           0       0.13      0.10      0.11        40
           1       0.39      0.58      0.47        83
           2       0.00      0.00      0.00        19
           3       0.31      0.25      0.27        53

    accuracy                           0.33       195
   macro avg       0.21      0.23      0.21       195
weighted avg       0.28      0.33      0.30       195



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
