In [None]:
import warnings
warnings.filterwarnings("ignore")
import numpy as np # to use numpy arrays instead of lists
import pandas as pd # DataFrame (table)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.metrics import classification_report, accuracy_score

In [None]:
dataSet = pd.read_csv("SHAKIRA.csv", header=0)
print(dataSet)

       author                                            content  \
0     shakira  "No podemos hacer una pausa y pedirle a estos ...   
1     shakira  Shak se encuentra en el #wef17 donde hablará s...   
2     shakira  El video de Chantaje con @maluma es el tercer ...   
3     shakira  100 millones en Spotify -- Ustedes son los MEJ...   
4     shakira  Adivinen a quien le salió el rey en el roscón?...   
...       ...                                                ...   
1062  shakira  Anoche... Piqué, Vidic, Iniesta, Xavi de los 1...   
1063  shakira  Hoy en la ceremonia de entrega del Balón de Or...   
1064  shakira  No se pierdan el vídeo de Shakira interpretand...   
1065  shakira            http://t.co/RlQf5AVu - Feliz Año Nuevo!   
1066  shakira  Que en este 2012 se realicen todos los deseos ...   

             date_time            id language  number_of_likes  \
0     16/01/2017 20:50  8.210000e+17       es             1502   
1     16/01/2017 17:37  8.210000e+17       es      

In [None]:
dataSet.dropna(inplace=True)
dataSet = dataSet.iloc[0:50000,:]

# Encode 4s and 5s as positive
# Encode 1s and 2s as negative
dataSet['Sentiment'] = 2

for row in range(len(dataSet)):
  if dataSet.iloc[row,5] > 18000:
    dataSet.iloc[row,7] = 4
  if dataSet.iloc[row,5] < 9000:
    dataSet.iloc[row,7] = 0

datos = ['content', 'number_of_likes', 'Sentiment']
misDatos = dataSet[datos]
print(misDatos.head(20))

misDatos = misDatos[['content', 'Sentiment']]
print(misDatos.head(20))

                                              content  number_of_likes  \
0   "No podemos hacer una pausa y pedirle a estos ...             1502   
1   Shak se encuentra en el #wef17 donde hablará s...             1203   
2   El video de Chantaje con @maluma es el tercer ...             2478   
3   100 millones en Spotify -- Ustedes son los MEJ...             2575   
4   Adivinen a quien le salió el rey en el roscón?...            11654   
5   Mañana cierran las votaciones para los @premio...             2988   
6   Check out #Chantaje ft @Maluma on @Spotify's V...             3534   
7   Acabamos de conocer que #Chantaje con @maluma ...             2239   
8   Linda razón para desconcentrarse jugando al go...             8442   
9   Feliz 2017 de los Piqué Mebarak! Happy 2017 fr...            18676   
10  Gracias a todos por regalarme un año más disfr...            15007   
11  Quién ha incluido Chantaje en su playlist de @...             2121   
12  Mejor regalo de Navidad, imposible

In [None]:
train_size = 0.75
test_size = 1 - train_size
# Split data into train and test sets
trainSet, testSet = train_test_split(misDatos, test_size=test_size, random_state=0)

print("train set")
print(trainSet)
print("\n")
print("test set")
print(testSet)

train set
                                                content  Sentiment
667   ¡Hoy 23 termino de escribir las últimas palabr...          0
37    50MM de visitas en 11 días con el vídeo de #Ch...          2
978   FOTO: Mi hermano Tony jugando en el equipo de ...          0
158   Shak conoció a los estudiantes de la @fpiesdes...          0
40    Sometimes I like to play at being behind the c...          0
...                                                 ...        ...
1033        Con mi conejita!! Shak http://t.co/rE1Vhxlx          0
763   Nos alegra recibir tantas postulaciones para e...          0
835   Los amigos de Milan han ayudado a recolectar 8...          0
559   Si aún no han visto el maravilloso video de Em...          0
684   ¡Hoy haciendo musica desde Perpignan! Shak htt...          0

[800 rows x 2 columns]


test set
                                                content  Sentiment
766   Con Carlinhos Brown en Brasil, en el estudio d...          0
204   "Así suena 

In [None]:
vectorizer = TfidfVectorizer(min_df = 5,
                             max_df = 0.8,
                             sublinear_tf = True,
                             use_idf = True)
train_vectors = vectorizer.fit_transform(trainSet['content'])
test_vectors = vectorizer.transform(testSet['content'])

print(train_vectors)
print("\n")
print(test_vectors)

  (0, 174)	0.25896205668440475
  (0, 84)	0.1896534948451071
  (0, 191)	0.27575099896635297
  (0, 213)	0.2720895684027831
  (0, 52)	0.32946010646278506
  (0, 322)	0.4252917259976882
  (0, 314)	0.33734682637348723
  (0, 242)	0.40300043233387045
  (0, 223)	0.40300043233387045
  (0, 291)	0.1373326846998425
  (1, 84)	0.1372546103135695
  (1, 314)	0.24414212473241403
  (1, 242)	0.29165646191419214
  (1, 353)	0.3143939274063078
  (1, 105)	0.09774651764137392
  (1, 97)	0.24618153092996092
  (1, 71)	0.15388888650331642
  (1, 101)	0.1160293650676093
  (1, 358)	0.212760276054006
  (1, 64)	0.4006900857412553
  (1, 341)	0.2755239734108221
  (1, 261)	0.16206789365884403
  (1, 198)	0.16069449873245056
  (1, 2)	0.2830120787278998
  (1, 352)	0.3218820327233855
  :	:
  (797, 20)	0.4641737316522841
  (797, 175)	0.14299917323753086
  (797, 214)	0.4495098471563691
  (797, 340)	0.517379885996342
  (798, 84)	0.09167204719236188
  (798, 71)	0.17402512640046988
  (798, 101)	0.22216074755885729
  (798, 65)	0.13

In [None]:
# Perform classification with DT
classifier_dt = DecisionTreeClassifier(max_depth=5)
classifier_dt.fit(train_vectors, trainSet.iloc[:,1:])

prediction_dt = classifier_dt.predict(test_vectors)

df_dt = pd.DataFrame(prediction_dt, columns=['Sentiment'], index=testSet.index)
print(df_dt)
print("\n")

print(testSet)

      Sentiment
766           0
204           0
629           0
897           0
711           0
...         ...
511           0
1021          0
362           0
963           0
113           0

[267 rows x 1 columns]


                                                content  Sentiment
766   Con Carlinhos Brown en Brasil, en el estudio d...          0
204   "Así suena Shakira para ‘Zootopia’, la nueva ‘...          0
629   ¡YA ESTA AQUÍ! ¡Vean el vídeo de  #CantRemembe...          0
897   Primer día en el set de @NBCTheVoice  cuarta t...          0
711   ¡Es muy inspirador ver a gente de todo el mund...          0
...                                                 ...        ...
511   ¡Ya está aquí - el nuevo video del nuevo senci...          0
1021  La entrega de los Premios ALAS BID en Cartagen...          0
362   .@KnowledgeAll Fund. pies descalzos es parte d...          0
963   Felicidades España! Hoy han hecho historia!!\r...          0
113   Ciruela, corozo, guayaba agria y mango 

In [None]:
# Perform the class with RF
classifier_rf = RandomForestClassifier(n_estimators=100, max_depth=5)
classifier_rf.fit(train_vectors, trainSet.iloc[:,1:])

prediction_rf = classifier_rf.predict(test_vectors)

df_rf = pd.DataFrame(prediction_rf, columns=['Sentiment'], index=testSet.index)
print(df_rf)
print("\n")

print(testSet)

      Sentiment
766           0
204           0
629           0
897           0
711           0
...         ...
511           0
1021          0
362           0
963           0
113           0

[267 rows x 1 columns]


                                                content  Sentiment
766   Con Carlinhos Brown en Brasil, en el estudio d...          0
204   "Así suena Shakira para ‘Zootopia’, la nueva ‘...          0
629   ¡YA ESTA AQUÍ! ¡Vean el vídeo de  #CantRemembe...          0
897   Primer día en el set de @NBCTheVoice  cuarta t...          0
711   ¡Es muy inspirador ver a gente de todo el mund...          0
...                                                 ...        ...
511   ¡Ya está aquí - el nuevo video del nuevo senci...          0
1021  La entrega de los Premios ALAS BID en Cartagen...          0
362   .@KnowledgeAll Fund. pies descalzos es parte d...          0
963   Felicidades España! Hoy han hecho historia!!\r...          0
113   Ciruela, corozo, guayaba agria y mango 

In [None]:
# Perform the class with SVM
classifier_svm = svm.SVC(kernel="poly")
classifier_svm.fit(train_vectors, trainSet.iloc[:,1:])

prediction_svm = classifier_svm.predict(test_vectors)

df_svm = pd.DataFrame(prediction_svm, columns=['Sentiment'], index=testSet.index)
print(df_svm)
print("\n")

print(testSet)

      Sentiment
766           0
204           0
629           0
897           0
711           0
...         ...
511           0
1021          0
362           0
963           0
113           0

[267 rows x 1 columns]


                                                content  Sentiment
766   Con Carlinhos Brown en Brasil, en el estudio d...          0
204   "Así suena Shakira para ‘Zootopia’, la nueva ‘...          0
629   ¡YA ESTA AQUÍ! ¡Vean el vídeo de  #CantRemembe...          0
897   Primer día en el set de @NBCTheVoice  cuarta t...          0
711   ¡Es muy inspirador ver a gente de todo el mund...          0
...                                                 ...        ...
511   ¡Ya está aquí - el nuevo video del nuevo senci...          0
1021  La entrega de los Premios ALAS BID en Cartagen...          0
362   .@KnowledgeAll Fund. pies descalzos es parte d...          0
963   Felicidades España! Hoy han hecho historia!!\r...          0
113   Ciruela, corozo, guayaba agria y mango 

In [16]:
methodsUsed=['DT', 'RF', 'SVM']
performanceHeaders=['precision','recall','f1-score']
modPerformancePos = pd.DataFrame(index=methodsUsed, columns=performanceHeaders)
modPerformanceNeg = pd.DataFrame(index=methodsUsed, columns=performanceHeaders)
modPerformanceNeut = pd.DataFrame(index=methodsUsed, columns=performanceHeaders)
dfAcc= pd.DataFrame(index=methodsUsed, columns=['accuracy'])

In [None]:
# results report
report = classification_report(testSet[['Sentiment']], prediction_dt, output_dict=True)
print(report)
print("\n")

# DT metrics
print("DT metrics")
positive = report['4']
dfpos = pd.DataFrame.from_dict(positive, columns=['positive'], orient='index')
print(dfpos)
print("\n")
negative = report['0']
dfneg = pd.DataFrame.from_dict(negative, columns=['negative'], orient='index')

dfAcc.iloc[0,0] = accuracy_score(testSet[['Sentiment']], prediction_dt)
print("accuracy: ", dfAcc.iloc[0,0])
print("\n")

# Comparative metrics
print("Comparative metrics")
modPerformancePos.iloc[0,0] = dfpos.iloc[0,0]
modPerformanceNeg.iloc[0,0] = dfneg.iloc[0,0]
modPerformancePos.iloc[0,1] = dfpos.iloc[1,0]
modPerformanceNeg.iloc[0,1] = dfneg.iloc[1,0]
modPerformancePos.iloc[0,2] = dfpos.iloc[2,0]
modPerformanceNeg.iloc[0,2] = dfneg.iloc[2,0]

{'0': {'precision': 0.9846743295019157, 'recall': 0.9771863117870723, 'f1-score': 0.9809160305343512, 'support': 263.0}, '2': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 3.0}, '4': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1.0}, 'accuracy': 0.9625468164794008, 'macro avg': {'precision': 0.3282247765006386, 'recall': 0.3257287705956908, 'f1-score': 0.32697201017811706, 'support': 267.0}, 'weighted avg': {'precision': 0.9699226541535723, 'recall': 0.9625468164794008, 'f1-score': 0.9662206592903908, 'support': 267.0}}


DT metrics
           positive
precision       0.0
recall          0.0
f1-score        0.0
support         1.0


accuracy:  0.9625468164794008


Comparative metrics


In [None]:
# results report
report = classification_report(testSet[['Sentiment']], prediction_rf, output_dict=True)
print(report)
print("\n")

# RF metrics
print("RF metrics")
positive = report['4']
dfpos = pd.DataFrame.from_dict(positive, columns=['positive'], orient='index')
print(dfpos)
print("\n")
negative = report['0']
dfneg = pd.DataFrame.from_dict(negative, columns=['negative'], orient='index')

dfAcc.iloc[1,0] = accuracy_score(testSet[['Sentiment']], prediction_rf)
print("accuracy: ", dfAcc.iloc[0,0])
print("\n")

# Comparative metrics
print("Comparative metrics")
modPerformancePos.iloc[1,0] = dfpos.iloc[0,0]
modPerformanceNeg.iloc[1,0] = dfneg.iloc[0,0]
modPerformancePos.iloc[1,1] = dfpos.iloc[1,0]
modPerformanceNeg.iloc[1,1] = dfneg.iloc[1,0]
modPerformancePos.iloc[1,2] = dfpos.iloc[2,0]
modPerformanceNeg.iloc[1,2] = dfneg.iloc[2,0]

{'0': {'precision': 0.9850187265917603, 'recall': 1.0, 'f1-score': 0.9924528301886792, 'support': 263.0}, '2': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 3.0}, '4': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1.0}, 'accuracy': 0.9850187265917603, 'macro avg': {'precision': 0.32833957553058674, 'recall': 0.3333333333333333, 'f1-score': 0.33081761006289306, 'support': 267.0}, 'weighted avg': {'precision': 0.970261891736453, 'recall': 0.9850187265917603, 'f1-score': 0.9775846229948413, 'support': 267.0}}


RF metrics
           positive
precision       0.0
recall          0.0
f1-score        0.0
support         1.0


accuracy:  0.9625468164794008


Comparative metrics


In [None]:
# results report
report = classification_report(testSet[['Sentiment']], prediction_svm, output_dict=True)
print(report)
print("\n")

# SVM metrics
print("SVM metrics")
positive = report['4']
dfpos = pd.DataFrame.from_dict(positive, columns=['positive'], orient='index')
print(dfpos)
print("\n")
negative = report['0']
dfneg = pd.DataFrame.from_dict(negative, columns=['negative'], orient='index')

dfAcc.iloc[2,0] = accuracy_score(testSet[['Sentiment']], prediction_rf)
print("accuracy: ", dfAcc.iloc[0,0])
print("\n")

# Comparative metrics
print("Comparative metrics")
modPerformancePos.iloc[2,0] = dfpos.iloc[0,0]
modPerformanceNeg.iloc[2,0] = dfneg.iloc[0,0]
modPerformancePos.iloc[2,1] = dfpos.iloc[1,0]
modPerformanceNeg.iloc[2,1] = dfneg.iloc[1,0]
modPerformancePos.iloc[2,2] = dfpos.iloc[2,0]
modPerformanceNeg.iloc[2,2] = dfneg.iloc[2,0]

{'0': {'precision': 0.9850187265917603, 'recall': 1.0, 'f1-score': 0.9924528301886792, 'support': 263.0}, '2': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 3.0}, '4': {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1.0}, 'accuracy': 0.9850187265917603, 'macro avg': {'precision': 0.32833957553058674, 'recall': 0.3333333333333333, 'f1-score': 0.33081761006289306, 'support': 267.0}, 'weighted avg': {'precision': 0.970261891736453, 'recall': 0.9850187265917603, 'f1-score': 0.9775846229948413, 'support': 267.0}}


SVM metrics
           positive
precision       0.0
recall          0.0
f1-score        0.0
support         1.0


accuracy:  0.9625468164794008


Comparative metrics


In [None]:
print("Positive comments metrics")
print(modPerformancePos)
print("\n")
print("Negative comments metrics")
print(modPerformanceNeg)
print("\n")
print(dfAcc)

Positive comments metrics
    precision recall f1-score
DT        0.0    0.0      0.0
RF        0.0    0.0      0.0
SVM       0.0    0.0      0.0


Negative comments metrics
    precision    recall  f1-score
DT   0.984674  0.977186  0.980916
RF   0.985019       1.0  0.992453
SVM  0.985019       1.0  0.992453


     accuracy
DT   0.962547
RF   0.985019
SVM  0.985019
