# Prueba 1: Análisis de Sentimientos de Twitter

A continuación se presenta un problema clásico en el análisis de texto: Extraer el sentimiento asociado a un texto. 

Para esto, utilizaremos una base de datos provenientes de CrowdFlower. 

Para descargar los datos puede ejecutar el siguiente código:
wget https://www.crowdflower.com/wp-content/uploads/2016/07/text_emotion.csv 

El objetivo general de esta prueba es alcanzar el mejor desempeño posible para clasificar si un tweet es positivo o negativo.
Para medir el desempeño, se evaluará con un conjunto de datos del cuál no tendrán acceso. De esta manera evitaremos que los modelos aprendan información sobre el conjunto de validación.
Crea una carpeta de trabajo y guarda todos los archivos correspondientes (notebook, archivos auxiliares y csv).
Una vez terminada la prueba, comprime la carpeta y sube el .zip a la sección correspondiente.


# Objetivos

Para alcanzar el objetivo general, su trabajo se puede desagregar en los siguientes puntos:
1. Generar un análisis exploratorio sobre los datos contenidos en el DataFrame, considerando palabras más comunes y distribución de las clases en el vector objetivo.
2. Preprocesamiento de Texto:
Para trabajar adecuadamente con texto, debemos preprocesar y posteriormente representar cada oración como un conjunto de características.
Para preprocesar los tweets, debemos transformarlos a lower case. Un problema recurrente en el análisis de texto es la alta ocurrencia de palabras comunes.
 - Se recomienda eliminarlas mediante la declaración de stopwords. Para generar la exclusión de stopwords, podemos utilizar la librería nltk (Natural Language ToolKit) y descargar los stopwords con la siguiente instrucción.
 
    - Puede refinar los atributos a capturar mediante el proceso de lemantización (la reducción de variadas palabras con un tronco léxico común; ejemplo: Organización, Organiza, y Organizado presentan organi_ como tronco léxico en comúmn) o Stemming (la reducción de una palabra a una expresión generalizable). Cabe destacar que ésta última carece de análisis morfológico del lenguaje. 

    - Posterior a la refinación y preprocesamiento de las palabras, podemos representar cada oración en una matriz (o corpus) que permitirá reflejar la cantidad de ocurrencias de palabra en un registro. Para ello, pueden hacer uso de las librerías de preprocesamiento sklearn.feature_extraction.text.CountVectorizer o sklearn.feature_extraction.text.TfidfVectorizer . 
    - De esta manera, tendremos un conjunto de características es mediante la frecuencia de ocurrencia de una palabra o término en el texto.

In [1]:
import nltk 
nltk.download('stopwords')
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
import seaborn as sns
import re

from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/eduardo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


  return f(*args, **kwds)


3. Preparación del vector objetivo y las matrices de entrenamiento y validación:
Nos interesa trabajar con dos tipos de emociones: positivas o negativas. Para ello deberá generar la recodificación de cada una de las clases en una de las dos emociones:
        
Original | Recodificación
---|---
'worry' | Negativa
'happiness' | Positiva
'sadness' | Negativa
'love' | Positiva
'surprise' | Positiva
'fun' | Positiva
'relief' | Positiva
'hate' | Negativa
'empty' | Negativa
'enthusiasm' | Positiva
'boredom' | Negativa
'anger' | Negativa
 
 
 
Si el tweet está asignado como neutral , clasifíquelo aleatoriamente entre positivo o negativo.
 
4. Entrenamiento de modelos:
En base a los modelos vistos en clase, implemente por lo menos 5. Para cada uno de ellos justifique la elección de hiperparámetros. Si implementa búsqueda de grilla para cada uno de ellos, defina el rango de valores a tomar en cada hiperparámetro.
Reporte el desempeño de cada modelo en las muestras de entrenamiento y validación. Comente sobre la capacidad de generalización de cada uno de ellos haciendo uso de los conceptos vistos en el curso.
5. Seleccione los 2 mejores modelos, serialicelos y envíelos a evaluación. Recuerde que el modelo serializado debe ser posterior al fit , para poder ejecutar predict en los nuevos datos.
6. La evaluación del modelo será realizada en función a un conjunto de datos reservados al cual no tienen acceso.

# Preparación del espacio de trabajo

In [2]:
import nltk 
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
df = pd.read_csv('training_tweets.csv').drop(columns='Unnamed: 0')
positivos = {('happiness','love','surprise','fun','relief','hate','empty','enthusiasm','boredom'):1,('worry','sadness','hate','empty','boredom','anger'):0}
list_positivos = ['happiness','love','surprise','fun','relief','hate','empty','enthusiasm','boredom']
list_negativos = ['worry','sadness','hate','empty','boredom','anger']
sentiments = df['sentiment']

In [4]:
df.query("sentiment!='neutral'",inplace=True)

In [5]:
df.sentiment.replace(list_positivos, 1, inplace=True)
df.sentiment.replace(list_negativos, 0, inplace=True)
df['randNumCol'] = np.random.randint(0, 2, df.shape[0])
df['sentiment_re'] = np.where(df['sentiment']=='neutral',df['randNumCol'],df['sentiment'])

  result = method(y)


In [6]:
df['sentiment_re'] = df['sentiment_re'].apply(pd.to_numeric)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23549 entries, 0 to 29998
Data columns (total 4 columns):
content         23549 non-null object
sentiment       23549 non-null int64
randNumCol      23549 non-null int64
sentiment_re    23549 non-null int64
dtypes: int64(3), object(1)
memory usage: 919.9+ KB


Problemas de clasificación
Las clases estan relativamente balanceadas, de todas formas para evitar distorsiones en la métrica, utilizaremos F1 para encontrar una métrica que mida ambas clases

In [8]:
cv = CountVectorizer(stop_words='english',max_features=1000)

In [9]:
cv_fit = cv.fit_transform(df['content'])

In [10]:
cv_fit

<23549x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 104448 stored elements in Compressed Sparse Row format>

In [11]:
words = cv.get_feature_names()

In [12]:
word_freq = cv_fit.toarray()

In [13]:
type(df['content'])

pandas.core.series.Series

In [14]:
df_cv = pd.DataFrame(word_freq,columns=words)

In [15]:
X_train, X_test, y_train, y_test = train_test_split(df_cv,
                                                  df['sentiment_re'],
                                                  test_size=.33,
                                                  random_state=3504)

# Naive Bayes

In [16]:
NB = MultinomialNB()

In [17]:
NB.fit(X_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [18]:
from sklearn.metrics import classification_report


y_hat = NB.predict(X_test)
print(classification_report(y_test, y_hat))

              precision    recall  f1-score   support

           0       0.65      0.64      0.65      3392
           1       0.72      0.73      0.73      4380

   micro avg       0.69      0.69      0.69      7772
   macro avg       0.69      0.69      0.69      7772
weighted avg       0.69      0.69      0.69      7772



# Logistic Regression


In [19]:
from sklearn.linear_model import LogisticRegression


In [20]:
lr = LogisticRegression()
lr.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

In [21]:
y_hat = lr.predict(X_test)
print(classification_report(y_test, y_hat))

              precision    recall  f1-score   support

           0       0.67      0.58      0.63      3392
           1       0.71      0.78      0.74      4380

   micro avg       0.69      0.69      0.69      7772
   macro avg       0.69      0.68      0.68      7772
weighted avg       0.69      0.69      0.69      7772



In [22]:
from sklearn.model_selection import GridSearchCV



#  Arbol de clasificación

In [37]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()

In [38]:
dtc.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [39]:
y_hat = dtc.predict(X_test)
print(classification_report(y_test, y_hat))

              precision    recall  f1-score   support

           0       0.57      0.60      0.58      3392
           1       0.67      0.65      0.66      4380

   micro avg       0.62      0.62      0.62      7772
   macro avg       0.62      0.62      0.62      7772
weighted avg       0.63      0.62      0.63      7772



In [26]:
y_hat = lr.predict(X_test)


In [40]:
%%time
dec_tree_grid_cv = GridSearchCV(DecisionTreeClassifier(),
                                    # evaluamos 10 escenarios
                                   {'min_samples_split': np.linspace(0.1, 1.0, 5),
                                    # implementando 2 criterios de partición
                                    'criterion': ['gini', 'entropy'],
                                    # con una profundidad de ramas hasta 5
                                   'max_depth': np.linspace(1, 5, 5),
                                    # evaluando 10 escenarios
                                   'min_samples_leaf': np.linspace(0.1, 0.5, 5),
                                    # evaluando todos los atributos en la matriz
                                   'max_features': list(range(1,X_train.shape[1]))},
                                # Con 5 validaciones cruzadas
                                cv=3,
                                # Ocupando todos los núcleos del computador
                                n_jobs=-1).fit(X_train, y_train)

KeyboardInterrupt: 

In [28]:
dec_tree_grid_cv

NameError: name 'dec_tree_grid_cv' is not defined

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [41]:
from sklearn.ensemble import RandomForestClassifier



In [42]:
voting_rf = RandomForestClassifier(oob_score=True, random_state=11238).fit(X_train, y_train)

  warn("Some inputs do not have OOB scores. "
  predictions[k].sum(axis=1)[:, np.newaxis])
  predictions[k].sum(axis=1)[:, np.newaxis])


In [43]:
print(classification_report(y_test, voting_rf.predict(X_test)))

              precision    recall  f1-score   support

           0       0.62      0.61      0.61      3392
           1       0.70      0.71      0.70      4380

   micro avg       0.66      0.66      0.66      7772
   macro avg       0.66      0.66      0.66      7772
weighted avg       0.66      0.66      0.66      7772



In [46]:
from sklearn.ensemble import AdaBoostClassifier



In [51]:
decision_stump = DecisionTreeClassifier(max_depth=5, random_state=11238).fit(X_train, y_train)

In [55]:
adaboost_classifier = AdaBoostClassifier(base_estimator=NB, random_state=11238).fit(X_train, y_train)

In [56]:
print(classification_report(y_test, adaboost_classifier.predict(X_test)))

              precision    recall  f1-score   support

           0       0.71      0.38      0.49      3392
           1       0.65      0.88      0.75      4380

   micro avg       0.66      0.66      0.66      7772
   macro avg       0.68      0.63      0.62      7772
weighted avg       0.68      0.66      0.64      7772



In [51]:
from sklearn.decomposition import PCA

X= df_cv

In [52]:
pca = PCA(n_components=500)


principalComponents = pca.fit_transform(X)

principalDf = pd.DataFrame(data = principalComponents)


In [33]:
finalDf = pd.concat([principalDf, df['sentiment_re']], axis = 1)
finalDf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28612 entries, 0 to 29998
Columns: 501 entries, 0 to sentiment_re
dtypes: float64(501)
memory usage: 109.6 MB


In [34]:
X_train, X_test, y_train, y_test = train_test_split(principalDf,
                                                  df['sentiment_re'],
                                                  test_size=.33,
                                                  random_state=3504)

In [35]:
lr = LogisticRegression()
lr.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [36]:
y_hat = lr.predict(X_test)
print(classification_report(y_test, y_hat))

             precision    recall  f1-score   support

          0       0.67      0.57      0.61      3392
          1       0.70      0.78      0.74      4380

avg / total       0.69      0.69      0.68      7772

