# Prueba 1: Análisis de Sentimientos de Twitter (Sebastián Rebolledo)

## Hito 1: Aspectos Computacionales

### Preliminares

#### En el siguiente ejercicio se realizará la clasificación de Tweet en positivos o negativos en funcion de los sentimientos que expresa. Para ello se implementarán distintos modelos de clasificación y se evaluara su desempeño.

- Las metricas que se utilizarán para medir el desempeño de los modelos serán Accuracy, precision y Recall. 
- Se realizará primeramente el preprocesamiento de las variables del vector sentiment, quedando esta variable con 0 y 1, donde 0 serán tweets con sentimientos negativos y 1 tweets con sentimientos positivos.
- Luego se realizará un preprocesamiento de palabras en el atributo 'content' utilizando CountVectorizarer.

### Modelos a implementar

- Regresion logistica.

- LinearDiscriminantAnalysis.

- Árbol de clasificación, en donde se implementara una grilla para buscar los mejores hiperparametros. A continuacion grilla tentativa.
    - params = {'max_depth':[10,30,50,70], }
    
- GradientBoostingClasifiers : Se implementara una grilla para buscar los mejores hiperparametros. A continuacion grilla tentativa.
    - params = {'learning_rate': [0.01, 0.1, 0.5],'n_estimators': [50, 100, 500, 1000, 2000], 'subsample': [0.1,0.5,0.9]}.
                   
- AdaBoostClassifier: Se implementara una grilla para buscar los mejores hiperparametros. A continuacion grilla tentativa.
     - params = {'learning_rate': [0.01, 0.1, 0.5], 'n_estimators': [50, 100, 500, 1000, 2000]}

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import mi_modulo as fn
import re
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer


NameError: name 'nltk' is not defined

In [None]:
nltk.download('punkt')

In [None]:
nltk.download('stopwords')

In [None]:
nltk.download('wordnet')

In [None]:
df = pd.read_csv('training_tweets.csv').drop('Unnamed: 0', axis=1)

In [None]:
df.info()

No se encuentran datos perdidos.

In [None]:
df.sentiment.value_counts()

A continuacion se recodificara el vector sentiment con un 0 para las emociones negativas y con un 1 para las emociones positivas.

In [None]:
fn.recod_sentiment(df,['worry', 'sadness', 'hate', 'empty', 'boredom', 'anger'], 0)

In [None]:
fn.recod_sentiment(df,['happiness', 'love', 'surprise', 'fun', 'relief', 'enthusiasm'], 1)

Dentro del atributo sentiment, se encuentran tweets con la denominacion de 'neutral', lo que significa que no esta claro si son atributos positivos o negativos, por cual serán repartidos al azar entre positivos y negativos.

In [None]:
for index, valor in df[df['sentiment']== 'neutral']['content'].iteritems():
    #print(f'{index}-{valor}')
    df['sentiment'][index]=len(valor)%2

In [None]:
df.sentiment.value_counts()

In [None]:
df['sentiment'] = df['sentiment'].astype('int')

#### Distribucion del vector objetivo

In [None]:
sns.countplot(x='sentiment', data=df)
plt.title('Comportamiento del atributo sentiment')
plt.show()

Se observa que hay una distribución de valores similar entre ambas clases.

In [None]:
df

### Lowercase

In [None]:
df.content = df.content.str.lower()

In [None]:
df.content 

### Removiendo caracteres

In [None]:
for index, row in df.iterrows():
    df['content'][index]= re.sub(r"(@[A-Za-z0-9]+)","", row['content'])

In [None]:
for index, row in df.iterrows():
    df['content'][index]= re.sub("[^a-zA-Z]"," ", row['content'])

In [None]:
df.content

In [None]:
df.content[1]

### Tokenización

In [None]:
for index, row in df.iterrows():
    df['content'][index]= nltk.tokenize.word_tokenize(df['content'][index])

In [None]:
df.content

### Stopwords

In [None]:
stop_words = set(nltk.corpus.stopwords.words('english'))
def clean_stopwords(token):
    return [item for item in token if item not in stop_words]

In [None]:
df['content'] = df['content'].apply(clean_stopwords)

In [None]:
df['content']

### Lemmatization

In [None]:
lemma = nltk.stem.WordNetLemmatizer()
def clean_lemmatization(token):
    return [lemma.lemmatize(word=w, pos='v') for w in token]

In [None]:
df['content'] = df['content'].apply(clean_lemmatization)

In [None]:
df['content']

In [None]:
def convertir_a_str(lista_tokens):
    return ' '.join(lista_tokens)

In [None]:
df['content'] = df['content'].apply(convertir_a_str)

In [None]:
df

In [None]:
sentiment_1 = df[df['sentiment']==1]['content']

In [None]:
sentiment_2 = df[df['sentiment']==2]['content']

### Conjunto de prueba y validación

In [None]:
X=df['content']
y=df['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=.30, random_state=13213)

### Vectorizar

In [None]:
vectorizer = TfidfVectorizer()

In [None]:
vectorizer.fit(X_train)

In [None]:
tfi_train = vectorizer.transform(X_train)

In [None]:
tfi_test = vectorizer.transform(X_test)

#### Regresion Logistica

In [None]:
lr = LogisticRegression()

In [None]:
lr.fit(tfi_train, y_train)

In [None]:
y_hat_lr = lr.predict(tfi_test)

In [None]:
print(classification_report(y_test, y_hat_lr))

Se observa que las clases estan bien distribuidas, que el valor de precision de ambas clases es el mismo, variando solamente en el recall, donde es mayor para la clase 0.

### Análisis Cuadrático Discriminante

In [None]:
qda_model = QuadraticDiscriminantAnalysis().fit(tfi_train, y_train)

In [None]:
y_hat_lda = qda_model.predict(tfi_test)

In [None]:
print(classification_report(y_test, y_hat_qda))

#### Arbol de Clasificacion

In [None]:
tree_para = {'max_depth':[50,100,200,250], 'max_features' : [None, 'log2', 'sqrt']}
tree_model_grid = GridSearchCV(DecisionTreeClassifier(), tree_para, cv=5, n_jobs=-1).fit(tfi_train, y_train)

In [None]:
tree_model_grid.best_params_

In [None]:
y_hat_tree_model = tree_model_grid.best_estimator_.predict(tfi_test)

In [None]:
y_hat_tree_model

In [None]:
print(classification_report(y_test, y_hat_tree_model))

***Se genera un error por que el modelo devuelve valores continuos.Aun no entiendo por que sucede. Se corregirá para la proxima semana.***

#### AdaBoostClassifier

In [None]:
params_ada={'learning_rate': [0.01, 0.1, 0.5], 'n_estimators': [50,100, 500, 1000, 2000]}
ada_grid_cv = GridSearchCV(AdaBoostClassifier(), params_ada, n_jobs = -1).fit(tfi_train, y_train)

In [None]:
ada_grid_cv.best_params_

In [None]:
y_hat_ada = ada_grid_cv.best_estimator_.predict(tfi_test)

In [None]:
print(classification_report(y_test, y_hat_ada))

Se observa que para la clase 1 la precision es del 70% y el recall de 57%, lo que indica que el modelo es capaz de identificar las caracteristicas más marcadas de la clase, pero no todas sus caracteristicas.

#### GradientBoostingClassifier

In [None]:
param_gradient = {'learning_rate': [0.01, 0.1, 0.5],'n_estimators': [50, 100, 500, 1000, 2000], 
                   'subsample': [0.1,0.5,0.9]}
gradient_grid_cv = GridSearchCV(GradientBoostingClassifier(), param_gradient, n_jobs=-1, 
                                cv=5).fit(tfi_train, y_train)

In [None]:
gradient_grid_cv.best_params_

In [None]:
y_hat_gradient_boost=gradient_grid_cv.best_estimator_.predict(tfi_test)

In [None]:
print(classification_report(y_test, y_hat_gradient_boost))

Se observa un modelo con resultados similares al modelo realizado con AdaBoost