<img src="https://www.digitalhouse.com/logo-DH.png" width="200" height="100" align="left">

<h3><b>Curso:</b> Data Science / <b>Año:</b> 2020 / <b>Sede:</b> Casa</h3>

-----

<h3><b>TP Integrador:</b> Text Mining de <i>tweets</i> de anuncios del gobierno durante la cuarentena.</h3>
<blockquote>
        <ul>
          <li><i>Sentiment analysis</i> de los comentarios de los usuarios.</li>
          <li>Clustering de <i>tweets</i> de los usuarios.</li>
        </ul>
</blockquote>

<h3><b>Grupo 10:</b></h3>
<blockquote>
        <ul>
          <li>Maria Eugenia Perotti</li>
          <li>Gastón Ortíz</li>
        </ul>
</blockquote>

# Modelo de clasificación.

En base a los tweets, vamos a tratar de predecir el sentimiento respecto de la cuarentena con las siguientes etiquetas:
* Positivo = A favor de la cuarentena.
* Negativo = En contra de la cuarentena.
* Neutral = No emite opinión.

# Preparación de libraries y funciones.
## Imports.

In [237]:
from datetime import datetime
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import re
import seaborn as sns
import spacy
import string

from sklearn.base import TransformerMixin
from sklearn.cluster import DBSCAN,KMeans
from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.manifold import Isomap, TSNE
from sklearn.metrics import roc_curve, auc, confusion_matrix, classification_report, accuracy_score, precision_score
from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline, make_pipeline, make_union, FeatureUnion
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler

from spacy.lang.es import Spanish
from spacy.lang.es.stop_words import STOP_WORDS
from spacy import displacy

from textblob import TextBlob

## Definición de funciones.
En esta sección definimos las funciones que vamos a utilizar en la notebook.

### Función para Tokenizar los datos con spaCy

Usaremos esta función para eliminar automáticamente la información que no necesitamos, como palabras vacías y puntuación, de cada tweet.

Primero importamos los modelos de Español y el módulo de string de Python, que contiene una lista de todos los signos de puntuación que podemos usar en `string.punctuation`. Crearemos variables que contienen los signos de puntuación y las palabras vacías que queremos eliminar, y un analizador que ejecuta la entrada a través del módulo de español de spaCy.

Luego, crearemos una función `spacy_tokenizer()` que acepta una oración como entrada y procesa la oración en _tokens_, realizando lematización, pasando todo a minúsculas y eliminando palabras vacías. 

In [238]:
# Creamos nuestra lista de signos de puntuación.
punctuations = string.punctuation

# Creamos nuestra lista de stopwords
nlp = spacy.load("es_core_news_sm")
stop_words = spacy.lang.es.stop_words.STOP_WORDS

# Cargamos el tokenizador, tagger, parser, NER y los word vectors del Español.
parser = Spanish()

def spacy_tokenizer(sentence):
    # Creamos nuestro objeto token, que va a ser utilizado para crear documentos con anotaciones lingüísticas.
    mytokens = parser(sentence)

    # Lematizamos cada token y lo pasamos a minúsculas.
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]

    # Sacamos las stop words
    mytokens = [ word for word in mytokens if word not in stop_words and word not in punctuations ]

    # retorna la lista de tokens preprocesada
    return mytokens

### Definición de un Transformer custom.
Para continuar limpiando nuestros datos, creamos un transformador personalizado para eliminar los espacios iniciales y finales y convertir el texto en minúsculas. Aquí, crearemos una clase personalizada `predictors` que hereda de la clase `TransformerMixin`. Esta clase anula los métodos transform, fit y get_parrams. También crearemos una función `clean_text()` que elimina los espacios y convierte el texto en minúsculas.

In [239]:
class predictors(TransformerMixin):
    def transform(self, X, **transform_params):
        # Cleaning Text
        return [clean_text(text) for text in X]

    def fit(self, X, y=None, **fit_params):
        return self

    def get_params(self, deep=True):
        return {}

# Basic function to clean the text
def clean_text(text):
    # Removing spaces and converting text into lowercase
    return text.strip().lower()

### Vectorization Feature Engineering (TF-IDF)
Generamos una matriz de Bag of words para nuestros datos de texto utilizando `CountVectorizer` de scikit-learn y le decimos que use nuestra función `spacy_tokenizer` como su tokenizador, y definiendo el rango de n-gramas que queremos.

El parámetro `ngram_range` establece los límites inferior y superior de nuestros n-gramas (usaremos unigrams). Luego asignaremos los n-gramas a una variable bow_vector.

In [240]:
bow_vector = CountVectorizer(tokenizer = spacy_tokenizer, ngram_range=(1,1))

También nos interesa mirar el **TF-IDF** de nuestros términos, ya que podemosa saber qué tan importante es un término en particular en el contexto de un documento dado, basado en cuántas veces aparece el término y en cuántos otros tweets aparece ese mismo término. Cuanto mayor sea el **TF-IDF**, más importante es ese término para ese tweet.

Generamos el TF-IDF automáticamente usando `TfidfVectorizer` de scikit-learn. Nuevamente, le diremos que use el tokenizador personalizado que creamos con spaCy, y luego asignaremos el resultado a la variable `tfidf_vector`.

In [241]:
tfidf_vector = TfidfVectorizer(tokenizer = spacy_tokenizer)

### Impresión de resultados.

En esta sección definiremos las funciones a reutilizar para imprimir los resultados de las prediciones.

#### Función para mostrar las Métricas de clasificación.

In [242]:
def print_classification_report(y_test, y_pred):
    print(classification_report(y_test, y_pred))

# Importación de datasets.

## Dataset de todos los tweets.

Importamos el dataset con todos los tweets.

In [258]:
df_sin_clasificar = pd.read_csv('Data/all_tweets.csv', sep=';')
print(df_sin_clasificar.shape)
df_sin_clasificar.head(3)

(6014, 6)


Unnamed: 0,username,tweet,fecha,anuncio,ubicacion,id
0,Nerinapf,por favor la gente que esta en la calle y tien...,2020-03-19 23:58:22+00:00,Anuncio_1,"Buenos Aires, Argentina",1240789742494580000
1,MileParamo,todxs sin coronavirus pero con hantavirus esa ...,2020-03-19 23:57:59+00:00,Anuncio_1,"Buenos Aires, Argentina",1240789649938960000
2,Maiferretti,no puedo creer q sigan tomandose en joda lo de...,2020-03-19 23:56:53+00:00,Anuncio_1,"Buenos Aires, Argentina",1240789371130910000


In [259]:
df_sin_clasificar['sentimiento'] = ''

Importamos el dataset con los tweets ya clasificados:

In [257]:
df_clasificados = pd.read_csv('Data/usuarios_mas_10_tweets_clasificados.csv', sep=';')
print(df_clasificados.shape)
df_clasificados.head(3)

(807, 7)


Unnamed: 0,username,tweet,fecha,anuncio,ubicacion,id,sentimiento
0,VozdeRosario,coronavirus suman 5527 los fallecidos y 282437...,2020-08-14 23:36:23+00:00,Anuncio_11,"Rosario, Argentina",1294417616153560000,Neutral
1,VozdeRosario,un arquero de la seleccion argentina fue diagn...,2020-08-14 23:18:04+00:00,Anuncio_11,"Rosario, Argentina",1294413007334800000,Neutral
2,VozdeRosario,coronavirus en rosario 77 nuevos casos en la c...,2020-08-14 23:13:34+00:00,Anuncio_11,"Rosario, Argentina",1294411876374380000,Neutral


Procedemos a impactar las clasificaciones al dataset completo con un merge por `id`.

In [260]:
print('Cantidad de tweets clasificados en el dataset, previo al merge:',df_todos.sentimiento.notnull().sum())

Cantidad de tweets clasificados en el dataset, previo al merge: 0


In [261]:
df_sin_clasificar = df_sin_clasificar.set_index('id')
df_clasificados = df_clasificados.set_index('id')

In [289]:
df_merge = pd.merge(df_sin_clasificar, df_clasificados, how='left', on=['id'])

Para comprobar que el merge haya sido exitoso, verificamos que el número de no nulos sea el mismo que la cantidad de registros en el dataset de clasificados:

In [296]:
df_merge.sentimiento_y.notnull().shape[0] == df_clasificados.shape[0]
#Arreglar esto fijandome en los vacíos también

False

In [288]:
df_merge.loc[df_merge.sentimiento_y.notnull(), ['username_x', 'tweet_x','username_y','tweet_y','sentimiento_y']]

Unnamed: 0_level_0,username_x,tweet_x,username_y,tweet_y,sentimiento_y
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1240786072533180000,gustavorearte1,el presidente alberto fernandez tras reunirse ...,gustavorearte1,el presidente alberto fernandez tras reunirse ...,Neutral
1240784152456230000,gustavorearte1,confirmaron 31 nuevos casos de coronavirus en ...,gustavorearte1,confirmaron 31 nuevos casos de coronavirus en ...,Neutral
1240775792377930000,mnspezzapria,coronavirus la cumbre se hace en el quincho de...,mnspezzapria,coronavirus la cumbre se hace en el quincho de...,Neutral
1240775699990020000,AvellanedaReal,coronavirus al borde de los 10000 muertos por ...,AvellanedaReal,coronavirus al borde de los 10000 muertos por ...,Neutral
1240770138330270000,SerLeal_,lo mas terrible es que podria ser cierto se im...,SerLeal_,lo mas terrible es que podria ser cierto se im...,Positivo
...,...,...,...,...,...
1294105579586280000,con_sello,coronavirus el gobierno de chubut prohibio el ...,con_sello,coronavirus el gobierno de chubut prohibio el ...,Neutral
1294100069185090000,con_sello,coronavirus en el dia de hoy se dio a conocer ...,con_sello,coronavirus en el dia de hoy se dio a conocer ...,Neutral
1294069183907600000,ADNsur,comodoro suma otros 10 casos de coronavirus y ...,ADNsur,comodoro suma otros 10 casos de coronavirus y ...,Neutral
1294063178566040000,con_sello,coronavirus otras 149 personas murieron y 7498...,con_sello,coronavirus otras 149 personas murieron y 7498...,Neutral


In [273]:
df_merge.sentimiento_y.notnull().sum()

807

In [None]:
#Para usar el concat, tenemos que hacer un reset index
#df_merge = pd.concat([df_sin_clasificar, df_clasificados[['sentimiento','id']]], join='outer', axis=1)
#df_merge = df_sin_clasificar.set_index('id').join(df_clasificados[['sentimiento','id']].set_index('id'), lsuffix='_all', how='inner').rename_axis(index='indice').reset_index()


#df_merge = pd.merge(df_sin_clasificar, df_clasificados[['sentimiento']], how='left')

#print(df_merge.shape)
#df_merge
#df_clean.merge(sucursales, how = 'left', left_on='tcre_numero_sucursal', right_on='suc_code')

Revisamos a cuántos tweets se les impactó el valor de `sentimiento`:

In [None]:
print('Cantidad de tweets clasificados en el dataset, post merge:',df_todos.sentimiento.notnull().sum())

## EDA.

Vemos cómo está distribuida la muestra que tenemos.

In [None]:
plt.title('Distribución de sentimiento')
df.sentimiento.value_counts().plot(kind='pie')

# Imputación de clasificaciones.

Lo ya clasificado lo vamos a traer por ID.

# Text mining.

### Dividimos los datos en Training y Test.

In [None]:
X = df['tweet']
y = df['sentimiento']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)

### Creación del Pipeline y Generación del modelo.
Ya podemos construir nuestro modelo con Multinomial Naive Bayes.

Luego, crearemos un _pipeline_ con tres componentes: un limpiador, un vectorizador y un clasificador. El limpiador usa nuestra clase `predictors` para limpiar y preprocesar el texto. El vectorizador usa objetos `bow_vector` para crear la matriz de BoW para nuestro texto. El clasificador de por sí realiza la clasificación de los sentimientos.

In [None]:
classifier = MultinomialNB()

# Create pipeline using Bag of Words
pipe = Pipeline([("cleaner", predictors()),
                 ('vectorizer', bow_vector),
                 ('classifier', classifier)])

# model generation
pipe.fit(X_train,y_train)

### Evaluación del Modelo.

In [None]:
y_pred = pipe.predict(X_test)

print_classification_report(y_test, y_pred)

# Conclusiones.


# Fuentes.

https://www.dataquest.io/blog/tutorial-text-classification-in-python-using-spacy/