# Proyecto 03 - Procesamiento del Lenguaje Natural

## Dataset: The Multilingual Amazon Reviews Corpus

**Recuerda descargar el dataset de [aquí](https://github.com/kang205/SASRec). Es un archivo .zip que contiene tres documentos. Más información sobre el dataset [aquí](https://registry.opendata.aws/amazon-reviews-ml/). Es importante que tengas en cuenta la [licencia](https://docs.opendata.aws/amazon-reviews-ml/license.txt) de este dataset.**

### Exploración de datos y Procesamiento del Lenguaje Natural

Dedícale un buen tiempo a hacer un Análisis Exploratorio de Datos. Considera que hasta que no hayas aplicado las herramientas de Procesamiento del Lenguaje Natural vistas, será difícil completar este análisis. Elige preguntas que creas que puedas responder con este dataset. Por ejemplo, ¿qué palabras están asociadas a calificaciones positivas y qué palabras a calificaciones negativas?

### Machine Learning

Implementa un modelo que, dada la crítica de un producto, asigne la cantidad de estrellas correspondiente. **Para pensar**: ¿es un problema de Clasificación o de Regresión?

1. Haz todas las transformaciones de datos que consideres necesarias. Justifica.
1. Evalúa de forma apropiada sus resultados. Justifica la métrica elegida.
1. Elige un modelo benchmark y compara tus resultados con este modelo.
1. Optimiza los hiperparámetros de tu modelo.
1. Intenta responder la pregunta: ¿Qué información está usando el modelo para predecir?

**Recomendación:** si no te resulta conveniente trabajar en español con NLTK, te recomendamos que explores la librería [spaCy](https://spacy.io/).

### Para pensar, investigar y, opcionalmente, implementar
1. ¿Valdrá la pena convertir el problema de Machine Learning en un problema binario? Es decir, asignar únicamente las etiquetas Positiva y Negativa a cada crítica y hacer un modelo que, en lugar de predecir las estrellas, prediga esa etiqueta. Pensar en qué situación puede ser útil. ¿Esperas que el desempeño sea mejor o peor?
1. ¿Hay algo que te gustaría investigar o probar?

### **¡Tómate tiempo para investigar y leer mucho!**

In [None]:
# Herramientas de uso
import itertools

# Gemas del Infinito
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Adicionales
from matplotlib.ticker import ScalarFormatter

#Machine Learning


#NLP
import nltk

# Configuración NLTK
nltk.download('punkt')
nltk.download('stopwords')

## Metodología de trabajo

Aqui irá un resumen de lo desarrollado

## 1. Exploración

### 1.1 Espacio de trabajo

* **Dataset Dev**

In [None]:
dataset_dev = pd.read_json('dataset_amazon/dataset_es_dev.json', lines= True)
dataset_dev.head()

* **Dataset Train**

In [None]:
dataset_train = pd.read_json('dataset_amazon/dataset_es_train.json', lines= True)
dataset_train.head()

* **Dataset Test**

In [None]:
dataset_test = pd.read_json('dataset_amazon/dataset_es_test.json', lines= True)
dataset_test.head()

### 1.2 Exploración inicial

Número de instancias en el dataset:

In [None]:
dataset_dev.shape

In [None]:
dataset_train.shape

In [None]:
dataset_test.shape

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=dataset_dev, x='product_category',order = dataset_dev.product_category.value_counts().index)
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

Se encuentra que la principal categoria de reseñas correspontes a wireless, home, toy, sports y home_improvement. Ahora buscaremos dividir el dataset según el número de estrellas y ubicar qué categorias son populares a partir de la calificación.

## 1.2 Exploracion por calificacion

#### Categorias populares con 1 estrella

In [None]:
one_star = dataset_dev[dataset_dev.stars==1]
one_star.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=one_star, x='product_category',order = one_star.product_category.value_counts().index,palette='rocket')
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

#### Categorias populares con 2 estrella

In [None]:
two_star = dataset_dev[dataset_dev.stars==2]
two_star.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=two_star, x='product_category',order = two_star.product_category.value_counts().index,palette='rocket')
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

#### Categorias populares con 3 estrella

In [None]:
three_star = dataset_dev[dataset_dev.stars==3]
three_star.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=three_star, x='product_category',order = three_star.product_category.value_counts().index,palette='rocket')
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

#### Categorias populares con 4 estrella

In [None]:
four_star = dataset_dev[dataset_dev.stars==4]
four_star.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=four_star, x='product_category',order = four_star.product_category.value_counts().index,palette='rocket')
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

#### Categorias populares con 5 estrella

In [None]:
five_star = dataset_dev[dataset_dev.stars==5]
five_star.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.countplot(data=five_star, x='product_category',order = five_star.product_category.value_counts().index,palette='rocket')
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

Observamos que sin distincion a la clasificacion, las categorias parecen seguir el mismo comportamiento. 

Este comportamiento nos indica que el numero de estrellas no esta muy relacionado a la categoria de un producto. Esto es, productos de x o y categoria no se distinguen por su alto/bajo calificacion.

## 2. Analisis exploratorio de reviews y title reviews

In [None]:
#funcion tokenizador de texto
def tokenizer(data,columna):
    data['text']=data[columna].apply(lambda x:x.lower())
    data['text']=data['text'].apply(lambda x: nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(x))
    flatten_text=[word for l in data.text.values for word in l]
    return flatten_text


## 2.1 Exploracion de title Review

In [None]:
dataset_dev.head()

In [None]:
dataset_dev.language.value_counts()

In [None]:
stopwords = nltk.corpus.stopwords.words('spanish')

In [None]:
stopwords

In [None]:
def words_processing(data,columna):
    stopwd=nltk.corpus.stopwords.words('spanish')
    flatten_text=tokenizer(data,columna)
    content=[word for word in flatten_text if word not in stopwd]
    print(f'El porcentaje de palabras a procesar equivale a: {len(content)/len(flatten_text) *100} %')                                                              

In [None]:
#Veamos el porcentaje de palabras que tenemos para procesar 
words_processing(dataset_dev,'review_title')

In [None]:
title_reviews = []
calification = []
for i in range(dataset_dev.shape[0]):
    title = dataset_dev.iloc[i].review_title.lower()
    star = dataset_dev.iloc[i].stars
    title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
    title = [word for word in title if word not in stopwords]

    title_reviews.append(title)
    calification.append(star)

In [None]:
title_reviews

In [None]:
title_reviews = list(itertools.chain(*title_reviews))
title_reviews[0:12]

In [None]:
freq_tl = nltk.FreqDist(title_reviews)
freq_tl

In [None]:
df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","W_Frequency"])
df_tl.head()

In [None]:
df_tl.sort_values('W_Frequency',ascending=False, inplace = True)
df_tl.head()

In [None]:
df_tl.reset_index(drop = True, inplace=True)
df_tl.head()

In [None]:
plt.figure(figsize = (15,8))
plot = sns.barplot(x  = df_tl.iloc[:30].Word, y = df_tl.iloc[:30].W_Frequency)
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

Se observan las palabrás más frecuentes en los títulos de los reviews. Aunque esta gráfica no nos permite diferenciar cuales se refieren a críticas buenas o malas.

Se definira una funcion que nos permite realizar el tokenizado clasificando a partir del numero de estrellas.

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].review_title.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        title = [word for word in title if word not in stopwords]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

In [None]:
df_one = token_npl(one_star, stopwords, 1)
df_one.head(5)

In [None]:
df_two = token_npl(two_star, stopwords, 2)
df_two.head()

In [None]:
df_three = token_npl(three_star, stopwords, 3)
df_three.head()

In [None]:
df_three = token_npl(three_star, stopwords, 3)
df_three.head()

In [None]:
df_four = token_npl(four_star, stopwords, 4)
df_four.head()

In [None]:
df_five = token_npl(five_star, stopwords, 5)
df_five.head()

Se encuentra que los titulos de los reviews no se encuentran palabras relevantes en relacion a la calificacion que el usuario le da al producto. Por el contrario, se repiten palabras independientemente de la calificacion. Por lo que esta columna de los datos puede darnos un panorama confuso al momento de entrenar el modelo.
Sin embargo un analisis de ngramas pueden darnos alguna idea de las frases que se repiten comunmente en los comentarios buenos y malos. 

Vamos a dividir el dataset en dos segun la calificacion que se dio, para ello definiremos bueno calificaciones mayores a 3 y malos 3 o menor.

In [None]:
good = dataset_dev[dataset_dev.stars>=3]
bad=dataset_dev[dataset_dev.stars<3]
bad

In [None]:
#Funcion para dividir los titulos en ngramas 
from nltk.util import ngrams
def ngramas(data,ngrama):
    title_reviews = []
    calification = []
    for i in range(data.shape[0]):
        title = data.iloc[i].review_title.lower()
        star = data.iloc[i].stars
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        title = [word for word in title if word not in stopwords]

        title_reviews.append(title)
        calification.append(star)
    #Separamos por palabras 
    title_reviews_flatten = [word for l in title_reviews for word in l]
    #construimos los ngrams
    ngramas=list(ngrams(title_reviews_flatten,ngrama))
    fdist_n=nltk.FreqDist(ngramas)
    print(f'Los 10 ngramas mas comunes son: \n {fdist_n.most_common(10)}\n')
    print('Grafica de los ngramas mas comunes')
    fdist_n.plot(15)

## Ngramas para comentarios con calificación buena

In [None]:
#Palabras a procesar
words_processing(dataset_dev,'review_body')

In [None]:
ngramas(good,2)

In [None]:
#trigramas
ngramas(good,3)

## Ngramas para comentarios con calificacion mala 

In [None]:
#bigrama
ngramas(bad,2)

In [None]:
#trigrama
ngramas(bad,3)

Con el analisis de ngramas podemos ver frases comunes que en el lenguaje natural explican el porque de la calificación buena o mala de cada item. 

Ahora analizaremos el review body para descubrir colocaciones que nos ayuden a encontrar patrones del lenguaje en ambos datasets "good" y "bad"

In [None]:
#definamos una funcion para encontrar las coloaciones de dos o mas palabras 
import plotly.express as px
def colocaciones(data):
    review_bodies = []
    calification = []
    for i in range(data.shape[0]):
        review = data.iloc[i].review_body.lower()
        star = data.iloc[i].stars
        review = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(review)
        review = [word for word in review if word not in stopwords]

        review_bodies.append(review)
        calification.append(star)

    #Separamos por palabras 
    reviews_flatten= [word for l in review_bodies for word in l]
    #construimos los ngrams
    trigramas=list(ngrams(reviews_flatten,3))
    trigramas_df=pd.DataFrame()
    trigramas_df['trigramas']=list(set(trigramas))
    trigramas_df['word_1']=trigramas_df['trigramas'].apply(lambda x: x[0])
    trigramas_df['word_2']=trigramas_df['trigramas'].apply(lambda x: x[1])
    trigramas_df['word_3']=trigramas_df['trigramas'].apply(lambda x: x[2])
    #conteo para sacar el PMI pointwise mutual information
    fdist_trigram=nltk.FreqDist(trigramas)
    fdist_palabra=nltk.FreqDist(reviews_flatten)

    trigramas_df['frec_trigram']=trigramas_df['trigramas'].apply(lambda x:fdist_trigram[x])
    trigramas_df['frec_word_1']=trigramas_df['word_1'].apply(lambda x:fdist_palabra[x])
    trigramas_df['frec_word_2']=trigramas_df['word_2'].apply(lambda x:fdist_palabra[x])
    trigramas_df['frec_word_3']=trigramas_df['word_3'].apply(lambda x:fdist_palabra[x])

    #calcular el PMI metrica de colocacion 
    trigramas_df['PMI']=trigramas_df[['frec_trigram','frec_word_1','frec_word_2']].apply(lambda x:np.log2(x[0]/(x[1]*x[2])),axis=1)
    
    #ver graficamente las colocaciones
    trigramas_df['log_frec_trigram']=trigramas_df['frec_trigram'].apply(lambda x: np.log2(x))
    fig=px.scatter(x=trigramas_df.PMI , y=trigramas_df.log_frec_trigram ,color=trigramas_df.PMI+trigramas_df.log_frec_trigram , hover_name=trigramas_df.trigramas , width=600 , height=600, labels={'x':'PMI','y':'Frecuencia'} )
    fig.show()
    return trigramas_df.sort_values('PMI',ascending=False)


In [None]:
colocaciones(good)


In [None]:
colocaciones(bad)

Al ser comentarios sobre distintos productos de gente con diferente cultura no fue posible enciontrar colocaciones dicientes, sin embargo en el dataset de buena calificacion (good) se evidencia una que tiene un PMI cercanoia  cero y una frecuencia alta, la cual corresponde al trigrama de "doy 5 estrellas"

## 2.2 Exploracion de Review

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].review_body.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        title = [word for word in title if word not in stopwords]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

### 2.2.1 Exploracion general

In [None]:
df_r = token_npl(dataset_dev, stopwords, 1)
df_r.head(10)

Se observan que estas palabras, al igual que en el ejemplo con las tittle reviews, son muy generales y relacionadas al contexto del dataset (calidad, producto, si, precio, bien). Se modificaran las stopwords.

In [None]:
stopwords = nltk.corpus.stopwords.words('spanish')

In [None]:
filtrar = ['bien','producto','si','buena','mas','bastante','buen','dos','hace','calidad','precio','queda','solo']

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].review_body.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        title = [word for word in title if word not in stopwords]
        title = [word for word in title if word not in filtrar]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

In [None]:
df_r = token_npl(dataset_dev, stopwords, 1)
del df_r['Calification']
df_r.head(10)

#### 2.2.2 Exploración a partir de la clasificacion

In [None]:
df_r_one = token_npl(one_star, stopwords, 1)
df_r_one.head(5)

In [None]:
df_r_two = token_npl(two_star, stopwords, 2)
df_r_two.head(5)

In [None]:
df_r_three = token_npl(three_star, stopwords, 3)
df_r_three.head(5)

In [None]:
df_r_four = token_npl(four_star, stopwords, 4)
df_r_four.head(5)

In [None]:
df_r_five = token_npl(five_star, stopwords, 5)
df_r_five.head(5)

In [None]:
df_token = pd.concat([df_r_one, df_r_two, df_r_three, df_r_four, df_r_five])
df_token.sort_values('Frequency',ascending=False, inplace = True)
df_token.reset_index(drop = True, inplace=True)
df_token.head(10)

In [None]:
plt.figure(figsize = (15,8))
plot = sns.barplot(x  = df_token.iloc[:30].Word, y = df_token.iloc[:30].Frequency)
for item in plot.get_xticklabels():
    item.set_rotation(90)
plt.show()

Aplicaremos este filtro a la exploración de los titulos de los reviews para observar posibles cambios.

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].review_title.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        title = [word for word in title if word not in stopwords]
        title = [word for word in title if word not in filtrar]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

In [None]:
df_one = token_npl(one_star, stopwords, 1)
df_one.head(5)

In [None]:
df_two = token_npl(two_star, stopwords, 2)
df_two.head()

In [None]:
df_three = token_npl(three_star, stopwords, 3)
df_three.head()

In [None]:
df_r_four = token_npl(four_star, stopwords, 4)
df_r_four.head(5)

In [None]:
df_five = token_npl(five_star, stopwords, 5)
df_five.head()

Encontramos que con la lista de palabras para filtrar si es posible observar algunas relaciones entre palabras clave en los reviews y title reviews y la calificación del usuario al producto.

## 3. Stemming

Se aplicará una técnica de stemming al dataset final para observar comportamientos y relaciones.

In [None]:
dataset_dev.head()

In [None]:
dataset=pd.concat([dataset_dev.stars,dataset_dev.review_body,dataset_dev.review_title,dataset_dev.product_category],axis=1)
dataset.dropna(axis=0,inplace=True)  # Si hay alguna nan, tiramos esa instancia
dataset.head()

Dado que en nuestro tenemos reviews, los signos de exclamacion y pregunta no son relevantes.

## 3.1 Para Title Review

In [None]:
# Importamos esta libreria que nos permite reemplzar caracteres
import re

# Importamos la función que nos permite Stemmizar de nltk y definimos el stemmer
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

# Traemos nuevamente las stopwords
stopwords = nltk.corpus.stopwords.words('spanish')
stopwords.remove('no')

In [None]:
# Recorremos todos los titulos y le vamos aplicando la Normalizacion y luega el Stemming a cada uno
titular_list=[]
for titular in dataset.review_title:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    titular=re.sub("[^a-zA-Z]"," ",str(titular))
    # Pasamos todo a minúsculas
    titular=titular.lower()
    # Tokenizamos para separar las palabras del titular
    titular=nltk.word_tokenize(titular)
    # Eliminamos las palabras de menos de 3 letras
    titular = [palabra for palabra in titular if len(palabra)>3]
    # Sacamos las Stopwords
    titular = [palabra for palabra in titular if not palabra in stopwords]
    
    ## Hasta acá Normalizamos, ahora a stemmizar
    
    # Aplicamos la funcion para buscar la raiz de las palabras
    titular=[stemmer.stem(palabra) for palabra in titular]
    # Por ultimo volvemos a unir el titular
    titular=" ".join(titular)
    
    # Vamos armando una lista con todos los titulares
    titular_list.append(titular)
    
dataset["title_review_nr"] = titular_list

In [None]:
dataset.tail()

## 3.2 Para Body Review

In [None]:
# Recorremos todos los titulos y le vamos aplicando la Normalizacion y luega el Stemming a cada uno
titular_list=[]
for titular in dataset.review_body:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    titular=re.sub("[^a-zA-Z]"," ",str(titular))
    # Pasamos todo a minúsculas
    titular=titular.lower()
    # Tokenizamos para separar las palabras del titular
    titular=nltk.word_tokenize(titular)
    # Eliminamos las palabras de menos de 3 letras
    titular = [palabra for palabra in titular if len(palabra)>3]
    # Sacamos las Stopwords
    titular = [palabra for palabra in titular if not palabra in stopwords]
    
    ## Hasta acá Normalizamos, ahora a stemmizar
    
    # Aplicamos la funcion para buscar la raiz de las palabras
    titular=[stemmer.stem(palabra) for palabra in titular]
    # Por ultimo volvemos a unir el titular
    titular=" ".join(titular)
    
    # Vamos armando una lista con todos los titulares
    titular_list.append(titular)
    
dataset["body_review_nr"] = titular_list

In [None]:
dataset.tail()

In [None]:
del dataset['review_body']
del dataset['review_title']

## 3.3 Dataset Normalizado

In [None]:
dataset.head()

### 3.3.1 Exploracion dataset normalizado

#### 3.3.2 Title Review

Redefinimos la funcion, quitamos el comentario de stopwords y filtro para observar como se comporta.

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].title_review_nr.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        #title = [word for word in title if word not in stopwords]
        #title = [word for word in title if word not in filtrar]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

In [None]:
df_nr = token_npl(dataset, stopwords, 1)
del df_nr['Calification']
df_nr.head(10)

**Exploracion por calificacion**

In [None]:
one_star_nr = dataset[dataset.stars==1]
df_one_nr = token_npl(one_star_nr, stopwords, 1)
df_one_nr.head(5)

In [None]:
two_star_nr = dataset[dataset.stars==2]
df_two_nr = token_npl(two_star_nr, stopwords, 2)
df_two_nr.head(5)

In [None]:
three_star_nr = dataset[dataset.stars==3]
df_three_nr = token_npl(three_star_nr, stopwords, 3)
df_three_nr.head(5)

In [None]:
four_star_nr = dataset[dataset.stars==4]
df_four_nr = token_npl(four_star_nr, stopwords, 4)
df_four_nr.head(5)

In [None]:
five_star_nr = dataset[dataset.stars==5]
df_five_nr = token_npl(five_star_nr, stopwords, 5)
df_five_nr.head(5)

Se observan algunas palabras poco relevantes como "producto". Incluso es posible pensar que palabras como "bien", "mal", "malo" entregan poca informacion respecto a la clasificacion.

#### 3.3.2 Body Review

In [None]:
def token_npl(dataset, stopwords, star):
    title_reviews = []
    calification = []
    for i in range(dataset.shape[0]):
        title = dataset.iloc[i].body_review_nr.lower()
        title = nltk.tokenize.RegexpTokenizer("[\w]+").tokenize(title)
        #title = [word for word in title if word not in stopwords]
        #title = [word for word in title if word not in filtrar]

        title_reviews.append(title)
        calification.append(star)
        
    title_reviews = list(itertools.chain(*title_reviews))
    freq_tl = nltk.FreqDist(title_reviews)
    df_tl = pd.DataFrame(list(freq_tl.items()), columns = ["Word","Frequency"])
    df_tl['Calification'] = star
    df_tl.sort_values('Frequency',ascending=False, inplace = True)
    df_tl.reset_index(drop = True, inplace=True)
        
    return df_tl

In [None]:
df_nr_bd = token_npl(dataset, stopwords, 1)
del df_nr_bd['Calification']
df_nr_bd.head(10)

**Exploracion por calificacion**

In [None]:
one_star_nr_bd = dataset[dataset.stars==1]
df_one_nr_bd = token_npl(one_star_nr_bd, stopwords, 1)
df_one_nr_bd.head(5)

In [None]:
two_star_nr_bd = dataset[dataset.stars==2]
df_two_nr_bd = token_npl(two_star_nr_bd, stopwords, 1)
df_two_nr_bd.head(5)

In [None]:
three_star_nr_bd = dataset[dataset.stars==3]
df_three_nr_bd = token_npl(three_star_nr_bd, stopwords, 1)
df_three_nr_bd.head(5)

In [None]:
four_star_nr_bd = dataset[dataset.stars==4]
df_four_nr_bd = token_npl(four_star_nr_bd, stopwords, 1)
df_four_nr_bd.head(5)

In [None]:
five_star_nr_bd = dataset[dataset.stars==5]
df_five_nr_bd = token_npl(five_star_nr_bd, stopwords, 1)
df_five_nr_bd.head(5)

Palabras como "bien", "produco", "calidad" se siguen repitiendo en cada clasificacion de manera repetitiva.

## 4. Lemmatization

In [None]:
nltk.download()

In [None]:
# Importamos esta libreria que nos permite reemplzar caracteres
import re

# Importamos el lemmatizar de NLTK, y creamos el objeto
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

In [None]:
dataset_dev.head()

## 4.1 Lemmatization para Title Review

In [None]:
dataset = pd.concat([dataset_dev.review_title,dataset_dev.stars,dataset_dev.review_body],axis=1)
dataset.dropna(axis=0,inplace=True)

# Traemos nuevamente las stopwords
stopwords = nltk.corpus.stopwords.words('spanish')
stopwords.remove('no')

In [None]:
stopwords

In [None]:
from nltk.corpus import wordnet

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

In [None]:
titular_list=[]
for titular in dataset.review_title:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    titular=re.sub("[^a-zA-Z]"," ",str(titular))
    # Pasamos todo a minúsculas
    titular=titular.lower()
    # Tokenizamos para separar las palabras
    titular=nltk.word_tokenize(titular)
    
    # Aplicamos el Lemmatizer (Esto puede tardar un ratito)
    frase_lemma = [wordnet_lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in titular]
    
    # Sacamos las Stopwords
    titular = [palabra for palabra in titular if not palabra in stopwords]
    
    # Por ultimo volvemos a unir el titular
    titular=" ".join(titular)
    #dataset["titular_normalizado"] = titular_list
    titular_list.append(titular)

In [None]:
dataset["title_review_lm"] = titular_list
dataset.head()

In [None]:
dataset_lemm = pd.concat([dataset.title_review_lm,dataset.stars],axis=1)
#dataset_lemm.dropna(axis=0,inplace=True)  # Por si quedaron campos vacios
dataset_lemm.head()

In [None]:
titular_list=[]
for titular in dataset.review_body:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    titular=re.sub("[^a-zA-Z]"," ",str(titular))
    # Pasamos todo a minúsculas
    titular=titular.lower()
    # Tokenizamos para separar las palabras
    titular=nltk.word_tokenize(titular)
    
    # Aplicamos el Lemmatizer (Esto puede tardar un ratito)
    frase_lemma = [wordnet_lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in titular]
    
    # Sacamos las Stopwords
    titular = [palabra for palabra in titular if not palabra in stopwords]
    
    # Por ultimo volvemos a unir el titular
    titular=" ".join(titular)
    #dataset["titular_normalizado"] = titular_list
    titular_list.append(titular)

In [None]:
dataset["body_review_lm"] = titular_list
dataset.head()

In [None]:
dataset_lemm = pd.concat([dataset.body_review_lm,dataset.title_review_lm,dataset.stars],axis=1)
dataset_lemm.head()

In [None]:
dataset_lemm.dropna(axis=0,inplace=True)  # Por si quedaron campos vacios

In [None]:
dataset_lemm.head()

**Exploracion por calificacion**

In [None]:
df_one_lm = dataset_lemm[dataset_lemm.stars==1]
df_one_lm.head(5)

In [None]:
df_two_lm = dataset_lemm[dataset_lemm.stars==2]
df_two_lm.head(5)

In [None]:
df_three_lm = dataset_lemm[dataset_lemm.stars==3]
df_three_lm.head(5)

In [None]:
df_four_lm = dataset_lemm[dataset_lemm.stars==4]
df_four_lm.head(5)

In [None]:
df_five_lm = dataset_lemm[dataset_lemm.stars==5]
df_five_lm.head(5)

## Procesamiento 

Como primer paso paso par aun buen procesamiento vamos a asighnar etiquetas a nuestro conjunto de palabras, para ello usaremos la libreria Stanza de la universidad de Stanford la cual ya tiene unos algoritmos internos basados en redes neuronales para establecer estas etiquetas

In [None]:
#instalamos stanza
!pip install stanza

In [None]:
import stanza 
#descargamos las librerias de stanzas para español 
stanza.download('es')

In [None]:
#le decimos a estanza en el pipeline los procesos que queremos que haga con nuestro texto 
nlp=stanza.Pipeline('es',processors='tokenize,pos')

In [None]:
def tagger(data,columna):
    text_list=tokenizer(dataset_dev,columna)
    text_str=" ".join(text_list)
    text_tagged=nlp(review_titles_str)
    text_tagged=[(word.text,word.pos) for sentence in text_tagged.sentences for word in sentence.words]
    return text_tagged

In [None]:
text_titles_tagged=tagger(dataset_dev,'review_title')
text_titles_tagged

In [None]:
text_bodies_tagged=tagger(dataset_dev,'review_body')
text_bodies_tagged