# Proyecto 03 - Procesamiento del Lenguaje Natural

## Dataset: The Multilingual Amazon Reviews Corpus

**Recuerda descargar el dataset de [aquí](https://github.com/kang205/SASRec). Es un archivo .zip que contiene tres documentos. Más información sobre el dataset [aquí](https://registry.opendata.aws/amazon-reviews-ml/). Es importante que tengas en cuenta la [licencia](https://docs.opendata.aws/amazon-reviews-ml/license.txt) de este dataset.**

### Exploración de datos y Procesamiento del Lenguaje Natural

Dedícale un buen tiempo a hacer un Análisis Exploratorio de Datos. Considera que hasta que no hayas aplicado las herramientas de Procesamiento del Lenguaje Natural vistas, será difícil completar este análisis. Elige preguntas que creas que puedas responder con este dataset. Por ejemplo, ¿qué palabras están asociadas a calificaciones positivas y qué palabras a calificaciones negativas?

### Machine Learning

Implementa un modelo que, dada la crítica de un producto, asigne la cantidad de estrellas correspondiente. **Para pensar**: ¿es un problema de Clasificación o de Regresión?

1. Haz todas las transformaciones de datos que consideres necesarias. Justifica.
1. Evalúa de forma apropiada sus resultados. Justifica la métrica elegida.
1. Elige un modelo benchmark y compara tus resultados con este modelo.
1. Optimiza los hiperparámetros de tu modelo.
1. Intenta responder la pregunta: ¿Qué información está usando el modelo para predecir?

**Recomendación:** si no te resulta conveniente trabajar en español con NLTK, te recomendamos que explores la librería [spaCy](https://spacy.io/).

### Para pensar, investigar y, opcionalmente, implementar
1. ¿Valdrá la pena convertir el problema de Machine Learning en un problema binario? Es decir, asignar únicamente las etiquetas Positiva y Negativa a cada crítica y hacer un modelo que, en lugar de predecir las estrellas, prediga esa etiqueta. Pensar en qué situación puede ser útil. ¿Esperas que el desempeño sea mejor o peor?
1. ¿Hay algo que te gustaría investigar o probar?

### **¡Tómate tiempo para investigar y leer mucho!**

In [1]:
import itertools

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
sns.set()


## Dataset DEV ##

In [2]:
dataset_dev = pd.read_json('dataset_es_dev.json', lines = True)
dataset_dev.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0417480,product_es_0873923,reviewer_es_0672978,1,"Malisimo, muy grande demasiado aparatoso y mal...",Mala compra,es,wireless
1,es_0180432,product_es_0713146,reviewer_es_0100858,1,No he recibido el pedido no la devolución,No lo he recibido,es,apparel
2,es_0144850,product_es_0356874,reviewer_es_0486447,1,"Tengo que buscar otro sistema, este no funcion...",Que no aprieta bien en el manillar,es,sports
3,es_0339629,product_es_0939832,reviewer_es_0894703,1,Utilicé las brocas de menor diámetro y se me d...,Brocas de mantequilla,es,home_improvement
4,es_0858362,product_es_0489066,reviewer_es_0887663,1,No me gusta su olor a viejo y aspecto malo,No me gusta,es,beauty


In [3]:
dataset_dev.shape

(5000, 8)

In [4]:
dataset_dev.drop_duplicates(inplace = True) #no hay datos duplicados ni faltantes
dataset_dev.shape

(5000, 8)

In [5]:
dataset_dev.isna().sum()

review_id           0
product_id          0
reviewer_id         0
stars               0
review_body         0
review_title        0
language            0
product_category    0
dtype: int64

In [6]:
dataset_dev.language.value_counts() #solo reseñas en español

es    5000
Name: language, dtype: int64

In [7]:
dataset_dev.review_body.shape

(5000,)

In [8]:
dataset_dev.stars.value_counts()

4    1000
1    1000
5    1000
2    1000
3    1000
Name: stars, dtype: int64

In [9]:
dataset_dev.product_id.value_counts()

product_es_0257155    2
product_es_0244030    2
product_es_0294859    2
product_es_0871533    2
product_es_0920931    2
                     ..
product_es_0941384    1
product_es_0070827    1
product_es_0454367    1
product_es_0898727    1
product_es_0464684    1
Name: product_id, Length: 4964, dtype: int64

In [10]:
dataset_dev.reviewer_id.value_counts() #product id y reviewer id no deberian coincidir?

reviewer_es_0964440    2
reviewer_es_0986865    2
reviewer_es_0488492    2
reviewer_es_0672560    2
reviewer_es_0428276    2
                      ..
reviewer_es_0944387    1
reviewer_es_0898134    1
reviewer_es_0124895    1
reviewer_es_0094584    1
reviewer_es_0620289    1
Name: reviewer_id, Length: 4982, dtype: int64

Elijo una instancia al azar y veo el review boby

In [11]:
np.random #.seed(56)
index_random = np.random.randint(0,high = dataset_dev.shape[0])
descripcion = dataset_dev.iloc[index_random].review_body
print(index_random, descripcion)

1291 Es bonita pero esperaba mejor calidad y que cubriera mejor al TF por delante en la pantalla. Por el precio ya podía ser mejor


vemos la estrella con la que califico al producto comprado

In [12]:
print (f'El comprador {index_random}')
print (f'Califico al producto con {dataset_dev.iloc[index_random].stars} estrellas' )

print(index_random, dataset_dev.iloc[index_random].stars)

El comprador 1291
Califico al producto con 2 estrellas
1291 2


In [13]:
import spacy
from spacy import displacy
from spacy.pipeline import EntityRuler
from spacy.lang.es.examples import sentences

In [14]:
nlp = spacy.load("es_core_news_sm")

In [15]:
doc = nlp (descripcion)

In [16]:
for token in doc:
    print(token.text)

Es
bonita
pero
esperaba
mejor
calidad
y
que
cubriera
mejor
al
TF
por
delante
en
la
pantalla
.
Por
el
precio
ya
podía
ser
mejor


Vemos las stop words

In [17]:
from spacy.lang.es.stop_words import STOP_WORDS
stopwords_spacy = list(STOP_WORDS)
print (stopwords_spacy)
len(stopwords_spacy)

['ultimo', 'ésta', 'ese', 'podria', 'propios', 'trabajan', 'tal', 'más', 'cuanto', 'menudo', 'nosotros', 'hecho', 'aquéllos', 'cuando', 'aqui', 'dicen', 'vuestro', 'afirmó', 'mismo', 'llegó', 'hasta', 'mucha', 'algo', 'nuevos', 'le', 'soy', 'solos', 'parte', 'horas', 'bastante', 'contigo', 'éstos', 'emplear', 'informo', 'da', 'estos', 'mejor', 'ambos', 'usas', 'quizas', 'ésas', 'estar', 'través', 'intentar', 'mas', 'mis', 'usted', 'dado', 'creo', 'aun', 'cuántos', 'ciertas', 'durante', 'detrás', 'un', 'grandes', 'tuya', 'otra', 'todo', 'ésa', 'hay', 'dónde', 'aproximadamente', 'arribaabajo', 'cual', 'tarde', 'nos', 'pudo', 'son', 'estado', 'cerca', 'podriais', 'es', 'sobre', 'tienen', 'sido', 'al', 'pais', 'quién', 'lleva', 'mismas', 'anterior', 'este', 'antano', 'días', 'saber', 'estados', 'ya', 'también', 'considera', 'final', 'ni', 'tú', 'ha', 'sabes', 'momento', 'mío', 'bajo', 'pasada', 'cuál', 'poner', 'tres', 'sin', 'ningún', 'podrían', 'ningunas', 'os', 'del', 'agregó', 'total',

551

Imprimimos las palabras del texto que no son stop words según Spacy

In [18]:
for token in doc:
    if token.is_stop == False:
        print(token)

bonita
esperaba
calidad
y
cubriera
TF
pantalla
.
precio
podía


**Lemmatización**

In [19]:
for token in doc:
    print (token.text, token.lemma_)

Es ser
bonita bonito
pero pero
esperaba esperar
mejor mejor
calidad calidad
y y
que que
cubriera cubrierar
mejor mejor
al al
TF TF
por por
delante delante
en en
la el
pantalla pantalla
. .
Por por
el el
precio precio
ya ya
podía poder
ser ser
mejor mejor


**POS Part of Speech**

In [20]:
for token in doc:
    print (token.text, token.pos_)

Es AUX
bonita ADJ
pero CCONJ
esperaba VERB
mejor ADJ
calidad NOUN
y CCONJ
que PRON
cubriera VERB
mejor ADV
al ADP
TF PROPN
por ADP
delante ADV
en ADP
la DET
pantalla NOUN
. PUNCT
Por ADP
el DET
precio NOUN
ya ADV
podía AUX
ser AUX
mejor ADJ


**Tokenización**

Eliminamos los signos 

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

In [22]:
import string
puntua = string.punctuation + '¿!¡? + " "'
puntua

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¿!¡? + " "'

In [23]:
def text_data_cleaning(sentence):
    doc=nlp(sentence)
    
    tokens = []
    for token in doc:
        if token.lemma_ != '-PRON-':
            temp= token.lemma_.strip()
        else:
            temp = token
        tokens.append(temp)
        
    clean_tokens = []
    for token in tokens:
        if token not in stopwords_spacy and token not in puntua:
            clean_tokens.append(token)
            
    return " ".join(clean_tokens)

In [24]:
text_data_cleaning(descripcion)

'bonito esperar calidad y cubrierar TF pantalla precio'

In [25]:
dataset_dev.review_body.apply(text_data_cleaning)

0          malisimo grande aparatoso y protector pantalla
1                               recibir pedido devolución
2       buscar sistema funcionar abrazadera agarrar ma...
3       Utilicé broca menor diámetro y doblar mantequi...
4                      gustar olor a viejo y aspecto malo
                              ...                        
4995    encantar cesta llegar impecable tamaño util fi...
4996                     desempeñar función correctamente
4997    encantar diadema flor venir imagen y venir apl...
4998    a gustar funda TPU fundas normalmente fino y c...
4999                  artículo cumplir expectativa desear
Name: review_body, Length: 5000, dtype: object

In [26]:
dataset_dev.head(3)

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0417480,product_es_0873923,reviewer_es_0672978,1,"Malisimo, muy grande demasiado aparatoso y mal...",Mala compra,es,wireless
1,es_0180432,product_es_0713146,reviewer_es_0100858,1,No he recibido el pedido no la devolución,No lo he recibido,es,apparel
2,es_0144850,product_es_0356874,reviewer_es_0486447,1,"Tengo que buscar otro sistema, este no funcion...",Que no aprieta bien en el manillar,es,sports


## vos decis q dio bien??? para mi algo fallo y no saco las , o algo. es decir, no pude aplicar el data_cleaning al ds
intente hacer dataset_dev[´review_body´] =dataset_dev.review_body.apply(text_data_cleaning) y me tiro un error. igual corro la celda debajo para q lo veas

In [27]:
dataset_dev['review_body']= dataset_dev.review_body.apply(text_data_cleaning)

In [28]:
dataset_dev

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0417480,product_es_0873923,reviewer_es_0672978,1,malisimo grande aparatoso y protector pantalla,Mala compra,es,wireless
1,es_0180432,product_es_0713146,reviewer_es_0100858,1,recibir pedido devolución,No lo he recibido,es,apparel
2,es_0144850,product_es_0356874,reviewer_es_0486447,1,buscar sistema funcionar abrazadera agarrar ma...,Que no aprieta bien en el manillar,es,sports
3,es_0339629,product_es_0939832,reviewer_es_0894703,1,Utilicé broca menor diámetro y doblar mantequi...,Brocas de mantequilla,es,home_improvement
4,es_0858362,product_es_0489066,reviewer_es_0887663,1,gustar olor a viejo y aspecto malo,No me gusta,es,beauty
...,...,...,...,...,...,...,...,...
4995,es_0179515,product_es_0158275,reviewer_es_0273644,5,encantar cesta llegar impecable tamaño util fi...,guadalupe,es,home
4996,es_0894902,product_es_0953259,reviewer_es_0153773,5,desempeñar función correctamente,calidad precio,es,camera
4997,es_0760496,product_es_0731995,reviewer_es_0171091,5,encantar diadema flor venir imagen y venir apl...,Excelente,es,toy
4998,es_0178380,product_es_0402051,reviewer_es_0686937,5,a gustar funda TPU fundas normalmente fino y c...,Genial,es,wireless


** ahora me dio, no se que paso jajajaja ** asi esta bien? **

## convertilo a csv ## - no me salio. realidad cuando lo busque en google dice que tengo q poner el archivo para q lo cambie, y no se como exportar el ds en json para convertirlo a csv. me explico?? ##

tener un dataset en donde tengo todas las oraciones ordenadas y lematizadas. el dataset resultante lo guardo en un csv

**Vectorización TF-IDF**

In [29]:
#from sklearn.svm import LinearSVC

In [30]:
#tfidf = TfidfVectorizer(tokenizer = text_data_cleaning)
#classifier = LinearSVC()

In [31]:
#clf = Pipeline([('tfidf', tfidf), ('clf', classifier)])

In [32]:
#dataset_dev.review_body =tfidf.fit_transform(dataset_dev.review_body)
#dataset_dev

In [33]:
#X_transform_rick

##PENDIENTES##

terminar de hacer vectorizacion. 

Pense en dividir el DS en dos. uno que tenga los comentarios de las personas que hayan puntuado entre 1 y 3 estrellas y el otro con el de 4 y 5 y buscar cuales son las palabras que mas se repiten en ambos. Quizas al dividir en dos el df se distribuyen de diferente manera las product_Category y podemos ver si algunas tienen mayor tendencia a tener malas puntuaciones. o cuales son las catergorias con mejor puntuacion.




## DS TRAIN ##

In [34]:
dataset_train = pd.read_json('dataset_es_train.json', lines = True)
dataset_train.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0491108,product_es_0296024,reviewer_es_0999081,1,Nada bueno se me fue ka pantalla en menos de 8...,television Nevir,es,electronics
1,es_0869872,product_es_0922286,reviewer_es_0216771,1,"Horrible, nos tuvimos que comprar otro porque ...",Dinero tirado a la basura con esta compra,es,electronics
2,es_0811721,product_es_0474543,reviewer_es_0929213,1,Te obligan a comprar dos unidades y te llega s...,solo llega una unidad cuando te obligan a comp...,es,drugstore
3,es_0359921,product_es_0656090,reviewer_es_0224702,1,"No entro en descalificar al vendedor, solo pue...",PRODUCTO NO RECIBIDO.,es,wireless
4,es_0068940,product_es_0662544,reviewer_es_0224827,1,Llega tarde y co la talla equivocada,Devuelto,es,shoes


In [35]:
dataset_train.shape

(200000, 8)

In [36]:
dataset_train.isna().sum()

review_id           0
product_id          0
reviewer_id         0
stars               0
review_body         0
review_title        0
language            0
product_category    0
dtype: int64

In [37]:
dataset_train.review_body.shape

(200000,)

In [38]:
#Elijo una instanciaal azar y veo el review body

np.random #.seed(18)
index_random = np.random.randint(0,high = dataset_train.shape[0])
descripcion_train = dataset_train.iloc[index_random].review_body
print(index_random, descripcion_train)

48022 Me llego muy rapido, a los dos dias de la compra (una semana antes o mas de lo estimado), pero no es del tamaño del leeco S3, se queda pequeño, no cubre toda la pantalla.


In [39]:
print (f'El comprador {index_random}')
print (f'Califico al producto con {dataset_train.iloc[index_random].stars} estrellas' )

print(index_random, dataset_train.iloc[index_random].stars)

El comprador 48022
Califico al producto con 2 estrellas
48022 2


In [40]:
doc = nlp (descripcion_train)

In [41]:
for token in doc:
    print(token.text)

Me
llego
muy
rapido
,
a
los
dos
dias
de
la
compra
(
una
semana
antes
o
mas
de
lo
estimado
)
,
pero
no
es
del
tamaño
del
leeco
S3
,
se
queda
pequeño
,
no
cubre
toda
la
pantalla
.


In [42]:
stopwords_spacy_train = list(STOP_WORDS)
print (stopwords_spacy_train)
len(stopwords_spacy_train)

['ultimo', 'ésta', 'ese', 'podria', 'propios', 'trabajan', 'tal', 'más', 'cuanto', 'menudo', 'nosotros', 'hecho', 'aquéllos', 'cuando', 'aqui', 'dicen', 'vuestro', 'afirmó', 'mismo', 'llegó', 'hasta', 'mucha', 'algo', 'nuevos', 'le', 'soy', 'solos', 'parte', 'horas', 'bastante', 'contigo', 'éstos', 'emplear', 'informo', 'da', 'estos', 'mejor', 'ambos', 'usas', 'quizas', 'ésas', 'estar', 'través', 'intentar', 'mas', 'mis', 'usted', 'dado', 'creo', 'aun', 'cuántos', 'ciertas', 'durante', 'detrás', 'un', 'grandes', 'tuya', 'otra', 'todo', 'ésa', 'hay', 'dónde', 'aproximadamente', 'arribaabajo', 'cual', 'tarde', 'nos', 'pudo', 'son', 'estado', 'cerca', 'podriais', 'es', 'sobre', 'tienen', 'sido', 'al', 'pais', 'quién', 'lleva', 'mismas', 'anterior', 'este', 'antano', 'días', 'saber', 'estados', 'ya', 'también', 'considera', 'final', 'ni', 'tú', 'ha', 'sabes', 'momento', 'mío', 'bajo', 'pasada', 'cuál', 'poner', 'tres', 'sin', 'ningún', 'podrían', 'ningunas', 'os', 'del', 'agregó', 'total',

551

In [43]:
for token in doc:
    if token.is_stop == False:
        print(token)

llego
rapido
,
a
compra
(
semana
o
estimado
)
,
tamaño
leeco
S3
,
queda
pequeño
,
cubre
pantalla
.


**Lemmatizacion**

In [44]:
for token in doc:
    print (token.text, token.lemma_)

Me yo
llego llegar
muy mucho
rapido rapido
, ,
a a
los el
dos dos
dias dia
de de
la el
compra compra
( (
una uno
semana semana
antes antes
o o
mas mas
de de
lo él
estimado estimado
) )
, ,
pero pero
no no
es ser
del del
tamaño tamaño
del del
leeco leeco
S3 S3
, ,
se él
queda quedar
pequeño pequeño
, ,
no no
cubre cubrir
toda todo
la el
pantalla pantalla
. .


**POS**

In [45]:
for token in doc:
    print (token.text, token.pos_)

Me PRON
llego VERB
muy ADV
rapido ADJ
, PUNCT
a ADP
los DET
dos NUM
dias NOUN
de ADP
la DET
compra NOUN
( PUNCT
una DET
semana NOUN
antes ADV
o CCONJ
mas ADV
de ADP
lo PRON
estimado ADJ
) PUNCT
, PUNCT
pero CCONJ
no ADV
es AUX
del ADP
tamaño NOUN
del ADP
leeco ADJ
S3 PROPN
, PUNCT
se PRON
queda VERB
pequeño ADJ
, PUNCT
no ADV
cubre VERB
toda DET
la DET
pantalla NOUN
. PUNCT


**Tokenizacion**

In [46]:
puntua_train = string.punctuation + '¿!¡? + " "'
puntua_train

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¿!¡? + " "'

In [47]:
def text_data_cleaning_train(sentence):
    doc=nlp(sentence)
    
    tokens = []
    for token in doc:
        if token.lemma_ != '-PRON-':
            temp= token.lemma_.strip()
        else:
            temp = token
        tokens.append(temp)
        
    clean_tokens_train = []
    for token in tokens:
        if token not in stopwords_spacy_train and token not in puntua_train:
            clean_tokens_train.append(token)
            
    return " ".join(clean_tokens_train)
                                

In [48]:
text_data_cleaning_train(descripcion)

'bonito esperar calidad y cubrierar TF pantalla precio'

In [49]:
dataset_train.review_body.apply(text_data_cleaning)

0         kar pantalla 8 mes y recibir respuesta fabricante
1         Horrible comprar inglés informático hora capaz...
2         obligar a comprar unidad y llegar y forma recl...
3         entrar descalificar vendedor mes espera .... s...
4                              llegar y co talla equivocado
                                ...                        
199995    Mando funcionar perfectamente y cumplir funció...
199996    Compré batería reticencia resultar fácil insta...
199997                            calidad satisfecho compra
199998                                 Perfecto cumple hijo
199999                    Súper brocha caer pelito chula xd
Name: review_body, Length: 200000, dtype: object

In [50]:
dataset_train.head(10)

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0491108,product_es_0296024,reviewer_es_0999081,1,Nada bueno se me fue ka pantalla en menos de 8...,television Nevir,es,electronics
1,es_0869872,product_es_0922286,reviewer_es_0216771,1,"Horrible, nos tuvimos que comprar otro porque ...",Dinero tirado a la basura con esta compra,es,electronics
2,es_0811721,product_es_0474543,reviewer_es_0929213,1,Te obligan a comprar dos unidades y te llega s...,solo llega una unidad cuando te obligan a comp...,es,drugstore
3,es_0359921,product_es_0656090,reviewer_es_0224702,1,"No entro en descalificar al vendedor, solo pue...",PRODUCTO NO RECIBIDO.,es,wireless
4,es_0068940,product_es_0662544,reviewer_es_0224827,1,Llega tarde y co la talla equivocada,Devuelto,es,shoes
5,es_0779978,product_es_0103315,reviewer_es_0304973,1,Jamás me llegó y el vendedor nunca contacto co...,Jamás me llegó,es,home
6,es_0591840,product_es_0880915,reviewer_es_0642702,1,"El paraguas es de muy mala calidad,da la sensa...",Horroroso!!!,es,luggage
7,es_0173297,product_es_0814677,reviewer_es_0895784,1,Tuve que devolverla porque al ser triangular n...,Poco funcional,es,office_product
8,es_0101300,product_es_0654228,reviewer_es_0789283,1,Estoy esperando despues de protestar varias ve...,No me llego,es,electronics
9,es_0487007,product_es_0877793,reviewer_es_0986278,1,"Defectuoso. En apariencia muy bien producto, p...","Mala calidad, defectuoso",es,kitchen


In [51]:
dataset_train['review_body']= dataset_train.review_body.apply(text_data_cleaning_train)

In [52]:
dataset_train

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0491108,product_es_0296024,reviewer_es_0999081,1,kar pantalla 8 mes y recibir respuesta fabricante,television Nevir,es,electronics
1,es_0869872,product_es_0922286,reviewer_es_0216771,1,Horrible comprar inglés informático hora capaz...,Dinero tirado a la basura con esta compra,es,electronics
2,es_0811721,product_es_0474543,reviewer_es_0929213,1,obligar a comprar unidad y llegar y forma recl...,solo llega una unidad cuando te obligan a comp...,es,drugstore
3,es_0359921,product_es_0656090,reviewer_es_0224702,1,entrar descalificar vendedor mes espera .... s...,PRODUCTO NO RECIBIDO.,es,wireless
4,es_0068940,product_es_0662544,reviewer_es_0224827,1,llegar y co talla equivocado,Devuelto,es,shoes
...,...,...,...,...,...,...,...,...
199995,es_0715276,product_es_0317036,reviewer_es_0643604,5,Mando funcionar perfectamente y cumplir funció...,Tal y como se describe,es,electronics
199996,es_0085190,product_es_0622919,reviewer_es_0466173,5,Compré batería reticencia resultar fácil insta...,Funciona perfectamente,es,electronics
199997,es_0484496,product_es_0358101,reviewer_es_0330744,5,calidad satisfecho compra,Buena calidad.,es,apparel
199998,es_0930141,product_es_0788855,reviewer_es_0694290,5,Perfecto cumple hijo,Recomendado,es,toy
