In [3]:
import re
import pandas as pd 
from pprint import pprint

from nltk.corpus import stopwords
stopwords = stopwords.words('spanish')

import pyLDAvis.gensim
from gensim.models import LdaModel
from gensim.corpora import Dictionary

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [4]:
# Cargar datos
path = 'reviews_vidjew_es.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0825565,product_es_0370490,reviewer_es_0174781,3,"Buen. Buena calidad, y buena presentación.",Contenta,es,jewelry
1,es_0227934,product_es_0354224,reviewer_es_0411613,3,"Un producto a perfecto, para salir de casa con...",Versatilidad,es,video_games
2,es_0468601,product_es_0665460,reviewer_es_0348315,1,No funciona con Nintendo Switch. No hay forma ...,Decepción absoluta,es,video_games
3,es_0814494,product_es_0692692,reviewer_es_0951508,5,"Recomendado, los utilizo para pc y no me dan n...",Auriculares Pecham ps4,es,video_games
4,es_0206329,product_es_0728826,reviewer_es_0493255,4,El cable funciona bien podria ser un poco mas ...,Perfecto,es,video_games


###  `[12 pts]` Punto 1: Hacer pre-procesamiento del texto

In [8]:
def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = [palabra for palabra in texto.split() if palabra not in stopwords]
    return texto

data['Pre-Processed'] = data['review_body'].apply(lambda texto: pre_procesado(texto))

data.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category,Pre-Processed
0,es_0825565,product_es_0370490,reviewer_es_0174781,3,"Buen. Buena calidad, y buena presentación.",Contenta,es,jewelry,"[buen, buena, calidad, buena, presentación]"
1,es_0227934,product_es_0354224,reviewer_es_0411613,3,"Un producto a perfecto, para salir de casa con...",Versatilidad,es,video_games,"[producto, perfecto, salir, casa, nintendo, sw..."
2,es_0468601,product_es_0665460,reviewer_es_0348315,1,No funciona con Nintendo Switch. No hay forma ...,Decepción absoluta,es,video_games,"[funciona, nintendo, switch, forma, emparejarl..."
3,es_0814494,product_es_0692692,reviewer_es_0951508,5,"Recomendado, los utilizo para pc y no me dan n...",Auriculares Pecham ps4,es,video_games,"[recomendado, utilizo, pc, dan, ningún, proble..."
4,es_0206329,product_es_0728826,reviewer_es_0493255,4,El cable funciona bien podria ser un poco mas ...,Perfecto,es,video_games,"[cable, funciona, bien, podria, ser, mas, larg..."


###  `[13 pts]` Punto 2: Modelo de LDA

In [11]:
import pyLDAvis.gensim
from gensim.models import LdaModel
from gensim.corpora import Dictionary
from pprint import pprint

# Crear una representación de los documentos en forma de diccionario
dictionary = Dictionary(data['Pre-Processed'].values)

# Filtrar palabras muy frecuentes o infrecuentes
dictionary.filter_extremes(no_below=5, no_above=0.5)

corpus = [dictionary.doc2bow(text) for text in data['Pre-Processed'].values]

#Train the topic model
model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=6, passes=50)

In [12]:
model.print_topics(num_words = 10)

[(0,
  '0.031*"calidad" + 0.027*"mal" + 0.025*"juego" + 0.023*"mala" + 0.023*"puedo" + 0.016*"gustado" + 0.015*"roto" + 0.015*"decir" + 0.014*"mes" + 0.013*"días"'),
 (1,
  '0.047*"juego" + 0.023*"producto" + 0.021*"perfecto" + 0.019*"perfectamente" + 0.017*"tiempo" + 0.016*"precio" + 0.016*"caja" + 0.016*"bien" + 0.014*"rápido" + 0.014*"gracias"'),
 (2,
  '0.051*"calidad" + 0.043*"precio" + 0.038*"regalo" + 0.034*"buena" + 0.022*"perfecto" + 0.020*"buen" + 0.016*"bonito" + 0.014*"diseño" + 0.013*"compré" + 0.013*"tamaño"'),
 (3,
  '0.041*"producto" + 0.038*"llegado" + 0.030*"día" + 0.024*"así" + 0.019*"mando" + 0.018*"solo" + 0.017*"si" + 0.012*"menos" + 0.012*"entregado" + 0.012*"recibido"'),
 (4,
  '0.046*"bien" + 0.025*"bonito" + 0.022*"pulsera" + 0.021*"bastante" + 0.021*"foto" + 0.020*"queda" + 0.018*"pequeño" + 0.017*"bonitos" + 0.015*"mas" + 0.015*"plata"'),
 (5,
  '0.062*"bien" + 0.042*"si" + 0.021*"juego" + 0.016*"mas" + 0.014*"mando" + 0.014*"ps" + 0.013*"calidad" + 0.013*"o

###  `[25 pts]` Punto 3: Visualización de LDA

In [13]:
lda_display = pyLDAvis.gensim.prepare(model, corpus, dictionary, sort_topics=True)
pyLDAvis.display(lda_display)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))
