Solución Taller 8

Modelado de Temas

In [12]:
import re
import pandas as pd 
from pprint import pprint

from nltk.corpus import stopwords
stopwords = stopwords.words('spanish')

import pyLDAvis.gensim
from gensim.models import LdaModel
from gensim.corpora import Dictionary

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [13]:
archivo = 'C:/Users/Nadia/Documents/Especialización/NLP/Clases y Talleres/reviews_vidjew_es.csv'
data = pd.read_csv(archivo)
data.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0825565,product_es_0370490,reviewer_es_0174781,3,"Buen. Buena calidad, y buena presentación.",Contenta,es,jewelry
1,es_0227934,product_es_0354224,reviewer_es_0411613,3,"Un producto a perfecto, para salir de casa con...",Versatilidad,es,video_games
2,es_0468601,product_es_0665460,reviewer_es_0348315,1,No funciona con Nintendo Switch. No hay forma ...,Decepción absoluta,es,video_games
3,es_0814494,product_es_0692692,reviewer_es_0951508,5,"Recomendado, los utilizo para pc y no me dan n...",Auriculares Pecham ps4,es,video_games
4,es_0206329,product_es_0728826,reviewer_es_0493255,4,El cable funciona bien podria ser un poco mas ...,Perfecto,es,video_games


In [14]:
print(f"Tenemos {data.shape[0]:,d} documentos.")

Tenemos 1,000 documentos.


In [15]:
def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = [palabra for palabra in texto.split() if palabra not in stopwords]
    return texto

data['Pre-Processed'] = data['review_body'].apply(lambda texto: pre_procesado(texto))
data.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category,Pre-Processed
0,es_0825565,product_es_0370490,reviewer_es_0174781,3,"Buen. Buena calidad, y buena presentación.",Contenta,es,jewelry,"[buen, buena, calidad, buena, presentación]"
1,es_0227934,product_es_0354224,reviewer_es_0411613,3,"Un producto a perfecto, para salir de casa con...",Versatilidad,es,video_games,"[producto, perfecto, salir, casa, nintendo, sw..."
2,es_0468601,product_es_0665460,reviewer_es_0348315,1,No funciona con Nintendo Switch. No hay forma ...,Decepción absoluta,es,video_games,"[funciona, nintendo, switch, forma, emparejarl..."
3,es_0814494,product_es_0692692,reviewer_es_0951508,5,"Recomendado, los utilizo para pc y no me dan n...",Auriculares Pecham ps4,es,video_games,"[recomendado, utilizo, pc, dan, ningún, proble..."
4,es_0206329,product_es_0728826,reviewer_es_0493255,4,El cable funciona bien podria ser un poco mas ...,Perfecto,es,video_games,"[cable, funciona, bien, podria, ser, mas, larg..."


In [16]:
#Creamos el diccionario para nuestro conjunto de datos
dictionary = Dictionary(data['Pre-Processed'].values)

In [19]:
# Filtrar palabras muy frecuentes y poco frecuentes
dictionary.filter_extremes(no_below=5, no_above=0.5)
dictionary.token2id

{'buen': 0,
 'buena': 1,
 'calidad': 2,
 'presentación': 3,
 'casa': 4,
 'nintendo': 5,
 'perfecto': 6,
 'producto': 7,
 'switch': 8,
 'forma': 9,
 'funciona': 10,
 'jugar': 11,
 'poder': 12,
 'bien': 13,
 'dan': 14,
 'ningún': 15,
 'pc': 16,
 'problema': 17,
 'recomendado': 18,
 'adapta': 19,
 'cable': 20,
 'envio': 21,
 'largo': 22,
 'mas': 23,
 'perfectamente': 24,
 'rapido': 25,
 'ser': 26,
 'bonito': 27,
 'fácilmente': 28,
 'compra': 29,
 'compré': 30,
 'precio': 31,
 'recomendable': 32,
 'regalar': 33,
 'seguro': 34,
 'cada': 35,
 'comprado': 36,
 'devolver': 37,
 'dos': 38,
 'espero': 39,
 'foto': 40,
 'gracias': 41,
 'gustan': 42,
 'hacer': 43,
 'igual': 44,
 'ninguna': 45,
 'par': 46,
 'pedir': 47,
 'perlas': 48,
 'rota': 49,
 'tener': 50,
 'tiempo': 51,
 'veces': 52,
 'venido': 53,
 'viene': 54,
 'cómodos': 55,
 'juego': 56,
 'momento': 57,
 'nota': 58,
 'plástico': 59,
 'usb': 60,
 'vienen': 61,
 'acabado': 62,
 'cumple': 63,
 'cómo': 64,
 'da': 65,
 'materiales': 66,
 'carg

In [20]:
corpus = [dictionary.doc2bow(text) for text in data['Pre-Processed'].values]

In [21]:
# Entrenamos el modelo con 100 pases
model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=5, passes=100)

In [23]:
model.print_topics(num_words = 20)

[(0,
  '0.026*"mas" + 0.023*"mando" + 0.021*"jugar" + 0.019*"cumple" + 0.019*"ps" + 0.017*"precio" + 0.016*"si" + 0.015*"bien" + 0.014*"poner" + 0.014*"bonitos" + 0.013*"consola" + 0.012*"foto" + 0.012*"compra" + 0.012*"mejor" + 0.011*"sonido" + 0.011*"buena" + 0.011*"artículo" + 0.010*"calidad" + 0.010*"mandos" + 0.010*"todas"'),
 (1,
  '0.044*"bonito" + 0.024*"queda" + 0.024*"bien" + 0.022*"foto" + 0.020*"pulsera" + 0.019*"plata" + 0.018*"bonita" + 0.017*"colgante" + 0.017*"cadena" + 0.017*"regalo" + 0.016*"calidad" + 0.015*"pequeño" + 0.014*"tal" + 0.014*"tan" + 0.012*"verdad" + 0.011*"q" + 0.011*"collar" + 0.011*"si" + 0.010*"grande" + 0.010*"llega"'),
 (2,
  '0.031*"si" + 0.019*"así" + 0.015*"regalo" + 0.015*"día" + 0.015*"mal" + 0.015*"pendientes" + 0.014*"perfecto" + 0.014*"rápido" + 0.013*"bien" + 0.013*"pena" + 0.013*"mejor" + 0.012*"juego" + 0.012*"grandes" + 0.012*"quedan" + 0.012*"bonitos" + 0.011*"parte" + 0.010*"vez" + 0.010*"hijo" + 0.010*"caso" + 0.010*"switch"'),
 (3,


In [None]:
# Resultados

In [24]:
lda_display = pyLDAvis.gensim.prepare(model, corpus, dictionary, sort_topics=True)
pyLDAvis.display(lda_display)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))
