# Topics

In [57]:
import pandas as pd
from stop_words import get_stop_words
import string
import unicodedata
from num2words import num2words

import gensim
from gensim.corpora import Dictionary
from gensim.models import LdaModel, CoherenceModel

import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt

Cargamos los datos obtenidos en el primer punto de la práctica.

In [58]:
df = pd.read_csv('./dataset/amazon.csv')

Recortamos el dataset a los primeros 3000 registros (recuerdo que en el punto anterior ya se mezclaron estos registros).

In [59]:
df = df.iloc[:3000]
df.dropna(inplace=True)

In [60]:
df.isnull().any()

reviewText    False
overall       False
dtype: bool

Podemos eliminar la columna overall porque no aporta información para este ejercicio.

In [61]:
df.drop('overall', axis=1, inplace=True)
df.head()

Unnamed: 0,reviewText
0,"When I ordered this trap, we had a critter, mo..."
1,This trap was requested to replace an older HA...
2,I waited to write this as it is both difficult...
3,I had purchased one a while back for my electr...
4,received them in four days....just in time for...


Vamos a realizar el preprocesado del texto.

In [62]:
# Obtenemos un diccionario de lemas
lemmas_dict = {}
with open('./dataset/lemmatization-en.txt', 'r', encoding='utf-8') as f:
    for line in f:
        (key, val) = line.split()
        lemmas_dict[str(val)] = key

In [63]:
# Obtenemos una lista de stopwords
sw_list = get_stop_words('en')

In [64]:
# Tabla para eliminar signos de puntuación
table = str.maketrans('', '', string.punctuation)
# Procesamos los textos
processed_texts = []
for text in df['reviewText']:
    processed_text = []
    # Convertimos el texto a minúsuculas
    text = text.lower()
    # Eliminamos caracteres extraños
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    # Segmentamos el texto en frases
    sentences = text.split('.')
    # Para cada frase
    for sentence in sentences:
        words = sentence.split(' ')
        # Para cada palabra
        for word in words:
            # Eliminamos stopwords y signos de puntuación
            if word not in string.punctuation and word not in sw_list: 
                word = word.translate(table)
                word = lemmas_dict.get(word, word)
                # Pasamos lo números a palabras
                if word.isdigit():
                    word = num2words(word, lang='en')
                # Eliminamos palabras menores de 3 letras
                if len(word) > 3:
                    processed_text.append(word)
    processed_texts.append(processed_text)

In [65]:
len(processed_texts)

2997

In [66]:
print(processed_texts[5])

['plus', 'minus', 'clip', 'roomy', 'large', 'stem', 'soft', 'little', 'likely', 'bruise', 'otherwise', 'damage', 'stem', 'good', 'thing', 'plant', 'clip', 'however', 'softness', 'tend', 'make', 'seem', 'rather', 'flimsy', 'reserve', 'judgment', 'aspect', 'weather', 'season', 'garden', 'love', 'fact', 'lock', 'pull', 'casually', 'plant', 'buffet', 'weather', 'maraud', 'wildlife', 'though', 'confess', 'clip', 'easy', 'dislodge', 'either', 'possibly', 'need', 'good', 'deal', 'force', 'open', 'however', 'problem', 'order', 'place', 'move', 'hand', 'rather', 'foliage', 'normal', 'huge', 'problem', 'plant', 'rose', 'good', 'bite', 'girl', 'take', 'kindly', 'constrain', 'hang', 'them', 'imagine', 'much', 'wrong', 'sort', 'clip', 'right', 'little', 'skittish', 'thank', 'goodness', 'winter', 'practice', 'think', 'overall', 'like', 'clip', 'necessarily', 'know', 'like', 'much', 'well', 'really', 'issue', 'work', 'work', 'that', 'important', 'thing', 'garden', 'give', 'expensive', 'twist', 'reusa

Como podemos ver ya tenemos los textos de las 3000 reviews y sus palabras más significativas.

Vamos a preparar el texto para para introducirlo a un modelo LDA y entrenarlo.

In [67]:
dictionary = Dictionary(processed_texts)

In [68]:
type(dictionary)

gensim.corpora.dictionary.Dictionary

In [69]:
# Comprobamos el tamaño de nuestro diccionario
len(dictionary)

11159

In [70]:
# Creamos una lista numérica con el índice de la palabra y su frecuencia en el texto
corpus = [dictionary.doc2bow(doc) for doc in processed_texts]

In [71]:
print(corpus[21])

[(3, 1), (15, 1), (42, 1), (103, 1), (108, 1), (125, 1), (193, 1), (194, 1), (202, 1), (261, 1), (295, 2), (344, 1), (377, 1), (437, 1), (708, 1), (709, 1), (710, 1), (711, 1), (712, 1), (713, 1), (714, 1), (715, 1)]


Entrenamos al modelo LDA.

In [72]:
# Elegimos 3 topics porque hemos mezclado 3 tipos de reviews (bebés, jardín e intrumentos musicales)
num_topics = 3

lda_model = LdaModel(
    corpus=corpus,
    id2word=dictionary,
    num_topics=num_topics,
    iterations=5,
    passes=10,
    alpha='auto'
)

In [73]:
lda_model.show_topics()

[(0,
  '0.012*"good" + 0.011*"easy" + 0.009*"make" + 0.009*"bottle" + 0.009*"time" + 0.009*"baby" + 0.008*"great" + 0.008*"work" + 0.008*"just" + 0.007*"little"'),
 (1,
  '0.009*"like" + 0.009*"feeder" + 0.009*"good" + 0.008*"work" + 0.007*"will" + 0.006*"product" + 0.006*"little" + 0.006*"mouse" + 0.006*"just" + 0.006*"trap"'),
 (2,
  '0.016*"good" + 0.012*"like" + 0.012*"sound" + 0.011*"guitar" + 0.010*"string" + 0.010*"just" + 0.010*"great" + 0.009*"work" + 0.008*"need" + 0.008*"well"')]

In [74]:
word_dict = {};
for i in range(num_topics):
    words = lda_model.show_topic(i, topn = 20)
    word_dict['Topic #' + '{:02d}'.format(i+1)] = [i[0] for i in words]
pd.DataFrame(word_dict)

Unnamed: 0,Topic #01,Topic #02,Topic #03
0,good,like,good
1,easy,feeder,like
2,make,good,sound
3,bottle,work,guitar
4,time,will,string
5,baby,product,just
6,great,little,great
7,work,mouse,work
8,just,just,need
9,little,trap,well


In [56]:
# Perplexity
print('\nPerplexity: ', lda_model.log_perplexity(corpus))  # Medida de qué tan bueno es el modelo. Cuanto más bajo, mejor

# Coherence Score
coherence_model_lda = CoherenceModel(model=lda_model, texts=processed_texts, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)


Perplexity:  -7.669118913200004

Coherence Score:  0.32918668570312865


In [75]:
# Visualizar los topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
vis

In [77]:
pyLDAvis.save_html(vis, './topics_vis_0.html')

Si abrimos el fichero html que hemos generado y ponemos landa a 0,7 podemos observar:

En el topic 1 la palabra más importante es baby y hay otras muchas palabras que tienen que ver con bebé. Como hija, bote, cambiar, mes, pezón, pequeño, silla... Parece que el topic 1 ha detectado bastante bien la categoría bebé.

El topic 2 parece que se refiere a jardín. Tiene algunas palabras muy significativas, que son ratón, pájaro, comedero, semilla y manguera que prácticamente sólo aparecen en este topic y otras como trampa, jardín, ardilla que tambien son bastante significativas.

El topic 3, por tanto, debe referirse a los instrumentos musicales y así es. Las palabras más significativas son sonido, pedal, cuerda y guitarra. Ademas de otras como cable, grabar, micrófono, tocar. Este toopic está clarisimamente diferenciado.

Por tanto podemos estar satisfechos porque el modelo ha funcionado bastante bien y ha distinguido de una manera bastante clara nuestros tres topics.