In [2]:
# Importamos las dependencias necesarias
import pandas as pd
from pprint import pprint

# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

# spacy for lemmatization
import spacy

# NLTK
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords

# Plotting tools
import pyLDAvis
import pyLDAvis.gensim  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline

# Enable logging for gensim - optional
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.ERROR)

import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)

In [3]:
# Lectura del csv
stop_words_en = stopwords.words('english')
stop_words_en.extend(["€", ",", ".", ";", ":", "%", "'", "=", "[", "]", "/", "<", ".-", "e.g", "i.e", "~", "--", "without", "#"])
stop_words_en.extend(["``", "(", ")", "this", "the", "that", "?", "!", "≤", "™", ">", "≥/", "≥", "-", "$" , "’", "-", "  ", "&"])
stop_words_en.extend(["would", "...", "us", 'i\'m', "gonna", "wanna", "imma"])

df = pd.read_csv('The_Reserve_PPR.csv')
df.head(2)
#print(df['Review Text'].isnull().sum()) # comprobar que no hay filas vacías de la columna. En este caso es 9
df.dropna(subset=['Review Text'], axis=0, inplace=True)

# Tokenizamos y eliminamos las stop words
df["Review Text"] = df["Review Text"].astype("str") # Convertimos la columna en una string/object
# df["Review Text"].dtypes # dtype('O')

In [4]:
# Lematiza las columnas del un texto
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
    """https://spacy.io/api/annotation"""
    texts_out = []
    for sent in texts:
        doc = nlp(" ".join(sent))
        texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
    return texts_out

def tokenizar(texto_raw):
    tokens = nltk.tokenize.word_tokenize(texto_raw)
    return tokens

wnl = nltk.stem.WordNetLemmatizer()
def lemmatize(s):
    s = [wnl.lemmatize(word) for word in s]
    return s

# Tokeniza las filas con el texto
df["Review Text"] = df.apply(lambda row: tokenizar(row["Review Text"].lower()), axis=1)

## Elimina stopwords y tokeniza en una nueva columna
df["Review Text"] = df["Review Text"].apply(lambda x: ' '.join([word for word in x if word not in (stop_words_en)]))

# Tokeniza las filas con el texto y las guarda en una nueva columna
df["Review Text"] = df.apply(lambda row: tokenizar(row["Review Text"]), axis=1)
print(df["Review Text"])

#df["Review Text"]
df["lemma"] = df["Review Text"].apply(lambda x: lemmatize(x))

0       [elegant, high, class, minute, walk, sure, fee...
1       [awesome, time, resort, well, maintained, staf...
2       [thanks, much, jesus, avalino, willy, pena, re...
3       [mosquitoes, like, please, please, spray, ever...
4       [concierge, zenovia, pleasure, work, kept, inf...
                              ...                        
1088    [start, finish, relaxing, vacation, food, good...
1089    [hotel, amazing, exceeded, expectations, upgra...
1090    [great, experience, staff, friendly, alejandro...
1091    [stayed, reserve, concierge, area, reserved, h...
1092    [wonderful, family, vacation, kids, club, staf...
Name: Review Text, Length: 1092, dtype: object


In [6]:
## Sacar TOPIC MODELING
# Inicializa el modelo "en", solo con el tagger, deshabilitando el parser y el ner (eficiencia)
nlp = spacy.load('en_core_web_md', disable=['parser', 'ner'])

# Lematización con solo sustantivos, adjetivos y adverbios.
# Nos servirá posteriormente como el corpus para el topic modeling
data_lemmatized = lemmatization(df['lemma'], allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV'])
#print(data_lemmatized)






In [7]:
# Crea el Dictionario y el Corpus necesario para el Topic Modeling

# Crea el Dictionario con los tokens lematizados de las llamadas buenas
id2word = corpora.Dictionary(data_lemmatized)

# Crea el Corpus
texts = data_lemmatized

# Term Frequency en el documento
corpus = [id2word.doc2bow(text) for text in texts]

# Contruimos el modelo LDA
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=15, # Establece el número de topics por texto
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10, # alpha and eta are hiperparámetros que afectan a la escasez de topics.                                           alpha='auto',
                                           per_word_topics=True)

# Imprime 10 keywords de los topics que se impriman en pantalla
#pprint(lda_model.print_topics())
#doc_lda = lda_model[corpus]

# Calcular el modelo de perplejidad y puntuación de coherencia
# Esto nos ayudará a calcular lo bueno o malo que es un modelo de topics

In [8]:
# Calcular el modelo de perplejidad y puntuación de coherencia
# Esto nos ayudará a calcular lo bueno o malo que es un modelo de topics

# Modelo de Perplejidad
# Distribución de probabilidad sobre un conjunto de textos
#print('\nPerplexity: ', lda_model.log_perplexity(corpus))  # a measure of how good the model is. lower the better.
# -7.103914580268614

# Puntuación de Coherencia
coherence_model_lda = CoherenceModel(model=lda_model, texts=data_lemmatized, dictionary=id2word, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
#print('\nCoherence Score: ', coherence_lda)
# Con 5 topics por texto, la coherencia es de 0.46522933417849427

In [9]:
# Imprime 10 keywords de 2 topics
pprint(lda_model.print_topics())
doc_lda = lda_model[corpus]


# Interpretación del modelo:

#  Topic 0 se representa como '0.003*"día" + 0.003*"valer" + 0.003*"préstamo" + 0.003*"fecho" + ...
# Significa que los 10 keywords que contribuyen a ese topic son "día", "valer", "préstamo", "contar", "fecho", "tarjeta"...
# y qe el peso de "día" es de 0.003. 
# Los pesos reflejan lo importante que es esa keyword para ese topic.

[(0,
  '0.043*"general" + 0.036*"hospitality" + 0.036*"seafood" + 0.028*"recently" '
  '+ 0.026*"normally" + 0.024*"select" + 0.022*"feature" + 0.021*"cleanliness" '
  '+ 0.021*"casino" + 0.021*"bug"'),
 (1,
  '0.088*"memorable" + 0.053*"anniversary" + 0.047*"celebrate" + '
  '0.045*"single" + 0.020*"flight" + 0.017*"arrangement" + 0.017*"flower" + '
  '0.017*"beat" + 0.014*"opportunity" + 0.013*"rude"'),
 (2,
  '0.102*"mean" + 0.057*"nightly" + 0.010*"up" + 0.005*"exact" + 0.001*"frig" '
  '+ 0.000*"destination" + 0.000*"efficient" + 0.000*"girlfriend" + '
  '0.000*"somewhat" + 0.000*"suit"'),
 (3,
  '0.031*"amaze" + 0.000*"exceed" + 0.000*"overwhelmed" + 0.000*"dip" + '
  '0.000*"recommendation" + 0.000*"match" + 0.000*"housekeeper" + '
  '0.000*"tremendous" + 0.000*"lie" + 0.000*"assortment"'),
 (4,
  '0.040*"make" + 0.022*"family" + 0.021*"great" + 0.019*"time" + 0.018*"stay" '
  '+ 0.016*"always" + 0.016*"go" + 0.016*"resort" + 0.015*"thank" + '
  '0.015*"vacation"'),
 (5,
  '0.03

In [10]:
# Vamos a visualizar los topic-keywords
# Una vez construido el modelo LDA, vamos a examinar los topics y sus respectivas keywords. 
# Para ello vamos a usar la librería pyLDAvis

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, id2word)
vis

# Cada burbuja representa un topic. Cuanto más grande la burbuja, más importante.
# Un buen modelo de topics tendrá burbujas grandes que no se solaparán entre ellas.
# Por el contrario, uno malo tendrá muchas burbujitas solapadas en una región del chart. 
# Si pasas el cursor por encima de una burbuja (el topic), verás que el chart se refresca. 
# Las palabras de la derecha son las keywords.

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))
