# Trabajando con Gensim - LDA

## Preparación de documentos

In [3]:
doc1 = "Sugar is bad to consume. My sister likes to have sugar, but not my father."
doc2 = "My father spends a lot of time driving my sister around to dance practice."
doc3 = "Doctors suggest that driving may cause increased stress and blood pressure."
doc4 = "Sometimes I feel pressure to perform well at school, but my father never seems to drive my sister to do better."
doc5 = "Health experts say that Sugar is not good for your lifestyle."
# compilar documentos
doc_complete = [doc1, doc2, doc3, doc4, doc5]

## Pre-procesamiento

In [4]:
import nltk
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\luiso\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\luiso\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
from nltk.corpus import stopwords 
from nltk.stem.wordnet import WordNetLemmatizer
import string

stop = set(stopwords.words('english'))
exclude = set(string.punctuation) 
lemma = WordNetLemmatizer()


def preprocessor(doc):
    '''Función para el pre-procesamiento de texto'''
    
    # Eliminaremos palabras muy comunes en el lenguaje, que dificilmente puedan ayudarnos a identificar un campo semántico.
    # Convertiremos las palabras resultantes a minúsculas para evitar repetición de palabras
    stop_free = " ".join([i for i in doc.lower().split() if i not in stop])
    
    # Eliminamos los signos de puntuación: ya que no agrega ninguna información adicional al procesar datos de texto 
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
    
    # Reduciremos las palabras a sus lemmas, formas básicas de las palabras, sin género ni conjugación
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
    
    # Pudiéramos por ejemplo: dejar las palabras que podrían ser más signficativas: adjetivos, verbos, y sustantivos.
    # Omitir los adverbios, ya que no nos interesan las posibles modificaciones del sentido entre palabras cercanas, como negaciones o
    # amplificaciones entre otras actividades que crean conveniente para el pre-procesamiento de texto
    return normalized


doc_clean = [preprocessor(doc).split() for doc in doc_complete]  
doc_clean

# https://towardsdatascience.com/topic-modelling-in-python-with-spacy-and-gensim-dc8f7748bdbf

[['sugar', 'bad', 'consume', 'sister', 'like', 'sugar', 'father'],
 ['father',
  'spends',
  'lot',
  'time',
  'driving',
  'sister',
  'around',
  'dance',
  'practice'],
 ['doctor',
  'suggest',
  'driving',
  'may',
  'cause',
  'increased',
  'stress',
  'blood',
  'pressure'],
 ['sometimes',
  'feel',
  'pressure',
  'perform',
  'well',
  'school',
  'father',
  'never',
  'seems',
  'drive',
  'sister',
  'better'],
 ['health', 'expert', 'say', 'sugar', 'good', 'lifestyle']]

## Matriz término-documento

In [6]:
import gensim

from gensim.models.ldamodel import LdaModel

from gensim.corpora.dictionary import Dictionary

In [7]:
# Creación del diccionario de términos de nuestro courpus, donde se asigna un índice a cada término único.
common_dictionary = Dictionary(doc_clean)

# print(dictionary)
print(common_dictionary.token2id)

# Convertir la lista de documentos (corpus) en la Matriz de Términos del Documento utilizando el diccionario.
doc_term_matrix = [ common_dictionary.doc2bow(doc) for doc in doc_clean ]

doc_term_matrix

{'bad': 0, 'consume': 1, 'father': 2, 'like': 3, 'sister': 4, 'sugar': 5, 'around': 6, 'dance': 7, 'driving': 8, 'lot': 9, 'practice': 10, 'spends': 11, 'time': 12, 'blood': 13, 'cause': 14, 'doctor': 15, 'increased': 16, 'may': 17, 'pressure': 18, 'stress': 19, 'suggest': 20, 'better': 21, 'drive': 22, 'feel': 23, 'never': 24, 'perform': 25, 'school': 26, 'seems': 27, 'sometimes': 28, 'well': 29, 'expert': 30, 'good': 31, 'health': 32, 'lifestyle': 33, 'say': 34}


[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 2)],
 [(2, 1), (4, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
 [(8, 1),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 1),
  (19, 1),
  (20, 1)],
 [(2, 1),
  (4, 1),
  (18, 1),
  (21, 1),
  (22, 1),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 1),
  (29, 1)],
 [(5, 1), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1)]]

## Ejecutar modelo LDA

In [8]:
# Creación del objeto para el modelo LDA usando la librería gensim
# https://radimrehurek.com/gensim/models/ldamodel.html

# Ejecución y entrenamiento del modelo LDA en la matriz de términos del documento.
ldamodel = LdaModel(doc_term_matrix, num_topics=3, id2word=common_dictionary)

# ldamodel = LdaModel(doc_term_matrix, num_topics=3, id2word=common_dictionary, passes=50)

Parameters
<ul>
    <li><em>corpus</em> (iterable of list of (int, float), optional) – Stream of document vectors or sparse matrix of shape (num_documents, num_terms). If you have a CSC in-memory matrix, you can convert it to a streamed corpus with the help of gensim.matutils.Sparse2Corpus. If not given, the model is left untrained (presumably because you want to call update() manually).</li>
    <li><em>num_topics</em> (int, optional) – The number of requested latent topics to be extracted from the training corpus.</li>
    <li><em>id2word</em> <code>({dict of (int, str), gensim.corpora.dictionary.Dictionary})</code> – Mapping from word IDs to words. It is used to determine the vocabulary size, as well as for debugging and topic printing.</li>
    <li><em>passes</em> (int, optional) – Number of passes through the corpus during training.</li>
</ul>

In [9]:
topic = ldamodel.print_topic(1) # Retorna un str
# topic = ldamodel.print_topic(num_topics=1, num_words=4) # Retorna un str
print(topic)
print('---next----')

def lda_topics(ldamodel, num_topics=3, num_words=4):
    '''Función dado un modelo LDA retornar una lista de n topicos con m palabras'''
    topics = ldamodel.print_topics(num_topics=num_topics, num_words=num_words)
    return topics

topics = lda_topics(ldamodel)
print(topics)
print('---next----')

from pprint import pprint
pprint(topics)

0.078*"driving" + 0.045*"sister" + 0.045*"father" + 0.045*"doctor" + 0.045*"may" + 0.045*"lot" + 0.044*"spends" + 0.044*"around" + 0.044*"dance" + 0.044*"time"
---next----
[(0, '0.122*"sugar" + 0.070*"sister" + 0.070*"father" + 0.070*"like"'), (1, '0.078*"driving" + 0.045*"sister" + 0.045*"father" + 0.045*"doctor"'), (2, '0.046*"father" + 0.045*"sister" + 0.045*"pressure" + 0.045*"sugar"')]
---next----
[(0, '0.122*"sugar" + 0.070*"sister" + 0.070*"father" + 0.070*"like"'),
 (1, '0.078*"driving" + 0.045*"sister" + 0.045*"father" + 0.045*"doctor"'),
 (2, '0.046*"father" + 0.045*"sister" + 0.045*"pressure" + 0.045*"sugar"')]


In [10]:
topic = ldamodel.show_topic(1) # Retorna list
topic

[('expert', 0.06414461),
 ('health', 0.0631065),
 ('lifestyle', 0.06251913),
 ('good', 0.06218331),
 ('sugar', 0.05905351),
 ('say', 0.05716777),
 ('father', 0.022742795),
 ('sister', 0.022510776),
 ('driving', 0.022390664),
 ('pressure', 0.022231437)]

In [12]:
ldamodel.show_topic(0)

[('father', 0.08018711),
 ('sugar', 0.07956636),
 ('sister', 0.0783436),
 ('driving', 0.039147373),
 ('practice', 0.038775977),
 ('bad', 0.038768664),
 ('spends', 0.03863139),
 ('like', 0.038604468),
 ('dance', 0.038601484),
 ('time', 0.03854037)]

In [11]:
topics = ldamodel.show_topics(num_topics=3, num_words=4) # Retorna list to tuple
topics

[(0, '0.080*"father" + 0.080*"sugar" + 0.078*"sister" + 0.039*"driving"'),
 (1, '0.064*"expert" + 0.063*"health" + 0.063*"lifestyle" + 0.062*"good"'),
 (2, '0.069*"pressure" + 0.047*"doctor" + 0.047*"suggest" + 0.047*"cause"')]

## Analizar los resultados del modelo LDA

Visualicemos los temas para la interpretación, usaremos el paquete de visualización popular, <b>pyLDAvis</b>. PyLDAvis ofrece la mejor visualización para ver la distribución de palabras clave y temas, para lo cual provee de una forma simple e interactiva analizar los resultados obtenidos.

Esta visualización permite enriquecer lo desarrollado, teniéndose en cuenta las siguientes observaciones:
<ul>
    <li>El gráfico representa nuestros N temas en forma de círculos (burbujas). Han sido dibujados usando la técnica de reducción de dimensionalidad (PCA). El objetivo es tener una distancia para evitar superposiciones y hacer que cada círculo sea único. Cuanto más grande la burbuja, más predominante es ese tópico.</li>
    <li>Cuando paso el cursor sobre un círculo, se muestran diferentes palabras a la derecha, mostrando la frecuencia de palabras (azul) y la frecuencia estimada de términos dentro del tema seleccionado (rojo).</li>
    <li>Los temas más cercanos entre sí están más relacionados.</li>
    <li>Un buen modelo de tópicos es aquel que tiene burbujas bastante grandes y que no se solapan, dispersas en todo el gráfico en lugar de estar todas juntas y clusterizadas en un único cuadrante. Un modelo con muchos tópicos seguramente tendrá burbujas pequeñas, ubicadas en una misma región del gráfico y con muchos casos de solapamiento.</li>
</ul>

In [13]:
# conda install -c conda-forge pyldavis
# Documentación: https://pyldavis.readthedocs.io/en/latest/modules/API.html

import pyLDAvis 
import pyLDAvis.gensim_models as gensimvis
import pickle 

# Visualize the topics
pyLDAvis.enable_notebook()

LDAvis_prepared = gensimvis.prepare(ldamodel, doc_term_matrix, common_dictionary)

pyLDAvis.save_html(LDAvis_prepared, 'ldavis_prepared_{}.html'.format(3))

LDAvis_prepared

# Caso de estudio de corpus de Wikipedia

In [10]:
# Funciones ya cargadas anteriormente
print(preprocessor.__doc__)
print(lda_topics.__doc__)

Función para el pre-procesamiento de texto
Función dado un modelo LDA retornar una lista de n topicos con m palabras


In [11]:
# conda install -c conda-forge wikipedia
import wikipedia

class TextFetcher:
    '''Clase para descargar el resumen'''
    def __init__(self, title):
        self.title = title
        page = wikipedia.page(title)
        self.text = page.summary

    def getText(self):
        return self.text


In [12]:
# Obtendremos la sección de resumen de 6 páginas de Wikipedia (3 sobre ciudades, 3 sobre temas)
pages = ['London', 'Natural Language Processing', 'Paris', 'Topic model', 'Berlin', 'Text mining']
docs = []

for p in pages:
    textFetcher = TextFetcher(p)
    text = preprocessor(textFetcher.getText())
    docs.append(text)
    

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

# Usar CountVectorizer para encontrar tokens de:
vect = CountVectorizer(
    stop_words='english', # eliminar palabras cerradas
    lowercase=True, # convertir los tokens a minúsculas
    # min_df=2, # eliminar tokens que aparecen en al menos 2 documentos
    # max_df=round(len(docs)*0.25), # eliminar tokens que no aparecen en más del 25% de los documentos
    # token_pattern=r'\b[a-zAZ]{3,}\b' #  más de tres letras, ej: de 3 letras '(?u)\\b\\w\\w\\w+\\b'
)
# Ajustamos y transformamos
X = vect.fit_transform(docs)

# Convertir la matriz en formato scipy.sparse en un corpus gensim
corpus = gensim.matutils.Sparse2Corpus(X, documents_columns=False)

# Asignación de ID de palabra a palabras (para usar en el parámetro id2word de LdaModel)
# Se utiliza para determinar el tamaño del vocabulario, así como para depurar e imprimir temas
id2word = dict((v, k) for k, v in vect.vocabulary_.items())

## Modelo LDA

In [22]:
# Usamos el constructor gensim.models.ldamodel.LdaModel para estimar
# los parámetros del modelo LDA en el corpus, y guardar en la variable `ldamodel`

ldamodel = LdaModel(corpus, num_topics=2, id2word=id2word, passes=50)

topics = lda_topics(ldamodel, 2, 10)
pprint(topics)

[(0,
  '0.021*"london" + 0.017*"topic" + 0.015*"document" + 0.012*"city" + '
  '0.011*"language" + 0.010*"natural" + 0.009*"model" + 0.009*"europe" + '
  '0.006*"word" + 0.006*"computer"'),
 (1,
  '0.023*"berlin" + 0.015*"paris" + 0.012*"city" + 0.011*"text" + '
  '0.009*"world" + 0.008*"museum" + 0.007*"information" + 0.007*"mining" + '
  '0.006*"capital" + 0.006*"germany"')]


In [23]:
# Visualize the topics

word2id = dict((k, v) for k, v in vect.vocabulary_.items())
d = Dictionary()
d.id2token = id2word
d.token2id = word2id

pyLDAvis.enable_notebook()
LDAvis_prepared = gensimvis.prepare(ldamodel, corpus, d )
LDAvis_prepared

## Mejor modelado de tópicos

En la figura se muestra, como propuesta, los pasos a seguir para obtener el modelado de tópicos óptimo, a partir de construir diversos modelos LDA con todas las posibles combinaciones de parámetros. Los parámetros que se tienen en cuenta son:
<ul>
    <li>un conjunto de número de tópicos, y</li>
    <li>el radio de velocidad de aprendizaje (learning_decay )</li>
</ul>
<br>
Para la selección del modelo óptimo se tiene en cuenta los valores de Log-likelihood (verosimilitud o, simplemente, verosimilitud o probabilidad logarítmica)

![imagen.png](attachment:imagen.png)

<ol>
  <li>Indague en el significado de los términos: velocidad de aprendizaje y Log-likelihood.</li>
  <li>Ponga en práctica la implementación de dicha propuesta a partir de algún ejemplo cualesquiera de conjunto de textos.</li>
    <b>Sugerencia:</b> Realizar varios casos de pruebas en el cual se modifiquen, eliminen o incorporen parámetros del preprocesamiento de los documentos para tratar de obtener un mejor modelado.
  <li>Describa el significado que tiene la Visualización del Modelo Óptimo (el cual es representado a través del paquete pyLDAvis) con respecto a las burbujas representadas, la dispersión de ellas y su tamaño en el gráfico.</li>
</ol>


In [45]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

import numpy as np
import pandas as pd

from pprint import pprint
from sklearn.model_selection import GridSearchCV

# Plotting tools
import pyLDAvis
import pyLDAvis.sklearn

def best_model(docs):
    # Usar CountVectorizer para encontrar tokens de
    vectorizer = CountVectorizer(
        strip_accents = 'unicode',
        stop_words = 'english', # eliminar palabras cerradas
        lowercase = True, # convertir los tokens a minúsculas
        token_pattern = r'\b[a-zA-Z]{3,}\b', # más de tres letras
        max_df = 0.5, # eliminar tokens que no aparecen en más del 50% de los documentos
        min_df = round(len(docs)*0.25) # eliminar tokens que aparecen en al menos del 25% del total de documentos
    )
    
    data_vectorized = vectorizer.fit_transform(docs)   

    # Materialize the sparse data
    data_dense = data_vectorized.todense()
    #Compute Sparsicity = Percentage of Non-Zero cells
    print("Sparsicity: ", ((data_dense > 0).sum()/data_dense.size)*100,"%")

    n_topics = [2, 3, 4, 5, 7, 10, 13, 15, 20]
    # Define Search Param
    search_params = {'n_components': n_topics, 'learning_decay': [.5, .7, .9]}
    
    # Init the Model
    # Latent Dirichlet Allocation with online variational Bayes algorithm 
    lda = LatentDirichletAllocation()
    
    # Init Grid Search Class
    model = GridSearchCV(lda, param_grid=search_params)
    
    # Do the Grid Search
    model.fit(data_vectorized)
    
    # Best Model
    best_lda_model = model.best_estimator_
    
    # Model Parameters
    print("Best Model's Params: ", model.best_params_)
    # Log Likelihood Score
    print("Best Log Likelihood Score: ", model.best_score_)
    # Perplexity
    print("Model Perplexity: ", best_lda_model.perplexity(data_vectorized))
        
    n_words=15
    tf_feature_names = vectorizer.get_feature_names()
    print_top_words(best_lda_model, tf_feature_names, n_words)
    
    topic_keywords = show_topics(vectorizer, best_lda_model, n_words)        

    # Topic - Keywords Dataframe
    df_topic_keywords = pd.DataFrame(topic_keywords)
    df_topic_keywords.columns = ['Word '+str(i) for i in range(df_topic_keywords.shape[1])]
    df_topic_keywords.index = ['Topic '+str(i) for i in range(df_topic_keywords.shape[0])]
    df_topic_keywords
    
    # How to visualize the LDA model with pyLDAvis?
    pyLDAvis.enable_notebook()
    # pyLDAvis now also supports LDA application from scikit-learn.
    panel = pyLDAvis.sklearn.prepare(best_lda_model, data_vectorized, vectorizer, mds='tsne')
    # uncomment next line if you want to make an html file with the visualization
    pyLDAvis.save_html(panel, 'best_model.html')
    return panel
    
# Show top n keywords for each topic
def show_topics(vectorizer, lda_model, n_words):
    keywords = np.array(vectorizer.get_feature_names())
    topic_keywords = []
    for topic_weights in lda_model.components_:
        top_keyword_locs = (-topic_weights).argsort()[:n_words]
        topic_keywords.append(keywords.take(top_keyword_locs))
    return topic_keywords

def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        message = "Topic #%d: " % topic_idx
        message += " ".join([feature_names[i]
                             for i in topic.argsort()[:-n_top_words - 1:-1]])
        print(message)
    print()

In [46]:
best_model(docs)

Sparsicity:  37.46666666666666 %




Best Model's Params:  {'learning_decay': 0.9, 'n_components': 2}
Best Log Likelihood Score:  -928.6617932545511
Model Perplexity:  91.09553325282796
Topic #0: text document information model data word computer process processing written different structure collection set discovery
Topic #1: city paris world museum europe capital million population area art university centre populous region popular

