# PRACTICA GUIADA: Topic Modeling con Latent Dirichlet Allocation (LDA)

Latent Dirichlet Allocation (LDA) es un modelo estadístico generativo que permite que conjuntos de observaciones sean explicados por grupos no observados que explican por qué algunas partes de los datos son similares. 

Por ejemplo, si las observaciones son palabras recopiladas en documentos, postula que cada documento es una mezcla de un pequeño número de temas y que la presencia de cada palabra es atribuible a uno de los temas del documento.

In [1]:
#!pip intall gensim
#!pip install pyLDAvis # Permite visualizar los tópicos

import nltk
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mbeati\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import string

import unicodedata
from nltk.corpus import stopwords
stop = stopwords.words('spanish')
exclude = string.punctuation

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Para visualizar
import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

In [3]:
p12 = pd.read_csv('../Data/pagina12.csv', encoding='utf-8')
p12.head()

Unnamed: 0.1,Unnamed: 0,cuerpo,fecha_hora,imagen,resumen,suplemento,titulo,url
0,0,Cines\nANNABELLE 2 2D\nCon Alicia Vela Bailey ...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/width960...,,,Cartelera,https://www.pagina12.com.ar/67696-cartelera
1,1,Los comicios para elegir gobernador en Corrien...,08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Pasadas las 21 comenzaron a cargarse los prime...,El país,Ventaja para Cambiemos en un lento escrutinio,https://www.pagina12.com.ar/67853-ventaja-para...
2,2,Cientos de miles de personas llenaron este dom...,08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,"El escritor peruano Mario Varga Llosa, ícono d...",El mundo,Con Vargas Llosa a la cabeza,https://www.pagina12.com.ar/67876-con-vargas-l...
3,3,Entre las 15 y las 22 en el Konex (Sarmiento 3...,08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Los familiares de las víctimas de la tragedia ...,Sociedad,Por los chicos del Ecos,https://www.pagina12.com.ar/67872-por-los-chic...
4,4,La primera vez que escuché hablar sobre el Che...,08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,,,Ese nombre,https://www.pagina12.com.ar/67873-ese-nombre


In [4]:
len(p12)

221

In [5]:
p12['suplemento'].unique()

array([nan, 'El país', 'El mundo', 'Sociedad', 'Deportes', 'Contratapa',
       'Economía', 'Cultura', 'Universidad', 'Plástica'], dtype=object)

In [6]:
# Nos concentramos en la sección 'El país', conservando titulo y cuerpo de la noticia
pais = p12.loc[p12['suplemento'] == 'El país', ['titulo', 'cuerpo']]

# Concatenamos y volcamos el resulado en la columna 'noticia'
pais['noticia'] = (pais['titulo'] + ' ' + pais['cuerpo'])

# Normalizamos el texto
pais['noticia'] = pais['noticia'].apply(lambda x: unicodedata.normalize("NFKD", x.lower()))
pais.head()

Unnamed: 0,titulo,cuerpo,noticia
1,Ventaja para Cambiemos en un lento escrutinio,Los comicios para elegir gobernador en Corrien...,ventaja para cambiemos en un lento escrutinio ...
5,“Están a un pasito de volver a hablar de campa...,"En un nuevo acto de campaña, esta vez en Malv...",“están a un pasito de volver a hablar de camp...
6,"""Síganlo buscando""",“Síganlo buscando” fue la cínica respuesta de ...,"""síganlo buscando"" “síganlo buscando” fue la..."
7,"""Buen día drogadictos""",Esta mañana el gobernador correntino Ricardo C...,"""buen día drogadictos"" esta mañana el gobern..."
9,"""La historia los va a condenar”",El viernes por la noche Milagro Sala fue notif...,"""la historia los va a condenar” el viernes por..."


# Primera corrida - unigramas

In [7]:
# Definimos una función para limpiar los textos de stopwords y signos de puntuación

def clean(doc):
    stop_free = " ".join([i for i in doc.lower().split() if i not in stop])
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
    return punc_free

In [8]:
# Chequeamos un resultado a modo de ejemplo
pais.noticia[1]

'ventaja para cambiemos en un lento escrutinio los comicios para elegir gobernador en corrientes cerraron pasadas las 18, con algunos inconvenientes para la apertura de mesas y demoras por el mal clima en la provincia, pero sin denuncias de irregularidades. a partir de las 21 comenzaron a conocerse los primeros resultados de un escrutinio provisorio que promete ser bastante lento.\ncon 283 mesas contabilizadas de las 2407 que se abrieron, el candidato de eco + cambiemos, gustavo valdés, obtiene el 52,72 por ciento de los votos. en segundo lugar aparece el postulante del frente corrientes podemos más, carlos "camau" espínola, que se queda con el 46,15 por ciento.\nen la alianza oficialista se adelantaron a celebrar el resultado desde su cuenta de twitter. \n\nloading tweet ... \n\n\nel gran respaldo del gobierno nacional a canteros se volvió a hacer visible hoy: se encuentran en la capital correntina el ministro de agroindustria, ricardo buryaile, y el gobernador de jujuy, gerardo m

In [9]:
clean(pais.noticia[1])

'ventaja cambiemos lento escrutinio comicios elegir gobernador corrientes cerraron pasadas 18 inconvenientes apertura mesas demoras mal clima provincia denuncias irregularidades partir 21 comenzaron conocerse primeros resultados escrutinio provisorio promete ser bastante lento 283 mesas contabilizadas 2407 abrieron candidato eco  cambiemos gustavo valdés obtiene 5272 ciento votos segundo lugar aparece postulante frente corrientes podemos más carlos camau espínola queda 4615 ciento alianza oficialista adelantaron celebrar resultado cuenta twitter loading tweet  gran respaldo gobierno nacional canteros volvió hacer visible hoy encuentran capital correntina ministro agroindustria ricardo buryaile gobernador jujuy gerardo morales espera llegada jefe gabinete marcos peña ministro interior rogelio frigerio'

In [10]:
# Aplicamos la función a cada documento del corpus
nota_clean = [clean(nota).split() for nota in pais['noticia']]
nota_clean

[['ventaja',
  'cambiemos',
  'lento',
  'escrutinio',
  'comicios',
  'elegir',
  'gobernador',
  'corrientes',
  'cerraron',
  'pasadas',
  '18',
  'inconvenientes',
  'apertura',
  'mesas',
  'demoras',
  'mal',
  'clima',
  'provincia',
  'denuncias',
  'irregularidades',
  'partir',
  '21',
  'comenzaron',
  'conocerse',
  'primeros',
  'resultados',
  'escrutinio',
  'provisorio',
  'promete',
  'ser',
  'bastante',
  'lento',
  '283',
  'mesas',
  'contabilizadas',
  '2407',
  'abrieron',
  'candidato',
  'eco',
  'cambiemos',
  'gustavo',
  'valdés',
  'obtiene',
  '5272',
  'ciento',
  'votos',
  'segundo',
  'lugar',
  'aparece',
  'postulante',
  'frente',
  'corrientes',
  'podemos',
  'más',
  'carlos',
  'camau',
  'espínola',
  'queda',
  '4615',
  'ciento',
  'alianza',
  'oficialista',
  'adelantaron',
  'celebrar',
  'resultado',
  'cuenta',
  'twitter',
  'loading',
  'tweet',
  'gran',
  'respaldo',
  'gobierno',
  'nacional',
  'canteros',
  'volvió',
  'hacer'

Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. 

Target audience is the natural language processing (NLP) and information retrieval (IR) community.

https://pypi.org/project/gensim/

In [11]:
import gensim
from gensim import corpora, models
from gensim.utils import simple_preprocess

In [12]:
# Construimos nuestro diccionario
dictionary = corpora.Dictionary(nota_clean) 

In [13]:
print(dictionary)

Dictionary(6981 unique tokens: ['18', '21', '2407', '283', '4615']...)


In [14]:
#Convert document into the bag-of-words (BoW) format = list of (token_id, token_count) tuples.
corpus = [dictionary.doc2bow(nota) for nota in nota_clean]

In [15]:
[[(dictionary[id], freq) for id, freq in cp] for cp in corpus[:1]]

[[('18', 1),
  ('21', 1),
  ('2407', 1),
  ('283', 1),
  ('4615', 1),
  ('5272', 1),
  ('abrieron', 1),
  ('adelantaron', 1),
  ('agroindustria', 1),
  ('alianza', 1),
  ('aparece', 1),
  ('apertura', 1),
  ('bastante', 1),
  ('buryaile', 1),
  ('camau', 1),
  ('cambiemos', 2),
  ('candidato', 1),
  ('canteros', 1),
  ('capital', 1),
  ('carlos', 1),
  ('celebrar', 1),
  ('cerraron', 1),
  ('ciento', 2),
  ('clima', 1),
  ('comenzaron', 1),
  ('comicios', 1),
  ('conocerse', 1),
  ('contabilizadas', 1),
  ('correntina', 1),
  ('corrientes', 2),
  ('cuenta', 1),
  ('demoras', 1),
  ('denuncias', 1),
  ('eco', 1),
  ('elegir', 1),
  ('encuentran', 1),
  ('escrutinio', 2),
  ('espera', 1),
  ('espínola', 1),
  ('frente', 1),
  ('frigerio', 1),
  ('gabinete', 1),
  ('gerardo', 1),
  ('gobernador', 2),
  ('gobierno', 1),
  ('gran', 1),
  ('gustavo', 1),
  ('hacer', 1),
  ('hoy', 1),
  ('inconvenientes', 1),
  ('interior', 1),
  ('irregularidades', 1),
  ('jefe', 1),
  ('jujuy', 1),
  ('len

In [16]:
# https://radimrehurek.com/gensim/models/ldamodel.html

lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                            id2word=dictionary,
                                            num_topics=5, 
                                            random_state=100,
                                            update_every=1,
                                            chunksize=100,
                                            passes=10,
                                            alpha='auto',
                                            per_word_topics=True)

Python library for interactive topic model visualization

https://pyldavis.readthedocs.io/en/latest/
    

In [17]:
# Visualizamos los tópicos

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
vis

In [18]:
lda_model.print_topics(-1)

[(0,
  '0.006*"santiago" + 0.005*"hospitales" + 0.004*"sergio" + 0.004*"sala" + 0.004*"también" + 0.003*"juez" + 0.003*"maldonado" + 0.003*"desaparición" + 0.003*"más" + 0.003*"cidh"'),
 (1,
  '0.007*"salud" + 0.004*"peronismo" + 0.004*"más" + 0.004*"gobierno" + 0.004*"corrientes" + 0.003*"nacional" + 0.003*"ser" + 0.003*"gobernador" + 0.003*"hospitales" + 0.003*"hoy"'),
 (2,
  '0.010*"ex" + 0.007*"gobierno" + 0.005*"también" + 0.004*"memorándum" + 0.004*"bonadio" + 0.004*"irán" + 0.004*"juez" + 0.004*"cristina" + 0.004*"argentina" + 0.003*"macri"'),
 (3,
  '0.005*"gobierno" + 0.005*"más" + 0.005*"trabajo" + 0.005*"está" + 0.004*"años" + 0.004*"che" + 0.004*"derechos" + 0.004*"reforma" + 0.004*"también" + 0.003*"si"'),
 (4,
  '0.006*"más" + 0.005*"gobierno" + 0.004*"presidente" + 0.004*"macri" + 0.003*"años" + 0.003*"santiago" + 0.003*"había" + 0.003*"está" + 0.003*"también" + 0.003*"che"')]

In [19]:
stop.append('che')
stop.append('más')
stop.append('ex')
stop.append('tambien')
stop.append('mas')

# Segunda corrida - trigramas con min_count = 5 y threshold = 100

In [20]:
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))  # deacc=True removes punctuations

data_words = list(sent_to_words(nota_clean))

print(data_words[:1])

[['ventaja', 'cambiemos', 'lento', 'escrutinio', 'comicios', 'elegir', 'gobernador', 'corrientes', 'cerraron', 'pasadas', 'inconvenientes', 'apertura', 'mesas', 'demoras', 'mal', 'clima', 'provincia', 'denuncias', 'irregularidades', 'partir', 'comenzaron', 'conocerse', 'primeros', 'resultados', 'escrutinio', 'provisorio', 'promete', 'ser', 'bastante', 'lento', 'mesas', 'contabilizadas', 'abrieron', 'candidato', 'eco', 'cambiemos', 'gustavo', 'valdes', 'obtiene', 'ciento', 'votos', 'segundo', 'lugar', 'aparece', 'postulante', 'frente', 'corrientes', 'podemos', 'mas', 'carlos', 'camau', 'espinola', 'queda', 'ciento', 'alianza', 'oficialista', 'adelantaron', 'celebrar', 'resultado', 'cuenta', 'twitter', 'loading', 'tweet', 'gran', 'respaldo', 'gobierno', 'nacional', 'canteros', 'volvio', 'hacer', 'visible', 'hoy', 'encuentran', 'capital', 'correntina', 'ministro', 'agroindustria', 'ricardo', 'buryaile', 'gobernador', 'jujuy', 'gerardo', 'morales', 'espera', 'llegada', 'jefe', 'gabinete', 

In [21]:
# Construimos los modelos de bigramas y trigramas
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100) # A mayor umbral, menor cantidad de frases formadas
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)  

bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)

# Vemos un ejemplo
print(trigram_mod[bigram_mod[data_words[0]]])

['ventaja', 'cambiemos', 'lento', 'escrutinio', 'comicios', 'elegir', 'gobernador', 'corrientes', 'cerraron', 'pasadas', 'inconvenientes', 'apertura', 'mesas', 'demoras', 'mal', 'clima', 'provincia', 'denuncias', 'irregularidades', 'partir', 'comenzaron', 'conocerse', 'primeros', 'resultados', 'escrutinio_provisorio', 'promete', 'ser', 'bastante', 'lento', 'mesas', 'contabilizadas', 'abrieron', 'candidato', 'eco', 'cambiemos', 'gustavo', 'valdes', 'obtiene', 'ciento', 'votos', 'segundo', 'lugar', 'aparece', 'postulante', 'frente', 'corrientes_podemos', 'mas', 'carlos', 'camau_espinola', 'queda', 'ciento', 'alianza', 'oficialista', 'adelantaron', 'celebrar', 'resultado', 'cuenta', 'twitter', 'loading', 'tweet', 'gran', 'respaldo', 'gobierno', 'nacional', 'canteros', 'volvio', 'hacer', 'visible', 'hoy', 'encuentran', 'capital', 'correntina', 'ministro', 'agroindustria', 'ricardo', 'buryaile', 'gobernador', 'jujuy', 'gerardo', 'morales', 'espera', 'llegada', 'jefe_gabinete', 'marcos_pena'

In [22]:
# Definimos funciones para stop words, bigramas y trigramas

def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc), deacc=True) if word not in stop] for doc in texts]

def make_bigrams(texts):
    return [bigram_mod[doc] for doc in texts]

def make_trigrams(texts):
    return [trigram_mod[bigram_mod[doc]] for doc in texts]

In [23]:
# Removemos Stop Words
data_words_nostops = remove_stopwords(data_words)

# Formamos los trigramas
data_words_trigrams = make_trigrams(data_words_nostops)

In [24]:
print(data_words_trigrams[0])

['ventaja', 'cambiemos', 'lento', 'escrutinio', 'comicios', 'elegir', 'gobernador', 'corrientes', 'cerraron', 'pasadas', 'inconvenientes', 'apertura', 'mesas', 'demoras', 'mal', 'clima', 'provincia', 'denuncias', 'irregularidades', 'partir', 'comenzaron', 'conocerse', 'primeros', 'resultados', 'escrutinio_provisorio', 'promete', 'ser', 'bastante', 'lento', 'mesas', 'contabilizadas', 'abrieron', 'candidato', 'eco', 'cambiemos', 'gustavo', 'valdes', 'obtiene', 'ciento', 'votos', 'segundo', 'lugar', 'aparece', 'postulante', 'frente', 'corrientes_podemos', 'carlos', 'camau_espinola', 'queda', 'ciento', 'alianza', 'oficialista', 'adelantaron', 'celebrar', 'resultado', 'cuenta', 'twitter', 'loading', 'tweet', 'gran', 'respaldo', 'gobierno', 'nacional', 'canteros', 'volvio', 'hacer', 'visible', 'hoy', 'encuentran', 'capital', 'correntina', 'ministro', 'agroindustria', 'ricardo', 'buryaile', 'gobernador', 'jujuy', 'gerardo', 'morales', 'espera', 'llegada', 'jefe_gabinete', 'marcos_pena', 'mini

In [25]:
data_words_trigrams

[['ventaja',
  'cambiemos',
  'lento',
  'escrutinio',
  'comicios',
  'elegir',
  'gobernador',
  'corrientes',
  'cerraron',
  'pasadas',
  'inconvenientes',
  'apertura',
  'mesas',
  'demoras',
  'mal',
  'clima',
  'provincia',
  'denuncias',
  'irregularidades',
  'partir',
  'comenzaron',
  'conocerse',
  'primeros',
  'resultados',
  'escrutinio_provisorio',
  'promete',
  'ser',
  'bastante',
  'lento',
  'mesas',
  'contabilizadas',
  'abrieron',
  'candidato',
  'eco',
  'cambiemos',
  'gustavo',
  'valdes',
  'obtiene',
  'ciento',
  'votos',
  'segundo',
  'lugar',
  'aparece',
  'postulante',
  'frente',
  'corrientes_podemos',
  'carlos',
  'camau_espinola',
  'queda',
  'ciento',
  'alianza',
  'oficialista',
  'adelantaron',
  'celebrar',
  'resultado',
  'cuenta',
  'twitter',
  'loading',
  'tweet',
  'gran',
  'respaldo',
  'gobierno',
  'nacional',
  'canteros',
  'volvio',
  'hacer',
  'visible',
  'hoy',
  'encuentran',
  'capital',
  'correntina',
  'ministro',


In [26]:
dictionary_1 = corpora.Dictionary(data_words_trigrams)

In [27]:
print(dictionary_1)

Dictionary(6160 unique tokens: ['abrieron', 'adelantaron', 'agroindustria', 'alianza', 'aparece']...)


In [28]:
corpus_1 = [dictionary_1.doc2bow(nota) for nota in data_words_trigrams]

In [29]:
[[(dictionary_1[id], freq) for id, freq in cp] for cp in corpus_1[:1]]

[[('abrieron', 1),
  ('adelantaron', 1),
  ('agroindustria', 1),
  ('alianza', 1),
  ('aparece', 1),
  ('apertura', 1),
  ('bastante', 1),
  ('buryaile', 1),
  ('camau_espinola', 1),
  ('cambiemos', 2),
  ('candidato', 1),
  ('canteros', 1),
  ('capital', 1),
  ('carlos', 1),
  ('celebrar', 1),
  ('cerraron', 1),
  ('ciento', 2),
  ('clima', 1),
  ('comenzaron', 1),
  ('comicios', 1),
  ('conocerse', 1),
  ('contabilizadas', 1),
  ('correntina', 1),
  ('corrientes', 1),
  ('corrientes_podemos', 1),
  ('cuenta', 1),
  ('demoras', 1),
  ('denuncias', 1),
  ('eco', 1),
  ('elegir', 1),
  ('encuentran', 1),
  ('escrutinio', 1),
  ('escrutinio_provisorio', 1),
  ('espera', 1),
  ('frente', 1),
  ('gerardo', 1),
  ('gobernador', 2),
  ('gobierno', 1),
  ('gran', 1),
  ('gustavo', 1),
  ('hacer', 1),
  ('hoy', 1),
  ('inconvenientes', 1),
  ('irregularidades', 1),
  ('jefe_gabinete', 1),
  ('jujuy', 1),
  ('lento', 2),
  ('llegada', 1),
  ('loading', 1),
  ('lugar', 1),
  ('mal', 1),
  ('marc

In [30]:
ldamodel_1 = gensim.models.ldamodel.LdaModel(corpus=corpus_1,
                                             id2word=dictionary_1,
                                             num_topics=5, 
                                             random_state=100,
                                             update_every=1,
                                             chunksize=100,
                                             passes=10,
                                             alpha='auto',
                                             per_word_topics=True)

In [31]:
# Visualizamos los tópicos

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(ldamodel_1, corpus_1, dictionary_1)
vis

In [32]:
ldamodel_1.print_topics(-1)

[(0,
  '0.006*"salud" + 0.006*"gobierno" + 0.005*"nacional" + 0.004*"pedido" + 0.003*"candidato" + 0.003*"carga" + 0.003*"respuesta" + 0.003*"unidad_ciudadana" + 0.003*"garantizar" + 0.002*"obras"'),
 (1,
  '0.004*"trabajo" + 0.003*"defensa" + 0.003*"dos" + 0.003*"derecho" + 0.003*"fallo" + 0.003*"abogados" + 0.003*"gobierno" + 0.003*"presidente" + 0.003*"justicia" + 0.003*"ano"'),
 (2,
  '0.006*"hospitales" + 0.005*"gobierno" + 0.005*"santiago" + 0.004*"dos" + 0.003*"hospital" + 0.003*"dias" + 0.003*"salud" + 0.003*"desaparicion" + 0.003*"sergio" + 0.003*"dijo"'),
 (3,
  '0.006*"gobierno" + 0.005*"si" + 0.004*"juez" + 0.004*"ser" + 0.003*"anos" + 0.003*"gobernador" + 0.003*"memorandum" + 0.003*"pais" + 0.003*"iran" + 0.003*"dos"'),
 (4,
  '0.006*"gobierno" + 0.004*"nacional" + 0.004*"peronismo" + 0.003*"anos" + 0.003*"ciento" + 0.003*"si" + 0.003*"habia" + 0.003*"vidal" + 0.003*"argentina" + 0.003*"valdes"')]