# Text Mining - Tarea 3

**Ignacio Espinoza - 201073527-3 **

Objetivos:

* Implementar y analizar el modelo generativo Latent Dirichlet Allocation (LDA) y LDAseq sobre un corpus usando herramientas de modelamiento de tópicos en python.
* Visualizar distribución de tópicos usando herramientas de visualización y comparar resultados y performance de ambos modelos.

## Parte 1 : Corpus

Gensim es una librería de Python para topic modelling, indexación de documentos y tareas de recuperación de información en grandes corpus. Está diseñada para manejar grandes colecciones de texto, usando streaming de datos y eficientes algoritmos incrementales.

Se utilizará Gensim para trabajar con un corpus procesado consistente en noticias de páginas webs, de Marzo hasta Mayo del 2016. Dentro de las noticias se encuentran los tópicos: Deporte, Negocios, Política, Tecnología y Entretenimiento.

Para el trabajo, primero se cargaran los módulos de gensim para trabajar y el módulo de LDAvis para visualizar los resultados. Luego se carga el corpus procesado y el diccionario correspondiente a esas palabras.

In [1]:
import gensim
from gensim import corpora
from gensim.corpora import Dictionary, bleicorpus
from gensim.models import ldamodel
import pyLDAvis
import time

In [2]:
# Se carga el corpus y su diccionario
corpus = bleicorpus.BleiCorpus('corpus_lda/corpus_lda.lda_c')
dictionary = Dictionary.load('corpus_lda/corpus_lda.dict')

## Parte 2  - LDA

pregunta 1

![imagen1 lda](lda_diagram.png)

En el diagrama cada variable aleatoria está representada por un círculo. Las palabras W, que son los únicos elementos observados, están ennegrecidas. Se agrega una flecha de una variable a otra si es el resultado de la segunda (la variable apuntada) depende del valor de la primera. Los rectángulos o platos se dibujan rodeando a un conjunto de variables para mostrar que el conjunto se repite varias veces, por ejemplo para cada documento o para cada token del corpus.
 
* $\alpha$: parámetro que regula la distribución de tópicos para los documentos.
* $\theta$: es la distribución de tópicos para cada documento d. Cada distribución theta_d es representada como una distribución multinomial generada por una dirichlet con paŕametro alpha.
* $z$: es la distribución de tópicos por palabra
* W: son las palabras observadas en los documentos.
* $\beta$: parámetro que regula la distribución de palabras para los tópicos..
* $\varphi$: es la distribución de términos para cada tópico i. Cada una de estas distribuciones fi_i es representada como una distribución multinomial generada por una Dirichlet con parámetro beta.
* N
* M
* K


pregunta 2



Usando el módulo entregado por Gensim, entrene el corpus
usando el algoritmo Latent Dirichlet Allocation (LDA) usando la siguiente
cantidad de tópicos k = 3 , 5 , 10 . Para no repetir el entrenamiento,
guarde los resultados entregados.

Se usará el módulo de LDA de Gensim, entrenando el corpus usando tres valores para la cantidad de tópicos k = 3, 5 y 10. 

In [3]:
start_time = time.time()
lda_3 = ldamodel.LdaModel(corpus, num_topics=3, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_3.save("LDAmodels/k3/k3_model")

start_time = time.time()
lda_5 = ldamodel.LdaModel(corpus, num_topics=5, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_5.save("LDAmodels/k5/k5_model")

start_time = time.time()
lda_10 = ldamodel.LdaModel(corpus, num_topics=10, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_10.save("LDAmodels/k10/k10_model")


- 9.34306311607 seconds
- 10.3792068958 seconds
- 13.1328649521 seconds


Para cada modelo, visualice los tópicos y sus respectiva
distribución topic_word . ¿Qué información puede desprender de cada
tópico? ¿Tienen las palabras descriptivas de cada tópico coherencia con
los documentos pertenecientes al corpus? ¿Cómo afecta la cantidad
definida de tópicos a la distribución de estos ?

In [4]:
lda_3.print_topics(3, 10)

[(0,
  u'0.004*"last" + 0.003*"could" + 0.003*"years" + 0.003*"time" + 0.002*"first" + 0.002*"made" + 0.002*"two" + 0.002*"government" + 0.002*"well" + 0.002*"think"'),
 (1,
  u'0.003*"could" + 0.003*"first" + 0.003*"government" + 0.003*"years" + 0.003*"time" + 0.003*"make" + 0.002*"last" + 0.002*"made" + 0.002*"like" + 0.002*"game"'),
 (2,
  u'0.003*"could" + 0.003*"two" + 0.003*"last" + 0.003*"get" + 0.003*"years" + 0.003*"number" + 0.002*"time" + 0.002*"first" + 0.002*"game" + 0.002*"back"')]

In [5]:
lda_5.print_topics(5, 10)

[(0,
  u'0.004*"last" + 0.003*"years" + 0.003*"could" + 0.003*"first" + 0.003*"two" + 0.002*"time" + 0.002*"many" + 0.002*"get" + 0.002*"government" + 0.002*"bbc"'),
 (1,
  u'0.003*"government" + 0.003*"two" + 0.003*"years" + 0.003*"last" + 0.003*"could" + 0.002*"made" + 0.002*"first" + 0.002*"time" + 0.002*"make" + 0.002*"blair"'),
 (2,
  u'0.004*"could" + 0.003*"government" + 0.003*"last" + 0.003*"years" + 0.003*"time" + 0.003*"take" + 0.002*"home" + 0.002*"world" + 0.002*"number" + 0.002*"show"'),
 (3,
  u'0.004*"first" + 0.004*"game" + 0.004*"club" + 0.003*"two" + 0.003*"last" + 0.003*"time" + 0.003*"chelsea" + 0.002*"added" + 0.002*"years" + 0.002*"made"'),
 (4,
  u'0.005*"could" + 0.003*"music" + 0.003*"film" + 0.003*"time" + 0.003*"first" + 0.003*"make" + 0.002*"get" + 0.002*"made" + 0.002*"two" + 0.002*"years"')]

In [6]:
lda_10.print_topics(10, 10)

[(0,
  u'0.004*"could" + 0.004*"last" + 0.004*"game" + 0.003*"united" + 0.003*"music" + 0.003*"two" + 0.003*"years" + 0.003*"time" + 0.003*"get" + 0.003*"first"'),
 (1,
  u'0.005*"game" + 0.004*"games" + 0.003*"years" + 0.003*"film" + 0.003*"two" + 0.003*"government" + 0.003*"first" + 0.003*"last" + 0.002*"market" + 0.002*"time"'),
 (2,
  u'0.004*"years" + 0.004*"last" + 0.003*"could" + 0.003*"three" + 0.003*"first" + 0.002*"number" + 0.002*"sales" + 0.002*"government" + 0.002*"many" + 0.002*"time"'),
 (3,
  u'0.003*"could" + 0.003*"last" + 0.003*"government" + 0.003*"years" + 0.003*"world" + 0.003*"bbc" + 0.002*"first" + 0.002*"may" + 0.002*"back" + 0.002*"show"'),
 (4,
  u'0.004*"film" + 0.003*"two" + 0.003*"club" + 0.003*"time" + 0.003*"years" + 0.003*"first" + 0.002*"made" + 0.002*"united" + 0.002*"awards" + 0.002*"bbc"'),
 (5,
  u'0.004*"government" + 0.004*"last" + 0.004*"number" + 0.003*"could" + 0.003*"labour" + 0.003*"first" + 0.003*"time" + 0.003*"show" + 0.003*"many" + 0.003

## Parte 3 - Dynamic Topic Models



In [7]:
# Se carga el corpus para ldaseq y su diccionario
corpusDTM = bleicorpus.BleiCorpus('corpus_ldaseq/corpus_ldaseq.lda_c')
dictionaryDTM = Dictionary.load('corpus_ldaseq/corpus_ldaseq.dict')

In [8]:
from gensim.models import ldaseqmodel

time_slice = [438, 430, 456]
ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpusDTM, id2word=dictionaryDTM, time_slice=time_slice, num_topics=5, chain_variance = 0.001)
ldaseq.save('DTMmodels/ldaseq')

In [9]:
ldaseq.print_topics(time=0)

[[(u'could', 0.005),
  (u'market', 0.004),
  (u'many', 0.004),
  (u'use', 0.004),
  (u'technology', 0.003),
  (u'users', 0.003),
  (u'growth', 0.003),
  (u'firm', 0.003),
  (u'last', 0.003),
  (u'years', 0.003),
  (u'net', 0.003),
  (u'firms', 0.003),
  (u'company', 0.003),
  (u'economy', 0.003),
  (u'mobile', 0.003),
  (u'online', 0.002),
  (u'million', 0.002),
  (u'world', 0.002),
  (u'companies', 0.002),
  (u'information', 0.002)],
 [(u'game', 0.009),
  (u'chelsea', 0.007),
  (u'players', 0.006),
  (u'win', 0.006),
  (u'cup', 0.006),
  (u'united', 0.006),
  (u'arsenal', 0.005),
  (u'play', 0.005),
  (u'league', 0.005),
  (u'goal', 0.005),
  (u'first', 0.005),
  (u'back', 0.004),
  (u'time', 0.004),
  (u'good', 0.004),
  (u'minutes', 0.004),
  (u'side', 0.004),
  (u'well', 0.004),
  (u'team', 0.004),
  (u'two', 0.004),
  (u'premiership', 0.004)],
 [(u'club', 0.01),
  (u'football', 0.005),
  (u'think', 0.005),
  (u'deal', 0.004),
  (u'bid', 0.004),
  (u'want', 0.004),
  (u'bbc', 0.004

In [10]:
ldaseq.print_topics(time=1)

[[(u'could', 0.005),
  (u'market', 0.004),
  (u'many', 0.004),
  (u'use', 0.004),
  (u'technology', 0.003),
  (u'growth', 0.003),
  (u'firm', 0.003),
  (u'users', 0.003),
  (u'last', 0.003),
  (u'years', 0.003),
  (u'firms', 0.003),
  (u'company', 0.003),
  (u'net', 0.003),
  (u'economy', 0.003),
  (u'mobile', 0.003),
  (u'online', 0.002),
  (u'million', 0.002),
  (u'world', 0.002),
  (u'companies', 0.002),
  (u'information', 0.002)],
 [(u'game', 0.009),
  (u'chelsea', 0.007),
  (u'players', 0.006),
  (u'win', 0.006),
  (u'cup', 0.006),
  (u'united', 0.006),
  (u'arsenal', 0.005),
  (u'play', 0.005),
  (u'league', 0.005),
  (u'goal', 0.005),
  (u'first', 0.005),
  (u'back', 0.004),
  (u'time', 0.004),
  (u'good', 0.004),
  (u'minutes', 0.004),
  (u'well', 0.004),
  (u'side', 0.004),
  (u'team', 0.004),
  (u'two', 0.004),
  (u'premiership', 0.004)],
 [(u'club', 0.01),
  (u'football', 0.005),
  (u'think', 0.005),
  (u'deal', 0.004),
  (u'bid', 0.004),
  (u'want', 0.004),
  (u'bbc', 0.004

In [11]:
ldaseq.print_topics(time=2)

[[(u'could', 0.005),
  (u'market', 0.004),
  (u'many', 0.004),
  (u'use', 0.004),
  (u'technology', 0.003),
  (u'growth', 0.003),
  (u'firm', 0.003),
  (u'users', 0.003),
  (u'years', 0.003),
  (u'last', 0.003),
  (u'firms', 0.003),
  (u'company', 0.003),
  (u'net', 0.003),
  (u'economy', 0.003),
  (u'mobile', 0.002),
  (u'online', 0.002),
  (u'million', 0.002),
  (u'world', 0.002),
  (u'information', 0.002),
  (u'companies', 0.002)],
 [(u'game', 0.009),
  (u'chelsea', 0.007),
  (u'players', 0.006),
  (u'win', 0.006),
  (u'cup', 0.006),
  (u'united', 0.006),
  (u'arsenal', 0.005),
  (u'play', 0.005),
  (u'league', 0.005),
  (u'goal', 0.005),
  (u'first', 0.005),
  (u'back', 0.004),
  (u'good', 0.004),
  (u'time', 0.004),
  (u'minutes', 0.004),
  (u'well', 0.004),
  (u'side', 0.004),
  (u'team', 0.004),
  (u'two', 0.004),
  (u'premiership', 0.004)],
 [(u'club', 0.01),
  (u'football', 0.005),
  (u'think', 0.005),
  (u'deal', 0.004),
  (u'bid', 0.004),
  (u'want', 0.004),
  (u'bbc', 0.004

In [16]:
words = [dictionaryDTM[word_id] for word_id, count in corpusDTM[558]]
print(words)
print(ldaseq[corpusDTM[558]])
#print(corpusDTM[558])

[u'held', u'set', u'away', u'taking', u'number', u'position', u'money', u'lord', u'industry', u'top', u'made', u'could', u'end', u'week', u'return', u'ended', u'second', u'box', u'final', u'took', u'broke', u'last', u'bill', u'taken', u'series', u'according', u'figures', u'provide', u'place', u'records', u'films', u'film', u'christmas', u'major', u'paul', u'title', u'much', u'years', u'king', u'help', u'however', u'estimates', u'competition', u'falling', u'produce', u'third', u'weve', u'robert', u'days', u'north', u'high', u'helped', u'success', u'stronger', u'history', u'ben', u'making', u'office', u'increase', u'cast', u'american', u'president', u'howard', u'meet', u'crown', u'rings', u'spot', u'parents', u'alone', u'weekend', u'day', u'record', u'events', u'comedy', u'starring', u'finished', u'chart', u'overall', u'previous', u'highest', u'hughes', u'stars', u'fourth', u'aviator', u'moved', u'sequel', u'studio', u'releases', u'revenue', u'industrys', u'dicaprio', u'leonardo', u'note

In [17]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=0, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

In [18]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=1, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

In [19]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=2, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)