# Text Mining - Tarea 3

**Ignacio Espinoza - 201073527-3 **

Objetivos:

* Implementar y analizar el modelo generativo Latent Dirichlet Allocation (LDA) y LDAseq sobre un corpus usando herramientas de modelamiento de tópicos en python.
* Visualizar distribución de tópicos usando herramientas de visualización y comparar resultados y performance de ambos modelos.

## Parte 1 : Corpus

Gensim es una librería de Python para topic modelling, indexación de documentos y tareas de recuperación de información en grandes corpus. Está diseñada para manejar grandes colecciones de texto, usando streaming de datos y eficientes algoritmos incrementales.

Se utilizará Gensim para trabajar con un corpus procesado consistente en noticias de páginas webs, de Marzo hasta Mayo del 2016. Dentro de las noticias se encuentran los tópicos: Deporte, Negocios, Política, Tecnología y Entretenimiento.

Para el trabajo, primero se cargaran los módulos de gensim para trabajar y el módulo de LDAvis para visualizar los resultados. Luego se carga el corpus procesado y el diccionario correspondiente a esas palabras.

In [3]:
import gensim
from gensim import corpora
from gensim.corpora import Dictionary, bleicorpus
from gensim.models import ldamodel
import pyLDAvis
import time

In [2]:
# Se carga el corpus y su diccionario
corpus = bleicorpus.BleiCorpus('corpus_lda/corpus_lda.lda_c')
dictionary = Dictionary.load('corpus_lda/corpus_lda.dict')

## Parte 2  - LDA

pregunta 1

![imagen1 lda](lda_diagram.png)

En el diagrama cada variable aleatoria está representada por un círculo. Las palabras W, que son los únicos elementos observados, están ennegrecidas. Se agrega una flecha de una variable a otra si es el resultado de la segunda (la variable apuntada) depende del valor de la primera. Los rectángulos o platos se dibujan rodeando a un conjunto de variables para mostrar que el conjunto se repite varias veces, por ejemplo para cada documento o para cada token del corpus.
 
* $\alpha$: parámetro que regula la distribución de tópicos para los documentos.
* $\theta$: es la distribución de tópicos para cada documento d. Cada distribución theta_d es representada como una distribución multinomial generada por una dirichlet con paŕametro alpha.
* $z$: es la distribución de tópicos por palabra
* W: son las palabras observadas en los documentos.
* $\beta$: parámetro que regula la distribución de palabras para los tópicos..
* $\varphi$: es la distribución de términos para cada tópico i. Cada una de estas distribuciones fi_i es representada como una distribución multinomial generada por una Dirichlet con parámetro beta.
* N
* M
* K


pregunta 2



Usando el módulo entregado por Gensim, entrene el corpus
usando el algoritmo Latent Dirichlet Allocation (LDA) usando la siguiente
cantidad de tópicos k = 3 , 5 , 10 . Para no repetir el entrenamiento,
guarde los resultados entregados.

Se usará el módulo de LDA de Gensim, entrenando el corpus usando tres valores para la cantidad de tópicos k = 3, 5 y 10. 

In [3]:
start_time = time.time()
lda_3 = ldamodel.LdaModel(corpus, num_topics=3, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_3.save("LDAmodels/k3/k3_model")

start_time = time.time()
lda_5 = ldamodel.LdaModel(corpus, num_topics=5, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_5.save("LDAmodels/k5/k5_model")

start_time = time.time()
lda_10 = ldamodel.LdaModel(corpus, num_topics=10, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_10.save("LDAmodels/k10/k10_model")


- 8.47190093994 seconds
- 9.839594841 seconds
- 12.0300137997 seconds


Para cada modelo, visualice los tópicos y sus respectiva
distribución topic_word . ¿Qué información puede desprender de cada
tópico? ¿Tienen las palabras descriptivas de cada tópico coherencia con
los documentos pertenecientes al corpus? ¿Cómo afecta la cantidad
definida de tópicos a la distribución de estos ?

In [4]:
lda_3.print_topics(3, 10)

[(0,
  u'0.004*"time" + 0.003*"first" + 0.003*"last" + 0.003*"could" + 0.003*"made" + 0.002*"years" + 0.002*"make" + 0.002*"two" + 0.002*"film" + 0.002*"world"'),
 (1,
  u'0.003*"last" + 0.003*"government" + 0.003*"could" + 0.003*"two" + 0.002*"get" + 0.002*"back" + 0.002*"first" + 0.002*"years" + 0.002*"like" + 0.002*"many"'),
 (2,
  u'0.004*"could" + 0.004*"years" + 0.003*"last" + 0.003*"game" + 0.003*"two" + 0.002*"government" + 0.002*"first" + 0.002*"time" + 0.002*"make" + 0.002*"well"')]

In [5]:
lda_5.print_topics(5, 10)

[(0,
  u'0.004*"could" + 0.003*"last" + 0.003*"two" + 0.002*"years" + 0.002*"government" + 0.002*"number" + 0.002*"time" + 0.002*"bbc" + 0.002*"film" + 0.002*"make"'),
 (1,
  u'0.003*"last" + 0.003*"time" + 0.003*"government" + 0.003*"could" + 0.002*"get" + 0.002*"first" + 0.002*"made" + 0.002*"top" + 0.002*"election" + 0.002*"blair"'),
 (2,
  u'0.004*"game" + 0.004*"music" + 0.003*"years" + 0.003*"first" + 0.003*"film" + 0.003*"government" + 0.003*"games" + 0.003*"last" + 0.003*"like" + 0.003*"could"'),
 (3,
  u'0.004*"could" + 0.004*"years" + 0.003*"first" + 0.003*"last" + 0.003*"two" + 0.002*"three" + 0.002*"get" + 0.002*"time" + 0.002*"like" + 0.002*"many"'),
 (4,
  u'0.004*"could" + 0.003*"time" + 0.003*"first" + 0.003*"last" + 0.003*"make" + 0.002*"made" + 0.002*"home" + 0.002*"bbc" + 0.002*"added" + 0.002*"government"')]

In [6]:
lda_10.print_topics(10, 10)

[(0,
  u'0.004*"last" + 0.004*"number" + 0.003*"could" + 0.003*"government" + 0.003*"years" + 0.003*"take" + 0.003*"two" + 0.003*"film" + 0.003*"like" + 0.003*"many"'),
 (1,
  u'0.004*"could" + 0.003*"first" + 0.002*"made" + 0.002*"two" + 0.002*"last" + 0.002*"back" + 0.002*"game" + 0.002*"win" + 0.002*"added" + 0.002*"world"'),
 (2,
  u'0.005*"could" + 0.004*"government" + 0.003*"home" + 0.003*"get" + 0.003*"time" + 0.003*"make" + 0.002*"bbc" + 0.002*"many" + 0.002*"last" + 0.002*"made"'),
 (3,
  u'0.003*"two" + 0.003*"last" + 0.003*"years" + 0.003*"could" + 0.003*"first" + 0.002*"blair" + 0.002*"way" + 0.002*"bbc" + 0.002*"added" + 0.002*"music"'),
 (4,
  u'0.004*"could" + 0.003*"last" + 0.003*"first" + 0.003*"years" + 0.003*"bbc" + 0.003*"time" + 0.002*"government" + 0.002*"united" + 0.002*"two" + 0.002*"like"'),
 (5,
  u'0.004*"first" + 0.003*"time" + 0.003*"years" + 0.003*"last" + 0.003*"two" + 0.003*"get" + 0.003*"could" + 0.003*"three" + 0.002*"game" + 0.002*"music"'),
 (6,
  u'

## Parte 3 - Dynamic Topic Models



In [4]:
# Se carga el corpus para ldaseq y su diccionario
corpusDTM = bleicorpus.BleiCorpus('corpus_ldaseq/corpus_ldaseq.lda_c')
dictionaryDTM = Dictionary.load('corpus_ldaseq/corpus_ldaseq.dict')

In [5]:
from gensim.models import ldaseqmodel

time_slice = [438, 430, 456]
ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpusDTM, id2word=dictionaryDTM, time_slice=time_slice, num_topics=5, chain_variance = 0.001)
ldaseq.save('DTMmodels/ldaseq')

A diferencia de LDA, como parámetro adicional se tiene que indicar la cantidad de documentos por slide de tiempo. Otra característica que se puede percibir es la diferencia de tiempo que demora en entrenar el modelo de DTM versus el de LDA, siendo casi dos órdenes de magnitud más costosa (1 hora aprox).

Una vez obtenido el modelo se pueden ver los tópicos y tus top palabras. Para el tiempo cero, estos son los tópicos y sus palabras más relevantes.

In [6]:
ldaseq.print_topics(time=0)

[[(u'film', 0.014),
  (u'show', 0.01),
  (u'years', 0.007),
  (u'awards', 0.006),
  (u'award', 0.006),
  (u'last', 0.005),
  (u'star', 0.004),
  (u'director', 0.004),
  (u'bbc', 0.004),
  (u'first', 0.004),
  (u'actor', 0.004),
  (u'films', 0.004),
  (u'series', 0.003),
  (u'including', 0.003),
  (u'prize', 0.003),
  (u'two', 0.003),
  (u'million', 0.003),
  (u'british', 0.003),
  (u'three', 0.003),
  (u'made', 0.003)],
 [(u'use', 0.006),
  (u'could', 0.006),
  (u'technology', 0.005),
  (u'many', 0.005),
  (u'users', 0.005),
  (u'information', 0.004),
  (u'online', 0.004),
  (u'mobile', 0.004),
  (u'net', 0.004),
  (u'software', 0.004),
  (u'service', 0.004),
  (u'used', 0.004),
  (u'using', 0.004),
  (u'get', 0.003),
  (u'make', 0.003),
  (u'digital', 0.003),
  (u'computer', 0.003),
  (u'phone', 0.003),
  (u'internet', 0.003),
  (u'data', 0.003)],
 [(u'market', 0.005),
  (u'last', 0.004),
  (u'growth', 0.004),
  (u'economy', 0.004),
  (u'government', 0.004),
  (u'years', 0.004),
  (u'

Deporte, Negocios, Política, Tecnología y Entretenimiento

Analizando los resultados, es posible determinar el tema de que hablan los tópicos, o una corriente de lo que podrían estar hablando. Esto es una gran mejora sobre el modelo LDA pues se puede tener, sin conocimiento experto, una idea de que son los documentos que tienen esos tópicos. Así, dado los 5 tópicos generales se obtuvo:

* **Tópico 1:**

In [7]:
ldaseq.print_topics(time=0)

[[(u'film', 0.014),
  (u'show', 0.01),
  (u'years', 0.007),
  (u'awards', 0.006),
  (u'award', 0.006),
  (u'last', 0.005),
  (u'star', 0.004),
  (u'director', 0.004),
  (u'bbc', 0.004),
  (u'first', 0.004),
  (u'actor', 0.004),
  (u'films', 0.004),
  (u'series', 0.003),
  (u'including', 0.003),
  (u'prize', 0.003),
  (u'two', 0.003),
  (u'million', 0.003),
  (u'british', 0.003),
  (u'three', 0.003),
  (u'made', 0.003)],
 [(u'use', 0.006),
  (u'could', 0.006),
  (u'technology', 0.005),
  (u'many', 0.005),
  (u'users', 0.005),
  (u'information', 0.004),
  (u'online', 0.004),
  (u'mobile', 0.004),
  (u'net', 0.004),
  (u'software', 0.004),
  (u'service', 0.004),
  (u'used', 0.004),
  (u'using', 0.004),
  (u'get', 0.003),
  (u'make', 0.003),
  (u'digital', 0.003),
  (u'computer', 0.003),
  (u'phone', 0.003),
  (u'internet', 0.003),
  (u'data', 0.003)],
 [(u'market', 0.005),
  (u'last', 0.004),
  (u'growth', 0.004),
  (u'economy', 0.004),
  (u'government', 0.004),
  (u'years', 0.004),
  (u'

Deporte, Negocios, Política, Tecnología y Entretenimiento

In [8]:
ldaseq.print_topics(time=2)

[[(u'film', 0.014),
  (u'show', 0.01),
  (u'years', 0.007),
  (u'awards', 0.006),
  (u'award', 0.006),
  (u'last', 0.005),
  (u'star', 0.004),
  (u'bbc', 0.004),
  (u'director', 0.004),
  (u'first', 0.004),
  (u'actor', 0.004),
  (u'films', 0.004),
  (u'series', 0.003),
  (u'including', 0.003),
  (u'prize', 0.003),
  (u'british', 0.003),
  (u'two', 0.003),
  (u'million', 0.003),
  (u'three', 0.003),
  (u'made', 0.003)],
 [(u'use', 0.006),
  (u'could', 0.006),
  (u'technology', 0.005),
  (u'many', 0.005),
  (u'users', 0.005),
  (u'online', 0.004),
  (u'information', 0.004),
  (u'mobile', 0.004),
  (u'net', 0.004),
  (u'software', 0.004),
  (u'service', 0.004),
  (u'used', 0.004),
  (u'using', 0.004),
  (u'get', 0.004),
  (u'digital', 0.003),
  (u'make', 0.003),
  (u'computer', 0.003),
  (u'phone', 0.003),
  (u'internet', 0.003),
  (u'data', 0.003)],
 [(u'market', 0.005),
  (u'last', 0.004),
  (u'growth', 0.004),
  (u'government', 0.004),
  (u'economy', 0.004),
  (u'years', 0.004),
  (u'

sdfsdf



Tomando el documento 558 del corpus, podemos ver las palabras que contiene y la distribución de tópicos. El principal tema del que habla es de espectáculos, con un 92.1%, seguido de negocios con 7.2%, y los tópicos con 0.006 aproximado. Se pueden ver palabras como *dicaprio*, *niro* y *studio* que podrían relacionarse con actores y películas y otras palabras como *american*, *president*, *money* y *lord* parte de temáticas de películas. 

In [9]:
words = [dictionaryDTM[word_id] for word_id, count in corpusDTM[558]]
print(words)
print(ldaseq[corpusDTM[558]])
#print(corpusDTM[558])

[u'held', u'set', u'away', u'taking', u'number', u'position', u'money', u'lord', u'industry', u'top', u'made', u'could', u'end', u'week', u'return', u'ended', u'second', u'box', u'final', u'took', u'broke', u'last', u'bill', u'taken', u'series', u'according', u'figures', u'provide', u'place', u'records', u'films', u'film', u'christmas', u'major', u'paul', u'title', u'much', u'years', u'king', u'help', u'however', u'estimates', u'competition', u'falling', u'produce', u'third', u'weve', u'robert', u'days', u'north', u'high', u'helped', u'success', u'stronger', u'history', u'ben', u'making', u'office', u'increase', u'cast', u'american', u'president', u'howard', u'meet', u'crown', u'rings', u'spot', u'parents', u'alone', u'weekend', u'day', u'record', u'events', u'comedy', u'starring', u'finished', u'chart', u'overall', u'previous', u'highest', u'hughes', u'stars', u'fourth', u'aviator', u'moved', u'sequel', u'studio', u'releases', u'revenue', u'industrys', u'dicaprio', u'leonardo', u'note

Una vez obtenida la información de la distribución de tópicos y palabras para los tópicos dinámicos se puede ocupar el módulo de LDAvis. Para el mes de mes de marzo se tiene la siguiente visualización para la distribución de tópicos. Esta visualización nos permite identificar la cercanía que tienen los temas que se habland en las noticias. Por ejemplo, el tópico 1 (política), el tópico 4 (economía y negocios) y el tópico 5 (tecnología) tienen una mayor relación entre si que con los temas de espectáculo y deportes. Es mucho más probable encontrar noticias cruzadas, por ejemplo una noticia que hable de "telecomunicaciones dentro de un país y cómo esto afecta las propuestas políticas a al país".

En términos de presencia en el corpus, el tópico 1 tiene una presencia de **30.3%**, el tópico 2 **20.8%**, tópico 3 **20%**, tópico 4 **16.9%** y el tópico 5 **12%**. Así, si se escogiera una noticia al azar, sería más probable que uno de los temas que estuviese hablando fuese de política.

In [10]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=0, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

Para el mes de abril se tiene la siguiente distribución. El porcentaje de tokens que abarca cada uno se mantiene igual.

In [11]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=1, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

Para el mes de mayo se tiene la siguiente visualización de los tópicos.

In [12]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=2, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

Si bien la distribución sobre los tokens no cambia en el tiempo, se puede ver que las palabras si cambian su frecuencia en los tres cortes temporales. Por ejemplo, *film* tiene una frecuncia mayor a 300 en el marzo, cercana a 300 en abril y bajo 250 en mayo. Esto nos quiere decir que el contenido es dinámico, no siempre se está hablando de lo mismo. Puede que para marzo haya habido buenos estrenos en cartelera y a los siguientes meses no haya salido nada muy relevante, por lo que bajaría la cantidad de veces que se menciona el tema. También se puede ver palabras como *phone* están dentro de las más descatadas y en abril y mayo no se encuentran.

Por lo tanto se puede ver una mejor modelación del comportamiento de las noticias en el tiempo.

## ¿LDA O LDAseq (DTM) ?

Es una pregunta relevante pues siempre buscamos modelos que se ajusten mejor a los datos que analizamos. En este caso, no se puede hacer un análisis estático a algo que cambia en el tiempo como lo son los temas tratados en las noticias. Siempre hay temas que se tocan constantemente, como lo son política y espectáculos, pero otros fluctuan dependiendo de eventos particulares que hacen que se hable más de éstos. En este caso en particular los resultados obtenidos por LDAseq fueron mucho mejores a los entregados por el algoritmo LDA, y esto se condice con que las noticias no son estáticas. El modelo representa mucho mejor los tópicos pudiendo etiquetar a simple vista de qué trata cada uno.

La separación temporal ayuda a delimitar conjuntos de información del resto. Con un solo corte temporal (LDA) se trata de representar todos los temas y documentos en solo cinco tópicos. Por otro lado, con LDAseq los tres cortes temporales dan paso a 5 tópicos cada uno, pudiendo mostrar tópicos que están en un solo corte temporal, analizando si persisten o no en el tiempo, o si estos cambiando gradualmente.

Esta mejora de resultados tiene un costo en tiempo y procesamiento. El tiempo observado en entrenar con un modelo y otro distan casi en dos órdenes de magnitud. Es por esto que se deben buscar técnicas para mejorar este tiempo, como lo son computar los tópicos de forma paralela (multithreading) o distribuida[2]. También, se podría incursionar en técnicas mixtas como lo es mezclar LDA con algoritmos de clustering [2] para la detección de tópicos.


# Referencias

[1] Latent Dirichlet Allocation, Blei, David M. and Ng, Andrew Y. and Jordan, Michael I., J. Mach. Learn. Res., 2003. 

[2] Dynamic Topic Models, Blei, David M. and Lafferty, John D., Proceedings of the 23rd International Conference on Machine Learning, 113--120 (8), 2006.

[3] Scaling up Dynamic Topic Models

[4] Scalable Dynamic Topic Modeling with Clustered Latent Dirichlet Allocation (CLDA), Chris Gropp, Alexander Herzog, Ilya Safro, Paul W. Wilson and Amy W. Apon, *CoRR*, 2016,
