# Text Mining - Tarea 3

**Ignacio Espinoza - 201073527-3 **

Objetivos:

* Implementar y analizar el modelo generativo Latent Dirichlet Allocation (LDA) y LDAseq sobre un corpus usando herramientas de modelamiento de tópicos en python.
* Visualizar distribución de tópicos usando herramientas de visualización y comparar resultados y performance de ambos modelos.

## Parte 1 : Corpus

Gensim es una librería de Python para topic modelling, indexación de documentos y tareas de recuperación de información en grandes corpus. Está diseñada para manejar grandes colecciones de texto, usando streaming de datos y eficientes algoritmos incrementales.

Se utilizará Gensim para trabajar con un corpus procesado consistente en noticias de páginas webs, de Marzo hasta Mayo del 2016. Dentro de las noticias se encuentran los tópicos: Deporte, Negocios, Política, Tecnología y Entretenimiento.

Para el trabajo, primero se cargaran los módulos de gensim para trabajar y el módulo de LDAvis para visualizar los resultados. Luego se carga el corpus procesado y el diccionario correspondiente a esas palabras.

In [1]:
import gensim
from gensim import corpora
from gensim.corpora import Dictionary, bleicorpus
from gensim.models import ldamodel
import pyLDAvis
import time

In [2]:
# Se carga el corpus y su diccionario
corpus = bleicorpus.BleiCorpus('corpus_lda/corpus_lda.lda_c')
dictionary = Dictionary.load('corpus_lda/corpus_lda.dict')

## Parte 2  - LDA

pregunta 1

![imagen1 lda](lda_diagram.png)

En el diagrama cada variable aleatoria está representada por un círculo. Las palabras W, que son los únicos elementos observados, están ennegrecidas. Se agrega una flecha de una variable a otra si es el resultado de la segunda (la variable apuntada) depende del valor de la primera. Los rectángulos o platos se dibujan rodeando a un conjunto de variables para mostrar que el conjunto se repite varias veces, por ejemplo para cada documento o para cada token del corpus.
 
* $\alpha$: parámetro que regula la distribución de tópicos para los documentos.
* $\theta$: es la distribución de tópicos para cada documento d. Cada distribución theta_d es representada como una distribución multinomial generada por una dirichlet con paŕametro alpha.
* $z$: es la distribución de tópicos por palabra
* W: son las palabras observadas en los documentos.
* $\beta$: parámetro que regula la distribución de palabras para los tópicos..
* $\varphi$: es la distribución de términos para cada tópico i. Cada una de estas distribuciones fi_i es representada como una distribución multinomial generada por una Dirichlet con parámetro beta.
* N: cantidad de palabras en un documento dado.
* M: cantidad de documentos.
* K: cantidad de tópicos latentes.


pregunta 2



Usando el módulo entregado por Gensim, entrene el corpus
usando el algoritmo Latent Dirichlet Allocation (LDA) usando la siguiente
cantidad de tópicos k = 3 , 5 , 10 . Para no repetir el entrenamiento,
guarde los resultados entregados.

Se usará el módulo de LDA de Gensim, entrenando el corpus usando tres valores para la cantidad de tópicos k = 3, 5 y 10. 

In [3]:
start_time = time.time()
lda_3 = ldamodel.LdaModel(corpus, num_topics=3, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_3.save("LDAmodels/k3/k3_model")

start_time = time.time()
lda_5 = ldamodel.LdaModel(corpus, num_topics=5, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_5.save("LDAmodels/k5/k5_model")

start_time = time.time()
lda_10 = ldamodel.LdaModel(corpus, num_topics=10, id2word=dictionary)
print("- %s seconds" % (time.time() - start_time))
lda_10.save("LDAmodels/k10/k10_model")


- 8.47190093994 seconds
- 9.839594841 seconds
- 12.0300137997 seconds


Para cada modelo, visualice los tópicos y sus respectiva
distribución topic_word . ¿Qué información puede desprender de cada
tópico? ¿Tienen las palabras descriptivas de cada tópico coherencia con
los documentos pertenecientes al corpus? ¿Cómo afecta la cantidad
definida de tópicos a la distribución de estos ?


Generado los modelos se puede mostrar cuales son los tópicos y la distribución de palábras por tópico. Mostrando 10 palabras por tópico, se obtiene:

In [4]:
lda_3.print_topics(3, 10)

[(0,
  u'0.004*"time" + 0.003*"first" + 0.003*"last" + 0.003*"could" + 0.003*"made" + 0.002*"years" + 0.002*"make" + 0.002*"two" + 0.002*"film" + 0.002*"world"'),
 (1,
  u'0.003*"last" + 0.003*"government" + 0.003*"could" + 0.003*"two" + 0.002*"get" + 0.002*"back" + 0.002*"first" + 0.002*"years" + 0.002*"like" + 0.002*"many"'),
 (2,
  u'0.004*"could" + 0.004*"years" + 0.003*"last" + 0.003*"game" + 0.003*"two" + 0.002*"government" + 0.002*"first" + 0.002*"time" + 0.002*"make" + 0.002*"well"')]

* ** Tópico 1: ** no es posible saber de que se podría estar hablando pues las palábras con mayor probabilidad dentro del tópico son palabras como tiempo, primero, útlimo, entre otras que no tienen un significado por si mismo. La única palabra que podría decir algo es film, pero su proporción en el tópico es muy baja como para poder inferir un tema para el tópico.

* ** Tópico 2: ** para este tópico se presenta el mismo fenómeno, siendo goverment la única palabra que tiene un significado que podría dilucidar el tema del tópico.

* ** Tópico 3: ** ahora se presentan dos palabras importantes que son game y government, pero en si ambas no tienen relación. A simple vista se ve que es un tópico que combina temas.

Por lo tanto, utilizar tres tópicos para modelar el dataset no tiene buenos resultados. Los tópicos entregados no tienen ningun valor ni significado semántico.

Ahora, con 5 tópicos los resultados fueron los siguientes:

In [5]:
lda_5.print_topics(5, 10)

[(0,
  u'0.004*"could" + 0.003*"last" + 0.003*"two" + 0.002*"years" + 0.002*"government" + 0.002*"number" + 0.002*"time" + 0.002*"bbc" + 0.002*"film" + 0.002*"make"'),
 (1,
  u'0.003*"last" + 0.003*"time" + 0.003*"government" + 0.003*"could" + 0.002*"get" + 0.002*"first" + 0.002*"made" + 0.002*"top" + 0.002*"election" + 0.002*"blair"'),
 (2,
  u'0.004*"game" + 0.004*"music" + 0.003*"years" + 0.003*"first" + 0.003*"film" + 0.003*"government" + 0.003*"games" + 0.003*"last" + 0.003*"like" + 0.003*"could"'),
 (3,
  u'0.004*"could" + 0.004*"years" + 0.003*"first" + 0.003*"last" + 0.003*"two" + 0.002*"three" + 0.002*"get" + 0.002*"time" + 0.002*"like" + 0.002*"many"'),
 (4,
  u'0.004*"could" + 0.003*"time" + 0.003*"first" + 0.003*"last" + 0.003*"make" + 0.002*"made" + 0.002*"home" + 0.002*"bbc" + 0.002*"added" + 0.002*"government"')]

* **Tópico 1:** las palabras más relevantes son could, last y two. En este tópico las observaciones con mayor valor semántico son government, bbc y film, pero aun así no tienen relación directa.

* **Tópico 2:** en este tópico se aprecia una tendencia de las palabras a hablar sobre temas de política, pero no se puede asegurar esto pues solo una de ellas está dentro de las palabras más relevantes para el tópico. El resto de las top palabras no tienen un valor semántico por si solas.

* **Tópico 3:** las primeras dos palabras, game y music, podrían dar información del tópico, pero se vuelve a repetir más adelante palabras que se presentan en otros tópicos.

* **Tópico 4:** Este tópico en particular presenta top palabras sin significado alguno, siendo la mayoría stopwords.

* **Tópico 5:** las primeras seis palabras del tópico no entregan información semántica respecto al tópico, siendo palabras muy generales y hasta podría considerarse algunas como stopwords. Al final se encuentra palabras como bbc y government, pero estas ya se repiten en otros tópicos.

En resumen, los tópicos siguen siendo malos y no entregan información de los tópicos latentes del corpus. Esta más decir que muchas de las top palabras corresponden a stopwords y deberían ser eliminadas antes de crear el modelo LDA. Se repiten algunas palabras con significado en más de un tópico, lo que podría recomendar escoger una cantidad mayor de tópicos.

El resultado de LDA con 10 tópicos es el siguiente:

In [6]:
lda_10.print_topics(10, 10)

[(0,
  u'0.004*"last" + 0.004*"number" + 0.003*"could" + 0.003*"government" + 0.003*"years" + 0.003*"take" + 0.003*"two" + 0.003*"film" + 0.003*"like" + 0.003*"many"'),
 (1,
  u'0.004*"could" + 0.003*"first" + 0.002*"made" + 0.002*"two" + 0.002*"last" + 0.002*"back" + 0.002*"game" + 0.002*"win" + 0.002*"added" + 0.002*"world"'),
 (2,
  u'0.005*"could" + 0.004*"government" + 0.003*"home" + 0.003*"get" + 0.003*"time" + 0.003*"make" + 0.002*"bbc" + 0.002*"many" + 0.002*"last" + 0.002*"made"'),
 (3,
  u'0.003*"two" + 0.003*"last" + 0.003*"years" + 0.003*"could" + 0.003*"first" + 0.002*"blair" + 0.002*"way" + 0.002*"bbc" + 0.002*"added" + 0.002*"music"'),
 (4,
  u'0.004*"could" + 0.003*"last" + 0.003*"first" + 0.003*"years" + 0.003*"bbc" + 0.003*"time" + 0.002*"government" + 0.002*"united" + 0.002*"two" + 0.002*"like"'),
 (5,
  u'0.004*"first" + 0.003*"time" + 0.003*"years" + 0.003*"last" + 0.003*"two" + 0.003*"get" + 0.003*"could" + 0.003*"three" + 0.002*"game" + 0.002*"music"'),
 (6,
  u'

* **Tópico 1:** top 3 palabras son *last* 0.004, *number* 0.004 y *could* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 2:** top 3 palabras son *could* 0.004, *first* 0.003 y *made* 0.002. Las palabras game, win y world podrían dar algo de información sobre el tópico, pero aun así deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 3:** top 3 palabras son *could* 0.004, *government* 0.004 y *home* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 4:** top 3 palabras son *two* 0.003, *last* 0.003 y *years* 0.003. Palabras como blair, bbc y music no son suficientes para determinar el tema del tópico.

* **Tópico 5:** top 3 palabras son *could* 0.004, *last* 0.003 y *years* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 6:** top 3 palabras son *first* 0.004, *time* 0.003 y *years* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 7:** top 3 palabras son *could* 0.004, *government* 0.003 y *last* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico.

* **Tópico 8:** top 3 palabras son *games* 0.004, *game* 0.004 y *years* 0.004. No es posible deteminar una etiqueta para el tema que habla el tópico. Se siguen repitiendo palabras de tópicos pasados.

* **Tópico 9:** top 3 palabras son *two* 0.004, *time* 0.003 y *music* 0.003. No es posible deteminar una etiqueta para el tema que habla el tópico. Se siguen repitiendo palabras de tópicos pasados.

* **Tópico 10:** top 3 palabras son *years* 0.004, *last* 0.004 y *government* 0.004.No es posible deteminar una etiqueta para el tema que habla el tópico. Se siguen repitiendo palabras de tópicos pasados.

Como conclusión, LDA no entrega buenos resultados para el modelado del corpus, mostrando muchas palabras repetidas sin sentido semántico y que podrían ser consideradas stopwords. Al aumentar la cantidad de tópicos se va mejorando el resultado, pero para este corpus, aun con diez tópicos no hay un resultado bueno.

## Parte 3 - Dynamic Topic Models

COMPLETAR


In [2]:
# Se carga el corpus para ldaseq y su diccionario
corpusDTM = bleicorpus.BleiCorpus('corpus_ldaseq/corpus_ldaseq.lda_c')
dictionaryDTM = Dictionary.load('corpus_ldaseq/corpus_ldaseq.dict')

In [3]:
from gensim.models import ldaseqmodel

time_slice = [438, 430, 456]
ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpusDTM, id2word=dictionaryDTM, time_slice=time_slice, num_topics=5, chain_variance = 0.001)
ldaseq.save('DTMmodels/ldaseq')

A diferencia de LDA, como parámetro adicional se tiene que indicar la cantidad de documentos por slide de tiempo. Otra característica que se puede percibir es la diferencia de tiempo que demora en entrenar el modelo de DTM versus el de LDA, siendo casi dos órdenes de magnitud más costosa (1 hora aprox).

Una vez obtenido el modelo se pueden ver los tópicos y tus top palabras. Para el tiempo cero, estos son los tópicos y sus palabras más relevantes.

In [4]:
ldaseq.print_topics(time=0)

[[(u'government', 0.009),
  (u'blair', 0.006),
  (u'labour', 0.005),
  (u'minister', 0.005),
  (u'election', 0.005),
  (u'could', 0.004),
  (u'public', 0.004),
  (u'party', 0.004),
  (u'prime', 0.003),
  (u'brown', 0.003),
  (u'tax', 0.003),
  (u'say', 0.003),
  (u'plans', 0.003),
  (u'says', 0.003),
  (u'law', 0.003),
  (u'lord', 0.003),
  (u'secretary', 0.003),
  (u'howard', 0.003),
  (u'court', 0.003),
  (u'leader', 0.003)],
 [(u'games', 0.009),
  (u'mobile', 0.008),
  (u'technology', 0.007),
  (u'phone', 0.006),
  (u'video', 0.005),
  (u'use', 0.005),
  (u'game', 0.004),
  (u'show', 0.004),
  (u'could', 0.004),
  (u'get', 0.004),
  (u'phones', 0.004),
  (u'bbc', 0.004),
  (u'first', 0.004),
  (u'like', 0.004),
  (u'time', 0.003),
  (u'news', 0.003),
  (u'many', 0.003),
  (u'says', 0.003),
  (u'hunting', 0.003),
  (u'digital', 0.003)],
 [(u'game', 0.007),
  (u'club', 0.006),
  (u'chelsea', 0.006),
  (u'players', 0.005),
  (u'united', 0.005),
  (u'league', 0.005),
  (u'football', 0.0

Analizando los resultados, es posible determinar el tema de que hablan los tópicos, o una corriente de lo que podrían estar hablando. Esto es una gran mejora sobre el modelo LDA pues se puede tener, sin conocimiento experto, una idea de que son los documentos que tienen esos tópicos. Así, dado los 5 tópicos generales se obtuvo:

* **Tópico 1:** las palabras con mayor presencia en el tópico son *government* con 0.008, *blair* con 0.006 y *labour* con 0.005. Se pueden ver otras palabras como ministro, elección, prime, law, bbc, que uno puede relacionar con el tópico de **política**.

* **Tópico 2:** las palabras con mayor presencia en el tópico son *games* 0.01,  *games* con 0.008 y *technology* con 0.006. Se observan otras palabras como online, digital, video, network, industry, pudiendo asociar este tópico con algun tema de **tecnología**. El hecho de que las dos primeras palabras sean la misma (una plural y la otra singular) dice que falta hacer un proceso de stemming o lematización para agrupar palabras que significan lo mismo. En ese caso *game* tedría un mayor porcentaje dentro de ese tópico.

* **Tópico 3:** las palabras con mayor presencia en el tópico son *chelsea* con 0.006,  *game* con 0.006 y *club* con 0.006. Otras palabras como league, players, arsenal, cup, liverpool, football, permiten asociarle el tema de **deportes**, y más en específico de **football**.

* **Tópico 4:** las palabras con mayor presencia en el tópico son *film* con 0.009, *music* con 0.008 y *show* con 0.006. Más adelante se ven palabras como premio, banda, album y star, que se pueden relacionar con el área de **entretenimiento** (música, espectáculo, películas).

* **Tópico 5:** las palabras con mayor presencia en el tópico son *market* con 0.004, *could* con 0.004 y *many* con 0.004. Siendo market la única palabra que entrega sentido por si misma hay que observar el resto de las palabras para determinar algún tema latente dentro del tópico.  Otras palabras como comany, firm, growth, economy, bank y economic, agregan un valor semántico pudiendo determinar que el tema del tópico es **negocios**.

In [5]:
ldaseq.print_topics(time=1)

[[(u'government', 0.009),
  (u'blair', 0.006),
  (u'labour', 0.005),
  (u'minister', 0.005),
  (u'election', 0.005),
  (u'could', 0.004),
  (u'public', 0.004),
  (u'party', 0.004),
  (u'prime', 0.003),
  (u'brown', 0.003),
  (u'tax', 0.003),
  (u'say', 0.003),
  (u'plans', 0.003),
  (u'says', 0.003),
  (u'law', 0.003),
  (u'lord', 0.003),
  (u'secretary', 0.003),
  (u'howard', 0.003),
  (u'court', 0.003),
  (u'bbc', 0.003)],
 [(u'games', 0.009),
  (u'mobile', 0.008),
  (u'technology', 0.007),
  (u'phone', 0.006),
  (u'video', 0.005),
  (u'use', 0.005),
  (u'game', 0.004),
  (u'show', 0.004),
  (u'get', 0.004),
  (u'could', 0.004),
  (u'bbc', 0.004),
  (u'phones', 0.004),
  (u'first', 0.004),
  (u'like', 0.004),
  (u'time', 0.003),
  (u'news', 0.003),
  (u'many', 0.003),
  (u'says', 0.003),
  (u'hunting', 0.003),
  (u'digital', 0.003)],
 [(u'game', 0.008),
  (u'club', 0.006),
  (u'chelsea', 0.006),
  (u'players', 0.005),
  (u'united', 0.005),
  (u'league', 0.005),
  (u'football', 0.004)


Analizando los resultados, es posible determinar el tema de que hablan los tópicos, o una corriente de lo que podrían estar hablando. Esto es una gran mejora sobre el modelo LDA pues se puede tener, sin conocimiento experto, una idea de que son los documentos que tienen esos tópicos. Así, dado los 5 tópicos generales se obtuvo:

* **Tópico 1:** las palabras con mayor presencia en el tópico son *government* con 0.008, *blair* con 0.006 y *labour* con 0.005. Se mantienen las mismas palabras, cambiando algunas de posición.

* **Tópico 2:** las palabras con mayor presencia en el tópico son *games* con 0.01, *game* con 0.008 y *technology* con 0.006. Se mantienen las mismas palabras.

* **Tópico 3:** las palabras con mayor presencia en el tópico son *chelsea* con 0.006, *game* con 0.006, *club* con 0.006. Se mantienen las mismas top palabras, cambiando algunas de posición.

* **Tópico 4:** las palabras con mayor presencia en el tópico son *film* 0.009, *music* 0.008 y *show* 0.006. A diferencia de los tópicos pasados, hay un cambio en las palabras: *director* ya no aparece en las top-10 siendo remplazada por *british*.

* **Tópico 5:** las palabras con mayor presencia en el tópico son *market* con 0.004, *could* con 0.004 y *many* con 0.004. Se observan las mismas palabras y algunas cambian de orden.


In [6]:
ldaseq.print_topics(time=2)

[[(u'government', 0.009),
  (u'blair', 0.006),
  (u'labour', 0.005),
  (u'minister', 0.005),
  (u'election', 0.005),
  (u'could', 0.004),
  (u'public', 0.004),
  (u'party', 0.004),
  (u'prime', 0.003),
  (u'tax', 0.003),
  (u'brown', 0.003),
  (u'say', 0.003),
  (u'plans', 0.003),
  (u'says', 0.003),
  (u'law', 0.003),
  (u'lord', 0.003),
  (u'secretary', 0.003),
  (u'howard', 0.003),
  (u'court', 0.003),
  (u'leader', 0.003)],
 [(u'games', 0.009),
  (u'mobile', 0.008),
  (u'technology', 0.007),
  (u'phone', 0.006),
  (u'video', 0.005),
  (u'use', 0.005),
  (u'game', 0.004),
  (u'show', 0.004),
  (u'get', 0.004),
  (u'could', 0.004),
  (u'bbc', 0.004),
  (u'phones', 0.004),
  (u'first', 0.004),
  (u'like', 0.004),
  (u'time', 0.003),
  (u'news', 0.003),
  (u'many', 0.003),
  (u'says', 0.003),
  (u'hunting', 0.003),
  (u'digital', 0.003)],
 [(u'game', 0.007),
  (u'club', 0.006),
  (u'chelsea', 0.006),
  (u'players', 0.005),
  (u'united', 0.005),
  (u'league', 0.005),
  (u'football', 0.0

Analizando los resultados, es posible determinar el tema de que hablan los tópicos, o una corriente de lo que podrían estar hablando. Esto es una gran mejora sobre el modelo LDA pues se puede tener, sin conocimiento experto, una idea de que son los documentos que tienen esos tópicos. Así, dado los 5 tópicos generales se obtuvo:

* **Tópico 1:** las palabras con mayor presencia en el tópico son *government* con 0.008, *blair* con 0.006 y *labour* con 0.006, aumentado esta última en 0.001 respecto al corte temporal anterior. Se mantienen las mismas palabras.

* **Tópico 2:** las palabras con mayor presencia en el tópico son *games* con 0.009, *game* con 0.008 y *technology* con 0.006. Se mantienen las palabras y su orden dentro del tópico, pero games aumenta en 0.001 su presencia.

* **Tópico 3:** las palabras con mayor presencia en el tópico son *chelsea* con 0.006, *game* con 0.006 y *club* con 0.006. Se repiten las palabras con algunos cambios de posición. No aparecen palabras nuevas.

* **Tópico 4:** las palabras con mayor presencia en el tópico son *film* 0.009, *music* 0.008 y *show* 0.006. A diferencia de los tópicos pasados, hay un cambio en las palabras: *director* ya no aparece en las top-10 siendo remplazada por *british*.

* **Tópico 5:** las palabras con mayor presencia en el tópico son  *market* con 0.004, *could* con 0.004 y *many* con 0.004. Se ven las mismas palabra pero el cambio de orden es mayor a los cortes temporales anteriores.

En general las primeras palabras de cada tópico dan cuenta de qué es lo que se está hablando. Para el corpus analizado la distribución de palabras no cambia de forma significativa.

También se puede analizar un documento en particular y ver su distribución de tópicos.

In [7]:
words = [dictionaryDTM[word_id] for word_id, count in corpusDTM[558]]
print(words)
print(ldaseq[corpusDTM[558]])
#print(corpusDTM[558])

[u'held', u'set', u'away', u'taking', u'number', u'position', u'money', u'lord', u'industry', u'top', u'made', u'could', u'end', u'week', u'return', u'ended', u'second', u'box', u'final', u'took', u'broke', u'last', u'bill', u'taken', u'series', u'according', u'figures', u'provide', u'place', u'records', u'films', u'film', u'christmas', u'major', u'paul', u'title', u'much', u'years', u'king', u'help', u'however', u'estimates', u'competition', u'falling', u'produce', u'third', u'weve', u'robert', u'days', u'north', u'high', u'helped', u'success', u'stronger', u'history', u'ben', u'making', u'office', u'increase', u'cast', u'american', u'president', u'howard', u'meet', u'crown', u'rings', u'spot', u'parents', u'alone', u'weekend', u'day', u'record', u'events', u'comedy', u'starring', u'finished', u'chart', u'overall', u'previous', u'highest', u'hughes', u'stars', u'fourth', u'aviator', u'moved', u'sequel', u'studio', u'releases', u'revenue', u'industrys', u'dicaprio', u'leonardo', u'note

Tomando el documento 558 del corpus, se puede visualizar las palabras que contiene y la distribución de tópicos. El principal tema del que habla es de espectáculos, con un 92.9%, seguido de negocios con 5.7%, luego tecnología, política y deportes.. Se pueden ver palabras como *dicaprio*, *niro* y *studio* que podrían relacionarse con actores y películas y otras palabras como *american*, *president*, *money* y *lord* parte de temáticas de películas. El orden de los tópicos es un tanto inusual porque por el contenido se espería a que política tuviese una mayor presencia que el resto de los tópicos, equiparándose con espectáculo.

## LDAvis

(por problemas con el navegador LDAvis tenía problemas con javascript. Por lo mismo se tomaron capturas de pantalla por cada slide de tiempo)

Una vez obtenida la información de la distribución de tópicos y palabras para los tópicos dinámicos se puede ocupar el módulo de LDAvis. Para el mes de mes de marzo se tiene la siguiente visualización para la distribución de tópicos. Esta visualización nos permite identificar la cercanía que tienen los temas que se hablan en las noticias. Por ejemplo, el tópico 1 (política), el tópico 2 (economía y negocios) y el tópico 5 (tecnología) tienen una mayor relación entre si que con los temas de espectáculo y deportes. Es mucho más probable encontrar noticias cruzadas, por ejemplo una noticia que hable de "telecomunicaciones dentro de un país y cómo esto afecta las propuestas políticas a al país".

En términos de presencia en el corpus, el tópico 1 tiene una presencia de **26.7%**, el tópico 2 **24.6%**, tópico 3 **21.8%**, tópico 4 **17.5%** y el tópico 5 **9.4%**. Así, si se escogiera una noticia al azar, sería más probable que uno de los temas que estuviese hablando fuese de política.

![slile1](slide-1.png)

In [27]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=0, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

In [36]:
#print vis_dtm

Para el mes de abril se tiene la siguiente distribución. El porcentaje de tokens que abarca cada uno se mantiene igual.

![slile2](slide-2.png)

In [16]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=1, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

Para el mes de mayo se tiene la siguiente visualización de los tópicos.
![slile3](slide-3.png)

In [10]:
doc_topic, topic_term, doc_lengths, term_frequency, vocab = ldaseq.dtm_vis(time=2, corpus=corpusDTM)
vis_dtm = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency)
pyLDAvis.display(vis_dtm)

REVISAR

Si bien la distribución sobre los tokens no cambia en el tiempo, se puede ver que las palabras si cambian su frecuencia en los tres cortes temporales. Por ejemplo, *film* tiene una frecuncia mayor a 300 en el marzo, cercana a 300 en abril y bajo 250 en mayo. Esto nos quiere decir que el contenido es dinámico, no siempre se está hablando de lo mismo. Puede que para marzo haya habido buenos estrenos en cartelera y a los siguientes meses no haya salido nada muy relevante, por lo que bajaría la cantidad de veces que se menciona el tema. También se puede ver palabras como *phone* están dentro de las más descatadas y en abril y mayo no se encuentran.

Por lo tanto se puede ver un mejor modelamiento del comportamiento de las noticias en el tiempo.

LDAvis es una herramienta útil para la visualización ya que sin estas visualizaciones no se dimensiona la relación entre tópicos, la relevancia de palabras y qué tópicos abarcan más documentos y tokens en el corpus.

## ¿LDA O LDAseq (DTM) ?

Es una pregunta relevante pues siempre buscamos modelos que se ajusten mejor a los datos que analizamos. En este caso, no se puede hacer un análisis estático a algo que cambia en el tiempo como lo son los temas tratados en las noticias. Siempre hay temas que se tocan constantemente, como lo son política y espectáculos, pero otros fluctuan dependiendo de eventos particulares que hacen que se hable más de éstos. En este caso en particular los resultados obtenidos por LDAseq fueron mucho mejores a los entregados por el algoritmo LDA, y esto se condice con que las noticias no son estáticas. El modelo representa mucho mejor los tópicos pudiendo etiquetar a simple vista de qué trata cada uno.

La separación temporal ayuda a delimitar conjuntos de información del resto. Con un solo corte temporal (LDA) se trata de representar todos los temas y documentos en solo cinco tópicos. Por otro lado, con LDAseq los tres cortes temporales dan paso a 5 tópicos cada uno, pudiendo mostrar tópicos que están en un solo corte temporal, analizando si persisten o no en el tiempo, o si estos cambiando gradualmente.

Esta mejora de resultados tiene un costo en tiempo y procesamiento. El tiempo observado en entrenar con un modelo y otro distan casi en dos órdenes de magnitud. Es por esto que se deben buscar técnicas para mejorar este tiempo, como lo son computar los tópicos de forma paralela (multithreading) o distribuida[2]. También, se podría incursionar en técnicas mixtas como lo es mezclar LDA con algoritmos de clustering [2] para la detección de tópicos.


# Referencias

[1] Latent Dirichlet Allocation, Blei, David M. and Ng, Andrew Y. and Jordan, Michael I., J. Mach. Learn. Res., 2003. 

[2] Dynamic Topic Models, Blei, David M. and Lafferty, John D., Proceedings of the 23rd International Conference on Machine Learning, 113--120 (8), 2006.

[3] Scaling up Dynamic Topic Models

[4] Scalable Dynamic Topic Modeling with Clustered Latent Dirichlet Allocation (CLDA), Chris Gropp, Alexander Herzog, Ilya Safro, Paul W. Wilson and Amy W. Apon, *CoRR*, 2016,
