# 20 - Latent Dirichlet Allocation


* El LDA, es un ***modelo probabilístico*** que se enmarca dentro de los ***modelos generativos*** ya que trata de describir como se crea un documento. (http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf)


* El LDA propone que ***un documento se crea mediante la selección de los temas y las palabras de acuerdo a las representaciones probabilísticas del texto natural del documento***.


* El LDA calcula **dos matrices de probabilidad P(w|z) y P(z|θ)**, donde:

    - **P(w|z)**: es la probabilidad de que dado un tema salga una palabra
    - **P(z|θ)**: es la probabilidad de que un documento pertenezca a un tema.
    
    
$$ P(w|\theta) = \sum_{z \in  Z} P(w | z) \cdot P(z|\theta) $$


* ***NOTA***: *existe otro modelo llamado PLSI (Probabilistic Latent Semantic Index) que se enmarca dentro de los modelos probabilísticos (al igual que el LDA) y es el enfoque probabilístico del LSI (siguiendo una distribución uniforme).*


* La representación en "*Plate Notaticon*" del LDA es la siguiente:


<img src="./imgs/018_LDA_Plate_Notation.png" style="width: 400px;"/>


* Siendo

    + ***K***: Número de temas. 
    + ***N***: Número de palabras
    + ***M***: Número de documentos: 
    + ***α***: Parámetro de Dirichlet. Este parámetro es un vector de K componentes que describe el conocimiento a priori que se tiene sobre como los temas se distribuyen en los documentos. 
        * Pocos temas -> Valor de α pequeño
        * Muchos temas  -> Valor de α grande
    + ***Β***: Parámetro de Dirichlet. Este parámetro es un vector de N componentes que describe el conocimiento a priori que se tiene sobre como las palabras se distribuyen en cada tema. 
        * Tema con pocas palabras -> Valor de Β cercano a cero
        * Tema con muchas palabras -> Valor de Β cercano a uno
    + ***θ***: Distribución de probabilidad de que un documento pertenezca a un tema. 
    + ***Z***: Distribución de probabilidad de que una palabra pertenezca a un tema. 
    + ***W***: Identifica todas las palabras en todos los documentos.
    + ***φ***: Distribución de probabilidad de que dado un tema salga una palabra.
    

* ***NOTA***: Si los parámetros ***α y Β*** de la distribución de dirichlet son ***igual a '1'***, el ***LDA se comportaría de la misma manera que el PLSI ya que la distribución de Dirichlet con esos parámetros se comportaría como una distribución uniforme***.


* Haciendo una analogía con el LSI, el ***LDA nos tienen que proporcionar***:
    - Matriz de probabilidades "***Temas-Palabras***": Nos indica la probabilidad de que dado un tema, salga una palabra. 
    - Matriz de probabilidades "***Documentos-Temas***": Nos indica la probabilidad de que un documento pertenezca a un tema.
    
    
* De esta manera podemos ver las relaciones entre palabras y entre documentos.


* ***CUIDADO***: *El LDA trabaja con distribuciones de probabilidad que representan la probabilidad de pertenencia de cada palabra o documento a cada tema. Estas distribuciones de probabilidad no tienen que ser tratadas como vectores de factores latentes (como en el LSI) para calcular similaridades entre documentos, ya que al tratarse de distribuciones de probabilidad no hay que aplicar medidas de distancias para calcular similaridades; si no la ***Divergencia de Kullback-Liebler (KL)*** para estudiar las similaridades entre distribuciones de probabilidad.*


$$ KL(p ||q) = \sum_{i}p(i)ln \frac{p(i)}{q(i)} $$


<hr>


# Ejemplo de LDA con Gensim


* Veamos a continuación un ejemplo sencillo sobre el siguiente Corpus del cual podemos ver que habla de 3 temas:
    - Fútbol
    - Política
    - Economía

In [1]:
import warnings
warnings.filterwarnings('ignore')

corpus = ["balon balon balon futbol futbol liga liga liga ronaldo ronaldo ronaldo ronaldo ronaldo messi",
          "futbol futbol futbol futbol futbol ronaldo ronaldo ronaldo ronaldo messi messi",
          "balon balon futbol futbol futbol futbol futbol futbol futbol messi messi messi messi messi",
          "politica politica politica politica pp pp pp pp pp pp rajoy rajoy rajoy rajoy rajoy",
          "politica politica politica politica pp pp pp psoe psoe psoe psoe zapatero zapatero zapatero rajoy",
          "politica politica politica politica psoe psoe psoe psoe psoe psoe zapatero zapatero zapatero zapatero zapatero ",
          "dinero fmi fmi fmi fmi fmi ue ue ue ue pib pib pib ibex ibex",
          "zapatero rajoy dinero dinero dinero dinero fmi fmi fmi fmi ue ue ue ue pib",
          "pp psoe zapatero rajoy dinero dinero dinero dinero fmi fmi fmi fmi ue ue ue ",
          "futbol politica pib",
          "futbol zapatero liga rajoy"]


## Creamos el Diccionario y la Matriz (Bolsa de Palabras)

In [2]:
from pprint import pprint
from gensim import corpora
from collections import defaultdict

# Tokenizamos
documents = [word.split() for word in corpus]

# Creamos el diccionario (vocabulario)
frequency = defaultdict(int)
for doc in documents:
    for token in doc:
        frequency[token] += 1
        
documents = [[token for token in doc] for doc in documents]
dictionary = corpora.Dictionary(documents)
print('Diccionario:')
pprint(dictionary.token2id)


# Creamos la Bolsa de Palabras
corpus = [dictionary.doc2bow(doc) for doc in documents]
print('\nBolsa de Palabras:')
pprint(corpus)

Diccionario:
{'balon': 0,
 'dinero': 10,
 'fmi': 11,
 'futbol': 1,
 'ibex': 12,
 'liga': 2,
 'messi': 3,
 'pib': 13,
 'politica': 5,
 'pp': 6,
 'psoe': 8,
 'rajoy': 7,
 'ronaldo': 4,
 'ue': 14,
 'zapatero': 9}

Bolsa de Palabras:
[[(0, 3), (1, 2), (2, 3), (3, 1), (4, 5)],
 [(1, 5), (3, 2), (4, 4)],
 [(0, 2), (1, 7), (3, 5)],
 [(5, 4), (6, 6), (7, 5)],
 [(5, 4), (6, 3), (7, 1), (8, 4), (9, 3)],
 [(5, 4), (8, 6), (9, 5)],
 [(10, 1), (11, 5), (12, 2), (13, 3), (14, 4)],
 [(7, 1), (9, 1), (10, 4), (11, 4), (13, 1), (14, 4)],
 [(6, 1), (7, 1), (8, 1), (9, 1), (10, 4), (11, 4), (14, 3)],
 [(1, 1), (5, 1), (13, 1)],
 [(1, 1), (2, 1), (7, 1), (9, 1)]]


## Creamos el Modelo:

* Gensim tiene implementado el LDA en la clase ***LdaModel***: https://radimrehurek.com/gensim/models/ldamodel.html


* Como parámetros relevantes necesita:
    1. Corpus
    2. Número de Topics
    3. Diccionario o Vocabulario del Corpus

In [3]:
from gensim.models import LdaModel

lda_model = LdaModel(corpus=corpus, num_topics=3, id2word=dictionary, random_state=168)

## Matriz de probabilidades "***Documentos-Temas***"


* Obtenemos la probabilidad de que cada documento pertenezca a uno de los 3 temas de la siguiente manera:

In [4]:
import numpy as np

docs_topics = np.array([[tup[1] for tup in lst] for lst in lda_model[corpus]])
docs_topics

array([[0.9554772 , 0.022272  , 0.02225077],
       [0.944366  , 0.02783236, 0.02780169],
       [0.9554879 , 0.02226957, 0.02224254],
       [0.02196668, 0.95660496, 0.02142834],
       [0.02129494, 0.9568262 , 0.02187884],
       [0.02108418, 0.95666164, 0.02225416],
       [0.02096967, 0.02090394, 0.9581264 ],
       [0.02129548, 0.02190296, 0.95680153],
       [0.02175925, 0.03364885, 0.9445919 ],
       [0.4718744 , 0.2247417 , 0.3033839 ],
       [0.6306029 , 0.2962572 , 0.07313989]], dtype=float32)

* Se puede observar que nos devuelve para cada documento la probabilidad de que el documento pertenezca a cada tema y que es un vector de probabilidades ya que la suma de las probabilidades es igual a '1'.


* Para ver los factores de cada una de las palabras lo vamos a mostrar de la siguiente manera:

In [5]:
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format

index = ['Doc {}'.format(i+1) for i,doc in enumerate(documents)]
pd.DataFrame(docs_topics, index=index, columns=['Topic 1', 'Topic 2', 'Topic 3']).head(11)

Unnamed: 0,Topic 1,Topic 2,Topic 3
Doc 1,0.96,0.02,0.02
Doc 2,0.94,0.03,0.03
Doc 3,0.96,0.02,0.02
Doc 4,0.02,0.96,0.02
Doc 5,0.02,0.96,0.02
Doc 6,0.02,0.96,0.02
Doc 7,0.02,0.02,0.96
Doc 8,0.02,0.02,0.96
Doc 9,0.02,0.03,0.94
Doc 10,0.47,0.22,0.3


## Matriz de probabilidades "***Temas-Palabras***"


* Obtenemos la probabilidad de que dado uno de los 3 temas aparezca una de las 15 palabras. Al igual que en la matriz anterior la suma de todas las probabilidades de las palabras en un tema tiene que sumar '1'.


* A continuación obtenermos la probabilidad de que dado un tema aparezca una palabra:

In [6]:
words_topics = lda_model.get_topics()
words_topics

array([[0.09317529, 0.2825838 , 0.07501986, 0.1452651 , 0.16276391,
        0.0490766 , 0.04666363, 0.06846386, 0.00649099, 0.02347384,
        0.00656333, 0.00695537, 0.00597146, 0.02105449, 0.00647842],
       [0.01013354, 0.01513252, 0.01031095, 0.01078796, 0.0107012 ,
        0.23358683, 0.19990145, 0.10726745, 0.18813144, 0.15640432,
        0.01078725, 0.01139278, 0.00977445, 0.01385722, 0.01183053],
       [0.00595078, 0.00705412, 0.00637553, 0.00625577, 0.00640783,
        0.05120306, 0.02275785, 0.03977363, 0.08520257, 0.08768231,
        0.15633696, 0.2232125 , 0.03918657, 0.07299459, 0.18960598]],
      dtype=float32)

* De manera más clara los mostramos en una tabla:

In [7]:
pd.DataFrame(words_topics, index=['Topic 1', 'Topic 2', 'Topic 3'], columns=dictionary.token2id.keys()).head()

Unnamed: 0,balon,futbol,liga,messi,ronaldo,politica,pp,rajoy,psoe,zapatero,dinero,fmi,ibex,pib,ue
Topic 1,0.09,0.28,0.08,0.15,0.16,0.05,0.05,0.07,0.01,0.02,0.01,0.01,0.01,0.02,0.01
Topic 2,0.01,0.02,0.01,0.01,0.01,0.23,0.2,0.11,0.19,0.16,0.01,0.01,0.01,0.01,0.01
Topic 3,0.01,0.01,0.01,0.01,0.01,0.05,0.02,0.04,0.09,0.09,0.16,0.22,0.04,0.07,0.19


## Palabras (terminos) más representativas de un tema (topic)


* Dado que podemos obtener la probabilidad de que dada una palabra (termino) esta pertenezca a un tema (topic), podemos obtener las palabras más representativas por topic de la siguiente manera: 

In [8]:
dictionary.id2token
for i in range(3):
    print('\nTopic {i}'.format(i=i+1))
    pprint([dictionary.id2token[term[0]] for term in lda_model.get_topic_terms(i)[0:5]])


Topic 1
['futbol', 'ronaldo', 'messi', 'balon', 'liga']

Topic 2
['politica', 'pp', 'psoe', 'zapatero', 'rajoy']

Topic 3
['fmi', 'ue', 'dinero', 'zapatero', 'psoe']


<hr>


## Topics & Terms


* Gensim nos devuelve un "formula" por tema (Topic) que aplicada a las apariciones de las palabras en los documentos nos indica la pertenencia del nuevo documento a ese tema. El que mayor valor tenga tras aplicar la fórmula del tema al documento significará que tiene mayor propensión a pertenecer a ese tema.


* Si os fijáis esa fórmula la construye como el sumatorio de la aparición de la palabra en el documento, multiplicado por la probabilidad de que en ese temá aparezca esa palabra:

In [9]:
lda_model.print_topics(num_words=15)

[(0,
  '0.283*"futbol" + 0.163*"ronaldo" + 0.145*"messi" + 0.093*"balon" + 0.075*"liga" + 0.068*"rajoy" + 0.049*"politica" + 0.047*"pp" + 0.023*"zapatero" + 0.021*"pib" + 0.007*"fmi" + 0.007*"dinero" + 0.006*"psoe" + 0.006*"ue" + 0.006*"ibex"'),
 (1,
  '0.234*"politica" + 0.200*"pp" + 0.188*"psoe" + 0.156*"zapatero" + 0.107*"rajoy" + 0.015*"futbol" + 0.014*"pib" + 0.012*"ue" + 0.011*"fmi" + 0.011*"messi" + 0.011*"dinero" + 0.011*"ronaldo" + 0.010*"liga" + 0.010*"balon" + 0.010*"ibex"'),
 (2,
  '0.223*"fmi" + 0.190*"ue" + 0.156*"dinero" + 0.088*"zapatero" + 0.085*"psoe" + 0.073*"pib" + 0.051*"politica" + 0.040*"rajoy" + 0.039*"ibex" + 0.023*"pp" + 0.007*"futbol" + 0.006*"ronaldo" + 0.006*"liga" + 0.006*"messi" + 0.006*"balon"')]

<hr>


# Visualización


* Existe una librería llamada "***pyLDAvis***" que nos permite visualizar las relaciones entre los temas (topic) y dentro de cada tema la importancia de sus palabras (terms).


* La parte de visualización de esta librería nos permite ver:
    - Parte Izquierda: Visualización de los temas en función de dos componentes (2 Dimensiones)
    - Parte Derecha: Seleccionado un Topic, podemos ver las palabras (terms) más relevantes de ese tema y la frecuencia con la que aparecen tanto en el corpus como en el tema.
    
    
* En esta visualización podemos apreciar como se distinguen los tres temas claramente ya que las dos componentes que las definen son claramente distintas.

In [10]:
import pyLDAvis
import pyLDAvis.gensim

vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
pyLDAvis.display(vis)