# Modelos de Tópicos: una revisión

- Probabilistic topic models, Blei, Communication ACM, 2012: https://doi.org/10.1145/2133806.2133826


- Latent Dirichlet Allocation, Blei,Ng y Jordan, The Journal of Machine Learning Research, 2003, https://dl.acm.org/doi/10.5555/944919.944937


- Dynamic topic models, Blei y Lafferty, 2006, https://dl.acm.org/doi/10.1145/1143844.1143859


- Efficient Estimation of Word Representations in Vector Space, Mikolov et al, ICLR 2013, https://arxiv.org/abs/1301.3781


- Attention word embedding, Sonkar et al 2020, https://arxiv.org/abs/2006.00988


- Topic Modeling in Embedding Spaces, Dieng, Ruiz y Blei, 2019, https://arxiv.org/abs/1907.04907


- The Dynamic Embedded Topic Model, Dieng, Ruiz y Blei, 2019-21, http://arxiv-export-lb.library.cornell.edu/pdf/1907.05545v2


- Global Surveillance of COVID-19 by mining news media using a multi-source dynamic embedded topic model,Li et al,  BCB 2020, https://dl.acm.org/doi/10.1145/3388440.3412418



El modelamiento probabilista de tópicos busca  descubrir la distribución de los tópicos principales en una colección de documentos no estructurados:

<img src="modelo.png" width=500 height=200>



- Algoritmos no tienen informaciones a priori (no consideran etiquetas/labels/clases)

- Algoritmo clásico: Latent Dirichlet Allocation, modelo de "bolsa de palabras" (BOW)


Usualmente, los tópicos se caracterizan por sus palabras mas frecuentes y cada documento por su distribución de tópicos. Ejemplos:

<img src="f1.jpg" width=600 height=300>

<img src="f2.jpg" width=600 height=300>

<img src="f3.png" width=600 height=300>

**Datos de entrada en un modelo probabilista de tópicos:**

- una representación vectorial de un conjunto de documentos: 
       - Bag-of-Words (ej: tf-idf)
       - Word Embeddings (ej: word2vec) 

- un diccionario (el vocabulario)


## Latent Dirichlet Allocation

Dado un número de tópicos definido por el analista ($K$), el modelo permite asociar una distribución de tópicos $\theta_d$ a cada documento $d$ y al mismo tiempo, la distribución de palabras $\beta_k$ en cada tópico $k$.

Así, cada documento queda definido (es generado por)  por una distribución de tópicos, que es una probabilidad discreta: 

$$\theta_d \sim Dirichlet(\alpha_{1:K})\qquad d=1,\cdots,D$$

$$P(\theta_d=(\theta_{d,1},\cdots,\theta_{d,K})) \propto \theta_{d,1}^{\alpha_1}\theta_{d,2}^{\alpha_2}\cdots \theta_{d,K}^{\alpha_K}\qquad\qquad
\sum_{k=1}^K \theta_{d,k} = 1\qquad \theta_{d,k} \geq 0 \,\,\forall k$$

Y cada tópico queda definido (es generado por) por una probabilidad discreta sobre el vocabulario del Corpus (de dimensión $N$) que cumple:

$$\beta_k \sim Dirichlet(\eta_{1:N})\qquad k=1,\cdots,K$$

$$P(\beta_k=(\beta_{k,1},\cdots,\beta_{k,N})) \propto \beta_{k,1}^{\eta_1}\beta_{k,2}^{\eta_2}\cdots \beta_{k,N}^{\eta_N}\qquad\qquad
\sum_{i=1}^N \beta_{k,i} = 1\qquad \beta_{k,i}\geq 0 \,\,\forall i$$


El proceso generativo consiste en lo siguiente: 

1) Dados valores para las distribuciones que definen los tópicos: $\beta_1,\cdots \beta_K$ y los valores para las distribuciones de tópicos en los documentos: $\theta_1,\cdots \theta_D$ 

2) La n-ésima palabra $w_{d,n}$ en el documento $d$, se genera con el siguiente proceso:

Sea $z_{d,n}$ la v.a. que representa el tópico asociado a la n-ésima palabra $w_{d,n}$, el valor que toma $z_{d,n}$ se genera de acuerdo a la distribución:
$$z_{d,n}\sim Mult(\theta_d)$$

supongamos que el tópico asignado sea $z_{d,n} =k$, entonces la palabra $w_{d,n}=w$ se genera de acuerdo a la distribución

$$w_{d,n} \sim Mult(\beta_k) $$



<img src="simplex.png" width=600 height=400>

**Proceso generador de las palabras en cada documento**

Sean 
-  $\beta_{1:K}$ conjunto de $K$ tópicos 
-  $\theta_d$ distribución de tópicos en el documento $d$
-  $z_{d,n}$ tópico asignado a palabra $n-$ésima en $d$
-  $w_{d,n}$ la $n-$ésima palabra observada en $d$

Entonces

$$ p(\beta_{1:K},\theta_{1:D},z_{1:N},w_{1:N}) = \prod_{k=1}^K p(\beta_k) \prod_{d=1}^D p(\theta_d)\left(\prod_{n=1}^{N_d} p(z_{d,n} \mid \theta_d) p(w_{d,n}\mid \beta_{1:K},z_{d,n})\right)$$
dónde $$\theta_d \sim Dirichlet(\alpha_{1:K})  \qquad \beta_k \sim Dirichlet(\eta_{1:N})$$
    y $$z_{d,n} \mid \theta_d \sim Mult(\theta_d) \qquad  w_{d,n} \mid z_{d,n},\beta_{1:K} \sim Mult(\phi_{z_{d,n}})$$
    
  



<img src="f4.png" width=600 height=300>

### Cálculo de la distribución a posteriori
Para descubrir la estructura oculta del modelo, se debe calcular la distribución a posteriori de los parámetros del modelo, esto es:

$$p(\beta_{1:K},\theta_{1:D},z_{1:N}\mid w_{1:N}) = \frac{p(\beta_{1:K},\theta_{1:D},z_{1:N},w_{1:N})}{p(w_{1:N})}$$

por la propiedad de natural conjugada de la distribución de Dirichlet con respecto a la distribución Multinomial, el numerador de esta expresión es fácilmente calculable. No es el caso del denominador, que considera todas las posibles estructuras de tópicos, lo que crece exponencialmente con el número de tópicos, tamaño del vocabulario y número de documentos.

Se consideran dos formas de aproximar la distribución a posteriori:




**i) mediante técnicas de muestreo**
que se basan en construir una cadena de Markov, cuya distribución en el equilibrio es la distribución a posteriori. De esta forma, se obtiene una muestra de la cadena de markov, que se asume (en el equilibrio) proviene de la distribución buscada. El caso mas conocido es Gibbs Sampling.

**ii) mediante calculo variacional**
que considera una familia de distribuciones parametrizadas que se acercan a la   la distribución a posteriori, y el problema a resolver, es encontrar los parámetros que minimizan la distancia a la distribución buscada.

### Evaluación de la Calidad de los Tópicos

**i) Perplejidad:**
Esta medida se considera intrínseca y proviene del modelamiento probabilista realizado. Su expresión es:

$$perplejidad(D_{test}) = exp\left\{-\frac{\prod_{d=1}^D log(p(w_d))}{\sum_{d=1}^D N_d}\right\}$$

Para utilizarla se debe considerar un conjunto de entrenamiento y otro de test. De manera que la perplejidad se interpreta como una medida de robustez de la estructura de tópicos definida. 
Es inversamente proporcional a la verosimilitud de los nuevos datos. A menor valor de perplejidad mas robusto el modelo.


**ii) Métricas de Coherencia:**

Probabilidad condicional que dos palabras aparezcan juntas 
(idealmente en un dataset de referencia)

Existen muchas métricas de coherencia. Como por ejemplo:

**Coherencia UMass**, propuesta por por Minmo et al(2011):

$$C_{umass}= \frac{2}{N(N-1)}\sum_{i=2}^N \sum_{j=1}^{i-1} log \frac{p(w_i,w_j)}{p(w_j)}$$

Para cada tópico se calcula su coherencia considerando las N top words del mismo. En este caso, se utilizan las probabilidades calculadas a partir del corpus en estudio.

## Modelos  de tópicos dinámicos

El objetivo de los modelos de tópicos dinámicos  es estudiar la deriva de los conceptos al interior de los tópicos.
En <a href="https://mimno.infosci.cornell.edu/info6150/readings/dynamic_topic_models.pdf"> Blei y Lafferty (2006)</a> se estudia el caso de las publicaciones científicas en la revista Science. Se consideraron 30,000 articulos, 250 en cada uno de los 120 años desde 1881 y 1999. Y se busca predecir los tópicos (la variación al interior de cada uno) en el año siguiente (2000).

El tipo de resultados que obtienen es el siguiente:

#### Tópico Física Atómica

<img src="topicos1.png" width=800 height=200>
<img src="topicos2.png" width=800 height=200>


#### Tópico Neurociencia

<img src="topicos3.png" width=800 height=200>
<img src="topicos4.png" width=800 height=200>


Para modelar la evolución temporal de tópicos $k, k=1,\cdots K$ se definen franjas (slices) de tiempo t y se reemplazan las distribuciones a priori Dirichlet  por **Logistic Normal**  en dos pasos:

$$\beta_{t,k} \mid \beta_{t-1,k} \sim {\cal{N}}(\beta_{t-1,k}, \sigma^2 I_{NxN}), \qquad k=1,\cdots K$$

que se mapea en el simplex mediante la transformación logística, también denominada *softmax*:

$$\pi(\beta_{t,k})_w = \frac{exp(\beta_{t,k,w})}{\sum_{w \in W} exp(\beta_{t,k,w})}\qquad k=1,\cdots K$$


donde $|W| =N$.

Y lo mismo se realiza para la evolución temporal de la distribución de tópicos:

$$\alpha_t \mid \alpha_{t-1} \sim {\cal{N}}(\alpha_{t-1}, \delta^2 I_{KxK})$$


De esta manera se propone el siguiente proceso generativo secuencial:

1. Generar tópicos 

$$\beta_{t,k} \mid \beta_{t-1,k} \sim {\cal{N}}(\beta_{t-1}, \sigma^2 I_{NxN})$$

y las respectivas funciones logísticas: 

$$\phi_{t,k} = \pi(\beta_{t,k})_w = \frac{exp(\beta_{t,k,w})}{\sum_{w \in W} exp(\beta_{t,k,w})}\qquad k=1,\cdots K$$

2. Generar

$$\alpha_t \mid \alpha_{t-1} \sim {\cal{N}}(\alpha_{t-1}, \delta^2 I_{KxK})$$


3. Por cada documento:

    (a) Generar $\theta_d \sim {\cal{N}}(\alpha_{t_d}, \delta^2 I_{KxK}))$
    
    (b) Por cada palabra $n$ en el documento $d$, generar
        
$$z_{d,n} \sim Mult(\pi(\theta_d)) \qquad \text{y} \qquad w_{t_d,n} \sim Mult(\phi(t_d,z))$$


<img src="dtm.png" width=600 height=400>         


En este caso, la expresión de la distribución a posteriori 

$$p(\phi_{1:T},\theta_{1:D},z_{1:N}\mid w_{1:N}) = \frac{p(\phi_{1:T},\theta_{1:D},z_{1:N}, w_{1:N}) }{p(w_{1:N})}$$

no es fácilmente calculable, incluso el numerador, debido a que la Normal Logistic no es natural conjugada de la distribución Multinomial.

Es por ello que se recurre a métodos variacionales para aproximar la distribución a posteriori por una distribución cuyos parámetros se ajustan para que tenga mínima distancia de KL con la distribución a posteriori.



De la formulación teórica, los parámetros que se requiere definir al realizar las aproximaciones son:

- $\sigma^2$ variance chain: es el parámetro que define la magnitud del ruido gaussiano que modela la variación temporal de los tópicos

- $\alpha =(\alpha_1,\cdots ,\alpha_K)$ es el vector de parámetros de la distribución Dirichlet, que modela la variabilidad de tópicos en cada documento. Valores menores que uno y cercanos a 0 representan poca variabilidad entre tópicos.

**Limitaciones del Modelo de Tópicos Dinámicos**

- el número de tópicos no cambia en el tiempo
- no interpreta automáticamente el significado de los tópicos (se requiere la interpretación del humano, no elimina subjetividad)
- modela tópicos según nuestros a priori (Número de tópicos, variance chain)


## Métodos de Word Embedding 

Los métodos de word embedding se construyen en base a grandes corpus de documentos que permiten entrenar redes neuronales artificiales con diversas arquitecturas, de tal forma que se consideran **los pesos de la capa interna de la red** como la representación de cada palabra.

**Continuous bag-of-words (CBOW):** En este caso la tarea de la red neuronal es predecir una palabra dada su contexto.

En este caso, para el cálculo de la verosimilitud de una palabra   $w_n$ se considera:

$$w_n \sim softmax(\rho^T \alpha_{d_n})$$

donde $\rho \in M_{LxN}$ es la matriz que contiene en sus columnas el vector de embedding  de cada palabra del vocabulario y $\alpha_{d_n} \in R^L$ es el vector de contexto correspondiente a la suma de los vectores de embedding de las palabras en el contexto de la palabra $w_n$.

**Skip-gram (SG)** La red neuronal asociada tiene como tarea predecir las palabras del contexto de una palabra dada.


<img src="modelos_embedding.png" width=600 height=500>         



<img src="skip-gram.png" width=600 height=500>

*imagen proveniente de Tesis de Magíster de Pablo Badilla, U. de Chile*

Las funciones objetivos mas utilizadas para optimizar estas redes neuronales artificiales son:

- Softmax jerárquico

- Negative sampling 

La biblioteca *word2vec* implementa CBOW y SG

Otras arquitecturas de red y funciones objetivo definen otros métodos de word embedding:

- Glove (global vectors): considera el contexto global de cada palabra en la función de optimización, no sólo el contexto local


- Lexvec (Lexical vectors): incorpora la medida PPMI (positive point-wise mutual information) en la optimización de la arquitectura skip-gram.


- FastText: incorpora los n-gramas que componen una palabra.


- ConceptNet: considera la elaboración de un grafo de conocimiento (en base a diversas fuentes) con las palabras del vocabulario que se utiliza para el ajuste de la red neuronal.


**Limitaciones de modelos de word embedding*:

- Las redes pre-entrenadas para generar la representación vectorial dependen fuertemente de los corpus utilizados.

- Mayormente desarrollados en inglés. Algunas iniciativas en español.

**Attention Word Embedding (AWE)**

Incorpora mejoras en el proceso de optimización en CBOW de manera que el vector de contexto que se utiliza para definir la función objetivo no le de la misma importancia a todas las palabras del contexto, ajustando pesos distintos de las palabras en el contexto de la palabra a predecir mediante mecanismos de atención (matrices key y query).

Existe también una versión AWE-S que considera cada palabra descompuesta en n-gramas.


## Embedding Topic Models (ETM)


En este caso se propone el siguiente proceso generativo secuencial:


1. Por cada documento generar la distribución de tópicos de una **Logistic Normal**:

$$\theta_d \sim {\cal{LN}}(0,I_{KxK})$$
    
2. Por cada documento $d$ generar la palabra $n$ de la manera siguiente:

    a. Asignar un tópico:
    
    $$z_{d,n} \sim Mult(\theta_d)$$
    
    b. Generar la palabra:
    
    $$w_{d,n} \sim Mult(softmax(\rho^T \alpha_{z_{d,n}}))$$
    
donde $\rho \in M_{LxN}$ es la matriz que contiene en sus columnas el vector de embedding  de cada palabra del vocabulario y $\alpha_{z_{d_n}} \in R^L$ es el vector de embedding del tópico $z_{d,n}$.
        
<img src="etm.png" width=600 height=200>            

Como en los modelos anteriores, las distribuciones a posteriori no tienen expresiones analíticas, por lo que se recurre a la Inferencia Variacional para aproximarlas.

Los resultados de ETM  mejoran sustancialmente el desempeño de LDA al aumentar el tamaño del vocabulario.


<img src="etm_vs-lda.png" width=400 height=400>       

## Dynamic Embedding Topic Models (D-ETM)

En este caso, el proceso generativo secuencial se define como sigue:

1. Generar vectores de embedding iniciales para cada tópico:

$$\alpha_{k}^0 \sim {\cal N} (0, I_{LxL})$$


2. Generar proporción media de tópicos inicial:

$$\eta_0 \sim {\cal N} (0, I_{KxK})$$


3. Por cada franja de tiempo $t= 1, \cdots, T$:

    a. Generar vectores de embedding por cada tópico $ k=1,\cdots,K$: 
    
    $$\alpha_{k}^{(t)} \sim {\cal N} (\alpha_{k}^{(t-1)}, \gamma^2 I_{LxL})$$
        
    b. Generar proporción media de tópicos:

    $$\eta_t \sim {\cal N} (\eta_{t-1}, \delta^2 I_{KxK})$$

4. Por cada documento:

    a.Generar la distribución de tópicos de una **Logistic Normal**:

    $$\theta_d \sim {\cal{LN}}(\eta_{t_d},I_{KxK})$$
    
    b. Generar la palabra $n$ de la manera siguiente:

      i. Asignar un tópico:
    
    $$z_{d,n} \sim Mult(\theta_d)$$
    
      ii. Generar la palabra:
    
    $$w_{d,n} \sim Mult \left(softmax(\rho^T \alpha_{z_{d,n}}^{(t_d)})\right)$$
    
donde $\rho \in M_{LxN}$ es la matriz que contiene en sus columnas el vector de embedding  de cada palabra del vocabulario y $\alpha_{z_{d_n}}^{(t_d)} \in R^L$ es el vector de embedding del tópico $z_{d,n}$ en la franja de tiempo $t_d$.
        
        
<img src="detm.png" width=400 height=300>    

La inferencia en este caso es nuevamente por aproximación numérica del problema de optimización, es decir inferencia variacional.


**Ejemplos**
<img src="ejemplo2_detm.png" width=800 height=200>    
<img src="ejemplos_detm.png" width=800 height=300>    

Los resultados de D-ETM mejoran en la mayor parte de los casos el desempeño de D-LDA y D-LDA-REP:

<img src="ejemplo3_detm.png" width=600 height=200>

<img src="ejemplo4_detm.png" width=600 height=200>


Topic Coherence (TC): considerando las top N palabras de cada tópico.

Topic Diversity (TD):  es el porcentaje de palabras únicas en las top 25 palabras de cada tópico.

Topic Quality (TQ): es el producto de TC y TD.



## Variaciones de D-ETM

Modelos propuestos en *Global Surveillance of COVID-19 by mining news media using a multi-source dynamic embedded topic model*,Li et al, BCB 2020, https://dl.acm.org/doi/10.1145/3388440.3412418

<img src="modelo_Li.png" width=800 height=400>

<img src="ejemplo_nuevo.png" width=800 height=400>

<img src="ejemplo_clases.png" width=400 height=600>