# Inferencia en LDA
El problema de inferencia a resolver para usar LDA es el cálculo de la distribución a posteriori:
$$p(\theta, {\bf z} \mid {\bf w},\alpha,\beta) = \frac{p(\theta, {\bf z} , {\bf w}\mid \alpha,\beta)}{p({\bf w}\mid \alpha,\beta)}$$
dónde 
$$p(\theta, {\bf z}, {\bf w}\mid \alpha,\beta)= p(\theta \mid \alpha) \prod_{n=1}^N p(z_n\mid \theta) p(w_n\mid z_n,\beta)$$
siendo $N$ el número de palabras en el documento,
$${\bf z} = (z_1,...,z_N),\qquad {\bf w} = (w_1,...,w_N)$$
$$z_n = (0,0,...,1,...,0) \in \{0,1\}^K$$ con 
$z_n^i =  1$ si la n-ésima palabra es asignada al tópico i, 
0 si no.
$$\,$$
$$z_n \sim Multinomial(\theta)$$ entonces
$$p(z_n \mid \theta) = \frac{1!}{0!...1!...0!}\prod_{i=1}^K \theta_i^{z_n^i
}= \theta_i \qquad cuando \qquad z_n^i = 1$$
De manera equivalente se define
$$w_n = (0,0,...,1,...,0) \in \{0,1\}^V$$ con 
$w_n^j =  1$ si la n-ésima palabra corresponde a la j-ésima palabra del vocabulario, 
0 si no.
$$\,$$
Por otra parte, se define 
$$\beta_{ij} = p(w_n^j = 1 \mid z_n^i =1),\qquad i = 1,...K, j= 1,...,V$$

Así,si $z_n^i =1$ entonces $w_n \sim Multinomial(\beta_i)$, es decir:

$$p(w_n \mid z_n,\beta) = \frac{1!}{0!...1!...0!}\prod_{j=1}^V \beta_{ij}^{w_n^j
}= \beta_{ij} \qquad \text{cuando} \qquad w_n^j = 1 y \qquad z_n^i =1$$

De manera que:

$$p(\theta, {\bf z}, {\bf w}\mid \alpha,\beta)= p(\theta \mid \alpha) \prod_{n=1}^N \left(\prod_{i=1}^K \left[\theta_i \prod_{j=1}^V \beta_{ij}^{w_n^j}\right]^{z_n^i}\right)$$

Al integrar sobre todos los valores posibles de $\theta$ y sumar sobre todos los valores posibles de ${\bf z}$ se obtiene:
$$p({\bf w}\mid \alpha,\beta)= \int_{\Theta} \sum_{\bf z} p(\theta \mid \alpha) \prod_{n=1}^N \left(\prod_{i=1}^K \left[\theta_i \prod_{j=1}^V \beta_{ij}^{w_n^j}\right]^{z_n^i}\right)d\theta$$
Los valores posibles de ${\bf z} = (z_1,...,z_N)$ dependen de los $z_i$ que independientes uno de otros toman $K$ valores posibles. En efecto cada $z_n$ puede tomar los K valores siguientes:
$$(1,0,\cdots,0), (0,1,\cdots,0),\cdots (0,0,\cdots,1)$$
Sea entonces $z_n$ tal que $z_n^i = 1$ y $z_n^j =0 \forall j \neq i, i=1,\cdots, K$ entonces:
$$\left(\prod_{i=1}^K \left[\theta_i \prod_{j=1}^V \beta_{ij}^{w_n^j}\right]^{z_n^i}\right) = \left[\theta_i \prod_{j=1}^V \beta_{ij}^{w_n^j}\right]$$
Y asi:
$$p({\bf w}\mid \alpha,\beta)= \int_{\Theta}  p(\theta \mid \alpha) \prod_{n=1}^N \left(\sum_{i=1}^K \left[\theta_i\prod_{j=1}^V \beta_{ij}^{w_n^j}\right]\right )d\theta$$

Como $\theta \sim Dirichlet(\alpha)$ entonces
$$p({\bf w}\mid \alpha,\beta)= \frac{\Gamma(\sum_{i=1}^K \alpha_i)}{\prod_{i=1}^K \Gamma(\alpha_i)} \int_{\Theta} \left(\prod_{i=1}^K \theta^{\alpha_i -1}\right) \left( \prod_{n=1}^N \left(\sum_{i=1}^K \prod_{j=1}^V (\theta_i\beta_{ij})^{w_n^j}\right)\right )d\theta$$
que es intratable debido al acoplamiento entre $\beta$ y $\theta$ en la suma de tópicos latentes.\\




# Inferencia Variacional
(Ver <a href= "https://drive.google.com/open?id=1BobImO3192hifZPLXowd14gryVAUzBPW"> Latent Dirichlet Allocation (LDA) </a>)
$$\,$$
La idea básica de la inferencia variacional es definir una familia de funciones parametrizadas que acoten inferiormente a la distribución a posteriori, y entonces la inferencia se transforma en un problema de maximización de esa familia. 

Para ello se propone una familia de distribuciones a priori en que se encuentran desacopladas $\theta$ y ${\bf z}$, es decir
$$ \theta \sim Dirichlet(\gamma)$$
y
$$ {\bf z} \sim Multinomial(\phi)$$
Así, 
$$q(\theta,{\bf z} \mid \gamma,\phi) = q(\theta \mid \gamma)\prod_{n=1}^N q(z_n \mid \phi_n)$$
permite definir una familia de funciones que acota inferiormente el logaritmo de la distribución predictiva o evidencia.
En efecto
$$log p({\bf w} \mid \alpha,\beta) = log\int_\Theta \sum_{\bf z} p(\theta, {\bf z}, {\bf w}\mid \alpha,\beta)d\theta$$
$$ = log\int_\Theta \sum_{\bf z} \frac{p(\theta, {\bf z}, {\bf w}\mid \alpha,\beta)}{q(\theta,{\bf z})} q(\theta,{\bf z})d\theta$$
$$ = log \mathop{\mathbb{E}_q}\left[\frac{p(\cdot, \cdot, {\bf w}\mid \alpha,\beta)}{q(\cdot,\cdot)}\right] $$
por la desigualdad de Jensen para el caso de funciones cóncavas (caso del logaritmo):
$$\geq \mathop{\mathbb{E}_q} log\left[\frac{p(\cdot, \cdot, {\bf w}\mid \alpha,\beta)}{q(\cdot,\cdot)}\right] $$
$$ = \mathop{\mathbb{E}_q}\left[log p(\cdot, \cdot, {\bf w}\mid \alpha,\beta)\right] - \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot)\right] $$
Antes de proseguir, vamos a calcular la divergencia de Kullback-Leibler entre la distribución a posteriori y q:
$$D_{KL}(q \mid p) = \mathop{\mathbb{E}_q}\left[log \frac{q(\cdot,\cdot)}{p(\cdot, \cdot \mid {\bf w} ,\alpha,\beta)}\right] $$
$$\,$$
$$= \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot)\right] -  \mathop{\mathbb{E}_q}\left[log p(\cdot, \cdot\mid {\bf w}, \alpha,\beta)\right] $$
$$\,$$
$$= \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot)\right] -  \mathop{\mathbb{E}_q}\left[log \frac{p(\cdot, \cdot , {\bf w}\mid \alpha,\beta)}{p({\bf w}\mid \alpha,\beta)}\right] $$
$$\,$$
$$= \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot)\right] -  \mathop{\mathbb{E}_q}\left[log p(\cdot, \cdot , {\bf w}\mid \alpha,\beta)\right] + \mathop{\mathbb{E}_q}\left[log p({\bf w}\mid \alpha,\beta)\right] $$
$$\,$$
$$= \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot)\right] -  \mathop{\mathbb{E}_q}\left[log p(\cdot, \cdot , {\bf w}\mid \alpha,\beta)\right] + log p({\bf w}\mid \alpha,\beta) $$
$$\,$$
Es decir,
si denominamos
$$L(\gamma,\phi,\alpha,\beta) = \mathop{\mathbb{E}_q}\left[log p(\cdot, \cdot, {\bf w}\mid \alpha,\beta)\right] - \mathop{\mathbb{E}_q}\left[log q(\cdot,\cdot\mid \gamma,\phi)\right]$$
tenemos que
$$log p({\bf w}\mid \alpha,\beta) = L(\gamma,\phi,\alpha,\beta) + D_{KL}(q \mid p) $$
Entonces, minimizar $D_{KL}(q \mid p)$
es equivalente a maximizar L.
El problema de inferencia se transforma en el problema de maximización:
$$\mathop{max}_{\gamma,\phi} L(\gamma,\phi,\alpha,\beta)$$
Ver en los anexos A3.1 y A3.2 del artículo en referencia los detalles de la resolución de este problema de maximización, asi como en A4 las explicaciones de como se utiliza la estrategia EM para encontrar los estimadores de Bayes empíricos  para $\alpha$ y $\beta$.
$$\,$$
Posteriormente, en <a href="https://drive.google.com/file/d/1f7XoM6VlmnjL6YNX-VuuTYqRT85k_jJf/view?usp=sharing"> Hoffman, Blei y Bach (2010) </a> se propone un nuevo algoritmo de inferencia variacional online para el modelo LDA, que es el que usa la biblioteca sklearn de Python.



# Inferencia con Gibbs Sampling
(Ver <a href= "https://drive.google.com/file/d/1oSRRvG_W0UaH0l4o9f5ClEyWuGY1j-s0/view?usp=sharing"> Gibbs sampling para Latent Dirichlet Allocation (LDA) </a>)
$$\,$$
Para la formulación de la inferencia utilizando Gibbs sampling, es necesario considerar una distribución a priori Dirichlet sobre el parámetro $\beta$ que representa la distribución de tópicos en cada documento. Tenemos entonces:

$$w_n \mid z_n, \beta^{(z_n)} \sim Multinomial(\beta^{(z_n)})$$

$$\beta \sim Dirichlet(\eta)$$

$$ z_n \mid \theta \sim Multinomial(\theta)$$

$$ \theta \sim Dirichlet(\alpha)$$

Entonces
$$p({\bf w},{\bf z} \mid \theta,\beta) = p({\bf w}  \mid {\bf z}, \theta,\beta)p({\bf z} \mid \theta)$$
de dónde
$$\int_{\Theta} \int_{\Gamma} p({\bf w},{\bf z} \mid \theta,\beta)p(\beta)d\beta p(\theta) d\theta = \int_{\Gamma} p({\bf w}  \mid {\bf z}, \beta)p(\beta)d\beta \int_{\Theta} p({\bf z} \mid \theta)p(\theta) d\theta$$

Si consideramos
$$\eta = (\eta_1,...,\eta_V) = (\eta,...,\eta)$$
y
$$\alpha = (\alpha_1,...,\alpha_K) = (\alpha,...,\alpha)$$

entonces podemos escribir:

$$p({\bf z}=(0,0,\cdots,1,\cdots,0)\mid \theta) = \frac{1!}{0!\cdots 1!\cdots 0!}\theta_1^0\cdots\theta_i^1\cdots\theta_K^0 = \theta_i$$

y
$$p(\theta) = \frac{\Gamma(K\alpha)}{(\Gamma(\alpha))^K}\prod_{i=1}^K \theta_i^{\alpha}$$

De esta manera:

$$p({\bf z}) = \int_{\Theta} p({\bf z} \mid \theta)p(\theta) d\theta$$
$$= \int_{\Theta} \prod_{d=1}^D \prod_{i=1}^K p(z^{(d)}_{i}=1\mid \theta)p(\theta) d\theta$$

Sea $n_i^{(d)}$ es el número de veces que una palabra del documento fue asignada al tópico $i$, entonces:

$$= \left(\frac{\Gamma(K\alpha)}{(\Gamma(\alpha))^K}\right)^D \, \int_{\Theta} \prod_{i=1}^K \theta_i^{n_i^{(d)}} \theta_i^{\alpha}d(\theta)$$

$$= \left(\frac{\Gamma(K\alpha)}{(\Gamma(\alpha))^K}\right)^D \prod_{d=1}^D \prod_{i=1}^K \frac{\Gamma(n_i^{(d)} + \alpha)}{\Gamma(n_{\cdot}^{(d)} + K\alpha)}$$

$$p({\bf w} \mid {\bf z}) = \int_{\Gamma} p({\bf w}  \mid {\bf z}, \beta)p(\beta)d\beta$$
$$= \left(\frac{\Gamma(V\eta)}{(\Gamma(\eta))^V}\right)^K \prod_{i=1}^K
\prod_{w \in W} \frac{\Gamma(n_i^{(w)} + \eta)}{\Gamma(n_i^{(\cdot)} + K\eta)}$$
dónde $n_i^{(w)}$ es el número de veces que una palabra $w$ es asignada al tópico $i$ en el vector de asignaciones ${\bf z}$.
Con estas especificaciones, el cálculo de la distribución a posteriori:

$$p({\bf z} \mid {\bf w}) =\frac{p({\bf w} \mid {\bf z})p({\bf z})}{\sum_{\bf z} p({\bf w} \mid {\bf z})p({\bf z})}$$

es intratable (la suma sobre ${\bf z}$ es del orden de $V^N$).
Entonces se considera el uso de Gibbs sampling aplicando el algoritmo a 
$$p(z_j \mid z_{-j} , {\bf w})$$
donde $z_j$ es el tópico asignado a la j-ésima palabra y $z_{-j}$ son los tópicos asignados a las demás palabras del documento. De las propiedades de las distribuciones naturales conjugadas, se tiene que: 
$$p(z_j \mid z_{-j} , {\bf w}) \propto \frac{n_{-j,i}^{(w_j)} + \eta}{n_{-j,i}^{(\cdot)} + V\eta} \frac{n_{-j,i}^{(d_j)} + \alpha}{n_{-j,\cdot}^{(d_j)} + K\alpha}$$
donde
$n_{-j,i}^{(w_j)}$ es el número de veces que $w_j$ (aparte de la j-ésima palabra) aparece en el corpus asignada al tópico i.
$$\,$$
$n_{-j,i}^{(d_j)}$ es el número de palabras en $d_j$ (excepto la j-ésima palabra)  asignada al tópico i.






# Evaluación de Calidad de la Estructura de Tópicos

Varios niveles de evaluación:

¿El método logró capturar la estructura oculta del dataset?

¿Se entienden los tópicos?

¿Son coherentes los tópicos?

¿El modelo nos permite analizar lo que queremos analizar? 
(requiere explicitar nuestros objetivos a priori)


### Perplejidad
Esta medida se considera intrínseca y proviene del modelamiento probabilista realizado. Su expresión es:

$$perplejidad(D_{test}) = exp\left\{-\frac{\prod_{d=1}^D log(p(w_d))}{\sum_{d=1}^D N_d}\right\}$$

Para utilizarla se debe considerar un conjunto de entrenamiento y otro de test. De manera que la perplejidad se interpreta como una medida de robustez de la estructura de tópicos definida. 
Es inversamente proporcional a la verosimilitud de los nuevos datos. A menor valor de perplejidad mas robusto el modelo.


### Métricas de coherencia:
Probabilidad condicional que dos palabras aparezcan juntas 
(idealmente en un dataset de referencia)

Existen muchas métricas de coherencia. Como por ejemplo:

**Coherencia UMass**, propuesta por por Minmo et al(2011):

$$C_{umass}= \frac{2}{N(N-1)}\sum_{i=2}^N \sum_{j=1}^{i-1} log \frac{p(w_i,w_j)}{p(w_j)}$$

Para cada tópico se calcula su coherencia considerando las N top words del mismo. En este caso, se utilizan las probabilidades calculadas a partir del corpus en estudio.

**Coherencia UCI:**

$$C_{UCI}= \frac{2}{N(N-1)}\sum_{i=1}^{N-1} \sum_{j=i+1}^{N} PMI(w_i,w_j)$$

donde $$PMI(w_i,w_j)=  log \frac{p(w_i,w_j)+\epsilon}{p(w_i)p(w_j)}$$
que se denomina *información mutua puntual*

En este caso las probabilidades conjuntas y marginales son obtenidas de Wikipedia, como corpus externo. 

**Coherencia NPMI** propuesta por Aletras y Stevenson (2013):

En este caso en lugar de considerar todas las probabilidades conjuntas, se considera un por cada top word $w_i$, un vector de las palabras adyacentes $v_i$ de manera que a la j-ésima componente de ese vector se la asocia la medida PMI normalizada:

$$v_{ij} = NMPI(w_i,w_j)^\gamma= \left( \frac{log \frac{p(w_i,w_j)+\epsilon}{p(w_i)p(w_j)}}{-log(p(w_i,w_j)+\epsilon)}\right)^{\gamma}
$$

En este caso las probabilidades conjuntas y marginales también son obtenidas de Wikipedia, como corpus externo. 
Para medir la correlación entre los vectores construidos se pueden usar medidas como coseno, Dice, o Jacquard.


**Coherencia V** propuesta por Röder et al. (2015) es una combinación de la coherencia NPMI con la medida coseno entre vectores vecinos. 

Un completo análisis de medidas coherencia se pueden encontrar en <a html="http://svn.aksw.org/papers/2015/WSDM_Topic_Evaluation/public.pdf"> Röder et al. (2015) - Exploring the space of topic coherence measures </a>

En general:

            →  no hay una métrica universal
            
            → la interpretacion del valor de la métrica es compleja


Enfoque “humano”: método por intrusión de palabras (Lau et al., 2014)


Se inserta una palabra intrusiva en un tópico
Se mide el acuerdo entre jueces humanos al momento de detectar la palabra intrusiva

¿Cuál es tópico más coherente?

    T1 = [perro, gato, caballo, manzana, gallina]

    T2 = [gato, aeropuerto, manzana, seguridad, mañana]


Los modelos de tópicos son bastante complejos de evaluar

Las evaluaciones humanas toman tiempo y son bastante subjetivas

Las evaluaciones automáticas no son universales y complejas de interpretar

→ No existe un buen modelo universal, a menudo depende de lo que queremos hacer con el modelo (importante de explicitarlo antes)
