# 8.7.2 El algoritmo EM

**Algoritmo expectation maximization (EM):** $\;$ algoritmo de optimización acotada para calcular el estimador MLE o MAP de modelos probabilísticos con **datos perdidos** o **variables ocultas**

**Notación:** $\;$ para cada dato $n$, $\boldsymbol{y}_n$ denota su parte observada y $\boldsymbol{z}_n$ su parte perdida u oculta

**Algoritmo EM básico:** $\;$ repetir los siguientes dos pasos
* **Paso E (expectation):** $\;$ estimación de datos perdidos
* **Paso M (maximization):** $\;$ cálculo del MLE o MAP a partir de los datos completos

**Convergencia:** $\;$ veremos que el paso E calcula una función sustituta del objetivo, por lo que el EM converge a un màximo local

## 8.7.2.1 Cota inferior

**Objetivo:** $\;$ maximizar la log-verosimilitud de los datos observados
$$\operatorname{LL}(\boldsymbol{\theta})=\sum_{n=1}^N\log p(\boldsymbol{y}_n\mid\boldsymbol{\theta})%
=\sum_{n=1}^N\log\left[\sum_{\boldsymbol{z}_n}p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})\right]$$

**Dificultad:** $\;$ difícil de optimizar a causa del logaritmo delante del sumatorio

**Evidence lower bound (ELBO):** $\;$ dado un conjunto de distribuciones arbitrarias sobre cada $\boldsymbol{z}_n$, $q_n(\boldsymbol{z}_n)$, la **desigualdad de Jensen** permite construir una función $\mathbf{Ł}(\boldsymbol{\theta},q_{1:N})$ cota inferior de la log-verosimilitud marginal o evidencia
$$\begin{align*}
\operatorname{LL}(\boldsymbol{\theta})%
&=\log p(\boldsymbol{y}_{1:N}\mid\boldsymbol{\theta})\\%
&=\sum_{n=1}^N\log\left[%
\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\,\frac{p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})}{q_n(\boldsymbol{z}_n)}\right]\\%
&\geq\sum_{n=1}^N\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\log%
\frac{p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})}{q_n(\boldsymbol{z}_n)}\\%
&=\sum_n\underbrace{\mathbb{E}_{q_n}[\log p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})]+\mathbb{H}(q_n)}%
_{\mathbf{Ł}(\boldsymbol{\theta},q_n\mid\boldsymbol{y}_n)}\\[3mm]%
&=\sum_n\mathbf{Ł}(\boldsymbol{\theta},q_n)=\mathbf{Ł}(\boldsymbol{\theta},\{q_n\})%
=\mathbf{Ł}(\boldsymbol{\theta},q_{1:N})%
\end{align*}$$

## 8.7.2.2 Paso E

**Paso E:** $\;$ cálculo de $\,q_n^*=p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta})\,$ y, así, $\,\mathbf{Ł}(\boldsymbol{\theta},q_n^*)=\log p(\boldsymbol{y}_n\mid\boldsymbol{\theta})$
$$\begin{align*}
\mathbf{Ł}&(\boldsymbol{\theta},q_n)%
=\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\log\frac{p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})}{q_n(\boldsymbol{z}_n)}\\%
&=\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\log%
\frac{p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta})\,p(\boldsymbol{y}_n\mid\boldsymbol{\theta})}{q_n(\boldsymbol{z}_n)}\\%
&=\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\log\frac{p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta})}{q_n(\boldsymbol{z}_n)}%
+\sum_{\boldsymbol{z}_n}q_n(\boldsymbol{z}_n)\log p(\boldsymbol{y}_n\mid\boldsymbol{\theta})\\%
&=-\mathbb{KL}(q_n(\boldsymbol{z}_n)\,\Vert\,p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta}))%
+\log p(\boldsymbol{y}_n\mid\boldsymbol{\theta})\\%
&\overset{q_n=q_n^*}{=}\log p(\boldsymbol{y}_n\mid\boldsymbol{\theta})%
\qquad(\mathbb{KL}(q_n(\boldsymbol{z}_n)\,\Vert\,p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta}))=0%
\quad\text{sii}\quad q_n= q_n^*=p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta}))%
\end{align*}$$

**Función sustituta:** $\;$ dado que $\;\mathbf{Ł}(\boldsymbol{\theta},\{q_n^*\})=\operatorname{LL}(\boldsymbol{\theta}),\,$ la función
$$Q(\boldsymbol{\theta},\boldsymbol{\theta}^{(t)})=\mathbf{Ł}(\boldsymbol{\theta},\{q_n^*=p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta}^{(t)})\})$$
es ELBO por Jensen,
$$Q(\boldsymbol{\theta},\boldsymbol{\theta}^{(t)})\leq\operatorname{LL}(\boldsymbol{\theta})$$
y toca $\operatorname{LL}(\boldsymbol{\theta})$ en $\boldsymbol{\theta}^{(t)}$ al tomar $\{q_n^*=p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta}^{(t)})\}$,
$$Q(\boldsymbol{\theta}^{(t)},\boldsymbol{\theta}^{(t)})=\operatorname{LL}(\boldsymbol{\theta}^{(t)})$$

**Paso E aproximado:** $\;$ si el cálculo de $\,q_n^*=p(\boldsymbol{z}_n\mid\boldsymbol{y}_n,\boldsymbol{\theta})$ es muy costoso, podemos emplear una aproximación a la misma y la $Q$, aunque menos ajustada, sigue siendo ELBO
* **Aproximación directa:** $\;$ comprobamos que la $\operatorname{LL}$ no decrece; cosa quizás sencilla si solo consideramos distribuciones delta
* **EM variacional:** $\;$ EM generalizado en marco Bayesiano

## 8.7.2.3 Paso M

**Expected complete data log likelihood:** $\;$ el paso M maximiza $\,\mathbf{Ł}(\boldsymbol{\theta},\{q_n^{(t)}\})\,$ con respecto a $\boldsymbol{\theta}$, donde las $\,\{q_n^{(t)}\}\,$ son las distribuciones halladas en el paso E de la iteración $t$; ahora bien, los términos de entropía $\,\mathbb{H}(q_n)\,$ pueden ignorarse porque no dependen de $\boldsymbol{\theta}$
$$\operatorname{LL}^{(t)}(\boldsymbol{\theta})=\sum_n\mathbb{E}_{q_n^{(t)}(\boldsymbol{z}_n)}[\log p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})]$$

**Caso (conjunta de la) familia exponencial:** $\;$ no necesitamos $\,\{q_n^{(t)}\};\;$ bastan estadísticos suficientes esperados, $\,\mathbb{E}[\mathcal{T}(\boldsymbol{y}_n,\boldsymbol{z}_n)]$,
$$\operatorname{LL}^{(t)}(\boldsymbol{\theta})%
=\sum_n\mathbb{E}[\mathcal{T}(\boldsymbol{y}_n,\boldsymbol{z}_n)^{(t)}\boldsymbol{\theta}-A(\boldsymbol{\theta})]%
=\sum_n(\mathbb{E}[\mathcal{T}(\boldsymbol{y}_n,\boldsymbol{z}_n)]^{(t)}-A(\boldsymbol{\theta}))$$

**Paso M:** $\;$ maximización de la log-verosimilitud completa esperada
$$\boldsymbol{\theta}^{(t+1)}=\operatorname*{argmax}\limits_{\boldsymbol{\theta}}\sum_n\mathbb{E}_{q_n^{(t)}(\boldsymbol{z}_n)}[\log p(\boldsymbol{y}_n,\boldsymbol{z}_n\mid\boldsymbol{\theta})]$$

**Caso familia exponencial:** $\;$ se resuelve en forma cerrada