    3. Algoritmo de Expectation-Maximization (EM) para GMM

Se utilizará el algoritmo de Expectation-Maximization para encontrar un máximo de la verosimilitud de los datos $X$, con respecto a los parámetros $\omega = \{ \pi_j, \mu_j, \Sigma_j \}$ de un modelo de mezcla de gaussianas.

**Paso E (Expectation step)**

En el paso E, calculamos la expectativa de la función de verosimilitudcon respecto a la distribución posterior de la variable latente $Z$, dadas las observaciones actuales de los datos y los parámetros actuales $\omega^{(t)}$.

La función de verosimilitud  es:

\begin{equation*}
p(X, Z | \omega) = \prod_{i=1}^{N} \prod_{j=1}^{K} \left[ \pi_j \mathcal{N}(x_i | \mu_j, \Sigma_j) \right]^{z_{ij}} 
\end{equation*}

La expectativa a calcular es:

\begin{equation*}
Q(\omega, \omega^{(t)}) = \mathbb{E}_{Z | X, \omega^{(t)}} \left[ \ln p(X, Z | \omega) \right] 
\end{equation*}

Luego, el logaritmo convierte a las productorias  en sumatorias, por lo que queda: 

\begin{equation*}
Q(\omega, \omega^{(t)}) = \sum_{i=1}^{N} \sum_{j=1}^{K} \gamma_{ij}^{(t)} \left[ \ln \pi_j + \ln \mathcal{N}(x_i | \mu_j, \Sigma_j) \right] 
\end{equation*}

donde $\gamma_{ij}^{(t)}$ es la probabilidad a posteriori de que $x_i$ pertenezca a la $j$-ésima componente, calculada como:

\begin{equation*}
\gamma_{ij}^{(t)} = \frac{\pi_j^{(t)} \mathcal{N}(x_i | \mu_j^{(t)}, \Sigma_j^{(t)})}{\sum_{l=1}^{K} \pi_l^{(t)} \mathcal{N}(x_i | \mu_l^{(t)}, \Sigma_l^{(t)})} 
\end{equation*}

**Paso M (Maximization step)**

En el paso M, maximizamos $Q(\omega, \omega^{(t)})$ con respecto a los parámetros $\mu$ y $\pi$ para obtener los nuevos valores de los parámetros $\mu^{*}$ y  $\pi^{*}$. 


**→ Expresión de $\mu_{j}^{*}$**

Dado que la densidad de probabilidad de una distribución normal multivariante se expresa como:

\begin{equation*}
\mathcal{N}(x_i \mid \mu_j, \Sigma_j) = \frac{1}{(2\pi)^{d/2} |\Sigma_j|^{1/2}} \exp\left( -\frac{1}{2} (x_i - \mu_j)^T \Sigma_j^{-1} (x_i - \mu_j) \right)
\end{equation*}

Al aplicar el logaritmo natural, obtenemos la expresión:

\begin{equation*}
\ln ( \mathcal{N}(x_i | \mu_{j}, \Sigma_{j})) = -\frac{1}{2} - \frac{N}{2}[\ln(2\pi) + \ln(\Sigma_{j}) ] + (x_i - \mu_{j})^{T} \Sigma_{j}^{-1}(x_i - \mu_{j})
\end{equation*}

Descartando los término constantes, ya que no dependen de $\mu_{j}$, la expresión de $Q(\omega, \omega^{(t)})$ queda: 

\begin{equation*}
Q(\omega, \omega^{(t)}) = \sum_{i=1}^{N} \sum_{j=1}^{K} \gamma_{ij}^{(t)} \left[ \ln \pi_j - \frac{d}{2} \ln(2\pi) - \frac{1}{2} \ln |\Sigma_j| - \frac{1}{2} (x_i - \mu_j)^T \Sigma_j^{-1} (x_i - \mu_j) \right]
\end{equation*}

Derivando $Q(\omega, \omega^{(t)})$ respecto a $\mu_j$, obtenemos:

\begin{equation*}
\frac{\partial Q(\omega, \omega^{(t)})}{\partial \mu_j} = \sum_{i=1}^{N} \gamma_{ij}^{(t)} \Sigma_j^{-1} (x_i - \mu_j)
\end{equation*}

Finalmente, igualamos esta expresión a cero para encontrar el valor óptimo de $\mu_j$:

\begin{equation*}
\sum_{i=1}^{N} \gamma_{ij}^{(t)} \Sigma_j^{-1} (x_i - \mu_j) = 0
\end{equation*}

Despejando $\mu_j$, obtenemos:

\begin{equation*}
\mu_j^{*} = \frac{\sum_{i=1}^{N} \gamma_{ij}^{(t)} x_i}{\sum_{i=1}^{N} \gamma_{ij}^{(t)}}
\end{equation*}

**→ Expresión de $\pi_{j}^{*}$**

Por otra parte, para encontrar el valor óptimo de $\pi_{j}$ a partir de $Q(\omega, \omega^{(t)})$, derivamos en función de $\pi_{j}$ y obtenemos la expresión:

\begin{equation*}
\frac{\partial Q(\omega, \omega^{(t)})}{\partial \pi_j} = \sum_{i=1}^{N} \gamma_{ij}^{(t)} \frac{1}{\pi_j}
\end{equation*}

Para encontrar el valor óptimo de $\pi_j$, igualamos esta derivada a cero. Luego, debemos tener en cuanta que $\pi_{j}$ son las probabilidades de cada punto de pertenecer a cada gaussiana, por lo que debe ser restrigida a que  $\sum_{j=1}^{K} \pi_j = 1$ usando multiplicadores de Lagrange.

Se define a la función Lagrangiana $\mathcal{L}$:

\begin{equation*}
\mathcal{L} = \sum_{i=1}^{N} \sum_{j=1}^{K} \gamma_{ij}^{(t)} \ln \pi_j + \lambda \left( 1 - \sum_{j=1}^{K} \pi_j \right)
\end{equation*}

Derivamos $\mathcal{L}$ respecto a $\pi_j$ y obtenemos que: 

\begin{align*}
\frac{\partial \mathcal{L}}{\partial \pi_j} &= \sum_{i=1}^{N} \gamma_{ij}^{(t)} \frac{1}{\pi_j} - \lambda = 0\\
&= \pi_j = \frac{\sum_{i=1}^{N} \gamma_{ij}^{(t)}}{\lambda}
\end{align*}

Luego, derivando en función de $\lambda$ obtenemos :

\begin{equation*}
\frac{\partial \mathcal{L}}{\partial \lambda} = 1 - \sum_{j=1}^{K} \pi_j = 0
\end{equation*}


Sumando sobre todos los $j$ y usando la restricción $\sum_{j=1}^{K} \pi_j = 1$:

\begin{equation*}
\sum_{j=1}^{K} \pi_j = \sum_{j=1}^{K} \frac{\sum_{i=1}^{N} \gamma_{ij}^{(t)}}{\lambda} = 1
\end{equation*}

\begin{equation*}
\frac{\sum_{i=1}^{N} \sum_{j=1}^{K} \gamma_{ij}^{(t)}}{\lambda} = 1
\end{equation*}

\begin{equation*}
\lambda = \sum_{i=1}^{N} \sum_{j=1}^{K} \gamma_{ij}^{(t)}
\end{equation*}

Por lo tanto, el valor óptimo de $\pi_j$ es:

\begin{equation*}
\pi_j^{(t+1)} = \frac{\sum_{i=1}^{N} \gamma_{ij}^{(t)}}{N}
\end{equation*}