# EM算法及其推广

* 用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计
* 每次迭代由两步组成：
    1. E步，求期望（expectation）
    1. M步，求极大 (maximization)

## EM算法的引入

概率模型有时既含有观测变量（observable variable），又含有隐变量或潜在变量（latent variable）

### EM算法

三硬币模型

* 模型参数$\theta=(\pi,p,q)$
* $y$：表示一次试验观测的结果是1或0
* $z$：表示未观测到的掷硬币A的结果
* 
  \begin{equation*}
  \begin{split}
  P(y|\theta)&=\sum_z P(y,z|\theta)=\sum_z P(z|\theta)P(y|z,\theta)\\
  &=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}
  \end{split}
  \end{equation*}

### 数据

* $Y$：观测随机变量的数据
* $Z$：隐随机变量的数据
* 完全数据（complete-data）
* 不完全数据（incomplete-data）

### EM算法

* 不完全数据$Y$的似然函数是$P(Y|\theta)$
* 通过迭代求$L(\theta)=\log P(Y|\theta)$的极大似然估计

## 主要困难

$$
\begin{split}
L(\theta)&=\log P(Y|\theta)\\
         &=\log \sum_Z P(Y,Z|\theta)\\
         &=\log\biggl(\sum_Z P(Y|Z,\theta)P(Z|\theta)\biggr)
\end{split}
$$

主要困难：有未观测数据并有包含和（或积分）的对数

## EM算法的导出

* 假设在第$i$次迭代后$\theta$的估计值是$\theta^{(i)}$
* 利用Jensen不等式得到

$$
\begin{split}
\log\biggl(\sum_Z P(Y|Z,\theta)P(Z|\theta)\biggr)&=\log\biggl(\sum_Z P(Z|Y,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}\biggr)\\
&\ge \sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}
\end{split}
$$

### 考虑两者的差

* 

$$
L(\theta)-L(\theta^{(i)})\ge \sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}
$$
* 函数$B(\theta,\theta^{(i)})$见textbook

## EM算法的导出

* $\theta^{(i+1)}=\mathop{\arg\,\max}_\theta B(\theta,\theta^{(i)})$
*

$$
\begin{split}
\theta^{(i+1)}&=\mathop{\arg\,\max}_\theta\biggl(\sum_Z P(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)\biggr)\\
&=\mathop{\arg\,\max}_\theta Q(\theta,\theta^{(i)})
\end{split}
$$

## EM算法的导出

$$
\begin{split}
Q(\theta,\theta^{(i)})&=\sum_Z P(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)\\
&=\mathop{\mathbb{E}}_Z [\log P(Y,Z|\theta)\mid Y,\theta^{(i)}]
\end{split}
$$

* E步：计算$Q(\theta,\theta^{(i)})$
* M步：求使$Q(\theta,\theta^{(i)})$极大化的$\theta$
* 函数$Q(\theta,\theta^{(i)})$是EM算法的核心，称为Q函数（Q function）

## EM算法在高斯混合模型学习中的应用

### 高斯混合模型

* 

$$
P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)
$$
其中$\phi(y|\theta_k)$是高斯分布密度，$\theta_k=(\mu_k,\sigma^2_k)$

$$
\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp\biggl(-\frac{(y-\mu_k)^2}{2\sigma^2_k}\biggr)
$$

## 高斯混合模型参数估计的EM算法

* $\theta=(\alpha_1,\alpha_2,\dotsc,\alpha_K;\theta_1,\theta_2,\dotsc,\theta_K)$
