# EM 算法

**EM 算法（Expectation Maximization Algorithm）**于 1977 年由 Dempster 等人提出，用于含有**隐变量（Hidden Variable）**或者**潜在变量（Latent Variable）**的概率模型参数的极大似然估计或极大后验概率估计。

用 $Y$ 表示观测随机变量的数据，$Z$ 表示隐随机变量的数据。$Y$ 和 $Z$ 合起来称为**完全数据（Complete-Data）**，只有观测数据称为**不完全数据（Incomplete-Data）**。假设需要估计的参数为 $\theta$，记：
* 不完全数据的概率分布为 $P(Y|\theta)$，对数似然函数为 $L(\theta)=\log P(Y|\theta)$；
* 完全数据的联合概率分布为 $P(Y,Z|\theta)$，对数似然函数为 $\log P(Y,Z|\theta)$。


EM 算法通过迭代求不完全数据的对数似然函数 $L(\theta)$ 的极大似然估计：
1. 选择参数的初始值 $\theta^{(0)}$，开始迭代；（初值可以任意选择，但 EM 算法对初值是敏感的）
2. E 步：求期望，设第 i 次迭代的参数估计值为 $\theta^{(i)}$，计算给定观测数据 $Y$ 和当前参数估计 $\theta^{(i)}$ 条件下完全数据联合分布对数似然函数的关于隐变量 $Z$ 的条件期望，称为 **Q 函数（Q Function）**：
$$
Q(\theta,\theta^{(i)}) = \mathbb{E}_Z\left[ \log P(Y,Z|\theta) \big| Y,\theta^{(i)} \right] = \sum\limits_{Z}\log P(Y,Z|\theta) \cdot P(Z|Y,\theta^{(i)})
$$
3. M 步：极大化，求使得 Q 函数极大化的 $\theta$ 作为新的参数估计值 $\theta^{(i+1)}$:
$$
\theta^{(i+1)} = \mathop{\arg\max}_\theta Q(\theta,\theta^{(i)})
$$
4. 重复 2,3 步直到满足停止迭代的条件，一般为给定容许误差 $\varepsilon$，满足如下条件则停止迭代：
$$
\left\|\theta^{(i+1)} - \theta^{(i+1)}\right\| < \varepsilon \textrm{ 或者 } \left\|Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)})\right\| < \varepsilon
$$

# 算法推导

对于含有隐变量的概率模型，极大似然估计的目标是极大化观测数据（不完全数据）$Y$ 关于参数 $\theta$ 的对数似然函数：
$$
L(\theta) = \log P(Y|\theta) = \log \sum\limits_Z P(Y,Z|\theta) = \log \left(\sum\limits_Z P(Y|Z,\theta)P(Z|\theta)\right)
$$
EM 算法通过迭代逐步近似极大化上式，假设在第 i 次迭代后参数估计值为 $\theta^{(i)}$，如果新的估计值可以使得 $L(\theta)$ 增大，即 $L(\theta)>L(\theta^{(i)})$，则有可能通过迭代逐步逼近极大值。
$$
\begin{aligned}
L(\theta) - L(\theta^{(i)}) &= \log \left(\sum\limits_Z P(Y|Z,\theta)P(Z|\theta)\right) - \log P(Y|\theta^{(i)})\\
&= \log \left(\sum\limits_Z P(Z|Y,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}\right) - \log P(Y|\theta^{(i)})\\
&\geq \sum\limits_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})} - \log P(Y|\theta^{(i)}),\textrm{( Jensen 不等式)}\\
&= \sum\limits_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}
\end{aligned}
$$
记
$$
B(\theta,\theta^{(i)}) = L(\theta^{(i)}) + \sum\limits_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}
$$
则 $L(\theta)\geq B(\theta,\theta^{(i)})$，即 $B(\theta,\theta^{(i)})$ 是 $L(\theta)$ 的下界且有
$$
L(\theta^{(i)}) = B(\theta^{(i)},\theta^{(i)})
$$
从而任何可以使得 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ 同样也可以使得 $L(\theta)$ 增大，即任意满足 $B(\hat{\theta},\theta^{(i)})\geq B(\theta^{(i)},\theta^{(i)})$ 的 $\hat{\theta}$ 均有：
$$
L(\hat{\theta}) \geq B(\hat{\theta},\theta^{(i)}) \geq B(\theta^{(i)},\theta^{(i)}) = L(\theta^{(i)})
$$
为了使得 $L(\theta)$ 尽可能的增大，选择 $\theta^{(i+1)}$ 为 $B(\theta,\theta^{(i)})$ 的极大值点：
$$
\begin{aligned}
\theta^{(i+1)} &= \mathop{\arg\max}_\theta B(\theta,\theta^{(i)})\\
&= \mathop{\arg\max}_\theta \left( L(\theta^{(i)}) + \sum\limits_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})} \right)\\
&= \mathop{\arg\max}_\theta \left( \sum\limits_Z P(Z|Y,\theta^{(i)}) \log \left[P(Y|Z,\theta)P(Z|\theta)\right] \right)\\
&= \mathop{\arg\max}_\theta \left( \sum\limits_Z P(Z|Y,\theta^{(i)}) \log P(Y,Z|\theta) \right)\\
&= \mathop{\arg\max}_\theta Q(\theta,\theta^{(i)})\\
\end{aligned}
$$

# 参考文献

[<a id="cit-李航:2012" href="#call-李航:2012">李航:2012</a>] 李航, 统计学习方法, 清华大学出版社, 2012.