# EM算法及其推广
EM算法是一种迭代算法，1977年由Dempster等人总结提出，用于含有隐含变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代有两步组成：
- E步，求期望（expectation）
- M步，求极大（maximization）

如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计法估计模型参数。当有隐含变量或潜在变量（latent variable）时，就需要采用EM算法。

EM算法的参数估计，受EM算法初值选择的影响会产生不同

## EM算法
输入：观测变量Y，隐含变量Z，联合分布$P(Y,Z|\theta)$,条件分布$P(Z|Y,\theta)$  
输出：模型参数$\theta$

1. 选择参数的初值$\theta^0$，开始迭代；
2. E步：记$\theta_i$为第i次迭代参数$\theta$的估计值，在第i+1次迭代的E步，计算
$$
\begin{eqnarray}
Q(\theta,\theta^i) &=& E_Z[\log{P(Y,Z|\theta)}|Y,\theta^i] \\
&=& \sum_Z \log{P(Y,Z|\theta)}P(Z|Y,\theta^i)
\end{eqnarray}
$$
3. M步：求使$Q(\theta,\theta^i)$极大化的$\theta$，确定第i+1次迭代参数的估计值$\theta^i$
$$
\theta^{i+1}=\arg \max_{\theta}Q(\theta,\theta^i)
$$
4. 重复第2和3步，直到收敛

## Q函数
完全数据的对数似然函数$\log{P(Y,Z|\theta)}$关于给定观测数据Y和当前参数$\theta^i$下对未观测数据Z的条件概率分布$P(Z|Y,\theta^i)$的期望称为Q函数，即
$$
Q(\theta,\theta^i)=E_Z[\log{P(Y,Z|\theta)}|Y,\theta^i]
$$

1. 参数的初值可以任意选择，但需注意EM算法对初值是敏感的。
2. E步求Q(\theta,\theta^i)。Q函数式中Z是未观测数据，Y是观测数据。
3. M步求Q(\theta,\theta^i)的极大化，得到$Q^{i+1}$,完成一次迭代$\theta^i \rightarrow \theta^{i+1}$
4. 给出停止迭代的条件，一般是对较小的正数$\epsilon_1,\epsilon_2$，若满足$||\theta^{i+1}-\theta^i|| \lt \epsilon_1$或$||Q(\theta^{i+1},\theta^i)-Q(\theta^i,\theta^i)|| \lt \epsilon_2$，则停止迭代

## EM算法的推导
目标是极大化似然函数
$$
\begin{eqnarray}
L(\theta)&=&\log{P(Y|\theta)} \\
&=& \log{\sum_Z}P(Y,Z|\theta) \\
&=& \log{\left(\sum_Z{P(Y|Z,\theta)P(Z|\theta)}\right)}
\end{eqnarray}
$$

$$
\begin{eqnarray}
L(\theta)-L(\theta_i) &=& \log{\left(\sum_Z{P(Y|Z,\theta)P(Z|\theta)}\right)}-\log{P(Y|\theta^i)} \\
&=& \log{\left( \sum_Z{P(Z|Y,\theta^i)\frac{P(Y|Z,\theta^i)P(Z|\theta)}{P(Y|Z,\theta^i)}}\right)}-\log{P(Y|\theta^i)} \\
&\ge& \sum_Z{P(Z|Y,\theta^i)\log{\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}}}-\log{P(Y|\theta^i)} \\
&=& \sum_Z{P(Z|Y,\theta^i)\log{\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)P(Y|\theta^i)}}}
\end{eqnarray}
$$
其中利用了Jensen不等式

令
$$
B(\theta,\theta^i)=L(\theta^i)+\sum_Z{P(Z|Y,\theta^i)\log{\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)P(Y|\theta^i)}}}
$$

显然这是一个下界，问题可以转化为
$$
\theta^{i+1}=\arg \max_\theta B(\theta,\theta^i)
$$

$$
\begin{eqnarray}
\theta^{i+1} &=& \arg \max_{\theta} \left( L(\theta^i)+\sum_Z{P(Z|Y,\theta^i)\log{\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)P(Y|\theta^i)}}} \right) \\
&=& \arg \max_{\theta} \left( \sum_Z P(Z|Y,\theta^i)\log{P(Y|Z,\theta)P(Z|\theta)}\right) \\
&=& \arg \max_{\theta} \left( \sum_Z P(Z|Y,\theta^i)\log{P(Y,Z|\theta)}\right) \\
&=& \arg \max_{\theta} Q(\theta,\theta^i)
\end{eqnarray}
$$

## EM算法的收敛性


设$P(Y|\theta)$为观测数据的似然函数，$\theta^i$为EM算法得到的参数估计序列，$P(Y|\theta^i)$为对应的似然函数序列，则$P(Y|\theta^i)$是单调递增的。