# EM算法
## EM算法
EM算法是含有隐变量的概率模型参数的极大似然估计法。
**EM算法**
输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z|$\theta$)，条件分布P(Z|Y，$\theta$);

输出：模型参数$\theta$

(1)选择初值$\theta^{(0)}$;

(2)E步：记$\theta^{(i)}$为第i次迭代参数$\theta$的值，在第i+1次迭代的E步，计算
$$
Q(\theta,\theta^{(i)})=E_{Z}[logP(Y,Z|\theta)|Y,\theta^{(i)}]\\
=\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta)
$$

(3)M步求使$Q(\theta,\theta^{(i)})$极大化的$\theta$。
$$
\theta^{(i+1)}=arg\max_{\theta}Q(\theta,\theta^{(i)})
$$

(4)重复(2)(3)直至收敛。
## 算法收敛性证明
要证明算法收敛，即需要证明$P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})$
$$
P(Y,Z|\theta)=P(Z|Y,\theta)*P(Y|\theta)\\
logP(Y|\theta) = logP(Y,Z|\theta) - logP(Z|Y,\theta)\\
$$
两侧同时乘$P(Z|Y,\theta^{(i)})$,求积分得
$$
left = \int_ZlogP(Y|\theta)P(Z|Y,\theta^{(i)})dz\\
=logP(Y|\theta)\int_ZP(Z|Y,\theta^{(i)})\\
=logP(Y|\theta)
$$
$$
right = \int_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})dz - \int_ZlogP(Z|Y,\theta)P(Z|Y,\theta^{(i)})dz\\
=Q(\theta,\theta^{(i)})-H(\theta,\theta^{(i)})
$$
由$\theta$的迭代方式可得，$Q(\theta^{(i)},\theta^{(i)})\le Q(\theta^{(i+1)},\theta^{(i)})$
$$
H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})\\
=\int_ZP(Z|Y,\theta^{(i)})\frac{logP(Z|Y,\theta^{(i+1)})}{logP(Z|Y,\theta^{(i)})}dz\\
=-KL(P(Z|Y,\theta^{(i)})||P(Z|Y,\theta^{(i+1)}))\le 0
$$
因此，可得$P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})$

## 算法公式导出
### ELBO+KL divergence
$$
logP(Y|\theta) = log\frac{P(Y,Z|\theta)}{q(Z)} - log\frac{P(Z|Y,\theta)}{q(Z)}
$$
在两边同时乘$q(Z)$并积分得
$$
logP(Y|\theta) = \int_Zq(Z)log\frac{P(Y,Z|\theta)}{q(Z)}dz - \int_Zq(Z)log\frac{P(Z|Y,\theta)}{q(Z)}dz\\
=ELBO+KL(q(Z)||P(z|Y,\theta))
$$
可得$logP(X|\theta)\ge ELBO$
### ELBO+jesen's inequality
$$
logP(Y|\theta)=log\int_ZP(Y,Z|\theta)dz\\
=log\int_Z\frac{P(Y,Z|\theta)}{q(Z)}q(Z)dz\\
=logE_{q(Z)}[\frac{P(Y,Z|\theta)}{q(Z)}]
$$
同时由jesen不等式得,对于凸函数f,$\lambda\in[0,1]$,
$$
f(\lambda x_1+ (1-\lambda)x_2)\ge \lambda f(x_1)+(1-\lambda)f(x_2)
$$
推理得对凸函数f，
$$
f(E(X))\ge E(f(X))
$$
因此可以得出
$$
logP(Y|\theta)\ge E_{q(Z)}(log(\frac{P(Y,Z|\theta)}{q(Z)}))
$$
且“=”成立当且仅当$\frac{P(Y,Z|\theta)}{q(Z)}=c$,其中c为常数。

则$q(Z)=\frac{1}{c}P(Y,Z|\theta)$,对两边求积分得
$$
1 = \frac{1}{c}\int_ZP(Y,Z|\theta)dz
$$
可得$c = P(Y|\theta)$,即$q(Z) = \frac{P(Y,Z|\theta)}{P(Y|\theta)}=P(Z|Y,\theta)$


## 广义EM算法
由上文可知，引入概率分布q（Z），$logP(Y|\theta) = ELBO + KL(q||p)$
$ELBO = L(q,\theta) = E_{q(Z)}(logP(Y,Z|\theta) - logq(Z))$

可得$ELBO = E_q[logP(y,z|\theta)] - H(q)$,其中H（q）为q分布的熵。

广义EM算法中的E步和M步为两个极大
$$
E-step: q^{(i+1)} = arg\max_qL(q,\theta^{(t)})\\
M-step: \theta^{(i+1)} = arg\max_{\theta}L(q^{(t)},\theta)
$$

## EM算法在高斯混合模型学习中的应用
### 高斯混合模型
**高斯混合模型**是指具有如下形式的概率分布模型：
$$
P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)
$$
其中，$\alpha_k$为系数，$\sum_{k=1}^K\alpha_k=1$,$\phi(y|\theta_k)$为高斯分布密度，$\theta_k=(\mu_k,\sigma_k^2)$
### EM算法
输入：观测数据$y_1,y_2,\cdots,y_N$,高斯混合模型；

输出：高斯混合模型参数

(1)取参数初值开始迭代。

(2)E步：依据当前模型参数，计算分分模型k对观测数据$y_j$的响应度。
$$
\hat{\gamma_k}=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)}
$$

(3)M步：计算新一轮迭代的模型参数。
$$
\hat{\mu_k}=\frac{\sum_{j=1}^N\hat{\gamma_{jk}}y_j}{\sum_{j=1}^N\hat{\gamma_{jk}}}\\
\hat{\sigma_k}=\frac{\sum_{j=1}^N\hat{\gamma_{jk}}(y_j-\mu_k)^2}{\sum_{j=1}^N\hat{\gamma_{jk}}}\\
\hat{\alpha_k}=\frac{\sum_{j=1}^N\hat{\gamma_{jk}}}{N}
$$

(4)重复2，3步直至收敛。