# 期望最大化 Expectation Maximization

EM算法是使用启发式迭代方法，先猜测需要求解的参数值，再利用已知数据进行最大似然估计来更新参数值，然后对估计得到的参数值再次进行最大似然估计，重复至模型收敛即可。

K-Means算法也运用了这个算法思路，不断迭代更新聚类中心来获得最终的聚类结果。

## 最大似然估计

最大似然估计是一种通过已知结果，估计参数的方法。对于m个样本观察数据$x=\{x_1,x_2,\dots,x_m\}$中，找出样本的模型参数θ, 最大似然估计函数如下：

$$
    \theta = arg \max_{\theta} \prod_{i=1}^m P(x_i;\theta)
$$

由于对数关系不影响最大参数值，所以可以使用对数将乘法转化为加法：

$$
    \theta = arg \max_{\theta} \sum_{i=1}^m log P(x_i;\theta)
$$

若数据中有未观察到的隐含数据$z=\{z_1,z_2,\dots,z_m\}$，则最大化模型分布的对数似然函数如下：
$$
    \theta = arg \max_{\theta} \sum_{i=1}^m log P(x_i;\theta) = arg \max_{\theta} \sum_{i=1}^m log \sum_{z_i}P(x^{(i)}, z_i;\theta)
$$

## EM算法

EM的算法是一个启发式迭代流程，数据样本为$x=\{x_1,x_2,\dots,x_m\}$，联合分布$p(x,z;θ)$, 条件分布$p(z|x;θ)$, 最大迭代次数$J$。

![EM算法案例图](./images/EM_01.png)

* E-step
    1. 首先随机初始化模型参数θ的初值$\theta_0$。
    2. 根据参数θ计算每个样本属于$z_i$的概率，计算联合分布的条件概率期望：
    $$
        Q_i(z_i) = P( z_i|x_i,\theta_j))
    $$
    $$
        L(\theta, \theta_j) = \sum_{i=1}^m \sum_{z_i}Q_i(z_i)log{P(x_i,z_i;\theta)}
    $$
* M-step
    1. 计算$L(\theta,\theta_j)$最值，得到$\theta_{j+1}$：
    $$
        \theta_{j+1} = arg \max_\theta L(\theta, \theta_j)
    $$

* 直至$\theta_{j+1}$收敛，停止EM迭代计算。

## GMM高斯混合模型

GMM混合模型中，数据可以看作是由多个高斯分布的数据组合而成的，求解方式跟EM类似。

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

%matplotlib inline
# %matplotlib widget
plt.rcParams["font.sans-serif"] = 'SimHei'  # 中文问题
plt.rcParams["axes.unicode_minus"] = False  # 负号问题
%config InlineBackend.figure_format = 'svg'

In [None]:
data = pd.read_csv('Fremont.csv', index_col='Date', parse_dates=True)
data.head()
