# EM原理

### 1. 前言

概率模型有时既含有观测变量(observable variable)，又含有隐变量或潜在变量（latent variable），如果仅有观测变量，那么给定数据就能用极大似然估计或贝叶斯估计来估计model参数；但是当模型含有隐变量时，需要一种含有隐变量的概率模型参数估计的极大似然方法估计——EM算法

#### 2. EM算法原理

EM算法称为期望极大值算法（expectation maximizition algorithm，EM），是一种启发式的迭代算法。

EM算法的思路是使用启发式的迭代方法，既然我们无法直接求出模型分布参数，那么我们可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解我们的模型参数（EM算法的M步)。

可以通过K-Means算法来简单理解EM算法的过程。

#### E步：

在初始化K个中心点后，我们对所有的样本归到K个类别。

#### M步：

在所有的样本归类后，重新求K个类别的中心点，相当于更新了均值。

#### 3. EM算法公式

对于m个样本观察数据$x=(x^{(1)},x^{(2)},...x^{(m)})$中，找出样本的模型参数θ，极大化模型分布的对数似然函数如下，假设数据中有隐含变量$x=(x^{(1)},x^{(2)},...x^{(m)})$。
$$L(\theta) = \sum\limits_{i=1}^m logP(x^{(i)}|\theta)$$
加入隐含变量公式变为如下，注意到下式中$Q_i(z(i))$是一个分布，因此$\sum Q_i(z(i))logP(x(i),z(i)|θ)$可以理解为$logP(x(i),z(i)|θ)$基于条件概率分布$Q_i(z(i))$的期望。
$$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta)$$
$$L(\theta) = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})P(x^{(i)},z^{(i)}|\theta)\;\;\;s.t.\sum\limits_{z}Q_i(z^{(i)}) =1\;\;\;\;\;(1)$$

    注意：上面L似然函数的来历，请见另一篇EM算法原理。其实他是ELBO。

根据Jensen不等式,(1)式变为(2)
$$E [f \left ( g(X) \right ) ] \ge f \left (E[g(X)] \right )$$
$$L(\theta) = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})P(x^{(i)},z^{(i)}|\theta)\ge\sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})logP(x^{(i)},z^{(i)}|\theta)\;\;\;s.t.\sum\limits_{z}Q_i(z^{(i)}) =1\;\;\;\;\;(2)$$

#### 4. EM算法流程

输入：观察数据$x=(x^{(1)},x^{(2)},...x^{(m)})$，联合分布$p(x,z|θ)$, 条件分布$p(z|x,θ)$, EM算法退出的阈值γ。

1、随机初始化模型参数θ的初值$θ^0$。

2、E步：计算联合分布的条件概率期望。
$$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta^{j})$$
$$L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|\theta)}$$
3、M步：极大化$L(θ,θ^j)$,得到$θ^{j+1}$:
$$\theta^{j+1} = arg \max \limits_{\theta}L(\theta, \theta^{j})$$
4、重复2，3两步，直到极大似然估计$L(θ,θ^j)$的变化小于γ

#### 5. 总结

如果我们从算法思想的角度来思考EM算法，我们可以发现我们的算法里已知的是观察数据，未知的是隐含数据和模型参数，在E步，我们所做的事情是固定模型参数的值，优化隐含数据的分布，而在M步，我们所做的事情是固定隐含数据分布，优化模型参数的值。

本节介绍的EM算法是通用的EM算法框架，其实EM算法有很多实现方式，其中比较流行的一种实现方式是高斯混合模型（Gaussian Mixed Model）。

## EM + GMM
#### 1.GMM介绍

高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况。
<img src="图片/GMM1.png">

2. GMM原理解析

根据我们之前EM算法-原理详解，我们已经学习了EM算法的一般形式：
$$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta^{j})\;\;\;\;(1)$$
$$\sum\limits_{z}Q_i(z^{(i)}) =1$$
$$L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|\theta)}$$
现在我们用高斯分布来一步一步的完成EM算法。

设有随机变量X，则混合高斯模型可以用下式表示：
$$p(\boldsymbol{x}|\boldsymbol{\pi},\boldsymbol{\mu},\boldsymbol{\Sigma})=\sum_{k=1}^K\pi_k\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)$$
$$\sum_{k=1}^K\pi_k=1$$
$$0<\pi_k<1$$
其中$\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)$称为混合模型中的第$k$个分量（component）。可以看到$π_k$相当于每个分量$\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)$的权重

<img src="图片/2019-07-31_173257.png">
<img src="图片/2019-07-31_173341.png">
<img src="图片/2019-07-31_173405.png">
#### 4. GMM算法流程
<img src="图片/2019-07-31_173443.png">

### 代码实现

In [12]:
from scipy.stats import multivariate_normal

def log_weight_prob(x, alpha, mu, cov):
    N = x.shape[0]
    return np.mat(np.log(alpha) + log_prob(x, mu, cov)).reshape([N, 1])

def log_prob(x, mu, cov):
    norm = multivariate_normal(mean=mu, cov=cov)
    return norm.logpdf(x)

In [13]:
from scipy.special import logsumexp


class GMM(object):
    def __init__(self, k, tol = 1e-3, reg_covar = 1e-7):
        self.K = k
        self.tol = tol
        self.reg_covar=reg_covar
        self.times = 100
        self.loglike = 0


    def fit(self, trainMat):
        self.X = trainMat
        self.N, self.D = trainMat.shape
        self.GMM_EM()

    # gmm入口
    def GMM_EM(self):
        self.scale_data()
        self.init_params()
        for i in range(self.times):
            log_prob_norm, self.gamma = self.e_step(self.X)
            self.mu, self.cov, self.alpha = self.m_step()
            newloglike = self.loglikelihood(log_prob_norm)
            # print(newloglike)
            if abs(newloglike - self.loglike) < self.tol:
                break
            self.loglike = newloglike


    #预测类别
    def predict(self, testMat):
        log_prob_norm, gamma = self.e_step(testMat)
        category = gamma.argmax(axis=1).flatten().tolist()[0]
        return np.array(category)


    #e步，估计gamma
    def e_step(self, data):
        gamma_log_prob = np.mat(np.zeros((self.N, self.K)))

        for k in range(self.K):
            gamma_log_prob[:, k] = log_weight_prob(data, self.alpha[k], self.mu[k], self.cov[k])

        log_prob_norm = logsumexp(gamma_log_prob, axis=1)
        log_gamma = gamma_log_prob - log_prob_norm[:, np.newaxis]
        return log_prob_norm, np.exp(log_gamma)


    #m步，最大化loglikelihood
    def m_step(self):
        newmu = np.zeros([self.K, self.D])
        newcov = []
        newalpha = np.zeros(self.K)
        for k in range(self.K):
            Nk = np.sum(self.gamma[:, k])
            newmu[k, :] = np.dot(self.gamma[:, k].T, self.X) / Nk
            cov_k = self.compute_cov(k, Nk)
            newcov.append(cov_k)
            newalpha[k] = Nk / self.N

        newcov = np.array(newcov)
        return newmu, newcov, newalpha


    #计算cov，防止非正定矩阵reg_covar
    def compute_cov(self, k, Nk):
        diff = np.mat(self.X - self.mu[k])
        cov = np.array(diff.T * np.multiply(diff, self.gamma[:,k]) / Nk)
        cov.flat[::self.D + 1] += self.reg_covar
        return cov


    #数据预处理
    def scale_data(self):
        for d in range(self.D):
            max_ = self.X[:, d].max()
            min_ = self.X[:, d].min()
            self.X[:, d] = (self.X[:, d] - min_) / (max_ - min_)
        self.xj_mean = np.mean(self.X, axis=0)
        self.xj_s = np.sqrt(np.var(self.X, axis=0))


    #初始化参数
    def init_params(self):
        self.mu = np.random.rand(self.K, self.D)
        self.cov = np.array([np.eye(self.D)] * self.K) * 0.1
        self.alpha = np.array([1.0 / self.K] * self.K)


    #log近似算法，可以防止underflow，overflow
    def loglikelihood(self, log_prob_norm):
        return np.sum(log_prob_norm)


    # def loglikelihood(self):
    #     P = np.zeros([self.N, self.K])
    #     for k in range(self.K):
    #         P[:,k] = prob(self.X, self.mu[k], self.cov[k])
    #
    #     return np.sum(np.log(P.dot(self.alpha)))


In [17]:
%%time
from sklearn import mixture
import numpy as np


def checkResult():
    X = np.loadtxt("./data/amix1-est.dat")
    searchK = 4
    epoch = 5
    maxLogLikelihood = 0
    maxResult = None
    maxK = 0
    alpha = None
    for i in range(2, searchK):
        k = i
        for j in range(epoch):
            model1 = GMM(k)
            model1.fit(X)
            if model1.loglike > maxLogLikelihood:
                maxLogLikelihood = model1.loglike
                maxResult = model1.predict(X)
                maxK = k
                alpha = model1.alpha

    alpha, maxResult = changeLabel(alpha, maxResult)
    print("my gmm k = %s, alpha = %s, maxloglike = %s"%(maxK,[round(a, 5) for a in alpha],maxLogLikelihood))

    model2 = mixture.BayesianGaussianMixture(n_components=maxK,covariance_type='full')
    result2 = model2.fit_predict(X)
    alpha2, result2 = changeLabel(model2.weights_.tolist(), result2)

    result = np.sum(maxResult==result2)
    percent = np.mean(maxResult==result2)
    print("sklearn gmm k = %s, alpha = %s, maxloglike = %s"%(maxK,[round(a, 5) for a in alpha2],model2.lower_bound_))

    print("succ = %s/%s"%(result, len(result2)))
    print("succ = %s"%(percent))

    print(maxResult[:100])
    print(result2[:100])


def changeLabel(alpha, predict):
    alphaSorted = sorted(alpha, reverse=True)
    labelOld = []
    for i in predict:
        if i not in labelOld:
            labelOld.append(i)
        if len(labelOld) == len(alpha):
            break
    labelNew = sorted(labelOld)
    for i, old in enumerate(labelOld):
        predict[predict == old] = labelNew[i] + 100
    return alphaSorted, predict - 100

checkResult()

my gmm k = 3, alpha = [0.55623, 0.25711, 0.18667], maxloglike = 248.4644821168552


AttributeError: 'BayesianGaussianMixture' object has no attribute 'fit_predict'