# 高斯混合模型

随机变量 $x$ 服从高斯分布时，其概率密度函数为：

$$p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$$

其中 $\mu$ 为均值，$\sigma$ 为标准差。

$n$ 维样本空间 $\mathcal{X}$ 中的随机向量$\boldsymbol{x}$ 服从高斯分布时，其概率密度函数为：

$$p(\boldsymbol{x}) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu})^{T}\Sigma^{-1}(\boldsymbol{x} - \boldsymbol{\mu})}$$

其中 $\boldsymbol{\mu}$ 为 $n$ 维均值向量，$\Sigma$ 是 $n\times n$ 的协方差矩阵。显然，高斯分布完全由均值向量 $\boldsymbol{\mu}$ 和协方差矩阵 $\Sigma$ 这两个参数确定。为了明确显示高斯分布与相应参数的依赖关系，将概率密度函数记为 $p(\boldsymbol{x}\ | \ \boldsymbol{\mu}, \Sigma)$。

定义高斯混合分布

$$p_{\mathcal{M}} = \sum_{i=1}^{k}\alpha_i \cdot p(\boldsymbol{x}\ | \ \boldsymbol{\mu}_i, \Sigma_i) \tag{1}$$

该分布由 $k$ 个混合成分组成，每个混合成分对应一个高斯分布。其中 $\boldsymbol{\mu}_i$ 与 $\Sigma_i$ 是第 $i$ 个高斯混合成分的参数，而 $\alpha_i$ 为相应的“混合系数”（mixture coefficient），$\sum_{i=1}^{k}\alpha_i=1$。

若样本 $D = \{ \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_m \}$ 由含 $k$ 个混合成分的高斯混合分布生成，令随机变量 $z_j \in \{1,2,\ldots,k\}$ 表示生成样本 $x_j$ 的高斯混合成分，$z_j$ 的先验概率 $P(z_j = i)$ 对应于 $\alpha_i$。那么样本 $\boldsymbol{x}_j$ 由第 $i$ 个高斯混合成分生成的后验概率为：

$$\begin{align*} p_{\mathcal{M}}(z_j = i\ |\ \boldsymbol{x}_j) &= \frac{P(z_j = i) \cdot p_{\mathcal{M}}(\boldsymbol{x}_j\ |\ z_j = i)}{p_{\mathcal{M}}(\boldsymbol{x}_j)} \\ &= \frac{\alpha_i \cdot p(\boldsymbol{x}_j\ |\ \boldsymbol{\mu}_i, \Sigma_i)}{\sum_{l=1}^{k}\alpha_l \cdot p(\boldsymbol{x}_j\ |\ \boldsymbol{\mu}_l, \Sigma_l)}\end{align*}$$

简记作 $\gamma_{ji}\ (i=1,2,\ldots,k)$。

当高斯混合分布（1）已知时，高斯混合聚类将把样本集$D$ 划分为 $k$ 个簇 $\mathcal{C} = \{C_1,C_2,\ldots,C_k\}$，每个样本 $\boldsymbol{x}_j$ 的簇标记 $\lambda_j$ 如下确定：

$$\lambda_j = \mathop{\arg \max}_{i \in \{1,2,\ldots,k\}} \gamma_{ji}$$

现在的问题就是求解混合高斯模型的参数 $\{(\alpha_i, \boldsymbol{\mu}_i, \Sigma_i)\ |\ 1 \leq i \leq k\}$。给定样本集D，可采用极大似然估计，即最大化（对数）似然

$$\begin{aligned} LL(D) &= \ln \left( \prod_{j=1}^{m}p_{\mathcal{M}}(\boldsymbol{x}_j) \right) \\ &= \sum_{j=1}^{m} \ln \left( \sum_{i=1}^{k} \alpha_i \cdot p(\boldsymbol{x}_i\ |\ \boldsymbol{\mu}_i , \Sigma_i )\right) \end{aligned} $$

常采用EM算法进行迭代优化求解。

$LL(D)$ 分别对 $\boldsymbol{\mu}_i$、$\Sigma_i$ 求偏导，并令偏导等于0，可以得到

$$\boldsymbol{\mu}_i = \frac{\sum_{j=1}^{m} \gamma_{ji}\boldsymbol{x}_j }{\sum_{j=1}^{m} \gamma_{ji} } \tag{2}$$
$$\Sigma_i = \frac{\sum_{j=1}^{m}\gamma_{ji}(\boldsymbol{x}_j - \boldsymbol{\mu}_j)(\boldsymbol{x}_j - \boldsymbol{\mu}_j)^T} {\sum_{j=1}^{m}\gamma_{ji}} \tag{3}$$

直观上理解，各混合成分的均值可通过样本加权平均来估计，样本权重是每个样本属于该成分的后验概率。

混合系数 $\alpha_i$ 除了要最大化 $LL(D)$，还有约束条件 $\alpha_i \geq 0$和$\sum_{i=1}^{k}\alpha_i = 1$，因此用拉格朗日乘数法可以得到

$$\alpha_i = \frac{1}{m}\sum_{j=1}^{m}\gamma_{ji} \tag{4}$$

直观上理解，每个高斯成分的混合系数由样本属于该成分的平均后验概率确定。

高斯混合的EM算法：在每步迭代中，先根据当前参数来计算每个样本属于每个高斯成分的后验概率 $\gamma_{ji}$（E步），再根据式(2)(3)(4)更新模型参数 $\{(\alpha_i, \boldsymbol{\mu}_i, \Sigma_i)\ |\ 1 \leq i \leq k\}$（M步）。

<img src="./gmm.png" width="540" />



GMM的优势

- 可理解性好，看做多个分布的组合
- 速度快，因为EM这种高效的算法在
- 学术上比较直观，最大数据似然概率
- 可以拓展到多个其它分布的混合：多个多项式分布做类别判定

GMM的劣势

- 初始化要慎重，不然可能掉到局部最优
- 要手工指定K的个数
- 对于“非凸”分布数据及无能为力