高斯混合模型是一种概率模型，它`假设所有数据点都是从有限数量的高斯分布的混合参数中生成的`，`基于分布`的模型。

可以将混合模型视为对 k-means聚类算法的扩展，它包含了数据的协方差结构以及隐高斯模型中心的信息。

https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/

## 高斯混合 -- Gaussian Mixture

`GaussianMixture` 对象实现了用来拟合高斯混合模型的期望最大化 (EM) 算法。它还可以为多变量模型`绘制置信椭圆体`，同时`计算 BIC（Bayesian Information Criterion，贝叶斯信息准则）来评估数据中聚类的数量`。

GaussianMixture.fit 方法可以从训练数据中拟合出一个高斯混合模型。如果给定测试数据，通过使用 GaussianMixture.predict 方法，可以为每个样本分配最适合的高斯分布模型。

GaussianMixture 方法中自带了不同的选项来约束不同估类的协方差：spherical，diagonal，tied 或 full 协方差

![20220715114450](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220715114450.png)


一般在进行高斯混合聚类前，需要通过K-means等方式初始化几个中心点，并为每个点分别计算由该混合模型内的每个分量生成的概率。然后，调整模型参数以最大化模型生成这些参数的可能性。重复这个过程（EM），该算法保证该过程内的参数总会收敛到一个局部最优解。

![20220715115601](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220715115601.png)



In [9]:
import numpy as np
from sklearn.mixture import GaussianMixture

X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# fit: EM算法估计模型参数
gm = GaussianMixture(n_components=2, random_state=0,init_params='kmeans').fit(X)
gm.means_

array([[10.,  2.],
       [ 1.,  2.]])

In [12]:
# 预测所属聚类类别
print(gm.predict([[0, 0], [12, 3]]))

# 聚类后给出聚类标签
gm.fit_predict(X)

[1 0]


array([1, 1, 1, 0, 0, 0], dtype=int64)

## 变分高斯混合 -- Variational Bayesian Gaussian Mixture

`变分推断`是一种估计算法，`使模型证据（包括先验）的下限最大化，而不是数据似然`。

变分推断的原理与期望最大化相同（即两者都是迭代算法，在寻找每个混合分布产生的每个点的概率和将混合分布拟合到这些指定的点之间交替进行），但`变分方法通过整合先验分布的信息来增加正则化`,避免期望最大化中经常出现的奇异现象，但也给模型引入了一些微妙的偏差。推理的速度通常明显较慢。

In [13]:
import numpy as np
from sklearn.mixture import BayesianGaussianMixture

X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [12, 4], [10, 7]])
bgm = BayesianGaussianMixture(n_components=2, random_state=42).fit(X)
bgm.means_

bgm.predict([[0, 0], [9, 3]])

array([0, 1], dtype=int64)