高斯混合模型：假定实例是由多个参数未知的高斯分布的混合生成的

假定数据集X是通过一下概率过程生成的：
1. 对于每个实例，从$k$个集群中随机选择一个集群。选择第$j$个集群的概率由集群的权重$\phi^{(j)}$定义。第$i$个实例选择的集群的索引记为$z^{(i)}$
2. 如果$z^{(i)}=j$，表示第$i$个实例已分配给第$j$个集群，则从高斯分布中随机采样该实例的位置$x^{(i)}$，其中均值$\mu^{(j)}$和协方差矩阵$\Sigma^{(j)}$。这记为$x^{(i)}$~$N(\mu^{(j)}, \Sigma^{(j)})$


In [None]:
from sklearn.mixture import GaussianMixture
from sklearn.datasets import make_moons
import numpy as np
X, y= make_moons(n_samples=1000, noise=0.05)
gm=GaussianMixture(n_components=3, n_init=10)
gm.fit(X)
#异常检测
densities=gm.score_samples(X)
density_threshold=np.percentile(densities, 4)
anomalies=X[densities<density_threshold]
#可调用gm.bic(), gm.aic()

贝叶斯信息准则（BIC）：$BIC=log(m)p-2log(\hat{L})$

赤池信息准则（AIC）：$AIC=2p-2log(\hat{L})$

其中，$m$是实例数，$p$是模型学习的参数数量，$\hat{l}$是模型的似然函数的最大值

In [None]:
#贝叶斯高斯混合模型
from sklearn.mixture import BayesianGaussianMixture
bgm=BayesianGaussianMixture(n_components=10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_, 2)

从$q(z)$到$p(z|X)$的KL散度

\begin{align*}
D_{\text{KL}}(q \parallel p) &= \mathbb{E}_q\left[ \log \frac{q(z)}{p(z \mid X)} \right] \\
&= \mathbb{E}_q[\log q(z) - \log p(z \mid X)] \\
&= \mathbb{E}_q\left[ \log q(z) - \log \frac{p(z \mid X)}{p(X)} \right] \\
&= \mathbb{E}_q[\log q(z) - \log p(z \mid X) + \log p(X)] \\
&= \mathbb{E}_q[\log q(z)] - \mathbb{E}_q[\log p(z \mid X)] + \mathbb{E}_q[\log p(X)] \\
&= \mathbb{E}_q[\log p(X)] - (\mathbb{E}_q[\log p(z \mid X)] - \mathbb{E}_q[\log q(z)]) \\
&= \log p(X) - \text{ELBO} \\
\text{其中 } \text{ELBO} &= \mathbb{E}_q[\log p(z, X)] - \mathbb{E}_q[\log q(z)]
\end{align*}