## max MLE == min KL

$$
\begin{split}
&\theta^\star=\arg\max_{\theta}\Pi_{i=1}^Np_\theta(x^i)\\
&\arg\min_\theta KL(p_{data}||p_\theta)=\arg\min_\theta\int_x p_{data}(x)\log\frac{p_{data}(x)}{p_\theta(x)}dx
\end{split}
$$

- $p_{data}(\cdot)$: 真实的数据分布；
- $p_\theta(\cdot)$：模型训练得到的分布；

In [1]:
import numpy as np
from scipy.stats import norm
from scipy.optimize import minimize

# 生成一些模拟数据
np.random.seed(0)
true_mu, true_sigma = 0, 1
data = np.random.normal(true_mu, true_sigma, 1000)

# 最大似然估计
def MLE(params):
    mu, sigma = params
    LL = np.sum(norm.logpdf(data, mu, sigma))
    return -LL  # 我们需要最小化的是负对数似然

mle_result = minimize(MLE, np.array([0, 1]), method='L-BFGS-B')
print(f"MLE估计的参数: μ = {mle_result.x[0]:.2f}, σ = {mle_result.x[1]:.2f}")

# 最小化KL散度
def KL_divergence(params):
    mu, sigma = params
    # 在这个示例中，我们简化问题，假设我们知道真实的μ和σ
    KL = np.log(true_sigma/sigma) + (sigma**2 + (mu - true_mu)**2) / (2 * true_sigma**2) - 0.5
    return KL

kl_result = minimize(KL_divergence, np.array([0, 1]), method='L-BFGS-B')
print(f"通过最小化KL散度估计的参数: μ = {kl_result.x[0]:.2f}, σ = {kl_result.x[1]:.2f}")


MLE估计的参数: μ = -0.05, σ = 0.99
通过最小化KL散度估计的参数: μ = 0.00, σ = 1.00
