### 概率与似然

- probability vs. likelihood
    - 概率：P(数据 | 参数)
        - 在**已知模型参数**的情况下，某个特定结果或事件发生的可能性。
        - 已知一枚硬币是公平的（正反面概率都是50%），那么抛出正面的概率是0.5。
    - 似然：L(参数 | 数据)
        - 在观察到特定数据的情况下，模型参数取特定值的支持程度。
        - 观察到连续10次抛硬币都是正面，我们想知道这枚硬币是偏向正面的可能性有多大。

### MLE

$$
\theta = \underset{\theta}{\mathrm{argmax}}\ p_{\theta}(x) = \underset{\theta}{\mathrm{argmax}}\ \log p_{\theta}(x)
$$

- 训练集 $X=\left\{x_1,x_2,\cdots, x_N\right\}$，则 marginal log likelihood（$\log p_\theta(X)$）

    $$
    \begin{split}
    \log p_{\theta}(X) &= \log \prod_{i=1}^{N} p_{\theta}(x_i) \\
    &= \sum_{i=1}^{N} \log p_{\theta}(x_{i}) \\
    &= \sum_{i=1}^{N} \log \int p_{\theta}(x_i, z_i)dz \\
    &= \sum_{i=1}^{N} \log \int p_{\theta}(x_i \lvert z_i)p_{\theta}(z_i)dz
    \end{split}
    $$
    - $z$ 的维度，决定了最后有几重积分；

## examples

### 估计正态分布的参数 $\mu, \sigma$

In [3]:
import numpy as np
from scipy.optimize import minimize

# 生成正态分布的样本数据
np.random.seed(0)
true_mu, true_sigma = 0, 0.1  # 真实的均值和标准差
samples = np.random.normal(true_mu, true_sigma, 1000)

# 定义对数似然函数
def log_likelihood(params, data):
    mu, sigma = params
    return -np.sum(np.log(np.sqrt(2 * np.pi * sigma**2)) + ((data - mu)**2 / (2 * sigma**2)))

# 定义初始参数估计
initial_params = [0, 1]  # 初始猜测的均值和标准差

# 使用梯度下降法找到最大化对数似然函数的参数值
result = minimize(lambda params: -log_likelihood(params, samples), initial_params, method='BFGS')

estimated_mu, estimated_sigma = result.x
result.x

array([-0.00452568,  0.09870331])