# Lectures 2 & 3: Parameter Estimation

## Data Visualization 数据可视化

+ Histogram 直方图
  + 通过将连续观察值分组以可视化。组距过小会导致过拟合，而组距过大会隐藏一些细节。
+ Boxplot 箱线图
  + 箱线图重点展示数据的分布情况，显示中位数、四分位数以及异常值。大于$Q3 + 1.5IQR$（IQR为四分位距，即$Q3-Q1$）或小于$Q1 - 1.5IQR$的点为可疑离群值(suspected outlier)。大于$Q3 + 3IQR$或小于$Q1 - 3IQR$的点为离群值(outlier)。

## Maximum Likelihood Estimation (MLE) 极大似然估计

### Parameter Space 参数空间
+ 一个随机样本$(X_1, X_2, \ldots, X_n)$来自某个分布族$f(x; \theta)$，其中$\theta$是未知参数（可以是标量或向量）。参数空间(parameter space)是所有可能的参数值的集合，记为$\Omega$。例如，对于正态分布$N(\mu, \sigma^2)$，参数空间为$\Omega = \{(\mu, \sigma^2) | -\infty < \mu < \infty, \sigma^2 > 0\}$。
+ 观察得到的值$X_1, ..., X_n$被表示为$x_1, ..., x_n$，称为观测值(observed values)。统计量$u(X_1, ..., X_n)$称为$\theta$的估计量(estimator)。

### Likelihood Function 似然函数
+ 似然函数(likelihood function)是参数$\theta$的函数，定义为在给定参数$\theta$下，观测值$x_1, ..., x_n$出现的概率或概率密度。对于离散型随机变量，似然函数为：
  $$
  L(\theta) = P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n; \theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta)
  $$
  对于连续型随机变量，似然函数为：
  $$
  L(\theta) = f(x_1, x_2, \ldots, x_n; \theta) = \prod_{i=1}^{n} f(x_i; \theta)
  $$
+ 对数似然函数(log-likelihood function)为：
  $$
  l(\theta) = \ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)
  $$

### Maximum Likelihood Estimator (MLE) 极大似然估计量
+ 极大似然估计量(maximum likelihood estimator, MLE)是使似然函数$L(\theta)$或对数似然函数$l(\theta)$达到最大值的参数值。记为$\hat{\theta}$，即：
  $$
  \hat{\theta} = \arg\max_{\theta \in \Omega} L(\theta) = \arg\max_{\theta \in \Omega} l(\theta)
  $$
+ 通常，最大化对数似然函数更为方便，因为对数函数是单调递增的，且将乘积转化为和，简化计算。
+ 求解MLE的一般步骤：
  1. 写出似然函数$L(\theta)$或对数似然函数$l(\theta)$。
  2. 对$\theta$求导，并令导数等于零，得到方程。
  3. 解方程，找到可能的极值点。
  4. 验证这些点是否为最大值（例如通过二阶导数检验）。
+ eg. (1) Bernoulli分布的MLE
  + 设$X_1, X_2, \ldots, X_n$为来自参数为$p$的Bernoulli分布的样本，$X_i \sim \text{Bernoulli}(p)$，其中$p \in (0, 1)$。观测值为$x_1, x_2, \ldots, x_n$，则似然函数为：
    $$
    L(p) = \prod_{i=1}^{n} p^{x_i} (1 - p)^{1 - x_i} = p^{\sum x_i} (1 - p)^{n - \sum x_i}
    $$
    对数似然函数为：
    $$
    l(p) = \sum_{i=1}^{n} [x_i \ln p + (1 - x_i) \ln(1 - p)] = (\sum x_i) \ln p + (n - \sum x_i) \ln(1 - p)
    $$
    对$p$求导并令导数等于零：
    $$
    \frac{dl(p)}{dp} = \frac{\sum x_i}{p} - \frac{n - \sum x_i}{1 - p} = 0
    $$
    解得：
    $$
    \hat{p} = \frac{\sum x_i}{n}
    $$
    即样本中成功次数的比例。
+ eg. (2) Uniform[0, $\theta$]分布的MLE
  + 设$X_1, X_2, \ldots, X_n$为来自参数为$\theta$的均匀分布的样本，$X_i \sim \text{Uniform}(0, \theta)$，其中$\theta > 0$。观测值为$x_1, x_2, \ldots, x_n$，则似然函数为：
    $$
    L(\theta) = \prod_{i=1}^{n} \frac{1}{\theta} = \theta^{-n}, \quad 0 < x_i < \theta
    $$
    注意到$L(\theta)$在$\theta$增大时减小，因此最大值出现在$\theta$的最小可能值，即$\max(x_1, x_2, \ldots, x_n)$。因此，MLE为：
    $$
    \hat{\theta} = \max(x_1, x_2, \ldots, x_n)
    $$

### Regularity Conditions 正则条件
+ 为确保MLE的良好性质（如一致性和渐近正态性），通常需要满足一些正则条件，包括：
  1. $\theta$不同时，$f(x; \theta)$在$x$上有相同的支持集，且一定随$\theta$的变化而变化。
  2. 真实参数值$\theta_0$位于参数空间的内部。

+ **定理**：令$\theta_0$为真实参数值，$\hat{\theta}$为MLE。在满足正则条件下，当样本量$n \to \infty$时，$\lim_{n \to \infty} P_{\theta_0}[L(\theta_0; x) > L(\hat{\theta}; x)] = 1$，即$\hat{\theta}$在概率上收敛于$\theta_0$。
  + 大致证明步骤：
    1. 根据大数定律，$\frac{1}{n} l(\theta)$几乎处处收敛于$E_{\theta_0}[\ln f(X; \theta)]$。
    2. 由于$E_{\theta_0}[\ln f(X; \theta)]$在$\theta = \theta_0$处取得唯一最大值，故对于任何$\theta \neq \theta_0$，存在$\epsilon > 0$使得$E_{\theta_0}[\ln f(X; \theta)] < E_{\theta_0}[\ln f(X; \theta_0)] - \epsilon$。
    3. 因此，随着$n$增大，$l(\theta)$在$\theta \neq \theta_0$处的值将小于$l(\theta_0)$，从而证明MLE的一致性。

### MLE with Multiple Parameters 多参数的MLE

+ 对于多参数情况，设参数向量为$\theta = (\theta_1, \theta_2, \ldots, \theta_k)$，似然函数为$L(\theta)$，对数似然函数为$l(\theta)$。MLE的求解步骤类似于单参数情况：
  1. 写出似然函数$L(\theta)$或对数似然函数$l(\theta)$。
  2. 对每个参数$\theta_i$求偏导，并令偏导数等于零，得到方程组。
  3. 解方程组，找到可能的极值点。
  4. 验证这些点是否为最大值（例如通过Hessian矩阵检验）。
+ eg. 正态分布的MLE
  + 设$X_1, X_2, \ldots, X_n$为来自参数为$(\mu, \sigma^2)$的正态分布的样本，$X_i \sim N(\mu, \sigma^2)$，其中$\mu \in (-\infty, \infty)$，$\sigma^2 > 0$。观测值为$x_1, x_2, \ldots, x_n$，则似然函数为：
    $$
    L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2\right)
    $$
    对数似然函数为：
    $$
    l(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
    $$
    对$\mu$和$\sigma^2$分别求偏导并令偏导数等于零：
    $$
    \frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = 0
    $$
    解得：
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i = \bar{x}
    $$
    对$\sigma^2$求偏导：
    $$
    \frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i - \mu)^2 = 0
    $$
    解得：
    $$
    \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
    $$
+ 无偏性(unbiasedness)：一个估计量 $u(X_1, X_2, \dots, X_n)$ 是 $\theta$ 的 **无偏估计量**，如果
  $$
  E(u(X_1, X_2, \dots, X_n)) = \theta.
  $$
  否则，$u(X_1, X_2, \dots, X_n)$ 被称为 **有偏估计量**。
+ 在上例中，$\hat{\mu}$是$\mu$的无偏估计量，但$\hat{\sigma}^2$不是$\sigma^2$的无偏估计量。为了得到$\sigma^2$的无偏估计量，可以使用样本方差：
  $$
  S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
  $$

## Method of Moments (MoM) 矩估计法

+ 矩估计法(method of moments, MoM)是一种通过样本矩来估计分布参数的方法。设随机变量$X$的第$k$阶矩(moment)为$E(X^k)$，样本的第$k$阶样本矩(sample moment)为：
  $$
  m_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k
  $$
+ 矩估计法的基本思想是将样本矩与理论矩相等，从而得到参数的估计值。具体步骤如下：
  1. 计算样本的前$k$阶样本矩$m_1, m_2, \ldots, m_k$。
  2. 写出理论矩$E(X^1), E(X^2), \ldots, E(X^k)$，并将其表示为参数$\theta$的函数。
  3. 解方程组$m_i = E(X^i)$，得到参数的估计值$\hat{\theta}$。
- 特别地，当只有一个参数时，有$\mathbb{E}(X) = \bar{X}$，即参数的MoM估计量为样本均值。
+ eg. Gamma分布的MoM
  + 设$X_1, X_2, \ldots, X_n$为来自参数为$(\alpha, \beta)$的Gamma分布的样本，$X_i \sim \text{Gamma}(\alpha, \beta)$，其中$\alpha > 0$，$\beta > 0$。观测值为$x_1, x_2, \ldots, x_n$，则理论矩为：
    $$
    E(X) = \alpha \beta, \quad E(X^2) = \alpha(\alpha + 1)\beta^2
    $$
    样本的前两阶样本矩为：
    $$
    m_1 = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} x_i^2
    $$
    将样本矩与理论矩相等，得到方程组：
    $$
    m_1 = \alpha \beta
    $$
    $$
    m_2 = \alpha(\alpha + 1)\beta^2
    $$
    解方程组，得到参数的估计值：
    $$
    \hat{\beta} = \frac{m_2 - m_1^2}{m_1}, \quad \hat{\alpha} = \frac{m_1^2}{m_2 - m_1^2}
    $$