# Parameter Estimation

给定来自某个总体的代表性数据样本，我们可能需要估计表征总体的分布的参数。我们在下面讨论估计量的属性和以下估计方法：

1. 矩法。
2. 最大似然估计 (MLE)。
3. 最大后验概率估计 (MAP)。

<hr style="border:2px solid blue"> </hr>

## Properties of estimators

什么是好的估算器？我们可能想要一个指向我们正在估计的参数的估计器，并且在该值附近变化不大。通常，这两种愿望之间存在权衡。几个定义：

### Consistency

一致性是

$$P(|\theta_n-\theta |>0) \to 0 \text{ as } n \to \infty$$

换句话说，这表明随着样本变大，估计器的概率收敛到 \\(\theta\\)。 

### Bias

\\(\theta_n\\) 是无偏的，如果

$$E(\theta_n)=\theta$$

基本上，如果估计量以真实为中心，则它是无偏的。

## Efficency 

在所有无偏估计量中具有最低可能方差的估计量被认为是有效的。

### Mean squared error

结合方差和偏差，我们得到了称为均方误差 (MSE) 的估计器质量的度量：

$$MSE = variance + bias^2$$

MSE 是衡量准确度（范围）和精确度（位置）之间的权衡。

<hr style="border:2px solid blue"> </hr>

## Method of moments

矩法相当于将总体矩与样本矩相匹配。基本上，我们使用以下给出的有限近似：

$$E[f] = \int f(x)^r p(x) dx \approx \frac{1}{N} \sum f(x)^r p(x)$$ 

where \\(f(x)=x\\) and \\(r=1\\), this amounts to 

$$\mu \approx \bar{x}$$

我们可以选择使用哪种矩，但是，所需的矩数量将等于我们要估计的参数数量。例如，假设我们希望估计由伯努利分布给出的抛硬币实验的成功概率。我们知道：

\\(X_i \sim Bern(\theta)\\), 我们定义了正面为 x = 1:

$$P_X(x;\theta) = 
\begin{cases}
    \theta, \text{for x = 1} \\
    1 - \theta, \text{ for x = 0} \\
\end{cases}
$$

或者，我们可以将其写为：

$$f(x;\theta) = \theta^x(1-\theta)^{(1-x)}$$

对于这个实验，让我们假设我们正在收集 N=20 次掷硬币并最终得到数据：{1,1,0,1,1,1,1,0,1,0,1,0,1, 1,0,0,1,1,1,0}（13 个正面）。

我们正在寻求估计均值和方差。

对于总体：

$$E[X] = \sum_x x f(x) = \sum_x x [\theta^x(1-\theta)^{(1-x)}] = 0\ast(1-\theta) + 1\ast\theta = \theta$$

$$Var(X) = \theta(1-\theta)$$ 

由此，我们看到我们只需要估计一个参数，因为方差是均值的函数。

因此，我们可以将第一个样本时刻与总体时刻相匹配以获得我们的估计：

$$\hat{\theta} = \frac{1}{N} \sum_N x_i = \frac{13}{20}$$

也可以从中计算方差。

矩估计的方法可以证明是一致的，但不一定有效，并且会给出参数空间之外的估计。

<hr style="border:2px solid blue"> </hr>

## Maximum Likelihood Estimation

参数估计的另一种方法遵循这样一个假设，即我们的数据来自一个群体的独立且同分布的观察结果。我们的目标是找到一个 $\theta$ 来最大化我们观察到这些数据的可能性。

似然函数定义为观察数据的联合概率：

$$\mathcal{L}(\theta|x_1 ... x_n) = \prod_{i=1}^n f(x_i | \theta)$$

我们的工作就是求解：

\\(\frac{d}{d\theta}\mathcal{L}(\theta|{x})=0\\) 确保它是最大值而不是在边界上。

如果我们回到 20 次抛 13 个正面的抛硬币示例，我们首先设置似然函数并求关于 \\(\theta\\)导数。

\\(\mathcal{L}(\theta|x_1 ... x_n) = \prod_{i=1}^n \theta^x(1-\theta)^{(1-x)}\\)

请注意，通常需要将似然转换为对数似然，以避免因拥有大量数据而导致计算困难。

\\(ln \mathcal{L}(\theta|x_1 ... x_n) = (\sum_{i=1}^n x_i) ln \theta + (\sum_{i=1}^n (1-x_i)) ln (1-\theta)\\)

将对 \\(\theta\\) 导数设置为零，我们得到

\\((\sum_{i=1}^n x_i)\frac{1}{\hat{\theta}} -(\sum_{i=1}^n (1-x_i))\frac{1}{1-\hat{\theta}}\\) = 0

求解 \\(\hat{\theta}\\), 有

$$\hat{\theta} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x}$$

可以看到和之前的 \\(\frac{13}{20}\\) 结果是匹配的。

MLE 可以被证明是一个一致的估计量，但可能有偏差。在操作上，可能在计算上很昂贵，但提供了一个有用的事实，即**参数的任何函数也是 MLE 的函数**（后面有用），即invariant to transformation。

补充实例：https://www.coursera.org/learn/compstatsintro/lecture/xnuDc/mle-estimation-using-a-beta-distribution

<hr style="border:2px solid blue"> </hr>

## Gaussian Mixture Model

https://www.coursera.org/learn/compstatsintro/lecture/FLZND/gaussian-mixture-model

## Maximum a posteriori estimate

在后面我们将更详细地讨论 MAP 估计，现在，我们可以保留这一点，因为 MAP 估计是使用先验或附加信息的增强 MLE。该过程与查找 MLE 的过程相同，但是，我们通过以下方式添加了其他信息：
    
$$\hat{\theta}_{MAP} = arg max_{\theta} \mathcal{L}(\theta|x_1 ... x_n) \ast \pi (\theta)$$

\\(\pi (\theta)\\) 是我们的先验或附加信息。

<hr style="border:2px solid blue"> </hr>

## Non-parametric Methods：Kernel Density Estimation

https://www.coursera.org/learn/compstatsintro/lecture/z3vh0/non-parametric-methods-kernel-density-estimation

最后简单补充非参数估计概率密度函数的方法