> 在统计学习领域，有的时候**对复杂的分布我们不能直接的计算出它的分布**，我们需要使用**近似的方法对分布近似**。常用的方法有Gibbs采样、变分法和**拉普拉斯近似**，本节我们讨论**拉普拉斯近似**。

---
## 单一连续变量的情形：
---
拉普拉斯近似的目标是找到定义在⼀组连续变量上的概率密度的⾼斯近似。**也就是说利用高斯分布去近似一个连续变量的密度函数**。首先我们考虑单一连续变量$z$的情形，假设分布$p(z)$的定义为:

$$
p(z) = \frac{1}{Z}f(z) \tag{4.125}
$$

如果$f(z)$很复杂，那么我们是几乎求不出归一化项的。所以需要利用高斯分布$q(z)$进行近似。而高斯的中心点就取$p(z)$的众数。即$p^{''}(z_0)=0$。又由于已知高斯的对数其实是变量的二次函数，所以考虑泰勒展开的**前2项**。

$$
\ln f(z) \cong \ln f(z_0) - \frac{1}{2}A(z - z_0)^2 \tag{4.127}
$$

其中
$$
\quad A = - \frac{d^2}{dz^2} \ln f(z) \mid_{z=z_0} \tag{4.128}
$$


所以有:
$$
f(z) \cong f(z_0) \mathrm{exp}(-\frac{A}{2}(z - z_0)^2) \\
q(z) = (\frac{A}{2 \pi})^{1/2} \mathrm{exp}(-\frac{A}{2}(z - z_0)^2)
$$

这样，我们就得到了$p(z)$的高斯分布近似$q(z)$

下图给出了拉普拉斯近似的简单示例。不过拉普拉斯的高斯近似只考虑了局部的情况，而且在高维的情况下不仅要求极值点$z_0$还要求相应的Hessian matrix

![](https://raw.githubusercontent.com/data2world/PRML_Note/master/IMG/CH04/4.14.png)

---
## 拉普拉斯近似的简单示例
---
假设一个网球手的一发命中率为$X \sim g(z_i|\theta) = \theta(\theta + 1)x_i^{\theta - 1}(1 - x_i)$，其中$x_{in} \in (0,1)$。现在的情况是，没有现成的先验。那我们便使用$\mathrm{Gamma}(\alpha,\beta)$作为先验。其后验分布为:

- 1)
$$
\begin{split}
p(\theta|x) & = \mathrm{const} * L_x (\theta) * p(\theta) \\
&= \mathrm{const} * \Big\{\theta^n (\theta + 1)^n \prod_{i = 1}^n x_i^{\theta}\Big\} * \theta^{\alpha - 1} e^{-\beta \theta} \\
& = \mathrm{const} * \theta^{n + \alpha - 1}(\theta + 1)^n e^{-\{b + \sum_{i = 1}^n \log(1 / x_i )\} \theta}
\end{split}
$$

- 2)
**取对数**

$$
\log p(\theta | x) = \mathrm{const} + (n + \alpha - 1)\log \theta + n \log (\theta + 1) - \theta \Big\{  b - \sum_{i = 1}^n \log x_i \Big\}
$$

- 3)
**求一阶导数**

$$
\frac{n + \alpha - 1}{\theta} + \frac{n}{\theta + 1} - {b - \sum_{i = 1}^n \log x_i}
$$

- 4)
**求二阶导数**

$$
-\frac{n + \alpha - 1}{\theta^2} - \frac{n}{(\theta + 1)^2}
$$

然后就能求出均值和方差了。比如$n=20$，$\sum_{i = 1} \log X_i = -4.59$，假设超参为$a=1,b=1$， 令一阶导为0可得$\theta=6.69$，二阶导为$-0.785$，这样就可以使用高斯分布$N(6.69,1.1292)$来近似这一段了。

---
## 模型比较与BIC
---
BIC(Bayesian Information Criterion)即为**贝叶斯信息准则**。之前说过AIC(赤池信息准则)。看下面的公式，可以知道BIC和AIC的前部分相同，后面当$n>8$时，BIC的惩罚更多，相对来说，BIC更加倾向选择参数简单的模型。

$$
AIC = -2\ln(L)+2k \\
BIC = -2\ln(L)+\ln(n)k
$$

推导过程书中已经比较详细了，这里就不细说了。

---
## Refrence

- [1] http://www2.stat.duke.edu/~st118/sta250/laplace.pdf