### 模型的泛化能力：预测准确性

前面提到的诸多模型拟合优度 (Goodness of fit) 指标，只能衡量模型对于当前样本的拟合程度。

对于样本外的数据，我们不确定该模型是否具有**泛化能力**，即该模型是否能准确的预测样本外的数据。

为了评估模型的预测能力，我们有以下3种策略：
1. 通过新数据对模型进行评估。我们可以收集新的数据，并检验模型的预测能力。
2. 从已有样本中拿出一部分数据用来预测。即交叉验证。
3. 通过统计方法进行近似。比如使用对交叉验证近似的信息熵指标来评估模型的泛化能力。

#### 交叉验证

收集新数据来检验模型的预测能力是一种理所当然的直觉。但心理学数据不同于其他学科的数据，它常受到**时间因素**和**抽样**的影响。
- 比如，心境可能随着季节变化，因此在不同季节收集到的数据会受到时间的影响。

因此，一种更高效的方法是，一次性多收集一些数据，选择其中的一部分作为预测数据。

但问题在于，我们选择哪一部分数据作为预测数据呐？或者说，我们该如何有效的对数据进行抽取呐？

**交叉验证**的目的就在于：提供不同的抽取预测数据的策略

常见的交叉验证策略：
1. 分半交叉验证 (Split-half cross-validation)
	- 分半交叉验证将观测数据对半分成两部分，分别在不同的数据集上拟合模型，并在另外一半数据集上验证模型，最后再对比不同的模型在两份数据集作为验证集时的预测准确度。
2. K 折交叉验证 (K-fold cross-validation) 
	- K 折交叉验证把数据分成 K 分，其中一份作为训练集，其余的 K-1 分数据集作为验证集，总共重复这个流程 K 次。以 K 次验证结果的均值作为验证标准。
3. 留一法交叉验证 (Leave-one-out cross-validation)
	- 留一法交叉验证是 K 折交叉验证的一个特例，当分折的数量等于数据的数量时，K 折留一法便成了留一法交叉验证。留一法交叉验证相较于普通的交叉验证方法，几乎使用了所有数据去训练模型，因此留一法交叉验证的训练模型时的**偏差 (bias) 更小、更鲁棒**，但是又因为验证集只有一个数据点，验证模型的时候**留一法交叉验证的方差 (Variance) 也会更大**。

K 折交叉验证图示
![](https://hub.packtpub.com/wp-content/uploads/2019/05/KFold.png)

source: https://hub.packtpub.com/cross-validation-strategies-for-time-series-forecasting-tutorial/

#### 信息准则(information criteria)

尽管交叉验证存在诸多优势，并且避免了收集数据的潜在问题，但是交叉验证**在认知神经科学里的认知建模领域里的使用并不广泛**，

其最主要的原因在于，研究者收集的数据**样本量往往有限**，然而很多计算模型却对数据样本量有所需求，如果使用交叉验证，将数据拆分，那么很有可能导致拟合模型的试次数量不足，使得模型拟合和验证的结果较差，进而导致产生一类错误和二类错误的概率增大。

为了解决这些问题，统计学家们凭借数学与统计工具可以近似得到与交叉验证相似的结果。

这类近似交叉验证的指标被称为**信息准则**(information criteria)。

信息准则是对统计模型**预测精度**的一种度量。它考虑**模型与数据的匹配程度**，并通过**模型的复杂性**进行惩罚。

从前面关于模型**偏差方差权衡 **(Bias variance trade-off)的讨论中我们了解到
- **偏差 bias** 会随着模型的复杂度的增大而减小，偏差大的模型往往*欠拟合*；
- **方差 error** 则会随着模型复杂度的增大而增大，方差大的模型往往*过拟合*。
- 方差和偏差之间存在一种**权衡关系**。
- 一般来说，复杂的模型容易过拟合，而简单的模型则容易欠拟合。

其中：
- **模型与数据的匹配程度**更多的体现在模型的**偏差 bias**上。
- 而**模型的复杂性**更多的体现在模型的**方差 error**上。

通过稍微数学化的语言表达就是：

$ 信息准则 = 偏差 + 方差 = bias + error $
- 其中 bias 往往与模型的似然值相关。可以想象，似然值越大，模型的偏差越小。
- error 与模型的复杂程度相关。比如，模型的参数越多模型越复杂。

可见，信息准则越小，偏差和方差就越小。因此，**信息准则越小，代表模型的预测性越好**。

常见的4类信息准则：
1. AIC (Akaike information criterion)
2. DIC (Deviance information criterion)
3. WAIC (Widely applicable information criterion)
4. LOO-CV (Leave-one-out cross-validation)

#### 1. AIC (Akaike information criterion)

AIC是最简单的信息准则标准，由日本统计学家赤池弘次 (Hirotugu Akaike) 提出 (Akaike, 1974)，是频率主义统计学里最为经典的模型比较指标之一。

其表达式如下：
$$
A I C= bias + error = -2 \sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)+2 p_{A I C}
$$

别被公式吓到🧐，它的原理其实很简单。

$A I C= bias + 2 p_{A I C}$

- 其中，$2 p_{A I C}$ 就是 error，代表模型参数数量的两倍。
- error 描述了模型的复杂程度。即参数越多，模型越复杂，相应的 AIC 值越大，模型预测性越差。

$A I C = -2 \sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)+2 p_{A I C}$

- $-2 \sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)$ 为 bias，描述了模型对于当前数据的匹配程度。
- bias 与 似然函数 $p\left(y_{i} \mid \hat{\theta}_{m l e}\right)$ 相关。$\hat{\theta}_{m l e}$为最大似然发求得的参数值。 
  
  我们知道，模型拟合的越好，似然值越大，因此$\sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)$越大。相应的 $-2\sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)$ 的值越小。那么 AIC的值也越小。

需要注意的是 AIC 只考虑了最大似然对应的参数值 $\hat{\theta}_{m l e}$, 因此它适用于频率学派模型的评估。而对于贝叶斯学派来说，**由于参数为分布，因此不能使用AIC来评估模型**。

#### 2. DIC (Deviance information criterion)

为了解决 AIC 无法评估贝叶斯模型。加之 AIC 只考虑到了**模型参数数量**所带来的复杂性。

统计学家们提出了"贝叶斯参数估计版的 AIC"，即 DIC (Deviance information criterion) 。

$$
\mathrm{DIC} = -2 \sum_{i}^{n} \log p\left(y_{i} \mid \bar{\theta}\right) +2 p_{D}
$$

可以看到，DIC 与 AIC 的公式非常相似。

- 其中$-2 \sum_{i}^{n} \log p\left(y_{i} \mid \bar{\theta}\right)$ 为 bias。也称为 deviance，即 DIC 的 D。
- 与 AIC 的区别在于，由于贝叶斯模型中的参数 $\theta$ 为概率分布，DIC 选择用参数分布的均值 $\bar{\theta}$ 来替代 AIC 中的 $\hat{\theta}_{m l e}$。

DIC 对于 error 的理解与 AIC 不同。DIC 考虑了参数后验分布中所有采样对于数据的预测性。

$$
\frac{1}{2}error = p_{D} = \bar{D} - D_{\hat{\theta}}
$$

- 要理解 DIC 中的 error 与 DIC 如何评估后验分布中不同参数采样的影响，关键在于了解 D (deviance) 的意义。
- D (deviance) 的公式为 $-2 \sum_{i}^{n} \log p\left(y_{i} \mid \theta\right)$。
- 可见，bias 也可以用 D 来表示，即 $D_{\hat{\theta}}$ 。差异在于，公式中的 $\theta$ 变为 $\hat{\theta}$。 并且这个 bias $\hat{\theta}$ 也出现在 $p{D}$ 的公式中。
- 有了 $\hat{\theta}$，只需要再得到 $\bar{D}$ 就行了。我们可以用参数后验分布中所有采样(如n个采样)求得，n个 $D_i$， i为1到n。那么这 n个 $D_i$ 的均值就可以表示**参数后验分布中所有采样对于数据的平均预测性**，即 $\bar{D}$。
- $p_{D} = 所有参数采样 D 的均值 - 参数分布均值的D = \bar{D} - D_{\hat{\theta}}$
- 可以想象，当两种 D 的差异最小时，$p_{D} =0$，此时模型的预测性最好，DIC值也更低。


![Image Name](https://cdn.kesci.com/upload/image/rkv282l86v.png?imageView2/0/w/640/h/640)


DIC 通过 deviance 评估模型的预测性，避免了 AIC 只考虑参数数量复杂性对于模型的影响。

#### 3. WAIC (Widely applicable information criterion)

DIC 很好的解决了 AIC 无法适用于贝叶斯模型的问题，并且考虑了参数后验分布的影响。

DIC 的问题在于：
- 如果参数后验分布不是正态分布，那么 $D_{\hat{\theta}}$ 的估计会存在偏差。
- 这进而反应为，$p{D}$ 是负数。$p{D}$ 为负数导致整个 DIC 为负数，也是 DIC 的一大问题。

为了解决上面的问题，日本统计学家渡边澄夫提出了“DIC 的升级版”的升级版，WAIC (Widely applicable information criterion)。

$$
W A I C=\sum_{i}^{n} \log \left(\frac{1}{s} \sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right)\right)-\sum_{i}^{n}\left({V}^{s}_{j} \log p\left(Y_{i} \mid \boldsymbol{\theta}^{j}\right)\right)
$$

$\sum_{i}^{n} \log \left(\frac{1}{s} \sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right)\right)$ 为 bias 与 似然函数有关。
- $\sum_{i}^{n} \log \left(\frac{1}{s} \sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right)\right) = \sum_{i}^{n} \log \bar{L}$，L 为似然函数。
- $\bar{L}$ 类似于 $\bar{D}$，是参数后验分布中所有参数对应的似然值的均值。
- 区别在于：
  - WAIC 每次选择一个数据点，计算它在所有后验采样上的似然值 $\sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right) = \sum_{i}^{n} \log \bar{L}$，
  - 再求这些似然值在不同后验上的平均值 $\frac{1}{s} \sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right) = \sum_{i}^{n} \log \bar{L}$，
  - 最后将不同数据点上的似然值求和，即 $\sum_{i}^{n} \log \left(\frac{1}{s} \sum_{j}^{S} p\left(y_{i} \mid \boldsymbol{\theta}^{j}\right)\right) = \sum_{i}^{n} \log \bar{L}$。

$\sum_{i}^{n}\left({V}^{s}_{j} \log p\left(Y_{i} \mid \boldsymbol{\theta}^{j}\right)\right)$  为 error，与 bias 不同的是，bias 计算的是似然的均值，而 error 通过 V 计算似然值的变异。
- 与上面的流程类似，首先选择一个数据点i，求得它在不同参数j下的似然值 $\log p(Y_{i} \mid \boldsymbol{\theta}^{j})$，
- 计算该数据点在不同参数采样j下似然的变异 $({V}^{s}_{j} \log p(Y_{i} \mid \boldsymbol{\theta}^{j}))$
- 最后，将每个数据点的变异加起来 $\sum_{i}^{n}({V}^{s}_{j} \log p(Y_{i} \mid \boldsymbol{\theta}^{j}))$


![Image Name](https://cdn.kesci.com/upload/image/rkv28lzzs8.png?imageView2/0/w/640/h/640)


#### 4. LOO-CV (Leave-one-out cross-validation)

WAIC 是非常优秀且常用的指标，其本质是模型对于未知数据的预测能力的**近似**。

另一种与 WAIC 非常类似的近似方法是前文提到的**留一交叉验证法** (Leave-one-out cross-validation, LOO-CV) 

$$
ELPD_{LOO-CV} = \sum_{\mathrm{y}} \log E_{\theta}\left(L\left(y_{i}|\theta_{-i}\right)\right)
$$

$ELPD_{LOO-CV}$ 的数学表达式非常类似，其特点为：
- $ELPD_{LOO-CV}$ (expected log pointwise predictive density) 利用了留一交叉验证的思想，用去除数据点i剩下的数据拟合模型；再回过来用该模型的参数去预测数据点i。
- 因此，ELPD 与 WAIC 的 bias 非常类似。区别在于，似然中的参数值不是通过所有数据进行拟合的，而是通过去除数据点i剩下的数据拟合得到的参数 $\theta_{-i}$。
- 此外，更巧妙的是，由于 $ELPD_{LOO-CV}$ 是直接对未来数据进行预测，因此不需要再惩罚模型，即不需要 error项了。


![Image Name](https://cdn.kesci.com/upload/image/rkv28zavh6.png?imageView2/0/w/640/h/640)


在实际操作中，我们通过 `ArViz` 的函数可以很容易的获得 WAIC 和 $ELPD_{LOO-CV}$，我们称为 **LOO** 方法。

此外，由于 $ELPD_{LOO-CV}$ 的计算量也比较大，ArViz 会使用 Pareto Smooth Importance Sampling Leave Once Out Cross Validation (PSIS-LOO-CV) 来近似 $ELPD_{LOO-CV}$。

PSIS-LOO-CV 有两大优势：
1. 计算速度快，且结果稳健
2. 提供了丰富的模型诊断指标

### Model Averaging

前面我们讨论了如何评估单个模型的**拟合优度**与**预测精度**。

但判断模型预测性能的另一个思路是：拟合多个模型，比较不同模型的预测能力。在实践中，我们对不同的模型赋予不同的权重，并组合他们生成一个元模型 (meta-model)，进而进行元预测，以此评估不同模型权重的影响。

这种给不同模型赋予权重的方法称为 模型平均法 Model Averaging。
常见有三种计算模型权重的方式：
1. Marginal likelihood
2. BIC (Bayesian information criterion)
3. Pseudo Bayesian model averaging

#### 1. Marginal likelihood

边缘似然或者边际似然 (marginal likelihood) 是贝叶斯公式的分布部分
- 即 $p(\theta|data)=\frac{p(data|\theta)p(\theta)}{p(data)}$ 中的 $p(data) = \int_{\theta}^{} p(data|\theta)p(\theta)d\theta$ 
- 边缘似然与贝叶斯公式分子部分的似然不同，表达了模型对数据的平均拟合 (Average fit)，因此它可以作为模型选择的指标。*边缘似然越大，说明模型对样本数据解释的越好*。
- 当比较两个模型时，可以将边缘似然转化为**贝叶斯因子**(Bayes factor)。

Bayesian Model Averaging

$$
w_k = \frac{e^{-ML_{k}}}{\sum e^{-ML_{k}}}
$$

通过边缘似然可以计算 Bayesian Model Averaging。
- 假设有 k 各模型。
- k个模型的边缘似然为 $ML_{k}$。
- k个模型的权重 $w_k$ 为当前模型的边缘似然 $ML_{k}$ 比上 所有模型边缘似然之和 $\sum e^{-ML_{k}}$。


#### 2. BIC (Bayesian information criterion)

因为边缘似然计算量巨大，因此我们需要一些快速的计算方式，比如 BIC (Bayesian information criterion)。

$$
A I C=-2 \sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right)+2 k
$$

$$
B I C=-2 \sum_{i}^{n} \log p\left(y_{i} \mid \hat{\theta}_{m l e}\right) + 2 k*ln(n)
$$

BIC 与 AIC 非常类似，区别在于惩罚项 error的不同。
- BIC 中的 error 在 AIC error 的基础上乘以 ln(n)。
- 其中，k为模型参数的数量；n为数据的数量。

BIC 的特点：
- 在公式上与 AIC 高度相似，因此可以用来检验模型拟合优度，其值越小，模型拟合越好。
- BIC 的 error 往往比 AIC 的更大，即惩罚更大，因此，**BIC 通常会选择简单的模型**。
- BIC 虽然适用于贝叶斯模型，但是它没有考虑先验的影响。
- 最重要的是，BIC **是边缘似然的近似**，计算速度比 ML 更快，并且同样也可以被用来计算贝叶斯因子。

#### 3. Pseudo Bayesian model averaging

BIC 虽然能近似边缘似然， 但是其 error 只考虑了参数数量和数据数量的复杂性，也没有考虑到先验的影响。
这样计算的模型权重很可能存在偏差。

为了更高效的计算模型的权重。一种可行的方法是 Pseudo Bayesian model averaging。
- 即通过 WAIC 与 LOO 来近似边缘似然。
- 再通过 Bayesian model averaging 公式计算模型权重。


$$
w_i = \frac{e^{-\Delta_{i}}}{\sum_{j}^{k} e^{-\Delta_{j}}}
$$


上面的公式与 Bayesian model averaging 的公式 $w_k = \frac{e^{-ML_{k}}}{\sum e^{-ML_{k}}}$ 很像。
区别在于：
- 通过 WAIC 或者 LOO 在模型中的差值 $\Delta_{j}$ 替代了 边缘似然 ML。
- $\Delta$ 表示的是，第 i 或者 j个模型的 WAIC 与 最优模型的 WAIC 的差值。

PyMC3 与 Arviz 提高了很多关于 Pseudo Bayesian model averaging 计算的方法，之后的实践中，我们将注重于通过 Pseudo Bayesian model averaging 展示模型平均法的作用。

总结：

模型拟合优度的方法包括：
- 拟合优度 
- mse 
- 对数似然

模型预测进度的方法包括：
- AIC
- DIC
- WAIC
- LOO

模型平均法包括：
- Bayesian model averaging
- BIC
- Pseudo Bayesian model averaging

|          | AIC                          | DIC                              | WAIC   | LOOCV  | BIC                          |
| -------- | ---------------------------- | -------------------------------- | ------ | ------ | ---------------------------- |
| 适用框架 | 频率论                       | 贝叶斯                           | 贝叶斯 | 贝叶斯 | 贝叶斯/频率论                |
| bias     | 最大似然所对应参数下的似然值 | 参数均值对应的似然 D               | ELPD   | $ELPD_{LOO-CV}$   | 最大似然所对应参数下的似然值 |
| error    | 参数数量的两倍               | $D = \bar{D} - D_{\hat{\theta}}$                      | 似然的变异   |    | 参数数量+数据数量            |