# 模型评估与选择

- 经验误差与过拟合
- 评估方法
- 性能度量
- 比较检验
- 偏差与方差

## 经验误差与过拟合

- 误差率：分类错误的样本数占样本总数的比例
- 精度：1 - 错误率
- 误差：学习器的实际预测输出与样本的真实输出之间的差异
- 过拟合：训练样本学的太好，就是把训练样本的所有特征当作了所有样本的特征

## 评估方法

** 留出法 **

留出法比较简单，就是把数据集进行划分，划分为两个互斥的集合，一个作为训练集，一个作为测试集，至于怎么分，采用什么样的采样方法，可以自己决定

** 交叉验证法 **

- 首先把数据集划分为k个大小相同的互斥子集
- 每次用k-1个子集作为训练集，一个子集作为测试集
- 交叉使用这k个子集作为测试集，从而进行k次训练和测试，最终返回这k个结果的均值
- 这就是k折交叉验证

** 自助法 **

自助法和交叉验证法有点相似，不同的是，两个划分数据的方式不同，自助法方法如下：

- 首先首先从m个样本的数据集D中，可放回的重复抽样m次，得到一个有m个样本的数据集$D_i$
- 这样的抽样方式在$D_i$肯定有重复的数据,有一部分数据肯定没有抽到，没有抽到的概率为$(1-\frac{1}{m})^m$
- 用含有m个样本的数据集$D_i$作为训练集，剩下的没有抽到的作为测试集
- 将这样的动作重复多次就可以训练出多个模型

> 自助法在数据集较小、难以有效划分训练/测试集时很有用，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法很有效   
> 自助法产生的数据集改变了初始数据集的分布，这会引入估计误差，因此数据量足够时，留出法和交叉验证法更常用

** 调参与最终模型 **

- 大多数的学习算法都有参数需要设定，参数配置不同学习的模型的性能往往有显著差别
- 但是在调参的时候要注意设置步长，否则在实数范围内，对每种参数配置训练出模型来是不可能的
- 调参是一件困难的工程，比如算法有3个参数，每个参数考虑5个候选参数，这就有$5^3 = 125$个模型
- 模型选择时要把训练数据分成训练集和验证集，选择最好的模型，然后用所有的训练数据重新训练模型，最后再用测试集测试结果

## 性能度量

举个例子，$y$为真是值，$f(x)$为预测结果

回归任务最常用的性能度量时“均方误差“：

$$E(f:D) = \frac{1}{m} \sum_{i=1}^{m}(f(x)-y)^2$$

更一般的，对于数据分布$D$和概率密度函数$p(\cdot)$，均方误差：

$$E(f:D) = \int_{x\backsim D} p(x)(f(x)-y)^2 dx$$

** 错误率与精度 **

分类任务，最常用的性能测量

错误率：

$$E(f:D) = \frac{1}{m} \sum_{i=1}^{m} \amalg (f(x)\ne y_i)$$

精度：

$$acc(f:D) = \frac{1}{m} \sum_{i=1}^{m} \amalg (f(x) = y_i) = 1 - E(f:D)$$

更一般的，对于数据分布$D$和概率密度函数$p(\cdot)$，错误率和精度：

$$E(f:D) = \int_{x\backsim D} p(x) \amalg (f(x)\ne y_i) dx$$

$$acc(f:D) = \int_{x\backsim D} p(x) \amalg (f(x) = y_i) dx = 1 - E(f:D)$$

** 查准率、查全率和F1 **

举一个医院的例子，错误率就是一个医生对病人的误判率，但是并没有说时把健康的人误判为病人还是把病人误判为健康的人，这是两种完全不同的结果，所以错误率这时候就不够用了。

还有就是信息检索时，我们经常关心”检索出来的信息有多少比例是用户感兴趣的“ ”用户感兴趣的信息中有多少被检索出来了“，这两个就分别对应了“查准率”和“查全率”

对于二分类问题，用一个分类结果混淆矩阵说明：

|真实情况|预测结果|
|:----:|:----:|:-----:|
||正例|反例|
|正例|TP(真正例)|FN(假反例)|
|反例|FP(假正例)|TN(真反例)|

查准率： $P = \frac{TP}{TP + FP}$   
查全率： $R = \frac{TP}{TP + FN}$    
查准率和查全率的不同偏好： $F_\beta = \frac{(1 + \beta^2) \times P \times R}{(\beta^2 \times P) + R}$  

> 其中$\beta > 0$度量了查全率对查准率的相对重要性，$\beta = 1$是标准的$F_1$, $\beta > 1$时查全率有更大的影响，$\beta < 1$时查准率有更大的影响

** ROC和AUC**

ROC曲线的横纵坐标分别是：

横坐标为假正例率：$FPR = \frac{FP}{FP + TN}$     
纵坐标为真正例率：$TPR = \frac{TP}{TP + FN}$

若一个学习器的ROC曲线被另一个学习器的ROC曲线包裹，则后者优于前者，如果两条曲线发生重合，则使用ROC曲线下的面积，即AUC

$$AUC = \frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1} - x_i)(y_i + y_{i+1})$$

## 比较检验

## 偏差与方差

- 泛化误差是指在新样本上的误差
- 泛化误差等于偏差、方差与噪声之和
    - 偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力
    - 方差度量了同样大小的训练集的变动所导致的学习性能的变化，即数据扰动所造成的影响
    - 噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度