# 模型评估与选择

## 经验误差与过拟合

错误率(error rate)：分类错误的样本占样本总数的比例，精度=1-错误率

预测输出与真实输出的差异称为误差，训练集上的为训练误差(training error)，新样本上的为泛化误差(generalization error)

过拟合(overfitting)

欠拟合(underfitting)

## 评估方法

测试集(testing set)，尽可能不出现再训练集中。

### 留出法(hold-out)

直接将数据集D划分为两个互斥的集合，一个为训练集S一个为测试集T

单词使用六出发得到的估计结果往往不够稳定可靠，一般要采用若干次随机划分、重复进行实验评估后取平均值为结果。

### 交叉验证法(cross validation)

先将数据集D划分为k个大小相似地互斥自己，每个自己尽可能保持数据分布地一致性。然后每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。通常称为k折交叉验证。k通常取10。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

假定数据集D中包含m个样本，若令k=m，则得到了交叉验证法的一个特例：留一法(Leave-One-Out, LOO)。留一法不受随机样本划分方式的影响。

### 自助法(bootstrapping)

它直接以自主采样法(bootstrap sampling)为基础。给定包含m个样本的数据集D，我们对它进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样中仍有可能被采到，重复m次，得到D'。

样本在m次采样中始终不被采到的概率是$(1-\frac{1}{m})^m$，取极限得：
$$\lim\limits_{m\to\infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx 0.368$$

可用D'为训练集，D/D'为测试集。

自助法在数据集较小，难以有效划分是很有用。

### 调参与最终模型

现实中常用得做法，是对每个参数选定一个范围得步长，在某一范围内得有限个候选值中产生选定值。

## 性能度量(performance measure)

性能度量：衡量模型泛化能力的评价标准

均方误差(measure squared error)
$$E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2$$

更一般的，对于数据分布D和概率密度函数p()，均方误差可描述为
$$E(f;D)=\int_{x~D}(f(x)-y)^2p(x)dx$$

### 错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例.

### 查准率、查全率与F1

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive,TP)、假正例(false poxitive,FP)、真反例(true negative,TN)、假反例(false negative,FN)。

查准率P与查全率R的定义为：
$$P=\frac{TP}{TP+FP}$$
$$R=\frac{TP}{TP+FN}$$

查准率-查全率曲线，简称P-R曲线

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

在进行比较时，若一个学习器的P-R曲线被另一个的完全“包住”，则可断言后者的性能更优。

F1是一种综合考虑查准率、查全率的度量：
$$F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}$$

### ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值(threshold)进行比较，若大于阈值则分为正类，否则为反类。

ROC全称为“受试者工作特征”(Receiver Operating Characteristic)曲线。ROC曲线的纵轴是“真正例率”(True Positive Rate, TPR)，横轴是“假正例率”(False Positive Rate, FPR):
$$TRP=\frac{TP}{TP+FN}$$
$$FPR=\frac{FP}{TN+FP}$$

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

与P-R曲线类似，若一个学习器的ROC将另一个完全宝包住，则性能更优。若出现交叉，则难以断言，此时较为合理的判据是比较ROC曲线下的面积，即AUC(Area Under ROC Curve)

### 代价敏感错误率与代价曲线

为权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”(unequal cost)

以二分类任务为例，我们可以根据任务的领域知识设定一个“代价矩阵”(cost matrix)，其中$cost_{ij}$表示将d第i类样本预测为第j类样本的代价。一般来说，$cost_{ii}=0$；若将第0类判别为第1类所造成的损失更大，则$cost_{01}>cost_{10}$；损失程度相差越大，$cost_{01}$与$cost_{10}$值得差别越大。

此时，代价敏感(cost-sensitive)错误率为：
$$E(f;D;cost)=\frac{1}{m}(\sum_{x_i\in D^+}II(f(x_i)\ne y_i) \times cost_{01} + \sum_{x_i\in D^1}II(f(x_i)\ne y_i) \times cost_{10})$$

在非均等代价下，ROC曲线不能直接反映出学习器得期望总体代价，而代价曲线(cost curve)则可达到该目的：
$$P(+)cost=\frac{p \times cost_{01}}{p \times cost_{01}+(1-p) \times cost_{01}}$$
其中p是样例为正例得概率；

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 比较检验