## 模型评价策略

通过前面的几节课，我们已经可以依据不同的业务场景去训练不同的机器学习模型了，但是，有这么多算法，我们该如何去评估哪个模型是最佳的呢？

### 测试集

对于如下的两种模型，我们知道左边的模型要好于右边的，因为显然右边的模型更倾向于“记忆”数据，也就是**泛化能力**差。
[![a1w6dH.md.png](https://s1.ax1x.com/2020/07/31/a1w6dH.md.png)](https://imgchr.com/i/a1w6dH)
而我们进行建模的目的，就是为了提升模型的泛化能力，也就是对未知数据的预测能力，那我们该如何检验模型的泛化能力呢？

答案就是将数据分成两部分，一部分是用于拟合模型的训练集，一部分是检验模型泛化能力的测试集。如下图所示，灰色点表示训练集，白色点表示测试集，这样就可以更直观的看出左边的模型要优于右边的模型。

[![a1wOWq.md.png](https://s1.ax1x.com/2020/07/31/a1wOWq.md.png)](https://imgchr.com/i/a1wOWq)

> ⚠️绝对不能用测试集去拟合模型！

### 混淆矩阵（Confusion Matrix）

如下是去医院进行检查的示例，我们可以根据做检查的人两种情况——患病和健康，以及检测的两种结果——阳性和阴性，将事件分为四种，如下图所示：
![ad8GQI.md.png](https://s1.ax1x.com/2020/08/03/ad8GQI.md.png)

上表即**混淆矩阵**。

#### 第一类错误&第二类错误
- Type I（False Positive）：在上面的示例中，也就是将健康的人检测为阳性，即诊断为有病；
- Type II（False Negative）：在上面的示例中，表示将生病的人检测为阴性，即诊断为无病。

### 准确性（Accuracy）

即分类正确的数量占总量的比例，算式可以写为：

$$Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$$

但准确性并不是一个很好的评判指标，比如说当用于评估信用卡欺诈时，每10000个人可能只有1个人产生欺诈行为，那么此时，我们将所有的样本都预测为不会欺诈，依然可以获得99.99%的准确率，但这样的模型是没有意义的，因为没办法找出我们更关心的欺诈用户。

### 精度（precision）与召回（recall）

对于如上诊断的事件来说，我们将目光重点放在两类错误上，你觉得，哪类错误更严重呢？
- 将健康人诊断为有病的第一类错误（FP）
- 将患病人诊断为健康的第二类错误（FN）

答案是第二类错误，因为有可能会导致延误病情，而变得更严重。

但是对于另外一些事件，比如说垃圾邮件的判断，哪类错误更严重呢？
![adaENV.md.png](https://s1.ax1x.com/2020/08/03/adaENV.md.png)
- 将正常邮件判断为垃圾邮件（FP）
- 将垃圾邮件判断为正常邮件（FN）

这里的答案是将正常邮件判断为垃圾邮件，因为由于这类误判，我们有可能会错过重要信息。

经过如上两个示例，我们发现，对于不同的业务场景，侧重的关键点也有所不同，所以，我们需要使用不同的评估标准去衡量，即：
- 想要避免FN，但可以接受一些FP的**高召回模型**
- 想要避免FP，但可以接受一些FN的**高精度模型**


精度表示预测结果中的阳性样本有多少是真正的阳性？计算公式为：$precision = \frac{TP}{TP+FP}$；

召回表示真正的阳性有多少被准确地预测为阳性了？计算公式为：$recall = \frac{TP}{TP+FN}$

但如何该同时兼顾二者呢？答案是，将二者进行合并，转换为另外一个评估指标，即：F-Score

### F-Score

这里取precision和recall的调和均值（Harmonic Mean），这是因为得到的结果会更接近较小的那个指标。 

定义为$$F_{score} = (1+\beta ^ 2) \cdot \frac{precision \cdot recall}{\beta ^ 2 \cdot precision+recall}$$

我们可以使用参数$\beta$来调整精度与召回的权重，当$\beta$接近0时，则更侧重于精度；当$\beta$趋向于无穷时，则更侧重于召回。特殊的，当$\beta = 1$时，被称为F1-Score。
> 这里可以使用极限很容易证明如上的结论。

**测试**

Out of the following three models, which one should have an F-beta score of 2, 1, and 0.5? Match each model with its corresponding score.

- Detecting malfunctioning parts in a spaceship
- Sending phone notifications about videos a user may like
- Sending promotional material in the mail to potential clients



**答案**
- 2
- 1
- 0.5