## 5.1.4 评价指标
&emsp;&emsp;对模型的评价，有助于了解其性能，通过优化可以获得更好模型，而对于不同类型的模型所采用的评价指标也不尽相同。scikit-learn中metrics模块提供了为特定目标计算评价指标的功能， 主要有分类、回归和聚类等几种。分类常用的评价指标有混淆矩阵 (Confusion Matrix) 、精确率 (Precision)、召回率 (Recall)、F1分数 (F1 Score)和准确率 (Accuracy)等，回归主要评价指标有平均绝对误差(MAE，Mean Absolute Error)、均方误差(MSE，Mean Squared Error)、均方根误差(RMSE，Root Mean Squared Error)、R^2等。

### 1. 分类评价指标

&emsp;&emsp;将数据集中的样本输入到分类器得到的预测值，和样本的真实值对比可以得到如下四种关系：
- 真正类（TP，True Positive）：预测正确，预测该样本为正类，真实类别为正类；
- 假正类（FP，False Positive）：预测错误，预测该样本为正类，真实类别为负类；
- 假负类（FN，False Negative）：预测错误，预测该样本为负类，真实类别为正类；
- 真负类（TN，True Negative）：预测正确，预测该样本为负类，真实类别为负类。

&emsp;&emsp;计算每一类出现的数目，就得到了混淆矩阵，如图表5-1-3所示。混淆矩阵表示样本的预测值与真实值之间的关系。
<center>表5-1-3 预测值与真实值之间的四种关系</center>

<style>table {margin: auto;}</style>
|真实\预测|Positive|Negative|
|:-:|:-:|:-:|
|Positive|TP|FN|
|Negative|FP|TN|
<br>

&emsp;&emsp;在表格中，TP表示真正类样本的数目，FP表示假正类样本的数目，FN表示假负类样本的数目，TN表示真负类样本的数目。其中TP、TN预测正确，FP、FN预测错误。通过混淆矩阵，可以很方便的计算出分类常用的评价指标。
<br>
&emsp;&emsp;**准确率（Accuracy）**是分类问题中最为常用的评价指标，准确率的定义是预测正确的样本数占总样本数的比例，其计算公式为：
$$
ACC=\frac{TP+TN}{TP+TN+FP+FN}
$$
&emsp;&emsp;准确率评价算法有一个明显的弊端问题，就是在数据的类别不均衡，特别是有极偏的数据存在的情况下，准确率这个评价指标是不能客观评价算法的优劣的。在需要特别关注某一特定类别的预测能力时，精确率、召回率和F1分数的评价算法更为有效。
<br>
&emsp;&emsp;**精确率（Precision）**又叫查准率，它是针对预测结果而言的，它的含义是在所有被预测为正的样本中实际为正的样本比例，其计算公式为：
$$
P=\frac{TP}{TP+FP}
$$
&emsp;&emsp;**召回率（Recall）**又叫查全率，它是针对原样本而言的，它的含义是在实际为正的样本中被预测为正样本的比例，其公式如下：
$$
R=\frac{TP}{TP+FN}
$$
&emsp;&emsp;**F1分数（F1 Score）**是一个综合精确率和召回率的评价指标，当模型的精确率和召回率冲突时，可以采用该指标来衡量模型的优劣，其计算公式为：
$$
F1=\frac{2·P·R}{P+R}
$$
&emsp;&emsp;下面通过一个简单的例子来理解分类的各个评价指标的计算过程：
<center>表5-1-4 猫狗数据的真实值与预测值</center>

|y_true|猫|猫|猫|猫|猫|狗|狗|狗|狗|狗|
|-|-|-|-|-|-|-|-|-|-|-|
|y_pred|猫|猫|猫|猫|狗|猫|狗|狗|猫|狗|
<br>

&emsp;&emsp;其中，y_true代表样本的真实值，y_pred代表该样本的模型预测值，所以，TP=4，TN=3，FP=2，FN=1。因此通过上述公式，可以计算出相关评价指标：
$$
P=\frac{4}{4+2}≈0.67\\
R=\frac{4}{4+1}=0.8\\
F1=\frac{2·P·R}{P+R}≈0.73\\
ACC=\frac{4+3}{4+3+1+2}=0.7
$$
&emsp;&emsp;下面代码是验证该例子的评价指标是否计算正确。
<br>

&emsp;&emsp;**例5-1-7** 分类模型评价指标的计算。

In [1]:
from sklearn import metrics
from sklearn.preprocessing import LabelBinarizer
lb = LabelBinarizer()
y_true = ['猫', '猫', '猫', '猫', '猫', '狗', '狗', '狗', '狗', '狗']
y_pred = ['猫', '猫', '猫', '猫', '狗', '猫', '狗', '狗', '猫', '狗']

#### （1）计算混淆矩阵
&emsp;&emsp;scikit-learn.metrics中的confusion_matrix()函数用来计算混淆矩阵，从而得出TP=4，TN=3，FP=2，FN=1，与计算结果相同。

In [2]:
# （1）计算混淆矩阵
print('Confusion Matrix：')
print(metrics.confusion_matrix(y_true, y_pred, labels=['猫', '狗']))

Confusion Matrix：
[[4 1]
 [2 3]]


#### （2）利用LabelBinarizer对象将标签二值化，再分别计算精确率、召回率、F1分数和准确率 
&emsp;&emsp;标签是字符串，需要将其转换为整数才可以运行程序。通过创建sklearn.preprocessing的LabelBinarizer对象，调用fit_transform 方法进行将标签转换为0和1。然后利用scikit-learn.metrics中的precision_score()、recall_score()、f1_score()和accuracy_score()函数分别计算精确率、召回率、F1分数和准确率，得到的结果与计算结果相同。

In [3]:
# （2）利用LabelBinarizer对象将标签二值化，再分别计算精确率、召回率、F1分数和准确率
y_true_binarized = lb.fit_transform(y_true)
y_pred_binarized = lb.fit_transform(y_pred)
print('精确率： %s' % metrics.precision_score(y_true_binarized, y_pred_binarized))
print('召回率： %s' % metrics.recall_score(y_true_binarized, y_pred_binarized))
print('F1分数：%s' % metrics.f1_score(y_true_binarized, y_pred_binarized))
print('准确率： %s' % metrics.accuracy_score(y_true_binarized, y_pred_binarized))

精确率： 0.6666666666666666
召回率： 0.8
F1分数：0.7272727272727272
准确率： 0.7


#### （3）利用classification_report()函数实现对精确率、召回率、F1分数和准确率的计算
&emsp;&emsp;scikit-learn.metrics中的classification_report()函数可以同时生成精确率、召回率、F1分数和准确率等评价指标。

In [4]:
# （3）利用classification_report()函数实现对精确率、召回率、F1分数和准确率的计算
print('Classification Report：')
print(metrics.classification_report(y_true, y_pred))

Classification Report：
              precision    recall  f1-score   support

           狗       0.75      0.60      0.67         5
           猫       0.67      0.80      0.73         5

    accuracy                           0.70        10
   macro avg       0.71      0.70      0.70        10
weighted avg       0.71      0.70      0.70        10



### 2. 回归评价指标 
&emsp;&emsp;**MAE（平均绝对误差）**：对于回归模型性能评估最直观的思路是利用模型的预测值与真实值的差值来衡量，误差越小，回归模型的拟合程度就越好，其计算公式为：
$$MAE=\frac{1}{n}\sum_{i=1}^n|y_i-\hat{y_i}|$$
&emsp;&emsp;其中，$n$为样本的个数，$y_i$为第$i$个样本的真实值，$\hat{y_i}$为第$i$个样本的模型预测值。  
&emsp;&emsp;**MSE（均方误差）**：它是一种常用的回归损失函数，计算方法是求误差的平方和，由这两个指标的原理可知MSE比MAE对异常值更敏感，其计算公式为：
$$MSE=\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y_i})^2$$
&emsp;&emsp;**RMSE（均方根误差）**：对均方误差进行开平方运算。  
&emsp;&emsp;**决定系数$R^2$**：由MAE和MSE的公式可知，随着样本数量的增加，这两个指标也会随之增大，而且针对不同量纲的数据集，其计算结果也有差异，所以很难直接用这些评价指标来衡量模型的优劣，可以使用决定系数$R^2$来评价回归模型的预测能力，$R^2$计算公式为：
$$R^2=1-\sum_{i=1}^n\frac{(y_i-\hat{y_i})^2}{(y_i-\bar{y})^2}$$
$$\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i$$
&emsp;&emsp;其中，$\bar{y}$表示$y$的均值。$R^2$取值范围一般是0~1，越接近1，回归的拟合程度就越好。但当回归模型的拟合效果差于取平均值时的效果时，也可能为负数。  
&emsp;&emsp;下面通过一个简单的例子来理解分类的各个评价指标的计算过程：
<center>表5-1-5 真实值与预测值</center>

<style>table {margin: auto;}</style>
|y_true|1|2|3|
|-|-|-|-|
|y_pred|2|3|4|
|y_pred2|1|3|5|
&emsp;&emsp;其中，y_true代表样本的真实值，y_pred代表该样本的模型预测值，y_pred2代表该样本的第二个模型的预测值，所以通过上述公式以y_true和y_pred2为例计算出相关评价指标：
$$MAE=\frac{|1-1|+|2-3|+|3-5|}{3}=1$$
$$MSE=\frac{(1-1)^2+(2-3)^2+(3-5)^2}{3}=\frac{5}{3}\approx1.67$$
$$\bar{y}=\frac{1+2+3}{3}=2$$
$$R^2=1-\frac{(1-1)^2+(2-3)^2+(3-5)^2}{(1-2)^2+(2-2)^2+(3-2)^2}=1-\frac{5}{2}=-1.5$$

下面代码是验证计算该例子的评价指标。  


&emsp;&emsp;**例5-1-8** 回归模型评价指标的计算

In [5]:
from sklearn import metrics

In [6]:
y_true = [1, 2, 3]
y_pred = [2, 3, 4]
y_pred2 = [1, 3, 5]

#### （1）计算MAE
&emsp;&emsp;scikit-learn.metrics中的mean_squared_error()函数用来计算平均绝对误差，由下面的运行结果可以得出这两个模型的平均绝对误差相同，无法评价这两个模型的优劣。

In [7]:
# （1）计算MAE
print('MAE：')
print('y_pred MAE： %s' % metrics.mean_absolute_error(y_true, y_pred))
print('y_pred2 MAE：%s' % metrics.mean_absolute_error(y_true, y_pred2))

MAE：
y_pred MAE： 1.0
y_pred2 MAE：1.0


#### （2）计算MSE
&emsp;&emsp;利用scikit-learn.metrics中的mean_squared_error()函数计算均方误差。在MAE指标相同的情况下，由下面的运行结果可以得出这两个模型的均方误差不同，y_pred比y_pred2要低，表明MAE比MSE对于异常点表现更佳，MSE给与了异常点更大的权重导致其对异常点敏感。因此可以依据不同的目的选择相应的评价指标。

In [8]:
# （2）计算MSE
print('MSE：')
print('y_pred MSE： %s' % metrics.mean_squared_error(y_true, y_pred))
print('y_pred2 MSE：%s' % metrics.mean_squared_error(y_true, y_pred2))

MSE：
y_pred MSE： 1.0
y_pred2 MSE：1.6666666666666667


#### （3）计算决定系数
&emsp;&emsp;scikit-learn.metrics中的r2_score()函数可以计算均方误差决定系数$R^2$。

In [9]:
# （3）计算决定系数
print('R2：')
print('y_pred R2： %s' % metrics.r2_score(y_true, y_pred))
print('y_pred2 R2：%s' % metrics.r2_score(y_true, y_pred2))

R2：
y_pred R2： -0.5
y_pred2 R2：-1.5
