# 分类模型的评估

## <font size=5><mark style=background-color:pink>一、混淆矩阵<mark><font>
<font size=4>
    
在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成**混淆矩阵**(适用于多分类)
    
|    |正例    |假例   |
|----|--------|------|
|正例|真正例TP|伪反例FN|
|假例|伪正例FP|真反例TN|
    


    
    
例：考虑二分类问题：猫和狗
    
|       |       |预测结果 |预测结果      |
|-------|-------|--------|-------------|
|       |       |正例：猫 |假例：不是猫  |
|**真实结果**|正例：猫|真正例TP|伪反例FN      |
|**真实结果**|假例：不是猫|伪正例FP|真反例TN   |






- TP：true positive 
- FN：false negative
- FP：false positive
- TN:：true negative
- 在此例还有一个狗的混淆矩阵
    
**在多分类情形下，有几个类别，就有几个混淆矩阵**
<font>

## <font size=5><mark style=background-color:pink>二、评估标准<mark><font>
<font size=4>
    
1.准确率：一般最常见使用的是**准确率**，即预测结果正确的百分比
- $\frac{TP+TN}{TP+FP+TN+FN}$
- 虽然准确率可以判断总的正确率，但是在样本不平衡的情况下，并不能作为很好的指标来衡量结果
- 举个简单的例子，比如在二分类一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的
- 对于这种情况，只需要将全部样本预测为正样本即可得到 90% 的高准确率
- 这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分
- 即如果样本不平衡，准确率就会失效

    
2.精确率|查准率：预测结果为正例的样本中真实为正例的比例（预测的准)
- $\frac{TP}{TP+FP}$
    
3.**※召回率|查全率※**：真实为正例的样本中预测结果为正例的比例（预测的对，对正样本的区分能力）
- $\frac{TP}{TP+FN}$   
    
- 比如对预测癌症的模型，就需要把训练集中所有真实为癌症的患者都预测正确
    
4.**PR**曲线：PR曲线是以召回率为横轴、以精确率为纵轴绘制的曲线
- 可以发现他们俩的关系是“两难全”的关系。为了综合两者的表现，在两者之间找一个平衡点，就出现了F1 score
- 曲线下的面积越大，或者说曲线更接近右上角（precision=1， recall=1），那么模型就越理想，越好

    ![PR.jpg](attachment:cae15274-6ff0-4b82-904d-232561da0545.jpg)

5.**F1-score**：反映了模型的稳健性
- $\frac{2*Precision*Recall}{Precision+Recall}$
    
- 是统计学中用来衡量二分类模型精确度的一种指标
- 它同时兼顾了分类模型的准确率和召回率
- F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0

6.**灵敏度**，**特异度**，**真正率**，**假正率**
- **灵敏度**：$Sensitivity = \frac{TP}{TP+FN}$
- **特异度**：$Specificity = \frac{TN}{FP+TN}$
- **真正率**：$TPR=Sensitivity=\frac{TP}{TP+FN}$
- **假正率**：$1-Specificity = \frac{FP}{FP+TN}$

下面是真正率和假正率的示意
    
![TPRFPR.png](attachment:ee0a35fe-e7fa-4ce4-9871-54ed87864006.png)
    
- 发现TPR 和 FPR 分别是基于实际表现 1 和 0 出发的，也就是说它们分别在实际的正样本和负样本中来观察相关概率问题
- 正因为如此，所以无论样本是否平衡，都不会被影响
- 还是拿之前的例子，总样本中，90% 是正样本，10% 是负样本
- 我们知道用准确率是有水分的，但是用 TPR 和 FPR 不一样
- 这里，TPR 只关注 90% 正样本中有多少是被真正覆盖的，而与那 10% 毫无关系
- 同理，FPR 只关注 10% 负样本中有多少是被错误覆盖的，也与那 90% 毫无关系
- 所以可以看出：如果从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因

7.**ROC**(接受者操作特征曲线)
- ROC（Receiver Operating Characteristic）曲线，又称接受者操作特征曲线
- 该曲线最早应用于雷达信号检测领域，用于区分信号与噪声
- 后来将其用于评价模型的预测能力，ROC曲线是基于混淆矩阵得出的
- ROC 曲线中的主要两个指标就是真正率和假正率，上面也解释了这么选择的好处所在
- 其中横坐标为假正率（FPR），纵坐标为真正率（TPR），下面就是一个标准的 ROC 曲线图
    
![ROC.png](attachment:8cdd7384-a850-4b16-80ff-fcfcf7d9d22b.png)
   
- FPR 表示模型虚报的响应程度，而 TPR 表示模型预测响应的覆盖程度
- 虚报的越少越好，覆盖的越多越好
- 所以总结一下就是TPR 越高，同时 FPR 越低（即 ROC 曲线越陡），那么模型的性能就越好
- **ROC曲线无视样本不平衡**
    
8.**AUC**(曲线下面积)
- 曲线下面积（Area Under Curve）
- AUC是一个模型评价指标，只能用于二分类模型的评价
- 其就是ROC曲线下面的面积，AUC=1.0时表示模型最好，随机猜测的为0.5，其值越高，模型性能越好

9.**KS**
- 从KS曲线就能衍生出KS值，KS=MAX(TPR-FPR)，即是两条曲线之间的最大间隔距离
- KS值越大表示模型的区分能力越强
<font>
    


## <font size=5><mark style=background-color:pink>三、分类模型评估<mark><font>
<font size=4>   

精确率、召回率、F1-score
- 类：**sklearn.metrics.classification_report**
- 实例化语法：**sklearn.metrics.classification_report(Y_test,Y_test_predict,target_names=datasets.target_names)**
- 返回：精确率、召回率、F1-score


FPR、TPR、KS
- 类：**sklearn.metrics.roc_curve**
- 实例化语法：**sklearn.metrics.roc_curve(Y_test,Y_test_pred)**
- from sklearn import metrics
- pred=estimator.predict(Xtest)
- fpr, tpr, thresholds = metrics.roc_curve(Ytest, pred)
- ks=max(tpr-fpr：KS值
- print("KS:{}".format(ks))
- metrics.plot_confusion_matrix(model,Xtest,Ytest)：画出混淆矩阵
- metrics.plot_precision_recall_curve(model,Xtest,Ytest,)：画出PR曲线
- metrics.plot_roc_curve(model,Xtest,Ytest)：画出ROC曲线
- plt.show()
<font>

## <font size=5><mark style=background-color:pink>四、模型选择与调优：调参数<mark><font>

#### <font size=4>1.交叉验证：为了让被评估的模型更加准确可信<font>
<font size=4>
    
- ①将数据分为训练集和测试集
- ②将训练集所有数据分成N等份，让其中1份的数据作为**验证集**，剩下的N-1份作为**训练集**，也就是训练集又分为了训练集和验证集
- ③加入将第一份作为**验证集**，剩下的作为训练集，则可以得到一个模型1和准确率1
- ④换下一份作为**验证集**，剩下的作为训练集，则可以得到一个模型2和准确率2
- ...
- ⑤直到每一份都作为过**验证集**，得出了N个模型和N个准确率
- ⑥将N个准确率求平均值，得到一个**平均模型结果**
- 这样的交叉验证称为**N折交叉验证**
<font>

#### <font size=4>2.网格搜索：也称为超参数搜索，调参数用，常和交叉验证搭配使用<font>
<font size=4>
    
- **超参数**：通常情况下，有很多参数是需要手动指定的(如KNN算法中的K值),这种参数叫做超参数。

- **调参**：但是手动过程繁杂，所以需要对模型预设几种超参数组合，每组超参数都采用交叉验证来进行评估，最后选出最优参数组合建立模型。

- 比如，KNN：只有一个超参数，K值
|K值|K=3|K=5|K=7|
|---|---|---|---|
|模型|模型1|模型2|模型3|
|N折交叉验证|平均准确率1|平均准确率2|平均准确率3|

- 不止一个超参数时，比如有两个超参数：a=[2,3,5,8,10]，b=[20,70,80]，那么就需要两两组合[{2,20}，{2,70}，{2,80}...]后进行N折交叉验证
<font>

#### <font size=4>3.sklearn中交叉验证+网格搜索<font>
<font size=4>
    
- **类**：**sklearn.model_selection.GridSearchCV**：'CV'-cross validation 
- **实例化语法**：**sklearn.model_selection.GridSearchCV(estimator,param_grid=,cv=)**
- estimator：估计器对象
- param_grid：估计器参数(dict)(例如KNN中：'n_neighbors':[1，3，5])
- cv：指定几折交叉验证
- **fit**：输入训练数据
- **score**：准确率
- **结果分析**
- best_score_：在交叉验证中验证的最好结果
- best_estimator_：最好的参数模型
- cv_results_:：每次交叉验证后的验证集准确率结果和训练集准确率结果
<font>

#### 4.对KNN算法进行交叉验证和网格搜索

In [3]:
#导入鸢尾花数据集的类
from sklearn.datasets import load_iris

#实例化鸢尾花数据集
iris = load_iris()

In [5]:
#导入数据集划分的类
from sklearn.model_selection import train_test_split

#对鸢尾花数据集进行划分
X_train,X_test,Y_train,Y_test = train_test_split(iris.data,iris.target,test_size=0.25,random_state=2021)

In [4]:
#导入KNN算法的类
from sklearn.neighbors import KNeighborsClassifier

#实例化KNN算法，不要设置超参数K值
knn = KNeighborsClassifier()

In [11]:
#导入交叉验证和网格搜索的类
from sklearn.model_selection import GridSearchCV

#构造一些参数的值进行搜索，看K值为3、5、10时的表现结果，选择表现结果最好的作为最后的K值
param = {'n_neighbors':[3,5,10]}

#实例化交叉验证和网格搜索的类
gc = GridSearchCV(knn,param_grid=param,cv=2)

In [12]:
#输入训练集的数据
gc.fit(X_train,Y_train)

#看在交叉验证中最好的结果
print('训练集在交叉验证中最好的结果：',gc.best_score_)

#查看在交叉验证和网格搜索后的最好的模型
print('训练集在交叉验证中最好的模型：',gc.best_estimator_)

#每个超参数每次交叉验证的结果
print('每个超参数每次交叉验证的结果：',gc.cv_results_)

#预测准确率
print('在测试集上的准确率:',gc.score(X_test,Y_test))

训练集在交叉验证中最好的结果： 0.9553571428571428
训练集在交叉验证中最好的模型： KNeighborsClassifier(n_neighbors=3)
每个超参数每次交叉验证的结果： {'mean_fit_time': array([0.00049782, 0.00049734, 0.        ]), 'std_fit_time': array([0.00049782, 0.00049734, 0.        ]), 'mean_score_time': array([0.00300038, 0.00200236, 0.00200057]), 'std_score_time': array([1.00028515e-03, 2.50339508e-06, 0.00000000e+00]), 'param_n_neighbors': masked_array(data=[3, 5, 10],
             mask=[False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'n_neighbors': 3}, {'n_neighbors': 5}, {'n_neighbors': 10}], 'split0_test_score': array([0.98214286, 0.94642857, 0.94642857]), 'split1_test_score': array([0.92857143, 0.96428571, 0.94642857]), 'mean_test_score': array([0.95535714, 0.95535714, 0.94642857]), 'std_test_score': array([0.02678571, 0.00892857, 0.        ]), 'rank_test_score': array([1, 1, 3])}
在测试集上的准确率: 0.9736842105263158
