<font size=5>

# 分类算法的评价
分类准确度的问题
    
一个癌症预测系统，输入体检信息，可以判断是否患有癌症
    
已知预测准确度：99.8%，那么这个预测系统是否足够好？
    
假设癌症产生的概率只有0.1%，我们系统预测所有人都是健康，就可以达到99.9%的准确率
    
对于极度偏斜（Skewed Data）的数据，只使用分类准确度是远远不够的。


## 使用混淆矩阵做进一步分析 
<font size=5>

下方的二分类表格，行代表真实值，列代表预测值
0-Negative，1-Positive
<table font-size=5>
    
|   /   |   0   |   1   |
| ---- | ---- | ---- |
|   0   |   预测negative正确，TN   |   预测positive错误，FP   |
|   1   |   预测Negative错误，FN   |   预测Positive正确，TP   |


|   /   |   0   |   1   |
| ---- | ---- | ---- |
|   0   |   9978   |   12   |
|   1   |   2   |   8   |

<font size=5>
    
## 精准率与召回率
精准率：precision = $\frac{TP}{TP+FP}$
    
精准率：8/(8+12) = 40%
    
召回率：recall = $\frac{TP}{TP+FN}$
    
召回率：8/(8+2)=80%
    
> 实际上非常简单，精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是而召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
而**召回率**是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
    
> ![精准率与召回率](https://pic1.zhimg.com/80/d701da76199148837cfed83901cea99e_hd.jpg)

在信息检索领域，精确率和召回率又被称为查准率和查全率，
    
>查准率＝检索出的相关信息量 / 检索出的信息总量
    
>查全率＝检索出的相关信息量 / 系统中的相关信息总量
    
> 作者：Charles Xiao    
> 链接：https://www.zhihu.com/question/19645541/answer/91694636
    
下面我们来实现混淆矩阵，精准率和召回率

In [2]:
import numpy as np
from sklearn import datasets

In [13]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

# 将手写数据集分割为9和非9两部分
y[digits.target==9] = 1
y[digits.target!=9] = 0

In [14]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

In [16]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)



0.9755555555555555

In [18]:
y_log_predict = log_reg.predict(X_test)
def TN(y_true,y_predit):
    assert len(y_true)==len(y_predit)
    return np.sum((y_true==0)&(y_predit==0))

TN(y_test,y_log_predict)

403

In [19]:
def FP(y_true,y_predit):
    assert len(y_true)==len(y_predit)
    return np.sum((y_true==0)&(y_predit==1))

FP(y_test,y_log_predict)

2

In [20]:
def FN(y_true,y_predit):
    assert len(y_true)==len(y_predit)
    return np.sum((y_true==1)&(y_predit==0))

FN(y_test,y_log_predict)

9

In [21]:
def TP(y_true,y_predit):
    assert len(y_true)==len(y_predit)
    return np.sum((y_true==1)&(y_predit==1))

TP(y_test,y_log_predict)

36

In [23]:
# 定义混淆矩阵的方法
def confusion_matrix(y_true,y_predit):
    return np.array([
        [TN(y_true,y_predit),FP(y_true,y_predit)],
        [FN(y_true,y_predit),TP(y_true,y_predit)]
    ])

confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

In [25]:
def precision_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fp = FP(y_true,y_predict)
    try:
        return tp / (tp + fp)
    except:
        return 0.0
    
precision_score(y_test,y_log_predict)

0.9473684210526315

In [27]:
def recall_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fn = FN(y_true,y_predict)
    try:
        return tp / (tp + fn)
    except:
        return 0.0
    
recall_score(y_test,y_log_predict)

0.8

<font size=5>

## sklearn中的混淆矩阵，精准率和召回率

In [29]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

In [30]:
from sklearn.metrics import precision_score

precision_score(y_test,y_log_predict)

0.9473684210526315

In [31]:
from sklearn.metrics import recall_score

recall_score(y_test,y_log_predict)

0.8