# 分类算法的评价

评论算法的好坏：

* 回归问题：mse, mae, rmse,r squared
* 分类问题：分类准确度

## 分类准确度的问题
一个癌症预测系统，输入体测信息，可以判断是否由癌症  
预测准确度：99.9%  
是好？是坏？  
如果癌症产生的概率只有0.1%  
我们的系统预测所有人都是健康，即可达到99.9%的准确率

一个癌症预测系统，输入体测信息，可以判断是否由癌症  
预测准确度：99.9%  
如果癌症产生的概率只有0.01%  
我们的系统预测所有人都是健康，即可达到99.99%的准确率

对于极度偏斜（skewed data）的数据，  
只使用分类准确度是远远不够的  


**使用混淆矩阵做进一步的分析**  
<img src ='1.png' height= 500 width = 500>

* Precision精准率= TP/(TP+FP)   
在所有你认为positive的数据中，有多少真的是positive？
* Recall召回率= TP/(TP+FN)  
在所有positive的数据中，有多少被你正确地识别出来（是positive）？

# 实现混淆矩阵，精准率和召回率

In [1]:
import numpy as np
from sklearn import datasets

In [2]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

#需要skewed data

y[digits.target == 9] = 1
y[digits.target != 9] = 0

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=666)

In [4]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)



0.9755555555555555

In [6]:
y_log_predict = log_reg.predict(X_test)

In [9]:
def TN(y_true, y_predict):
    assert len(y_true)==len(y_predict)
    return np.sum((y_true==0) & (y_predict==0))

TN(y_test,y_log_predict)

403

In [10]:
def FP(y_true, y_predict):
    assert len(y_true)==len(y_predict)
    return np.sum((y_true==0) & (y_predict==1))

FP(y_test,y_log_predict)

2

In [11]:
def FN(y_true, y_predict):
    assert len(y_true)==len(y_predict)
    return np.sum((y_true==1) & (y_predict==0))

FN(y_test,y_log_predict)

9

In [12]:
def TP(y_true, y_predict):
    assert len(y_true)==len(y_predict)
    return np.sum((y_true==1) & (y_predict==1))

TP(y_test,y_log_predict)

36

In [13]:
def confusion_matrix(y_true,y_predict):
    return np.array([
        [TN(y_test,y_log_predict),FP(y_test,y_log_predict)],
        [FN(y_test,y_log_predict),TP(y_test,y_log_predict)]
    ])

confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

In [14]:
def precision_score(y_true,y_predict):
    tp = TP(y_true, y_predict)
    fp = FP(y_true, y_predict)
    try:
        return tp /(tp+fp)
    except:
        return 0.0

precision_score(y_test, y_log_predict)

0.9473684210526315

In [15]:
def recall_score(y_true,y_predict):
    tp = TP(y_true, y_predict)
    fn = FN(y_true, y_predict)
    try:
        return tp /(tp+fn)
    except:
        return 0.0

recall_score(y_test, y_log_predict)

0.8

### scikit-learn中的混淆矩阵，精准率和召回率

In [16]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]], dtype=int64)

In [17]:
from sklearn.metrics import precision_score

precision_score(y_test,y_log_predict)

0.9473684210526315

In [18]:
from sklearn.metrics import recall_score

recall_score(y_test,y_log_predict)

0.8