# 分类算法

当训练数据中某些类型的频率明显高于其他类型时,仅仅使用准确率(accuracy)来衡量模型效果会造成很大的偏差

## 混淆矩阵(Confusion Matrix)

以随机梯度下降法(Stochastic Gradient Descent)为例:

In [None]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train)

In [None]:
#交叉预测
from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train, cv=3)

与cross_val_score()类似,cross_val_predict()使用K-fold交叉验证  
但cross_val_predict()返回的是每个test fold的预测值,而非评估分值

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_train, y_train_pred)

在混淆矩阵中,  
每一行表示一个真实分类,每一列表示预测的分类

矩阵的第一行表示实际分类为-1(negative class),其中2000个为正确分类为-1(true negative),200个被错误分类为1(false positive)  
矩阵的第二行表示实际分类为1(positive class),其中250个被错误分类为-1(false negative),800个被正确分类为1(true positive)

$\large precision=\frac{TP}{TP+FP}$  
$\large recall=\frac{TP}{TP+FN}$  ,也称为sensitivity, true positive rate(TPR)

In [None]:
from sklearn.metrics import precision_score, recall_score

precision_score(y_train, y_train_pred    #计算precision
recall_score(y_train, y_train_pred)      #计算recall

为了便于衡量2个分类器,通常可以将precision和recall转化成一个标准,称为F1  
F1为precision和recall的调和平均值(harmonic mean),调和平均值为较低的值赋予更高的权重,只有当2个分值都较高时,F1才会较高
F1更倾向于给具有相似分值的precision和recall一个相对更高的分值, 但这与实际建模的目的可能存在一定的不符

$\Large F1=\frac{2}{\frac{1}{precision}+\frac{1}{recall}}=2×\frac{precision×recall}{precision+recall}$

In [None]:
from sklearn.metrics import f1_score
f1_score(y_train, y_train_pred)   # 计算F1值