In [None]:
import numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
import warnings
warnings.filterwarnings('ignore')
np.random.seed(42)

### 数据集读取
- Mnist数据是图像数据：(28,28,1)的灰度图

In [None]:
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')

In [1]:
X, y = mnist["data"], mnist["target"] # data是特征，target是标签
X.shape

In [None]:
y.shape

![title](./img/9.png)

In [None]:
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

In [None]:
# 洗牌操作
import numpy as np

shuffle_index = np.random.permutation(60000) # permutation(n)生成一个随机的序列，包含0到n-1的所有整数
x_train = X_train.take(shuffle_index, axis=0)
y_train = y_train.take(shuffle_index, axis=0)
# 对一个列表传递一个索引列表，返回一个新的列表，新列表的元素是索引列表对应的元素

In [None]:
shuffle_index

### 交叉验证

![title](./img/5.png)

![title](./img/7.png)

In [None]:
y_train_5 = (y_train=='5') # 对一个列表进行比较操作，返回一个布尔值列表，True表示对应位置的元素等于5，False表示不等于5
y_test_5 = (y_test=='0') # 注意这里是字符类型

In [167]:
y_train_5[:100]

In [None]:
from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(max_iter=5,random_state=42) # Stochastic Gradient Descent 随机梯度下降
sgd_clf.fit(x_train,y_train_5) # 训练，第一个参数是训练集，第二个参数是标签，标签是0-9的数字，这里是5，所以是二分类问题，是5和不是5，如果标签只有一个，那就是一个二分类问题，如果标签有多个，那就是一个多分类问题

In [None]:
sgd_clf.predict([X.to_numpy()[47]])

In [None]:
y[47]

In [None]:
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf,X_train,y_train_5,cv=10,scoring='accuracy',n_jobs=-1) # cv 交叉验证的次数，即把数据集分成几份，scoring评估指标 输出的是一个数组，数组的元素是每次交叉验证的结果

In [None]:
X_train.shape

In [None]:
y_train_5.shape

In [None]:
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

skflods = StratifiedKFold(n_splits=3,random_state=42)  # 分层采样，保证每一份数据集中的类别比例与原始数据集中的类别比例一致
# 切分份数，random_state 随机种子

# 分层采样，可以将一个数据集划分训练集和测试集，保证训练集和测试集中的类别比例与原始数据集中的类别比例一致

for train_index,test_index in skflods.split(X_train,y_train_5): # 返回的是索引，train_index是训练集的索引，test_index是测试集的索引
    # test集就是验证集
    clone_clf = clone(sgd_clf) # 复制一个模型，参数一致
    X_train_folds = X_train[train_index]
    y_train_folds = y_train_5[train_index]
    X_test_folds = X_train[test_index]
    y_test_folds = y_train_5[test_index]
    
    clone_clf.fit(X_train_folds,y_train_folds)
    y_pred = clone_clf.predict(X_test_folds)
    n_correct = sum(y_pred == y_test_folds) # 预测正确的个数
    print(n_correct/len(y_pred)) # 预测正确的比例

### Confusion Matrix-混淆矩阵
> 混淆矩阵是一种评估分类模型性能的方法，特别适用于**二分类问题**，矩阵的行表示实际类别，列表示预测类别

> TP: 就是真正例，即实际为正例，预测为正例的样本数

> FP: 就是假正例，即实际为负例，预测为正例的样本数

> FN: 就是假负例，即实际为正例，预测为负例的样本数，这里的FN=0因为女生全被判断为了女生

> TN: 就是真负例，即实际为负例，预测为负例的样本数，剩余的50个男生被判断为了男生

![title](./img/8.png)



In [None]:
from sklearn.model_selection import cross_val_predict
y_train_pred = cross_val_predict(sgd_clf,X_train,y_train_5,cv=3)
# 交叉验证的预测结果，返回的是每一次验证集的预测结果

In [None]:
y_train_pred.shape

In [None]:
X_train.shape

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_train_5,y_train_pred) # 混淆矩阵

negative class  [[ **true negatives** , **false positives** ],
 
positive class  [ **false negatives** , **true positives** ]]

* true negatives:  53,272个数据被正确的分为非5类别
* false positives：1307张 

* false negatives：1077张错误的分为非5类别
* true positives： 4344张被正确的分为5类别

一个完美的分类器应该只有**true positives** 和 **true negatives**, 即主对角线元素不为0，其余元素为0

### Precision and Recall

### 精度和召回率是二分类任务中最常用的指标
### **$ precision = \frac {TP} {TP + FP} $**
> 精度是分类器预测为正例的样本中有多少是真正例，精度反映了分类器的准确性

### **$ recall = \frac {TP} {TP + FN} $**
> 召回率是正例中有多少被分类器预测为正例，召回率反映了分类器对正例的识别能力

![title](./img/1.png)

In [None]:
from sklearn.metrics import precision_score,recall_score
precision_score(y_train_5,y_train_pred)

In [None]:
recall_score(y_train_5,y_train_pred)

将**Precision** 和 **Recall**结合到一个称为**F1 score** 的指标,调和平均值给予低值更多权重。 因此，如果召回和精确度都很高，分类器将获得高F 1分数。

### $ F_1  = $ $2\over {1\over precision}+{1\over recall} $ $=$ $2×$ $precision×recall\over precision+recall $ $=$ $TP\over {TP}+{FN + FP\over 2}$

In [None]:
from sklearn.metrics import f1_score
f1_score(y_train_5,y_train_pred) 

### 阈值对结果的影响

![title](./img/2.png)

In [None]:
y_scores = sgd_clf.decision_function([X[35000]])  # 返回每个实例的预测分数
y_scores

In [None]:
t = 50000
y_pred = (y_scores > t) # 阈值，大于阈值的为正例，小于阈值的为负例，yscores是一个数组，对数组进行比较操作，返回一个布尔值数组
y_pred

Scikit-Learn不允许直接设置阈值，但它可以得到决策分数，调用其**decision_function（）**方法，而不是调用分类器的**predict（）**方法，该方法返回每个实例的分数，然后使用想要的**阈值**根据这些分数进行预测：

> 如果阈值很高，分类器可能会错过一些正例（低召回率），但精度会很高，因为只有非常确定的正例才会被预测为正例

In [None]:
y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3,
                             method="decision_function")

In [None]:
y_scores[:10]

In [None]:
from sklearn.metrics import precision_recall_curve 
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores) # 返回精确度，召回率，阈值
# 传递真实标签和预测分数，返回不同阈值下的精确度和召回率

In [None]:
y_train_5.shape

In [None]:
thresholds.shape

In [None]:
precisions[:10]

In [None]:
precisions.shape

In [None]:
recalls.shape

In [None]:
def plot_precision_recall_vs_threshold(precisions,recalls,thresholds):
    plt.plot(thresholds,
             precisions[:-1],
            "b--",
            label="Precision")
    
    plt.plot(thresholds,
             recalls[:-1],
            "g-",
            label="Recall")
    plt.xlabel("Threshold",fontsize=16)
    plt.legend(loc="upper left",fontsize=16)
    plt.ylim([0,1])
    
plt.figure(figsize=(8, 4))
plot_precision_recall_vs_threshold(precisions,recalls,thresholds)
plt.xlim([-700000, 700000])
plt.show()

In [None]:
def plot_precision_vs_recall(precisions, recalls):
    plt.plot(recalls, 
             precisions, 
             "b-", 
             linewidth=2)
    
    plt.xlabel("Recall", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])

plt.figure(figsize=(8, 6))
plot_precision_vs_recall(precisions, recalls)
plt.show()

### ROC curves
**receiver operating characteristic (ROC)** 曲线是二元分类中的常用评估方法
* 它与精确度/召回曲线非常相似，但ROC曲线不是绘制精确度与召回率，而是绘制**true positive rate(TPR)** 与**false positive rate(FPR)** 

* 要绘制ROC曲线，首先需要使用**roc_curve（）**函数计算各种阈值的**TPR和FPR**：

TPR = TP / (TP + FN) (Recall)

FPR = FP / (FP + TN)

In [None]:
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

In [None]:
def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.axis([0, 1, 0, 1])
    plt.xlabel('False Positive Rate', fontsize=16)
    plt.ylabel('True Positive Rate', fontsize=16)

plt.figure(figsize=(8, 6))
plot_roc_curve(fpr, tpr)
plt.show()

**虚线表示纯随机分类器的ROC曲线**; `一个好的分类器尽可能远离该线（朝左上角）`。

比较分类器的一种方法是测量曲线下面积（AUC）。完美分类器的ROC AUC**等于1**，而纯随机分类器的ROC AUC**等于0.5**。 Scikit-Learn提供了计算ROC AUC的函数：

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_train_5, y_scores) # ROC曲线下的面积 ,越接近1越好