In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.tree import DecisionTreeClassifier as DTC
from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_digits
from sklearn.model_selection import learning_curve
from sklearn.model_selection import ShuffleSplit
from time import time
import datetime

datas = load_digits()
X = datas.data
y = datas.target
clf = GaussianNB()
# 交叉验证的模式
# 这里使用的训练集数据比例是默认的，5次
cv = ShuffleSplit(n_splits=50  # 标示把数据分成多少份
                  , test_size=0.2  # 其中有20%数据作为测试集
                  , random_state=0)  # 在交叉验证的时候进行的随机抽样的模式
# 把数据分50分，其中20%作为测试集，50此测试，每一次都用20%的数据集作为测试
learning_curve(clf  # 标示分类器
               , X, y  # 特征矩阵和标签
               , cv=cv  # 设置交叉验证的模式
               , n_jobs=4)  # 每一次运行可以使用的线程数目

train_sizes, train_scores, test_scores = learning_curve(clf, X, y
                                                        , cv=cv, n_jobs=3)

train_sizes
# 训练集里面数据的比例，array([ 143,  467,  790, 1113, 1437])
# 分成5次训练，训练数据样本逐渐增加，每一次划分，都把数据集划分为50分
train_scores.shape  # (5, 50)

test_scores.shape  # (5, 50)


# 画曲线的函数
# 第一步：找出每一个图的横纵坐标

def plot_learning_curve(estimator, title, X, y,  # estimator标示使用的分类器
                        ax,  # 选择子图
                        ylim=None,  # 设置纵坐标的取值范围
                        cv=None,  # 交叉验证
                        n_jobs=None  # 设定索要使用的线程
                        ):
    #     此函数会返回图像的横纵坐标，但是不会画出图像
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y
                                                            , cv=cv, n_jobs=n_jobs)
    # train_sizes每一次划分训练集和测试集后，训练集上面样本的数量
    # train_scores得到的是训练集上面的分数
    # test_scores得到最后的测试分数
    ax.set_title(title)
    if ylim is not None:  # 设置y坐标的量纲形式一样，也就是把多个子图的y坐标设置为一样
        ax.set_ylim(*ylim)
    ax.set_xlabel("Training examples")
    ax.set_ylabel("Score")
    ax.grid()  # 显示网格作为背景，不是必须
    ax.plot(train_sizes, np.mean(train_scores, axis=1), 'o-'
            , color="r", label="Training score")  # 画训练数据集的图像
    ax.plot(train_sizes, np.mean(test_scores, axis=1), 'o-'
            , color="g", label="Test score")  # 画出测试集图像
    ax.legend(loc="best")
    return ax


title = ["Naive Bayes","DecisionTree","SVM, RBF kernel","RandomForest","Logistic"]
model = [GaussianNB(),DTC(),SVC(gamma=0.001)
,RFC(n_estimators=50),LR(C=.1,solver="lbfgs")]# 实例化我们的模型算法
fig, axes = plt.subplots(1,5,figsize=(30,6))# 设置子图的个数
for ind,title_,estimator in zip(range(len(title)),title,model):
    times = time()
    plot_learning_curve(estimator, title_, X, y,
    ax=axes[ind], ylim = [0.7, 1.05],n_jobs=4, cv=cv)
    print("{}:{}".format(title_,datetime.datetime.fromtimestamp(time()-
    times).strftime("%M:%S:%f")))
plt.show()
# 图像的横坐标标示训练样本的个数
# 如果数据集的维度很高，我们就使用贝叶斯算法，对于一般的数据集我们首选逻辑回归
