# 交叉验证集

In [22]:
import numpy as np
from sklearn import cross_validation
from sklearn import datasets
from sklearn import svm
from sklearn import metrics
import pandas as pd
from pandas import DataFrame, Series

In [23]:
iris = datasets.load_iris()
print type(iris.data), type(iris.target)
print iris.data.shape, iris.target.shape
print '-' * 40
print iris.data[:5, :]
print '+' * 40
print iris.target[:10]

<type 'numpy.ndarray'> <type 'numpy.ndarray'>
(150, 4) (150,)
----------------------------------------
[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]]
++++++++++++++++++++++++++++++++++++++++
[0 0 0 0 0 0 0 0 0 0]


转换成 DataFrame

In [25]:
X_train, X_test, y_train, y_test = cross_validation.train_test_split(
    iris.data, iris.target, test_size=0.4, random_state=0
)

print  X_train.shape, X_test.shape

(90, 4) (60, 4)


test_size 表示按照多少比例拆分成训练集和测试机。random_state的含义是随机种子。
这种做法的原因是为了和书上的随机值一样,而使用同样的随机种子。实际中不应该一样

In [27]:
clf = svm.SVC(kernel='linear', C=1.0)
clf.fit(X_train, y_train)
print clf.score(X_test, y_test)

0.966666666667


## k-flod交叉验证机

仅仅有训练集和测试集,是无法担当训练模型的超参训练任务,因为需要知道参数的好坏,也需要一个测试集,这个测试集是不能与最终的测试集一样的,因为一样会引起过拟合问题。解决这个的方法是交叉验证集。

交叉验证机其中一个方法是k-fold方法,这种方法是将训练集拆分成k个小的数据集然后:

1. 模型训练使用k-1个数据集
2. 对结果的验证在剩下的数据集中进行验证

这种方法的问题在于计算太昂贵,但是不会浪费太多数据。

In [28]:
clf = svm.SVC(kernel='linear', C=1)
scores = cross_validation.cross_val_score(clf, iris.data, iris.target, cv=5)

print scores

[ 0.96666667  1.          0.96666667  0.96666667  1.        ]


In [13]:
print ('Accuracy: %0.2f (+/- %0.2f)' % (scores.mean(), scores.std()))

Accuracy: 0.98 (+/- 0.02)


默认情况下,每一个CV的迭代计算的分数使用的是模型自己的分数,也可以通过使用其他的分数计算方式,比如F1

In [29]:
scores = cross_validation.cross_val_score(clf,
                                          iris.data,
                                          iris.target,
                                          cv=5,
                                          scoring='f1_weighted')
print scores
print (u'均值:%.2f, 标准差:%.2f' % (scores.mean(), scores.std()))

[ 0.96658312  1.          0.96658312  0.96658312  1.        ]
均值:0.98, 标准差:0.02


因为iris数据集的标签分类是比较均衡的,所以和F1近似

前面的示例中使用的是k-fold,也可以使用其他的产生交叉验证集的方法,比如随机拆分。

In [30]:
n_samples = iris.data.shape[0]
print n_samples
cv = cross_validation.ShuffleSplit(n_samples, n_iter=3, test_size=0.3, random_state=0)

scores = cross_validation.cross_val_score(clf, iris.data, iris.target, cv=cv)

print scores
print u'均值: %.2f, 标准差:%.2f' % (scores.mean(), scores.std())

150
[ 0.97777778  0.97777778  1.        ]
均值: 0.99, 标准差:0.01


cross_val_score 分数会对每一个测试集验证产生一个平均分,而cross_val_predict能够产生最后的预测结果,对每一个输入都产生一个预测值,如果无法为每一个输入产生一个预测值,则会抛出异常。但基本来说cross_val_score就够用了

In [32]:
predict = cross_validation.cross_val_predict(clf,
                                             iris.data,
                                             iris.target,
                                             cv=10)
print type(predict), predict.shape
print predict
print metrics.accuracy_score(iris.target, predict)

<type 'numpy.ndarray'> (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
0.973333333333


## 总结
交叉验证集提供了一种如何训练模型的方法,就是将所有的样本数据拆分成训练集和交叉验证集。这样训练出来的模型才能够正确的评估模型。但是,可见使用交叉验证集进行训练的时候,所用的时间是成倍增长的。这里还没有涉及到超参训练。