# 使用K折交叉运算对模型效果进行验证
K折交叉验证，英文名叫做K-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成K份，轮流将其中K-1份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。K次的结果的正确率（或差错率）的平均值作为对算法精度的估计。

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold     # 使用K折交叉运算进行训练集与测试集的拆分
from sklearn import svm     # 支持向量机

iris_data = load_iris()
iris_features = iris_data.data
iris_labels = iris_data.target

print('鸢尾花数据集特征集的特征向量前十条为：\n', iris_features[:10])
print('鸢尾花数据集特征集的标签前十条为：\n', iris_labels[:10])

鸢尾花数据集特征集的特征向量前十条为：
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
鸢尾花数据集特征集的标签前十条为：
 [0 0 0 0 0 0 0 0 0 0]


In [3]:
# 本实验因数据集较小，采用五折交叉验证
kf = KFold(n_splits = 5, shuffle = True)

test_score = []
counter = 1
for train_index, test_index in kf.split(iris_features):
    X_train, X_test, Y_train, Y_test = iris_features[train_index],\
                                       iris_features[test_index],\
                                       iris_labels[train_index],\
                                       iris_labels[test_index]
    
    # 训练模型
    svm_classifier = svm.SVC(C=1.0, kernel = 'rbf', decision_function_shape='ovr', gamma=0.01)
    svm_classifier.fit(X_train, Y_train)
    
    print(str(counter), '本轮测试集得分为：', svm_classifier.score(X_test, Y_test))
    test_score.append(svm_classifier.score(X_test, Y_test))
    counter += 1
    print("*" * 50)
    
print("平均得分为：", np.mean(test_score))

1 本轮测试集得分为： 0.9
**************************************************
2 本轮测试集得分为： 0.9666666666666667
**************************************************
3 本轮测试集得分为： 1.0
**************************************************
4 本轮测试集得分为： 0.9
**************************************************
5 本轮测试集得分为： 0.8333333333333334
**************************************************
平均得分为： 0.9199999999999999
