&emsp;&emsp;"交叉验证法"(cross validation)先将数据集$ D $ 划分为k个大小相似的互斥子集,
即$ D = D_1 \bigcup D_2 \bigcup \dots D_k , \quad D_i \bigcap D_j = \varnothing ( i \neq j)$.每个子集$ D_i$ 都
尽可能保持数据分布的一致性,即从$ D $中通过分层采样得到.然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就
可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值.显然,交叉验证法评估结果的稳定性和保真性在很大
程度上取决于k的取值,为强调这一点,通常把交叉验证法称为"k折交叉验证"(k-flod cross validation).k最常用的取值是10,此时
称为10折交叉验证;  


<img src="../../../Other/img/10折交叉验证.png" style="width:400px;height:300px;float:bottom">

&emsp;&emsp;与留出法相似,将数据集$ D $ 划分为k个子集同样存在多种划分方式.为了减少因样本划分不同而引入的差别,k折
交叉验证通常需要使用不同的划分重新p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的有"10次10折交叉验证".    
&emsp;&emsp;假定数据集$ D $ 中包含m个样本,若令$ k=m $,则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO).显然,
留一法不受随机样本划分方式的影响,因为m个样本只有唯一的方式划分为m个子集(每个子集包含一个样本).留出法的训练集与初始数据集
相比只少了一个样本,这就使得在绝大数情况下;留一法中被实际评估的模型与期望评估的用$ D $训练出的模型很相似.因此,留一法的评估结果
往往被认为比较准确.然而,留一法也有其缺陷:在数据集比较大时,训练m个模型的计算开销可能是难以忍受的(例如数据集包含1百万个样本,则需要训练一百万个模型),
而这还是在未考虑算法调参的情况下.

In [21]:
import numpy as np
from sklearn.model_selection import KFold, \
    RepeatedKFold, \
    LeaveOneOut, \
    StratifiedKFold

In [22]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
kf = KFold(n_splits=5, # 5折交叉验证 
           shuffle=True) # Whether to shuffle the data before splitting into batches.
for train, test in kf.split(X):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))

训练集索引为:[0 1 2 4 5 6 7 8],测试集索引为:[3 9]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'h' 'm'],测试集数据为['d' 'n']
训练集索引为:[1 2 3 4 5 7 8 9],测试集索引为:[0 6]
训练集数据为['b' 'c' 'd' 'e' 'f' 'h' 'm' 'n'],测试集数据为['a' 'g']
训练集索引为:[0 2 3 5 6 7 8 9],测试集索引为:[1 4]
训练集数据为['a' 'c' 'd' 'f' 'g' 'h' 'm' 'n'],测试集数据为['b' 'e']
训练集索引为:[0 1 2 3 4 6 7 9],测试集索引为:[5 8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'h' 'n'],测试集数据为['f' 'm']
训练集索引为:[0 1 3 4 5 6 8 9],测试集索引为:[2 7]
训练集数据为['a' 'b' 'd' 'e' 'f' 'g' 'm' 'n'],测试集数据为['c' 'h']


In [23]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
rkf = RepeatedKFold(n_splits=5, n_repeats=5) # 5次5折交叉验证
for train, test in rkf.split(X):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))

训练集索引为:[0 1 2 4 5 6 8 9],测试集索引为:[3 7]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'm' 'n'],测试集数据为['d' 'h']
训练集索引为:[0 1 2 3 4 6 7 8],测试集索引为:[5 9]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'h' 'm'],测试集数据为['f' 'n']
训练集索引为:[0 2 3 4 5 6 7 9],测试集索引为:[1 8]
训练集数据为['a' 'c' 'd' 'e' 'f' 'g' 'h' 'n'],测试集数据为['b' 'm']
训练集索引为:[0 1 3 4 5 7 8 9],测试集索引为:[2 6]
训练集数据为['a' 'b' 'd' 'e' 'f' 'h' 'm' 'n'],测试集数据为['c' 'g']
训练集索引为:[1 2 3 5 6 7 8 9],测试集索引为:[0 4]
训练集数据为['b' 'c' 'd' 'f' 'g' 'h' 'm' 'n'],测试集数据为['a' 'e']
训练集索引为:[0 1 2 3 4 5 7 9],测试集索引为:[6 8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'h' 'n'],测试集数据为['g' 'm']
训练集索引为:[0 3 4 5 6 7 8 9],测试集索引为:[1 2]
训练集数据为['a' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['b' 'c']
训练集索引为:[0 1 2 3 6 7 8 9],测试集索引为:[4 5]
训练集数据为['a' 'b' 'c' 'd' 'g' 'h' 'm' 'n'],测试集数据为['e' 'f']
训练集索引为:[0 1 2 4 5 6 8 9],测试集索引为:[3 7]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'm' 'n'],测试集数据为['d' 'h']
训练集索引为:[1 2 3 4 5 6 7 8],测试集索引为:[0 9]
训练集数据为['b' 'c' 'd' 'e' 'f' 'g' 'h' 'm'],测试集数据为['a' 'n']
训练集索引为:[0 1 3 4 5 6 7 9],测试集索引为:[2 8]
训练集数据为['a' 'b' 'd' 'e'

In [24]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
loo = LeaveOneOut() # 留一法
for train, test in loo.split(X):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))

训练集索引为:[1 2 3 4 5 6 7 8 9],测试集索引为:[0]
训练集数据为['b' 'c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['a']
训练集索引为:[0 2 3 4 5 6 7 8 9],测试集索引为:[1]
训练集数据为['a' 'c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['b']
训练集索引为:[0 1 3 4 5 6 7 8 9],测试集索引为:[2]
训练集数据为['a' 'b' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['c']
训练集索引为:[0 1 2 4 5 6 7 8 9],测试集索引为:[3]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['d']
训练集索引为:[0 1 2 3 5 6 7 8 9],测试集索引为:[4]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm' 'n'],测试集数据为['e']
训练集索引为:[0 1 2 3 4 6 7 8 9],测试集索引为:[5]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'h' 'm' 'n'],测试集数据为['f']
训练集索引为:[0 1 2 3 4 5 7 8 9],测试集索引为:[6]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'h' 'm' 'n'],测试集数据为['g']
训练集索引为:[0 1 2 3 4 5 6 8 9],测试集索引为:[7]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'm' 'n'],测试集数据为['h']
训练集索引为:[0 1 2 3 4 5 6 7 9],测试集索引为:[8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'n'],测试集数据为['m']
训练集索引为:[0 1 2 3 4 5 6 7 8],测试集索引为:[9]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'm'],测试集数据为['n']


In [25]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n", 'z', 'v'])
groups = ([0] * 4) + ([1] * 8)  
# 层次为[0, 1, 2, 3], [4, 5, 6, 7, 8, 8, 10, 11]
skf = StratifiedKFold(n_splits=2, random_state=0, shuffle=True) # 分层k折
for train, test in skf.split(X, groups):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))


训练集索引为:[ 0  1  6  7  9 10],测试集索引为:[ 2  3  4  5  8 11]
训练集数据为['a' 'b' 'g' 'h' 'n' 'z'],测试集数据为['c' 'd' 'e' 'f' 'm' 'v']
训练集索引为:[ 2  3  4  5  8 11],测试集索引为:[ 0  1  6  7  9 10]
训练集数据为['c' 'd' 'e' 'f' 'm' 'v'],测试集数据为['a' 'b' 'g' 'h' 'n' 'z']
