&emsp;&emsp;"交叉验证法"(cross validation)先将数据集$ D $ 划分为k个大小相似的互斥子集,
即$ D = D_1 \bigcup D_2 \bigcup \dots D_k , \quad D_i \bigcap D_j = \varnothing ( i \neq j)$.每个子集$ D_i$ 都
尽可能保持数据分布的一致性,即从$ D $中通过分层采样得到.然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就
可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值.显然,交叉验证法评估结果的稳定性和保真性在很大
程度上取决于k的取值,为强调这一点,通常把交叉验证法称为"k折交叉验证"(k-flod cross validation).k最常用的取值是10,此时
称为10折交叉验证;  


<img src="../../../Other/img/10折交叉验证.png" style="width:400px;height:300px;float:bottom">

&emsp;&emsp;与留出法相似,将数据集$ D $ 划分为k个子集同样存在多种划分方式.为了减少因样本划分不同而引入的差别,k折
交叉验证通常需要使用不同的划分重新p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的有"10次10折交叉验证".    
&emsp;&emsp;假定数据集$ D $ 中包含m个样本,若令$ k=m $,则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO).显然,
留一法不受随机样本划分方式的影响,因为m个样本只有唯一的方式划分为m个子集(每个子集包含一个样本).留出法的训练集与初始数据集
相比只少了一个样本,这就使得在绝大数情况下;留一法中被实际评估的模型与期望评估的用$ D $训练出的模型很相似.因此,留一法的评估结果
往往被认为比较准确.然而,留一法也有其缺陷:在数据集比较大时,训练m个模型的计算开销可能是难以忍受的(例如数据集包含1百万个样本,则需要训练一百万个模型),
而这还是在未考虑算法调参的情况下.

In [41]:
import numpy as np
from sklearn.model_selection import KFold, RepeatedKFold, LeaveOneOut, StratifiedKFold, GroupKFold

In [42]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
kf = KFold(n_splits=5,  # 5折交叉验证
           shuffle=True, random_state=4)  # Whether to shuffle the data before splitting into batches.

In [43]:
# k折交叉验证次数
kf.n_splits

5

In [44]:
for train, test in kf.split(X):
    # (k-1)折用于训练,剩下的1折用于验证
    print("训练集索引为:%s,验证集索引为:%s" % (train, test))
    print("训练集数据为%s,验证集数据为%s" % (X[train], X[test]))

训练集索引为:[0 1 2 4 5 6 7 9],验证集索引为:[3 8]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'h' 'n'],验证集数据为['d' 'm']
训练集索引为:[0 1 2 3 5 6 7 8],验证集索引为:[4 9]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm'],验证集数据为['e' 'n']
训练集索引为:[0 1 3 4 5 7 8 9],验证集索引为:[2 6]
训练集数据为['a' 'b' 'd' 'e' 'f' 'h' 'm' 'n'],验证集数据为['c' 'g']
训练集索引为:[2 3 4 5 6 7 8 9],验证集索引为:[0 1]
训练集数据为['c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],验证集数据为['a' 'b']
训练集索引为:[0 1 2 3 4 6 8 9],验证集索引为:[5 7]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'm' 'n'],验证集数据为['f' 'h']


In [45]:
# 与上不相同,多个模型是可以只定义一个KFold
for train, test in kf.split(X):
    # (k-1)折用于训练,剩下的1折用于验证
    print("训练集索引为:%s,验证集索引为:%s" % (train, test))
    print("训练集数据为%s,验证集数据为%s" % (X[train], X[test]))

训练集索引为:[0 1 2 4 5 6 7 9],验证集索引为:[3 8]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'h' 'n'],验证集数据为['d' 'm']
训练集索引为:[0 1 2 3 5 6 7 8],验证集索引为:[4 9]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm'],验证集数据为['e' 'n']
训练集索引为:[0 1 3 4 5 7 8 9],验证集索引为:[2 6]
训练集数据为['a' 'b' 'd' 'e' 'f' 'h' 'm' 'n'],验证集数据为['c' 'g']
训练集索引为:[2 3 4 5 6 7 8 9],验证集索引为:[0 1]
训练集数据为['c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],验证集数据为['a' 'b']
训练集索引为:[0 1 2 3 4 6 8 9],验证集索引为:[5 7]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'm' 'n'],验证集数据为['f' 'h']


In [46]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
rkf = RepeatedKFold(n_splits=5, n_repeats=5)  # 5次5折交叉验证
for train, test in rkf.split(X):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))

训练集索引为:[0 1 2 3 5 6 7 8],测试集索引为:[4 9]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm'],测试集数据为['e' 'n']
训练集索引为:[0 1 2 3 4 7 8 9],测试集索引为:[5 6]
训练集数据为['a' 'b' 'c' 'd' 'e' 'h' 'm' 'n'],测试集数据为['f' 'g']
训练集索引为:[1 2 4 5 6 7 8 9],测试集索引为:[0 3]
训练集数据为['b' 'c' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['a' 'd']
训练集索引为:[0 3 4 5 6 7 8 9],测试集索引为:[1 2]
训练集数据为['a' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['b' 'c']
训练集索引为:[0 1 2 3 4 5 6 9],测试集索引为:[7 8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'n'],测试集数据为['h' 'm']
训练集索引为:[0 1 2 3 5 6 7 8],测试集索引为:[4 9]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm'],测试集数据为['e' 'n']
训练集索引为:[0 1 4 5 6 7 8 9],测试集索引为:[2 3]
训练集数据为['a' 'b' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['c' 'd']
训练集索引为:[0 1 2 3 4 6 7 9],测试集索引为:[5 8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'h' 'n'],测试集数据为['f' 'm']
训练集索引为:[2 3 4 5 6 7 8 9],测试集索引为:[0 1]
训练集数据为['c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['a' 'b']
训练集索引为:[0 1 2 3 4 5 8 9],测试集索引为:[6 7]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'm' 'n'],测试集数据为['g' 'h']
训练集索引为:[0 1 2 3 6 7 8 9],测试集索引为:[4 5]
训练集数据为['a' 'b' 'c' 'd'

In [47]:
rkf.n_repeats

5

In [48]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n"])
loo = LeaveOneOut()  # 留一法
for train, test in loo.split(X):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))

训练集索引为:[1 2 3 4 5 6 7 8 9],测试集索引为:[0]
训练集数据为['b' 'c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['a']
训练集索引为:[0 2 3 4 5 6 7 8 9],测试集索引为:[1]
训练集数据为['a' 'c' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['b']
训练集索引为:[0 1 3 4 5 6 7 8 9],测试集索引为:[2]
训练集数据为['a' 'b' 'd' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['c']
训练集索引为:[0 1 2 4 5 6 7 8 9],测试集索引为:[3]
训练集数据为['a' 'b' 'c' 'e' 'f' 'g' 'h' 'm' 'n'],测试集数据为['d']
训练集索引为:[0 1 2 3 5 6 7 8 9],测试集索引为:[4]
训练集数据为['a' 'b' 'c' 'd' 'f' 'g' 'h' 'm' 'n'],测试集数据为['e']
训练集索引为:[0 1 2 3 4 6 7 8 9],测试集索引为:[5]
训练集数据为['a' 'b' 'c' 'd' 'e' 'g' 'h' 'm' 'n'],测试集数据为['f']
训练集索引为:[0 1 2 3 4 5 7 8 9],测试集索引为:[6]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'h' 'm' 'n'],测试集数据为['g']
训练集索引为:[0 1 2 3 4 5 6 8 9],测试集索引为:[7]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'm' 'n'],测试集数据为['h']
训练集索引为:[0 1 2 3 4 5 6 7 9],测试集索引为:[8]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'n'],测试集数据为['m']
训练集索引为:[0 1 2 3 4 5 6 7 8],测试集索引为:[9]
训练集数据为['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'm'],测试集数据为['n']


In [49]:
X = np.array(["a", "b", "c", "d", "e", "f", "g", "h", "m", "n", 'z', 'v'])
groups = ([0] * 4) + ([1] * 8)
# 层次为[0, 1, 2, 3], [4, 5, 6, 7, 8, 8, 10, 11]
skf = StratifiedKFold(n_splits=3, random_state=0, shuffle=True)  # 分层k折
for train, test in skf.split(X, groups):
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))
    print('******************************************************')

训练集索引为:[ 0  1  4  6  7  9 10 11],测试集索引为:[2 3 5 8]
训练集数据为['a' 'b' 'e' 'g' 'h' 'n' 'z' 'v'],测试集数据为['c' 'd' 'f' 'm']
******************************************************
训练集索引为:[ 1  2  3  5  7  8  9 10],测试集索引为:[ 0  4  6 11]
训练集数据为['b' 'c' 'd' 'f' 'h' 'm' 'n' 'z'],测试集数据为['a' 'e' 'g' 'v']
******************************************************
训练集索引为:[ 0  2  3  4  5  6  8 11],测试集索引为:[ 1  7  9 10]
训练集数据为['a' 'c' 'd' 'e' 'f' 'g' 'm' 'v'],测试集数据为['b' 'h' 'n' 'z']
******************************************************


In [50]:
skf.n_splits

3

In [51]:
for epoch, (train, test) in enumerate(skf.split(X, groups)):
    print(epoch)
    print("训练集索引为:%s,测试集索引为:%s" % (train, test))
    print("训练集数据为%s,测试集数据为%s" % (X[train], X[test]))
    print('******************************************************')

0
训练集索引为:[ 0  1  4  6  7  9 10 11],测试集索引为:[2 3 5 8]
训练集数据为['a' 'b' 'e' 'g' 'h' 'n' 'z' 'v'],测试集数据为['c' 'd' 'f' 'm']
******************************************************
1
训练集索引为:[ 1  2  3  5  7  8  9 10],测试集索引为:[ 0  4  6 11]
训练集数据为['b' 'c' 'd' 'f' 'h' 'm' 'n' 'z'],测试集数据为['a' 'e' 'g' 'v']
******************************************************
2
训练集索引为:[ 0  2  3  4  5  6  8 11],测试集索引为:[ 1  7  9 10]
训练集数据为['a' 'c' 'd' 'e' 'f' 'g' 'm' 'v'],测试集数据为['b' 'h' 'n' 'z']
******************************************************


In [52]:
X = np.array([[1, 2],
              [3, 4],
              [5, 6],
              [7, 8],
              [9, 10],
              [11, 12],
              [13, 14],
              [15, 16],
              [17, 18],
              [19, 20],
              [21, 22],
              [23, 24]])
y = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
groups = np.array([0, 0, 1, 0, 2, 2, 1, 1, 0, 2, 1, 2])
'''
n_splits : int, default=5
    Number of folds. Must be at least 2.
'''
# K-fold iterator variant with non-overlapping groups.
group_kfold = GroupKFold(n_splits=3)  # 保证同一个group的数据不会同时出现在训练集和测试集上
for train_index, test_index in group_kfold.split(X, y, groups):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print(X_train)
    print(X_test)
    print(y_train)
    print(y_test)
    print()

TRAIN: [ 0  1  2  3  6  7  8 10] TEST: [ 4  5  9 11]
[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [13 14]
 [15 16]
 [17 18]
 [21 22]]
[[ 9 10]
 [11 12]
 [19 20]
 [23 24]]
[ 0  1  2  3  6  7  8 10]
[ 4  5  9 11]

TRAIN: [ 0  1  3  4  5  8  9 11] TEST: [ 2  6  7 10]
[[ 1  2]
 [ 3  4]
 [ 7  8]
 [ 9 10]
 [11 12]
 [17 18]
 [19 20]
 [23 24]]
[[ 5  6]
 [13 14]
 [15 16]
 [21 22]]
[ 0  1  3  4  5  8  9 11]
[ 2  6  7 10]

TRAIN: [ 2  4  5  6  7  9 10 11] TEST: [0 1 3 8]
[[ 5  6]
 [ 9 10]
 [11 12]
 [13 14]
 [15 16]
 [19 20]
 [21 22]
 [23 24]]
[[ 1  2]
 [ 3  4]
 [ 7  8]
 [17 18]]
[ 2  4  5  6  7  9 10 11]
[0 1 3 8]

