## train_test_split

In [37]:
from sklearn import model_selection, datasets
from sklearn.model_selection import KFold

import pandas as pd
import numpy as np

In [22]:
data = pd.read_csv('advertising.csv')

In [23]:
X = data[['TV', 'Radio', 'Newspaper']].values
Y = data[['Sales']].values

In [24]:
train_X, test_X, train_labels, test_labels = model_selection.train_test_split(X, Y, test_size = 0.3)

In [25]:
#убедимся, что тестовая выборка действительно составляет 0.3 от всех данных
float(len(test_labels))/len(X)

0.3

## k_fold validation

In [38]:
kf = KFold(n_splits=5)
 
for train_index, test_index in kf.split(X):
      print("Train:", train_index, "Validation:",test_index)  # k-fold возвращает индексы а не сами элементы
      X_train, X_test = X[train_index], X[test_index]
      y_train, y_test = Y[train_index], Y[test_index]

Train: [ 40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57
  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75
  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93
  94  95  96  97  98  99 100 101 102 103 104 105 106 107 108 109 110 111
 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129
 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147
 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165
 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183
 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199] Validation: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
Train: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  80  81  82  83  84  85  86  87  88  8

In [43]:
X_train[:3], X_test[:3]

(array([[230.1,  37.8,  69.2],
        [ 44.5,  39.3,  45.1],
        [ 17.2,  45.9,  69.3]]),
 array([[120.2,  19.6,  11.6],
        [195.4,  47.7,  52.9],
        [ 69.2,  20.5,  18.3]]))

## RepeatedKFold

In [45]:
from sklearn.model_selection import RepeatedKFold

In [50]:
rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=2652124)
for train_index, test_index in rkf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    Y_train, Y_test = Y[train_index], Y[test_index]

TRAIN: [  3   4   6   9  10  11  15  16  17  20  21  23  28  29  32  33  35  38
  39  41  44  46  47  49  50  53  56  58  59  60  62  64  65  66  67  68
  70  76  78  80  90  92  95  97 101 103 106 109 110 112 114 117 119 121
 122 124 125 126 129 130 133 134 135 136 137 141 142 145 147 149 150 151
 156 157 158 160 161 162 163 166 167 168 169 171 172 173 174 176 180 181
 184 185 186 189 191 194 195 197 198 199] TEST: [  0   1   2   5   7   8  12  13  14  18  19  22  24  25  26  27  30  31
  34  36  37  40  42  43  45  48  51  52  54  55  57  61  63  69  71  72
  73  74  75  77  79  81  82  83  84  85  86  87  88  89  91  93  94  96
  98  99 100 102 104 105 107 108 111 113 115 116 118 120 123 127 128 131
 132 138 139 140 143 144 146 148 152 153 154 155 159 164 165 170 175 177
 178 179 182 183 187 188 190 192 193 196]
TRAIN: [  0   1   2   5   7   8  12  13  14  18  19  22  24  25  26  27  30  31
  34  36  37  40  42  43  45  48  51  52  54  55  57  61  63  69  71  72
  73  74  75  77  79

In [51]:
X_train[:3], X_test[:3]

(array([[230.1,  37.8,  69.2],
        [ 44.5,  39.3,  45.1],
        [180.8,  10.8,  58.4]]),
 array([[ 17.2,  45.9,  69.3],
        [151.5,  41.3,  58.5],
        [ 57.5,  32.8,  23.5]]))

## StratifiedKFold

стратифицированная выборка для несбалансированных данных. Иерархическая выборка должна поддерживать пропорцию категорий исходного набора данных в каждом подмножестве. Например, исходный набор данных имеет положительный класс: отрицательный класс = 3: 1, и это соотношение должно поддерживаться в каждом подмножестве.

In [52]:
from sklearn.model_selection import StratifiedKFold

In [54]:
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
Y = np.array([0, 0, 1, 1])


In [55]:
skf = StratifiedKFold(n_splits=2)
skf.get_n_splits(X, Y)

 
print(skf)  
 
for train_index, test_index in skf.split(X, Y):
   print("TRAIN:", train_index, "TEST:", test_index)
   X_train, X_test = X[train_index], X[test_index]
   Y_train, Y_test = Y[train_index], Y[test_index]


StratifiedKFold(n_splits=2, random_state=None, shuffle=False)
TRAIN: [1 3] TEST: [0 2]
TRAIN: [0 2] TEST: [1 3]


## Leave-One-Out Cross Validation

перекрестная проверка Leave-One-Out (LOOCV) означает, что только один элемент в исходном образце используется в качестве данных проверки, а остальная часть остается в качестве обучающих данных. Этот шаг продолжается до тех пор, пока каждый образец не будет использован в качестве данных проверки. Фактически это эквивалентно перекрестной проверке в K-кратном порядке, где K - количество исходных образцов.

In [56]:
from sklearn.model_selection import LeaveOneOut

X = np.array([[1, 2], [3, 4],[5,6],[7, 8]])
y = np.array([1, 2, 2, 1])
loo = LeaveOneOut()
loo.get_n_splits(X)
for train_index, test_index in loo.split(X):
        print("train:", train_index, "validation:", test_index)
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]


train: [1 2 3] validation: [0]
train: [0 2 3] validation: [1]
train: [0 1 3] validation: [2]
train: [0 1 2] validation: [3]
