In [1]:
from sklearn import model_selection, datasets

import numpy as np



### Разбиение на обучение и тест с помощью test_train_split

In [2]:
iris = datasets.load_iris()

In [6]:
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(iris.data, iris.target, test_size=0.3)

In [7]:
#убедимся в корректности разбиение
float(len(test_data))/len(iris.data)

0.3

In [9]:
print('Размер обучающей выборки: {} объектов\nРазмер тестовой выборки: {} объектов'.format(len(train_data), len(test_data)))

Размер обучающей выборки: 105 объектов
Размер тестовой выборки: 45 объектов


In [11]:
print('Обучающая выборка: \n', train_data[:5])
print('\n')
print('Тестовая выборка: \n', test_data[:5])

Обучающая выборка: 
 [[5.  3.4 1.5 0.2]
 [4.8 3.1 1.6 0.2]
 [7.3 2.9 6.3 1.8]
 [4.6 3.2 1.4 0.2]
 [5.4 3.4 1.7 0.2]]


Тестовая выборка: 
 [[4.9 3.  1.4 0.2]
 [5.6 2.7 4.2 1.3]
 [5.4 3.  4.5 1.5]
 [5.  3.5 1.3 0.3]
 [6.6 2.9 4.6 1.3]]


In [12]:
print('Метки классов на обучающей выборке: \n', train_labels)
print('\n')
print('Метки классов на тестовой выборке: \n', test_labels)

Метки классов на обучающей выборке: 
 [0 0 2 0 0 0 2 1 2 0 0 1 1 0 0 2 1 2 2 1 2 1 1 2 1 2 2 1 0 1 0 0 0 2 1 2 0
 2 1 0 2 0 0 0 0 1 2 1 1 2 0 2 1 2 1 0 1 0 0 1 2 2 1 1 0 1 2 0 0 2 0 0 2 2
 2 2 1 1 1 2 2 2 2 2 1 1 0 1 0 1 0 1 0 0 0 2 1 1 1 2 1 0 2 2 1]


Метки классов на тестовой выборке: 
 [0 1 1 0 1 2 2 2 2 0 1 0 1 2 2 2 2 0 1 0 2 1 0 0 0 0 2 2 1 1 0 1 0 1 0 2 0
 1 2 0 1 2 2 1 1]


### Стратегии проведения кросс-валидации

#### KFold

In [80]:
X = list(range(1,11))
X

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [82]:
kfold = model_selection.KFold(n_splits=2)

In [83]:
#какое количество фолдов
kfold.get_n_splits()

2

In [84]:
#разбивка по индексу
for train_index, test_index in kfold.split(X):
    print('TRAIN:', train_index, 'TEST', test_index)

TRAIN: [5 6 7 8 9] TEST [0 1 2 3 4]
TRAIN: [0 1 2 3 4] TEST [5 6 7 8 9]


In [88]:
#перемешаем значения индексов
kfold = model_selection.KFold(n_splits=2, shuffle=True, random_state=1)
for train_index, test_index in kfold.split(X):
    print('TRAIN:', train_index, 'TEST', test_index)

TRAIN: [1 3 5 7 8] TEST [0 2 4 6 9]
TRAIN: [0 2 4 6 9] TEST [1 3 5 7 8]


#### StratifiedKFold

In [None]:
# позволяет делать кросс-валидацию, 
# сохраняя определенное соотношение баланса классов
#сохраняем соотношение классов в обучающих и тестовых подвыборках
#разбиение происходит с учетом меток классов

In [134]:
X = np.array(list(range(0,10)))
target = np.array([0]*5 + [1]*5)
print(X)
print(target)

[0 1 2 3 4 5 6 7 8 9]
[0 0 0 0 0 1 1 1 1 1]


In [130]:
Stratifiedkfold = model_selection.StratifiedKFold(n_splits=2, shuffle=True, random_state=0)

In [131]:
#какое количество фолдов
Stratifiedkfold.get_n_splits()

2

In [136]:
print(target)
for train_index, test_index in Stratifiedkfold.split(X,target):
    print('TRAIN:', train_index, 'TEST', test_index)

#то есть идея в том, что в каждой подвыборке баланс 
#классов такой же, как и в исходной

[0 0 0 0 0 1 1 1 1 1]
TRAIN: [3 4 6 8 9] TEST [0 1 2 5 7]
TRAIN: [0 1 2 5 7] TEST [3 4 6 8 9]


In [145]:
target = np.array([0,1]*5)
Stratifiedkfold = model_selection.StratifiedKFold(n_splits=2, shuffle=True, random_state=0)
print(target)

for train_index, test_index in Stratifiedkfold.split(X,target):
    print('TRAIN:', train_index, 'TEST', test_index)

[0 1 0 1 0 1 0 1 0 1]
TRAIN: [3 6 7 8 9] TEST [0 1 2 4 5]
TRAIN: [0 1 2 4 5] TEST [3 6 7 8 9]


#### ShuffleSplit

In [166]:
#разбивает выборку на 10 экземпляров.(случайные перестановки)
#второе значение - количество элементов в тестовой выборке
shuffleSplit = model_selection.ShuffleSplit(10, test_size=0.4)

In [167]:
for train_index, test_index in shuffleSplit.split(X):
    print('TRAIN:', train_index, 'TEST', test_index)

TRAIN: [0 7 1 4 8 9] TEST [3 6 2 5]
TRAIN: [5 2 3 9 0 1] TEST [6 7 4 8]
TRAIN: [9 6 4 5 2 1] TEST [3 0 7 8]
TRAIN: [2 0 4 5 6 3] TEST [1 9 8 7]
TRAIN: [3 7 9 1 5 8] TEST [2 0 6 4]
TRAIN: [1 8 0 2 3 4] TEST [5 9 7 6]
TRAIN: [7 3 6 1 8 2] TEST [0 9 5 4]
TRAIN: [9 8 5 1 3 4] TEST [0 6 7 2]
TRAIN: [1 3 2 0 7 5] TEST [6 4 9 8]
TRAIN: [5 9 0 3 7 1] TEST [4 6 8 2]


#### StratifiedShuffleSplit

In [161]:
target = np.array([0]*5 + [1]*5)
print(target)

[0 0 0 0 0 1 1 1 1 1]


In [178]:
stratifiedShuffleSplit = model_selection.StratifiedShuffleSplit(4, test_size=0.2)

In [179]:
for train_index, test_index in stratifiedShuffleSplit.split(X, target):
    print('TRAIN:', train_index, 'TEST', test_index)

TRAIN: [8 6 7 0 3 9 4 2] TEST [1 5]
TRAIN: [1 2 0 6 4 9 5 8] TEST [7 3]
TRAIN: [1 5 2 9 6 7 0 3] TEST [8 4]
TRAIN: [4 2 9 6 3 1 7 5] TEST [8 0]


#### Leave-One-Out

In [174]:
leaveOneOut = model_selection.LeaveOneOut()

In [183]:
for train_index, test_index in leaveOneOut.split(X):
    print('TRAIN:', train_index, 'TEST', test_index)

TRAIN: [1 2 3 4 5 6 7 8 9] TEST [0]
TRAIN: [0 2 3 4 5 6 7 8 9] TEST [1]
TRAIN: [0 1 3 4 5 6 7 8 9] TEST [2]
TRAIN: [0 1 2 4 5 6 7 8 9] TEST [3]
TRAIN: [0 1 2 3 5 6 7 8 9] TEST [4]
TRAIN: [0 1 2 3 4 6 7 8 9] TEST [5]
TRAIN: [0 1 2 3 4 5 7 8 9] TEST [6]
TRAIN: [0 1 2 3 4 5 6 8 9] TEST [7]
TRAIN: [0 1 2 3 4 5 6 7 9] TEST [8]
TRAIN: [0 1 2 3 4 5 6 7 8] TEST [9]
