# Sklearn (Версия Python 3)

## sklearn.cross_validation

In [1]:
from sklearn import cross_validation, datasets
import numpy as np

In [2]:
iris = datasets.load_iris()

In [3]:
train_data, test_data, train_labels, test_labels = cross_validation.train_test_split(iris.data, iris.target, test_size=0.3)

Проверим, что тестовая выборка действительно составляет 30% от данных

In [4]:
float(len(test_labels)) / len(iris.data)

0.3

In [5]:
print('Размер обучающей выборки: {}\nРазмер тестовой выборки: {}'.format(len(train_data), len(test_data)))

Размер обучающей выборки: 105
Размер тестовой выборки: 45


### Стратегии проведения кросс-валидации 

#### KFold

In [7]:
for train_indices, test_indices in cross_validation.KFold(10, n_folds=5):
    print(train_indices, test_indices)

[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]


Перемешаем выборку

In [12]:
for train_indices, test_indices in cross_validation.KFold(10, n_folds=2, shuffle=True):
    print(train_indices, test_indices)

[0 3 5 7 8] [1 2 4 6 9]
[1 2 4 6 9] [0 3 5 7 8]


Если мы хотим, чтобы результаты работы были воспроизводимы, необходимо явно указать параметр random_state

In [16]:
for train_indices, test_indices in cross_validation.KFold(10, n_folds=2, shuffle=True, random_state=1):
    print(train_indices, test_indices)

[1 3 5 7 8] [0 2 4 6 9]
[0 2 4 6 9] [1 3 5 7 8]


#### StratifiedKFold 

В данном варианте кросс-валидации мы сохраняем соотношение классов в обучающей и тестовой подвыборках, поэтому необходимо явно передавать метки классов в функцию

In [24]:
target = np.array([0] * 5 + [1] * 5)
print('Target: {} \n\n'.format(target))

for train_indices, test_indices in cross_validation.StratifiedKFold(target, n_folds=2, shuffle=True, random_state=0):
    print(train_indices, test_indices)

Target: [0 0 0 0 0 1 1 1 1 1] 


[3 4 8 9] [0 1 2 5 6 7]
[0 1 2 5 6 7] [3 4 8 9]


In [27]:
target = np.array([0, 1] * 5)
print('Target: {}\n\n'.format(target))

for train_indices, test_indices in cross_validation.StratifiedKFold(target, n_folds=2, shuffle=True):
    print(train_indices, test_indices)

Target: [0 1 0 1 0 1 0 1 0 1]


[0 1 2 5] [3 4 6 7 8 9]
[3 4 6 7 8 9] [0 1 2 5]


#### ShuffleSplit

Генерирует случайные перестановки

In [31]:
for train_indices, test_indices in cross_validation.ShuffleSplit(10, n_iter=10, test_size=0.2):
    print(train_indices, test_indices)

[4 2 9 7 8 3 6 1] [5 0]
[6 3 5 8 9 1 2 4] [0 7]
[1 9 8 6 4 3 7 5] [2 0]
[1 9 8 4 0 7 2 5] [3 6]
[9 3 4 2 7 6 5 8] [1 0]
[8 0 7 5 4 2 9 1] [3 6]
[5 3 6 1 8 0 4 7] [2 9]
[5 2 7 9 3 8 0 1] [4 6]
[6 2 3 9 7 8 0 5] [4 1]
[8 0 7 1 9 6 2 4] [5 3]


#### StratifiedShuffleSplit 

Генерирует случайные перестановки с заданным соотношением классов в тестовой и обучающей выборках

In [34]:
target = np.array([0, 1] * 5)
print('Target: {}\n\n'.format(target))

for train_indices, test_indices in cross_validation.StratifiedShuffleSplit(target, n_iter=4, test_size=0.2):
    print(train_indices, test_indices)

Target: [0 1 0 1 0 1 0 1 0 1]


[8 2 0 7 9 6 3 5] [1 4]
[0 7 6 3 1 2 5 8] [9 4]
[5 7 2 8 4 6 1 9] [3 0]
[9 8 3 6 0 5 7 2] [4 1]


#### Leave-One-Out

Стратегия, которая позволяет оставить один объект в тесте один раз. Таким образом, выборка состоит всегда из 1 объекта и каждый объект присутствует один раз в тестовой выборке. Удобно использовать, когда имеется небольшая выборка данных

In [35]:
for train_indices, test_indices in cross_validation.LeaveOneOut(10):
    print(train_indices, test_indices)

[1 2 3 4 5 6 7 8 9] [0]
[0 2 3 4 5 6 7 8 9] [1]
[0 1 3 4 5 6 7 8 9] [2]
[0 1 2 4 5 6 7 8 9] [3]
[0 1 2 3 5 6 7 8 9] [4]
[0 1 2 3 4 6 7 8 9] [5]
[0 1 2 3 4 5 7 8 9] [6]
[0 1 2 3 4 5 6 8 9] [7]
[0 1 2 3 4 5 6 7 9] [8]
[0 1 2 3 4 5 6 7 8] [9]
