# Кросс-валидация

In [2]:
from sklearn import model_selection, datasets
import numpy as np

## Разовое разбиение данных на обучение и тест с помощью train_test_split

In [3]:
#Загрузим готовый датасет с цветками ириса
iris = datasets.load_iris()

In [5]:
#Принимает: набор данных iris.data, набор меток классов iris.target; 30% на объектов на тестовую выборку и 70 на обучающую
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(iris.data, iris.target, test_size=0.3)

In [7]:
#Убедимся, что тестовая выборка действительно составляет 0,3 от всех данных
float(len(test_labels))/len(iris.data)

0.3

In [14]:
#Смотрим на размеры выборок для обучения и для тестирования
print('Размер обучающей выборки: {} объектов \n Размер тестовой выборки: {} объектов'.format(len(train_data), len(test_data)))

Размер обучающей выборки: 105 объектов 
 Размер тестовой выборки: 45 объектов


In [16]:
print('Обучающая выборка:\n', train_data[:5])
print('\nТестовая выборка: ', test_data[:5])

Обучающая выборка: 
 [[ 7.3  2.9  6.3  1.8]
 [ 6.8  3.2  5.9  2.3]
 [ 5.2  3.5  1.5  0.2]
 [ 4.8  3.   1.4  0.3]
 [ 5.5  3.5  1.3  0.2]]

Тестовая выборка:  [[ 5.4  3.9  1.3  0.4]
 [ 6.8  3.   5.5  2.1]
 [ 5.7  2.8  4.5  1.3]
 [ 6.5  3.   5.2  2. ]
 [ 5.   3.3  1.4  0.2]]


In [21]:
print('Метки классов на обучающей выборке:\n', train_labels)
print('\nМетки классов на тестовой выборке: ', test_labels)

Метки классов на обучающей выборке:
 [2 2 0 0 0 0 0 2 2 1 0 1 2 2 0 2 2 1 2 1 2 2 0 1 0 1 1 1 2 0 2 2 1 0 0 1 2
 0 1 1 0 2 2 2 1 2 2 1 2 1 0 0 1 0 0 1 2 2 1 1 1 2 1 0 2 0 0 2 0 1 0 0 0 0
 2 1 2 2 2 2 2 1 1 1 0 1 2 1 1 1 2 1 0 0 1 0 1 2 0 0 0 0 1 2 0]

Метки классов на тестовой выборке:  [0 2 1 2 0 0 2 1 1 2 1 0 0 1 0 2 1 1 2 1 2 0 0 0 0 0 2 0 1 0 2 2 1 1 2 0 1
 0 1 2 2 1 1 2 1]


## Стратегии проведения кросс-валидации

Валидация нужна для того, чтобы понять, насколько успешно можно применять ту или иную модель классификации

1) $\textbf{Cтратегия KFold}$

Используется в ситуациях, где целью является предсказание, и хотелось бы оценить, насколько предсказывающая модель способна работать на практике.

В этом случае исходый набор данных разбивается на $k$ одинаковых по размеру блоков. Из $k$ блоков один оставляется для тестирования модели, а оставшиеся $(k-1)$ блоков используются как тренировочный набор. Процесс повторяется $k$ раз, и каждый из блоков используется один раз как тестовый набор. Получаются $k$ результатов, по одному на каждый блок, они усредняются или комбинируются каким-либо другим способом и выдают одну оценку

В качестве аргументов принимается: 
- количество объектов, по которым происходит разбиение;
- количество блоков (Fold'ов), которое нам нужно

Возвращает: индексы из обучения, индексы из теста, с помощью которых далее можно самостоятельно разбить выборку

In [24]:
# Хотим разбить 10 объектов на 5 Fold'ов
for train_indices, test_indices in cross_validation.KFold(10, n_folds=5):
    print(train_indices, test_indices)

# Каждый fold содержит 2 объекта -> обучающая выборка состоит из 8 объектов, тестовая - из двух.

[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]


In [33]:
#Если хотим перемешать элементы, надо указать shuffle=True
for train_indices, test_indices in cross_validation.KFold(10, n_folds=2, shuffle=True):
    print(train_indices, test_indices)

[0 1 2 3 7] [4 5 6 8 9]
[4 5 6 8 9] [0 1 2 3 7]


In [31]:
#Чтобы зафиксировать случайное разбиение, надо применить random_state=1
for train_indices, test_indices in cross_validation.KFold(10, n_folds=2, shuffle=True, random_state=1):
    print(train_indices, test_indices)

[1 3 5 7 8] [0 2 4 6 9]
[0 2 4 6 9] [1 3 5 7 8]
