**Разбиение выборки** — это разделение имеющихся данных на несколько частей для проведения процессов обучения и валидации алгоритма МО так, что оба процесса выполнялись на полностью независимых наборах данных.

Какие бывают выборки:

**Обучающая** — подмножество данных, на котором мы обучаем модель.<br />
**Валидационная** — подмножество данных, на котором мы валидируем модель, то есть, проверяем промежуточные результаты. Выборка нужна для проверки модели.<br />
**Тестовая** — подмножество данных, на котором мы тестируем модель после проверки всевозможных гипотез.<br />

Обучаем на обучающей выборке: модель явно затачивается под обучающую выборку. Валидируем на валидационной и подкручиваем параметры модели: модель неявно затачивается под валидационную выборку. Тестовая выборка имитирует тестирование модели в реальных условиях.

Давайте еще раз повторим, почему нам необходимо разбивать выборку, и почему обучение на всей выборке не является хорошей идеей. 

### Почему не стоит обучать на всей выборке?

**Основная цель для нас** — это получить модель с хорошей прогностической способностью. Нам не столько важен результат предсказания на нашей выборке (так как на ней нам уже известны все значения признаков), сколько важно уметь предсказывать значения целевой переменной для объектов, которые мы будем исследовать в будущем.

Поэтому нам важно проверить, насколько хорошо наша модель сможет сделать предсказание на новой для нее выборке. Вследствие этого мы обучаем ее на одной части выборки, а тестируем ее прогностическую способность на второй, тестовой, которая является для алгоритма новой.

Теперь давайте рассмотрим, какие способы разбиения выборки существуют.

### Как разбить выборку

**сomplete CV — полный скользящий контроль**

В данном случае оценка строится во всем возможным разбиениям. Важно упомянуть этот метод, однако стоит понимать, что даже при малых размерах длины обучающей выборки число выборки очень большое, и это затрудняет практическое применение данного метода. Полный скользящий контроль используют в теоретических исследованиях или в тех случаях (довольно редких), когда удается вывести вычислительную формулу, позволяющую реализовать вычисления.

К примеру, для метода k ближайших соседней такая формула известна, об этом можно почитать тут. Но все же этот метод разбиения используется на практике крайне редко.

**hold-out — отложенная выборка**

Разбиваем выборку на обучающую, валидационную и, по желанию, на тестовую выборки. Обычно в соотношении 60/40 или 70/30, вместе с тестовой — 60/20/20 или 70/15/15.

Данный метод чаще всего применяется в случае больших датасетов в силу того, что требует значительно меньше вычислительных мощностей, чем другие методы.

Однако важно помнить, что оценка в этом методе сильно зависит от разбиения. Это плохо, так как оценка должна в первую очередь характеризовать сам алгоритм обучения, а не способ разбиения.

**k-fold — cross-validation, перекрёстная валидация**

Разбиваем выборку на k частей.<br />
Повторяем k раз: обучаем на k-1 частях, валидируем на оставшейся части.<br />
На каждой итерации валидируем на части данных, на которой ещё не валидировали.<br />
Усредняем значения метрики.<br />
Позволяет сделать оценку качества более робастной — устойчивой к помехам.<br />
Чаще всего k имеет значение 10 (или 5 в случае маленьких выборок).

**t×k-fold кросс-валидация**

Процедура выполняется t раз. Обучающая выборка случайным образом разбивается на k непересекающихся, одинаковых по объему частей. Производится k интераций. На каждой итерации происходит k-fold-разбиение.

По сути, такой тип валидации — это k-fold валидация, которая повторяется t раз. Такой способ контроля обладает всеми преимуществами k-fold-валидации, но при этом добавляется возможность увеличивать число разбиений.

**leave-one-out — отложенный пример**

Предельный случай k-fold, при котором k равняется размеру всей выборки:

Выбираем пример для валидации, обучаем на всех остальных.<br />
Выбираем пример для валидации, который ещё не видели, возвращаемся в пункт 1.<br />

Частный случай leave-P-out, при котором нужно перебрать все способы выбора P-элементов из выборки.  Большим недостатком данного метода является то, что он очень ресурсозатратен. Однако нельзя утверждать, что он вообще не используется. В некоторых методах обучения вычисление LOO получается заметно ускорить, и его использование становится возможным.

### Проблемы при разбиении

Обучение на тестовой выборке.

В тренировочной и тестовой выборках оказываются данные разной природы.

Пример: при классификации автомобилей в тренировочную выборку попали примеры с одними типами двигателей, а в тестовую — с другими.

В тренировочной и тестовой выборках оказываются примеры со схожими признаками.

Пример: при обучении модели предсказывают пол, разные фотографии одного и того же человека попадают в разные выборки.

## Реализация в Python

Для разбиения выборки в Python есть специальная функция test_train_split из библиотеки Scikit-learn:

In [None]:
from sklearn.model_selection import train_test_split

После этого мы должны обозначить нашу зависимую переменную (Y) и независимые (X) и с помощью этой функции создать обучающую и тестовую выборки:

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, train_size=0.65,test_size=0.35, random_state=101)

train_size — аргумент, отвечающий за размер обучающей выборки (доля).

random_state является необязательным аргументом. Но дело в том, что разбиение каждый раз будет разным. Если задать явным образом значение random_state, то генерируемые псевдослучайные величины будут иметь одни и те же значения при каждом запуске алгоритма.

Для кросс-валидации также есть специальные функции. Например, ниже пример k-fold c двумя разбиениями на двух фолдах:

In [None]:
from sklearn.model_selection import KFold 
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]]) 
y = np.array([1, 2, 3, 4]) 
kf = KFold(n_splits=2)  #реализация разбиения
kf.get_n_splits(X) #возвращает количество разбиений
kf.split(X) #возвращает индексы для разбиения

## Практика

Посмотрим на работу hold-out — отложенной выборки на примере датасета с ирисами. Целевая переменная — класс цветка. Загрузим данные с помощью библиотеки Pandas:

In [8]:
import pandas as pd

from sklearn import datasets

iris_data = datasets.load_iris()

iris_data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

У нас есть четыре признака, относящиеся к размерам цветка, и классы. На первом этапе мы разобьём выборку на две части: тренировочную и валидационную, а позже рассмотрим, как добавить тестовую. Воспользуемся методом train_test_split() из библиотеки sklearn:

In [7]:
from sklearn.model_selection import train_test_split

train, valid = train_test_split(iris_data, test_size=0.15, shuffle=True)

print('Размер исходной выборки: {}\nРазмер тренировочной выборки: {}\nРазмер валидационной выборки: {}'
      .format(iris_data.shape, train.shape, valid.shape)
)

KeyError: 1