Какие бывают выборки:

1. Обучающая — подмножество данных, на котором мы обучаем модель.
2. Валидационная — подмножество данных, на котором мы валидируем модель, то есть проверяем промежуточные результаты. Выборка нужна для проверки модели.
3. Тестовая — подмножество данных, на котором мы тестируем модель после проверки всевозможных гипотез.

## Как разбить выборку

сomplete CV — полный скользящий контроль
В данном случае оценка строится по всем возможным разбиениям. Важно упомянуть этот метод, однако стоит понимать, что даже при малых размерах длины обучающей выборки число выборки очень большое, и это затрудняет практическое применение данного метода. Полный скользящий контроль используют в теоретических исследованиях или в тех случаях (довольно редких), когда удается вывести вычислительную формулу, позволяющую реализовать вычисления.

К примеру, для метода k ближайших соседней такая формула известна, об этом можно почитать тут. Но все же этот метод разбиения используется на практике крайне редко.

hold-out — отложенная выборка
Разбиваем выборку на обучающую, валидационную и, по желанию, на тестовую выборки. Обычно в соотношении 60/40 или 70/30, вместе с тестовой — 60/20/20 или 70/15/15.

Данный метод чаще всего применяется в случае больших датасетов в силу того, что требует значительно меньше вычислительных мощностей, чем другие методы.

Однако важно помнить, что оценка в этом методе сильно зависит от разбиения. Это плохо, так как оценка должна в первую очередь характеризовать сам алгоритм обучения, а не способ разбиения.

k-fold — cross-validation, перекрёстная валидация
1. Разбиваем выборку на k частей.
2. Повторяем k раз: обучаем на k-1 частях, валидируем на оставшейся части.
3. На каждой итерации валидируем на части данных, на которой ещё не валидировали.
4. Усредняем значения метрики.

Позволяет сделать оценку качества более робастной — устойчивой к помехам.
Чаще всего k имеет значение 10 (или 5 в случае маленьких выборок).

t×k-fold кросс-валидация

Процедура выполняется t раз. Обучающая выборка случайным образом разбивается на k непересекающихся, одинаковых по объему частей. Производится k итераций. На каждой итерации происходит k-fold-разбиение.

По сути, такой тип валидации — это k-fold валидация, которая повторяется t раз. Такой способ контроля обладает всеми преимуществами k-fold-валидации, но при этом добавляется возможность увеличивать число разбиений.

leave-one-out — отложенный пример
Предельный случай k-fold, при котором k равняется размеру всей выборки:

1. Выбираем пример для валидации, обучаем на всех остальных.
2. Выбираем пример для валидации, который ещё не видели, возвращаемся в пункт 1.

Частный случай leave-P-out, при котором нужно перебрать все способы выбора P-элементов из выборки.  Большим недостатком данного метода является то, что он очень ресурсозатратен. Однако нельзя утверждать, что он вообще не используется. В некоторых методах обучения вычисление LOO получается заметно ускорить, и его использование становится возможным.

## Проблемы при разбиении
1. Обучение на тестовой выборке.
2. В тренировочной и тестовой выборках оказываются данные разной природы.
Пример: при классификации автомобилей в тренировочную выборку попали примеры с одними типами двигателей, а в тестовую — с другими.
3. В тренировочной и тестовой выборках оказываются примеры со схожими признаками.
Пример: при обучении модели предсказывают пол, разные фотографии одного и того же человека попадают в разные выборки.

# Реализация в Python

Для разбиения выборки в Python есть специальная функция test_train_split из библиотеки Scikit-learn:

In [1]:
from sklearn.model_selection import train_test_split

После этого мы должны обозначить нашу зависимую переменную (Y) и независимые (X) и с помощью этой функции создать обучающую и тестовую выборки:

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, train_size=0.65,test_size=0.35, random_state=101)

train_size — аргумент, отвечающий за размер обучающей выборки (доля).

random_state является необязательным аргументом. Но дело в том, что разбиение каждый раз будет разным. Если задать явным образом значение random_state, то генерируемые псевдослучайные величины будут иметь одни и те же значения при каждом запуске алгоритма.

Для кросс-валидации также есть специальные функции. Например, ниже пример k-fold c двумя разбиениями на двух фолдах:

In [None]:
from sklearn.model_selection import KFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4])
kf = KFold(n_splits=2)  #реализация разбиения
kf.get_n_splits(X) #возвращает количество разбиений
kf.split(X) #возвращает индексы для разбиения