# кросс-валидация

V1==  Кросс-валидация — это методика обучения и оценки модели, которая разбивает данные на несколько секций и обучает несколько алгоритмов на этих секциях. Этот метод повышает надежность модели, удерживая данные вне процесса обучения. Кроме повышения производительности на многих неучитываемых наблюдениях, в средах с ограниченными данными он может быть эффективным инструментом для обучения моделей с меньшим набором данных.

V2== Кросс-валидация или скользящий контроль — процедура эмпирического оценивания обобщающей способности алгоритмов. С помощью кросс-валидации эмулируется наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы. 

Виды кросс-валидации:

1. Валидация на отложенных данных (Hold-Out Validation)<br>
2. Полная кросс-валидация (Complete cross-validation)<br>
3. k-fold кросс-валидация<br>

## k-Fold кросс-Валидация
Перекрестная проверка — это процедура повторной выборки, используемая для оценки моделей машинного обучения на ограниченной выборке данных.<br>
Процедура имеет один параметр, называемый k, который относится к числу групп, на которые должна быть разделена данная выборка данных. <br>
Таким образом, процедура часто называется перекрестной проверкой (кросс-валидацией) k-fold.<br>
При выборе определенного значения для k, оно может быть использовано вместо k в ссылке на модель, например, при k=10,  становится 10-кратной перекрестной проверкой.<br>
Перекрестная проверка в основном используется в прикладном машинном обучении для оценки квалификации модели машинного обучения на не используемых данных. <br>
То есть использовать ограниченную выборку (test sample) для оценки того, как модель будет работать в целом при использовании ее при прогнозирования на данных, не используемых во время обучения модели.<br>
Это популярный метод, потому что он прост для понимания и потому, что это обычно приводит к менее предвзятой или менее оптимистичной оценки качества модели, чем другие методы, такие как обучение/тест.<br><br>
### Общая процедура заключается в следующем:<br>
1.  Перемешайте датасет случайным образом.<br>
2.  Разделите датасет на k-групп.<br>
3.  Для каждой уникальной выборки:<br>
    Возьмите группу в качестве тестирования датасета<br>
    Возьмите остальные группы в качестве выборки учебных данных<br>
    Приготовьте модель на обучаемых выборках и оцените ее на тестовой выборке<br>
    Сохраняйте оценку модели и отбросьте модель<br>
4. Обобщите параметры качества модели с помощью выборки оценки моделей<br>
Важно отметить, что каждое наблюдение в выборке данных назначается отдельной группе и остается в этой группе в течение всего срока действия процедуры. <br>Это означает, что каждому образцу предоставляется возможность использоваться в наборе 1 раз и использоваться для обучения модели k-1 раз.<br>
Отдельно стоит подчеркнуть, чтобы любая подготовка данных до подбора модели происходила на выборке учебных данных, заданных кросс-валидацией в цикле, а не на более широком наборе данных. <br>
Это также относится к любой настройке гиперпараметров.<br> 
Невыполнение этих операций в цикле может привести к утечке данных и оптимистичной оценке качества модели.<br>
Результаты кросс-валидации k-fold часто суммируются со средним итогом качества модели. <br>
Также хорошей практикой является включение показателя дисперсии оценок качества, таких как стандартное отклонение или стандартная ошибка.


### Значение k должно быть тщательно выбрано для выборки данных.<br>

Плохо выбранное значение для k может привести к неправильному представлению о качестве модели, например, к оценке с высокой дисперсией (которая может сильно измениться на основе данных, используемых в соответствии с моделью), или к высокой предвзятости (например, переоценка качества модели).<br>

Существуют три подхода для выбора значения параметра k:<br><br>
    <b>Представитель:</b> Значение для k выбрано таким образом, что каждая группа подборка/тестовая группа данных достаточно велика, чтобы быть статистически репрезентативной для более широкого набора данных.<br>
    <b>k=10:</b> Значение для k фиксируется до 10. Данное число было найдено в ходе экспериментов и обычно приводит к оценке качества модели с низкой предвзятостью небольшую дисперсии.<br>
    <b>k = n:</b> Значение для k фиксируется на n, где n является размером набора данных, чтобы дать каждому тестовой группе возможность быть использованной в наборе данных.<br>

k выбирают обычно 5 или 10, но нет формального правила. По мере того как k становится больше, разница в размере между тестовой выборкой и подмножествами resampling становится мала. <br>
По мере уменьшения этой разницы предвзятость к технике становится меньше.<br>

Если выбрано значение для k, которое не делит датасет равномерно, то одна группа будет содержать оставшуюся часть примеров.<br>
Предпочтительно разделить исходный датасет на группы k с одинаковым количеством данных, так что выборка оценки качества моделей была эквивалентна.


### Рабочий пример

In [3]:
data = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]

Первым шагом является выбор значения для k для определения количества выборок, используемых для разделения данных. Здесь мы будем использовать значение k=3. Это означает, что мы будем тасовать данные, а затем разделить данные на 3 группы. Поскольку у нас есть 6 наблюдений, каждая группа будет иметь равно 2 наблюдения.