# Перекрёстная валидация

В этой тетради мы изучим метод кросс-валидации для оценки производительности 
моделей машинного обучения и понять его преимущества по сравнению  
простым разделением данных на обучающий и тестовый наборы.

***

## Знакомство с кросс-валидацией

Рассмотрим, что из себя вообще представляет кросс-валидация в общих чертах, а затем рассмотрим конкретные интерфейсы, поставляемые фреймворком Scikit-Learn.

Перекрестная валидация - это статистический метод, используемый для оценки и сравнения моделей машинного обучения путем разделения доступных данных на два сегмента: один для обучения модели, а другой для проверки модели. Цель перекрестной проверки - оценить, насколько хорошо модель обобщается на новых данных, и выявить потенциальные проблемы, такие как переобучение.

Можно выделить два типа перекрестной проверки:
* Исчерпывающая перекрестная проверка: Этот метод изучает и тестирует все возможные способы разделения исходной выборки на обучающий и проверочный набор.
* K-кратная перекрестная проверка: При k-кратной перекрестной проверке исходная выборка случайным образом разбивается на $k$ подвыборок одинакового размера. Из $k$ подвыборок одна подвыборка сохраняется в качестве проверочных данных для тестирования модели, а остальные $k - 1$ подвыборок используются в качестве обучающих данных. Затем процесс перекрестной проверки повторяется $k$ раз, причем каждая из $k$ подвыборок используется ровно один раз в качестве данных для проверки.

Таким образом, перекрестная проверка является ценным методом оценки моделей машинного обучения, гарантирующим, что модель хорошо обобщает, а не просто запоминает обучающие данные. Это надежный способ оценить производительность модели на данных, которые модель до этого не видела, и широко используется в машинном обучении.

Перейдём теперь к конкретным методам, которые мы можем применить к нашим данным.

### K-Fold

K-Fold (`KFold`) делит все выборки на $k$ групп выборок, называемые складками (если $k = n$, это эквивалентно стратегии исключения одной выборки), одинакового размера (если это возможно). Функция прогнозирования изучается с $k - 1$ помощью складок, а оставшаяся часть используется для тестирования.

### Stratified K-Fold

Стратифицированный K-Fold - это вариация `KFold`, которая возвращает стратифицированные складки: каждый набор содержит примерно такой же процент образцов каждого целевого класса, как и полный набор.

### Stratified Shuffle Split

Этот метод суть вариация [`ShuffleSplit`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html#sklearn.model_selection.ShuffleSplit), которая возвращает стратифицированные разбиения, т.е. создает разбиения, сохраняя тот же процент для каждого целевого класса, что и в полном наборе.

Подробнее об этих и других методах кросс-валидации можно почитать [здесь](https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-and-model-selection).

Приступим теперь к практическим примерам.

***

## Практические примеры

Посмотрим сейчас, как можно применять вышеописанные методы.

Однако сначала, как обычно, выполним импорты.

In [36]:
from typing import Optional

from numpy import ndarray
from pandas import read_csv
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import StratifiedShuffleSplit

А так же выполним загрузку данных. В этот раз воспользуемся набором данных ирисов Фишера.

In [5]:
iris = read_csv("datasets/iris.csv")

iris.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


Отделим независимые пременные от целевой переменной.

In [16]:
x_iris, y_iris = iris.iloc[:, 1:-1], iris.iloc[:, -1]

### K-Fold

Первым делом рассмотрим процесс работы `KFold`. Предварительно инициализируем модель Случайного леса.

In [39]:
def rate_accuracy(
    x: ndarray,
    y: ndarray,
    title: str, *,
    validator,
    shuffle: Optional[bool] = None,
    n_splits: int,
) -> None:
    random_forest = RandomForestClassifier()
    validator_initialized = validator(n_splits=n_splits)
    if shuffle:
        validator_initialized = validator(n_splits=n_splits, shuffle=True, random_state=52)
    kfold_score = cross_val_score(
        random_forest, x, y, 
        cv=validator_initialized, 
        scoring="accuracy",
    )
    
    print("%s: %0.2f (+/- %0.2f)" % (title, kfold_score.mean(), kfold_score.std() * 2))


rate_accuracy(x_iris, y_iris, "K-Fold accuracy", validator=KFold, shuffle=True, n_splits=5)

K-Fold accuracy: 0.95 (+/- 0.09)


Посмотрим сейчас, как на точность повлияет количество разбиений.

In [40]:
rate_accuracy(
    x_iris, y_iris, "K-Fold accuracy with 15 splits", 
    shuffle=True, validator=KFold, n_splits=15,
)
rate_accuracy(
    x_iris, y_iris, "K-Fold accuracy with 10 splits",
    shuffle=True, validator=KFold, n_splits=10,
)
rate_accuracy(
    x_iris, y_iris, "K-Fold accuracy with 3 splits",
    shuffle=True, validator=KFold, n_splits=3,
)

K-Fold accuracy with 15 splits: 0.95 (+/- 0.12)
K-Fold accuracy with 10 splits: 0.95 (+/- 0.09)
K-Fold accuracy with 3 splits: 0.94 (+/- 0.07)


Как видим, точность выше, когда разбиений больше, однако прямо пропорционально количеству разбиений растёт и отклонение. 

### Stratified K-Fold

Приступим к `StratifiedKFold` и выясним, сильно ли нам поможет стратификация.

In [41]:
rate_accuracy(
    x_iris, y_iris, "Stratified K-Fold accuracy with 15 splits", 
    shuffle=True, validator=StratifiedKFold, n_splits=15,
)
rate_accuracy(
    x_iris, y_iris, "Stratified K-Fold accuracy with 10 splits", 
    shuffle=True, validator=StratifiedKFold, n_splits=10,
)
rate_accuracy(
    x_iris, y_iris, "Stratified K-Fold accuracy with 3 splits", 
    shuffle=True, validator=StratifiedKFold, n_splits=3,
)

Stratified K-Fold accuracy with 15 splits: 0.96 (+/- 0.14)
Stratified K-Fold accuracy with 10 splits: 0.96 (+/- 0.14)
Stratified K-Fold accuracy with 3 splits: 0.94 (+/- 0.07)


В общем, точность не изменилась, но отклонение стало меньше при пятнадцати разбиениях.

### Stratified Shuffle Split

И, наконец, проанализируем результаты, которые нам выдаст `StratifiedShuffleSplit`.

In [42]:
rate_accuracy(
    x_iris, y_iris, "Stratified Shuffle Split accuracy with 15 splits", 
    validator=StratifiedShuffleSplit, n_splits=15,
)
rate_accuracy(
    x_iris, y_iris, "Stratified Shuffle Split accuracy with 10 splits", 
    validator=StratifiedShuffleSplit, n_splits=10,
)
rate_accuracy(
    x_iris, y_iris, "Stratified Shuffle Split accuracy with 3 splits", 
    validator=StratifiedShuffleSplit, n_splits=3,
)

Stratified Shuffle Split accuracy with 15 splits: 0.96 (+/- 0.14)
Stratified Shuffle Split accuracy with 10 splits: 0.95 (+/- 0.10)
Stratified Shuffle Split accuracy with 3 splits: 0.93 (+/- 0.11)


Интересно. В этот раз отклонение не так велико при большем количестве разбиений, однако становится намного сильнее при меньшем их количестве по сравнению с другмими методами.

***