# k-блочная проверка
Это статистический метод оценки обобщающей способности, который является более устойчивым и основательным, чем разбиение данных на обучающий и тестовые наборы.

В перекрестной проверке данные разбиваются несколько раз и строятся несколько моделей. Например, если k=5, то все данные разбиваются на 5 частей, затем поочередно строится **пять моделей**: сначала первая модель обучается на 2-5 блоках, а в качестве тестовой выборки использует 1й блок; затем происходит обучение второй модели по тому же принципу (1,3,4,5 блоки в качестве обучающих и 2 в качестве тестового) и т.д.

В итоге построено 5 моделей одинаковых (по параметрам) моделей, но обученных на разных выборках. Можно сравнить качество модели для каждого разбиения или посмотреть на среднее качество
![image.png](attachment:image.png)

In [10]:
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X, y = cancer.data, cancer.target
tree = DecisionTreeClassifier()
cross_v1 = cross_val_score(tree, X, y)
print('Правильность на каждом блоке: \n', cross_v1)
print('Средняя правильность: ', cross_v1.mean())

Правильность на каждом блоке: 
 [0.90350877 0.92105263 0.92982456 0.93859649 0.91150442]
Средняя правильность:  0.9208973761838225


Если разброс сильный, то это означает, что модель сильно зависит от конкретных блоков (что может быть вызвано недостатком данных).

Цель блочной проверки в том, чтобы оценить обобщающую способность конкретной модели (с конкретными параметрами), "эффективно" обучив её несколько раз.

# k-блочная перекрестная проверка
[ДЛЯ КЛАССИФИКАЦИИ]

В k-блочной проверке не учитывалось распределение внутри данных. Проще говоря, вполне допустима ситуация, когда в разных блоках будут совсем разные классы (например, в первом блоке будут только 1 и 2 класс, а во втором блоке только 2 и 3). По этой причине есть смысл использовать *стратифицированную* перекрестную проверку. Данные разбиваются таким образом, чтобы пропорции классов в каждом блоке совпадали.
![image.png](attachment:image.png)
Пример: если 30% данных относятся к классу 1, 40% - к классу 2 и 30% - к классу 3, то такое же распределение будет в **каждом** блоке.


Чтобы задать перекрестную проверку, необходимо в функции cross_val_score явно указать количество блоков с помощью параметра *cv*

In [20]:
cross_v2 = cross_val_score(tree, X, y, cv=9, scoring='f1_weighted')
print('Правильность на каждом блоке: \n', cross_v2)
print('Средняя правильность: ', cross_v2.mean())

Правильность на каждом блоке: 
 [0.92152614 0.85874704 0.87301587 0.88841009 0.96825397 0.93701669
 0.96825397 0.92151839 0.98419538]
Средняя правильность:  0.9245486158859612


# Другие виды перекрестных проверок
функция cross_val_score позволяет настроить процесс перекрестной проверки с помощью параметра *cv*. 

In [40]:
from sklearn.model_selection import KFold, StratifiedKFold
k_fold = KFold(n_splits=3)
cross_v3 = cross_val_score(tree, X, y, scoring='precision', cv=k_fold)
print('Правильность на каждом блоке: \n', cross_v3)
print('Средняя правильность: ', cross_v3.mean())

Правильность на каждом блоке: 
 [0.87628866 0.96460177 0.96923077]
Средняя правильность:  0.9367070663120294


In [41]:
# обычная кросс-блочная проверка, без учета распределения
from sklearn.datasets import load_iris
iris = load_iris()
print('С новыми данными')
cross_v4 = cross_val_score(tree, iris.data, iris.target,
                            cv=k_fold)
print('Правильность на каждом блоке: \n', cross_v4)
print('Средняя правильность: ', cross_v4.mean())

С новыми данными
Правильность на каждом блоке: 
 [0. 0. 0.]
Средняя правильность:  0.0


In [42]:
# Стратифицированная версия
k_fold = StratifiedKFold(n_splits=3)
cross_v5 = cross_val_score(tree, iris.data, iris.target,
                            cv=k_fold)
print('Правильность на каждом блоке: \n', cross_v5)
print('Средняя правильность: ', cross_v5.mean())

Правильность на каждом блоке: 
 [0.98 0.92 1.  ]
Средняя правильность:  0.9666666666666667


**Исключение по одному (Leave-one-out)** - k-блочная проверка, в которой каждый блок - это отдельный пример. Такая проверка полезна для небольших данных и может дать хороший результат

In [33]:
from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
print(f'Количество точек данных в датасете: {len(iris.data)}')
cross_v6 = cross_val_score(tree, iris.data, iris.target,
                          scoring='f1_micro', cv=loo)
print(f'Количество проверок(моделей): {len(cross_v6)}')
print(cross_v6.mean())

Количество точек данных в датасете: 150
Количество проверок(моделей): 150
0.9466666666666667


**Случайные перестановки при разбиении** - каждый раз датасет разбивается на 3 набора данных: train, validation, unused. Разбиения повторяются n_iter раз

In [39]:
from sklearn.model_selection import ShuffleSplit, StratifiedShuffleSplit
# 70% тренировочный, 30% тестовый, 10 разбиений 
shuf = ShuffleSplit(train_size=.7, test_size=.3, n_splits=10)
cross_v7 = cross_val_score(tree, X, y, scoring='f1',
                          cv=shuf)
print('Случайная перекрестная кросс-валидация: ', cross_v7.mean())

# стратифицированный набор
shuf = StratifiedShuffleSplit(train_size=.7, test_size=.3, n_splits=10)
cross_v7 = cross_val_score(tree, X, y, scoring='f1',
                          cv=shuf)
print('Случайная перекрестная кросс-валидация: ', cross_v7.mean())

Случайная перекрестная кросс-валидация:  0.9298528251887616
Случайная перекрестная кросс-валидация:  0.9352557271763529


**Использование групп при перекрестной проверке** - метод, позволяющий учитывать повторяющиеся взаимосвязанный группы в датасете. Например, если стоит задача распознавания эмоций по фотографии, при этом имеет выборка из 100 фотографий, на которых каждый человек сфотографирован несколько раз с разными эмоциями. Цель заключается в том, чтобы построить классификатор для *новых* данных. По этой причине разумно распределить данные для обучения так, чтобы в тренировочном и тестовом наборе не было лиц одних и тех же людей (потому что так модель будет легко предсказывать их)

In [53]:
from sklearn.model_selection import GroupKFold
from sklearn.datasets import make_blobs
groups = [0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 1, 1]
grp_cv = GroupKFold(n_splits=3)
X_blob, y_blob = make_blobs(n_samples=len(groups), random_state=1)
cross_v8 = cross_val_score(tree, X_blob, y_blob, groups=groups,
                          cv=grp_cv)
print(cross_v8.mean())

0.9523809523809524


# Решетчатый поиск