## Юнит 5. Основные алгоритмы машинного обучения. Часть I 
### Skillfactory: DSPR-19
### ML-4. Валидация данных и оценка модели 

#### План модуля:

- Разбиение выборки.
- Метрики качества.
- Underfitting и overfitting.
- Дисбаланс выборки.
- Визуализация процесса обучения.

### 4.2. Разбиение выборки


**Разбиение выборки** — это разделение имеющихся данных на несколько частей для проведения процессов обучения и валидации алгоритма МО так, чтобы оба процесса выполнялись на полностью независимых наборах данных.

**Какие бывают выборки:**

- Обучающая — подмножество данных, на котором мы обучаем модель.
- Валидационная — подмножество данных, на котором мы валидируем модель, то есть проверяем промежуточные результаты. Выборка нужна для проверки модели.
- Тестовая — подмножество данных, на котором мы тестируем модель после проверки всевозможных гипотез.

Обучаем на обучающей выборке: модель явно затачивается под обучающую выборку. Валидируем на валидационной и подкручиваем параметры модели: модель неявно затачивается под валидационную выборку. Тестовая выборка имитирует тестирование модели в реальных условиях.

#### Почему не стоит обучать на всей выборке?
Основная цель для нас — это получить модель с хорошей прогностической способностью. Нам не столько важен результат предсказания на нашей выборке (так как на ней нам уже известны все значения признаков), сколько важно уметь предсказывать значения целевой переменной для объектов, которые мы будем исследовать в будущем.

#### Как разбить выборку
**сomplete CV** — полный скользящий контроль
В данном случае оценка строится по всем возможным разбиениям. Важно упомянуть этот метод, однако стоит понимать, что даже при малых размерах длины обучающей выборки число выборки очень большое, и это затрудняет практическое применение данного метода. Полный скользящий контроль используют в теоретических исследованиях или в тех случаях (довольно редких), когда удается вывести вычислительную формулу, позволяющую реализовать вычисления.

К примеру, для метода k ближайших соседней такая формула известна, об этом можно почитать тут. Но все же этот метод разбиения используется на практике крайне редко.

**hold-out** — отложенная выборка
Разбиваем выборку на обучающую, валидационную и, по желанию, на тестовую выборки. Обычно в соотношении 60/40 или 70/30, вместе с тестовой — 60/20/20 или 70/15/15.

Данный метод чаще всего применяется в случае больших датасетов в силу того, что требует значительно меньше вычислительных мощностей, чем другие методы.

Однако важно помнить, что оценка в этом методе сильно зависит от разбиения. Это плохо, так как оценка должна в первую очередь характеризовать сам алгоритм обучения, а не способ разбиения.

**k-fold — cross-validation**, перекрёстная валидация
Разбиваем выборку на k частей.
Повторяем k раз: обучаем на k-1 частях, валидируем на оставшейся части.
Усредняем значения метрики.
Позволяет сделать оценку качества более робастной — устойчивой к помехам.
Чаще всего k имеет значение 10 (или 5 в случае маленьких выборок).

**t×k-fold кросс-валидация**

Процедура выполняется t раз. Обучающая выборка случайным образом разбивается на k непересекающихся, одинаковых по объему частей. Производится k итераций. На каждой итерации происходит k-fold-разбиение.

По сути, такой тип валидации — это k-fold валидация, которая повторяется t раз. Такой способ контроля обладает всеми преимуществами k-fold-валидации, но при этом добавляется возможность увеличивать число разбиений.

**leave-one-out** — отложенный пример
Предельный случай k-fold, при котором k равняется размеру всей выборки:

Выбираем пример для валидации, обучаем на всех остальных.
Выбираем пример для валидации, который ещё не видели, возвращаемся в пункт 1.

Частный случай **leave-P-out**, при котором нужно перебрать все способы выбора P-элементов из выборки.  Большим недостатком данного метода является то, что он очень ресурсозатратен. Однако нельзя утверждать, что он вообще не используется. В некоторых методах обучения вычисление LOO получается заметно ускорить, и его использование становится возможным.

#### Проблемы при разбиении
- Обучение на тестовой выборке.
- В тренировочной и тестовой выборках оказываются данные разной природы.
Пример: при классификации автомобилей в тренировочную выборку попали примеры с одними типами двигателей, а в тестовую — с другими.
- В тренировочной и тестовой выборках оказываются примеры со схожими признаками.
Пример: при обучении модели предсказывают пол, разные фотографии одного и того же человека попадают в разные выборки.

### Реализация в Python
Для разбиения выборки в Python есть специальная функция test_train_split из библиотеки Scikit-learn:




In [1]:
from sklearn.model_selection import train_test_split

После этого мы должны обозначить нашу зависимую переменную (Y) и независимые (X) и с помощью этой функции создать обучающую и тестовую выборки:

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, train_size=0.65,test_size=0.35, random_state=101)


_train_size_ — аргумент, отвечающий за размер обучающей выборки (доля).

_random_state_ является необязательным аргументом. Но дело в том, что разбиение каждый раз будет разным. Если задать явным образом значение random_state, то генерируемые псевдослучайные величины будут иметь одни и те же значения при каждом запуске алгоритма.

Для кросс-валидации также есть специальные функции. Например, ниже пример k-fold c двумя разбиениями на двух фолдах:

In [None]:
from sklearn.model_selection import KFold 
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]]) 
y = np.array([1, 2, 3, 4]) 
kf = KFold(n_splits=2)  #реализация разбиения
kf.get_n_splits(X) #возвращает количество разбиений
kf.split(X) #возвращает индексы для разбиения

### 4.3. Практика


### 1. Разбиение выборки
**Разбиение выборки** - это разделение имеющихся данных на несколько частей для проведения процессов обучения и валидации алгоритма машинного обучения таким образом, чтобы оба процесса выполнялись на полностью независимых наборах данных (чтобы при валидации алгоритм работал с полностью незнакомыми данными той же структуры, что и обучающий набор данных).

### Какие бывают выборки
- [Тренировочная выборка](https://developers.google.com/machine-learning/glossary/#training_set) - подмножество данных, на котором тренируется модель
- [Валидационная выборка](https://developers.google.com/machine-learning/glossary/#validation_set) - подмножество данных, на котором модель настраивается ("тюнится", подгоняются параметры)
- [Тестовая выборка](https://developers.google.com/machine-learning/glossary/#test_set) - подмножество данных, на котором тестируется модель после проверки всех возможных гипотез по улучшению модели

### Способы разбиения выборки

1. **hold-out** (отложенная выборка)
1. **k-fold** (cross-validation, перекрестная валидация)
1. **leave-one-out** (отложенный пример)

**hold-out** разбиение — исходная выборка разбивается на обучающую и валидационную (+ опционально на тестовую) части в некотором соотношении.

Крайне рекомендуемая практика — разбивать выборку на **train/valid/test**. Причина выделения независимой тестовой выборки в том, что она не затрагивается до момента разворачивания алгоритма в сервисе и, соответственно, не используется при настройке параметров алгоритма. Тестирование в таком случае происходит честным путем — полученная на тестовой выборке метрика будет максимально близка к фактически посчитанной метрике в "боевых условиях".

Мы в дальнейшем будем разбивать выборку на train/valid для упрощения разбора материала.  

В каком соотношении делать разбиение?
Обычно **на валидационную выборку выделяют по 20-40% данных**. При выделении дополнительно тестовой выборки разбиение можно провести в соотношении **60/20/20%, либо 70/15/15%**. Реальные доли определяются исходя из наличия данных.

Для примера возьмем известный датасет ирисов. Скачать: https://archive.ics.uci.edu/ml/datasets/iris

<img src="./pictures/1-2.jpeg" width="500" align="center">

[Источник изображения](https://medium.com/codebagng/basic-analysis-of-the-iris-data-set-using-python-2995618a6342)

In [4]:
import pandas as pd

In [6]:
iris_data = pd.read_csv('./data/iris.data', 
                        names=['sepal_length', 'sepal_width', 
                               'petal_length', 'petal_width', 'class'])

In [7]:
iris_data.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
