## Семинар 4
# Тема: Диагностика переобучения модели и борьба с ним на примере решающего дерева

### Переобучение
Переобучение - ситуация, при которой данные из обучающей выборки будут описываться хорошо, а тестовые данные плохо.

Иначе говоря, значения метрик будут хорошими на обучающей выборке, а на тестовой - плохими. 

В ситуации переобучения модель слишком сильно подогоняется под обучающую выборку. Модель необходимо упрощать.

### Выявление переобучения
Выявляют переобучения, вычисляя метрики на:

$\bullet$ обучающих данных

$\bullet$ тестовых данных

Затем сравнивают их значения. Находя метрики на обучающих и тестовых данных, вычислять их нужно используя кросс-валидацию, а не разбиение на две части.

### Кривая проверки
Справиться с переобучением можно уменьшив параметр сложностьи модели. 

Требуется найти оптимальное значение параметра сложности модели, т.е. компромисс между переобучением и недообучением.
Для этого строят, так называемую, кривую проверки (validation_curve), она представляет собой зависимость значения метрики от параметра сложности на обучающих и тестовых данных. Фактически это две кривые. Ситуация переобучения будет, когда расстояние между кривыми большое, т.е. разброс (variance) велик. Ситуация недообучения будет, когда обе кривые слишком далеко от идеального значения метрики, т.е. смещение (bias) от нужного значения (например, единицы в случае метрики accuracy) велико. По графику ищут оптимальное значение параметра сложности, т.е. компромисс между переобучением и недообучением.

Для дерева решений параметром сложности модели будет, например, глубина дерева (max_depth). 

### Кривая заучивания
Второй способ справиться с переобучением - это добавить новые данные, но, т.к. собрать новые данные не такая простая задача, прежде чем это делать следует оценить будет ли эффект от добавления новых данных, т.е. удастся ли уменньшить разброс (variance) при добавлении новых данных. Для этого нужно построить кривую заучивания (learning curve). Кривая заучивания даёт визуальное представление способности модели улучшаться за счет добавления новых образцов.

Импортируем необходимые библиотеки:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.tree import  DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.model_selection import cross_validate

from sklearn.model_selection import validation_curve, learning_curve

### 1. Загрузите датасет `titanic.csv` и выведите первые 5 строк. Отдедите целевую переменную 'Survived' и обозначьте данные за `X`, а целевую переменную за `y`. Выведите их размеры.

### 2. Сделайте 10-блочную перекрёстную проверку (кросс-валидацию) модели DecisionTreeClassifier(random_state=3) с вычислением двух метрик accuracy и F1, используя библиотечную функцию cross_validate. Установите значение параметра return_train_score этой функции True для того, чтобы выводились значения метрик не только на тестовых данных, но и на обучающих тоже. Результаты выведите в виде двух датафреймов, оставив в первом только два столбца со значениями метрики accuracy на обучающих и тестовых данных, а во втором со значениями метрики F1.

### 3. Найдите средние значения метрики accuracy на обучающих и на тестовых данных. Сравните эти значения между собой и сделайте предположение о переобученности модели. Проделайте аналогичные действия со значениями метрики F1.

### 4. Визуализируйте для метрик accuracy и F1 полученные результаты перекрёстной-проверки, написав функцию plot_cv_scores, которая строит значения метрик на обучающих и тестовых данных для каждого блока. Убедитесь по графикам, что имеет место переобучение, т.к. ломаные линии для обучающих и тестовых данных не пересекаются.

### 5. Поборитесь с переобучением в этой задаче, для этого варьируйте значение гиперпараметра max_depth (он является параметром регуляризации для дерева решений) и постройте соответствующую ***кривую проверки***, вычислив необходимые для её построения значения при помощи функции validation_curve. Используйте метрический показатель F1. Глядя на график, определите оптимальное значение  max_depth.

### 6. Сделайте 10-блочную перекрёстную проверку (кросс-валидацию) модели DecisionTreeClassifier с random_state=3 и найденным оптимальным значением max_depth, используя библиотечную функцию cross_validate. Результаты выведите в виде двух датафреймов, оставив в первом только два столбца со значениями метрики accuracy на обучающих и тестовых данных, а во втором со значениями метрики F1. Найдите средние значения метрик accuracy и F1 на обучающих и на тестовых данных. 

### 7. Убедитесь, что переобучение больше нет, построив соответствующие графики при помощи функции plot_cv_scores.

### 8. Постройте ***кривую заучивания***, вычислив необходимые для её построения значения при помощи функции learning_curve. Используйте метрический показатель F1. Глядя на график, сделайте вывод о том, может ли помочь в борьбе с переобучением добавление новых данных.

## Задания для самостоятельного выполнения
1. Загрузите датасет `boston.csv` и выведите первые 5 строк. Отдедите целевую переменную 'MEDV' и обозначьте данные за `X`, а целевую переменную за `y`. Выведите их размеры.
2. Убедитесь, что решается задача регрессии, для этого выведите количество уникальных значений целевой переменной и сравните его с общим количеством наблюдений.
3. Сделайте 7-блочную перекрёстную проверку (кросс-валидацию) модели DecisionTreeRegressor(random_state=0) с вычислением метрики neg_mean_squared_error, используя библиотечную функцию cross_validate. Установите значение параметра return_train_score этой функции True для того, чтобы выводились значения метрик не только на тестовых данных, но и на обучающих тоже. Результаты выведите в виде датафрейма, оставив только два столбца со значениями метрики на обучающих и тестовых данных, но заменив знак каждого значения на противоположный, чтобы вместо метрики neg_mean_squared_error, получалась метрика mean_squared_error.
4. Найдите средние значения метрики mean_squared_error на обучающих и на тестовых данных. Сравните эти значения между собой и сделайте предположение о переобученности модели. 
5. Визуализируйте для метрики mean_squared_error полученные результаты перекрёстной-проверки, используя функцию plot_cv_scores. Убедитесь по графикам, что имеет место переобучение, т.к. ломаные линии для обучающих и тестовых данных не пересекаются. 
6. Поборитесь с переобучением, для этого варьируйте значение гиперпараметра max_depth = [1, 2, 3, 4, 5, 6]  и постройте соответствующую ***кривую проверки***, вычислив необходимые для её построения значения при помощи функции validation_curve. Используйте метрический показатель neg_mean_squared_error. Глядя на график, определите оптимальное значение  max_depth.
7. Сделайте 7-блочную перекрёстную проверку (кросс-валидацию) модели DecisionTreeClassifier с random_state=0 и найденным оптимальным значением max_depth, используя библиотечную функцию cross_validate. Результаты выведите в виде датафрейма, оставив только два столбца со значениями метрики на обучающих и тестовых данных, заменив их знаки. Найдите среднее значение метрики mean_squared_error на обучающих и на тестовых данных. 
8. Убедитесь, что переобучение больше нет, построив соответствующие графики при помощи функции plot_cv_scores.
9. Постройте ***кривую заучивания***, вычислив необходимые для её построения значения при помощи функции learning_curve. Используйте метрический показатель neg_mean_squared_error. Глядя на график, сделайте вывод о том, может ли помочь в борьбе с переобучением добавление новых данных.