# Переобучение (Overfitting) & Недообучение (Underfitting)

---

**Источники:**

[Переобучение](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9F%D0%B5%D1%80%D0%B5%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5)

[Переобучение](https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D0%B5%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5)

[Underfitting Vs Just right Vs Overfitting in Machine learning](https://www.kaggle.com/getting-started/166897)

[Underfitting vs. Overfitting](https://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html)

[Bias–variance tradeoff](https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff)

[Дилемма смещения–дисперсии](https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D0%BB%D0%B5%D0%BC%D0%BC%D0%B0_%D1%81%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D1%8F%E2%80%93%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8)

[Dilution (neural networks)](https://en.wikipedia.org/wiki/Dilution_(neural_networks))

[Исключение (нейронные сети)](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_(%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8))

[Decision tree pruning](https://en.wikipedia.org/wiki/Decision_tree_pruning)

[Why is Bias-Variance Tradeoff important after all?](https://data-enigma.co/es/2021/02/03/why-is-bias-variance-tradeoff-important-after-all/)

---

## Переобучение (overfitting) и Недообучение (underfitting)

**Переобучение (англ. overfitting)** — негативное явление, возникающее, когда алгоритм обучения вырабатывает предсказания, которые слишком близко или точно соответствуют конкретному набору данных и поэтому не подходят для применения алгоритма к дополнительным данным или будущим наблюдениям.

**Недообучение (англ. underfitting)** — негативное явление, при котором алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.

<img src="images/plot_underfitting_overfitting.png" width=1000>

## Кривые обучения

**Кривая обучения** — графическое представление того, как изменение меры обученности (по вертикальной оси) зависит от определенной единицы измерения опыта (по горизонтальной оси). 

Например, в примерах ниже представлена зависимость средней ошибки от объема датасета.

### Кривые обучения при переобучении

При переобучении небольшая средняя ошибка на обучающей выборке не обеспечивает такую же малую ошибку на тестовой выборке.

<img src="images/high_variance_learning_curve.png" width=450>

### Кривые обучения при недообучении

При недообучении независимо от объема обучающего датасета как на обучающей выборке, так и на тестовой выборке небольшая средняя ошибка не достигается.

<img src="images/high_bias_learning_curve.png" width=450>

## High variance и high bias

**Bias (Смещение)** — ошибка неверных предположений в алгоритме обучения. Высокий bias может привести к недообучению.

**Variance (Дисперсия)** — ошибка, вызванная большой чувствительностью к небольшим отклонениям в тренировочном наборе. Высокая дисперсия может привести к переобучению.

<img src="images/bias_variance.jpg" width=400>

При использовании нейронных сетей **variance** увеличивается, а **bias** уменьшается с увеличением количества скрытых слоев.

Для устранения **high variance** и **high bias** можно использовать смеси и ансамбли.

Например, можно составить ансамбль (boosting) из нескольких моделей с высоким bias, и получить модель с небольшим bias.

В другом случае при bagging соединяются несколько моделей с низким bias, а результирующая модель позволяет уменьшить variance.

## Дилемма bias-variance / Дилемма смещения–дисперсии / Bias–variance tradeoff

**Дилемма bias–variance** — конфликт в попытке одновременно минимизировать bias и variance, тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого.

При небольшой сложности модели наблюдаем high bias. При усложнении модели bias уменьшается, но variance увеличится, что приводит к проблеме high variance.

<img src="images/bias_variance_tradeoff.png" width=550> <img src="images/bias_variance_tradeoff_2.png" width=500>

## Возможные решения при переобучении

- Увеличение количества данных в наборе.
- Уменьшение количества признаков (features).
- Уменьшение сложности модели (высота дерева, степень полинома, ...).
- Добавление регуляризации / увеличение коэффициента регуляризации.
    - L1 / L2 / Elastic Net.
    - Ранняя остановка ([early stopping](https://en.wikipedia.org/wiki/Early_stopping))
    - Dilution/Dropout (NNs).
- Перекрёстная проверка (Cross-validation).
- Decision tree pruning.

## Возможные решения при недообучении

- Добавление новых признаков (features).
- Использование более сложных моделей (ансамбли, высота дерева, степень полинома, ...).
- Уменьшение коэффициента регуляризации.
- Перепроверить выбросы (outliers).

<img src="images/fitting.png" width=800>