# Underfitting и overfitting (неодобучение и переобучение)

**Переобучение (overfitting)** — проблема, при которой алгоритм чувствителен к незначительным колебаниям в данных в процессе обучения. Из-за этого алгоритм выучивает обучающий набор данных.

Как избавиться от переобучения

Отложенная выборка (hold-out)<br />
k-fold валидация или leave-one-out валидация<br />
Уменьшение сложности модели<br />
Регуляризация<br />
Добавление данных

**Недообучение (underfitting)** — проблема, при которой алгоритм недостаточно хорошо изучил данные и пропускает важные зависимости между признаками. В случае недообучения мы даже на обучающих данных не можем достичь приемлемых оценок для модели.

Почему может возникать недообучение?

Неправильно подобранный алгоритм обучения<br />
Неадекватная функция ошибки<br />
Не настроены или неправильно настроены гиперпараметры

Как избавиться от недообучения?

Усложнение модели<br />
Ослабевание параметров регуляризации.

Чтобы лучше разобраться и лучше понять смысл переобучения и недообучения, рассмотрим иллюстративно на известных нам методах.

Начнем с линейной регрессии:

![Screenshot_152.png](attachment:Screenshot_152.png)

На данной картинке красными крестиками обозначены исходные данные, а синие линии — аппроксимация исходных данных (предсказание).

На левом рисунке мы можем видеть, что простая линейная функция плоха для этих данных: там явно нелинейная зависимость. Поэтому модель будет не очень качественной.

На средней картинке оптимальный для нас вариант: функция не идеально подгоняется под все данные, но хорошо описывает закономерность.

А на правой картинке можно наблюдать слишком сильную подгонку под обучающие данные, что приведет к низкой прогностической способности на новых данных.

Теперь рассмотрим иллюстрацию недообучения и переобучения в случае классификации:

![Screenshot_153.png](attachment:Screenshot_153.png)

На левой картинке мы можем видеть плохую классификацию. Модель слишком проста и некачественно разделяет  объекты по классам.

На центральной картинке практически идеальная ситуация: выбрана более сложная модель, которая хорошо разделяет классы.

А вот на правой картинке — явный пример переобучения: выбрана очень сложная модель, которая максимально подогнана под обучающие данные, однако на новых данных она скорее всего будет сильно ошибаться.

Важной характеристикой алгоритма МО является обобщающая способность — способность использовать знания, полученные при обучении, на новых данных. Обобщающая способность часто страдает из-за недообучения и переобучения, чтобы исправить это, нужно решать дилемму Bias-variance tradeoff.

Когда мы говорим про переобучение, мы сталкиваемся с высокой вариативностью данных. При недообучении мы наблюдаем высокое смещение: алгоритм недостаточно изучил данные и пропустил зависимости. В теоретическом уроке мы уже говорили, как избавиться от переобучения и неодообучения.

Рассмотрим пример обучения дерева решений с датасетом Титаника.

В качестве алгоритма возьмем один из методов классификации, который будет рассмотрен далее — решающее дерево. По сути, дерево решений — это метод представления решающих правил в иерархической структуре. Например, дерево решений для задачи кредитного скоринга будет выглядеть следующим образом:

![Screenshot_154.png](attachment:Screenshot_154.png)

Более подробно мы разберем этот метод далее, а пока давайте попробуем применить этот алгоритм на практике. На данный момент для нас важнее аспекты валидации, поэтому тонкости метода не имеют значения.