<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Overfitting_Underfitting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


### 1. **Пердобучение (Overfitting)**

#### Что это значит?
**Пердобучение** — это явление, при котором модель слишком сильно подстраивается под обучающие данные, включая шум и случайные аномалии. В результате модель плохо обобщает новые, ранее не виденные данные.

#### Признаки пердобучения:
- Высокая точность на обучающей выборке.
- Низкая точность на тестовой или валидационной выборке.
- Модель становится слишком сложной и "запоминает" данные вместо того, чтобы выявлять общие закономерности.

#### Пример:
Представьте, что вы обучаете модель предсказывать цены на дома, но она учитывает даже случайные колебания цен в данных (например, временные скидки). Когда модель сталкивается с новыми данными, она даёт неточные прогнозы.

#### Как бороться с пердобучением?
1. **Регуляризация**: Использование методов, таких как лассо-регрессия или ридж-регрессия.
2. **Уменьшение сложности модели**: Уменьшение числа параметров или глубины дерева решений.
3. **Кросс-валидация**: Проверка модели на разных подмножествах данных.
4. **Добавление данных**: Увеличение размера обучающей выборки для лучшего обобщения.

---

### 2. **Дообучение (Underfitting)**

#### Что это значит?
**Дообучение** — это противоположная проблема: модель слишком простая и не может адекватно описать зависимости в данных. Она плохо работает как на обучающих, так и на тестовых данных.

#### Признаки дообучения:
- Низкая точность на обучающей выборке.
- Низкая точность на тестовой выборке.
- Модель не захватывает важные закономерности в данных.

#### Пример:
Если вы пытаетесь предсказать цены на дома, используя только одну переменную (например, площадь), игнорируя другие важные факторы (расположение, возраст дома и т.д.), то модель будет недообученной.

#### Как исправить дообучение?
1. **Увеличение сложности модели**: Добавление новых параметров, использование более сложных алгоритмов.
2. **Добавление признаков**: Включение дополнительных переменных, которые могут помочь модели лучше описать данные.
3. **Изменение гиперпараметров**: Настройка параметров модели для улучшения её производительности.

---

### 3. **Необучение (No Learning)**

#### Что это значит?
**Необучение** — это ситуация, когда модель вообще не способна обучаться. Это может происходить по разным причинам: отсутствие подходящих данных, неправильная настройка модели или ошибки в реализации.

#### Признаки необучения:
- Модель показывает одинаковые результаты на всех данных (например, всегда предсказывает одно и то же значение).
- Нулевая точность на обучающей и тестовой выборках.
- Отсутствие прогресса в обучении (например, функция потерь не уменьшается).

#### Пример:
Если вы обучаете модель на данных, где целевая переменная случайна (например, метки классов присвоены произвольно), то модель не сможет найти никаких закономерностей.

#### Как исправить необучение?
1. **Проверка данных**: Убедитесь, что данные корректны и содержат полезную информацию.
2. **Выбор подходящей модели**: Убедитесь, что модель способна решать вашу задачу.
3. **Настройка алгоритма**: Проверьте правильность реализации и гиперпараметров.

---

### Сравнение трёх явлений

| **Явление**         | **Описание**                                                                 | **Проблема**                                  | **Как исправить**                              |
|---------------------|-----------------------------------------------------------------------------|-----------------------------------------------|------------------------------------------------|
| **Пердобучение**    | Модель слишком сложная, запоминает шум и аномалии в данных                   | Плохое обобщение на новые данные              | Регуляризация, уменьшение сложности модели     |
| **Дообучение**      | Модель слишком простая, не захватывает важные закономерности                 | Плохая производительность на всех данных      | Увеличение сложности модели, добавление признаков |
| **Необучение**      | Модель вообще не способна обучаться                                         | Отсутствие прогресса в обучении               | Проверка данных, выбор подходящей модели       |

---

### Заключение

- **Пердобучение** возникает, когда модель слишком сложная и запоминает данные.
- **Дообучение** происходит, когда модель слишком простая и не может описать данные.
- **Необучение** — это крайний случай, когда модель вообще не способна обучаться.

Каждая из этих проблем требует своего подхода к решению. Важно правильно выбирать модель, настраивать её гиперпараметры и работать с качественными данными, чтобы избежать этих явлений.




## 1. **График функции потерь (Loss Function)**

Функция потерь показывает, насколько модель ошибается при обучении. Обычно строятся два графика:
- **Обучающая выборка**: Значение функции потерь на обучающих данных.
- **Тестовая/валидационная выборка**: Значение функции потерь на тестовых данных.

### 1.1. Как выглядит график при **переобучении**?
- На графике видно, что:
  - Потери на **обучающей выборке** уменьшаются и становятся очень низкими.
  - Потери на **тестовой выборке** сначала уменьшаются, но затем начинают расти или остаются высокими.
- Это означает, что модель "запоминает" обучающие данные, но плохо обобщает новые данные.

#### Пример:
```
Обучающая выборка: Loss → стремится к 0
Тестовая выборка:   Loss → растёт после определённой эпохи
```

---

### 1.2. Как выглядит график при **недообучении**?
- На графике видно, что:
  - Потери на **обучающей выборке** остаются высокими.
  - Потери на **тестовой выборке** также остаются высокими.
- Это означает, что модель слишком простая и не может описать зависимости в данных.

#### Пример:
```
Обучающая выборка: Loss → остаётся высоким
Тестовая выборка:   Loss → остаётся высоким
```

---

### 1.3. Как выглядит график при **необучении**?
- На графике видно, что:
  - Потери на **обучающей выборке** не уменьшаются.
  - Потери на **тестовой выборке** такие же, как на обучающей.
- Это означает, что модель вообще не обучается, например, из-за ошибок в данных или реализации.

#### Пример:
```
Обучающая выборка: Loss → постоянный (не меняется)
Тестовая выборка:   Loss → такой же, как на обучающей
```

---

## 2. **График точности (Accuracy)**

Точность показывает, насколько хорошо модель предсказывает правильные ответы. График точности аналогичен графику потерь, но отражает обратную зависимость (точность увеличивается, когда потери уменьшаются).

### 2.1. Как выглядит график при **переобучении**?
- На графике видно, что:
  - Точность на **обучающей выборке** стремится к 100%.
  - Точность на **тестовой выборке** достигает максимума, а затем начинает падать.
- Это указывает на то, что модель хорошо работает только на обучающих данных.

#### Пример:
```
Обучающая выборка: Accuracy → стремится к 100%
Тестовая выборка:   Accuracy → растёт, затем падает
```

---

### 2.2. Как выглядит график при **недообучении**?
- На графике видно, что:
  - Точность на **обучающей выборке** остаётся низкой.
  - Точность на **тестовой выборке** также остаётся низкой.
- Это означает, что модель не способна захватить важные закономерности.

#### Пример:
```
Обучающая выборка: Accuracy → низкая (например, 50%)
Тестовая выборка:   Accuracy → такая же, как на обучающей
```

---

### 2.3. Как выглядит график при **необучении**?
- На графике видно, что:
  - Точность на **обучающей выборке** не растёт.
  - Точность на **тестовой выборке** такая же, как на обучающей.
- Это указывает на то, что модель не обучается.

#### Пример:
```
Обучающая выборка: Accuracy → постоянная (например, 10%)
Тестовая выборка:   Accuracy → такая же, как на обучающей
```

---

## 3. **График весов модели (Weights)**

Для некоторых моделей (например, линейной регрессии или нейронных сетей) можно построить графики изменения весов модели во время обучения.

### 3.1. Как выглядит график при **переобучении**?
- Веса модели становятся очень большими (положительными или отрицательными), что указывает на чрезмерную подгонку к данным.

#### Пример:
```
Веса → очень большие значения (например, +1000 или -1000)
```

---

### 3.2. Как выглядит график при **недообучении**?
- Веса модели остаются маленькими или близкими к начальным значениям, что указывает на недостаточную сложность модели.

#### Пример:
```
Веса → маленькие значения (например, около 0)
```

---

### 3.3. Как выглядит график при **необучении**?
- Веса модели практически не меняются, оставаясь равными начальным значениям.

#### Пример:
```
Веса → постоянные значения (например, все равны 0.1)
```

---

## 4. **График предсказаний vs реальных значений**

Этот график показывает, как предсказания модели соотносятся с реальными значениями.

### 4.1. Как выглядит график при **переобучении**?
- Предсказания точно совпадают с обучающими данными, но сильно расходятся с тестовыми данными.

#### Пример:
```
Обучающие данные: идеальное совпадение
Тестовые данные:   большой разброс
```

---

### 4.2. Как выглядит график при **недообучении**?
- Предсказания значительно отличаются как от обучающих, так и от тестовых данных.

#### Пример:
```
Обучающие данные: большой разброс
Тестовые данные:   такой же разброс
```

---

### 4.3. Как выглядит график при **необучении**?
- Предсказания одинаковы для всех данных, независимо от входных значений.

#### Пример:
```
Все предсказания: одно значение (например, среднее)
```

---

## 5. Заключение

Анализ графиков помогает быстро диагностировать проблемы с моделью:

- **Переобучение**: Модель хорошо работает на обучающих данных, но плохо на тестовых.
- **Недообучение**: Модель плохо работает как на обучающих, так и на тестовых данных.
- **Необучение**: Модель не проявляет прогресса в обучении.

Чтобы исправить эти проблемы, важно правильно выбирать модель, настраивать её гиперпараметры и работать с качественными данными.
