# Overfitting

#### концепция баланса между смещением (bias) и дисперсией (variance).

>    Смещение (bias): Отражает, насколько сильно модель упрощает зависимость. Высокое смещение характерно для моделей с низкой сложностью, которые не могут адекватно описать сложные зависимости в данных. Смещение  — это систематическая ошибка модели, которая возникает из-за её неспособности точно отразить сложные зависимости в данных. Это приводит к тому, что предсказания модели регулярно отклоняются от истинных значений в одну сторону, что связано с чрезмерным упрощением (или недообучением).

>    Дисперсия (variance): Характеризует, насколько модель чувствительна к изменениям в обучающей выборке. Высокая дисперсия свойственна сложным моделям, которые могут слишком точно подогнать данные и переобучиться.


```Переобучение возникает тогда, когда модель имеет низкое смещение, но высокую дисперсию — она слишком хорошо подстраивается под обучающие данные, но плохо справляется с новыми.```

## Необходимость регуляризации

Регуляризация — это важный метод борьбы с переобучением, который помогает уменьшить дисперсию модели, не увеличивая её смещение слишком сильно. Основная идея регуляризации заключается в том, чтобы контролировать сложность модели, предотвращая её чрезмерную адаптацию к обучающей выборке. Регуляризация вводит дополнительные ограничения на параметры модели, что помогает снизить вероятность переобучения.

В математическом смысле регуляризация заключается в добавлении дополнительных членов в функцию потерь, которые штрафуют модель за слишком большие значения параметров. Это заставляет модель выбирать более "простые" решения, которые лучше обобщают данные.

Большие веса делают модель слишком зависимой от отдельных признаков, усиливая их влияние на предсказания. Это приводит к тому, что модель лучше запоминает обучающую выборку, включая её шум, вместо того, чтобы находить общие закономерности, что и вызывает переобучение.

Регуляризация штрафует за слишком большие веса!

Регуляризация особенно полезна, когда модель имеет много параметров или когда доступно ограниченное количество данных. В таких случаях регуляризация помогает снизить риск того, что модель начнёт подстраиваться под случайные шумы.

## Обобщающая способность модели
> **Обобщающая способность** описывает, насколько хорошо модель может предсказывать данные, которые она не видела во время обучения.
> Основная цель **регуляризации** — улучшить обобщающую способность модели

## Типы регуляризации в машинном обучении
> Суть регуляризации заключается в добавлении штрафов к функции потерь модели, что предотвращает её излишнюю сложность и подгонку под случайные шумы в данных.

## 1. Регуляризация L2 (Ridge)

**L2-регуляризация** — это один из самых популярных методов регуляризации, который также известен как **гребневая регрессия (Ridge)**. В L2-регуляризации к функции потерь модели добавляется штраф, пропорциональный сумме квадратов весов параметров модели. Это позволяет ограничить значения параметров модели и предотвращает их чрезмерный рост.

Основная идея L2-регуляризации заключается в том, что мы стремимся минимизировать не только ошибку модели, но и величину её параметров. Это предотвращает чрезмерную подгонку модели под данные.

$$L(\theta) = \frac{1}{n}\sum_{i=1}^n (y_i - \widehat{y_i})^2 + \lambda \sum_{j=1}^m \theta^2_j$$
$\lambda$ — это коэффициент регуляризации, который контролирует силу регуляризации,\
$\theta_j$ — это веса модели.

#### **Преимущества:**

- L2-регуляризация хорошо работает, когда все признаки вносят вклад в предсказание, но требуется контролировать их вес.

- Способствует созданию модели, которая устойчива к шуму в данных.

#### **Недостатки:**

- Веса параметров уменьшаются, но никогда не обнуляются, что может быть неэффективно для задач с избыточными признаками.


## 2. Регуляризация L1 (Lasso)

**L1-регуляризация** или **Lasso** (**Least Absolute Shrinkage and Selection Operator**) также добавляет штраф к функции потерь, но вместо квадратов параметров модель штрафуется за абсолютные значения весов. Это приводит к тому, что некоторые параметры могут стать равными нулю, effectively excluding certain features.

$$L(\theta) = \frac{1}{n}\sum_{i=1}^n (y_i - \widehat{y_i})^2 + \lambda \sum_{j=1}^m |\theta_j|$$
$\lambda$ — это коэффициент регуляризации, который контролирует силу регуляризации,\
$\theta_j$ — это веса модели.

```Важное отличие от L2-регуляризации заключается в том, что L1-регуляризация способствует занулению некоторых весов, что приводит к отбору признаков.```

#### **Преимущества:**

- L1-регуляризация эффективно справляется с задачами, где есть избыточные или неинформативные признаки, так как она стремится занулять их вес.
- Позволяет сделать модель более интерпретируемой за счёт сокращения числа используемых признаков.

#### **Недостатки:**

- L1-регуляризация может плохо работать в ситуациях, когда существует несколько признаков с похожими уровнями важности. В таких случаях она может случайно занулять один из полезных признаков.


## 3. Elastic Net

**Elastic Net** — это метод регуляризации, который комбинирует L1 и L2-регуляризацию. Идея Elastic Net заключается в том, чтобы одновременно учитывать как штраф за абсолютные значения весов (L1), так и за их квадраты (L2). Это даёт более гибкую настройку модели, позволяя извлекать лучшее из обоих методов.
$$L(\theta) = \frac{1}{n}\sum_{i=1}^n (y_i - \widehat{y_i})^2 + \lambda_1 \sum_{j=1}^m |\theta_j| + \lambda_2 \sum_{j=1}^m \theta^2_j$$
$\lambda_1$ и $\lambda_2$ — это коэффициенты регуляризации, которые контролируют долю каждого из штрафов.\
$\theta_j$ — это веса модели.

#### **Преимущества:**

- Сочетает преимущества L1 и L2-регуляризаций.
- Работает лучше L1-регуляризации при наличии множества коррелированных признаков.

#### **Недостатки:**

- Требуется подбор двух гиперпараметров ($\lambda_1$ и $\lambda_2$), что усложняет настройку модели.
