# Bias-Variance tradeoff

Предположим, в рамках нашей модели $y$ раскладывается на $f(x)$ и случайный шум $\epsilon$

$$y = f(x) + \epsilon$$

ML-модель строит оценку $\hat{y}|X$ по формуле, зависящей от наблюдаемого сэмпла данных. $\hat{y}$ зависит от реализации $x \in X$ и является сама случайной величиной.

Если берем модель линейной регрессии ($\epsilon$ = неубираемый независимый шум), то там оценка имеет конкретный вид $\hat{f} = E[y|x]$

Нам бы неплохо получить характеристики этой случайной величины, в частности смещенность и разброс

#### шаг 0

исследуем, как ведет себя отклонение решения $\hat{f}$ от реального значения $y$

$$\text{MSE} = E{[y-\hat{f}]}^2$$

по нашей модели $y$ содержит неубираемый (и независимый) шум $\epsilon$, поэтому его легко выделить в общем разбросе и перейти к более содержательным величинам $\hat{f}$ и $f$, это делается на шаге 1

#### шаг 1
избавляемся от y, в формуле будет фигурировать только $f$ и $\hat{f}$:

$$E{[y-\hat{f}]}^2 = E{[f - \hat{f} + \epsilon]}^2 = \underbrace{E[f-f]^2}_{\text{Model Error}} + \underbrace{2E[f-f]\epsilon}_{\text{Cov}=0} + \underbrace{E{[\epsilon]}^2}_{\text{Noise } \sigma^2}$$

из-за независимости шума, дисперсия аддитивно раскладывается на 
- разброс предсказания $\hat{f}$ относительно реального значения $f$ (не путать с дисперсией)
- случайный шум модели $\epsilon$

#### шаг 2
разброс предсказания неплохо бы разделить на составляющие части: 
- ошибку матожидания, от носительно которого рзбросаны предикты (Bias) 
- ошибку относительно матожидания (Variance)

<img src="img/bias_variance.png" width=300>

для этого добавляем в равенство слагаемое $E\hat{f}$ (средний предикт по всем возможным выборкам), относительно которого делим на 2 слагаемых. 



$$E[f-\hat{f}]^2 = E{\big[(f - E\hat{f}) + (E\hat{f} - \hat{f})\big]}^2 = \underbrace{E[f - E\hat{f}]^2}_{Bias^2} + \underbrace{2E(f-Ef)(E\hat{f}-\hat{f})}_{Cov=0} + \underbrace{E[E\hat{f}-\hat{f}]^2}_{Var(\hat{f})}$$

почти сразу получаем сумму разбросов:
- Bias = размер систематического сдвига предсказания (после всех усреднений)$\hat{f}$
- Cov = 0
- Var = разброс предсказаний относительно своего среднего

почему $Bias^2$ - потому что есть устоявшаяся терминология: смещение оценки $\hat{f}$: $f - E[\hat{f}]$, а здесь она в квадрат вовзодится

матожидание от константы = константа:
$$E[f - E\hat{f}]^2 = [f - E\hat{f}]^2$$

Итого:
$$E\big[ y - \hat{f} \big] = {Bias}^2 + Var + \sigma$$

### Несколько комментариев

по чему берутся все матожидания?
по всем возможным реализациям X

риск формулируется как

$$E_{X}[ \text{MSE}] = E_{X}{\big[{y(x) - \hat{f}(x)}\big]}^2$$

нам важнее не ошибаться там, где больше вероятность X, просто потому, что там больше точек

напомним форму записи
$$E_{X}[F] = \sum_x p(x) \cdot F(x)$$

распределение может быть совместным:
$$E_{X,\epsilon} = \sum_x p(x,\epsilon) \cdot F$$

это как раз наш случай, у нас $\epsilon$ тоже случайное



есть вот такая дурацкая картинка:
<img src="img/aims.png" width=350>

как читать:
- центр мишени = реальная функция $f$ 
- выстрелы = оценки функции $\hat{f}$, полученные как результат применения ML модели над разными сэмплами данных
- чем дальше от центра, тем хуже оценка (выше суммарная ошибка предсказания)

ноль идей, почему она двумерная, логичнее изобразить одномерной - тогда точки можно трактовать либо как результат применения модели на примере одного кейса, либо не ограничивая общности изобразить точкой полный набор данных

но будем считать, что в 2D просто красивее мишень смотрится, а точка - это типа предсказания на 2 кейсах

главный вывод:
- у любой ML-модели есть две важных нативных характеристики: смещенность и разброс относительно разнообразия выборок

эти две характеристики однозначно мапятся на другое абстрактное понятие "сложность" модели

<img src="img/tradeoff_lines.png" width=550>

