# Несколько важных слов об усреднении

Ошибка на новых данных состоит из:
1. Шума
2. Смещения (Bias)
3. Разброса (Variance)

**Шум** показывает ошибку "лучшей в Мире" моделисреди остальных. Шум принципиально не устраним, он существует независимо и непредсказуемо.

**Смещение** это отклонение средних ответов нашей модели от ответов лучшей модели. Смещение показывает насколько мы хорошо апроксимируем модель.

**Разброс** это дисперсия нашей модели.

<img src="pict/b-v.png" width="400"/>

**Ремарка**<br>
Существует ряд "обычных" закономерностей, которые нужно помнить при исаользовании моделей:
1. У линейных моделей обычно большое смещение и имеют маленький разброс (плохо востанавливают закономерности); 
2. У решающего дерева обычно низкое смещение и большой разброс (хорошо востанавливаются закономерности); 
3. Прм усреднении деревьев - смещение не меняется, а вот разброс падает 1/N, если N - независимых алгоритмов.

Итак обсуди следующие важные моменты.

**Первое – переобучение (overfitting)** – явление, когда ошибка на тестовой выборке заметно больше ошибки на обучающей. <br>
Это главная проблема машинного обучения: если бы такого эффекта не было (ошибка на тесте примерно совпадала с ошибкой на обучении), то всё обучение сводилось бы к минимизации ошибки на обучении.

**Второе – недообучение (underfitting)** – явление, когда ошибка на обучающей выборке достаточно большая, часто говорят «не удаётся настроиться на выборку». Такой странный термин объясняется тем, что недообучение при настройке алгоритмов итерационными методами (например, в случайном лесу) можно наблюдать, когда сделано слишком маленькое число итераций (слишком мало деревьев), т.е. «не успели обучиться».

**Третье – сложность (complexity)** модели алгоритмов  – оценивает, насколько разнообразно семейство алгоритмов в модели с точки зрения их функциональных свойств (например, способности настраиваться на выборки). Повышение сложности (т.е. использование более сложных моделей) решает проблему недообучения и вызывает переобучение.

<img src="pict/error.png" width="900">



Немного математики. Пусть наша целевая зависимость имеет вид:
$$y(x)= f(x)+\varepsilon, \;\;\; \varepsilon \sim Norm(0,\sigma^2),\; y \sim Norm(f(x),\sigma^2)$$

Построим алгоритм $a=a(x)$ (у нас это многочлен n-степени), посмотрим чему равно математическое ожидание квадрата отклонения ответа алгоритма от истинного значения:

$$E(y-a)=E(y^2-a^2-2ya)= $$
$$ =E(y^2)+E(a^2)-2E(ya)+E(y)^2-E(y)^2+E(a)^2-E(a)^2 =$$
так как $D(y) = E\left(\left(y-E(y)\right)^2\right)= E\left((y-f(x))^2\right) = E\left((f(x)+\varepsilon-f(x))^2\right) = \sigma^2$
$$ = D(y)+ D(a)+E(y)^2+E(a)^2-2E(ya)=$$
так как $E(y) = E(f(x)+\varepsilon = E(f(x))+E(\varepsilon) = E(f(x))= f(x)$ 
$$= D(y)+ D(a)+f(x)^2 + E(a)^2 - 2f(x)E(a) =$$
$$ = \left(E(f(x)-a)\right)^2 + D(y)+ D(a)= $$
$$ = Bias(f(x),a)^2 + \sigma^2 +variance(a)$$



Итак **разбросом** мы назвали дисперсию ответов алгоритмов, а **смещением (bias)** – мат. ожидание разности между истинным ответом и выданным алгоритмом.

Мы получили, что ошибка раскладывается на три составляющие. Первая связана с шумом в самих данных, а вот две остальные связаны с используемой моделью алгоритмов. Понятно, что разброс характеризует разнообразие алгоритмов (из-за случайности обучающей выборки, в том числе шума, и стохастической природы настройки), а смещение – способность модели алгоритмов настраиваться на целевую зависимость. 

Проиллюстрируем это. На риспоказаны различные полиномы первой степени, они настроены на разных обучающих выборках. В точке $x=0.5$ ответы алгоритмов являются случайными величинами, они немного «разбросаны» (есть variance), а также они сильно смещены (есть bias) относительно правильного ответа (который, кстати, даже если нам и известен, то с точностью до шума).

<img src="pict/bias_1.png" width="900">

На рисунке изображены уже полиномы второй степени (настроенные на тех же выборках). В точке $x=0.5$ у них сильно меньше смещение и чуть меньше разброс. Видно, что они совсем неплохо описывают целевую зависимость во всех точках.
<img src="pict/bias_2.png" width="600">

Теперь рассмотрим самую частую иллюстрацию, которую приводят при объяснении разброса и смещения При увеличении сложности модели (например, степени многочлена) ошибка на независимом контроле сначала падает, потом начинает увеличиваться. 

Обычно это связывают с уменьшением смещения (в сложных моделях очень много алгоритмов, поэтому наверняка найдутся те, которые хорошо описывают целевую зависимость) и увеличением разброса (в сложных моделях больше алгоритмов, а следовательно, и больше разброс).

<img src="pict/overfit.png" width="600">

Для простых моделей характерно недообучение (они слишком простые, не могут описать целевую зависимость и имеют большое смещение), для сложных – переобучение (алгоритмов в модели слишком много, при настройке мы выбираем ту, которая хорошо описывает обучающую выборку, но из-за сильного разброса она может допускать большую ошибку на тесте).