# Композиции моделей

## Неустойчивость деревьев 
Модель должна оставаться устойчивой, если обучающая выборка несильно меняется (например, если выбросить из обучающей выборки 10% данных).

<img src = 'images/ensembles1.png'>

Одиночные деревья - неустойчивы. Разделяющая поверхность сильно меняется при небольшом изменении обучающей выборки. 

Можно попробовать построить несколько немного разных моделей и усреднить результат (как учет погрешности в физическом эксперименте).
### Композиция (ансамбль) моделей
Имеется N деревьев $b_1(x), ..., b_N(x)$, объединим их через голосование большинством (majority vote):
$$a(x)=argmax_{y \in Y} \sum _{n=1} ^N [b_n(x)=y]$$
_За какой класс голосует большинство деревьев_

<img src = 'images/ensembles2.png'>

Построим два ансамбля деревьев и сравним (по 10 деревьев в каждом):


<img src = 'images/ensembles3.png'>
Почти нет отличий, ансамбли (усреднение моделей) - устойчивы

### Классификация
$b_1(x), ..., b_N(x)$ - базовые модели

Каждая базовая модель хотя бы немного лучше случайного угадывания

Композиция: голосование по большинству (majority vote) $$a_N(x)=argmax_{y \in Y} \sum _{n=1} ^N [b_n(x)=y]$$
Выдаем тот класс, за который проголосовало больше всего моделей


### Регрессия
$b_1(x), ... , b_N(x)$ - базовые модели

Каждая базовая модель хотя бы немного лучше случайного угадывания

Композиция: усреднение

$$a_N(x) = \frac {1}{N} \sum _{n=1} ^N b_n(x)$$

## Базовые модели
- Как на одной выборке построить N различных моделей?
- Вариант 1: обучить их независимо на разных подвыборках (чтобы каждая модель получалась немного другой, параллельно)
- Вариант 2: обучать последовательно для корректировки ошибок (каждая следующая модель корректирует ошибки предыдущей, последовательно)

Бустинг - вариант 2


Бэггинг - вариант 1

# Bagging (bootstrap aggregating)
- базовые модели обучаются независимо
- каждая обучается на подмножестве обучающей выборки
- подмножество выбирается с помощью бутстрапа

### Бутстрап (подвыборка по объектам)
- выборка с возвращением
- берем $l$ элементов из $X$
- Пример: $x_1, x_2, x_3, x_4 -> {x_1, x_2, x_2, x_4}$
- В подвыборке будет $l$ объектов, из них около 63.2% уникальных
- Если объект входит в выборку несколько раз, то это можно представить как повышение его веса (если ошиблись на объекте, который попал в выборку 2 раза, то в функционале ошибки штраф удваивается)

# Случайные подпространства (подвыборка по признакам)
- выбираем случайное подмножество признаков
- обучаем модель только на них
- недостаток: признаки могут быть не равнозначными (могут иметься очень важные признаки, без которых невозможно построить разумную модель, золотой признак)



Можно комбинировать разные виды рандомизации
- бэггинг (случайная подвыборка)
- случайные подпространства (случайное подмножество признаков)

Матрица объекты-признаки:


<img src='images/ensembles4.png'>

# Смещение и разброс моделей
Разложение ошибки метода обучения на смещение и разброс

$$L(\mu)= E_{x,y}[(y-E[y|x])^2] + E_x[(E_X[\mu(X)]-E[y|x])^2] + E_x[E_X[\mu(X) - E_X[(\mu(X)])^2]]$$

$E_{x,y}[(y-E[y|x])^2]$ - шум

$E_x[(E_X[\mu(X)]-E[y|x])^2]$ - смещение

$E_x[E_X[\mu(X) - E_X[(\mu(X)])^2]]$ - разброс


Ошибка модели складывается из трёх компонент:
- Шум (noise) - характеристика сложности и противоречивости данных
- Смещение (bias) - способность модели приблизить лучшую среди всех возможных моделей (сила модели, насколько она вообще может подогнаться под истинную закономерность)
- Разброс (variance) - устойчивость модели к изменениям в обучающей выборке (деревья могут очень сильно меняться даже при небольших изменениях выборки = большой разброс)

В итоге нужно искать модели несмещенные (достаточно сложные) и которые имеют низкий разброс (находят общие закономерности в данных, а не просто подгоняются под них)

### Линейная модель
Линейная регрессия. Черная кривая - лучшая из возможных моделей. Синие - линейные модели на разных подвыборках. 

<img src='images/ensembles5.png'>

Модели очень похожи друг на друга - разброса почти нет. Модель почти не меняется, она устойчивая. Смещение - очень большое, она не угадывает истинную закономерность. 

### Деревья
Фиолетовая кривая - средний прогноз. Синие - деревья глубиной 2 (очень слабые деревья). 

<img src='images/ensembles6.png'>

Смещение ниже, чем у линейной модели. Разброс тоже небольшой (синие кривые не очень сильно отклоняются от фиолетовой). 

Деревья глубины 3. 

<img src='images/ensembles7.png'>
Смещение еще меньше (фиолетовая кривая еще лучше аппроксимирует реальную зависимость). Разброс увеличился. 

Деревья глубины 6.

<img src='images/ensembles8.png'>

При росте глубины дерева снижается смещение, но растет разброс. 





### Бэггинг

- Смещение $a_N(x)$ такое же, как у $b_n(x)$ (сложность модели не увеличится -> в бэггинге в качестве базовых моделей нужно брать сложные модели, например, глубокие решающие деревья)

- Разброс $a_N(x)$:
$$\frac{1}{N}(разброс b_n(x)) + ковариация(b_n(x), b_m(x)) $$

- Если базовые модели независимы, то разброс уменьшается в N раз (независимость = их ошибки независимы. По тому, что первая модель ошиблась на первом объекте, нельзя сказать, что вторая модель тоже ошибется на нем)


- Чем более похожи выходы базовых моделей, тем меньше эффект от построения композиции.


Следовательно, базовые модели должны быть сложными и как можно более независимыми (непохожими).


<img src='images/ensembles9.png'>

Каждая синяя кривая - бэггинг и усреднение 10 глубоких деревьев. 

Синие кривые очень близко к фиолетовой (среднее). Значит разброс уменьшился. Бэггинг позволяет уменьшить разброс. 

# Случайный лес

Вспомним алгоритм обучения решающего дерева. Жадный, рекурсивный алгоритм. На каждом шаге выбирает для каждой вершины лучший предикат среди всех возможных, разбивает по этому предикату объекты на две части. Дерево строим до выполнения критерия останова. 

#### Алгоритм:
1. Поместить в корень всю выборку $R_1=X$
2. Запустить построение из корня: рекурсивная функция SplitNode(1,  $R_1$)

SplitNode(m,  $R_m$)
1. Если выполнен критерий останова, то выход
2. Ищем лучший предикат $j,t = argmin_{j,t} Q(R_m, j, t)$ Мы их ищем, перебирая все возможные варианты и выбирая тот, где наш критерий информативности дает максимальное значение, то есть, где уменьшение хаотичности как можно сильнее. 
3. Разбиваем его с помощью объекты
$$R_l={(x,y) \in R_m | [x_j<t]}, R_r={(x,y) \in R_m | [x_j >=t]}$$
4. Повторяем для дочерних вершин SplitNode(l, $R_l$), SplitNode(l, $R_r$)

__Как построить максимально различные деревья?__

Во время выбора предиката. Выбираем лучший предикат не из всех возможных, а из какого-то подмножества признаков. 

С рандомизацией по признакам: чем меньше признаков, тем ниже корреляция между ошибками деревьев. 

! Это не то же самое, что случайные подпространства!
Там всё дерево строилось на подмножестве признаков и какой-то золотой признак мог не попасть. Здесь рандомизация идёт в отдельных вершинах. 


Рекомендованный размер количества признаков:
- Регрессия $q=\frac{d}{3}$
- Классификация $q=\sqrt(d)$

#### Алгоритм случайного леса (random forest):
1. Строим N деревьев независимо
2. Для каждого дерева выбираем подвыборку обучающей выборки с помощью бутстрапа
3. Строим решающее дерево пока в каждом листе не окажется не более n объектов (3-5, деревья очень глубокие)
4. На каждой вершине выбираем лучший предикат только из подмножества признаков.



Классификация:
$$a_N(x)=argmax_{y \in Y} \sum _{n=1} ^N [b_n(x)=y]$$

Регрессия:
$$a_N(x) = \frac {1}{N} \sum _{n=1} ^N b_n(x)$$

Как зависит ошибка случайного леса в зависимости от числа деревьев в нём. 

Три кривые - это ошибки на тестовой выборке, но при разном размере подмножества признаков, которые выбираются в кажлой вершине. 

Лучший вариант - корень.

Хотя здесь растет количество деревьев и композиция становится сложнее, ошибка выходит на асимптоту и перестает расти. 

Смещение остается прежним, разброс не растет. 
<img src='images/ensembles10.png'>

Эти свойства делают случайный лес самым универсальным методом машинного обучения. 

- практически нет гиперпараметров

Со случайным лесом можно использовать out-of-bag estimation.

Каждое дерево обучается примерно на 63% данных. Остальные объеты можно сделать тестовой выборкой для дерева (можно оценить обобщающую способность без тестовой выборки)

*жуткая формула*

Для конкретного объекта учитываем только предсказания тех деревьев, для которых объект является тестовым. 

Можно оценивать важность признаков (перемешать признак, посмотреть, упало ли качество). 