## Ансамблевые модели

**Ансамблевые модели/ансамбли (ensembles)** — это метод машинного обучения, где несколько простых моделей (часто называемых «слабыми учениками») обучаются для решения одной и той же задачи и объединяются для получения лучших результатов.

3 способа построения ансамблей:
* **Бэггинг** — параллельно обучаем множество одинаковых моделей, а для предсказания берём среднее по предсказаниям каждой из моделей;
* **Бустинг** — последовательно обучаем множество одинаковых моделей, где каждая новая модель концентрируется на тех примерах, где предыдущая допустила ошибку;
* **Стекинг** — параллельно обучаем множество разных моделей, отправляем их результаты в финальную модель, и уже она принимает решение.

## Бэггинг

**Бэггинг (bagging)** — это алгоритм построения ансамбля путём параллельного обучения множества независимых друг от друга моделей.

В основе алгоритма лежит статистический метод, который называется **бутстрэпом (bootstrap)**. Идея бутстрэпа заключается в генерации $k$ выборок размера $n$ (бутстрэп-выборок) из исходного набора данных размера $m$ путём случайного выбора элементов с повторениями в каждом из наблюдений. 

![image.png](attachment:image.png)

![image.png](attachment:image-2.png)

В случае классификации «усреднение» означает мажоритарное голосование (принцип большинства голосов). То есть объект относится к тому классу, за который проголосовало большинство алгоритмов.

В бэггинге в голосовании принимает участие модель одного вида. Эта модель называется **базовой моделью (base model)**

* Смещение (bias) бэггинг-ансамбля <= смещения одного алгоритма из этого ансамбля;
* Однако разброс (variance) бэггинг-ансамбля в $k$ раз меньше, чем разброс одного алгоритма из ансамбля, где $k$ — количество алгоритмов в ансамбле.

Теорема гарантирует, что средняя ошибка ансамбля, построенного по принципу бэггинга, не выше, чем средняя ошибка базовой модели, но при этом шанс переобучения алгоритма значительно ниже. Это очень важно для моделей, склонных к переобучению, таких как глубокие деревья решений.

### Случайный лес 

**Случайный лес (Random Forest)** — это самая распространённая реализация бэггинга, основанная на использовании в качестве базовой модели дерева решений. 

Помимо бутстрэпа, случайный лес использует **метод случайных подпространств**. Суть этого метода заключается в том, что каждая модель обучается не на всех признаках, а только на части из них. Такой подход позволяет уменьшить коррелированность между ответами деревьев и сделать их независимыми друг от друга.

**Алгоритм для задачи классификации**

Пусть количество объектов в наборе данных равно **N**, а количество признаков — **M**. То есть размер набора данных — **(N, M)**. Количество деревьев в лесу равно **K**. Тогда для обучения случайного леса необходимо выполнить следующие шаги:
* С помощью бутстрэпа создать K наборов данных размера (N, M);
* Для каждого сгенерированного набора данных применить метод случайных подпространств: выбрать L < M случайных признаков и получить K новых наборов данных размером (N, L);
* На каждом наборе данных обучить K деревьев решений.

Когда поступят новые данные, нам нужно будет прогнать их через каждое дерево и объединить результаты отдельных деревьев мажоритарным голосованием или путём комбинирования вероятностей.

![image.png](attachment:image.png)

## [Практика](./tasks/diabet_random_forest.ipynb)