# Случайные леса
---

## В чём состоит улучшение

Вспомним процесс создания одного дерева решений:

![image.png](attachment:b01d44b5-36c7-4d43-b12d-e0126c2a746d.png)

У нас есть несколько признаков и целевая переменная. 

Если строится одно дерево решений, то в большинстве случаев это делается на основе метрики "gini impurity". При построении дерева, может случиться так, что будут использоваться только отдельные признаки. Наилучшее дерево строится с помощью только отдельных признаков:

![image.png](attachment:73aebf8b-1bf4-4107-aba2-8575fcc9443b.png)

**Почему это может быть не очень хорошо?**  
В таком случае теряется возможность получать информацию из всех признаков, так как берутся только самые важные признаки, но теряется возможность извлечь дополнительную информацию из менее важных признаков, которые потенциально могли бы ещё больше улучшить точность модели.

Ещё один момент - когда мы строим дерево и даже меняем различные гиперпараметры, то в корневом узле, как правило, будет находиться один и тот же признак:

![image.png](attachment:cae3c8b7-8a00-4c03-9e8f-38f9e9df9449.png)

Признак в корневом узле имеет большое влияние на дерево в целом, потому что все данные, которые поступают на вход дерева будут сначала разбиваться в корневом узле, а только затем разбиваться по другим признакам в других узлах.

Хоть в корневом и находится признак, который лучше всего разбивает данные, но потенциальная проблема состоит в том, что если взглянуть на весь список признаков, то получается так - что одним признакам даётся слишком большой вес, а другим - либо слишком маленький вес, либо нулевой.

Что можно поменять в таком случае:
* Критерии разбиения в узлах
* Минимальное уменьшение метрики Gini Impurity
* Установить лимиты на глубину дерева
* Установить лимиты на количество листовых узлов

**Но когда мы фиксируем какую-то комбинацию гиперпараметров, то мы получаем только одно дерево решений, которое мы строим в соответствии с правилами построения деревьев.**

Даже после оптимизации гиперпараметрова, деревья решений ограничены:
* Только один признак в корневом узле
* В разбиении могут использоваться не все признаки
* Возможно переобучение

**Создаём поднаборы случайно выбранных признаков.**
1. Начинаем с полного набора признаков:

![image.png](attachment:8cc69313-0223-4f3d-9f44-b447de9d12f7.png)

2. Далее выбираем некоторое число N случайных признаков:

![image.png](attachment:aeb6500a-ea10-4490-9fe5-ccd2739bc5ad.png)

3. Строим первое разбиение данных данных, на основе только этих трёх признаков:

![image.png](attachment:d2be6947-abeb-4d54-9ee8-2923fc477846.png)

Можно заметить, что такой подход решает потенциальную проблему того, что раньше в корневом узле всегда был один и тот же признак. Здесь же берутся отдельные признаки, поэтому признак для корневого узла будет выбираться только из этих трёх признаков. Допустим, на основе метрики "gini impurity", для данного примера выбран жёлтый признак для корневого разбиения.

Если в каком-то из дальнейших узлов, становится понятно, что необходимо опять выполнять разбиение данных - то мы берём уже другой случайный набор из трёх признаков:

![image.png](attachment:051f2f09-e073-4ddc-b6ce-3f49ec140be2.png)

И уже из этих трёх признаков выбирается, на основе метрики "gini impurity", какой из этих трёх признаков лучше всего выбрать для разбиения данных:

![image.png](attachment:830322ae-58af-458f-bdfb-71352a87c5b3.png)

Допустим, здесь у нас будет оранжевый признак и метрика говорит о том, что дальнейшее разбиение можно не делать, так как оно не приведёт к заметному уменьшению "gini impurity". Соответственно, дальше мы размещаем листовые узлы.

Таким образом была построена левая ветка дерева, если же необходимо построить ещё и правую ветку, то алгоритм повторяется уже для другого набора случайных признаков.

![image.png](attachment:eb43719c-76cb-4d0b-b2f1-a61ebfb35ad8.png)

По окночанию, мы получаем дерево, которое *скорее всего* не будет переобучено. А также получаем возможность исследовать различные аспекты данных:

![image.png](attachment:26bdf174-bcb7-4a94-a513-65bfe5a9bafd.png)

Получаем целый набор(ансамбль) деревьев. Каждое из этих деревьев использует различные разбиения данных. Все признаки участвуют в построении этого набора деревьев.

### Как можно объединить эти деревья в единый ансамбль?

![image.png](attachment:6e5c7de5-61fa-453a-95ff-b17e5b9869d8.png)

Если на вход к нам поступают какие-то признаки, как можно определить значение целевой переменной y, если деревьев несколько?

Для задачи классификации: мы просто посчитаем количество голосов, которые получает тот или иной класс для целевой переменной. Так на рисунке выше мы просто вернём класс 0 - так как за него проголосовало два дерева из трёх. Также можно указать, насколько случайный лес уверен в своём решении. У нас получается вероятность 2/3 принадлежности к классу 0 и вероятность 1/3 принадлежности к классу 1.

**Случайные леса можно применять и для непрерывных переменных.**

![image.png](attachment:2f617c66-68f8-4d29-bc7e-a45960460fcf.png)

В этом случае мы возьмём все значения, которые возвращает каждое из деревьев и выполним их усреднение.

## Гиперпараметры случайных лесов

### Количество объектов estimator - *сколько деревьев решений должно быть в случайном лесу*

Интуитивно - чем больше деревьев, тем больше возможностей обучения от разных комбинаций признаков. Но появляется два вопроса:
1) Существует ли какой-то предел для количества деревьев?
2) Есть ли опасность переобучения при создании слишком большого количества деревьев?

**Как выбрать количество деревьев по умолчанию:**
* Значение по умолчанию 100
* В публикациях предлагается 64-128 деревьев(всё зависит от количества признаков - чем больше признаков, тем больше нужно деревьев)
* Можно выполнить кросс-валидацию - поиск по сетке
* Нанести ошибки на график, в зависимости от количества деревьев(аналог метода локтя в KNN) - в какой-то момент выигрыш от добавления дополнительных деревьев начинает падать.

#### Представим, что количество деревьев в случайном лесу будет постепенно увеличиваться

Самое минимальное количество равно единице, но такая модель будет работать даже хуже, чем обычное дерево решений - потому что здесь выбираются случайные поднаборы признаков и может получиться так, что будут выбраны не самые важные признаки. Поэтому, если дерево в случайном лесу одно, то ошибка *может быть* достаточно высокой.

Когда количество деревьев увеличивается, можно ожидать, что ошибка будет уменьшаться, потому что будет задействовано большее количество признаков и из данных можно будет извлечь больше информации.

В итоге получится график вида:

![image.png](attachment:46c58257-4b7d-42a4-a2a6-373e5a38c84d.png)

При увеличении количества деревьев ошибка уменьшается, но начиная с какой-то точки это уменьшение становится очень маленьким - при выходе на плато, сколько бы не добавлялось деревьев, ошибка уменьшаться не будет.

Также стоит отметить, что при увеличении количества деревьев график не начинает расти.

#### Начиная с какого-то количества деревьев, можно увидеть следующее:
1) Случайные комбинации признаков не могут извлечь больше информации из данных
    * Новые деревья сильно коррелируют с уже ранее созданными - по стуи возвращают такие же результаты, что и ранее созданные деревья. Но также мы не получаем переобученность модели, просто происходит дублирование полученной ранее информации
2) Случайные комбинации признаков дублируют предыдущие деревья

### Количество признаков - *сколько признаков следует использовать в каждом поднаборе*

Этот гиперпараметр отвечает на вопрос - *сколько признаков следует использовать в каждом поднаборе?*

Обычно применяется $\sqrt{N}$ при общем количестве *N* признаков.  
Для регрессионных задач - $\frac{N}{3}$, которое обычно больше чем $\sqrt{N}$

Этот гиперпараметр имеет смысл подбирать в разных задачах, в качестве начальной точки используя значение $\sqrt{N}$, которое затем будет уточняться при помощи поиска по сетке.

### Параметр Bootstrap samples

Это параметр, который отвечает на вопрос - *использовать ли для построения деревьев поднаборы с возвращением?*

Термин *bootstrapping* обозначает **случайное семплирование с возвращением**. Рассмотрим на примере.

Допустим, имеется набор из пяти букв:

![image.png](attachment:f3e2d41b-4649-4d8c-af38-5d705b2472a6.png)

Представим что из такого набора необходимо случайным образом выбрать десять букв:

![image.png](attachment:04428f8c-48c7-4e66-94bf-d91bc9fbd954.png)

Первым шагом, выбирается случайная буква из пяти букв:

![image.png](attachment:22e2ef2e-b8a8-42a1-8ece-1898c49e4794.png)

Также стоит отметить, что одну и ту же букву можно выбрать несколько раз:

![image.png](attachment:1b4fbd2e-7679-42d2-90d4-4d1cf7020369.png)

Это как раз и называтеся *bootstrapping* - выбор с возвращением, потому что после того как была выбрана та или иная буква, она была возвращена обратно в набор и её можно выбрать ещё несколько раз:

![image.png](attachment:2e5bdbaf-bd23-4fff-985a-27e2085fecec.png)

По сути это единственный способ выбрать десять букв из набора в пять букв.

В каждом узле дерева выбираются случайные наборы из признаков, которые позволяют получать более разнообразные наборы из признаков, которые не коррелируют между собой:

![image.png](attachment:766b576d-2781-46c6-aaaf-7754fd52b8e6.png)

Это также можно считать как *bootstrapping* для признаков.

Но чтобы деревья ещё больше отличались друг от друга - можно выполнить *bootstrapping* не только для признаков, но и для строк. Так, для каждого дерева будет получаться два случайных компонента: 
1) Случайный набор признаков
2) Случайный набор строк

![image.png](attachment:a55d86fd-92ea-482c-83d8-b62687f0980f.png)

Параметр *bootstrapping* позволяет уменьшить корреляцию между деревьями, поскольку разные деревья обучаются на разных наборах признаков и разных строках данных. Получаются сильно разные деревья, отличающиеся друг от друга, что позволяет модели лучше обобщаться на новые данные, которые она ещё не видела.

Если отключить этот параметр, то при увеличении количества деревьев - будут получаться деревья, которые коррелируют между собой. При включённом параметре такой момент наступит позднее.

### Out of bag errors

Это специальная метрика, для которой параметр отвечает на вопрос - *вычислять ли эту метрику во время обучения модели?*

В случайных лесах используются выборки данных(bootstrapped data) и далее выполняются предсказания на основе агрегатных предсказаний деревьев(aggregated prediction):
 * Для классификции - самый частый класс Y
 * Для регрессии - среднее предсказание Y

Что такое **bagging**?  
Когда мы делаем выборки данных при построении деревьев, то для конкретных деревьев некоторые данные остаются неиспользованными. Если данных достаточно много, то статистически может случиться так, что в конкретном дереве может не участвовать достаточно большое количество данных, вплоть до $\frac{1}{3}$ всех данных.

Например:

![image.png](attachment:95f4c63c-f0b6-4408-989d-1a8d6397e1ce.png)

Здесь были взяты только конкретные признаки, и только некоторые строки, на основе которых было построено некоторое дерево:

![image.png](attachment:2b4f9c65-1c1b-42e6-a2d2-36387f814bcb.png)

Но если взглянуть на данные, которые применялись для построения этого дерева, то можно заметить, что некоторые строки в исходном наборе данных никак не участвовали в построении этого дерева. В данном примере - это строки 0, 4, 6.

Когда деревьев будет несколько, эти строки смогут поучаствовать в построении других деревьев, но в данном конкретном дереве - эти строки не участвовали. Это означает, что эти данные можно использовать как тестовый набор данных для данного конкретного дерева, потому что оно не видело эти строки в процессе обучения. Такие строки называются **out-of-bag samples**.

На основе таких строк можно вычислить некоторую метрику ошибки, которая по сути будет ошибкой на этом тестовом наборе данных. Это делается следующим образом: 

![image.png](attachment:aa201459-2ae4-4919-9f9e-528d236b7613.png)

Строки с индексами 0, 4, 6 подаются на вход дереву, а на выходе получаются предсказания модели $\hat{y}$, которые сравниваются с известными значениями $y$. В результате такого сравнения вычисляется метрика ошибки, которая и называется **OOB Error**.

**Важно: эта метрика не может являться полноценной заменой той общей метрике, которая применяется для всего тестового набора данных, потому что здесь мы работаем только с конкретным деревом и конкретными строками в данных, которые это дерево ещё не видело.**

**OOB Score** - это гиперпараметр, который по сути не влияет на процесс обучения модели. Какое бы значение не имел этот гиперпараметр, обучение будет выполняться одинаково, если вычислять данную метрику - обучение будет работать немного дольше, так как необходимо будет вычислить эти ошибки. Он существует отдельно от процесса *bootstrapping*, и нужен для опциональной оценки работы модели. 
Это отличается от параметра **Bootstrap samples**, изменения которого влияет на построение модели.

**OOB Score** применяется только когда используются не все деревья в случайном лесу, поскольку эта метрика вычисляется только для деревьев, которые не использовали данные OOB. Поэтому по умолчанию значение этого гиперпараметра равно False.

---