# Случайный лес (random forest)

[Первый нотбук про деревья решений](https://github.com/castargo/ML_DL_experiments/blob/main/supervised_learning/decision_tree.ipynb)

Итак, **random forest** - это алгоритм машинного обучения, в котором используется ансамбль деревьев решений (усреднение прогнозов алгоритмов глубоких деревьев), при этом каждое дерево строится на случайной подвыборке (bagging), а также в каждом узле случайным образом выбирается случайное подмножество признаков (аналог метод случайных подпространств).

## Алгоритм построения случайного леса

Пусть $N$ - количество деревьев, которые мы будем строить для алгоритма случайного леса, тогда построим $N$ **бустрапированных подвыборок**, каждая из которой будет использована для построения своего решающего дерева $b_n(x)$, $n = 1,..,N$. При этом для каждого дерева на этапе разбиения его по критерию информативности, выбирается **случайная подвыборка признаков**, на которых происходит расчет. Как правило, деревья строятся **очень глубокими и переобученными**, пока в каждом листе не останется по объекту. Это необходимо для того, чтобы потом мы усредняли **несмещенные базовые алгоритмы**.

Построенные деревья объединяются в композицию:
   * В задачах регрессии: $a(x) = \frac{1}{N} \sum\limits_{n=1}^N b_n(x)$
   * В задачах классификации: $a(x) = sign(\frac{1}{N} \sum\limits_{n=1}^N b_n(x))$

Достоинства алгоритма:
* Хорошо работает при достаточно большом количестве деревьев, но малом количестве признаков.
* Нечувствительность к масштабированию (и вообще к любым монотонным преобразованиям) значений признаков.
* Существуют методы оценивания значимости отдельных признаков в модели.
* Внутренняя оценка способности модели к обобщению (тест по неотобранным образцам).
* Высокая параллелизуемость и масштабируемость, так как каждое дерево строится независимо.
* При помощи случайного леса можно отбирать признаки.

Недостатки алгоритма:
* Плохо работает при маленьком количестве деревьев, так как процесс их построения является ненаправленным, возможно лишь усреднить результаты, нельзя оптимизировать обучение.
* Обучение большого количества глубоких деревьев - достаточно долгий процесс, для которого нужно много вычислительных ресурсов, а строить неглубокие деревья - не вариант, так как тогда сдвиг будет слишком большим.

## Литература

1. Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса на Coursera
2. [Wiki - Метод случайного леса](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BB%D0%B5%D1%81%D0%B0)