# Решающие деревья

Решающие деревья — это семейство алгоритмов, которое очень сильно отличается от линейных моделей, но
в то же время играет важную роль в машинном обучении.

### Вспоминаем линейные модели 

До этого момента изучались линейные модели. К особенностям линейных моделей относится следующее:

- **Динейные модели быстро учатся**. В случае со среднеквадратичной ошибкой для вектора весов даже есть аналитическое решение. Также легко применять для линейных моделей градиентный спуск

- При этом линейные модели **могут восстанавливать только простые зависимости** из-за ограниченного количества параметров (степеней свободы).

- В то же время линейные модели можно использовать для восстановления нелинейных зависимостей за счет перехода к полиномам n-степени, что является довольно сложной операцией.


Минус линейных моделей состоит в том, что они не могут отобразить особенность процесса принятия решений у людей. На самом деле, когда человек хочет понять ту или иную вещь, он задает последовательное количество простых вопросов, которые приведут его в какому нибудь ответу.

### Пример 1

Что бы понять принцип работы рещающих деревьев, расмотрим простой пример.

![](img/plot_1.png)

Пример очень простой, и одновременно жизненный.<br>
Пациент пришел к врачу на медицинский осмотр, при этом врач знает только два заболевания - ангина и грипп. Поэтому сначла он спрашивает, какая температура у пациента. Если меньше 37 градусов, врач говорит, чсто пациент здоров, в ином случае переходит к следующему вопросу. Врач српашивает, а не болит ли у пациента горло. Если болит, то врач ставит диагноз - Ангина, в ином случае - Грипп.

### Пример 2

Другой пример - это пример того, выживет или не выживет пассажир Титаника (Очень популярная задача на Kaggle).
Задача очень хорошо решается с применением рещающих деревьев.
<img src="img/plot_2.png" width="300px"/>
В первую очередь спрашивается пол пассажира. Если это женщина, то решающее дерево сразу заявляет,
что она выживает, и этот ответ верен в 73% случаев, и так далее.

## Решающие деревья

Мы рассмотрели два примера решающих деревьев, которые представляют собой бинарные деревья, в каждой внутреннний вершине записано условие, а в каждом листе дерева - прогноз. Необязательно рещающее дерево должно быть бинарным, но как правило используют именно бинарные.

Условия во внутренних верщинах выбираются крайне простым способом. Самый простой вариант - проверить, лежит ли значение некоторого признака $x^j$ левее, чем заданный порог $t$:
$$ [x^j\leq t]$$

Это очень простое условие которое зависит от одного признака, но его достаточно, чтобы решать многие сложные задачи.

Прозноз в листе является вещественным числом, если решается задача регрессии. Если же задача классификации, то в качестве прогноза выступает или класс или распределение вероятностей классов.

### Решающие деревья в задаче классификации

Пусть решается задача классификации с двумя признаками и тремя классами.

<img src="img/plot_3.png" width="300px"/>

Видно, что решающее дерево может очень неплохо отделить каждый класс от всех остальных. Видно,
что разделяющая поверхность каждого класса кусочно-постоянная, и при этом каждая сторона поверхности
параллельна оси координат, так как каждое условие сравнивает значение равно одного признака с порогом.

В то же время решающее дерево вполне может переобучиться: его можно сделать настолько глубоким, что
каждый лист решающего дерева будет соответствовать ровно одному объекту обучающей выборки. В этом
случае, если записать в каждом листе ответ соответствующего объекта, на обучающей выборке получается
нулевая ошибка. Дерево получается явно переобученным

<img src="img/plot_4.png" width="300px"/>

Это дерево идеально отделило синий от красного класса, но разделяющая поверхность получилась безумно
сложной — видно, что этот алгоритм переобучился и от него не будет никакой пользы на тестовой выборке.

### Решающие деревья в задаче регрессии
Пусть решается задача регрессии с одним признаком, по которому нужно восстановить значение целевой
переменной. Не очень глубокое дерево восстанавливает зависимость примерно так:

<img src="img/plot_5.png"/>

Восстановленная зависимость будет кусочно-постоянной, но в целом будет иметь неплохое качество.
При увеличении глубины дерева получившаяся функция будет иметь следующий вид:


<img src="img/plot_6.png"/>


Видно, что дерево подогналось под выбросы и его качество уже будет не таким хорошим. Дерево переобу-
чилось из-за того, что его глубина слишком большая.

## Обучение решающих деревьев
### Переобучение деревьев

Как говорилось ранее, деревья очень сильно подверженны переобучению. Дерево может "вырасти" так, что каждый лист будет соответствовать одному объекту обучающей выборки.

<img src="img/plot_4.png" width="500px"/>

Это дерево строит очень-очень сложную разделяющую поверхность и, очевидно, переобучено.

Поскольку всегда можно построить такое дерево, которое не ошибается на обучающей выборке и будет
переобученным, имеет смысл искать минимальное (например, с минимальным числом листьев) дерево из име-
ющих нулевую ошибку. Но, к сожалению, задача отыскания такого дерева – NP-полная, то есть ее невозможно
решить за разумное время.

### Жадный способ построения

В машинном обучении применяется жадный способ построения решающего дерева от корня к листьям. Сна-
чала выбирается корень, который разбивает выборку на две. Затем разбивается каждый из потомков этого
корня и так далее. Дерево ветвится до тех пор, пока этого не будет достаточно.

Остается уточнить способ разбиения каждого потомка. Как было сказано ранее, в качестве условия в
каждой вершине строящегося дерева будет использоваться простейшее условие: значение одного из признаков
будет сравниваться с некоторым порогом.

Пусть в вершину $m$ попало множество $X_m$ объектов обучающей выборки. Параметры условии  $ [x^j\leq t]$ будут выбраны так, чтобы минимизировать данный критерий ошибки 
$$Q(X_m,j,t) -> \min j,t $$


Параметры $j$ и $t$ можно подбирать перебором. Действительно, признаков конечное число, а из всех возможных
значений порога $t$ можно рассматривать только те, при которых получаются различные разбиения. Можно
показать, что таких значений параметра $t$ столько, сколько различных значений признака $x^j$ на обучающей
выборке.
