# Определение

Каждый раз, принимая некоторое решение, например, стоит ли идти играть в теннис (_почему бы и нет, окей?_), мы проверяем, осознанно и неосознанно, множество факторов, которые можно представить в виде дерева:

<img src="images/play_tennis.png" width="50%">

Каждое такое условие - элементарный вопрос, подразумевающий ответ _"да"_ или _"нет"_. В то время очевидно, что такая структура может легко масштабироваться, рости, захватывая даже сложные сценарии.

Именно поэтому неудивительно, что __деревья принятия решений__ применяются в областях, где необходимость в построении такого рода проверок должна быть автоматизирована, например, в банковском кредитном скоринге (проверке, можно ли клиенту предоставить кредит):

1. Какой возраст у клиента? Если меньше 18, то отказываем в кредите, иначе продолжаем.
2. Какая зарплата у клиента? Если меньше 50 тысяч рублей, то переходим к шагу 3, иначе к шагу 4.
3. Какой стаж у клиента? Если меньше 10 лет, то не выдаем кредит, иначе выдаем.
4. Есть ли у клиента другие кредиты? Если есть, то отказываем, иначе выдаем.

Отчасти это и объясняет популярность деревьев. Деревья, кстати, появились еще в 60-ые года, и с тех пор они были важным предметом исследований ~~и где только не применялись.~~

Плюсы и минусы их вытекают из самой структуры:

__PROS:__

* Крайне хорошо интерпретируется результат и решение.
* Достигают нулевой ошибки на любой выборке при достаточной глубине.

__CONS__:

* Трудны для оптимизации из-за свой дискретной структуры — дерево нельзя продифференцировать по параметрам и найти с помощью градиентного спуска хотя бы локальный оптимум.
* Достаточно трудны в настройке, и все методы их построения на сегодня являются жадными и эвристичными.

# Матан

## Алгоритм построения

Дерево формируется таким образом, что:

* каждой внутренней вершине v приписана функция $ \beta_v : X \rightarrow \{ 0,1 \} $
* каждой листовой вершине v приписана метка класса $ c_v \in Y $.

С точки зрения некорого критерия $ Q(X, j, s) $ находим такое разбиение, что $ R_1(j,s) = \{ x \space | \space x_j \le s \} $ и $ R_2(j,s) = \{ x \space | \space  x_j > s \} $. Очевидно, что критерий разбиения $ [ x_j < s ] $ и является функцией $ \beta_v $, о которой я говорил выше. 

После чего циклически повторяем данную процедуру разбиения для объектов из левого ($R_1$) и правого ($R_2$) поддеревьев до некорого порога останова. Им может являться:

1. Ограничение максимальной глубины дерева.
2. Ограничение минимального числа объектов в листе.
3. Ограничение максимального количества листьев в дереве.
4. Останов в случае, если все объекты в листе относятся к одному классу.
5. Требование, что функционал качества при дроблении улучшался как минимум на $s$ процентов.

Если при остановке в лист попадают объекты разных классов, то, конечно, предпочтение отдается большинству.

Остается вопрос, что же за $ Q(X, j, s) $? 

## Критерий информативности Q

## Задача регрессии

Чем меньше разброс ответов в вершине, тем лучше.

## Задача классификации

Однозначного способа охарактеризовать разнообразие классов среди объектов в вершине нет, поэтому рассмотрим пример. 

Пусть в выборке 30 студентов. Известно, что ровно половина из них играют в крикет, но известно, кто. Всего 2 признака: класс, в котором он учится, и  пол студента.

### Индекс Джини (Gini)

Максимизацию критерия Джини можно условно интерпретировать как максимизацию числа пар объектов одного класса, оказавшихся в одном поддереве.

<img src="https://www.analyticsvidhya.com/blog/wp-content/uploads/2015/01/Decision_Tree_Algorithm1.png">

##### Разделение по полу (слева)

1. Коэффициент Джини для узла __Female__ = $(0.2)*(0.2)+(0.8)*(0.8)=0.68$
2. Коэффициент Джини для узла __Male__ = $(0.65)*(0.65)+(0.35)*(0.35)=0.55$
3. Взвешенный коэффициент Джини для разделения по полу = $(10/30)*0.68+(20/30)*0.55 $ = __0.59__

##### Разделение по классу (справа)

1. Коэффициент Джини для узла __Class IX__ = $(0.43)*(0.43)+(0.57)*(0.57)=0.51$
2. Коэффициент Джини для узла __Class X__ = $(0.56)*(0.56)+(0.44)*(0.44)=0.51$
3. Взвешенный коэффициент Джини для разделения по классу = $(14/30)*0.51+(16/30)*0.51 $ = __0.51__

### Information Gain

<img src="https://www.analyticsvidhya.com/wp-content/uploads/2015/01/Information_Gain_Decision_Tree2.png">

$$ I\left({X;Y}\right)=H\left(X\right)-H\left({X|Y}\right)=H\left(X\right)+H\left(Y\right)-H\left({X,Y}\right) $$

Чтобы посчитать энтропию разделения в узле, необходимо:
* вычислить энтропию родительского узла;
* вычислить энтропию каждого из подузлов, образовавшихся в результате разбиения, после чего вычислить взвешенное среднее.

1. Энтропия родительского узла = $$-(15/30) \cdot \log_2 (15/30) – (15/30) log2 (15/30) = 1$$ Единица показывает, что узел не является чистым.
2. Энтропия узла __Female__ = $$-(2/10) \cdot \log_2 (2/10) – (8/10) \cdot\log_2 (8/10) = 0.72$$, а для узла __Male__ $$-(13/20) \cdot \log_2 (13/20) – (7/20)\cdot \log_2 (7/20) = 0.93$$
3. Энтропия для разделения по полу - взвешенное среднее по подузлам: $$ (10/30)*0.72 + (20/30)*0.93 =  \mathbf{0.86}$$

4. Энтропия узла __Class IX__ = $$ -(6/14) \cdot \log_2 (6/14) – (8/14) \cdot \log_2 (8/14) = 0.99$$,  а для узла __Class X__, $$ -(9/16) \cdot \log2 (9/16) – (7/16) \cdot \log2 (7/16) = 0.99 $$
5. Энтропия для разделения по классу: $$ (14/30)*0.99 + (16/30)*0.99 = \mathbf{0.99} $$

Можно видеть, что энтропия при разделении по полу принимает меньшее значение, поэтому дерево выберет именно __пол__, как признак для разбиения. Взаимная информация может быть тогда вычислена как $1 - Enthropy$.

## Стрижка

На данный момент методы стрижки редко используются и не реализованы в большинстве библиотек для анализа данных. Причина заключается в том, что деревья сами по себе являются слабыми алгоритмами и не представляют большого интереса, а при использовании в композициях они либо должны быть переобучены (в случайных лесах), либо должны иметь очень небольшую глубину (в бустинге), из-за чего необходимость в стрижке отпадает.