# Деревья решений
---

Общий термин "дерево решений" можно описать как схему, отображающую выбор решения:

![image.png](attachment:cb6af91f-9ec1-4465-a1ef-2bf5fed32c22.png)

Однако мы будем рассматривать такой термин как - **обучение деревьев решений** - это статистическое моделирование с применением деревьев, где решения в каждом узле принимаются на основе некоторого условия(некоторой метрики).

---
---
## Терминология

Рассмотрим простой пример:

![image.png](attachment:6bd84e66-0871-4b5e-b106-7308cf1ac27f.png)

Здесь создано некоторое дерево решений, которое позволяет смоделировать график для непрерывной переменной. Рассмотрим некоторые термины для этого дерева.

1. **Разбиение(splitting)** - когда в каждом узле дерева принимается некоторое решение, т.е. некоторое условие возвращает либо True, либо False.
2. Отдельные прямоугольники на диаграмме - **узлы дерева**. Они бывают разных типов:
   * **В самой вершине дерева - корневой узел(root node)** - это будет самое первое условие или самый первый признак, по которому будут разбиваться данные
   * **В самом низу - находятся листовые узлы(leaf/terminal nodes)** - это те узлы где мы возвращаем некоторый результат для нашей целевой переменной. Здесь мы не выполняем каких-либо разбиений, а уже принимаем некоторое решение.
   * **Родительские узлы и дочерние узлы** на рисунке обозначены зелёным и жёлтым цветом соответственно:

     ![image.png](attachment:aa3d08be-19a5-43e0-a10e-987034276c11.png)
     
     ![image.png](attachment:26170df7-8959-4b03-893e-7cc06463cd66.png)

3. **Ветка дерева/поддеревья(tree branches/sub trees)** - некоторая часть общего дерева, еоторая предтавляет из себя отдельное маленькое дерево:

![image.png](attachment:b1ef2626-46e4-40dd-aff8-b6fc1dcf5a79.png)

4. **Усечение дерева(pruning)** - идея заключается в том, что можно сделать отдельные ветви дерева покороче с целью избежать переобученности модели:
   
![image.png](attachment:2b07c5bb-2b56-4152-a123-7327afb21388.png)

---
---
## Метрика Gini impurity

Метрика **Gini impurity** измеряет, насколько чистой("pure") явдяется информация в наборе данных. С точки зрения задачи *классификации*, можно воспринимать это как *однородность классов*. 

Рассмотрим на примере:  
Метрика "gini impurity" для задачи классификации вычисляется следующим образом - для набора классов C и заданного набора данных Q:
$$G(Q) = \sum_{c\in{C}}p_c(1-p_c)\text{, где }$$
$$p_c = \frac{1}{N_Q}\sum_{x\in{Q}}1(y_{class}=c)$$

Если попытаться нанести метрику "gini impurity" на график, где по горизонтали - вероятность $p_c$, то получится график вида:

![image.png](attachment:f6dd84f3-a315-4a4a-8fed-d71c0b9ae3c0.png)

Когда вероятность $p_c$ равна нулю или единице - то метрика "gini impurity" равна нулю. Это следствие того, что в формуле есть два слагаемых $p_c$ и $1-p_c$ - они обнуляются либо когда $p_c = 0$, либо когда $p_c = 1$. Посередине, **в точке 0.5**, находится **точка max** для метрики "gini impurity". **В этой точке сама метрика равна 0.5.**

Представим, что мы строим некоторое дерево, в определённом узле которого необходимо выполнить разбиениеданных. В качестве набора данных - 4 точки разделённых на два класса:

![image.png](attachment:6f9ee79c-6d4e-40a2-b765-1e3bfda22032.png)

Эти точки представляют собой максимально неоднородный набор точек, если бы все точки были только красные или только синие - у нас был бы однородный набор точек.

Выполним вычисления метрики "gini impurity" для этого примера:

![image.png](attachment:71342cb4-4f5a-4f04-afc7-bcce8c81231f.png)

Получилось **максимально возможное** значение метрики "gini impurity".

Можно рассмотреть вычисление метрики для более однородного набора точек:

![image.png](attachment:bb429d24-8c3a-4b10-96d5-6c7a62793c28.png)

![image.png](attachment:f6bfe0fd-4c86-45fb-950c-8be223f7eb77.png)

Можно сказать, что эти данные являются более *"чистыми"*. В них больше однородности, так как синего класса больше, чем красного. Поэтому метрика "gini impurity" для этого набора данных меньше, чем в предыдущем случае.

Здесь числа для классов одинаковы, так как формула $p_c(1-p_c)$ устроена как бы зеркальным образом - для случая двух классов получаем, что $p_c$ одного класса равно $(1-p_c)$ для второго класса. Поэтому для двух классов можно получить одинаковые значения.

Если рассмотрим такие данные, для которых все точки принадлежат к одному классу, то эти данные будут являться наиболее чистыми:

![image.png](attachment:43c76bc7-fa73-47b6-8bbe-e29a45843ea2.png)

![image.png](attachment:146fc5a7-38ae-4112-8685-328c6ec56901.png)

Для таких данных индекс "gini impurity" будет равен нулю, потому что для класса *красный* у нас будет ноль красных точек. В этом примере у нас полностью однородные данные, нет смеси из разных классов.

### Зачем нужна метрика Gini impurity?

Если цель дерева решений в том, чтобы отделить классы друг от друга, то мы можем выполнять разбиения данных на основе метрики "gini impurity". В таком случае - мы хотим **минимизировать "gini impurity"** на листьях, потому что если на листовых узлах значение "gini impurity" будет минимально, то это будет означать, что все данные этого листового узла принадлежат к одному классу, так как листовые узлы - это результат работы модели.

Если какой-то листовой узел говорит, что новая точка должна быть *синей*, то нам хотелось бы получить в этом узле как можно меньшее значение "gini impurity", в идеале - нулевое. В таком случае, можно сказать, что данные разделяются на классы с помощью дерева. 

---
---
## Построение деревьев решений с помощью Gini Impurity

Если признаков несколько, для начала необходимо решить - какой признак будет применяться в корневом узле, т.е. для самого первого разбиения данных.

Для решения этого вопроса можно взять метрику "gini impurity" и с ее помощью измерить количество информации, которое содержится в различных признаках в обучающем наборе данных. Для разбиений, хотелось бы применять те признаки, которые содержат много информации.

Рассмотрим пример - необходимо создать дерево решений для определения спама в электронных письмах. 
В качестве входных данных будет один признак X, который будет принимать два значения - Yes(внутри письма была ссылка, на которую можно нажать) и No(внутри письма ссылок не было):

![image.png](attachment:4c73de0d-bc9e-4879-ba57-5c1d90c536fc.png)

**Для нашего дерева решений ставится вопрос - содержит ли письмо ссылку True или False:**

![image.png](attachment:ca8db7ad-6b40-4c40-8736-9189daab2bef.png)

Для значения True:

![image.png](attachment:4f4aa14e-2e47-412a-9f28-7247753c0243.png)

Если посмотреть на письма, внутри которых были ссылки, то два из них были спамом, а одно - обычным. 

Для значения False:

![image.png](attachment:c30823c4-ec51-4fec-bb1c-c3154b8e2fb3.png)

В большинстве случаев, такие письма не являлись спамом: три письма были обычными и только одно - спамом.

**Следующий шаг - посчитать метрику "gini impurity" для этого признака URL.**

Для начала - посчитаем метрику для каждого листового узла, а затем выполним *взвешенное усреднение* полученных значений, чтобы получить "gini impurity" для всего признака URL. Это нужно в том случае, когда есть несколько признаков и какой-то из признаков имеет наименьшее значение "gini impurity", чем другие признаки - такой признак, скорее всего, будет очень полезен для разбиения данных. Потому что в таком разбиении мы будем использовать много информаци и после него получим более однородные данные, с более низкими значениями "gini impurity".

**В идеальном случае, хотелось бы получить такое разбиение данных в узле, чтобы сложить весь спам в одну сторону, а обычные письма в другую.** Если получится такое сделать, то в каждом из листовых узлов получатся минимальные значения "gini impurity", а в идеальном случае - нулевые.

![image.png](attachment:bbf06204-a199-4846-95f4-e3714d38c981.png)

**Вычисляем метрику "gini impurity" для всего признака в целом.**

Выполняем взвешенное усреднение - общее количество писем равно семи, после разбиения, слева - три письма, а справа - четыре письма. Поэтому при взвешивании будем учитывать, сколько писем находилось в каждом листовом узле:

![image.png](attachment:93fa1531-4091-47bb-b67d-ccc5c303c1fe.png)

### Случай непрерывных переменных

Рассмотрим ту же самую задачу определения спама, но на этот раз будет непрерывный признак - **количество слов в письме**:

![image.png](attachment:2e022499-1fc3-4f63-bbb4-ef93f26e762e.png)

**Самый первый шаг - отсортировать все данные по этому признаку:**

![image.png](attachment:59be924c-b86b-4051-925f-ae372c03a10d.png)

**Далее, рассмотрим узел, в котором этот признак используется для разбиения:**

![image.png](attachment:8f273d3a-424b-4fe4-baec-1f892acc9f6c.png)

В этом узле будет сравниваться значение признака с некоторым числом N. Здесь можно сделать следующее - можно взять средние значения между теми значениями, которые есть в наших данных и далее использовать эти средние значения в качестве значений для разьиения данных:

![image.png](attachment:214c36b9-b230-4192-b42b-0e200b7502ce.png)

Возьмём например первые две строки:

![image.png](attachment:15809600-617d-452c-a301-058e8300ecbe.png)

Число 15 является хорошим числом для разбиения данных, так как в таком случае данные очень чётко разделятся на две части:

![image.png](attachment:8287ce41-1f5a-43ed-8f57-7255990a52ff.png)

В таком случае можно вычислить метрику "gini impurity" для этого конкретного разбиения:

![image.png](attachment:4c80c532-3562-4e69-ba9b-99602129ea13.png)

Для этого конкретого разбиения мы получаем отдельно одну строку и отдельно все остальные строки. Именно поэтому на первом шаге данные были отсортированы, чтобы здесь можно было разделить все данные на две части.

Для левого листа, метрика "gini impurity" равна нулю - потому что в этом узле всего одно письмо, которое принадлежит к классу *Spam*.

Далее вычисляем метрику для правого листового узла, и после этого берём взвешенное среднее левого и правого узла, чтобы вычислить общую метрику "gini impurity", причём только для данного конкретного разбиения:

![image.png](attachment:fdf39d6c-e9f5-40b0-ae80-d83654d77f7b.png)

Значение "gini impurity" = 0.3 - это значение для этого конкретного признака, **но только для конкретного разбиения данных(!!!)**, когда в условии разбиения указано число 15.

**После этого необходимо проверить другие разбиения:**

![image.png](attachment:ef07e504-f028-43df-b740-7903b8b3e61f.png)

Мы видим, что одно из разбиений имеет наименьшее значение "gini impurity" = 0. Можно взять это значение разбиение(число 25), взять соответствующее значение "gini impurity" = 0 и это будет значение "gini impurity" для данного конкретного признака.

**В случае если в задаче несколько признаков - тогда, если какой-то из этих признаков имел бы "gini impurity" = 0, то с помощью этого признака можно было бы идеально раздилить данные, т.е. другие признаки даже не понадобились бы.** Однако, такая ситуация - редкость, во многих задачах можно увидеть ситуации когда какой-то один признак **не сможет** идеально разделить данные. В таком случае - выбирают признак, у которого "gini impurity" - минимальное. Такой признак, лучше всего поместить в корневой узел дерева, потому что он лучше всего разделяет данные на два класса.

### Случай мульти-категориальных признаков

Для той же самой задачи возьмём признак - **отправитель письма**:

![image.png](attachment:ab948989-8130-4083-b462-dfa31d37bac0.png)

Здесь три значения: Abe, Bob, Claire.

**Вычислим "gini impurity" для всех комбинаций:**

Для начала рассмотрим случай, когда *отправитель = Abe*:

![image.png](attachment:c52d17cb-f4d9-46b2-b4f4-432e94bc5682.png)

Для данной конкретной комбинации метрика "gini impurity" вычисляется также, как и в случае двух классов. Для каждой из двух частей необходимо посмотреть - сколько спама и сколько обычных писем. Далее делается всё то же самое для других отправителей:

![image.png](attachment:763cf057-8470-462c-a5d4-2af00846a144.png)

**Но также необходимо проверить различные комбинации из нескольких значений:**

![image.png](attachment:8ba3ae37-4ac9-4e9b-9d77-519d9d041481.png)

После чего из этих вариантов выбирается тот, для которого значение "gini impurity" минимально. Это и будет то условие, которое наиболее эффективно разбивает данные на два класса.

---
---

## Как выбрать признак для корневого узла, когда признаков несколько

Нужно вычислить "gini impurity" для каждого признака, выбрать тот где метрика наименьшая, и взять его первым так как в самом начале дерева хотелось бы разделить данные таким образом, чтобы в левой и правой ветках оказались как можно более однородные данные.

![image.png](attachment:1863ab44-0203-47ef-8b88-b2ee7f797669.png)

Чтобы избежать переобученности, можно добавить гиперпараметр, который будет отвечать за минимальное уменьшение метрики "gini impurity" после разбиения данных:

![image.png](attachment:a5343cb7-a8ef-48b5-9b77-6f9f1bff842f.png)

То есть, будет выполняться разбиение только в тех случаях, когда после разбиения будет получаться заметное уменьшение "gini impurity". Если же какое-то разбиение будет лишь немного уменьшать "gini impurity", то такие разбиения выполняться не будут:

![image.png](attachment:371a2e57-45a0-42ab-9bb7-acba201de415.png)

Это приводит к усечению дерева решений, вместо этих разбиений будут размещены листовые узлы.

Ещё одним гиперпараметром может являться глубина дерева:

![image.png](attachment:3c4f7b76-10d3-45b1-a816-cdf4840f2aa9.png)

Можно, например, сказать что будет не более двух уровней разбиения данных:

![image.png](attachment:85cfd5b0-9a46-4a2d-872b-7dc91ea062c4.png)

Для всех дальнейших разбиений будет выполнено усечение.

---