# Деревья решений

Деревья решений являются одним из наиболее понятных человеку и в то же время мощных алгоритмов принятия решений. К тому же на их основе строятся самые эффективные ансамблевые модели машинного обучения, такие как **случайный лес**.

Алгоритмы на основе деревьев решений могут использоваться как для решения задач классификации, так и для регрессии.

Если коротко, решающее дерево предсказывает значение целевой переменной с помощью применения последовательности простых решающих правил. Этот процесс в некотором смысле согласуется с естественным для человека процессом принятия решений.

<center> ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ДЕРЕВЕ РЕШЕНИЙ


Представьте, что у вас есть автомобиль, который вы решили застраховать. Вы приходите в страховую компанию, где вам дают заполнить анкету. По этой анкете сотрудник страховой компании будет принимать решение, стоит ли выдавать вам страховку.

Сотрудник в свою очередь будет руководствоваться примерно следующим регламентом:

* Если возраст владельца > 40 лет, то:
   * Если место эксплуатации автомобиля — город, то:
     * Если стаж > 10 лет, то:
        * Застраховать.
     * Если стаж < 10 лет, то:
        * Не страховать.
   * Если место эксплуатации автомобиля — сельская местность, то:
     * Застраховать.
* Если возраст владельца ≤ 40 лет, то:
   * Если аварий не было зафиксировано, то:
     * Застраховать.
   * Если были аварии, то:
     * Если тип автомобиля — минивэн, то:
        * Застраховать.
     * Если тип автомобиля — спорткар, то:
        * Не страховать.

То есть сотрудник при принятии решения использует информацию, предоставленную вами в анкете, и подает её на вход вложенного условного оператора.

Для простоты восприятия можно представить такой подход визуально в виде следующего дерева:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/27403e09c1afce6e18d270e2d008cbdc/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/ML_3_6_1.png)

Аналогичным образом работает и алгоритм машинного обучения под названием **«дерево решений» (Decision Tree)**. 

Если дерево уже обучено, то есть уже сформулированы условия в прямоугольниках, то, когда в страховую компанию придёт новый автовладелец, сотруднику будет достаточно прогнать данные клиента через дерево решений и таким образом принять решение, то есть произвести классификацию.

Вот ещё один пример дерева решений. Большинство из нас когда-нибудь играли в игру «Слова на лбу» или «Тарантинки». На лоб каждого из игроков приклеивается бумажка с написанным на ней словом. Игрок может задавать другим игрокам вопросы о загаданном ему предмете/животном/человеке и т.д. Другие игроки могут отвечать на вопросы только «Да» и «Нет». Цель — за минимальное количество вопросов догадаться, о чём идёт речь.

Деревья решений находят своё применение во множестве прикладных задач.

Успешнее всего деревья применяют в следующих областях:

* Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов.
* Промышленность. Контроль качества продукции (обнаружение дефектов в готовых товарах), испытания без нарушений (например, проверка качества сварки) и т. п.
* Медицина. Диагностика заболеваний разной сложности.
* Молекулярная биология. Анализ строения аминокислот.
* Торговля. Классификация клиентов и товара.

Теперь перейдём к формальной части. Нам важно уже сейчас познакомиться с терминологией деревьев решений, чтобы понять общий принцип их обучения.

Пусть у нас есть всё та же матрица наблюдений X, в которой содержатся наблюдения и характеризующие их признаки (привычный нам DataFrame), и правильные ответы y — метки классов. 

Дадим определение дереву решений и его составляющим ↓

Формально структура дерева решений — это связный **ациклический граф**. Что это значит?

**Граф** — это абстрактная топологическая модель, которая состоит из вершин и соединяющих их рёбер.

**Связный граф** — это граф, в котором между любой парой существует направленная связь.

**Ациклический граф** — это граф, в котором отсутствуют циклы, то есть в графе не существует такого пути, по которому можно вернуться в начальную вершину.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/f129c44f5e025daed9f6d4ff9c6b9d2f/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/ML_3_6_2.png)

В дереве решений можно выделить три типа вершин:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/f0d47167ef66310bceaa98aacb01d7c7/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/ML_3_6_3.png)

**Корневая вершина (root node)** — то, откуда всё начинается. Это первый и самый главный вопрос, который дерево задаёт объекту. В примере со страхованием это был вопрос «Возраст автовладельца > 40».
**Внутренние вершины (intermediate nodes)** — это дополнительные уточняющие вопросы, которые дерево задаёт объекту. 
**Листья (leafs)** — конечные вершины дерева. Это вершины, в которых содержится конечный «ответ» — класс объекта.

Максимально возможная длина от корня до самых дальних листьев (не включая корневую) называется **максимальной глубиной дерева (max depth)**.

Во внутренней или корневой вершине признак проверяется на некий логический критерий, по результатам которого мы движемся всё глубже по дереву. Например, «Количество кредитов $\leq$ 1». 

Логический критерий, который находится в каждой вершине, называется **предикатом**, или **решающим правилом**.

На самом деле все предикаты — это просто взятие порога по значению какого-то признака. Формально это записывается следующим образом:

$B_v(x,t) = I[x_j \leq t]$

Предикат вершины дерева  $B_v$ (где  $v$ — это номер вершины) равен 1 («Да»), если признак $x_j$ меньше либо равен значению $t$, и 0 («Нет») — в противном случае. Функция $I$ с квадратными скобками — это уже знакомая нам индикаторная функция: она равна 1, если условие внутри скобок выполняется, и 0 — в противном случае.

<center> ПРОЦЕСС ПОСТРОЕНИЯ ДЕРЕВА РЕШЕНИЙ

✍ Существует множество [стратегий](https://scikit-learn.ru/1-10-decision-trees/#tree-algorithms-id3-c4-5-c5-0-and-cart) построения деревьев решений. Мы рассмотрим стратегию, реализованную в библиотеке sklearn, — алгоритм **CART (Classification and Regression Tree)**, который предназначен для построения бинарных деревьев решений (деревьев, у которых каждая вершина связана с двумя другими вершинами нижнего уровня). Данный алгоритм, как следует из его названия, предназначен для решения задач классификации и регрессии.

Пусть у нас есть матрица наблюдений X и столбец с ответами — метками классов y. На основе примеров и ответов мы хотим построить дерево решений, которое будет производить классификацию.

Итак, псевдокод рекурсивной функции для построения решающего дерева будет выглядеть следующим образом (*запускать код не нужно, так как он является абстрактным*):

In [None]:
def build_decision_tree(X, y):
    node = Node()
    if stopping_criterion(X, y) is True:
        node = create_leaf_with_prediction(y) 
        return node
    else:
        X_left, y_left, X_right, y_right = best_split(X, y)
        node.left = build_decision_tree(X_left, y_left)
        node.right = build_decision_tree(X_right, y_right)

Разберёмся, как работает алгоритм:

#### **1**

Создать новую вершину node.

На первой итерации это будет корневая вершина. На последующих это будут внутренние вершины.

#### **2**

Проверить некоторый критерий остановки stop_criterion().

Например, критерием остановки может быть следующее условие: все объекты, которые попали в вершину, — это объекты одного и того же класса.

Или достигнута максимальная глубина дерева (max_depth), например 5. Это значит, что дерево не будет продолжать делиться, если глубина уже равна 5.

Другой критерий: число наблюдений в листе (в sklearn этот параметр обозначен как min_samples_leaf) меньше заданного, например 7. Это значит, что при выполнении такого условия дерево продолжит делиться в том случае, если решающее правило выполняется как минимум для 7 наблюдений.

##### **2.1 Если условие остановки выполняется:**

Проверить, какой класс преобладает в текущей вершине. Превратить текущую вершину дерева в лист, где всем наблюдениям, которые попали в эту вершину, присвоить метку преобладающего класса.

Прекратить построение дерева, вернув из алгоритма полученный лист.

##### **2.2 Если условие остановки не выполняется:**

Среди всех возможных предикатов $B_v(x,t) = I[x_j \leq t]$ найти такой, который обеспечивает разбиение выборки **наилучшим образом**.

То есть нужно найти такой признак $x_j$ и пороговое значение $t$, при которых достигается максимум некоторой информативности (существуют разные меры информативности, о них поговорим ниже). Назовём эту часть алгоритма некоторой абстрактной функцией best_split().

Например, в нашем примере с ирисами это был предикат $Petal.Length \leq 2.45$. Он обеспечил наилучшее разделение пространства на две части.

В результате разбиения будут созданы два набора данных:

* X_left, y_left (левый), для которого выполняется условие $x_j \leq t$;
* X_right, y_right (правый), для которого условие не выполняется.

Создаются две новые вершины: левая и правая, в каждую из которых отправляется соответствующий набор данных.

То есть происходит рекурсивный вызов функции build_decision_tree(), и для каждой новой вершины алгоритм повторяется вновь с новым набором данных.

> **Примечание**. Вершина дерева node задаёт целое поддерево идущих за ним вершин, если такие имеются, а не только саму вершину.

Центральный момент в построении дерева решений по обучающему набору данных — найти такой предикат $B_v(x,t) = I[x_j \leq t]$, который обеспечит наилучшее разбиение выборки на классы. 

Как дерево определяет, какой вопрос нужно задать в каждой из вершин? 

Например, в задаче кредитного скоринга мы можем задавать множество различных вопросов в разной последовательности. Предикаты $B_0$ в первой вершине могут быть различными:

* возраст заёмщика $\leq$ 25 лет,
* возраст заёмщика $\leq$ 40 лет,
* размер кредита $\leq$ 1000 $,
* наличие детей $\leq$ 0.5 (если наличие детей — бинарный категориальный признак: 1 — есть дети, 0 — нет детей),
* и так далее.

Видно, что на место $x_j$ и $t$ можно подставить любой признак и порог соответственно.

Признак  и его пороговое значение  в каждой из вершин и есть внутренние параметры дерева решений, которые мы пытаемся отыскать. Это аналог коэффициентов уравнения линейной и логистической регрессий. 

<center> ПОИСК ПАРАМЕТРОВ ДЕРЕВА РЕШЕНИЙ

Обратите внимание, что внутренние параметры дерева решений кардинально отличаются от линейных моделей.

Важно понимать, что дерево решений — это топологический алгоритм, а не аналитический, то есть структуру дерева не получится описать в виде формулы, как те же линейные модели. Поэтому про стандартные методы оптимизации, такие как градиентный спуск или тем более метод наименьших квадратов, можно забыть. 