## Cамостоятельная реализация решающего дерева  

#### Определение дерева

Решающее дерево - **бинарное** дерево, в котором:
1. Каждой *внутренней вершине* $v$ присвоен предикат предсказания: $B_v : \mathbb{X} \rightarrow \{0, 1\}$
2. Каждой *листовой вершине* $v$ присвоен прогноз $C_v: \mathbb{Y}$, где $\mathbb{Y}$ - область значений таргета

Каждый проход дерева начинается из корня. При прохождении очередной вершины мы двигаемся: *вправо*, если $B_v(x) = 1$; *влево*, если $B_v(x) = 0$. 

При достижении листа на объекте $x$, прогнозом для него будет являться $C_v$

Особенности решающего дерева:
1. Полученная функция кусочно-постоянная $\rightarrow$ **не получится применить градиентные методы**
2. Дерево **не может экстраполировать данные** за пределы уже имеющейся области значений признаков обучающей выборки
3. Дереву свойственно **переобучение**

#### Решающий пень
Дерево можно разбить на составляющие - решающие пни. Они будут представлять собой одну и вершину и два дочерних листа.

Вершину мы будем разделять на листы при помощи предиката $B_{j, t}(x_i)$ . Качество разбиения мы будем оценивать при помощи критерия ветвления $Branch$.

На листьях подзнее мы можем принять решение о необходимости дальнейшего разбиения -> построения еще одного решающего пня.


#### Сложность решающего пня

Пусть у нас есть матрица значений признаков $X \in \mathbb{R}^{D \times N}$ и вектор таргетов $Y \in \mathbb{R}^N$.

В основе вершины пня будет находится разделяющий предикат:
$$B_{j, t}(x_i) = \mathbb{I}\left[x_{ij} \le t\right]$$
Мы будем проходить не по самим значениям признаков, а по средним между значениями.
$$x_i < t_i \le x_{i+1}$$
Поэтому мы пройдем всего по $N-1$ значению каждого признака.

Тогда решение на пне примет вид:
$$(j_{opt}, t_{opt}) = \arg\min_{j,t} L \left( B_{j, t}, X, y \right)$$

Для того чтобы рассчитать $loss$, необходимо еще одного прохождение по $N$, в результате получим, что полный алгоритм решающего пня будет выполняться за $O(DN^2)$, где $D$ - кол-во признаков, $N$ - кол-во объектов.

#### Главная проблема решающих деревьев

Запустив предложенный выше алгоритм рещающего пня рекурсивно, он будет выполняться до тех пор, пока полностью не выучит обучающую выборку -> переобучится.

Если мы поставим задачу найти оптимальное решающее дерево при минимальном количестве разбиений, то решение такой задачи не сможем найти за полиномиальное время, т. к. она относится к np - полным задачам.

Чтобы решить ситуацию в настоящий момент пользуются двумя способами:
1. Жадный алгоритм
2. Оптимизация исходного алгоритма ассимптотически и в константу раз

#### Жадный алгоритм построения решающего дерева
У нас уже есть матрица значений признаков $X$, определенная выше. Пусть $X_m \subset X$ - множество всех объектов попавших в текущий лист.

1. Создаем вершину $v$
2. **Если**: выполнен ли критерий остановки $Stop(X_m)$, **то** останавливаемся и ставим ответ $Answ(X_m)$, объявив вершину листом.
3. **Иначе**: Находим предикат $B_{j, t}$ имеющий лучшее разбиение на листы $X_m \rightarrow X_l, X_r$. Максимизируя критерий ветвления $Branch(X_m)$
4. Рекурсивно выполняем алгоритм для листьев $X_l, X_r$

In [None]:
class DecisionTreeClassifier():
    def __init__(self):
        pass

    def __loss(self):
        pass
    
    def __split_node(self):
        pass
        
    def fit(self, X:np.ndarray):
        self.X = X
        self.thresholds = []
        self.features = []
        
    def predict(self):
        pass