### Деревья решений

#### Методы построения
* бинарное дерево
* дерево: кусочно-постоянная функция

$
x^{(k)} < t
$

где $t$ - threshold  
$k$ - feature

#### Критерии информативности

Как выбираются критерии разбиения?

H(R) - критерий информативности (impurity criterion) **мера хаоса, который мы стараемся уменьшить**
* оценивает качество распределения целевой переменной среди объектов множества D
* чем меньше разнообразие целевой переменной, тем меньше должно быть значение критерия информативности
* соответственно, мы будем искать минимум его значения

$
C(k,t)  = \frac{|L|}{|D|} H(L) + \frac{|R|}{|D|} H(R) \rarr min_{k,t}
$

D - всё множество значений  
L - левое подмножество  
К - правое подмножество  

Максимизируют Information Gain:

$
Q(D,k,t) = H(D) - C(k,t)
$

$
Q(D,k,t) = H(D) - \frac{|L|}{|D|} H(L) - \frac{|R|}{|D|} H(R) \rarr max_{k,t}
$

**Функция ошибки в деревьях не используется**

##### Критерий информативности: Энтропия Шеннона

Мера неопределённости некоторой системы. Оценивает непредсказуемость появления какого-то лейбла.

$
H(x) = -\sum_{i=1}^n p_i log_2 p_i
$

##### Критерий информативности: коэффициент Gini

Математическое ожидание того, что ошибёмся при разбиении.

$
G = 1 - \sum_{k=0}^K p_k^2
$

##### Критерии для регрессии. MSE (mean square error).

Используем среднеквадратичную ошибку MSE. Минимизируем MSE.

$
H(D) = min_c \frac{1}{|D|} \sum_{x_i,y_i \in R} (y_i - c)^2
$

$
c^* = \frac{1}{|D|} \sum_{y_i \in R} y_i
$

Для меньших масштабов данных используется ошибка MAE (mean absolute error).


#### Алгоритм построения

* выполнить разбиение
* повторить

```
def build(L):
    create node t
    if the stopping criterion is True:
        assign a predictive model to t
    else:
        Find the best binary split L = L_left + L_right
        t.left = build(L_left)
        t.right = build(L_right)
    return t
```

Критерии останова:
* ограничение максимальной глубины дерева
* ограничение минимального числа объектов в листе
* ограничение максимального количества листьев в дереве
* требование, что функционал качества (information gain) при дроблении улучшился как минимум на $s$ процентов
* останов в случае, если все объекты в листе относятся к одному классу
