# Notes on
[Р.В. Шамин. Лекция 5. Теории информации и решающие деревья для принятия экономических решений](http://www.mathnet.ru/php/seminars.phtml?presentid=19642)

- [x] Определение Решающих деревьев
- [x] Экономический смысл и пример
- [x] Случайный лес

Рабочий интсрумент для решения задачи классификации, регреса, прогноза, ...

Решающие деревья воспроизводят логические схемы, позволяющие получить окончательное решение о
классификации объекта с помощью ответов на иерархически организованную систему вопросов.

Причём вопрос, задаваемый на последующем иерархическом уровне, зависит от ответа, полученного на
предыдущем уровне.

Решающие деревья представимы в виде двоичного дерева.

Двоичное дерево - это нелинейная структура данных, которая используется для поиска и организации данных.
Двоичное дерево состоит из узлов. Каждый узел представляет собой компонент из данных,
ссылку на левого ребенка и ссылку на правого ребенка.

Ниже приведены некоторые ключевые терминологии, связанные с бинарным деревом.

Узел - самая элементарная единица бинарного дерева.

 - Самый верхний элемент. В бинарном дереве есть только один корень.
- Лист - Листья бинарного дерева - узлы, которые не имеют детей.
- Уровень - Это поколение соответствующего узла. Корень имеет уровень 0, дети корневого
узла находятся на уровне 1, внуки корневого узла находятся на уровне 2 и так далее.
- Родитель - Узел, который находящийся на однин уровнень вверх от узла.
- Ребенок - Узлы, который находящийся на однин уровнень вниз от узла.

Пример:
```
# Двоичное дерево
#         корень
#        /     \
#      узел    узел
#     /    \   /   \
#  None  лист лист лист
```

Рассмотрим двоичное дерево, которое содержит в качестве данных некий вопрос подразумевающий двоичный ответ("Да/Нет, >/<, ...)



In [None]:
class Node:
    def __init__(self, data):
        self.left = None
        self.right = None
        self.data = data
        self.answer = answer(data)
    def answer(data):
        # вопрос зависящий от предыдущих ответов
        return data

Приведем пример регресивного дерева(дерева решающего задачу регрессии):

Пусть задан временной ряд:

$y_i$ | $x_i$
- | -
0 | 1
2 | 2
4 | 3
9 | 4
10 | 5

$\overline{a}=(a_1+...a_n)/n$

$RSS(a_1, a_2, ...,a_n) = (a_1-\overline{a})^2+(a_2-\overline{a})^2+...+(a_n-\overline{a})^2$ 

[A residual sum of squares (RSS) is a statistical technique used to measure the amount of variance in a data set that is not explained by a regression model itself.](https://www.investopedia.com/terms/r/residual-sum-of-squares.asp)

Сформулируем вопросы $T(x)$:

1. $f_1(x): x_i\leq2$
2. $f_2(x): x_i\leq3$
```
         +-------------+      
         |(0,2,4,9,10) |      
         |-------------|      
         |    x<=2     |      
         +-------------+      
          /      \            
      да /        \ нет       
        /          \          
    +-----+   +--------+      
    |(0,2)|   |(4,9,10)|      
    |-----|   |--------|      
    |  1  |   |  x<=3  |      
    +-----+   +--------+      
               /      \       
           да /        \ нет  
             /          \     
         +-----+     +------+ 
         | (4) |     |(9,10)| 
         |-----|     |------| 
         |  4  |     |  9.5 | 
         +-----+     +------+
```

Вопросы должны удовлетворять критерию: RSS суммы наборов данных после ответа должен быть меньше RSS изначального набора.

Высота дерева - максимальный путь от корня до листа

Эффективное дерево должно иметь осязаемую высоту в задачах естествознания и экономики. 

Решающее дерево как альтернатива задаче линейной регрессии

Задача линейной регрессии: $y=f(x^1,x^2,...,x^n)$

$y=T(x)$

Благодаря построению дерева осязаемой глубины, мы получим больше понимания входного набор данных $(x^1,x^2,...,x^n)$

In [None]:
def disp(arr: list):
    e = sum(arr)/len(arr)
    d = sum([(x - e)**2 for x in arr])/len(arr)
    return d

def split(arr: list, k: int):
    return (arr[:k], arr[k:])

def optSplit(arr: list):
    if disp(arr) == 0:
        return
    optK = 1
    (c1, c2) = split(arr, optK)
    optD = disp(c1) + disp(c2)
    for k in range(1, len(arr)):
        (c1, c2) = split(arr, k)
        d = disp(c1) + disp(c2)
        if d < optD:
            optD = d
            optK = k
    (c1, c2) = split(arr, optK)
    print(f'Left: {c1} Right: {c2} optD: {optD}')
    optSplit(c1)
    optSplit(c2)


a = [1, 2, 4, 9, 10]
optSplit(a)

## Случайный лес(Random forest)

Эффективно при большом n в наборах данных $(x^1,x^2,...,x^n)$

Например при 100 значений параметра, мы формируем 500 деревьев каждый раз выбирая случайным образом 10 параметров.

Случайный лес и есть подобный набор деревьев.

В итоге сумирая и усредняя ответы от всех деревьев мы получаем ответ.
