<a href="https://colab.research.google.com/github/Krahjotdaan/MachineLearning/blob/main/DecisionTree_implementation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ПРАКТИКА - решающее дерево своими руками

In [None]:
import numpy as np
import pandas as pd

import math
from collections import Counter

from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

## ШАГ 1
Реализуйте класс для вершины дерева.
- вам потребуются атрибуты :
    - левое и правое поддеревья
    - признак, по которому идет разбиение, и его пороговое значение
    - ответ для листовой вершины
- вам потребуются методы :
    - вычисления информационного критерия (энтропии)
    - вычисления фунции потерь
    - определения останова
    - обучения вершины дерева

**Полезно будет вспомнить рекурсию!**

Энтропийный критерий вычисляется по формуле
$$H(X)=-\sum_{k=1}^{K}p_k \log p_k$$
где $p_k=\frac{1}{|X|}\sum[y_i=k]$

Обучение состоит в поиске такого признака j и его порогового значения t, которые максимизируют функционал

$$Q(X, j, t) = H(X) - \frac{|X_l|}{|X|}H(X_l) - \frac{|X_r|}{|X|}H(X_r)$$
и дальнейшем разбиении X на вершины $X_l$ и  $X_r$

In [None]:
class Node:
    def __init__(self):
        self.l = None #левое мн-во
        self.r = None #правое мн-во
        self.threshold = -1 #порог
        self.feature = None #признак разбиения
        self.answer = None #предсказание

    def H(self, X):
        # ЭНТРОПИЯ
        c = Counter(X)
        s = 0

        for v in c.values():
          p = v / len(X)
          s += math.log(p) * p

        return -s


    def Q(self, X, Xl, Xr):
        # ФУНКЦИЯ ПОТЕРЬ
        return self.H(X) - len(Xl) / len(X) * self.H(Xl) - len(Xr) / len(X) * self.H(Xr)


    def is_stop(self, y):
        return len(Counter(y).keys()) <= 1

    def fit(self, X, y):
        if self.is_stop(y):
          self.answer = Counter(y).most_common()[0][0]
          return

        max_q = -1
        max_feature = None
        max_threshold = -1

        for feature in X.columns:
          for v in np.unique(X[feature].values):
            left_cond = X[feature] <= v
            right_cond = X[feature] > v

            q = self.Q(y, y[left_cond], y[right_cond])

            if q >= max_q:
              max_q = q
              max_feature = feature
              max_threshold = v

        self.feature = max_feature
        self.threshold = max_threshold

        print(self.feature, self.threshold)

        self.l = Node()
        self.r = Node()

        left_cond = X[self.feature] <= self.threshold
        right_cond = X[self.feature] > self.threshold

        self.l.fit(X[left_cond], y[left_cond])
        self.r.fit(X[right_cond], y[right_cond])

### Проверьте работу вашего класса:

In [None]:
iris = load_iris()
df = pd.DataFrame(data=np.c_[iris['data'], iris['target']],
                  columns=iris['feature_names'] + ['target'])
df_bin = df[df['target'] < 2]
y = df_bin['target']
X = df_bin.drop(columns=['target'])
n = Node()
n.fit(X, y)

petal width (cm) 0.6


## ШАГ 2
Реализуйте класс для решающего дерева.
- вам потребуются атрибуты :
    - корень дерева
- вам потребуются методы :
    - обучение дерева
    - вычисление прогноза
    - вывод информации о дереве (ответ листовой вершины, признак и порог вершины)

In [None]:
class DecisionTree:
    def __init__(self):
        # your code here

    def fit(self, X, y):
        # your code here

    def predict(self, X):
        # your code here

    def print_conditions(self):
        # your code here


### Проверьте работу вашего класса:

In [None]:
iris = load_iris()
df = pd.DataFrame(data=np.c_[iris['data'], iris['target']],
                  columns=iris['feature_names'] + ['target'])

y = df['target']
X = df.drop(columns=['target'])

dt = DecisionTree()
dt.fit(X, y)
dt.print_conditions()
y_pred = dt.predict(X)

print(len(y), len(y_pred), len(X))
print(accuracy_score(y, y_pred))