# Деревья решений

## Часть 1. Реализация алгоритма CART<br>(2 бала за первые 3 сдачи в каждой подгруппе, далее 1 бал)

Задачи:
 - Изучить принцип работы алгоритма CART (Classification and Regression Trees)
 - Реализовать дерево решений <b>только для категориальных признаков</b> с использованием двух критериев:
   - Индекс Джини (для первой подгруппы)
   - Энтропия Шэннона + прирост информации (для второй подгруппы)
 - Визуализировать обученное дерево (пример в файле `example.svg`)
  
Пояснения:
- Дерево должно быть бинарным
- Разделение вершины должно быть только по одному конкретному значению признака
 
Из сторонних библиотек разрешается использовать только `numpy` и `graphviz`.<br>
Дополнительно нужно установить библиотеку [graphviz](https://graphviz.org/download/)

In [1]:
%load_ext autoreload
%autoreload 2

In [None]:
%matplotlib inline
import numpy as np
from matplotlib import pyplot as plt

plt.rcParams["figure.figsize"] = (10, 8)

In [None]:
import numpy as np


class Node:
    def __init__(self, ...):
        # your code here
        ...

    def __repr__(self):
        # your code here
        ...


class DecisionTree:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth  # Максимальная глубина дерева
        self.min_samples_split = min_samples_split  # Минимальное количество образцов для разделения
        self.root: Node | None = None

    def fit(self, X: np.array, y: np.array):
        """Обучение дерева на данных X и y."""
        self._build_tree(X, y, 0)

    def _build_tree(self, X: np.array, y: np.array, depth: int) -> Node:
        """Рекурсивное построение дерева."""

        # Возвращаем корень дерева
        return root

    def _find_best_split(self, X, y):
        """Поиск лучшего разделения по заданному критерию."""
        # your code here

    def predict(self, X: np.array) -> np.array:
        """Предсказание класса для новых данных."""
        # your code here

In [None]:
# Игрушечный пример данных
# Пример данных (погода -> играть в гольф?)
X = np.array(
    [
        ["Sunny", "Hot", "High", "Weak"],
        ["Sunny", "Hot", "High", "Strong"],
        ["Overcast", "Hot", "High", "Weak"],
        ["Rain", "Mild", "High", "Weak"],
        ["Rain", "Cool", "Normal", "Weak"],
        ["Rain", "Cool", "Normal", "Strong"],
        ["Overcast", "Cool", "Normal", "Strong"],
        ["Sunny", "Mild", "High", "Weak"],
        ["Sunny", "Cool", "Normal", "Weak"],
        ["Rain", "Mild", "Normal", "Weak"],
        ["Sunny", "Mild", "Normal", "Strong"],
        ["Overcast", "Mild", "High", "Strong"],
        ["Overcast", "Hot", "Normal", "Weak"],
        ["Rain", "Mild", "High", "Strong"],
    ]
)

y = np.array(
    ["No", "No", "Yes", "Yes", "Yes", "No", "Yes", "No", "Yes", "Yes", "Yes", "Yes", "Yes", "No"]
)
feature_names = ["Outlook", "Temperature", "Humidity", "Wind"]

In [None]:
# Создание и обучение модели
tree = DecisionTree(max_depth=3)
tree.fit(X, y)

In [None]:
# Предсказание
test_samples = np.array(
    [
        ["Overcast", "Hot", "Normal", "Weak"],  # Ожидаемый результат: Yes
        ["Sunny", "Hot", "High", "Strong"],  # Ожидаемый результат: No
    ]
)
print(tree.predict(test_samples))  # Output: ['Yes' 'No']

In [None]:
from graphviz import Digraph

def visualize_tree(tree: DecisionTree, feature_names: list) -> Digraph:
    dot = Digraph(comment="Decision Tree")
    # all you need from graphviz:
    # dot.node(node_id, label=label, shape="box")
    # dot.edge(parent_node_id, node_id, label=edge_label)

    # your code here
    return dot


visualize_tree(tree, feature_names)