In [1]:
%pip install -q otter-grader

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.5/142.5 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m101.6/101.6 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m139.8/139.8 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m118.8/118.8 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m88.0/88.0 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m28.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/2.2 MB[0m [31m40.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.3/46.3 MB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
# Initialize Otter
import otter
grader = otter.Notebook()

ValueError: Tests directory ./tests does not exist

# **Домашнее задание 3.** Решающие деревья

В данном задании необходимо написать собственное решающее дерево.

In [None]:
from __future__ import annotations

from abc import abstractmethod
from dataclasses import dataclass
from typing import Literal, Optional, Self, Union

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import make_friedman3, make_moons
from sklearn.metrics import accuracy_score, mean_absolute_error
from sklearn.model_selection import train_test_split

sns.set_theme(style="whitegrid")

---

### **Задание 1.** Меры неопределенности. Индекс Джини и энтропия

Для построения решающего дерева необходимо уметь оценивать неоднородность (impurity) в каждой вершине. При решении задачи классификации в качестве меры неоднородности можно использовать **индекс Джини** или **энтропию**:

- Индекс Джини:

  $$
  H_{\text{Gini}} = \sum_k p_k (1 - p_k)
  $$

- Энтропия:

  $$
  H_{\text{Entropy}} = - \sum_k p_k \log_2 p_k
  $$

Здесь $p_k$ — доля объектов класса $k$ в вершине.


_Points:_ 2

In [None]:
def gini(p: np.ndarray) -> float:
    """
    Args:
        p (np.ndarray): вектор вероятностей.

    Returns:
        float: значение индекса Джини.
    """
    ...


def entropy(p: np.ndarray) -> float:
    """
    Args:
        p (np.ndarray): вектор вероятностей.

    Returns:
        float: значение энтропии.
    """
    ...

In [None]:
grader.check("Task1")

---

### **Задание 2.** Решающее дерево

Ниже реализован класс `Node`, представляющий одну вершину дерева. Атрибут `value` используется для хранения предсказаний в листовых вершинах. Остальные атрибуты нужны только для внутренних вершин:

- `feature` — индекс признака;  
- `threshold` — порог для разделения по данному признаку;  
- `lchild` — левая дочерняя вершина;  
- `rchild` — правая дочерняя вершина.

In [None]:
@dataclass
class Node:
    """Вершина решающего дерева."""

    value: Optional[Union[int, float]] = None
    feature: Optional[int] = None
    threshold: Optional[float] = None
    lchild: Optional[Node] = None
    rchild: Optional[Node] = None

Ознакомьтесь с классом `DecisionTreeModel`. Вам необходимо реализовать методы `_fit_node` и `_predict_node`. Обращайте внимание на подсказки в коде.

_Points:_ 5

In [None]:
class DecisionTreeModel:
    def __init__(self, max_depth: int = 5, min_leaf_size: int = 2) -> None:
        """
        Args:
            max_depth (int, optional): максимальная глубина дерева.
                Defaults to 5.
            min_leaf_size (int, optional): минимальное количество объектов в листе.
                Defaults to 2.
        """
        self.max_depth = max_depth
        self.min_leaf_size = min_leaf_size

    def fit(self, X: np.ndarray, y: np.ndarray) -> Self:
        self.root = Node()  # создаем корневой узел
        self._fit_node(self.root, X, y, 0)  # начинаем обучение
        return self

    def predict(self, X: np.ndarray) -> np.ndarray:
        preds = [self._predict_node(self.root, x) for x in X]
        return np.asarray(preds)

    def _fit_node(self, node: Node, X: np.ndarray, y: np.ndarray, depth: int) -> None:
        """Обучает узел.

        Args:
            node (Node): обучаемый узел.
            X (np.ndarray): объекты, матрица размера (?, d), где d - количество признаков.
            y (np.ndarray): целевые переменные, вектор размера (?,).
            depth (int): текущая глубина рекурсии.
        """
        # проверяем, не пора ли остановиться
        if depth >= self.max_depth or y.size <= self.min_leaf_size or np.all(y == y[0]):
            self._make_leaf(node, y)
            return  # завершаем обучение

        # здесь будем хранить лучшее разбиение
        best_feature, best_threshold, best_impurity = None, None, None

        n_features = ...
        n_samples = ...

        for feature in range(n_features):  # перебираем признаки
            # TODO: найдите уникальные значения данного признака
            unique = ...

            if unique.size <= 1:
                continue  # пропускаем признак, если все его значения одинаковые

            for threshold in unique[:-1]:  # перебираем пороги (уникальные значения)
                # TODO: разбейте целевые переменные на два подмножества (<= threshold)
                mask = ...

                yl = ...
                yr = ...

                # если в одной из дочерних вершин оказалось недостаточно объектов, пропускаем разбиение
                if (yl.size < self.min_leaf_size) or (yr.size < self.min_leaf_size):
                    continue

                # TODO: используя метод `self._impurity`, рассчитайте меру неопределенности для разбиения:
                # |yl| / |y| x impurity(yl) + |yr| / |y| x impurity(yr) -> min
                # fmt: off
                impurity = ...
                # fmt: on

                # сравниваем с лучшим разбиением и при необходимости обновляем его
                if (best_impurity is None) or (impurity < best_impurity):
                    best_feature, best_threshold, best_impurity = feature, threshold, impurity

        # если не удалось найти подходящее разбиение данных, завершаем обучение
        if best_feature is None or best_threshold is None:
            self._make_leaf(node, y)
            return  # завершаем обучение

        # TODO: обновите атрибуты обучаемого узла
        node.feature = ...
        node.threshold = ...

        # TODO: разделите данные на два подмножества, используя лучшее разбиение
        mask = ...

        Xl, yl = ...
        Xr, yr = ...

        node.lchild = Node()  # создаем левую дочернюю вершину
        self._fit_node(node.lchild, Xl, yl, depth + 1)  # обучаем ее

        node.rchild = Node()  # создаем правую дочернюю вершину
        self._fit_node(node.rchild, Xr, yr, depth + 1)  # обучаем ее

    def _predict_node(self, node: Node, x: np.ndarray) -> Union[int, float]:
        """Делает предсказание для объекта или перенеправляет его в дочерний узел.

        Args:
            node (Node): узел.
            x (np.ndarray): объект.
        """
        # TODO: если узел листовой, верните его значение
        ...

        # TODO: если узел внутренний, проверьте, в какой из его дочерних узлов следует перенаправить объект.
        # Затем верните предсказание для этого дочернего узла: `return self._predict_node(node.?child, x)`
        ...

    @abstractmethod
    def _make_leaf(self, node: Node, y: np.ndarray) -> None:
        pass  # необходимо реализовать в дочернем классе

    @abstractmethod
    def _impurity(self, y: np.ndarray) -> float:
        pass  # необходимо реализовать в дочернем классе

In [None]:
grader.check("Task2")

---

### **Задание 3.** Классификация

Теперь напишем класс `DecisionTreeClassifier`. К счастью, нам осталось реализовать только методы `_make_leaf` и `_impurity`. Оценивать модель будем на синтетических данных.



_Points:_ 3

In [None]:
X, y = make_moons(n_samples=1_000, noise=0.25, random_state=451)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, stratify=y)

sns.scatterplot(x=X_train[:, 0], y=X_train[:, 1], hue=y_train, palette="bwr", edgecolor="black")
plt.xlabel("$ x_1 $")
plt.ylabel("$ x_2 $")
plt.show()

In [None]:
class DecisionTreeClassifier(DecisionTreeModel):
    def __init__(
        self,
        max_depth: int = 5,
        min_leaf_size: int = 1,
        criterion: Literal["gini", "entropy"] = "gini",
    ) -> None:
        super().__init__(max_depth=max_depth, min_leaf_size=min_leaf_size)

        self.criterion = criterion

    def _make_leaf(self, node: Node, y: np.ndarray) -> None:
        # что является предсказанием решающего дерева в задаче классификации?
        ...
        node.value = ...

    def _impurity(self, y: np.ndarray) -> float:
        # TODO: рассчитайте долю каждого класса среди целевых переменных
        ...
        p = ...

        if self.criterion == "gini":
            return gini(p)
        else:
            return entropy(p)

In [None]:
...

In [None]:
y_pred = ...
print(f"Accuracy: {accuracy_score(y_test, y_pred):.3f}")

In [None]:
grader.check("Task3")

---

### **Задание 4.** Регрессия

Перейдем к задаче регрессии. Вам снова необходимо реализовать методы `_make_leaf` и `_impurity`, но с учётом новой постановки задачи.


_Points:_ 3

In [None]:
X, y = make_friedman3(n_samples=1_000, noise=0.1, random_state=451)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

plot_data = pd.DataFrame(X_train, columns=[f"$ x_ {i}$" for i in range(1, 5)])
plot_data["$ y $"] = y_train
sns.pairplot(plot_data)

In [None]:
class DecisionTreeRegressor(DecisionTreeModel):
    def _make_leaf(self, node: Node, y: np.ndarray) -> None:
        # что является предсказанием решающего дерева в задаче регрессии?
        node.value = ...

    def _impurity(self, y: np.ndarray) -> float:
        # что является мерой неоднородности в задаче регрессии?
        ...

In [None]:
...

In [None]:
y_pred = ...
print(f"MAE: {mean_absolute_error(y_test, y_pred):.3f}")

In [None]:
grader.check("Task4")

## Submission

Make sure you have run all cells in your notebook in order before running the cell below, so that all images/graphs appear in the output. The cell below will generate a zip file for you to submit. **Please save before exporting!**

In [None]:
# Save your notebook first, then run this cell to export your submission.
grader.export(pdf=False, run_tests=True)