# Лабораторная работа №3: Решающие деревья
	1.	Подготовка данных:
	•	Аналогично предыдущим работам: обработка категориальных переменных, нормализация, разделение на обучающие и тестовые выборки.
	2.	Базовые модели:
	•	Обучение DecisionTreeClassifier и DecisionTreeRegressor.
	•	Оценка качества по метрикам accuracy, MSE, R².
	3.	Улучшение бейзлайна:
	•	Подбор гиперпараметров (max_depth, min_samples_split, min_samples_leaf) с помощью GridSearchCV или RandomizedSearchCV.
	4.	Пользовательская реализация:
	•	Реализация кастомных алгоритмов для решающих деревьев (классификация и регрессия).
	•	Оценка их качества и сравнение с библиотечными реализациями.

In [None]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.metrics import accuracy_score, mean_squared_error
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Загрузка данных для классификации
# Чтение CSV файла, содержащего текстовые данные (job_title) и целевые категории (category).
classification_data = pd.read_csv("/content/drive/MyDrive/AIMAI/ds1.csv")

# Предварительная обработка данных
# Удаление строк с пропущенными значениями, чтобы избежать ошибок при обработке текста.
classification_data = classification_data.dropna()

# Выделение признаков и целевой переменной
# job_title: текстовые данные, которые будут преобразованы в числовую форму.
# category: целевая переменная, представляющая классы.
X_text = classification_data['job_title']  # Признаки (текстовые данные)
y_class = classification_data['category']  # Целевая переменная

# Преобразование текстовых данных в числовые
# Используем метод Bag of Words (CountVectorizer), чтобы представить текстовые данные в виде числовой матрицы.
# Каждая строка текста преобразуется в вектор, где значения представляют количество вхождений слов.
vectorizer = CountVectorizer()
X_class = vectorizer.fit_transform(X_text)

# Разделение данных на обучающую и тестовую выборки
# Разделяем данные на:
# - Обучающую выборку (80%): используется для обучения модели.
# - Тестовую выборку (20%): используется для проверки качества модели.
# random_state=42 фиксирует случайное состояние для воспроизводимости.
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(
    X_class, y_class, test_size=0.2, random_state=42
)

In [None]:
# Загрузка данных для задачи регрессии
# Читаем CSV файл с признаками и целевой переменной.
regression_data = pd.read_csv("/content/drive/MyDrive/AIMAI/ds2.csv")

# Удаление ненужных столбцов
# Исключаем:
# - "price" (целевую переменную, которую будем предсказывать),
# - "Address" и "desc" (текстовые столбцы, не участвующие в модели).
X_reg = regression_data.drop(columns=["price", "Address", "desc"])
y_reg = regression_data["price"]  # Выделяем целевую переменную.

# Преобразование категориальных данных в числовые
# Преобразуем текстовые и категориальные признаки в числовые с помощью метода one-hot encoding.
# drop_first=True удаляет первый уровень категории, чтобы избежать мультиколлинеарности.
X_reg = pd.get_dummies(X_reg, drop_first=True)

# Разделение данных на обучающую и тестовую выборки
# Тренировочная выборка (80%): для обучения модели.
# Тестовая выборка (20%): для проверки качества модели.
# random_state=42 фиксирует случайное состояние для воспроизводимости результатов.
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=42
)

In [None]:
# Создание экземпляра решающего дерева для задачи классификации
# random_state=42 фиксирует случайное состояние для обеспечения воспроизводимости результата.
dt_classifier = DecisionTreeClassifier(random_state=42)

# Обучение модели решающего дерева
# X_train_class: обучающие признаки (матрица признаков).
# y_train_class: обучающие метки классов.
dt_classifier.fit(X_train_class, y_train_class)

# Оценка качества модели
# Предсказание классов для тестовой выборки.
y_pred_class = dt_classifier.predict(X_test_class)

# Вычисление точности (accuracy)
# Сравниваем предсказанные метки (y_pred_class) с реальными метками (y_test_class).
accuracy = accuracy_score(y_test_class, y_pred_class)

# Вывод точности модели
print(f'Accuracy for classification: {accuracy:.4f}')

Accuracy for classification: 0.7923


In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Создание экземпляра решающего дерева для задачи регрессии
# random_state=42 фиксирует случайное состояние для воспроизводимости результата.
dt_regressor = DecisionTreeRegressor(random_state=42)

# Обучение модели решающего дерева
# X_train_reg: обучающие признаки (матрица признаков).
# y_train_reg: целевая переменная для обучающей выборки.
dt_regressor.fit(X_train_reg, y_train_reg)

# Прогнозирование значений целевой переменной на тестовой выборке
# X_test_reg: тестовые признаки (матрица признаков).
y_pred_reg = dt_regressor.predict(X_test_reg)

# Оценка качества модели

# MAE (Mean Absolute Error): средняя абсолютная ошибка.
# Показывает среднее абсолютное отклонение предсказанных значений от реальных.
mae = mean_absolute_error(y_test_reg, y_pred_reg)

# MSE (Mean Squared Error): среднеквадратичная ошибка.
# Указывает на средний квадрат разницы между предсказанными и реальными значениями.
mse = mean_squared_error(y_test_reg, y_pred_reg)

# R² (R-squared): коэффициент детерминации.
# Показывает, насколько хорошо модель объясняет дисперсию данных (значение от 0 до 1, где 1 — идеально).
r2 = r2_score(y_test_reg, y_pred_reg)

# Вывод метрик качества модели
print(f"MAE: {mae:.4f}")  # Средняя абсолютная ошибка
print(f"MSE: {mse:.4f}")  # Среднеквадратичная ошибка
print(f"R^2: {r2:.4f}")   # Коэффициент детерминации

MAE: 230981.9121
MSE: 822028294573.6434
R^2: 0.9861


In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.ensemble import RandomForestClassifier, GradientBoostingRegressor
from sklearn.metrics import accuracy_score, mean_absolute_error, mean_squared_error, r2_score
from sklearn.impute import SimpleImputer

# Препроцессинг данных

# Преобразование разреженной матрицы в плотную (если данные в разреженном формате)
# Это необходимо для корректной работы некоторых моделей и методов обработки данных.
X_train_class_dense = X_train_class.toarray()
X_test_class_dense = X_test_class.toarray()

# Масштабирование данных
# StandardScaler стандартизирует данные, приводя их к нулевому среднему и единичному стандартному отклонению.
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_class_dense)  # Обучаем scaler и применяем его к обучающим данным
X_test_scaled = scaler.transform(X_test_class_dense)       # Применяем обученный scaler к тестовым данным

# Замещение пропусков (если в данных есть пропущенные значения)
# Используем стратегию замещения средними значениями по каждому столбцу.
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train_class)  # Замещаем пропуски в обучающей выборке
X_test_imputed = imputer.transform(X_test_class)        # Замещаем пропуски в тестовой выборке

# Масштабирование данных (в случае разреженных матриц)
# StandardScaler применяется без центрирования (with_mean=False) для совместимости с разреженными матрицами.
scaler = StandardScaler(with_mean=False)
X_train_scaled = scaler.fit_transform(X_train_imputed)  # Масштабирование обучающих данных
X_test_scaled = scaler.transform(X_test_imputed)        # Масштабирование тестовых данных

# Подбор гиперпараметров через GridSearchCV
# Уменьшаем диапазон гиперпараметров для ускорения выполнения
param_grid = {
    'n_estimators': [100, 150],       # Количество деревьев в лесу
    'max_depth': [10, 15],            # Максимальная глубина дерева
    'min_samples_split': [2, 4]       # Минимальное количество объектов для разделения узла
}

# Инициализация модели случайного леса
# random_state=42 фиксирует случайное состояние для воспроизводимости.
# n_jobs=-1 позволяет использовать все доступные ядра процессора.
rf_classifier = RandomForestClassifier(random_state=42, n_jobs=-1)

# Инициализация GridSearchCV
# cv=3: трехкратная кросс-валидация для проверки качества на обучающей выборке.
# n_jobs=-1: использование всех ядер процессора для ускорения выполнения.
grid_search_rf = GridSearchCV(rf_classifier, param_grid, cv=3, n_jobs=-1)

# Обучение модели с подбором гиперпараметров
# Обучаем GridSearchCV на масштабированных данных и метках классов
grid_search_rf.fit(X_train_scaled, y_train_class)

# Вывод лучших гиперпараметров
print("Best parameters for Random Forest:", grid_search_rf.best_params_)

# Оценка качества модели на тестовой выборке
# Предсказание классов на тестовых данных с использованием лучшей модели (best_estimator_).
y_pred_class_rf = grid_search_rf.best_estimator_.predict(X_test_scaled)

# Вычисление точности (accuracy)
# Сравниваем предсказанные метки (y_pred_class_rf) с реальными метками (y_test_class).
accuracy = accuracy_score(y_test_class, y_pred_class_rf)

# Вывод точности модели
print("Accuracy of the model:", accuracy)



Best parameters for Random Forest: {'max_depth': 15, 'min_samples_split': 4, 'n_estimators': 100}
Accuracy of the model: 0.6926994906621392


In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# Препроцессинг данных
# Замещение пропущенных значений средними значениями по каждому столбцу.
imputer = SimpleImputer(strategy="mean")
X_train_imputed = imputer.fit_transform(X_train_reg)  # Замещаем пропуски в обучающих данных
X_test_imputed = imputer.transform(X_test_reg)        # Замещаем пропуски в тестовых данных

# Подбор гиперпараметров
# Определяем диапазон значений для гиперпараметров:
# - max_depth: максимальная глубина дерева (чем больше, тем сложнее дерево).
# - min_samples_split: минимальное количество объектов для разделения узла.
# - min_samples_leaf: минимальное количество объектов в листе.
# - max_features: количество признаков для поиска оптимального разделения.
param_dist = {
    "max_depth": [3, 5, 10, 20, None],  # Ограничение глубины дерева
    "min_samples_split": [2, 5, 10],    # Минимальное число объектов для разделения узла
    "min_samples_leaf": [1, 2, 4],      # Минимальное число объектов в листе
    "max_features": ["sqrt", "log2", None]  # Число признаков для поиска разделения
}

# Создание модели решающего дерева для задачи регрессии
# random_state=42 фиксирует случайное состояние для воспроизводимости.
dt_regressor = DecisionTreeRegressor(random_state=42)

# Инициализация RandomizedSearchCV
# random_search выполняет случайный поиск лучших параметров из заданного распределения.
# - param_distributions: диапазон гиперпараметров.
# - n_iter=10: количество случайных комбинаций для проверки.
# - cv=3: трехкратная кросс-валидация для проверки качества.
# - n_jobs=-1: использование всех доступных ядер процессора.
# - error_score="raise": прерывание выполнения при возникновении ошибок.
random_search = RandomizedSearchCV(
    dt_regressor,
    param_distributions=param_dist,
    n_iter=10,
    cv=3,
    random_state=42,
    n_jobs=-1,
    error_score="raise"
)

# Обучение модели с подбором гиперпараметров
# Обучаем RandomizedSearchCV на данных с замещёнными пропущенными значениями.
random_search.fit(X_train_imputed, y_train_reg)

# Вывод лучших гиперпараметров
# Используем best_params_ для вывода параметров, которые обеспечивают наилучшее качество.
print("Лучшие параметры решающего дерева для регрессии:", random_search.best_params_)

# Оценка модели
# Получаем модель с лучшими параметрами
best_dt_regressor = random_search.best_estimator_

# Предсказание значений для тестовой выборки
y_pred = best_dt_regressor.predict(X_test_imputed)

# MAE (Mean Absolute Error): средняя абсолютная ошибка.
mae = mean_absolute_error(y_test_reg, y_pred)

# MSE (Mean Squared Error): среднеквадратичная ошибка.
mse = mean_squared_error(y_test_reg, y_pred)

# R² (R-squared): коэффициент детерминации (от 0 до 1, где 1 - идеально).
r2 = r2_score(y_test_reg, y_pred)

# Вывод метрик качества модели
print(f"MAE: {mae}")  # Средняя абсолютная ошибка
print(f"MSE: {mse}")  # Среднеквадратичная ошибка
print(f"R^2: {r2}")   # Коэффициент детерминации

Лучшие параметры решающего дерева для регрессии: {'min_samples_split': 10, 'min_samples_leaf': 1, 'max_features': None, 'max_depth': None}
MAE: 268841.920963045
MSE: 961635486634.9545
R^2: 0.9837790886889036


Решающее дерево

In [None]:
import numpy as np
from collections import Counter
from sklearn.metrics import accuracy_score
from scipy.sparse import csr_matrix

class DecisionTreeClassifierCustom:
    def __init__(self, max_depth=None, min_samples_split=2, min_samples_leaf=1):
        """
        Инициализация пользовательского классификатора решающего дерева.

        Параметры:
        - max_depth: максимальная глубина дерева (по умолчанию None - без ограничения).
        - min_samples_split: минимальное количество объектов для разделения узла.
        - min_samples_leaf: минимальное количество объектов в листе.
        """
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.min_samples_leaf = min_samples_leaf
        self.tree = None  # Структура дерева будет сохранена после обучения

    def fit(self, X, y):
        """
        Обучение модели на тренировочных данных.

        Параметры:
        - X: матрица признаков (возможно, разреженная).
        - y: вектор меток классов.
        """
        # Преобразуем разреженную матрицу в плотную для удобства работы
        if isinstance(X, csr_matrix):
            X = X.toarray()
        # Строим дерево рекурсивно
        self.tree = self._build_tree(X, y)

    def _build_tree(self, X, y, depth=0):
        """
        Рекурсивное построение дерева.

        Параметры:
        - X: матрица признаков.
        - y: метки классов.
        - depth: текущая глубина дерева.

        Возвращает:
        - Лист или узел дерева.
        """
        n_samples, n_features = X.shape
        unique_classes = np.unique(y)

        # Условия остановки
        if len(unique_classes) == 1 or (self.max_depth and depth >= self.max_depth):
            return Counter(y).most_common(1)[0][0]  # Возвращаем наиболее частый класс

        # Ищем лучший раздел
        best_split = self._best_split(X, y)
        if best_split is None:
            return Counter(y).most_common(1)[0][0]  # Возвращаем наиболее частый класс, если раздел невозможен

        # Рекурсивно строим левую и правую части дерева
        left_tree = self._build_tree(X[best_split['left_indices']], y[best_split['left_indices']], depth + 1)
        right_tree = self._build_tree(X[best_split['right_indices']], y[best_split['right_indices']], depth + 1)

        # Возвращаем текущий узел дерева
        return {
            'feature_index': best_split['feature_index'],
            'threshold': best_split['threshold'],
            'left': left_tree,
            'right': right_tree
        }

    def _best_split(self, X, y):
        """
        Поиск наилучшего раздела по критерию Джини.

        Параметры:
        - X: матрица признаков.
        - y: метки классов.

        Возвращает:
        - Информацию о лучшем разрезе или None, если разрез невозможен.
        """
        best_gini = float("inf")
        best_split = {}
        n_samples, n_features = X.shape

        for feature_index in range(n_features):
            thresholds = np.unique(X[:, feature_index])  # Возможные значения разделов
            for threshold in thresholds:
                left_indices = X[:, feature_index] <= threshold
                right_indices = X[:, feature_index] > threshold

                # Пропускаем маленькие разделы
                if np.sum(left_indices) < self.min_samples_leaf or np.sum(right_indices) < self.min_samples_leaf:
                    continue

                gini = self._gini_index(y[left_indices], y[right_indices])

                if gini < best_gini:
                    best_gini = gini
                    best_split = {
                        'feature_index': feature_index,
                        'threshold': threshold,
                        'left_indices': left_indices,
                        'right_indices': right_indices
                    }

        return best_split if best_gini != float("inf") else None

    def _gini_index(self, left_y, right_y):
        """
        Вычисление индекса Джини для раздела.

        Параметры:
        - left_y: метки классов для левой части.
        - right_y: метки классов для правой части.

        Возвращает:
        - Значение индекса Джини.
        """
        left_size = len(left_y)
        right_size = len(right_y)
        total_size = left_size + right_size

        left_prob = np.array([np.sum(left_y == c) / left_size for c in np.unique(left_y)])
        right_prob = np.array([np.sum(right_y == c) / right_size for c in np.unique(right_y)])

        gini_left = 1 - np.sum(left_prob ** 2)
        gini_right = 1 - np.sum(right_prob ** 2)

        return (left_size / total_size) * gini_left + (right_size / total_size) * gini_right

    def predict(self, X):
        """
        Предсказание меток классов для новых данных.

        Параметры:
        - X: матрица признаков.

        Возвращает:
        - Вектор предсказанных меток классов.
        """
        if isinstance(X, csr_matrix):
            X = X.toarray()  # Преобразуем разреженную матрицу в плотную
        return np.array([self._predict_sample(x, self.tree) for x in X])

    def _predict_sample(self, x, tree):
        """
        Предсказание для одного объекта.

        Параметры:
        - x: вектор признаков.
        - tree: текущий узел дерева.

        Возвращает:
        - Предсказанная метка класса.
        """
        if not isinstance(tree, dict):  # Если текущий узел — лист, возвращаем класс
            return tree

        if x[tree['feature_index']] <= tree['threshold']:  # Сравнение с порогом
            return self._predict_sample(x, tree['left'])
        else:
            return self._predict_sample(x, tree['right'])

In [None]:
# Создание экземпляра пользовательского классификатора решающего дерева
# max_depth=5: ограничиваем максимальную глубину дерева до 5.
# min_samples_split=10: минимальное количество объектов для разделения узла.
# min_samples_leaf=5: минимальное количество объектов в листе.
classifier = DecisionTreeClassifierCustom(max_depth=5, min_samples_split=10, min_samples_leaf=5)

# Обучение модели на тренировочных данных
# X_train_class: матрица признаков для обучения.
# y_train_class: метки классов для обучения.
classifier.fit(X_train_class, y_train_class)

# Прогнозирование классов для тестовых данных
# X_test_class: матрица признаков для тестовой выборки.
y_pred = classifier.predict(X_test_class)

# Оценка качества модели
# Вычисление точности (accuracy) предсказаний.
# Сравниваем предсказанные метки (y_pred) с реальными метками (y_test_class).
accuracy = accuracy_score(y_test_class, y_pred)

# Вывод точности модели
print(f"Accuracy: {accuracy}")

Accuracy: 0.7923033389926429


# Кастомная регрессия

In [None]:
class DecisionTreeRegressorCustom:
    def __init__(self, max_depth=None, min_samples_split=2, min_samples_leaf=1):
        """
        Инициализация пользовательского регрессора решающего дерева.

        Параметры:
        - max_depth: максимальная глубина дерева (по умолчанию None - без ограничения).
        - min_samples_split: минимальное количество объектов для разделения узла.
        - min_samples_leaf: минимальное количество объектов в листе.
        """
        self.max_depth = max_depth  # Максимальная глубина дерева
        self.min_samples_split = min_samples_split  # Минимальное число объектов для разделения узла
        self.min_samples_leaf = min_samples_leaf  # Минимальное число объектов в листе
        self.tree = None  # Структура дерева будет сохранена после обучения

    def fit(self, X, y):
        """
        Обучение модели на тренировочных данных.

        Параметры:
        - X: матрица признаков.
        - y: целевая переменная.
        """
        self.tree = self._build_tree(X, y)

    def _build_tree(self, X, y, depth=0):
        """
        Рекурсивное построение дерева.

        Параметры:
        - X: матрица признаков.
        - y: целевая переменная.
        - depth: текущая глубина дерева.

        Возвращает:
        - Узел дерева (лист или разветвление).
        """
        n_samples, n_features = X.shape
        unique_values = np.unique(y)

        # Условие остановки
        if len(unique_values) == 1:  # Если все значения целевой переменной одинаковы
            return {'value': unique_values[0]}
        if depth >= self.max_depth or n_samples < self.min_samples_split:  # Проверяем ограничение глубины или объектов
            return {'value': np.mean(y)}  # Возвращаем среднее значение как предсказание

        # Поиск лучшего разбиения
        best_split = None
        best_score = float('inf')
        for feature_index in range(n_features):  # Проходим по всем признакам
            thresholds = np.unique(X[:, feature_index])  # Уникальные значения признака
            for threshold in thresholds:  # Перебираем все возможные пороги
                left_indices = X[:, feature_index] <= threshold  # Индексы объектов, которые идут влево
                right_indices = ~left_indices  # Индексы объектов, которые идут вправо
                left_y = y[left_indices]  # Левая часть целевой переменной
                right_y = y[right_indices]  # Правая часть целевой переменной

                # Проверяем минимальное количество объектов в листьях
                if len(left_y) >= self.min_samples_leaf and len(right_y) >= self.min_samples_leaf:
                    gini = self._calculate_gini(left_y, right_y)  # Вычисляем критерий Джини
                    if gini < best_score:  # Сохраняем лучшее разбиение
                        best_score = gini
                        best_split = (feature_index, threshold)

        if best_split is None:  # Если не найдено подходящее разбиение
            return {'value': np.mean(y)}  # Возвращаем среднее значение

        # Рекурсивно строим дерево
        feature_index, threshold = best_split
        left_indices = X[:, feature_index] <= threshold
        right_indices = ~left_indices
        left_tree = self._build_tree(X[left_indices], y[left_indices], depth + 1)
        right_tree = self._build_tree(X[right_indices], y[right_indices], depth + 1)

        # Возвращаем текущий узел дерева
        return {'feature_index': feature_index, 'threshold': threshold, 'left': left_tree, 'right': right_tree}

    def _calculate_gini(self, left_y, right_y):
        """
        Вычисление критерия Джини для раздела.

        Параметры:
        - left_y: левая часть целевой переменной.
        - right_y: правая часть целевой переменной.

        Возвращает:
        - Значение критерия Джини.
        """
        left_size = len(left_y)
        right_size = len(right_y)
        total_size = left_size + right_size
        left_gini = 1 - sum((np.sum(left_y == label) / left_size) ** 2 for label in np.unique(left_y))
        right_gini = 1 - sum((np.sum(right_y == label) / right_size) ** 2 for label in np.unique(right_y))
        return (left_size / total_size) * left_gini + (right_size / total_size) * right_gini

    def predict(self, X):
        """
        Предсказание значений целевой переменной для новых данных.

        Параметры:
        - X: матрица признаков.

        Возвращает:
        - Вектор предсказанных значений.
        """
        predictions = [self._predict_sample(sample, self.tree) for sample in X]
        return np.array(predictions)

    def _predict_sample(self, sample, tree):
        """
        Предсказание для одного объекта.

        Параметры:
        - sample: вектор признаков объекта.
        - tree: текущий узел дерева.

        Возвращает:
        - Предсказанное значение целевой переменной.
        """
        if 'value' in tree:  # Если это лист
            return tree['value']

        feature_value = sample[tree['feature_index']]  # Значение признака
        if feature_value <= tree['threshold']:  # Сравнение с порогом
            return self._predict_sample(sample, tree['left'])  # Рекурсия в левое поддерево
        else:
            return self._predict_sample(sample, tree['right'])  # Рекурсия в правое поддерево

In [None]:
# Создание экземпляра пользовательского регрессора решающего дерева
# max_depth=5: ограничиваем максимальную глубину дерева до 5.
# min_samples_split=10: минимальное количество объектов для разделения узла.
# min_samples_leaf=5: минимальное количество объектов в каждом листе.
regressor = DecisionTreeRegressorCustom(max_depth=5, min_samples_split=10, min_samples_leaf=5)

# Обучение модели на тренировочных данных
# Используем .values для преобразования данных в массивы NumPy, так как пользовательская модель
# ожидает входные данные в формате NumPy.
regressor.fit(X_train_reg.values, y_train_reg.values)

# Прогнозирование значений целевой переменной на тестовых данных
# X_test_reg.values: матрица признаков тестовой выборки в формате NumPy.
y_pred = regressor.predict(X_test_reg.values)

# Оценка качества модели

# MAE (Mean Absolute Error): средняя абсолютная ошибка.
# Показывает среднее абсолютное отклонение предсказанных значений от реальных.
mae = mean_absolute_error(y_test_reg, y_pred)

# MSE (Mean Squared Error): среднеквадратичная ошибка.
# Указывает на средний квадрат разницы между предсказанными и реальными значениями.
mse = mean_squared_error(y_test_reg, y_pred)

# Вывод метрик качества модели
print(f"MAE: {mae}")  # Средняя абсолютная ошибка
print(f"MSE: {mse}")  # Среднеквадратичная ошибка

  left_indices = X[:, feature_index] <= threshold


MAE: 1258357.4966011762
MSE: 11770383511829.137


# Решающие деревья показали свою эффективность как для классификации, так и для регрессии. Основные выводы:
	•	Решающие деревья хорошо подходят для работы с разнородными данными.
	•	Грамотная настройка гиперпараметров позволяет значительно улучшить результаты.
	•	Пользовательские реализации дают возможность глубже понять алгоритм, но для реальных задач целесообразнее использовать библиотечные решения.