# Лабораторная работа №3: Деревья решений и настройка гиперпараметров

## Часть 1: Классификация с помощью дерева решений

### Импорт необходимых библиотек

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt

### Загрузка и предобработка данных

Загрузка датасета по умолчанию кредитных карт


In [2]:
df = pd.read_csv('UCI_Credit_Card.csv')
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


Проверка на пропущенные значения


In [3]:
df.info()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          30000 non-null  int64  
 1   LIMIT_BAL                   30000 non-null  float64
 2   SEX                         30000 non-null  int64  
 3   EDUCATION                   30000 non-null  int64  
 4   MARRIAGE                    30000 non-null  int64  
 5   AGE                         30000 non-null  int64  
 6   PAY_0                       30000 non-null  int64  
 7   PAY_2                       30000 non-null  int64  
 8   PAY_3                       30000 non-null  int64  
 9   PAY_4                       30000 non-null  int64  
 10  PAY_5                       30000 non-null  int64  
 11  PAY_6                       30000 non-null  int64  
 12  BILL_AMT1                   30000 non-null  float64
 13  BILL_AMT2                   300

ID                            0
LIMIT_BAL                     0
SEX                           0
EDUCATION                     0
MARRIAGE                      0
AGE                           0
PAY_0                         0
PAY_2                         0
PAY_3                         0
PAY_4                         0
PAY_5                         0
PAY_6                         0
BILL_AMT1                     0
BILL_AMT2                     0
BILL_AMT3                     0
BILL_AMT4                     0
BILL_AMT5                     0
BILL_AMT6                     0
PAY_AMT1                      0
PAY_AMT2                      0
PAY_AMT3                      0
PAY_AMT4                      0
PAY_AMT5                      0
PAY_AMT6                      0
default.payment.next.month    0
dtype: int64

### Подготовка данных для моделирования

Разделение на признаки и целевую переменную

In [4]:
X = df.drop('default.payment.next.month', axis=1)
y = df['default.payment.next.month']

Разделение на обучающую и тестовую выборки

In [5]:
X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size=0.3,
random_state=42,
stratify=y
)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")
print(f"Распределение классов в обучающей выборке: \n{y_train.value_counts(normalize=True)}")

Размер обучающей выборки: (21000, 24)
Размер тестовой выборки: (9000, 24)
Распределение классов в обучающей выборке: 
default.payment.next.month
0    0.77881
1    0.22119
Name: proportion, dtype: float64


### Обучение базового дерева решений

Создание и обучение модели

In [6]:
clf = DecisionTreeClassifier(
random_state=42
)

clf.fit(X_train, y_train)

Предсказания

In [7]:
y_pred = clf.predict(X_test)

# Оценка модели

In [8]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

In [9]:
print("Метрики базового дерева решений:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")

Метрики базового дерева решений:
Accuracy: 0.7241
Precision: 0.3857
Recall: 0.4169
F1-Score: 0.4007


Матрица ошибок

In [10]:
cm = confusion_matrix(y_test, y_pred)
print("Матрица ошибок:")
print(cm)

Матрица ошибок:
[[5687 1322]
 [1161  830]]


## Часть 2: Регрессия с помощью дерева решений

### Загрузка и предобработка данных о качестве воздуха

In [11]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

Загрузка датасета

In [12]:
df_air = pd.read_csv('AirQuality.csv', sep=';', decimal=',')

Удаление полностью пустых столбцов

In [13]:
df_air = df_air.dropna(axis=1, how='all')

Замена значения -200 (пропуски) на NaN и удаление строк с пропусками

In [14]:
df_air.replace(-200, np.nan, inplace=True)
df_air.dropna(inplace=True)

### Подготовка данных для регрессии

Разделение на признаки и целевую переменную

In [15]:
X = df_air.drop(['CO(GT)', 'Date', 'Time'], axis=1)
y = df_air['CO(GT)']

Разделение на обучающую и тестовую выборки

In [16]:
X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size=0.3,
random_state=42
)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

Размер обучающей выборки: (578, 12)
Размер тестовой выборки: (249, 12)


### Обучение модели регрессии

Создание и обучение модели

In [17]:
reg = DecisionTreeRegressor(
random_state=42
)

reg.fit(X_train, y_train)

Предсказания

In [18]:
y_pred = reg.predict(X_test)

Оценка модели

In [19]:
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

In [20]:
print("Метрики регрессионного дерева:")
print(f"MAE: {mae:.4f}")
print(f"MSE: {mse:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R²: {r2:.4f}")

Метрики регрессионного дерева:
MAE: 0.2462
MSE: 0.1298
RMSE: 0.3603
R²: 0.9321


## Часть 3: Настройка гиперпараметров для классификации

### Использование GridSearchCV для поиска лучших параметров

In [21]:
df = pd.read_csv('UCI_Credit_Card.csv')
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


Подготовка данных

In [22]:
X = df.drop(['ID', 'default.payment.next.month'], axis=1)
y = df['default.payment.next.month']

In [23]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size=0.3,
random_state=42,
stratify=y
)

Параметры для поиска

In [24]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

param_grid = {
'max_depth': [3, 5, 7, 10, None],
'min_samples_leaf': [1, 5, 10, 20],
'min_samples_split': [2, 10, 20]
}

Создание и обучение GridSearchCV

In [25]:
clf = DecisionTreeClassifier(random_state=42)
grid_search_cl = GridSearchCV(
    clf, 
    param_grid, 
    cv=5, 
    scoring='f1',
    n_jobs=-1
)
grid_search_cl.fit(X_train, y_train)

print("Лучшие параметры:")
print(grid_search_cl.best_params_)

Лучшие параметры:
{'max_depth': 3, 'min_samples_leaf': 20, 'min_samples_split': 2}


### Оценка лучшей модели

Использование лучшей модели

In [26]:
best_clf = grid_search_cl.best_estimator_
best_clf.fit(X_train, y_train)
y_pred = best_clf.predict(X_test)

Метрики

In [27]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

In [28]:
print("Метрики настройки дерева решений:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")

Метрики настройки дерева решений:
Accuracy: 0.8176
Precision: 0.6623
Recall: 0.3576
F1-Score: 0.4644


## Часть 4: Настройка гиперпараметров для регрессии

### GridSearchCV для регрессии

Подготовка данных

In [29]:
df_air = pd.read_csv('AirQuality.csv', sep=';', decimal=',')

In [30]:
df_air = df_air.dropna(axis=1, how='all')

In [31]:
df_air.replace(-200, np.nan, inplace=True)
df_air.dropna(inplace=True)

In [32]:
X = df_air.drop(['CO(GT)', 'Date', 'Time'], axis=1)
y = df_air['CO(GT)']

In [33]:
X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size=0.3,
random_state=42
)

Параметры для поиска

In [34]:
from sklearn.tree import DecisionTreeRegressor

param_grid = {
'max_depth': [3, 5, 7, 10, None],
'min_samples_leaf': [1, 5, 10, 20]
}

Создание и обучение GridSearchCV

In [35]:
reg = DecisionTreeRegressor(random_state=42)
grid_search_rg = GridSearchCV(
    reg, 
    param_grid, 
    cv=5, 
    scoring='neg_mean_absolute_error',
    n_jobs=-1
)
grid_search_rg.fit(X_train, y_train)

print("Лучшие параметры для регрессии:")
print(grid_search_rg.best_params_)

Лучшие параметры для регрессии:
{'max_depth': 7, 'min_samples_leaf': 10}


### Оценка лучшей регрессионной модели

Использование лучшей модели

In [36]:
best_reg = grid_search_rg.best_estimator_
best_reg.fit(X_train, y_train)
y_pred = best_reg.predict(X_test)

Метрики

In [37]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("Метрики настройки регрессионного дерева:")
print(f"MAE: {mae:.4f}")
print(f"MSE: {mse:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R²: {r2:.4f}")

Метрики настройки регрессионного дерева:
MAE: 0.2282
MSE: 0.1050
RMSE: 0.3241
R²: 0.9451


# Подготовка данных

In [38]:
df = pd.read_csv('UCI_Credit_Card.csv')
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


In [39]:
X = df.drop(['ID', 'default.payment.next.month'], axis=1)
y = df['default.payment.next.month']

In [40]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

## Анализ результатов

### Сравнение моделей классификации

### Сравнение базовой и оптимизированной моделей классификации

Обучение базового дерева решений (без подбора гиперпараметров)

In [41]:
base_clf = DecisionTreeClassifier(random_state=42)
base_clf.fit(X_train, y_train)
y_pred_base = base_clf.predict(X_test)


Метрики базовой модели

In [42]:
base_accuracy = accuracy_score(y_test, y_pred_base)
base_precision = precision_score(y_test, y_pred_base)
base_recall = recall_score(y_test, y_pred_base)
base_f1 = f1_score(y_test, y_pred_base)

Метрики оптимизированной модели (из GridSearchCV)

In [43]:
y_pred_best = best_clf.predict(X_test)

best_accuracy = accuracy_score(y_test, y_pred_best)
best_precision = precision_score(y_test, y_pred_best)
best_recall = recall_score(y_test, y_pred_best)
best_f1 = f1_score(y_test, y_pred_best)

Сводная таблица сравнения

In [44]:
comparison_df = pd.DataFrame({
    'Модель': ['Базовое дерево', 'Оптимизированное дерево'],
    'Accuracy': [base_accuracy, best_accuracy],
    'Precision': [base_precision, best_precision],
    'Recall': [base_recall, best_recall],
    'F1-score': [base_f1, best_f1]
})

comparison_df

Unnamed: 0,Модель,Accuracy,Precision,Recall,F1-score
0,Базовое дерево,0.723222,0.381292,0.403315,0.391994
1,Оптимизированное дерево,0.817556,0.662326,0.357609,0.464449


# Выводы по сравнению моделей классификации

По результатам эксперимента проведено сравнение базового дерева решений и модели с подобранными гиперпараметрами. Результаты представлены в таблице выше.
Accuracy оптимизированной модели существенно выше (0.8176 против 0.7232), что указывает на общее улучшение качества классификации.
Precision увеличилась почти в два раза (с 0.3813 до 0.6623), что означает значительное снижение числа ложноположительных предсказаний дефолта.
Recall при этом снизилась (с 0.4033 до 0.3576), то есть оптимизированная модель стала реже находить все объекты положительного класса.
F1-score вырос с 0.3920 до 0.4644, что говорит об улучшении баланса между точностью и полнотой.
Таким образом, настройка гиперпараметров позволила получить более устойчивую и точную модель, ориентированную на уменьшение ложных срабатываний. Снижение recall является компромиссом, обусловленным ростом precision, и может быть допустимо в кредитном скоринге, где ложноположительные решения (выдача кредита ненадёжному заёмщику) более критичны, чем ложные отрицания.
В целом, оптимизированное дерево решений демонстрирует лучшее обобщающее качество и является предпочтительным для практического применения.

### Сравнение базовой и оптимизированной моделей регрессии

In [45]:
df_air = pd.read_csv('AirQuality.csv', sep=';', decimal=',')

df_air = df_air.dropna(axis=1, how='all')
df_air.replace(-200, np.nan, inplace=True)
df_air.dropna(inplace=True)

X_reg = df_air.drop(['CO(GT)', 'Date', 'Time'], axis=1)
y_reg = df_air['CO(GT)']

X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_reg, y_reg,
    test_size=0.3,
    random_state=42
)

Обучение базового дерева регрессии (без подбора гиперпараметров)

In [46]:
base_reg = DecisionTreeRegressor(random_state=42)
base_reg.fit(X_train_reg, y_train_reg)
y_pred_base = base_reg.predict(X_test_reg)

Метрики базовой модели

In [47]:
base_mae = mean_absolute_error(y_test_reg, y_pred_base)
base_mse = mean_squared_error(y_test_reg, y_pred_base)
base_rmse = np.sqrt(base_mse)
base_r2 = r2_score(y_test_reg, y_pred_base)

Оптимизированное дерево регрессии

In [48]:
best_reg = grid_search_rg.best_estimator_
best_reg.fit(X_train_reg, y_train_reg)

y_pred_best = best_reg.predict(X_test_reg)

Метрики оптимизированной модели

In [49]:
best_mae = mean_absolute_error(y_test_reg, y_pred_best)
best_mse = mean_squared_error(y_test_reg, y_pred_best)
best_rmse = np.sqrt(best_mse)
best_r2 = r2_score(y_test_reg, y_pred_best)

In [50]:
comparison_reg_df = pd.DataFrame({
    'Модель': ['Базовое дерево', 'Оптимизированное дерево'],
    'MAE': [base_mae, best_mae],
    'MSE': [base_mse, best_mse],
    'RMSE': [base_rmse, best_rmse],
    'R²': [base_r2, best_r2]
})

comparison_reg_df

Unnamed: 0,Модель,MAE,MSE,RMSE,R²
0,Базовое дерево,0.246185,0.129839,0.360332,0.93212
1,Оптимизированное дерево,0.228208,0.105034,0.32409,0.945088


# Выводы по сравнению моделей регрессии

Оптимизированная модель дерева решений показывает лучшие результаты по всем метрикам по сравнению с базовой моделью.

Средняя абсолютная ошибка (MAE) снизилась с 0.2462 до 0.2282, а значения MSE и RMSE также уменьшились, что указывает на повышение точности прогнозирования и снижение влияния крупных ошибок.

Коэффициент детерминации R² увеличился с 0.9321 до 0.9451, что говорит о лучшей способности модели объяснять вариацию целевой переменной.

Таким образом, настройка гиперпараметров позволила снизить переобучение и улучшить обобщающую способность модели регрессии, поэтому оптимизированное дерево решений является предпочтительным.

# Имплементация дерева решений для классификации

Упрощённая, корректная для учебной работы реализация (CART, бинарные разбиения, критерий Джини).

In [51]:
class DecisionTreeClassifierCustom:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.tree = None

    def gini(self, y):
        classes, counts = np.unique(y, return_counts=True)
        probs = counts / counts.sum()
        return 1 - np.sum(probs ** 2)

    def best_split(self, X, y):
        best_gini = float("inf")
        best_feature, best_threshold = None, None

        for feature in range(X.shape[1]):
            thresholds = np.unique(X[:, feature])
            for t in thresholds:
                left = y[X[:, feature] <= t]
                right = y[X[:, feature] > t]

                if len(left) == 0 or len(right) == 0:
                    continue

                gini_split = (
                    len(left) / len(y) * self.gini(left) +
                    len(right) / len(y) * self.gini(right)
                )

                if gini_split < best_gini:
                    best_gini = gini_split
                    best_feature = feature
                    best_threshold = t

        return best_feature, best_threshold

    def build_tree(self, X, y, depth):
        if len(np.unique(y)) == 1 or len(y) < self.min_samples_split:
            return np.bincount(y).argmax()

        if self.max_depth is not None and depth >= self.max_depth:
            return np.bincount(y).argmax()

        feature, threshold = self.best_split(X, y)
        if feature is None:
            return np.bincount(y).argmax()

        left_mask = X[:, feature] <= threshold
        right_mask = X[:, feature] > threshold

        return {
            "feature": feature,
            "threshold": threshold,
            "left": self.build_tree(X[left_mask], y[left_mask], depth + 1),
            "right": self.build_tree(X[right_mask], y[right_mask], depth + 1),
        }

    def fit(self, X, y):
        self.tree = self.build_tree(X, y, 0)

    def predict_one(self, x, tree):
        if not isinstance(tree, dict):
            return tree
        if x[tree["feature"]] <= tree["threshold"]:
            return self.predict_one(x, tree["left"])
        else:
            return self.predict_one(x, tree["right"])

    def predict(self, X):
        return np.array([self.predict_one(x, self.tree) for x in X])


Обучение и оценка кастомного классификатора

In [52]:
X_np = X_train.values
y_np = y_train.values

custom_clf = DecisionTreeClassifierCustom(max_depth=5)
custom_clf.fit(X_np, y_np)

y_pred_custom = custom_clf.predict(X_test.values)

print("Метрики кастомного дерева (классификация):")
print("Accuracy:", accuracy_score(y_test, y_pred_custom))
print("Precision:", precision_score(y_test, y_pred_custom))
print("Recall:", recall_score(y_test, y_pred_custom))
print("F1:", f1_score(y_test, y_pred_custom))

Метрики кастомного дерева (классификация):
Accuracy: 0.8163333333333334
Precision: 0.6660117878192534
Recall: 0.3405323957810146
F1: 0.4506480558325025


Сравнение классификационных моделей

In [53]:
comparison_custom_clf = pd.DataFrame({
    "Модель": [
        "Бейзлайн (sklearn)",
        "Оптимизированное (GridSearch)",
        "Кастомная реализация"
    ],
    "Accuracy": [
        base_accuracy,
        best_accuracy,
        accuracy_score(y_test, y_pred_custom)
    ],
    "F1-score": [
        base_f1,
        best_f1,
        f1_score(y_test, y_pred_custom)
    ]
})

comparison_custom_clf

Unnamed: 0,Модель,Accuracy,F1-score
0,Бейзлайн (sklearn),0.723222,0.391994
1,Оптимизированное (GridSearch),0.817556,0.464449
2,Кастомная реализация,0.816333,0.450648


## Вывод

Самостоятельно реализованное дерево решений демонстрирует сопоставимое качество с базовой моделью sklearn, однако уступает оптимизированному дереву с подбором гиперпараметров.
Это объясняется отсутствием встроенных оптимизаций, таких как эффективный перебор разбиений и пост-обрезка дерева.
Тем не менее, кастомная реализация корректно воспроизводит логику алгоритма CART и подтверждает понимание принципов работы дерева решений.

## Имплементация дерева решений для регрессии

Реализация

In [54]:
class DecisionTreeRegressorCustom:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.tree = None

    def mse(self, y):
        return np.mean((y - y.mean()) ** 2)

    def best_split(self, X, y):
        best_mse = float("inf")
        best_feature, best_threshold = None, None

        for feature in range(X.shape[1]):
            thresholds = np.unique(X[:, feature])
            for t in thresholds:
                left = y[X[:, feature] <= t]
                right = y[X[:, feature] > t]

                if len(left) == 0 or len(right) == 0:
                    continue

                mse_split = (
                    len(left) / len(y) * self.mse(left) +
                    len(right) / len(y) * self.mse(right)
                )

                if mse_split < best_mse:
                    best_mse = mse_split
                    best_feature = feature
                    best_threshold = t

        return best_feature, best_threshold

    def build_tree(self, X, y, depth):
        if len(y) < self.min_samples_split:
            return y.mean()

        if self.max_depth is not None and depth >= self.max_depth:
            return y.mean()

        feature, threshold = self.best_split(X, y)
        if feature is None:
            return y.mean()

        left_mask = X[:, feature] <= threshold
        right_mask = X[:, feature] > threshold

        return {
            "feature": feature,
            "threshold": threshold,
            "left": self.build_tree(X[left_mask], y[left_mask], depth + 1),
            "right": self.build_tree(X[right_mask], y[right_mask], depth + 1),
        }

    def fit(self, X, y):
        self.tree = self.build_tree(X, y, 0)

    def predict_one(self, x, tree):
        if not isinstance(tree, dict):
            return tree
        if x[tree["feature"]] <= tree["threshold"]:
            return self.predict_one(x, tree["left"])
        else:
            return self.predict_one(x, tree["right"])

    def predict(self, X):
        return np.array([self.predict_one(x, self.tree) for x in X])


Обучение и сравнение регрессии

In [55]:
custom_reg = DecisionTreeRegressorCustom(max_depth=7)
custom_reg.fit(X_train_reg.values, y_train_reg.values)

y_pred_custom = custom_reg.predict(X_test_reg.values)

comparison_custom_reg = pd.DataFrame({
    "Модель": [
        "Бейзлайн (sklearn)",
        "Оптимизированное (GridSearch)",
        "Кастомная реализация"
    ],
    "RMSE": [
        base_rmse,
        best_rmse,
        np.sqrt(mean_squared_error(y_test_reg, y_pred_custom))
    ],
    "R²": [
        base_r2,
        best_r2,
        r2_score(y_test_reg, y_pred_custom)
    ]
})

comparison_custom_reg

Unnamed: 0,Модель,RMSE,R²
0,Бейзлайн (sklearn),0.360332,0.93212
1,Оптимизированное (GridSearch),0.32409,0.945088
2,Кастомная реализация,0.328268,0.943663


## Выводы

Кастомная реализация дерева решений для регрессии показывает адекватное качество, близкое к базовой модели sklearn.
Однако оптимизированная модель с подбором гиперпараметров демонстрирует наилучшие значения RMSE и R².
Это подтверждает, что гиперпараметры и оптимизации реализации играют ключевую роль в повышении обобщающей способности моделей.