In [24]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

dataset = pd.read_csv('clean_data.csv')

X = dataset.iloc[:, 1:].values
y = dataset.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели дерева решений
tree_model = DecisionTreeRegressor(random_state=42)
tree_model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = tree_model.predict(X_test)

# Оценка качества модели
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse:.2f}")
print(f"R-squared: {r2:.2f}")

Mean Squared Error: 0.74
R-squared: 0.13


In [35]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeRegressor

# Создание модели DecisionTreeRegressor
model = DecisionTreeRegressor()

# Определение диапазонов значений для параметров
param_grid = {
    'max_depth': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17],            # Пример диапазона глубины дерева
    'min_samples_split': [96,97,98,99,100,101,102,103,104],     # Пример диапазона количества наблюдений для разделения ветви
    'min_samples_leaf': [5,6,7,8,9,10,11,12,13,14,15]         # Пример диапазона количества наблюдений в листе
}

# Создание объекта GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')

# Обучение GridSearchCV на данных
grid_search.fit(X_train, y_train)

# Вывод наилучших параметров
print("Best Parameters:", grid_search.best_params_)

Best Parameters: {'max_depth': 17, 'min_samples_leaf': 14, 'min_samples_split': 104}


In [48]:
# Создаем экземпляр модели с оптимальными параметрами
best_model = DecisionTreeRegressor(max_depth=17, min_samples_leaf=14, min_samples_split=104)

# Обучаем модель на тренировочных данных
best_model.fit(X_train, y_train)

# Предсказываем значения на тестовых данных
y_pred = best_model.predict(X_test)

# Вычисляем метрики
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)

Mean Squared Error: 0.49894753539479814
R-squared: 0.41770180633860365


In [49]:
from sklearn.metrics import mean_absolute_error
model = DecisionTreeRegressor()

# Задайте параметры для перебора в Grid Search
param_grid = {
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
}

# Создайте объект GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')

# Обучите Grid Search на данных
grid_search.fit(X_train, y_train)

# Выведите лучшие параметры
print("Best Parameters:", grid_search.best_params_)

# Получите лучшую модель из Grid Search
best_model = grid_search.best_estimator_

# Оцените модель на тестовых данных
y_pred = best_model.predict(X_test)

# Вычислите и выведите значения метрик
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Mean Squared Error:", mse)
print("R-squared:", r2)

# Оцените модель на тестовых данных с использованием метода score
score = best_model.score(X_test, y_test)
score = best_model.score(X_test, y_test)
print("R-squared (using score method):", score)

# Вычислите и выведите Mean Absolute Error
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error:", mae)

Best Parameters: {'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 10}
Mean Squared Error: 0.5037202563963695
R-squared: 0.41213178820860974
R-squared (using score method): 0.41213178820860974
Mean Absolute Error: 0.5471771359416936
