# Домашнее задание по теме  
«Регрессия Decision Tree»

Использую набор ранее обработанных данных из прошлых заданий.  Столбец “Premium Amount” является целевой переменной

## Импорт библиотек, загрузка данных

In [1]:
# Импорт библиотек
import pandas as pd  
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import zipfile
from sklearn.preprocessing import (MinMaxScaler, StandardScaler, RobustScaler, 
                                   MaxAbsScaler, LabelEncoder, OneHotEncoder
)       
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, PowerTransformer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor

In [2]:
# Загрузка файла с данными из архива
archive_path = 'input_data/train.zip'
with zipfile.ZipFile(archive_path, 'r') as archive:
 
    with archive.open('train.csv') as file:
        df = pd.read_csv(file)

In [3]:
df.describe(include='all')

Unnamed: 0,age,annual_income,marital_status,number_of_dependents,education_level,occupation,health_score,policy_type,previous_claims,vehicle_age,credit_score,insurance_duration,exercise_frequency,property_type,premium_amount,gender_Male,smoking_status_Yes,location_Suburban,location_Urban
count,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0,1050007.0
mean,41.14466,31274.31,1.00308,1.826691,1.506036,0.6955592,25.57233,1.002804,0.961905,9.565279,594.1532,5.017622,1.515659,1.000079,1081.938,0.5021224,0.5012043,0.3350435,0.3308597
std,13.54263,28005.32,0.8163006,1.469989,1.12329,0.8197235,12.16933,0.8165291,0.7128295,5.775979,140.734,2.594273,1.117939,0.8167502,800.0198,0.4999957,0.4999988,0.4720059,0.4705229
min,18.0,1.0,0.0,0.0,0.0,0.0,2.012237,0.0,0.0,0.0,300.0,1.0,0.0,0.0,20.0,0.0,0.0,0.0,0.0
25%,30.0,8404.0,0.0,0.0,0.0,0.0,15.91187,0.0,0.0,5.0,485.0,3.0,1.0,0.0,515.0,0.0,0.0,0.0,0.0
50%,41.0,23991.0,1.0,2.0,2.0,0.0,24.55183,1.0,1.0,10.0,596.0,5.0,2.0,1.0,874.0,1.0,1.0,0.0,0.0
75%,53.0,44250.5,2.0,3.0,3.0,1.0,34.45247,2.0,1.0,15.0,706.0,7.0,3.0,2.0,1513.0,1.0,1.0,1.0,1.0
max,64.0,98020.25,2.0,4.0,3.0,2.0,58.97591,2.0,2.5,19.0,849.0,9.0,3.0,2.0,3010.0,1.0,1.0,1.0,1.0


## Проведение регрессии методом решающих деревьев

### Выбор лудших признаков

In [4]:
# Выбор лучших признаков
X = df.drop(columns=['premium_amount'])  # Все признаки
y = df['premium_amount']  # Целевая переменная

k = 6  # Количество признаков в отборе
selector = SelectKBest(score_func=f_regression, k=k)

X_new = selector.fit_transform(X, y)

# Индексы выбранных признаков
selected_indices = selector.get_support(indices=True)

# Названия выбранных признаков
selected_features = X.columns[selected_indices]

print("Выбранные признаки:")
print(selected_features)

Выбранные признаки:
Index(['age', 'annual_income', 'number_of_dependents', 'health_score',
       'previous_claims', 'credit_score'],
      dtype='object')


In [5]:
df_cut = df[['age', 'annual_income', 'number_of_dependents', 'health_score',
       'previous_claims', 'credit_score', 'premium_amount']]

In [6]:
# Разделение данных на признаки (X) и целевую переменную (y)
X = df_cut.drop(columns=['premium_amount'])
y = df_cut['premium_amount']  # Целевая переменная
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
param_grid = {
    'max_depth': [None, 3, 5, 10, 15],  # Глубина дерева
    'min_samples_split': [2, 5, 10],     # Минимальное количество образцов для разделения узла
    'min_samples_leaf': [1, 2, 4],       # Минимальное количество образцов в листе
    'max_features': ['auto', 'sqrt', 'log2'],  # Количество признаков для поиска лучшего разделения
    'random_state': [42]  # Для воспроизводимости
}

In [None]:
# Модель DecisionTreeRegressor
model = DecisionTreeRegressor()

# Создаем объект GridSearchCV
grid_search = GridSearchCV(
    estimator=model,
    param_grid=param_grid,
    scoring='r2',  # Метрика для оптимизации 
    cv=5,  # Количество фолдов для кросс-валидации
    n_jobs=-1  # Использовать все доступные ядра процессора
)

# Обучение модели с поиском по сетке гиперпараметров
grid_search.fit(X_train, y_train)
# Лучшие параметры
best_params = grid_search.best_params_

In [9]:
print("Лучшие параметры:", best_params)
# best_model = grid_search.best_estimator_

Лучшие параметры: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 10, 'random_state': 42}


### Создание модели регрессии Decision Tree

In [10]:
rdt_model = DecisionTreeRegressor(**best_params)

rdt_model.fit(X_train, y_train)

In [11]:
y_pred_rdt = rdt_model.predict(X_test)

mse_rdt = mean_squared_error(y_test, y_pred_rdt)
r2_rdt = r2_score(y_test, y_pred_rdt)
mae_rdt = mean_absolute_error(y_test, y_pred_rdt)
print(f"Regression DT - MSE: {mse_rdt}, R2 Score: {r2_rdt}, MAE: {mae_rdt}")

Regression DT - MSE: 621365.424446415, R2 Score: 0.030203941119623323, MAE: 623.7726711689362


### Сравнение с моделью KNN

In [12]:
# Масштабирование с помощью MinMaxScaler
minmax_scaler = MinMaxScaler()
scaled_data_minmax = minmax_scaler.fit_transform(df_cut)
df_reg = pd.DataFrame(scaled_data_minmax, columns=df_cut.columns)

In [13]:
# Разделение данных на признаки (X) и целевую переменную (y)
X_r = df_reg.drop(columns=['premium_amount'])
y_r = df_reg['premium_amount']  # Целевая переменная
# Разделение данных на обучающую и тестовую выборки
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X, y, test_size=0.2, random_state=42)

In [14]:
knn_model = KNeighborsRegressor(n_neighbors=150) 
knn_model.fit(X_train_r, y_train_r)

y_pred_knn = knn_model.predict(X_test_r)

mse_knn = mean_squared_error(y_test_r, y_pred_knn)
r2_knn = r2_score(y_test_r, y_pred_knn)
mae_knn = mean_absolute_error(y_test_r, y_pred_knn)
print(f"KNN - MSE: {mse_knn}, R2 Score: {r2_knn}, MAE: {mae_knn}")

KNN - MSE: 633775.4488561219, R2 Score: 0.010834996067900726, MAE: 635.7329181626842


### Общие выводы:
- Regression DT - MSE: 621365.424446415, R2 Score: 0.030203941119623323, MAE: 623.7726711689362
- KNN -           MSE: 633775.448856121, R2 Score: 0.010834996067900726, MAE: 635.7329181626842

- Модель DecisionTreeRegressor на этих данных показала несколько лучшие результаты, но по прежнему делает значительные ошибки в предсказании. 
- Модель объясняет 3% дисперсии целевой переменной.
- Текущий набор данных показывает плохие результаты на всех изученных регрессиях, но DecisionTreeRegressor немногим лучше