# Домашнее задание «Деревья решений»

Для выполнения домашнего задания необходимо взять файл boston house-prices datase (sklearn.datasets.load_boston) и построить модель.  
По аналогии задания к лекции «Классификация: Логистическая регрессия и SVM».  
А именно построить модель регрессии, дерево решений, оптимизировать параметры и сравнить результаты.  

In [285]:
from sklearn.datasets import load_boston
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_absolute_error

import numpy as np
from sklearn.tree import DecisionTreeRegressor

In [286]:
import warnings
from sklearn.datasets import load_boston
with warnings.catch_warnings():
# You should probably not use this dataset.
    warnings.filterwarnings("ignore")
    X, y = load_boston(return_X_y=True)
    print(X.shape)

(506, 13)


In [287]:
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7, random_state=42 )  

# Decision tree regressor

### Создадим и обучим модель (для разных параметров):

#### для разных глубин

In [291]:
# Обучим модель для набора параметров:
list_depth = [1,2,3,4,5,7,10,15,20] #
dt_regs = {}
for i in list_depth:
    dt_regs[f'depth={i}'] = DecisionTreeRegressor(max_depth=i,splitter = 'best').fit(X, y)
dt_regs['depth=inf'] = DecisionTreeRegressor().fit(X, y)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [292]:
dt_regs

{'depth=1': DecisionTreeRegressor(max_depth=1),
 'depth=2': DecisionTreeRegressor(max_depth=2),
 'depth=3': DecisionTreeRegressor(max_depth=3),
 'depth=4': DecisionTreeRegressor(max_depth=4),
 'depth=5': DecisionTreeRegressor(max_depth=5),
 'depth=7': DecisionTreeRegressor(max_depth=7),
 'depth=10': DecisionTreeRegressor(max_depth=10),
 'depth=15': DecisionTreeRegressor(max_depth=15),
 'depth=20': DecisionTreeRegressor(max_depth=20),
 'depth=inf': DecisionTreeRegressor()}

In [293]:
score_list

{'depth=1': 0.44507578947320237,
 'depth=2': 0.6818666256045802,
 'depth=3': 0.8239213702176373,
 'depth=4': 0.8823541601088111,
 'depth=5': 0.9185063106253819,
 'depth=7': 0.9656613386857749,
 'depth=10': 0.99066639887331,
 'depth=15': 0.9999179571335317,
 'depth=20': 1.0,
 'depth=inf': 1.0}

#### splitter = 'random' (the strategy used to choose the split at each node)

In [294]:
# Обучим модель для набора параметров и для параметра splitter = 'random':
list_depth = [1,2,3,4,5,7,10,15,20] #
dt_regs = {}
for i in list_depth:
    dt_regs[f'depth={i}'] = DecisionTreeRegressor(max_depth=i,splitter = 'random').fit(X, y)
dt_regs['depth=inf'] = DecisionTreeRegressor().fit(X, y)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [295]:
score_list

{'depth=1': 0.24748860282078067,
 'depth=2': 0.5103261362786995,
 'depth=3': 0.6460210038278282,
 'depth=4': 0.6070854313810948,
 'depth=5': 0.8401920197473641,
 'depth=7': 0.8957277270118934,
 'depth=10': 0.9736737308253132,
 'depth=15': 0.9980931493188954,
 'depth=20': 0.9999949964970349,
 'depth=inf': 1.0}

#### min_samples_split (the minimum number of samples required to split an internal node)

In [298]:
# Обучим модель для набора параметров min_samples_split и глубины = 10
list_depth = [10] #
min_samples_split_list = [2,5,10,100]
dt_regs = {}
for i in min_samples_split_list:
    dt_regs[f'min_samples_split={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],min_samples_split = i).fit(X, y)


# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [299]:
score_list

{'min_samples_split=2': 0.99066639887331,
 'min_samples_split=5': 0.9830519445684944,
 'min_samples_split=10': 0.9701116461127501,
 'min_samples_split=100': 0.7705782257687888}

#### min_samples_leaf (the minimum number of samples required to be at a leaf node)

In [300]:
# Обучим модель для набора параметров и глубины = 10
list_depth = [10] #
min_samples_leaf_list = [1,2,5,10]
dt_regs = {}
for i in min_samples_leaf_list:
    dt_regs[f'min_samples_leaf={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],min_samples_leaf = i).fit(X, y)


# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [301]:
score_list

{'min_samples_leaf=1': 0.99066639887331,
 'min_samples_leaf=2': 0.9721006273470689,
 'min_samples_leaf=5': 0.9405892957190891,
 'min_samples_leaf=10': 0.868429357517685}

#### max_features (the number of features to consider when looking for the best split)

In [302]:
# Обучим модель для набора параметров и глубины = 10
list_depth = [10] #
max_features_list = [1,2,5,10,13,'auto','sqrt','log2']
dt_regs = {}
for i in max_features_list:
    dt_regs[f'max_features={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],max_features = i).fit(X, y)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [303]:
score_list

{'max_features=1': 0.9147890159381655,
 'max_features=2': 0.9799729141313872,
 'max_features=5': 0.9760514717699496,
 'max_features=10': 0.9899188798313252,
 'max_features=13': 0.9906763238546012,
 'max_features=auto': 0.99066639887331,
 'max_features=sqrt': 0.9855358445962024,
 'max_features=log2': 0.9771334143845279}

Видим, что лучшее качество получается при max_features=13 (автоматический выбор совпадает. При уменьшении качество падает), min_samples_leaf = 1 (с увеличением качество падает), min_samples_split = 2 (c увеличением качество падает), глубине 15 и больше. 