# Домашнее задание «Деревья решений»

Для выполнения домашнего задания необходимо взять файл boston house-prices datase (sklearn.datasets.load_boston) и построить модель.  
По аналогии задания к лекции «Классификация: Логистическая регрессия и SVM».  
А именно построить модель регрессии, дерево решений, оптимизировать параметры и сравнить результаты.  

In [66]:
from sklearn.datasets import load_boston
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_absolute_error

import numpy as np
from sklearn.tree import DecisionTreeRegressor

In [67]:
import warnings
from sklearn.datasets import load_boston
with warnings.catch_warnings():
# You should probably not use this dataset.
    warnings.filterwarnings("ignore")
    X, y = load_boston(return_X_y=True)
    
    print(X.shape)

(506, 13)


In [68]:
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42 )  

# Decision tree regressor

### Создадим и обучим модель (для разных параметров):

#### для разных глубин

In [137]:
# Обучим модель для набора параметров:
list_depth = [1,2,3,4,5,7,10,15,20] #
dt_regs = {}
for i in list_depth:
    dt_regs[f'depth={i}'] = DecisionTreeRegressor(max_depth=i,splitter = 'best').fit(X_train, y_train)
dt_regs['depth=inf'] = DecisionTreeRegressor().fit(X_train, y_train)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [138]:
score_list

{'depth=1': 0.4158767119483332,
 'depth=2': 0.6758436094969433,
 'depth=3': 0.7728151817263731,
 'depth=4': 0.7255536066517965,
 'depth=5': 0.8495598452462355,
 'depth=7': 0.7499986924360498,
 'depth=10': 0.7928420887047312,
 'depth=15': 0.8460238037147105,
 'depth=20': 0.8421277153776999,
 'depth=inf': 0.8457150395861739}

Можно заметить несколько максимумов при увеличении глубины.

#### splitter = 'random' (the strategy used to choose the split at each node)

In [139]:
# Обучим модель для набора параметров и для параметра splitter = 'random':
list_depth = [1,2,3,4,5,7,10,15,20] #
dt_regs = {}
for i in list_depth:
    dt_regs[f'depth={i}'] = DecisionTreeRegressor(max_depth=i,splitter = 'random').fit(X_train, y_train)
dt_regs['depth=inf'] = DecisionTreeRegressor().fit(X_train, y_train)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [140]:
score_list

{'depth=1': 0.3853568427375488,
 'depth=2': 0.6135715547473951,
 'depth=3': 0.43956340213080036,
 'depth=4': 0.7498854338633101,
 'depth=5': 0.7853931469081101,
 'depth=7': 0.7572299040906376,
 'depth=10': 0.7140348265933524,
 'depth=15': 0.6801623622111659,
 'depth=20': 0.6844523230267485,
 'depth=inf': 0.7913604117441663}

Видим, что качество хуже, чем при splitter = 'best'

#### min_samples_split (the minimum number of samples required to split an internal node)

In [125]:
# Обучим модель для набора параметров min_samples_split и глубины = 10
list_depth = [10] #
min_samples_split_list = [2,3,5,10,100]
dt_regs = {}
for i in min_samples_split_list:
    dt_regs[f'min_samples_split={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],min_samples_split = i).fit(X_train, y_train)


# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [126]:
score_list

{'min_samples_split=2': 0.8589468477772733,
 'min_samples_split=3': 0.7856008468971778,
 'min_samples_split=5': 0.8625883982951583,
 'min_samples_split=10': 0.8853201259669772,
 'min_samples_split=100': 0.718531802855358}

Можем увидеть, что при min_samples_split=10 качество самое лучшее.

#### min_samples_leaf (the minimum number of samples required to be at a leaf node)

In [133]:
# Обучим модель для набора параметров и глубины = 10
list_depth = [10] #
min_samples_leaf_list = [1,2,5,10,15,20]
dt_regs = {}
for i in min_samples_leaf_list:
    dt_regs[f'min_samples_leaf={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],min_samples_leaf = i).fit(X_train, y_train)


# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [134]:
score_list

{'min_samples_leaf=1': 0.8439341309209579,
 'min_samples_leaf=2': 0.8036926241769236,
 'min_samples_leaf=5': 0.7717271090301903,
 'min_samples_leaf=10': 0.7693921830832291,
 'min_samples_leaf=15': 0.7430807063747571,
 'min_samples_leaf=20': 0.7372099970752846}

Видим, что с ростом параметра качество падает.

#### max_features (the number of features to consider when looking for the best split)

In [135]:
# Обучим модель для набора параметров и глубины = 10
list_depth = [10] #
max_features_list = [1,2,5,10,13,'auto','sqrt','log2']
dt_regs = {}
for i in max_features_list:
    dt_regs[f'max_features={i}'] = DecisionTreeRegressor(max_depth=list_depth[0],max_features = i).fit(X_train, y_train)

# Оценим точность:
pred_list = {}
score_list = {}
for key, cur_dt_reg in dt_regs.items():
          pred_list[key] = cur_dt_reg.predict(X_test)
          score_list[key] = cur_dt_reg.score(X_test,y_test)

In [136]:
score_list

{'max_features=1': 0.7129366155934397,
 'max_features=2': 0.712774901229616,
 'max_features=5': 0.7607852471210484,
 'max_features=10': 0.7910007844217604,
 'max_features=13': 0.8522910404166757,
 'max_features=auto': 0.8638027389816665,
 'max_features=sqrt': 0.6054582953361489,
 'max_features=log2': 0.6832593009535504}

Видим, что качество лучшее при автоматическом выборе (и близко к max_features=13)

Видим, как качество меняется при разных параметрах.  
Теперь попробуем подобрать оптимальные параметры перебором:  

In [228]:
list_depth = list(range(1,50))
min_samples_split_list = list(range(2,10))
min_samples_leaf_list = list(range(1,5))
max_features_list = [1,2,5,10,13,'auto','sqrt','log2']

In [229]:
max_score = 0

In [230]:
parameters = {}

In [231]:
for depth in list_depth:
    for samp_split in min_samples_split_list:
        for samp_leaf in min_samples_leaf_list:
            for max_feature in max_features_list:
                dt_regs = DecisionTreeRegressor(max_depth=depth,max_features = max_feature,min_samples_split = samp_split,min_samples_leaf = samp_leaf).fit(X_train, y_train)
                score = dt_regs.score(X_test,y_test)
                if score > max_score:
                    max_score = score
                    parameters['max_depth'] = depth
                    parameters['max_feature'] = max_feature
                    parameters['min_samples_split'] = samp_split
                    parameters['min_samples_leaf'] = samp_leaf

In [232]:
# Получаем точность:
max_score

0.8848814210264808

In [233]:
# При следующих параметрах:
parameters

{'max_depth': 8,
 'max_feature': 10,
 'min_samples_split': 6,
 'min_samples_leaf': 1}