In [248]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
import numpy as np
import scipy
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score
from sklearn.base import BaseEstimator
from sklearn.datasets import make_regression
from sklearn.datasets import make_friedman1

Вставьте код в класс, приведённый ниже. В итоге должен получиться бустинг над деревьями.

In [463]:
class SimpleGB(BaseEstimator):
    def __init__(self, tree_params_dict = {}, iters=100, tau=1e-1):
        self.tree_params_dict = tree_params_dict
        self.iters = iters
        self.tau = tau
        
    def fit(self, X_data, y_data):
        self.estimators = []
        curr_pred = 0
        for iter_num in range(self.iters):
            target = y_data - curr_pred
            algo = DecisionTreeRegressor(**self.tree_params_dict)
            algo.fit(X_data, target)
            curr_pred += self.tau * algo.predict(X_data)
            self.estimators.append(algo)
        return self
    
    def predict(self, X_data):
        res = np.zeros(X_data.shape[0])
        for estimator in self.estimators:
            res += self.tau * estimator.predict(X_data)
        return res

## Проверка качества полученного класса

Можете поиграться с параметрами, посмотрим, у кого самое лучшее качество получится

Сгенерируем данные с линейной зависимостью

In [41]:
X_data, y_data = make_regression(n_samples=1000, noise=10, n_features=10, random_state=42)

In [331]:
algo = SimpleGB(
    tree_params_dict={
        'max_depth':4
    },
    iters=100,
    tau = 0.1
)

In [332]:
type(algo.tree_params_dict)

dict

In [333]:
np.mean(cross_val_score(algo, X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-111.81028707275718

In [52]:
np.mean(cross_val_score(DecisionTreeRegressor(max_depth=4), X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-7550.7275207710281

In [53]:
np.mean(cross_val_score(LinearRegression(), X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-95.517114056519929

на реально-линейной зависимости не дотягивает до линейной модели, но уже существенно лучше чем одно дерево.

И аналогично, сгенерируем нелинейную зависимость

In [234]:
X_data, y_data = make_friedman1(n_samples=1000, noise=10, n_features=10, random_state=42)

In [235]:
algo = SimpleGB(
    tree_params_dict={
        'max_depth': 1
    },
    iters=100,
    tau=0.1
)

In [236]:
np.mean(cross_val_score(algo, X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-105.81605332375698

In [237]:
np.mean(cross_val_score(DecisionTreeRegressor(max_depth=6), X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-139.43374632643591

In [238]:
np.mean(cross_val_score(LinearRegression(), X_data, y_data, cv=5, scoring='neg_mean_squared_error'))

-108.80318041227227

### Подбор параметров...

In [443]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

In [466]:
tree_params_dict = {
        'max_depth':scipy.stats.randint(3, 10),
        'min_samples_leaf': scipy.stats.randint(1, 5),
        'splitter': ['best', 'random'],
        'max_features': ['log2', 'sqrt'],
        'min_impurity_decrease':scipy.stats.uniform(0.01, 2)
}

params_rand = {
    'tree_params_dict': tree_params_dict,
    'tau': scipy.stats.uniform(0.05,0.3),
    'iters': scipy.stats.randint(10, 1000)
}

In [467]:
rand_opt = RandomizedSearchCV(SimpleGB(), param_distributions = params_rand, cv=5, random_state=42, scoring = 'neg_mean_squared_error', n_iter =1).fit(X_data, y_data)
print(rand_opt.best_params_, rand_opt.best_score_)

KeyError: 2

#### ... не работает

### Подбор перебором

In [474]:
params_grid = {
    'tree_params_dict': list({'max_depth': i} for i in (3,10)),
    'tau':list(np.linspace(0,1,10)),
    'iters':range(10,100,10)
}

In [478]:
grid_opt = GridSearchCV(SimpleGB(), param_grid = params_grid, cv=5, scoring = 'neg_mean_squared_error').fit(X_data, y_data)

In [479]:
print(grid_opt.best_params_, grid_opt.best_score_)

{'iters': 30, 'tau': 0.1111111111111111, 'tree_params_dict': {'max_depth': 3}} -106.659464042


### Финальный код оценки качества (вам нужно GB реализовать и подобрать хорошие tree_params)

In [480]:
tree_params_dict = {
    'max_depth':3
} # TODO
iters = 30 #TODO
tau = 0.11 # TODO

algo = SimpleGB(
    tree_params_dict=tree_params_dict,
    iters=iters,
    tau=tau
)
print(np.mean(cross_val_score(algo, X_data, y_data, cv=5, scoring='neg_mean_squared_error')))

-106.913323898
