In [1]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
%matplotlib inline

## Выбор датасета

В качестве начального набора данных я использую классический бостонский датасет, т.к. он считается хорошим, сложным датасетом и мне интересен результат работы с этим датасетом написанным мною градиентным бустингом

In [35]:
from sklearn.datasets import load_boston

data = load_boston()

pd.DataFrame(data.data).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [37]:
data.target[0:5]

array([24. , 21.6, 34.7, 33.4, 36.2])

In [38]:
X, y = data.data, data.target

In [56]:
from sklearn.preprocessing import StandardScaler

sc_x, sc_y = StandardScaler(), StandardScaler()

X, y = sc_x.fit_transform(X), sc_y.fit_transform(y.reshape(-1, 1))

y = y.ravel()

X.shape, y.shape

((506, 13), (506,))

In [57]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

X_train.shape, y_train.shape

((379, 13), (379,))

In [42]:
from sklearn.ensemble import BaggingRegressor

Написанная мною версия модели ансамблевого обучения для регрессии - градиентного бустинга.

В качестве базового оценщика (слабого ученика) я использую простой пень решения (одноуровневое дерево решения), так как в большинстве случаев именно эта модель используется в качестве слабого ученика в этом методе

In [75]:
from sklearn.tree import DecisionTreeRegressor
from sklearn import clone
from sklearn.metrics import r2_score
from sklearn.base import BaseEstimator, RegressorMixin
import six

from copy import copy


class ConstDummyEstimator:
    def __init__(self, const):
        self.const = np.array(const)
    
    def fit(self, X, y):
        ""
        
    def predict(self, X):
        return np.repeat(self.const, X.shape[0], axis=0)


class NewGradientBoost(BaseEstimator, RegressorMixin):
    def __init__(self, M=10, eta=1):
        self.M = M
        self.eta = eta
        
    def fit(self, X: np.ndarray, y: np.ndarray, visualize=False):
        
        if visualize:
            fig, ax = plt.subplots(self.M, 2, figsize=(10, 5 * self.M))
        
        # init with a mean (argmin of MSE)
        self.models_ = [ConstDummyEstimator(y.mean())]
        prev_pred = self.models_[0].predict(X).reshape(y.shape)
        self.gammas_ = [1]
        
        for i in range(self.M):
            ri = y - prev_pred
            
            if visualize:
                ax[i, 1].scatter(X, ri)
                ax[i, 1].set_ylim(-2, 2)
                ax[i, 1].plot([0, X.max()], [0, 0], c='k', linestyle='--')
            
            h = DecisionTreeRegressor(max_depth=1)
            
            h.fit(X, ri)
            
            grad = h.predict(X)
            
            grad = grad.reshape(y.shape)
            
            gamma = (ri / grad).mean()
            self.gammas_.append(gamma)
            
            hmgamma = gamma * grad
            hmgamma *= self.eta
            
            prev_pred += hmgamma
            
            if visualize:
                ax[i, 0].scatter(X, y, s=35)
                ax[i, 0].scatter(X, prev_pred, c='r')
            
            self.models_.append(h)
        
    def predict(self, X):
        prediction = self.models_[0].predict(X)
        
        for g, m in zip(self.gammas_[1:], self.models_[1:]):
            unscaled_pred = m.predict(X).reshape(prediction.shape)
            unscaled_pred *= g
            unscaled_pred *= self.eta
            
            prediction += unscaled_pred
            
        return prediction
    
    def get_params(self, deep=True):
        params = super(NewGradientBoost, self).get_params(deep=False)
        
        
        return params
        
    def score(self, X, y):
        # R2
        return r2_score(y, self.predict(X))

## Обучение моделей

Для оценки результата я использую метрику R2

In [76]:
bag = BaggingRegressor(base_estimator=DecisionTreeRegressor(),
                       n_estimators=10, random_state=0)

bag.fit(X_train, y_train)

r2_score(y_test, bag.predict(X_test))

0.8617670031009741

In [79]:
gb = NewGradientBoost(M=10, eta=1)

gb.fit(X_train, y_train)

r2_score(y_test, gb.predict(X_test))

0.6118926957770082

## Оптимизация гиперпараметров моделей

In [83]:
from sklearn.model_selection import GridSearchCV

bag_param_grid = {
    'n_estimators': range(1, 100)
}

bag_gs = GridSearchCV(
    BaggingRegressor(),
    param_grid=bag_param_grid,
    cv=5, iid=False,
    scoring='r2'
)

bag_gs.fit(X_train, y_train)

bag_gs.best_params_

{'n_estimators': 64}

In [86]:
bag_optimized = BaggingRegressor(**bag_gs.best_params_)

bag_optimized.fit(X_train, y_train)

r2_score(y_test, bag_optimized.predict(X_test))

0.8950993530855859

In [80]:
gb_param_grid = {
    'M': range(1, 100),
    'eta': [0.1 * n for n in range(1, 10)]
}

gb_gs = GridSearchCV(
    NewGradientBoost(),
    param_grid=gb_param_grid,
    cv=5, iid=False,
    scoring='r2'
)

gb_gs.fit(X_train, y_train)

gb_gs.best_params_

{'M': 41, 'eta': 0.30000000000000004}

In [81]:
gb_optimized = NewGradientBoost(**gb_gs.best_params_)

gb_optimized.fit(X_train, y_train)

r2_score(y_test, gb_optimized.predict(X_test))

0.7601482069453185

После оптимизации гиперпараметров модели ансамблевого обучения показали результат лучше, чем до.

Метод градиентного бустинга показал гораздо лучший результат после оптимизации гиперпараметров.