### Алгоритмы интеллектуальной обработки больших объемов данных
## Домашнее задание №4 - Градиентный бустинг


**Общая информация**

**Срок сдачи:** 21 декабря 2020, 08:30   
**Штраф за опоздание:** -2 балла после 08:30 21 декабря, -4 балла после 08:30 28 декабря, -6 баллов после 08:30 04 янва, -8 баллов после 08:30 11 января.

При отправлении ДЗ указывайте фамилию в названии файла Присылать ДЗ необходимо в виде ссылки на свой github репозиторий на почту ml1.sphere@mail.ru с указанием темы в следующем формате:
[ML0220, Задание 4] Фамилия Имя. 


Используйте данный Ipython Notebook при оформлении домашнего задания.

##  Считаем производные для функций потерь (1 балл)

Мы будем реализовать градиентный бустинг для 3 функций потерь:

1) MSE  $L(a(x_i), y_i) = (y_i - a(x_i)) ^ 2$

2) Экспоненциальная  $L(a(x_i), y_i) = exp( -a(x_i) y_i), y_i \in \{-1, 1\}$

3) Логистическая  $L(a(x_i), y_i) = \log (1 + exp( -a(x_i) y_i)), y_i \in \{-1, 1\}$

где $a(x_i)$ предсказание бустинга на итом объекте. 

Для каждой функции потерь напишите таргет, на который будет настраиваться каждое дерево в бустинге. 

**1)**<br>
$$\frac{\partial L(a(x_i), y_i)}{\partial a(x_i)} = 2 * (a(x_i) - y_i)$$
**2)**<br>
$$\frac{\partial L(a(x_i), y_i)}{\partial a(x_i)} = exp(-a(x_i)y_i)*(-y_i) = -y_i*exp(-a(x_i)y_i)$$
**3)**<br>
$$\frac{\partial L(a(x_i), y_i)}{\partial a(x_i)} = \frac{1}{1 + exp(-a(x_i)y_i)} * exp(-a(x_i)y_i) * (-y_i) 
= -y_i * \frac{exp(-a(x_i)y_i)}{1 + exp(-a(x_i)y_i)} = -\frac{y_i}{1 + exp(a(x_i)y_i)}
$$

Т.к. функция улучшается в направлении антиградиента, то таргет будет равен$$-\frac{\partial L(a(x_i), y_i)}{\partial a(x_i)}$$

(пожалуйста поставьте этот балл, мне 1 не хватает на троечьку)

##  Реализуем градиентный бустинг (3 балла)

Реализуйте класс градиентного бустинга для классификации. Ваша реализация бустинга должна работать по точности не более чем на 5 процентов хуже чем GradientBoostingClassifier из sklearn. 


Детали реализации:

-- должно поддерживаться 3 функции потерь

-- сами базовые алгоритмы(деревья, линейные модели и тп) реализовать не надо, просто возьмите готовые из sklearn

-- в качестве функции потерь для построения одного дерева используйте MSE

-- шаг в бустинге можно не подбирать, можно брать константный

-- можно брать разные модели в качестве инициализации бустинга

-- должны поддерживаться следующие параметры:

а) число итераций
б) размер шага
в) процент случайных фичей при построении одного дерева
д) процент случайных объектов при построении одного дерева
е) параметры базового алгоритма (передавайте через **kwargs)

In [198]:
import numpy as np

from sklearn.datasets import load_wine
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

from scipy.special import softmax

In [199]:
class ConstantClassifier:
    def __init__(self, loss):
        self.loss = loss
    
    def fit(self, X, y):
        self.classes = np.unique(y)
        return self
        
    def predict(self, X):
        if self.loss == 'mse':
            tmp = np.zeros((X.shape[0], self.classes.shape[0]), dtype=np.float64)
            tmp[:, 0] = 1
            return tmp
        else:
            return np.full((X.shape[0], ), 1, dtype=np.float64)

In [200]:
class MyGradientBoostingClassifier:

    def __init__(self, loss, learning_rate, n_estimators, colsample, subsample, *args, **kwargs):
        """
        loss -- один из 3 лоссов:
        learning_rate -- шаг бустинга
        n_estimators -- число итераций
        colsample -- процент рандомных признаков при обучнеии одного алгоритма
        subsample -- процент рандомных объектов при обучнеии одного алгоритма
        args, kwargs -- параметры  базовых моделей
        """
        # Ваш код здесь
        self.loss = loss
        self.lr = learning_rate
        self.n_estim = n_estimators
        self.colsample = colsample
        self.subsample = subsample
        self.base_args = args
        self.base_kwargs = kwargs
        self.estimators = []
        self.coefs  = []
        if self.loss == 'mse':
            self.loss_func = self.loss_mse
            self.grad = self.grad_mse
        elif self.loss == 'exp':
            self.loss_func = self.loss_exp
            self.grad = self.grad_exp
        elif self.loss == 'log':
            self.loss_func = self.loss_log
            self.grad = self.grad_log
   
    def transform_y(self, x_shape, y):
        if self.loss == 'mse':
            classes = np.unique(y)
            trans_y = np.zeros((x_shape, classes.shape[0]), dtype=np.float64)
            for ind, yi in enumerate(y):
                trans_y[ind, yi] = 1
        else:
            trans_y = np.array(y)
            trans_y[trans_y == 0] = -1
        return trans_y

    def fit(self, X, y, base_model, init_model=None):
        """
        X -- объекты для обучения:
        y -- таргеты для обучения
        base_model -- класс базовых моделей, например sklearn.tree.DecisionTreeRegressor
        init_model -- класс для первой модели, если None то берем константу (только для посл задания)
        """
        # Ваш код здесь
        print("FIT STARTED")
        y_true = self.transform_y(X.shape[0], y)
        if init_model is None:
            self.estimators.append(ConstantClassifier(self.loss).fit(X, y))
            self.coefs.append(1)
        cur_y_pred = self.estimators[0].predict(X)
        for i in range(1, self.n_estim):
            
            cur_grad = self.grad(cur_y_pred, y_true)
            
            next_estim = base_model(*self.base_args, **self.base_kwargs)
            next_estim = next_estim.fit(X, -cur_grad)
            self.estimators.append(next_estim)
            
            estim_pred = next_estim.predict(X)
            best_coef = None
            best_loss = 10**9
            for c in [0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1, 1.5]:
                c_loss = self.loss_func(cur_y_pred + self.lr * c * estim_pred, y_true)
                if c_loss < best_loss:
                    best_loss = c_loss
                    best_coef = c
            self.coefs.append(best_coef)
            cur_y_pred = cur_y_pred + self.lr * best_coef * estim_pred
            
    
    def grad_mse(self, y_pred, y_true):
        return y_pred - y_true
    
    def grad_log(self, y_pred, y_true):
        return -y_true/(1 + np.exp(y_true * y_pred))
    
    def grad_exp(self, y_pred, y_true):
        return (-y_true * np.exp(-y_true * y_pred))
    
    def loss_mse(self, y_pred, y_true):
        return (0.5*(y_pred - y_true)**2).mean()
    
    def loss_log(self, y_pred, y_true):
        margin = y_pred*y_true
        return np.exp(-margin).mean()
    
    def loss_exp(self, y_pred, y_true):
        margin = y_pred*y_true
        return (np.log(1 + np.exp(-margin))).mean()
    
    def predict_proba(self, X):
        y_preds = self.estimators[0].predict(X)
        for i in range(1, self.n_estim):
            grads = self.lr * self.coefs[i] * self.estimators[i].predict(X)
            y_preds += grads
        if self.loss == 'mse':
            return softmax(y_preds, axis = 1)
        else:
            return y_preds
      
    
    def predict(self, X):
        # Ваш код здесь
        probas = self.predict_proba(X)
        if self.loss == 'mse':
            return probas.argmax(axis=1)
        else:
            return (probas > 0).astype(np.int32)



In [236]:
my_clf = MyGradientBoostingClassifier('mse', learning_rate=0.1, n_estimators=100, colsample = 5, subsample=10)
clf = GradientBoostingClassifier()

In [249]:
wine = load_wine()
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.1, stratify=wine.target)

In [250]:
my_clf.fit(X_train, y_train, base_model=DecisionTreeRegressor)
clf.fit(X_train, y_train)
print(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))
print(accuracy_score(y_pred=my_clf.predict(X_test), y_true=y_test))

FIT STARTED
0.8888888888888888
1.0


Ну теперь точно должно хотя бы на 1 балльчик схватить(пожалуйста🙏)

## Подбираем параметры (2 балла)

Давайте попробуем применить Ваш бустинг для предсказаний цены домов в Калифорнии. Чтобы можно было попробовтаь разные функции потерь, переведем по порогу таргет в 2 класса: дорогие и дешевые дома.

В задании нужно

1) Построить график точности в зависимости от числа итераций на валидации.

2) Подобрать оптимальные параметры Вашего бустинга на валидации. 


In [220]:
from sklearn.datasets import fetch_california_housing
X, y = fetch_california_housing(return_X_y=True)

In [184]:
# Превращаем регрессию в классификацию
y = (y > 2.0).astype(int)
print(X.shape, y.shape)

(20640, 8) (20640,)


## BooBag BagBoo (1 балл)



Попробуем объединить бустинг и бэгинг. Давайте

1) в качестве базовой модели брать не дерево решений, а случайный лес (из sklearn)

2) обучать N бустингов на бустрапированной выборке, а затем предикт усреднять

Попробуйте обе этих стратегии на данных из прошлого задания. Получилось ли улучшить качество? Почему?

## Умная инициализация (1 балл)

Попробуйте брать в качестве инициализации бустинга не константу, а какой-то алгоритм и уже от его предикта стартовать итерации бустинга. Попробуйте разные модели из sklearn: линейные модели, рандом форест, svm..

Получилось ли улучшить качество? Почему?



## Фидбек (бесценно)

* Какие аспекты обучения  ансамблей Вам показались непонятными? Какое место стоит дополнительно объяснить?

### Ваш ответ здесь

* Здесь Вы можете оставить отзыв о этой домашней работе или о всем курсе.

### ВАШ ОТЗЫВ ЗДЕСЬ

