In [None]:
import numpy as np
import pandas as pd
import sklearn

from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal

from sklearn.tree import DecisionTreeRegressor as DTR, DecisionTreeClassifier as DTC
from sklearn.metrics import mean_squared_error as MSE, accuracy_score
from sklearn.model_selection import StratifiedKFold, GridSearchCV, train_test_split

from catboost import CatBoostClassifier, Pool
import catboost

from xgboost import XGBRegressor
import xgboost as xgb

from lightgbm import LGBMRegressor

import warnings
warnings.filterwarnings('ignore')

# X-regression

Необходимо найти наилучшие параметры для XGBRegression, обучить модель и вернуть ее. Данные из [гита](https://github.com/samstikhin/ml2021/tree/master/06-Boosting/data) `Financial Distress.csv`.

Сам гридсерч или нативное исследование необходимо делать вне функции обработки, чтобы не получить TL.

In [None]:
def xreg(X_train, y_train):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return model

In [None]:
df = pd.read_csv('data/Financial Distress.csv')

X = df.drop('Financial Distress', axis=1)
y = df['Financial Distress']
######################################################
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

xgb_model = xreg(X_train, y_train)
y_pred = xgb_model.predict(X_test)

assert type(xgb_model) == xgb.sklearn.XGBRegressor
assert MSE(y_pred, y_test) < 3
######################################################

# CatFeatures

Обучите модель классификации катбуста на предложенных данных и верните обученную модель. 

Воспользуйтесь встроенной обработкой категориальных признаков. Не забудьте обработать Nan значения.

Скрытых тестов нет, только один датасет `flyight_delays_train.csv` из [гита](https://github.com/samstikhin/ml2021/tree/master/06-Boosting/data).

In [None]:
def catfeatures(df: pd.DataFrame):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return model

In [None]:
df = pd.read_csv('data/flight_delays_train.csv')
df_train = df[:1000]

######################################################

model = catfeatures(df_train)
assert type(model) == catboost.CatBoostClassifier

df_test = pd.read_csv('data/flight_catfeature_test.csv')
df_test = df_test.drop('Unnamed: 0', axis=1)
X_test = df_test.drop('dep_delayed_15min',axis=1)
y_test = df_test['dep_delayed_15min']

y_pred = model.predict(X_test)
assert accuracy_score(y_test, y_pred) > 0.80 
assert accuracy_score(y_test, y_pred) < 0.87 

######################################################

# LightGBM

Вашем вниманию представляется прокаченный градиентный бустинг `LightGBM`. Разобраться в нем вам предлагается самостоятельно, например по [статье на хабре](https://habr.com/ru/company/skillfactory/blog/530594/). 

А в задачке, вам необходимо (опять...) найти наилучшие параметры для LGBMRegressor, обучить модель и вернуть ее. Данные из [гита](https://github.com/samstikhin/ml2021/tree/master/06-Boosting/data) `Financial Distress.csv`.

Сам гридсерч или нативное исследование необходимо делать вне функции обработки, чтобы не получить TL.

In [None]:
def lgbmreg(X_train, y_train):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return model

In [None]:
df = pd.read_csv('data/Financial Distress.csv')
######################################################
X = df.drop('Financial Distress', axis=1)
y = df['Financial Distress']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

lgbm_model = lgbmreg(X_train, y_train)
y_pred = lgbm_model.predict(X_test)

assert type(lgbm_model) == LGBMRegressor
assert MSE(y_pred, y_test) < 1.2
######################################################

# Производные для регрессии

Окей, в лекции было очень много страшных формул, теперь можно осознать зачем это нужно.

Пусть мы хотим бустить регрессию со стандартной функцией потерь $MSE$:

$$\mathcal{L}(a, x,y) = (a(x_i) - y_i)^2$$

Необходимо найти через взятие производных:

1. Константный вектор $[a_0]_{i=1}^{N}$
$$a_0(x) = \arg\min_{ c\in \mathbb{R}} \sum_{i=1}^n \mathcal{L}(c, x_i, y_i)$$

2. Градиенты функции потерь
$$g_{i}^{t} = -\Big[\frac{\partial \mathcal{L}(a_t, x_i, y_i)}{\partial a_t(x_i)}\Big]_{i=1}^N$$

3. Коэффициенты при композиции 
$$\eta_{t + 1} = \arg\min_\eta \sum_{i=1}^N \mathcal{L}(f_{t} + \eta b_{t+1}, x_i, y_i)$$

### Sample 1
#### Input:
```python
y = np.array([1, 2, 3])
f = np.array([2, 2, 2])
b = np.array([0, 2, 4])
```
#### Output:
```python
f_0 = 2.0
g = [-2, 0,  2] 
alpha = 0.2

```

In [None]:
def init(y_i: np.array) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return a_0

def grad(a: np.array, y: np.array) -> np.array:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return g

def eta(f :np.array, b: np.array, y: np.array) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return eta

In [None]:
y = np.array([1, 2, 3])
a = np.array([2, 2, 2])
b = np.array([0, 2, 4])

a_0 = init(y)
g = grad(a, y)
et = eta(a, b, y)

assert np.abs(a_0 - 2.0)   < 1e-9
assert_array_almost_equal(g, np.array([-2, 0, 2]))
assert np.abs(et - (0.2)) < 1e-9
######################################################


# GradientBoosting

Реализуйте градиентный бустинг на решающих деревьях для регрессии с логгированием. Верните модель, которая будет хранить в себе `n_estimators` обученных деревьев и коэффициенты, чтобы с их помощью потом найти результат предсказания.

Также необходимо реализовать логгирование в течение обучения.

* `self.estimators` - лист c деревьями
* `self.eta` - лист с коэффициентами eta
* `self.a_list` - лист со значениями комбинаций алгоритма $a_T(x_i) = a_0(x_i) + \sum_{t=1}^{T}\eta_tb_t(x_i)$
* `self.g_list` - лист с векторами градиентов на каждой итерации $g_{i}^{t} = -\Big[\frac{\partial \mathcal{L}(a_t, x_i, y_i)}{\partial a_t(x_i)}\Big]_{i=1}^N$
* `self.b_list` - лист со значениями базового обучаемого дерева на тренировочной выборке на каждой итерации 

Примечания:

* Обрывать алгоритм не нужно, необходимо обучить все деревья.
* Начальный константный вектор из $a_0$ логгировать не нужно, однако не забудьте его добавить в `predict` c нужным количеством объектов!

### Sample 1
#### Input:
```python
n_estimators = 2
max_depth=3
X_train = np.array([[0], [1], [2], [3], [4]])
y_train = np.array([0, 2, 4, 2, 0])
X_test  = np.array([[1.2], [2.3]])
y_test  = np.array([2.2, 3.7])
```
#### Output:
```python
y_test_pred = [2, 4]

model.a_list = [array([0.0, 2.0, 3.0, 3.0, 0.0]),
                array([0.0, 2.0, 4.0, 2.0, 0.0])]

model.g_list = [array([-3.2,  0.8, 4.8, 0.8, -3.2]), 
                array([ 0.0,  0.0, 2.0,-2.0,  0.0])]

model.b_list = [array([-3.2, 0.8, 2.8,  2.8, -3.2]), 
                array([ 0.0, 0.0, 2.0, -2.0,  0.0])]
```

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.metrics import mean_squared_error

class MyGradBoost():
    def __init__(self, n_estimators=10, max_depth=3):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.estimators_ = np.array([DTR(max_depth=self.max_depth) for _ in range(n_estimators)])
        self.eta = []
        self.a_list = []
        self.b_list = []
        self.g_list = []
        
    def fit(self, X_train: np.array, y_train: np.array): 
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return self
        
    def predict(self, X_test) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        ### получить результат из массивов a_list, b_list, g_list
        return y_pred
    
    def score(self, X_test, y_test)-> np.array:
        return mean_squared_error(self.predict(X_test), y_test)

In [None]:
######################################################
n_estimators = 2
max_depth=3
X_train = np.array([[0], [1], [2], [3], [4]])
y_train = np.array([0, 2, 4, 2, 0])
X_test  = np.array([[1.2], [2.3]])
y_test  = np.array([2.2, 3.7])

model = MyGradBoost(n_estimators=n_estimators, max_depth=max_depth).fit(X_train, y_train)
assert model.score(X_test, y_test) < 0.2
######################################################


# AdaBoost step

Реализуйте одну итерацию алгоритма AdaBoost:

1. Обучите дерево $b$ на $X_{train}$ и верните $y_{pred}$ (не забудьте использовать при обучении данные `sample_weights`!)

2. Найдите среднюю взвешенную ошибку:
$$error = Q(b_t, X, y) = \sum_{i=1}^{N}w_i^{(t-1)}[y_i \neq b_t(x)]$$

3. Найдите коэффициент $\alpha$ (для корректного выполнения добавим $eps$):
$$\alpha = \frac{1}{2}\ln\Big(\frac{1-error + eps}{error + eps}\Big)$$

4. Найдите новые веса:
$$w_i^{new} = w_iexp\Big(-\alpha y_i b(x_i)\Big)$$
$$w_i^{new} = \frac{w_i^{new}}{\sum_{i=1}^{N}w_i^{new}}$$

### Sample 1
#### Input:
```python
X_train = np.array([[0, 0], [4, 0], [0, 4], [4, 4]])
y_train = np.array([-1, -1, -1, 1])
```
#### Output:
```python
y_pred =  [-1 -1 -1 -1] 
error = 0.056 
alpha = 1.417 
new_weights = [0.05882403 0.41176819 0.02941201 0.49999576]
```

In [None]:
def boost_step(estimator, weights, X_train, y_train, eps = 1e-6):
    weights /= np.sum(weights) #нормируем веса исходный, если вдруг ненормированы
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    return y_pred, error, alpha, new_weights

In [None]:
######################################################
X_train = np.array([[0, 0], [4, 0], [0, 4], [4, 4]])
y_train = np.array([-1, -1, -1, 1])

estimator = DTC(max_depth=1, random_state=4)
sample_weights = [0.1, 0.7, 0.05, 0.05]
y_pred, error, alpha, new_weights = boost_step(estimator, sample_weights, X_train, y_train)
assert_array_almost_equal(y_pred, np.array([-1, -1, -1, -1])) 
assert np.abs(error - 0.056) < 1e-2 
assert np.abs(alpha - 1.417) < 1e-2 
assert_array_almost_equal(new_weights, np.array([0.05882403, 0.41176819, 0.02941201, 0.49999576]))
######################################################
X_train = np.array([[0, 0], [4, 4], [5, 5], [10, 10]])
y_train = np.array([-1, -1, 1, 1])
estimator = DTC(max_depth=1, random_state=6)
sample_weights = [0.1, 0.7, 0.05, 0.5]

y_pred, error, alpha, new_weights = boost_step(estimator, sample_weights, X_train, y_train)

assert_array_almost_equal(y_pred, np.array([-1, -1, 1, 1])) 
assert np.abs(error - 0.0) < 1e-2 
assert np.abs(alpha - 6.907) < 1e-2 
assert_array_almost_equal(new_weights, np.array([0.074074, 0.518519, 0.037037, 0.37037]))
######################################################


# AdaBoost classifier

Реализуйте AdaBoost для бинарной классификации на деревьях высоты 1. Верните модель, которая будет хранить в себе `n_estimatos` обученных деревьев и коэффициенты, чтобы с их помощью потом найти результат предсказания.

Также необходимо реализовать логгирование в течение обучения.

* `self.sample_weights_list` - лист с весами объектов на каждой итерации
* `self.y_pred_list` - лист с предсказанием каждого следующего дерева (не комбинации)
* `self.error_list` - лист с ошибками

Примечания:

* Обрывать алгоритм не нужно, необходимо обучить все деревья.
* Начальные веса логгировать не нужно
* `predict_proba` реализовывать не нужно

### Sample 1
#### Input:
```python
n_estimators = 2
X_train = np.array([[0, 0], [4, 0], [0, 4], [4, 4]])
y_train = np.array([-1, -1, -1, 1])
X_test  = np.array([[1, 0], [5, 5]])
y_test  = np.array([-1, 1])
```
#### Output:
```python
y_test_pred = [0, 1]

model.sample_weight = [array([0.167, 0.167, 0.167, 0.5]), 
                       array([ 0.1,  0.5,  0.1, 0.3])]
model.y_pred = [array([-1, -1, -1, -1]),
                array([-1,  1, -1,  1])]

model.alpha = [0.25, 0.167]
```


In [None]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier as DTC

class MyAdaBoost():
    def __init__(self, n_estimators=10):
        self.estimators_ = np.array([DTC(max_depth=1) for _ in range(n_estimators)])
        self.alpha = []
        self.sample_weights_list = []
        self.y_pred_list = []
        self.error_list = []
        
    def fit(self, X_train: np.array, y_train: np.array):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return self
        
    def predict(self, X_test) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass


In [None]:
######################################################
X_train = np.array([[0, 0], [4, 0], [0, 4], [4, 4]])
y_train = np.array([-1, -1, -1, 1])
X_test  = np.array([[1, 0], [5, 5]])

model = MyAdaBoost(n_estimators = 2).fit(X_train, y_train)

y_pred_my = model.predict(X_test)

assert_array_almost_equal(y_pred_my, np.array([-1, 1]))

######################################################
X_train = np.array([[0, 0], [4, 4], [5, 5], [10, 10]])
y_train = np.array([-1, -1, 1, 1])
X_test  = np.array([[3, 3], [6, 6]])

model = MyAdaBoost(n_estimators = 2).fit(X_train, y_train)

y_pred_my = model.predict(X_test)

assert_array_almost_equal(y_pred_my, np.array([-1, 1]))
######################################################


# Stacking

**Стэкинг** - 3-ий способ комбинирования алгоритмов, кроме бэггинга и бустинга. Он не часто используется, но его идея крайне полезная: `обучение на мета-признаках`.

1. Разобъем нашу обучающую выборку на 2 части: базовую и дополнительную.
2. Возьмем $N$ базовых алгоритмов и обучим их на **базовой части** разбив на $N$ фолдов. (Разбили на $N$ частей и обучаем алгоритм на всех частях кроме одной, как на кросс-валидации)
3. Каждым из обученных базовых алгоритмов предскажем значение для **дополнительной** части выборки.
4. Соберем **мета-выборку**, состоящую из предсказаний базовых алгоритмов на **доп выборе**. Пример: пусть для объекта $x_i$ базовые алгоритмы выдали $(y_i^1 = 1, y_i^2 = 0, y_i^3 = 1)$. Тогда признаками объекта в **мета-выборке** будет вектор $1, 0, 1$.
5. Обучим **мета-алгоритм** на **мета-выборке**. И получим готовую модель.
6. Чтобы получить результат на тестовой, теперь нужно сделать предсказания базовыми алгоритмами, собрать **мета-выборку** и сделать предсказания на **мета-алгоритме**.

Реализуйте стекинг классификацию на **деревьях решений**. Валидация проводится на датасете `forest_train.csv` из папки в [гите](https://github.com/samstikhin/ml2021/tree/master/06-Boosting/data).

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier as DTC

class Stacking():
    def __init__(self, n_estimators=5, max_depth=5):
        self.max_depth_ = max_depth
        self.n_estimators_ = n_estimators
        self.estimators_ = [DTC(max_depth=self.max_depth_) for _ in range(self.n_estimators_)]
        self.meta_estimator_ = DTC(max_depth=self.max_depth_)
        
    def fit(self, X: np.array, y: np.array): 
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return self
        
    def predict(self, X_test) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return y_pred

In [None]:
df = pd.read_csv('data/forest_train.csv')

######################################################
X = df.drop(columns=['Cover_Type', 'Id']).reset_index(drop=True)
y = df['Cover_Type']
X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, train_size=0.3)

model = Stacking(max_depth=10, n_estimators=3).fit(X_train, y_train)

assert type(model.meta_estimator_) == sklearn.tree.DecisionTreeClassifier

y_pred = model.predict(X_test)
y_pred1 = model.estimators_[0].predict(X_test)
y_pred2 = model.estimators_[1].predict(X_test)
y_pred3 = model.estimators_[2].predict(X_test)

assert accuracy_score(y_pred, y_test) > 0.67

assert accuracy_score(y_pred1, y_test) < accuracy_score(y_pred, y_test)
assert accuracy_score(y_pred2, y_test) < accuracy_score(y_pred, y_test)
assert accuracy_score(y_pred3, y_test) < accuracy_score(y_pred, y_test)
######################################################
