# Stacking

Несмотря на то, что в открытом доступе существует довольно много реализаций стекинга, некоторые из которых даже представлены в виде библиотечных функций, лучше сделать собственную. Стекинг - не классический алгоритм решения задачи, а скорее набор правил для помощи в решении задачи другим алгоритмам. Если вы серьезно займетесь машинным обучением, рано или поздно вам скорее всего захочется что-нибудь поменять в этом наборе правил, поэтому собственная реализация с понятным вам кодом будет как нельзя кстати.

В этом домашнем задании вы создадите собственную функцию для блендинга/классического стекинга моделей, которая пригодится вам в дальнейшем.

Ниже вы увидите заготовку для функции, где:

- models - список объектов базовых алгоритмов

- meta_alg - мета-алгоритм

data_train, targets_train, data_test, targets_test - тренировочные и тестовые признаки и целевые переменные

- test_size - размер тестовых данных для блендинга в промежутке (0, 1)

- cv - количество разбиений для кросс-валидации

In [23]:
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

In [None]:
#def stacking(models, meta_alg, data_train, targets_train, data_test, targets_test=None, test_size=None, cv=5):
    

### 1.
В следующей ячейке в теле функции определен условный оператор if-else. После elif вместо pass пропишите код из лекции с некоторыми новыми вставками в таком порядке: деление data_train и targets_train на тренировочные и валидационные данные с помощью функции train_test_split, где test_size=test_size из определения функции; определение матрицы meta_mtrx; цикл, в котором заполняется meta_mtrx: сначала строка, где модель обучается с помощью метода fit на тренировочных данных из разбиения, затем строка, где матрица заполняется значениями предсказаний моделей на валидационных данных. На этом цикл заканчивается.

После цикла добавьте строку с методом fit мета-алгоритма: обучите его на значениях полученной матрицы meta_mtrx и целевой переменной для валидационных данных.

Определите матрицу meta_mtrx_test. Напишите цикл, где эта матрица заполняется предсказаниями базовых моделей на тестовых данных data_test.

После цикла сделайте предсказания мета-алгоритма для значений матрицы meta_mtrx_test.

Дополните код еще одним оператором if, который будет проверять, существуют ли данные targets_test для проверки качества работы модели на тестовых данных: если targets_test не является None, тогда выведите метрику roc_auc_score для предсказаний мета-алгоритма на тестовых данных.

In [34]:
def stacking(models, meta_alg, data_train, targets_train, data_test, targets_test=None, random_state=None, test_size=None, cv=5):
    if test_size is None:
        pass
        
    elif test_size > 0 and test_size < 1:
        X_train, X_test, y_train, y_test = train_test_split(data_train, 
                                                      targets_train,
                                                      train_size=test_size,
                                                      random_state=random_state)
        for model in models:
            model.fit(X_train, y_train)
        
        meta_mtrx = np.empty((X_test.shape[0], len(models)))

        for n, model in enumerate(models):
            meta_mtrx[:, n] = model.predict(X_test)
        meta_alg.fit(meta_mtrx, y_test)
        
        meta_mtrx_test = np.empty((data_test.shape[0], len(models)))
        for n, model in enumerate(models):
            meta_mtrx_test[:, n] = model.predict(data_test)
        y_pred = meta_alg.predict(meta_mtrx_test)
        
        if targets_test is not None:
            roc_auc = roc_auc_score(targets_test, y_pred)
            print(f'ROC_AUC: {roc_auc}')
        else:
            return y_pred

    
    else:
        raise ValueError("test_size must be between 0 and 1")



### 2.
Теперь напишите код стекинга вместо pass после оператора if.

Сразу определите матрицу meta_mtrx. Напишите цикл для заполнения матрицы: сначала напишите строку, где каждый столбец метапризнаков (для каждой модели) заполняется с помощью функции cross_val_predict(base_algotithm, data_train, targets_train, cv, method='predict'); следующая строка - обучите каждый базовый алгоритм на полном тренировочном датасете.

После цикла обучите мета-алгоритм на матрице метапризнаков meta_mtrx. Определите матрицу meta_mtrx_test.

Напишите второй цикл, где матрица meta_mtrx_test заполняется предсказаниями базовых моделей на тестовых данных data_test.

После цикла сделайте предсказания мета-алгоритма для значений матрицы meta_mtrx_test.

Так же, как и для блендинга, напишите код проверки для targets_test и выведите roc_auc_score, если это возможно.

In [71]:
def stacking(models, meta_alg, data_train, targets_train, data_test, targets_test=None, random_state=None, test_size=None, cv=5):
    if test_size is None:
        
        meta_mtrx = np.empty((data_train.shape[0], len(models)))
        for n, model in enumerate(models):
            meta_mtrx[:, n] = cross_val_predict(model, data_train, targets_train, cv=cv, method='predict')
            model.fit(data_train, targets_train)        
        
        meta_alg.fit(meta_mtrx, targets_train)
        
        meta_mtrx_test = np.empty((data_test.shape[0], len(models)))
        for n, model in enumerate(models):
            meta_mtrx_test[:, n] = model.predict(data_test)
        y_pred = meta_alg.predict(meta_mtrx_test)
        
        if targets_test is not None:
            roc_auc = roc_auc_score(targets_test, y_pred)
            print(f'ROC_AUC: {roc_auc}')
        else:
            return y_pred
            del meta_mtrx, meta_mtrx_test, y_pred
        
    elif test_size > 0 and test_size < 1:
        X_train, X_test, y_train, y_test = train_test_split(data_train, 
                                                      targets_train,
                                                      train_size=test_size,
                                                      random_state=random_state)
        for model in models:
            model.fit(X_train, y_train)
        
        meta_mtrx = np.empty((X_test.shape[0], len(models)))

        for n, model in enumerate(models):
            meta_mtrx[:, n] = model.predict(X_test)
        meta_alg.fit(meta_mtrx, y_test)
        
        meta_mtrx_test = np.empty((data_test.shape[0], len(models)))
        for n, model in enumerate(models):
            meta_mtrx_test[:, n] = model.predict(data_test)
        y_pred = meta_alg.predict(meta_mtrx_test)
        
        if targets_test is not None:
            roc_auc = roc_auc_score(targets_test, y_pred)
            print(f'ROC_AUC: {roc_auc}')
        else:
            return y_pred
            del meta_mtrx, meta_mtrx_test, X_train, X_test, y_train, y_test, y_pred

    
    else:
        raise ValueError("test_size must be between 0 and 1")

### 3.
Базовая функция стекинга готова. Теперь проверим, как она работает. Ниже представлен уже знакомый нам датасет Titanic, разделенный на тренировочный и тестовый датасеты; предопределенные базовые алгоритмы и мета-алгоритм. Ваша задача - составить список базовых алгоритмов и запустить функцию в трех различных вариантах (при этом в каждом из них все значения data_train, targets_train, data_test, targets_test должны быть определены):

1. Вызвать исключение "test_size must be between 0 and 1".

2. Установить test_size=0.3; вывести AUC и массив полученных предсказаний.

3. Оставить test_size=None; вывести AUC и массив полученных предсказаний.

In [72]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from xgboost import XGBClassifier


titanic = pd.read_csv('titanic.csv', sep=';', header=0)
targets = titanic.Survived
data = titanic.drop(columns='Survived')

x_train, x_test, y_train, y_test = train_test_split(data, 
                                                    targets,
                                                    train_size=0.8,
                                                    random_state=17)

In [73]:
# ваш код
knn = KNeighborsClassifier(n_neighbors=3)
lr = LogisticRegression(random_state=17)
svc = SVC(random_state=17)
meta = XGBClassifier(n_estimators=500)

model = [knn, lr, svc]
stacking(model, meta, x_train, y_train, x_test, y_test, test_size=2)

ValueError: test_size must be between 0 and 1

In [76]:
knn = KNeighborsClassifier(n_neighbors=3)
lr = LogisticRegression(random_state=17)
svc = SVC(random_state=17)
meta = XGBClassifier(n_estimators=500)

model = [knn, lr, svc]
stacking(model, meta, x_train, y_train, x_test, y_test, test_size=.3)

ROC_AUC: 0.7516154044972861


In [79]:
knn = KNeighborsClassifier(n_neighbors=3)
lr = LogisticRegression(random_state=17)
svc = SVC(random_state=17)
meta = XGBClassifier(n_estimators=500)

model = [knn, lr, svc]
stacking(model, meta, x_train, y_train, x_test, y_test)

ROC_AUC: 0.770483329025588


По мере того, как вы будете использовать эту функцию, вам могут пригодиться такие дополнительные параметры как: random_state, который позволит делать воспроизводимые модели; metrics - список метрик, которые могут быть вычислены; grid_search, который может производить поиск лучших параметров для алгоритмов, и т.д.