# Задача:
Выполнить Стэкинг, Бэгин, Вотинг и Бустинг. При реализации алгоритмов не использовать готовые решения. 
За сровнение взять CatBoostClassifier как базовая метрика качества. Сравнить результат с реализацией своих ансамблей. 
Для однозначности и интерпретируемости результатов использовать приложенный набор данных. 
При реализации бустинга - просто сокращайте набор данных на котором модель отработала хорошо (правильно предсказанные данные). 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.notebook_repr_html', True)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 20)
pd.set_option('display.width', 80)

In [62]:
# Прочитаем файл данных
df = pd.read_csv("./winequality-white.csv", encoding='ANSI', on_bad_lines = 'skip',  sep=';')
df

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.00100,3.00,0.45,8.8,6
1,6.3,0.30,0.34,1.6,0.049,14.0,132.0,0.99400,3.30,0.49,9.5,6
2,8.1,0.28,0.40,6.9,0.050,30.0,97.0,0.99510,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
...,...,...,...,...,...,...,...,...,...,...,...,...
4893,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6
4894,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5
4895,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6
4896,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7


In [63]:
df.dtypes

fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

In [64]:
# Проверка на пропущенные значения
print(df.isnull().sum())

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64


In [65]:
# Разделение на признаки и целевую переменную
X = df.drop('quality', axis=1)
y = df['quality']

In [66]:
# Масштабирование данных
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

In [67]:
# Разделение данных на обучающую и тестовую выборки
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [85]:
# Используем CatBoostRegressor для бустинга
from catboost import CatBoostClassifier
model = CatBoostClassifier(iterations=1000,
                           learning_rate=0.1,
                           depth=5,
                           task_type="GPU",
                           devices='0'
                           )
model.fit(X_train, y_train, plot=True)
y_pred = model.predict(X_test)


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

0:	learn: 1.7905062	total: 5.3ms	remaining: 5.29s
1:	learn: 1.6710678	total: 9.28ms	remaining: 4.63s
2:	learn: 1.5772653	total: 13.1ms	remaining: 4.36s
3:	learn: 1.5047032	total: 17.1ms	remaining: 4.26s
4:	learn: 1.4437658	total: 21.6ms	remaining: 4.29s
5:	learn: 1.3932713	total: 27ms	remaining: 4.47s
6:	learn: 1.3488762	total: 31.1ms	remaining: 4.41s
7:	learn: 1.3109616	total: 36.7ms	remaining: 4.55s
8:	learn: 1.2770091	total: 40.5ms	remaining: 4.46s
9:	learn: 1.2484684	total: 44.6ms	remaining: 4.41s
10:	learn: 1.2231539	total: 48.7ms	remaining: 4.38s
11:	learn: 1.2015287	total: 53.3ms	remaining: 4.38s
12:	learn: 1.1804126	total: 57.3ms	remaining: 4.35s
13:	learn: 1.1614406	total: 61.4ms	remaining: 4.32s
14:	learn: 1.1463175	total: 66.7ms	remaining: 4.38s
15:	learn: 1.1312713	total: 72.1ms	remaining: 4.43s
16:	learn: 1.1185995	total: 76.2ms	remaining: 4.41s
17:	learn: 1.1071246	total: 80.3ms	remaining: 4.38s
18:	learn: 1.0963948	total: 84.1ms	remaining: 4.34s
19:	learn: 1.0857818	tota

In [103]:
# Оценка качества CatBoostRegressor на тестовой выборке
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R² Score: {r2}")

Mean Squared Error: 0.46938775510204084
R² Score: 0.39392635694349587


In [104]:
# Реализации собственного Бустинга
from sklearn.tree import DecisionTreeRegressor


def boosting(X_train, y_train, X_test, y_test, n_estimators=1000, learning_rate=0.1, max_depth=5):
    # Инициализация предсказаний средним значением целевой переменной
    initial_prediction = np.mean(y_train)
    train_predictions = np.full(X_train.shape[0], initial_prediction)
    test_predictions = np.full(X_test.shape[0], initial_prediction)

    models = []  # Список для хранения моделей

    for i in range(n_estimators):
        # Вычисляем остатки (ошибки) на обучающей выборке
        residuals = y_train - train_predictions

        # Создаем и обучаем модель (дерево решений) на остатках
        model = DecisionTreeRegressor(max_depth=max_depth, random_state=42)
        model.fit(X_train, residuals)

        # Сохраняем модель
        models.append(model)

        # Обновляем предсказания для обучающей и тестовой выборки
        train_predictions += learning_rate * model.predict(X_train)
        test_predictions += learning_rate * model.predict(X_test)

    # Оценка качества на тестовой выборке
    mse = mean_squared_error(y_test, test_predictions)
    r2 = r2_score(y_test, test_predictions)
    print(f"Mean Squared Error: {mse}")
    print(f"R² Score: {r2}")

    return models, test_predictions

# Запуск бустинга
models, test_predictions = boosting(X_train, y_train, X_test, y_test)

Mean Squared Error: 0.3596121525904418
R² Score: 0.5356686555223416


In [105]:
# Функция для реализации Бэггинга
from sklearn.utils import resample
def bagging(X_train, y_train, X_test, y_test, n_estimators=1000, max_depth=5):
    models = []  # Список для хранения моделей
    test_predictions = np.zeros(X_test.shape[0])  # Итоговые предсказания для тестовой выборки

    for i in range(n_estimators):
        # Создаем бутстрэп-выборку
        X_boot, y_boot = resample(X_train, y_train, replace=True, random_state=i)

        # Создаем и обучаем модель 
        model = DecisionTreeRegressor(max_depth=max_depth, random_state=42)
        model.fit(X_boot, y_boot)

        # Сохраняем модель
        models.append(model)

        # Обновляем предсказания для тестовой выборки
        test_predictions += model.predict(X_test)

    # Усредняем предсказания всех моделей
    test_predictions /= n_estimators

    # Оценка качества на тестовой выборке
    mse = mean_squared_error(y_test, test_predictions)
    r2 = r2_score(y_test, test_predictions)
    print(f"Mean Squared Error: {mse}")
    print(f"R² Score: {r2}")

    return models, test_predictions

# Запуск бэггинга
models, test_predictions = bagging(X_train, y_train, X_test, y_test)

Mean Squared Error: 0.499270058948712
R² Score: 0.35534231516052217


In [108]:
# Функция для реализации Стэкинга
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor

def stacking(X_train, y_train, X_test, y_test):
    # Базовые модели
    models = [
        DecisionTreeRegressor(max_depth=5, random_state=42),
        LinearRegression(),
        KNeighborsRegressor(n_neighbors=5)
    ]

    # Массивы для хранения предсказаний базовых моделей
    train_meta_features = np.zeros((X_train.shape[0], len(models)))  # Для обучающей выборки
    test_meta_features = np.zeros((X_test.shape[0], len(models)))    # Для тестовой выборки

    # Обучение базовых моделей и создание мета-признаков
    for i, model in enumerate(models):
        # Обучаем модель
        model.fit(X_train, y_train)

        # Получаем предсказания для обучающей и тестовой выборок
        train_meta_features[:, i] = model.predict(X_train)
        test_meta_features[:, i] = model.predict(X_test)

    # Мета-модель (финальная модель)
    meta_model = LinearRegression()
    meta_model.fit(train_meta_features, y_train)

    # Предсказание на тестовой выборке
    y_pred = meta_model.predict(test_meta_features)

    # Оценка качества
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"Mean Squared Error: {mse}")
    print(f"R² Score: {r2}")

    return meta_model, y_pred

# Запуск стэкинга
meta_model, y_pred = stacking(X_train, y_train, X_test, y_test)

Mean Squared Error: 0.46574466312172785
R² Score: 0.39863031865638343


In [109]:
# Функция для реализации Вотинга
def voting(X_train, y_train, X_test, y_test):
    # Базовые модели
    models = [
        DecisionTreeRegressor(max_depth=5, random_state=42),
        LinearRegression(),
        KNeighborsRegressor(n_neighbors=5)
    ]

    # Массив для хранения предсказаний базовых моделей
    test_predictions = np.zeros((X_test.shape[0], len(models)))

    # Обучение базовых моделей и получение предсказаний
    for i, model in enumerate(models):
        # Обучаем модель
        model.fit(X_train, y_train)

        # Получаем предсказания для тестовой выборки
        test_predictions[:, i] = model.predict(X_test)

    # Усреднение предсказаний всех моделей
    y_pred = np.mean(test_predictions, axis=1)

    # Оценка качества
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"Mean Squared Error: {mse}")
    print(f"R² Score: {r2}")

    return y_pred

# Запуск вотинга
y_pred = voting(X_train, y_train, X_test, y_test)

Mean Squared Error: 0.45958643637807267
R² Score: 0.4065818233062729


# Выводы:
1. CatBoostRegressor выдал не очень высокие показатели (R² Score = 39%).
2. Вотинг и Стэкинг дали одинаковый результат(R² Score = 40%) на уровне CatBoostRegressor.
3. Бэггинг показал худший результат, но не сильно хуже остальных(R² Score = 35%).
4. Наилучшего результата получилось достигнуть, используя Бустинг(R² Score = 54%).