### КР2

### Бустинг. - 6 баллов
В существующий код бустинга добавьте возможность ранней остановки обучения. 
должны быть учтены:
1) Наличие валидационного датасета (либо разделение должно быть внутри класса, либо вне его, а в обучении новый набор будет подаваться отдельной парой)
2) Кастомная метрика или лосс для оствновки. Должна передаваться в виде доп. параметра. Дефолт - лосс функция для расчета градиента.
3) Укажите, сколько должно пройти итераций для ранней остановки. 
4) После обучения должно вернуться лучшее состояние модели по валидационной выборке, а не то, которое было достинуто при остановке обучения. 

Для обучения используйте тот же датасет, что использовался на 8 семинаре (house_price_regression_dataset).
1 и 3 пункты обязательны - 3 балла. 2 пункт - 1 балл (при недефолтной реализации). 4 пункт - 2 балла.

In [24]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import pandas as pd
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [40]:
class MyGradientRegressor:
    def __init__(self, n_estimators: int = 300, max_depth: int = 3, lr: float = 0.1, 
                 early_stopping_rounds: int = 50, custom_metric=None):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.lr = lr
        self.early_stopping_rounds = early_stopping_rounds
        self.custom_metric = custom_metric
        self.estimators = []

    def fit(self, X_train, y_train, X_val=None, y_val=None):
        X_train = np.array(X_train)
        y_train = np.array(y_train)
              
        # Инициализация
        self.estimators = []
        predictions = np.zeros_like(y_train)
        best_model = None
        best_metric_value = 10000000
        best_model_index = 0
        
        for i in range(self.n_estimators):
            new_model = DecisionTreeRegressor(max_depth=self.max_depth)
            new_target = -2 * (predictions - y_train)
            new_model.fit(X_train, new_target)
            predictions += self.lr * new_model.predict(X_train)
            self.estimators.append(new_model)
            
            # Предсказания на валидационной выборке
            val_preds = self.predict(X_val)
            if self.custom_metric: # Если кастомная метрика
                metric_value = self.custom_metric(y_val, val_preds)
            else:
                metric_value = np.mean((y_val - val_preds) ** 2)  # Используем MSE по умолчанию
            
            if metric_value < best_metric_value:
                best_metric_value = metric_value
                best_model = [model for model in self.estimators] # сохраним лучшую модель
                best_model_index = i

            
            # Если достигнут лимит без улучшений, останавливаем обучение
            if i - best_model_index >= self.early_stopping_rounds:
                print(f"Улучшений не наблюдается. Всего прошло итераций: {i+1}")
                break
        
        # Восстанавливаем модель с лучшим результатом
        self.estimators = best_model

    def predict(self, X_test):
        X_test = np.array(X_test)
        curr_pred = np.zeros(X_test.shape[0])
        for est in self.estimators:
            curr_pred += self.lr * est.predict(X_test)

        return curr_pred

In [41]:
data = pd.read_csv("house_price_regression_dataset.csv")
data

Unnamed: 0,Square_Footage,Num_Bedrooms,Num_Bathrooms,Year_Built,Lot_Size,Garage_Size,Neighborhood_Quality,House_Price
0,1360,2,1,1981,0.599637,0,5,2.623829e+05
1,4272,3,3,2016,4.753014,1,6,9.852609e+05
2,3592,1,2,2016,3.634823,0,9,7.779774e+05
3,966,1,2,1977,2.730667,1,8,2.296989e+05
4,4926,2,1,1993,4.699073,0,8,1.041741e+06
...,...,...,...,...,...,...,...,...
995,3261,4,1,1978,2.165110,2,10,7.014940e+05
996,3179,1,2,1999,2.977123,1,10,6.837232e+05
997,2606,4,2,1962,4.055067,0,2,5.720240e+05
998,4723,5,2,1950,1.930921,0,7,9.648653e+05


In [42]:
X = data.drop(columns=["House_Price"])
y = data["House_Price"]

In [43]:
# Сначала разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Теперь из обучающей выборки выделим валидационную выборку
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25)

X_train.reset_index(inplace=True)
X_val.reset_index(inplace=True)
X_test.reset_index(inplace=True)
y_train = y_train.reset_index()["House_Price"]
y_val = y_val.reset_index()["House_Price"]
y_test.reset_index()["House_Price"]

0      1.116269e+05
1      5.608898e+05
2      9.984392e+05
3      8.674454e+05
4      3.009352e+05
           ...     
195    3.944086e+05
196    7.793361e+05
197    2.170105e+05
198    5.257609e+05
199    1.006940e+06
Name: House_Price, Length: 200, dtype: float64

In [52]:
def HuberLoss(y_true, y_pred, delta=1.0):
    error = np.abs(y_true - y_pred)
    loss = np.where(error <= delta, 0.5 * error**2, delta * (error - 0.5 * delta)) 
    return np.mean(loss)

# Создание и обучение модели
model = MyGradientRegressor(n_estimators=300, max_depth=3, lr=0.1, 
                             early_stopping_rounds=50, custom_metric=HuberLoss)

model.fit(X_train, y_train, X_val=X_val, y_val=y_val)

# Предсказания
y_pred = model.predict(X_test)

Улучшений не наблюдается. Всего прошло итераций: 243


In [53]:
HuberLoss(y_test, y_pred)

np.float64(13490.895828334154)

### Стекинг - 4 балла
В текущей реализации в качестве признаков для метамодели используются предсказания базовых моделей.
Ваша задача добавить возможность дополнительно учитывать исходные данные в качестве признаков (гиперпараметр). 
Метапризнаки как доп. фичи к основным.
При этом на основные признаки добавляется воможность расчета полиномиальных признаков (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)

Для тестирования используйте тот же датасет

In [None]:
from sklearn.model_selection import KFold


class Stacking:
    def __init__(self, estimators, meta_estimator, folds=5):
        self.estimators = estimators
        self.meta_estimator = meta_estimator
        self.folds = folds
        self.meta_train = []

    def _fit_estimator(self, estimator, X_train, y_train):
        kf = KFold(n_splits=self.folds, shuffle=True)
        train_fold_indices = []
        test_fold_indices = []
        test_fold_predicts = []

        for train_idx, test_idx in kf.split(X_train):
            train_fold_indices.extend(train_idx)
            test_fold_indices.extend(test_idx)

            estimator.fit(X_train[train_idx], y_train[train_idx])
            test_fold_predicts.extend(estimator.predict(X_train[test_idx]))

        estimator.fit(X_train, y_train)
        self.meta_train.append(np.array(test_fold_predicts)[np.argsort(test_fold_indices)])

    def fit(self, X_train, y_train):
        X_train = np.array(X_train)
        y_train = np.array(y_train)
        self.meta_train = []

        for estimator in self.estimators:
            self._fit_estimator(estimator, X_train, y_train)

        self.meta_train = np.array(self.meta_train).transpose()
        self.meta_estimator.fit(self.meta_train, y_train)

    def predict(self, X_test):
        X_test = np.array(X_test)
        meta_features = np.array([estimator.predict(X_test) for estimator in self.estimators]).transpose()
        return self.meta_estimator.predict(meta_features)