# Лабораторная работа №2: Реализация продвинутых ансамблевых методов

**Цель работы:**
Реализовать современные ансамблевые алгоритмы машинного обучения и исследовать их эффективность.

## Задачи
1. Реализовать Gradient Boosting с нуля:
   - Градиентный спуск по функциональному пространству
   - Функции потерь: MSE, MAE, Logistic loss
   - Регуляризация: learning rate, subsampling
2. Реализовать упрощённую версию XGBoost:
   - Второй порядок градиентов (Hessian)
   - Регуляризация L1/L2 для листьев
   - Обработка разреженных данных
3. Реализовать Stacking:
   - Базовые алгоритмы разных типов
   - Мета-алгоритм с cross-validation
4. Реализовать Voting классификатор:
   - Hard voting, soft voting
   - Взвешенное голосование
5. Исследовать влияние гиперпараметров:
   - Количество деревьев
   - Глубина деревьев
   - Learning rate
   - Доля выборки (subsample)
6. Провести bias-variance decomposition анализ.
7. Сравнить с реализацией scikit-learn на наборах: Adult, Titanic, Bank Marketing.
8. Проанализировать feature importance и интерпретируемость.

## Источники данных
- Adult (классификация):
  ```
  import io

  import pandas as pd
  import requests

  url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
  resp = requests.get(url, verify=False)
  col_names = [
  'age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status',
  'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss',
  'hours-per-week', 'native-country', 'income'
  ]

  df = pd.read_csv(io.StringIO(resp.text), names=col_names, sep=',\s', engine='python')
  ```
- Titanic (классификация):
  ```
  import seaborn as sns
  df = sns.load_dataset('titanic')
  ```
- Bank Marketing (классификация):
  ```
  df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank.csv', sep=';')
  ```

## Структура отчета
1. **Введение** — цели и описание алгоритмов.
2. **Теория** — математическое обоснование ансамблей.
3. **Реализация** — код (NumPy).
4. **Эксперименты** — исследование гиперпараметров.
5. **Сравнение** — scikit-learn vs ваша реализация.
6. **Интерпретируемость** — анализ feature importance.
7. **Выводы** — рекомендации.

## Критерии оценивания (15 баллов)
- Реализация Gradient Boosting и XGBoost — 6 баллов
- Реализация Stacking и Voting — 4 балла
- Эксперименты и подбор гиперпараметров — 3 балла
- Анализ feature importance и bias-variance — 1 балл
- Качество отчёта и визуализаций — 1 балл

In [None]:
# Импорты
import io

import pandas as pd
import requests

# Загрузка и предобработка данных (пример для Adult)
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
resp = requests.get(url, verify=False)
col_names = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status',
    'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss',
    'hours-per-week', 'native-country', 'income'
]

df = pd.read_csv(io.StringIO(resp.text), names=col_names, sep=',\s', engine='python')
# TODO: очистить, закодировать категориальные признаки

### 1. Реализация Gradient Boosting
Реализовать класс `MyGradientBoosting` с методами:
- `fit(self, X, y)`
- `predict(self, X)`

In [None]:
class MyGradientBoosting:
    def __init__(self, args):
        # TODO: реализовать инициализацию
        pass

    def fit(self, X, y):
        # TODO: реализовать алгоритм
        pass

    def predict(self, X):
        # TODO: реализовать предсказание
        pass

### 2. Реализация упрощённого XGBoost
Класс `MyXGBoost`:
- Второй порядок градиентов
- Регуляризация L1/L2

In [7]:
class MyXGBoost:
    def __init__(self, args):
        # TODO: реализовать инициализацию
        pass

    def fit(self, X, y):
        # TODO: реализовать XGBoost
        pass

    def predict(self, X):
        # TODO: predict
        pass

### 3. Реализация Stacking и Voting
Используйте KFold для построения мета-признаков.

In [None]:
def create_meta_features(args):
    # TODO: реализовать генерацию мета-признаков
    pass


# Пример VotingClassifier
voting = VotingClassifier(
    estimators=[('gb', GradientBoostingClassifier()), ('ab', AdaBoostClassifier())],
    voting='soft'
)
voting.fit(X_train, y_train)
print("Voting accuracy:", accuracy_score(y_test, voting.predict(X_test)))

### 4. Эксперименты
   1. GridSearch для каждого метода.
   2. Анализ bias-variance (с использованием KFold).
   3. Визуализация feature importance.

In [None]:
# Пример feature importance для GradientBoostingClassifier
gb = GradientBoostingClassifier().fit(X_train, y_train)
imp = gb.feature_importances_
plt.bar(range(len(imp)), imp)
plt.title('Feature Importance')
plt.show()

### 5. Сравнение с scikit-learn
   - Сводная таблица accuracy, ROC-AUC, время обучения.
   - Графики зависимости качества от числа деревьев и learning rate.

### 6. Выводы
   - Обсудите сильные и слабые стороны реализованных методов.
   - Дайте рекомендации по выбору ансамблей.