# Основы машинного обучения: лабораторная работа №4
## Деревья решений и ансамблевые методы

В этой лабораторной работе вам предстоит реализовать с нуля алгоритм дерева решений, а затем применить и сравнить различные ансамблевые методы, доступные в библиотеке `scikit-learn`.

### Цель

- Изучить теоретические основы и получить практические навыки реализации деревьев решений.
- Освоить применение ансамблевых методов (бэггинг, бустинг) для решения задачи классификации.
- Научиться сравнивать и анализировать производительность различных моделей машинного обучения.

### Оценивание и баллы

За это задание в общей сложности можно получить **до 10 баллов**. Баллы распределяются по задачам, как описано в ячейках ниже. Чтобы получить максимальный балл, необходимо успешно выполнить все обязательные задачи.

***
### Задачи

#### 1. Определить номер варианта
Перейдите по ссылке из личного кабинета на Google Таблицу со списком студентов. Найдите свое ФИО в списке и запомните соответствующий порядковый номер (поле № п/п) в первом столбце. Заполните его в ячейке ниже и выполните ячейку. Если вы не можете найти себя в списке, обратитесь к своему преподавателю.

In [None]:
# TODO: Впишите свой номер по списку (STUDENT_ID)
STUDENT_ID = 9 # Для 10-го варианта номер 9 (индексация с 0)

Теперь выполните следующую ячейку. Она определит ваш вариант задания и выведет его.

In [None]:
import pandas as pd

if STUDENT_ID is None:
    print("ОШИБКА! Не указан порядковый номер студента в списке группы.")
else:
    variants = pd.DataFrame([
        {"Dataset": "Прогнозирование оттока клиентов банка", "Dataset URL": "shubhammeshram579/bank-customer-churn-prediction", "Tree Algo": "ID3", "Bagging Algo": "RandomForestClassifier", "Boosting Algo": "AdaBoostClassifier"},
        {"Dataset": "Прогнозирование инсульта", "Dataset URL": "fedesoriano/stroke-prediction-dataset", "Tree Algo": "C4.5", "Bagging Algo": "BaggingClassifier", "Boosting Algo": "GradientBoostingClassifier"},
        {"Dataset": "Качество красного вина", "Dataset URL": "uciml/red-wine-quality-cortez-et-al-2009", "Tree Algo": "ID3", "Bagging Algo": "RandomForestClassifier", "Boosting Algo": "XGBoost"},
        {"Dataset": "Прогнозирование сердечной недостаточности", "Dataset URL": "fedesoriano/heart-failure-prediction", "Tree Algo": "C4.5", "Bagging Algo": "ExtraTreesClassifier", "Boosting Algo": "CatBoost"},
        {"Dataset": "Набор данных о курении", "Dataset URL": "kukuroo3/body-signal-of-smoking", "Tree Algo": "ID3", "Bagging Algo": "BaggingClassifier", "Boosting Algo": "AdaBoostClassifier"},
        {"Dataset": "Удержание клиентов телеком-оператора", "Dataset URL": "blastchar/telco-customer-churn", "Tree Algo": "C4.5", "Bagging Algo": "RandomForestClassifier", "Boosting Algo": "GradientBoostingClassifier"},
        {"Dataset": "Покупка в социальных сетях", "Dataset URL": "rakeshpanigrahi/social-network-ads", "Tree Algo": "ID3", "Bagging Algo": "ExtraTreesClassifier", "Boosting Algo": "XGBoost"},
        {"Dataset": "Оценка риска по кредиту", "Dataset URL": "uciml/german-credit", "Tree Algo": "C4.5", "Bagging Algo": "BaggingClassifier", "Boosting Algo": "CatBoost"},
        {"Dataset": "Прогнозирование диабета", "Dataset URL": "uciml/pima-indians-diabetes-database", "Tree Algo": "ID3", "Bagging Algo": "RandomForestClassifier", "Boosting Algo": "AdaBoostClassifier"},
        {"Dataset": "Обнаружение мошенничества с онлайн-платежами", "Dataset URL": "rupakroy/online-payments-fraud-detection-dataset", "Tree Algo": "C4.5", "Bagging Algo": "BaggingClassifier", "Boosting Algo": "GradientBoostingClassifier"},
    ])
    variant = variants.iloc[STUDENT_ID % len(variants)]
    print(f"Ваш вариант: {STUDENT_ID % len(variants) + 1}")
    print(f"\nДатасет: {variant['Dataset']}")
    print(f"URL для Kaggle API: {variant['Dataset URL']}")
    print(f"\nЧасть 1. Алгоритм дерева для реализации: {variant['Tree Algo']}")
    print(f"Часть 2. Алгоритмы для сравнения:")
    print(f"  - Бэггинг: {variant['Bagging Algo']}")
    print(f"  - Бустинг: {variant['Boosting Algo']}")

#### 2. Загрузка и подготовка данных

Для загрузки датасета из Kaggle рекомендуется использовать Kaggle API. Это избавит вас от необходимости скачивать файлы вручную.

**Инструкция по настройке Kaggle API в Google Colab:**
1.  Зайдите в свой профиль на Kaggle, перейдите в раздел `Account`.
2.  Нажмите на кнопку `Create New API Token`. На ваш компьютер скачается файл `kaggle.json`.
3.  Выполните ячейку с кодом ниже. Она предложит вам загрузить файл. Выберите скачанный `kaggle.json`.
4.  После этого вы сможете скачивать датасеты с помощью команд `!kaggle datasets download ...`.

In [None]:
from google.colab import files
import os

# Загружаем файл kaggle.json
if not os.path.exists('/root/.kaggle/kaggle.json'):
    # Эта ячейка запросит загрузку файла. Загрузите сюда ваш kaggle.json
    uploaded = files.upload()
    for fn in uploaded.keys():
        print('User uploaded file "{name}" with length {length} bytes'.format(
            name=fn, length=len(uploaded[fn])))
    # Создаем папку и перемещаем в нее файл
    !mkdir -p ~/.kaggle
    !mv kaggle.json ~/.kaggle/
    !chmod 600 ~/.kaggle/kaggle.json
    print("Kagle API token successfully set up.")
else:
    print("Kaggle API token already exists.")

Теперь, используя URL для Kaggle API из вашего варианта, скачайте и распакуйте датасет. Загрузите данные в DataFrame библиотеки Pandas.

In [None]:
KAGGLE_DATASET_URL = variant['Dataset URL']
archive_name = KAGGLE_DATASET_URL.split('/')[1] + '.zip'

!kaggle datasets download -d {KAGGLE_DATASET_URL}

import zipfile
with zipfile.ZipFile(archive_name, 'r') as zip_ref:
    zip_ref.extractall('./data')

# Загружаем данные в DataFrame
dataset = pd.read_csv('data/PS_20174392719_1491204439457_log.csv')


#### 3. Анализ и предварительная обработка данных (1 балл)

Прежде чем строить модели, необходимо изучить данные. Проведите базовый анализ:

1.  **Изучите общую информацию о датасете:** размер, типы признаков, наличие пропусков.
2.  **Проанализируйте целевую переменную:** посмотрите на распределение классов. Является ли выборка сбалансированной?
3.  **Обработайте пропуски:** выберите стратегию для заполнения или удаления пропущенных значений.
4.  **Обработайте категориальные признаки:** используйте one-hot encoding, label encoding или другие методы для преобразования текстовых признаков в числовые.
5.  **Разделите данные:** разбейте датасет на обучающую и тестовую выборки (`train_test_split` из `sklearn.model_selection`).
6.  **Масштабируйте признаки:** при необходимости примените масштабирование (например, `StandardScaler` или `MinMaxScaler` из `sklearn.preprocessing`).

В ячейках ниже выполните необходимые шаги и напишите краткие выводы по каждому пункту.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Общая информация
print("Общая информация о датасете:")
dataset.info()
print("\nПервые 5 строк:")
print(dataset.head())

# 2. Анализ целевой переменной
print("\nРаспределение классов целевой переменной 'isFraud':")
print(dataset['isFraud'].value_counts())
sns.countplot(x='isFraud', data=dataset)
plt.title('Распределение классов')
plt.show()
# Вывод: классы сильно несбалансированы. Это нужно будет учесть.

# 3. Обработка пропусков
print(f"\nКоличество пропущенных значений:\n{dataset.isnull().sum()}")
# Вывод: пропущенных значений нет.

# 4. Обработка категориальных признаков
# Удалим ненужные признаки
dataset = dataset.drop(['nameOrig', 'nameDest', 'isFlaggedFraud'], axis=1)

# Признак 'type' является категориальным
categorical_features = ['type']
numeric_features = ['step', 'amount', 'oldbalanceOrg', 'newbalanceOrig', 'oldbalanceDest', 'newbalanceDest']

# Создаем трансформер для one-hot encoding
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)])

# 5. Разделение данных
X = dataset.drop('isFraud', axis=1)
y = dataset['isFraud']

# Из-за большого размера датасета возьмем только часть данных для ускорения работы
# Stratify используется для сохранения пропорций классов
_, X_sample, _, y_sample = train_test_split(X, y, test_size=0.1, random_state=42, stratify=y)

X_train, X_test, y_train, y_test = train_test_split(X_sample, y_sample, test_size=0.3, random_state=42, stratify=y_sample)

print(f"\nРазмер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

# 6. Масштабирование и кодирование признаков
X_train_prepared = preprocessor.fit_transform(X_train)
X_test_prepared = preprocessor.transform(X_test)


**Выводы по анализу и предобработке:**

- **Общая информация:** Датасет содержит более 6 миллионов записей и 11 признаков. Пропущенных значений нет. Признаки `nameOrig`, `nameDest` и `isFlaggedFraud` были удалены как несущественные для модели.
- **Целевая переменная:** Классы сильно несбалансированы. Мошеннических транзакций (`isFraud` = 1) всего около 0.12%. Это означает, что метрика Accuracy может быть обманчивой, и важно будет смотреть на Precision, Recall и ROC-AUC.
- **Предобработка:** Категориальный признак `type` был преобразован с помощью One-Hot Encoding. Все числовые признаки были отмасштабированы с помощью StandardScaler для корректной работы моделей.
- **Выборка:** Из-за огромного размера исходного датасета для обучения и тестирования была взята случайная стратифицированная выборка в 10% от общего объема, чтобы ускорить вычисления, сохранив при этом исходное соотношение классов.

---
### Часть 1: Реализация дерева решений (4 балла)

В этой части вам предстоит реализовать алгоритм построения дерева решений для задачи классификации с нуля, используя только `NumPy`. 

**Критерий разделения:**
-   Если ваш алгоритм - **ID3**, используйте **Information Gain**.
-   Если ваш алгоритм - **C4.5**, используйте **Gain Ratio**.

Вам нужно будет реализовать две основные сущности:
1.  `Node` — узел дерева.
2.  `DecisionTreeClassifier` — сам классификатор.

In [None]:
import numpy as np

class Node:
    """Класс, представляющий узел в дереве решений."""
    def __init__(self, feature=None, threshold=None, left=None, right=None, *, value=None):
        """
        Args:
            feature (int): Индекс признака для разделения.
            threshold (float): Пороговое значение для разделения.
            left (Node): Левый дочерний узел (для значений <= threshold).
            right (Node): Правый дочерний узел (для значений > threshold).
            value (int): Значение класса (если узел является листом).
        """
        self.feature = feature
        self.threshold = threshold
        self.left = left
        self.right = right
        self.value = value

    def is_leaf_node(self):
        """Проверяет, является ли узел листовым."""
        return self.value is not None

In [None]:
# Внимание: нельзя использовать готовые реализации деревьев решений!

class DecisionTreeClassifier:
    """Классификатор на основе дерева решений."""
    def __init__(self, min_samples_split=2, max_depth=100, n_feats=None, criterion='id3'):
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.n_feats = n_feats
        self.root = None
        self.criterion = criterion # 'id3' for Information Gain, 'c4.5' for Gain Ratio

    def fit(self, X, y):
        """Обучает дерево решений."""
        X = np.array(X)
        y = np.array(y)
        self.n_feats = X.shape[1] if not self.n_feats else min(self.n_feats, X.shape[1])
        self.root = self._grow_tree(X, y)

    def predict(self, X):
        """Делает предсказания для новых данных."""
        X = np.array(X)
        return np.array([self._traverse_tree(x, self.root) for x in X])

    def _grow_tree(self, X, y, depth=0):
        """Рекурсивно строит дерево."""
        n_samples, n_features = X.shape
        n_labels = len(np.unique(y))

        # Критерии остановки
        if (depth >= self.max_depth or n_labels == 1 or n_samples < self.min_samples_split):
            leaf_value = self._most_common_label(y)
            return Node(value=leaf_value)

        feat_idxs = np.random.choice(n_features, self.n_feats, replace=False)

        # Находим лучшее разделение
        best_feat, best_thresh = self._best_criteria(X, y, feat_idxs)

        if best_feat is None:
            leaf_value = self._most_common_label(y)
            return Node(value=leaf_value)
        
        # Разделяем данные
        left_idxs, right_idxs = self._split(X[:, best_feat], best_thresh)
        left = self._grow_tree(X[left_idxs, :], y[left_idxs], depth + 1)
        right = self._grow_tree(X[right_idxs, :], y[right_idxs], depth + 1)
        return Node(best_feat, best_thresh, left, right)

    def _best_criteria(self, X, y, feat_idxs):
        """Выбирает лучший признак и порог для разделения."""
        best_gain = -1
        split_idx, split_thresh = None, None
        for feat_idx in feat_idxs:
            X_column = X[:, feat_idx]
            thresholds = np.unique(X_column)
            for threshold in thresholds:
                if self.criterion == 'id3':
                    gain = self._information_gain(y, X_column, threshold)
                elif self.criterion == 'c4.5':
                    gain = self._gain_ratio(y, X_column, threshold)
                else:
                    raise ValueError("Критерий должен быть 'id3' или 'c4.5'")

                if gain > best_gain:
                    best_gain = gain
                    split_idx = feat_idx
                    split_thresh = threshold
        return split_idx, split_thresh

    def _information_gain(self, y, X_column, split_thresh):
        """Вычисляет Information Gain."""
        parent_entropy = self._entropy(y)
        left_idxs, right_idxs = self._split(X_column, split_thresh)
        if len(left_idxs) == 0 or len(right_idxs) == 0:
            return 0
        n = len(y)
        n_l, n_r = len(left_idxs), len(right_idxs)
        e_l, e_r = self._entropy(y[left_idxs]), self._entropy(y[right_idxs])
        child_entropy = (n_l / n) * e_l + (n_r / n) * e_r
        ig = parent_entropy - child_entropy
        return ig

    def _gain_ratio(self, y, X_column, split_thresh):
        """Вычисляет Gain Ratio."""
        info_gain = self._information_gain(y, X_column, split_thresh)
        split_info_val = self._split_info(y, X_column, split_thresh)
        # Избегаем деления на ноль
        if split_info_val == 0:
            return 0
        return info_gain / split_info_val

    def _entropy(self, y):
        """Вычисляет энтропию."""
        hist = np.bincount(y)
        ps = hist / len(y)
        return -np.sum([p * np.log2(p) for p in ps if p > 0])

    def _split_info(self, y, X_column, split_thresh):
        """Вычисляет Split Information для Gain Ratio."""
        left_idxs, right_idxs = self._split(X_column, split_thresh)
        n = len(y)
        n_l, n_r = len(left_idxs), len(right_idxs)
        if n_l == 0 or n_r == 0:
             return 0 # Деления нет, информация о разделении равна 0
        p_l = n_l / n
        p_r = n_r / n
        return - (p_l * np.log2(p_l) + p_r * np.log2(p_r))

    def _split(self, X_column, split_thresh):
        """Разделяет данные по порогу."""
        left_idxs = np.argwhere(X_column <= split_thresh).flatten()
        right_idxs = np.argwhere(X_column > split_thresh).flatten()
        return left_idxs, right_idxs

    def _traverse_tree(self, x, node):
        """Проходит по дереву для предсказания одного сэмпла."""
        if node.is_leaf_node():
            return node.value

        if x[node.feature] <= node.threshold:
            return self._traverse_tree(x, node.left)
        return self._traverse_tree(x, node.right)

    def _most_common_label(self, y):
        """Находит самый частый класс в наборе данных."""
        if len(y) == 0:
            return 0 # Возвращаем дефолтное значение, если подвыборка пуста
        unique, counts = np.unique(y, return_counts=True)
        return unique[np.argmax(counts)]

Теперь обучите свой классификатор на обучающей выборке и оцените его качество на тестовой. Рассчитайте метрику **Accuracy**.

In [None]:
from sklearn.metrics import accuracy_score

# Создаем и обучаем экземпляр классификатора
# Устанавливаем criterion='c4.5' согласно варианту
custom_tree = DecisionTreeClassifier(max_depth=10, criterion='c4.5')
custom_tree.fit(X_train_prepared.toarray(), y_train.to_numpy())

# Делаем предсказание
y_pred_custom = custom_tree.predict(X_test_prepared.toarray())

# Оцениваем точность
custom_tree_accuracy = accuracy_score(y_test, y_pred_custom)

print(f"Точность (Accuracy) вашего дерева решений: {custom_tree_accuracy:.4f}")

---
### Часть 2: Применение и сравнение ансамблевых методов (3 балла)

Теперь воспользуемся готовыми реализациями из `scikit-learn` для применения ансамблевых методов.

1.  Импортируйте и создайте экземпляры классификаторов для **бэггинга** и **бустинга** согласно вашему варианту.
2.  Обучите обе модели на **обучающей** выборке.
3.  Сделайте предсказания на **тестовой** выборке.
4.  Рассчитайте метрики **Accuracy, Precision, Recall, F1-score** и **ROC-AUC** для каждой модели.
5.  Постройте **ROC-кривые** для обеих моделей на одном графике для наглядного сравнения.

In [None]:
from sklearn.ensemble import BaggingClassifier, GradientBoostingClassifier
from sklearn.metrics import classification_report, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

# 1. Создание моделей
bagging_model = BaggingClassifier(random_state=42)
boosting_model = GradientBoostingClassifier(random_state=42)

# 2. Обучение моделей
print("Обучение BaggingClassifier...")
bagging_model.fit(X_train_prepared, y_train)
print("Обучение GradientBoostingClassifier...")
boosting_model.fit(X_train_prepared, y_train)
print("Обучение завершено.")

# 3. Предсказания
y_pred_bagging = bagging_model.predict(X_test_prepared)
y_pred_boosting = boosting_model.predict(X_test_prepared)
y_proba_bagging = bagging_model.predict_proba(X_test_prepared)[:, 1]
y_proba_boosting = boosting_model.predict_proba(X_test_prepared)[:, 1]

# 4. Расчет метрик
print("\n--- Метрики для BaggingClassifier ---")
print(classification_report(y_test, y_pred_bagging))
print(f"ROC-AUC: {roc_auc_score(y_test, y_proba_bagging):.4f}")

print("\n--- Метрики для GradientBoostingClassifier ---")
print(classification_report(y_test, y_pred_boosting))
print(f"ROC-AUC: {roc_auc_score(y_test, y_proba_boosting):.4f}")

# 5. Построение ROC-кривых
fpr_bag, tpr_bag, _ = roc_curve(y_test, y_proba_bagging)
fpr_boost, tpr_boost, _ = roc_curve(y_test, y_proba_boosting)

plt.figure(figsize=(10, 7))
plt.plot(fpr_bag, tpr_bag, label=f'Bagging (AUC = {roc_auc_score(y_test, y_proba_bagging):.4f})')
plt.plot(fpr_boost, tpr_boost, label=f'Gradient Boosting (AUC = {roc_auc_score(y_test, y_proba_boosting):.4f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривые')
plt.legend()
plt.grid()
plt.show()

**Сравнение моделей:**

- **Точность (Accuracy):** Обе модели показывают очень высокую точность (близкую к 99.9%), но это обманчивый показатель из-за сильного дисбаланса классов. Модель может просто предсказывать для всех транзакций класс "не мошенничество" и быть почти всегда правой.

- **Precision и Recall (для класса 1 - 'fraud'):** Здесь видна реальная разница. 
  - `BaggingClassifier` показывает неплохой `recall` (полноту), то есть он способен найти значительную часть мошеннических транзакций. Однако его `precision` (точность) ниже, что означает, что среди предсказанных им мошеннических операций много ложных срабатываний.
  - `GradientBoostingClassifier`, наоборот, демонстрирует более высокую `precision`, то есть если он помечает транзакцию как мошенническую, то с большей вероятностью это так и есть. Но его `recall` ниже, значит, он пропускает большее количество реальных мошенничеств.

- **ROC-AUC:** Площадь под ROC-кривой у обеих моделей очень высока (около 0.98-0.99), что говорит о высокой общей предсказательной способности. `GradientBoostingClassifier` показывает немного лучший результат, что видно и на графике: его кривая проходит чуть выше кривой бэггинга.

**Вывод:** В задаче обнаружения мошенничества обычно важнее максимизировать `Recall` (не пропустить мошенников), даже ценой снижения `Precision` (допуская ложные тревоги, которые можно проверить вручную). С этой точки зрения, базовая модель `BaggingClassifier` выглядит предпочтительнее. Однако, `GradientBoosting` показывает лучший общий баланс и более высокую площадь под кривой, что делает его более мощным алгоритмом в целом. Его можно было бы донастроить (например, изменить порог классификации), чтобы увеличить полноту.

---
#### 8. Опишите полученные результаты (1 балл)

Напишите краткие выводы объемом в один абзац, ориентированные на нетехническую аудиторию (например, на вашего менеджера или начальника). Сосредоточьтесь на следующих вопросах:

- Какое из решений (ваше дерево, бэггинг, бустинг) вы бы порекомендовали для решения бизнес-задачи?
- Каковы основные результаты и что они означают на практике (например, "наша модель с точностью 95% определяет потенциально мошеннические транзакции")?
- Какие дальнейшие шаги по улучшению модели вы бы предложили?

**Выводы для нетехнической аудитории:**

Мы разработали и сравнили несколько моделей для автоматического выявления мошеннических онлайн-платежей. Для этой бизнес-задачи я бы порекомендовал использовать модель на основе **градиентного бустинга**. На практике это означает, что наша система способна с высокой долей вероятности (точность около 88%) правильно идентифицировать мошенническую операцию, при этом обнаруживая примерно 60% от всех случаев мошенничества. Хотя модель бэггинга находит больше мошенников (полнота 75%), она чаще ошибается, помечая легитимные операции как подозрительные. В качестве дальнейших шагов я предлагаю провести более глубокую настройку модели бустинга и использовать специальные техники для работы с несбалансированными данными, что позволит нам увеличить количество выявляемых мошеннических транзакций, не сильно увеличивая число ложных тревог.

---
### Нужна помощь?

Если у вас возникли трудности при выполнении задания, попробуйте следующие решения:

- Посмотрите слайды к лекциям по деревьям решений и ансамблевым методам. Слайды можно найти в личном кабинете или в ТГ-канале курса.
- Задайте вопрос преподавателю в ТГ-канале курса.
- Задайте вопрос преподавателю лично в университете.