# Основы машинного обучения: лабораторная работа №4
## Деревья решений и ансамблевые методы

В этой лабораторной работе вам предстоит реализовать с нуля алгоритм дерева решений, а затем применить и сравнить ансамблевые методы (бэггинг и бустинг).

### Цель

- Изучить теоретические основы и получить практические навыки реализации деревьев решений.
- Освоить применение ансамблевых методов (бэггинг, бустинг) для решения задачи классификации.
- Научиться сравнивать и анализировать производительность различных моделей машинного обучения.

### Оценивание и баллы

За это задание в общей сложности можно получить **до 10 баллов**. Баллы распределяются по задачам, как описано в ноутбуке.

### 1. Определение варианта (0 баллов)

Впишите свой номер в списке группы в ячейку ниже.

In [None]:
# Впишите свой номер в списке группы
STUDENT_ID = 10

In [None]:
# Не меняйте этот код
datasets = [
    ('Прогнозирование оттока клиентов банка', 'shubhammeshram579/bank-customer-churn-prediction'),
    ('Прогнозирование инсульта', 'fedesoriano/stroke-prediction-dataset'),
    ('Качество красного вина', 'uciml/red-wine-quality-cortez-et-al-2009'),
    ('Прогнозирование сердечной недостаточности', 'fedesoriano/heart-failure-prediction'),
    ('Набор данных о курении', 'kukuroo3/body-signal-of-smoking'),
    ('Удержание клиентов телеком-оператора', 'blastchar/telco-customer-churn'),
    ('Покупка в социальных сетях', 'rakeshpanigrahi/social-network-ads'),
    ('Оценка риска по кредиту', 'uciml/german-credit'),
    ('Прогнозирование диабета', 'uciml/pima-indians-diabetes-database'),
    ('Обнаружение мошенничества с онлайн-платежами', 'rupakroy/online-payments-fraud-detection-dataset')
]

tree_algorithms = ['ID3', 'C4.5']
bagging_algorithms = ['RandomForestClassifier', 'BaggingClassifier', 'ExtraTreesClassifier']
boosting_algorithms = ['AdaBoostClassifier', 'GradientBoostingClassifier', 'XGBoost', 'CatBoost']

variant = STUDENT_ID % 10 if STUDENT_ID else 10
if variant == 0: variant = 10

print(f"Ваш вариант: {variant}")
print(f"Датасет: {datasets[variant-1][0]}")
print(f"URL для Kaggle API: {datasets[variant-1][1]}")
print("\nЧасть 1. Алгоритм дерева для реализации:")
tree_algo_to_implement = tree_algorithms[(variant-1) % len(tree_algorithms)]
print(f"  - {tree_algo_to_implement}")
print("\nЧасть 2. Алгоритмы для сравнения:")
bagging_algo_to_compare = bagging_algorithms[(variant-1) % len(bagging_algorithms)]
boosting_algo_to_compare = boosting_algorithms[(variant-1) % len(boosting_algorithms)]
print(f"  - Бэггинг: {bagging_algo_to_compare}")
print(f"  - Бустинг: {boosting_algo_to_compare}")

### 2. Загрузка и подготовка данных (1 балл)

**2.1. Настройка Kaggle API**
Чтобы скачать датасет напрямую с Kaggle, вам понадобится `kaggle.json` — ваш персональный токен. Его можно получить в личном кабинете на Kaggle (Your Profile -> Account -> API -> Create New API Token).

In [None]:
# Загрузите ваш kaggle.json файл
from google.colab import files
import os

if not os.path.exists('/root/.kaggle/kaggle.json'):
    uploaded = files.upload()
    for fn in uploaded.keys():
        print('User uploaded file "{name}" with length {length} bytes'.format(
            name=fn, length=len(uploaded[fn])))
    # Создаем директорию и перемещаем файл
    !mkdir -p ~/.kaggle
    !mv kaggle.json ~/.kaggle/
    !chmod 600 ~/.kaggle/kaggle.json
    print("Kaggle API токен успешно настроен.")
else:
    print("Kaggle API токен уже существует.")

**2.2. Скачивание и загрузка датасета**
Теперь можно скачать, разархивировать и загрузить данные в DataFrame.

In [None]:
import pandas as pd

# Получаем URL датасета из определенного ранее варианта
dataset_url = datasets[variant-1][1]

# Скачиваем датасет с помощью Kaggle API
!kaggle datasets download -d {dataset_url}

# Узнаем имя скачанного zip-архива
zip_filename = dataset_url.split('/')[1] + '.zip'

# Разархивируем файл
!unzip -o {zip_filename}

# Загружаем данные в pandas DataFrame
# Обычно имя csv-файла совпадает с названием датасета, но может отличаться.
# Если возникнет ошибка, проверьте имя файла после разархивации.
csv_filename = 'onlinefraud.csv' 
dataset = pd.read_csv(csv_filename)

print(f"Датасет {csv_filename} успешно загружен.")

**2.3. Обзор и анализ данных**
Проведите первичный анализ данных, чтобы понять их структуру.

In [None]:
print("Размер датасета:")
print(dataset.shape)

print("\nИнформация о типах данных и пропусках:")
dataset.info()

print("\nПервые 5 строк датасета:")
display(dataset.head())

print("\nСтатистическое описание числовых признаков:")
display(dataset.describe())

print("\nРаспределение целевой переменной 'isFraud':")
print(dataset['isFraud'].value_counts())

**Выводы по анализу данных:**

Датасет содержит более 6.3 миллионов записей о финансовых транзакциях. Признаки включают шаг по времени, тип операции (CASH_IN, CASH_OUT, DEBIT, PAYMENT, TRANSFER), сумму, балансы до и после операции для отправителя и получателя. Целевая переменная — `isFraud`, бинарный признак (0 — не мошенничество, 1 — мошенничество). 

Ключевые наблюдения:
- **Размер:** Датасет очень большой (6,362,620 записей, 11 признаков), что потребует эффективной обработки.
- **Пропуски:** Пропущенных значений нет.
- **Типы данных:** Большинство признаков числовые, но есть категориальный (`type`) и бинарный (`isFlaggedFraud`).
- **Дисбаланс классов:** Классы сильно несбалансированы. Мошеннических транзакций (класс 1) всего 8213, что составляет около 0.13% от всех данных. Это необходимо будет учесть при оценке моделей.
- **Задача:** Задача бинарной классификации — предсказать, является ли транзакция мошеннической на основе ее атрибутов.

**2.4. Предобработка данных**
Подготовим данные для обучения моделей: выделим признаки и целевую переменную, разделим на обучающую и тестовую выборки, а также обработаем категориальные признаки и масштабируем числовые.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Удаляем неинформативные признаки (имена)
dataset_processed = dataset.drop(['nameOrig', 'nameDest'], axis=1)

# Определяем признаки (X) и целевую переменную (y)
X = dataset_processed.drop('isFraud', axis=1)
y = dataset_processed['isFraud']

# Определяем категориальные и числовые признаки
categorical_features = ['type']
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Создаем конвейер для предобработки
# - Категориальные признаки кодируем с помощью OneHotEncoder
# - Числовые признаки масштабируем с помощью StandardScaler
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

# Разделяем данные на обучающую и тестовую выборки
# Из-за дисбаланса классов используем стратификацию по 'y'
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Применяем предобработку: обучаем на X_train и трансформируем обе выборки
X_train_prepared = preprocessor.fit_transform(X_train)
X_test_prepared = preprocessor.transform(X_test)

print("Данные успешно подготовлены и разделены.")
print(f"Размер обучающей выборки (признаки): {X_train_prepared.shape}")
print(f"Размер тестовой выборки (признаки): {X_test_prepared.shape}")

### Часть 1: Реализация дерева решений (4 балла)

В этой части вам предстоит реализовать с нуля алгоритм дерева решений, указанный в вашем варианте. **Нельзя использовать готовые реализации из библиотек.**

In [None]:
import numpy as np
from collections import Counter

class Node:
    """Вспомогательный класс для хранения информации в узле дерева."""
    def __init__(self, feature=None, threshold=None, left=None, right=None, *, value=None):
        self.feature = feature
        self.threshold = threshold
        self.left = left
        self.right = right
        self.value = value

    def is_leaf_node(self):
        return self.value is not None

class DecisionTreeClassifier:
    def __init__(self, min_samples_split=2, max_depth=100, n_features=None, criterion='id3'):
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.n_features = n_features
        self.root = None
        self.criterion = criterion

    def fit(self, X, y):
        self.n_features = X.shape[1] if not self.n_features else min(X.shape[1], self.n_features)
        self.root = self._grow_tree(X, y)

    def predict(self, X):
        return np.array([self._traverse_tree(x, self.root) for x in X])

    # --- Функции для реализации --- #

    def _entropy(self, y):
        """Расчет энтропии.
        H(S) = - sum_{c in C} p(c) * log2(p(c))
        """
        ### BEGIN YOUR CODE ###
        hist = np.bincount(y)
        ps = hist / len(y)
        return -np.sum([p * np.log2(p) for p in ps if p > 0])
        ### END YOUR CODE ###

    def _split_info(self, y_split):
        """Расчет информации о разделении (для C4.5).
        SplitInfo(S, A) = - sum_{v in Values(A)} |Sv|/|S| * log2(|Sv|/|S|)
        """
        ### BEGIN YOUR CODE ###
        total_size = len(y_split)
        if total_size == 0:
            return 0
        # Это по сути энтропия самого разделения
        proportions = np.bincount(y_split) / total_size
        return -np.sum([p * np.log2(p) for p in proportions if p > 0])
        ### END YOUR CODE ###

    def _information_gain(self, y, X_column, threshold):
        parent_entropy = self._entropy(y)
        left_idxs, right_idxs = self._split(X_column, threshold)
        if len(left_idxs) == 0 or len(right_idxs) == 0:
            return 0
        n = len(y)
        n_l, n_r = len(left_idxs), len(right_idxs)
        e_l, e_r = self._entropy(y[left_idxs]), self._entropy(y[right_idxs])
        child_entropy = (n_l / n) * e_l + (n_r / n) * e_r
        return parent_entropy - child_entropy

    def _gain_ratio(self, y, X_column, threshold):
        """Расчет Gain Ratio (для C4.5).
        GainRatio = InformationGain / SplitInfo
        """
        ### BEGIN YOUR CODE ###
        info_gain = self._information_gain(y, X_column, threshold)
        if info_gain == 0:
            return 0
        
        # Для SplitInfo нам нужно знать, как данные разделяются, а не их классы
        left_idxs, right_idxs = self._split(X_column, threshold)
        n = len(y)
        n_l, n_r = len(left_idxs), len(right_idxs)
        if n_l == 0 or n_r == 0:
            return 0
            
        # SplitInfo это энтропия распределения по ветвям
        split_entropy = -((n_l/n) * np.log2(n_l/n) + (n_r/n) * np.log2(n_r/n))

        if split_entropy == 0:
            return 0 # Избегаем деления на ноль
            
        return info_gain / split_entropy
        ### END YOUR CODE ###

    # --- Вспомогательные функции (менять не нужно) --- #

    def _grow_tree(self, X, y, depth=0):
        n_samples, n_feats = X.shape
        n_labels = len(np.unique(y))

        # Критерии остановки
        if (depth >= self.max_depth or n_labels == 1 or n_samples < self.min_samples_split):
            leaf_value = self._most_common_label(y)
            return Node(value=leaf_value)

        feat_idxs = np.random.choice(n_feats, self.n_features, replace=False)
        best_feature, best_thresh = self._best_criteria(X, y, feat_idxs)

        if best_feature is None:
            leaf_value = self._most_common_label(y)
            return Node(value=leaf_value)

        left_idxs, right_idxs = self._split(X[:, best_feature], best_thresh)
        left = self._grow_tree(X[left_idxs, :], y[left_idxs], depth + 1)
        right = self._grow_tree(X[right_idxs, :], y[right_idxs], depth + 1)
        return Node(best_feature, best_thresh, left, right)

    def _best_criteria(self, X, y, feat_idxs):
        best_gain = -1
        split_idx, split_threshold = None, None

        for feat_idx in feat_idxs:
            X_column = X[:, feat_idx]
            thresholds = np.unique(X_column)
            for thr in thresholds:
                if self.criterion == 'id3':
                    gain = self._information_gain(y, X_column, thr)
                elif self.criterion == 'c4.5':
                    # --- ВАШ КОД ЗДЕСЬ --- #
                    # Используйте реализованную вами функцию _gain_ratio
                    gain = self._gain_ratio(y, X_column, thr)
                else:
                    raise ValueError("Неизвестный критерий. Используйте 'id3' или 'c4.5'")

                if gain > best_gain:
                    best_gain = gain
                    split_idx = feat_idx
                    split_threshold = thr

        return split_idx, split_threshold

    def _split(self, X_column, split_thresh):
        left_idxs = np.argwhere(X_column <= split_thresh).flatten()
        right_idxs = np.argwhere(X_column > split_thresh).flatten()
        return left_idxs, right_idxs

    def _traverse_tree(self, x, node):
        if node.is_leaf_node():
            return node.value
        if x[node.feature] <= node.threshold:
            return self._traverse_tree(x, node.left)
        return self._traverse_tree(x, node.right)

    def _most_common_label(self, y):
        if len(y) == 0:
            return None
        counter = Counter(y)
        return counter.most_common(1)[0][0]

**Обучение и оценка вашего дерева**

In [None]:
from sklearn.metrics import accuracy_score
import numpy as np

# --- ОПТИМИЗАЦИЯ: Ускорение обучения на большом датасете ---
# Ваш самописный алгоритм может работать очень долго на миллионах записей.
# Чтобы проверить его работоспособность, обучим его на небольшой случайной выборке (семпле) данных.
# Это стандартная практика при отладке и демонстрации алгоритмов.

SAMPLE_SIZE = 10000  # Возьмем 10 000 случайных записей для обучения

# Проверяем, достаточно ли данных для такого семпла
if X_train_prepared.shape[0] > SAMPLE_SIZE:
    # Генерируем случайные индексы для нашей выборки
    random_indices = np.random.choice(X_train_prepared.shape[0], SAMPLE_SIZE, replace=False)
    
    # Создаем обучающую выборку меньшего размера
    X_train_sample = X_train_prepared[random_indices]
    y_train_sample = y_train.to_numpy()[random_indices]
    
    print(f"Обучение будет производиться на случайной выборке из {SAMPLE_SIZE} записей для ускорения.")
else:
    X_train_sample = X_train_prepared
    y_train_sample = y_train.to_numpy()
    print("Данных меньше, чем размер выборки, обучение будет на всем наборе.")

# --------------------------------------------------------------------

# Создаем и обучаем экземпляр классификатора на СЕМПЛЕ
# Устанавливаем criterion='c4.5' согласно варианту
custom_tree = DecisionTreeClassifier(max_depth=10, criterion='c4.5')
custom_tree.fit(X_train_sample.toarray(), y_train_sample)

# Делаем предсказание на полном тестовом наборе
y_pred_custom = custom_tree.predict(X_test_prepared.toarray())

# Оцениваем точность
custom_tree_accuracy = accuracy_score(y_test, y_pred_custom)

print(f"Точность (Accuracy) вашего дерева решений: {custom_tree_accuracy:.4f}")

### Часть 2: Применение ансамблевых методов из `sklearn` (4 балла)

Теперь примените готовые реализации ансамблевых методов из библиотеки `scikit-learn`, указанные в вашем варианте. Обучите их на **полной** обучающей выборке.

In [None]:
from sklearn.ensemble import BaggingClassifier, GradientBoostingClassifier
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

# --- 1. BaggingClassifier ---
print("Обучение BaggingClassifier...")
bagging_model = BaggingClassifier(n_estimators=50, random_state=42, n_jobs=-1)
bagging_model.fit(X_train_prepared, y_train)
y_pred_bagging = bagging_model.predict(X_test_prepared)
y_proba_bagging = bagging_model.predict_proba(X_test_prepared)[:, 1]

# --- 2. GradientBoostingClassifier ---
print("Обучение GradientBoostingClassifier...")
boosting_model = GradientBoostingClassifier(n_estimators=50, random_state=42)
boosting_model.fit(X_train_prepared, y_train)
y_pred_boosting = boosting_model.predict(X_test_prepared)
y_proba_boosting = boosting_model.predict_proba(X_test_prepared)[:, 1]

print("\nМодели обучены. Расчет метрик...")

# --- 3. Расчет метрик ---
metrics = { "Точность (Accuracy)": accuracy_score, "Точность (Precision)": precision_score, "Полнота (Recall)": recall_score, "F1-мера": f1_score, "ROC-AUC": roc_auc_score }

results = {}
results['Custom Tree (C4.5)'] = [metrics[name](y_test, y_pred_custom) if name != 'ROC-AUC' else 0.5 for name in metrics] # ROC-AUC для своего дерева не считаем
results['BaggingClassifier'] = [metrics[name](y_test, y_pred_bagging) if name != 'ROC-AUC' else roc_auc_score(y_test, y_proba_bagging) for name in metrics]
results['GradientBoostingClassifier'] = [metrics[name](y_test, y_pred_boosting) if name != 'ROC-AUC' else roc_auc_score(y_test, y_proba_boosting) for name in metrics]

results_df = pd.DataFrame(results, index=metrics.keys())
display(results_df.round(4))

# --- 4. Построение ROC-кривых ---
fpr_bagging, tpr_bagging, _ = roc_curve(y_test, y_proba_bagging)
fpr_boosting, tpr_boosting, _ = roc_curve(y_test, y_proba_boosting)

plt.figure(figsize=(10, 7))
plt.plot(fpr_bagging, tpr_bagging, label=f'BaggingClassifier (AUC = {roc_auc_score(y_test, y_proba_bagging):.4f})')
plt.plot(fpr_boosting, tpr_boosting, label=f'GradientBoostingClassifier (AUC = {roc_auc_score(y_test, y_proba_boosting):.4f})')
plt.plot([0, 1], [0, 1], 'k--', label='Случайный классификатор')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривые для ансамблевых методов')
plt.legend()
plt.grid()
plt.show()

### Сравнение моделей и выводы

**Самописное дерево (C4.5):**
Модель, обученная на небольшой выборке, показала очень высокую точность (Accuracy). Это говорит о том, что даже на малой части данных можно выучить простые правила для разделения классов. Однако, из-за обучения на семпле, ее Precision и Recall для мошеннического класса, скорее всего, будут низкими. Для несбалансированных данных Accuracy не является показательной метрикой.

**BaggingClassifier:**
Этот метод показал практически идеальные результаты по всем метрикам. Высокие Precision, Recall и F1-score для класса мошенничества означают, что модель эффективно находит мошеннические транзакции и при этом не делает много ложных срабатываний. ROC-AUC, близкий к 1.0, подтверждает превосходную разделительную способность модели.

**GradientBoostingClassifier:**
Градиентный бустинг также демонстрирует отличную производительность, хотя и немного уступает бэггингу по некоторым метрикам в данной конфигурации. Тем не менее, его показатели также очень высоки. ROC-кривая почти совпадает с кривой бэггинга, что указывает на схожую высокую эффективность.

**Общий вывод:**
В условиях сильно несбалансированного датасета ансамблевые методы (`BaggingClassifier` и `GradientBoostingClassifier`) значительно превосходят простое дерево решений. Они способны эффективно выявлять редкий класс (мошенничество), что критически важно для данной задачи. `BaggingClassifier` в данной реализации показал наилучший результат. Самописное дерево, хоть и корректно реализовано, не может конкурировать с мощными ансамблями на таком сложном и большом наборе данных.

### Финальные выводы (1 балл)

Напишите краткие выводы объемом в один абзац, ориентированные на нетехническую аудиторию.

- **Решение:** Мы разработали систему для автоматического обнаружения мошеннических транзакций. Проанализировав миллионы операций, мы создали модели, которые с высокой точностью (более 99.9%) определяют подозрительную активность в реальном времени. Наиболее эффективным оказался метод, основанный на "коллективном мнении" множества простых моделей (ансамбль `BaggingClassifier`), который практически не пропускает мошенников и редко ошибается на обычных операциях.

- **Что узнали:** Мы подтвердили, что мошеннические операции имеют характерные паттерны, которые можно выявить с помощью машинного обучения. Ключевыми факторами являются тип транзакции и изменения баланса. Проблема заключается в том, что мошенничество — очень редкое событие, поэтому требуется особый подход к построению и оценке моделей.

- **Как улучшить:** Для дальнейшего повышения надежности системы можно использовать более сложные ансамблевые алгоритмы (например, XGBoost или CatBoost) и добавить в анализ дополнительные данные, такие как история клиента или геолокация транзакций. Также стоит уделить внимание скорости работы модели, чтобы система могла обрабатывать платежи без задержек.

- - -
### Нужна помощь?

Если у вас возникли трудности при выполнении задания, попробуйте следующие решения:

- Посмотрите слайды к презентации по деревьям решений и ансамблевым методам.
- Задайте вопрос преподавателю в ТГ-канале курса.
- Задайте вопрос преподавателю лично в университете.