# 🧠 Урок 22: Расширенные методы ML — SVM, деревья решений, ансамбли
**Цель урока:** Познакомиться с продвинутыми методами машинного обучения: SVM, деревьями решений, ансамблевыми моделями (Random Forest, XGBoost). Подходит для новичков.

## 📌 Зачем нужны расширенные методы?
- **SVM** — эффективен при работе с данными, где классы сложно разделить.
- **Деревья решений** — просты в интерпретации, подходят для нелинейных зависимостей.
- **Ансамбли** — комбинируют несколько моделей для повышения точности.

💡 **Аналогия:** Если машинное обучение — это командная игра, то ансамбли — это сборная команда, где каждый игрок (модель) компенсирует слабости других [[6]](https://example.com ).

## 🛡️ Метод опорных векторов (SVM)
### Что это?
- **SVM (Support Vector Machine)** — алгоритм, который ищет гиперплоскость, максимально разделяющую классы.
- **Гиперплоскость:** Вообразите, что вы хотите разделить красные и синие точки на бумаге. SVM находит линию, которая максимально далеко отстоит от точек обоих классов.
- **Опорные векторы:** Точки, которые находятся ближе всего к границе. От них зависит положение гиперплоскости.
- **Kernel Trick:** Преобразует данные в пространство, где их можно разделить (например, RBF-ядро).

### Почему SVM работает?
- **Hard Margin:** Идеальное разделение (но не подходит для реальных данных).
- **Soft Margin:** Позволяет некоторые ошибки, чтобы улучшить обобщающую способность.
- **Ядра:**
  - `linear`: Простая прямая линия.
  - `rbf`: Работает с нелинейными границами.
  - `poly`: Полиномиальное ядро для сложных зависимостей.

### Когда использовать SVM?
- Когда данные имеют четкую границу между классами.
- Для задач с небольшими наборами данных.
- Если важна точность, а не скорость.

### Ограничения SVM
- Медленный на больших данных.
- Чувствителен к масштабу признаков (нормализуйте данные перед использованием).
- Требует настройки параметров (например, `C`, `gamma`).

### Пример:
```python
from sklearn.svm import SVC
svm = SVC(kernel='rbf', C=10, gamma='scale')
svm.fit(X_train[:5000], y_train[:5000])  # Используем часть данных для ускорения
print(svm.score(X_test[:1000], y_test[:1000]))  # Точность на подвыборке
```

## 🌳 Деревья решений
### Что это?
- **Дерево решений** — это модель в виде дерева, где каждый узел — вопрос, лист — предсказание.
- **Как работает?** Разбивает данные на основе признаков, чтобы уменьшить неопределенность.
- **Пример:** В задаче "купить или не купить" дерево может спрашивать: "Доход > 50k?", "Возраст < 30?" и т.д.

### Ключевые понятия
- **Критерии разбиения:**
  - **Gini (неопределенность):** Чем меньше значение, тем чище узел.
  - **Entropy (энтропия):** Мера хаоса. Чем ниже, тем лучше.
- **Глубина дерева (`max_depth`):** Контролирует, насколько глубоко будет разбиваться дерево.
- **Overfitting:** Если дерево слишком глубокое, оно запоминает данные. Решается через `max_depth` или `min_samples_leaf`.

### Преимущества деревьев
- Не требуют нормализации данных.
- Легко интерпретировать (можно визуализировать).
- Хорошо работают с категориальными признаками.

### Ограничения
- Склонны к переобучению.
- Чувствительны к малым изменениям данных.
- Медленные на больших данных.

### Пример:
```python
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X_train, y_train)
print(tree.score(X_test, y_test))
```

## 🧩 Ансамблевые методы
### Что это?
- **Ансамблевые методы** — это модели, которые комбинируют несколько базовых алгоритмов для повышения точности.
- **Bagging (Bootstrap Aggregation):** Обучает несколько моделей на случайных подвыборках и объединяет их предсказания.
- **Boosting:** Каждая следующая модель исправляет ошибки предыдущих.
- **Stacking:** Использует мета-модель для комбинации предсказаний.

### Random Forest
- **Что это?** Несколько деревьев решений, где финальное предсказание — голосование.
- **Преимущества:**
  - Устойчивость к переобучению.
  - Хорошая производительность на различных типах данных.
- **Параметры:**
  - `n_estimators`: Число деревьев.
  - `max_depth`: Глубина дерева.
  - `min_samples_split`: Минимальное число образцов для разбиения.

### XGBoost
- **Что это?** Градиентный бустинг, который строит деревья последовательно, исправляя ошибки.
- **Преимущества:**
  - Высокая точность.
  - Поддержка регуляризации для борьбы с переобучением.
  - Работает с числовыми и категориальными признаками.
- **Параметры:**
  - `n_estimators`: Число деревьев.
  - `learning_rate`: Шаг обучения.
  - `max_depth`: Глубина дерева.

### Пример: Random Forest
```python
from sklearn.ensemble import RandomForestClassifier
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)
print(forest.score(X_test, y_test))
```

## 📊 Примеры применения
- **SVM:** Обнаружение мошенничества, классификация текстов.
- **Деревья:** Анализ решений в бизнесе, медицинская диагностика.
- **Ансамбли:** Соревнования Kaggle, рекомендательные системы.

💡 **Совет:**
- **SVM:** Используйте для задач с четкой границей между классами.
- **Random Forest:** Для быстрого старта с высокой точностью.
- **XGBoost:** Для сложных задач, где нужна максимальная точность.

## 📈 Как работает ансамблевое обучение?
- **Bagging (Bootstrap Aggregation):** Обучает несколько моделей на случайных подвыборках и объединяет их предсказания.
- **Boosting:** Каждая следующая модель исправляет ошибки предыдущих.
- **Stacking:** Использует мета-модель для комбинации предсказаний.

### Пример: Random Forest
```python
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)
```

## 🧪 Практика: Сравнение методов на Iris датасете
### Шаг 1: Загрузка датасета

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd

# Загрузка данных
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Размер данных:", X.shape)  # (150, 4)

### Шаг 2: Обучение SVM

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Обучение
svm = SVC(kernel='linear')
svm.fit(X_train, y_train)

# Оценка
y_pred_svm = svm.predict(X_test)
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f'SVM Accuracy: {accuracy_svm:.2f}')

### Шаг 3: Обучение дерева решений

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Обучение
tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X_train, y_train)

# Оценка
y_pred_tree = tree.predict(X_test)
accuracy_tree = accuracy_score(y_test, y_pred_tree)
print(f'Tree Accuracy: {accuracy_tree:.2f}')

### Шаг 4: Обучение Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Обучение
forest = RandomForestClassifier(n_estimators=50)
forest.fit(X_train, y_train)

# Оценка
y_pred_forest = forest.predict(X_test)
accuracy_forest = accuracy_score(y_test, y_pred_forest)
print(f'Random Forest Accuracy: {accuracy_forest:.2f}')

### Шаг 5: Обучение XGBoost

In [None]:
from xgboost import XGBClassifier

# Обучение
xgb = XGBClassifier(use_label_encoder=False)
xgb.fit(X_train, y_train)

# Оценка
y_pred_xgb = xgb.predict(X_test)
accuracy_xgb = accuracy_score(y_test, y_pred_xgb)
print(f'XGBoost Accuracy: {accuracy_xgb:.2f}')

### Шаг 6: Сравнение моделей

In [None]:
import matplotlib.pyplot as plt

# График точности
models = ['SVM', 'Decision Tree', 'Random Forest', 'XGBoost']
accuracies = [accuracy_svm, accuracy_tree, accuracy_forest, accuracy_xgb]

plt.bar(models, accuracies, color=['blue', 'green', 'orange', 'red'])
plt.ylabel('Accuracy')
plt.title('Model Comparison on Iris Dataset')
plt.ylim(0.9, 1.0)
plt.show()

## 📉 Что такое переобучение и как его избежать?
- **Переобучение (Overfitting):** Модель идеально запоминает тренировочные данные, но плохо работает на тестовых.
- **Причины:**
  - Слишком сложная модель.
  - Недостаток данных.
- **Как бороться:**
  - Упрощение модели.
  - Добавление регуляризации (например, `Dropout`, `L2`).
  - Увеличение данных (например, аугментация).
- **Как обнаружить?** Если `val_loss` растет, а `loss` падает — переобучение!

### Пример: Random Forest с регуляризацией
```python
from sklearn.ensemble import RandomForestClassifier

# Модель с регуляризацией
forest = RandomForestClassifier(n_estimators=100, max_depth=5, min_samples_split=4)
forest.fit(X_train, y_train)
```

## 📊 Как выбрать лучшую модель?
- **Точность (Accuracy):** Подходит для сбалансированных классов.
- **F1-score:** Для несбалансированных задач.
- **ROC-AUC:** Для бинарной классификации.
- **GridSearchCV:** Автоматический подбор гиперпараметров.
- **Пример:**
  ```python
  from sklearn.model_selection import GridSearchCV
  grid = GridSearchCV(RandomForestClassifier(), param_grid, cv=3, scoring='accuracy')
  ```

## 📈 Графики обучения: как читать и интерпретировать
- **Overfitting:** `loss` падает, `val_loss` растет.
- **Underfitting:** Оба значения высокие, accuracy низкая.
- **Хорошее обучение:** Оба значения стабильны и низкие.

### Пример:
```python
import matplotlib.pyplot as plt

# График loss
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('MSE')
plt.grid(True)
plt.show()
```

## 🧪 Практика: Анализ ошибок модели
### Шаг 1: Confusion Matrix для Random Forest

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns

# Матрица ошибок
cm = confusion_matrix(y_test, y_pred_forest)
sns.heatmap(cm, annot=True, fmt='d')
plt.title('Confusion Matrix для Random Forest')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

### Шаг 2: Classification Report
```python
from sklearn.metrics import classification_report
report = classification_report(y_test, y_pred_forest)
print(report)
```

## 📝 Домашнее задание
### Задача 1: Измените архитектуру Random Forest
- Увеличьте число деревьев до 200.
- Установите `max_depth=5`.
- Как меняется `accuracy`?
- Нарисуйте графики обучения.
- Визуализируйте confusion matrix для новых параметров.

In [None]:
# Ваш код здесь
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Измененная архитектура
modified_forest = RandomForestClassifier(n_estimators=200, max_depth=5)
modified_forest.fit(X_train, y_train)

# Оценка
y_pred_modified = modified_forest.predict(X_test)
accuracy_modified = accuracy_score(y_test, y_pred_modified)
print(f'Random Forest Accuracy (измененный): {accuracy_modified:.2f}')

### Задача 2: Добавьте аугментацию данных и обучите XGBoost с разными гиперпараметрами.

In [None]:
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV

# Параметры для перебора
param_grid = {'n_estimators': [50, 100], 'learning_rate': [0.1, 0.2]}

# Поиск лучшей модели
grid = GridSearchCV(XGBClassifier(), param_grid, cv=3, scoring='accuracy')
grid.fit(X_train, y_train)

# Лучшие параметры
print(grid.best_params_)

## ✅ Рекомендации по выполнению домашнего задания
- **Задача 1:** Убедитесь, что вы используете правильное количество деревьев и глубину.
- **Задача 2:** Попробуйте разные значения `n_estimators` и `learning_rate`.
- **Визуализация:** Используйте `sns.heatmap` для матрицы ошибок.
- **Подсказка:** Чем больше деревьев, тем выше точность, но дольше обучение.