# Домашнее задание №3: Деревья решений и ансамбли

## Цель

Закрепить на практике темы:

- логистическая регрессия как базовая модель для классификации;
- дерево решений как нелинейная модель;
- случайный лес как бэггинг деревьев;
- градиентный бустинг по деревьям.

Сравнить модели по качеству и переобучению на **одном реальном датасете**.

---

## 1. Данные

**Датасет:** используйте `load_breast_cancer` из `sklearn.datasets` (бинарная классификация).

1.1. Загрузите данные:

- выведите размерность матрицы признаков (`n_samples`, `n_features`);
- выведите уникальные значения целевого класса и их количество.

Посчитайте:
- сколько объектов и признаков;
- какие классы есть и что они означают.

1.2. Разбиение на выборки:

- используйте `train_test_split` с `test_size` в диапазоне 0.2–0.3;
- зафиксируйте `random_state`.

---

## 2. Базовый уровень: логистическая регрессия

2.1. Обучите `LogisticRegression` на обучающей выборке.

- опционально используйте масштабирование признаков (`StandardScaler + Pipeline`).

2.2. Посчитайте метрики классификации на обучающей и тестовой выборках

---

## 3. Дерево решений (DecisionTreeClassifier)

3.1. Обучите `DecisionTreeClassifier` с настройками по умолчанию.

- Посчитайте метрики классификации на обучающей и тестовой выборках

3.2. Исследование глубины дерева:

- обучите несколько моделей с разными `max_depth`, например:  
  `[1, 2, 3, 4, 5, 10, None]`;
- для каждого значения посчитайте train/test метрики;
- постройте график:
  - по оси X — `max_depth` (можно заменить `None` на какое-то число в подписи);
  - по оси Y — accuracy (две кривые: `train` и `test`).

Разберитесь:

- при каких глубинах наблюдается недообучение;
- при каких — явное переобучение.

3.3. Интерпретация неглубокого дерева:

- выберите разумное значение `max_depth` (например, 3 или 4);
- обучите дерево с этим ограничением;
- визуализируйте его с помощью `plot_tree` **или** выведите правила через `export_text`;
- разберитесь, какие признаки и пороги используются ближе к корню и как это можно интерпретировать.

---

## 4. Случайный лес (RandomForestClassifier)

4.1. Обучите `RandomForestClassifier` с базовыми настройками, например:

- `n_estimators = 200`,
- `random_state` зафиксировать,
- остальные параметры можно оставить по умолчанию.

Посчитайте метрики на train/test и кратко сравните с одиночным деревом и логистической регрессией.

4.2. Влияние числа деревьев:

- обучите леса с разными `n_estimators`, например:  
  `[10, 50, 100, 200, 500]`;
- для каждого значения посчитайте train/test метрики;
- постройте график:
  - X — `n_estimators`,
  - Y — accuracy (train и test).

Разберитесь:

- как меняется качество на тесте при росте числа деревьев;
- стабилизируется ли качество, растёт ли переобучение.

4.3. Важность признаков:

- для одного обученного леса получите `feature_importances_`;
- выберите несколько (например, 5–10) наиболее важных признаков и постройте для них bar chart;
- кратко прокомментируйте: логично ли, что именно эти признаки наиболее важны (опираясь на описание датасета).

---

## 5. Градиентный бустинг (GradientBoostingClassifier)

5.1. Базовая модель бустинга:

- обучите `GradientBoostingClassifier` с настройками, например:  
  `n_estimators=200`, `learning_rate=0.1`, `max_depth=3`, `random_state` зафиксировать;
- посчитайте train/test метрики;
- сравните с логистической регрессией, деревом и лесом.

5.2. Влияние числа деревьев при фиксированном `learning_rate`:

- выберите один `learning_rate` (например, `0.1`);
- обучите модели с разными `n_estimators`, например:  
  `[20, 50, 100, 200, 400]`;
- для каждого значения посчитайте train/test метрики;
- постройте график:
  - X — `n_estimators`,
  - Y — accuracy (train и test).

Разберитесь:

- поясните, при каком диапазоне `n_estimators` модель даёт лучшее качество на тесте;
- есть ли признаки переобучения при увеличении числа деревьев.

(Если удобно, можно для одной конфигурации использовать `staged_predict`, чтобы не обучать модель много раз)

---

## 6. Итоговое сравнение

Соберите в одну таблицу результаты для основных моделей:

- логистическая регрессия (одна конфигурация),
- дерево решений (выбранная «разумная» глубина),
- случайный лес (одна выбранная конфигурация),
- градиентный бустинг (одна выбранная конфигурация).

Для каждой модели укажите:

- краткое имя / тип модели;
- основные ключевые гиперпараметры (например, `max_depth`, `n_estimators`, `learning_rate`);
- train и test метрики.