# Проектная работа по курсу "Машинное обучение"
**Тема: "Сравнительный анализ моделей машинного обучения"**

**Формат:** Самостоятельная работа обучающегося (СРО) в группах по 3-4 человека.

**Максимальный балл:** 20.

## 1. Общая информация

Вы освоили не только инструменты анализа данных, но и базовые алгоритмы машинного обучения. Настало время применить все полученные знания для решения полноценной задачи.

Вам предстоит в команде провести полный цикл ML-исследования: от подготовки данных до обучения, настройки и сравнения нескольких моделей. Результатом вашей работы станет отчет в формате Jupyter Notebook и устная защита проекта.

**Цель проекта** — не просто обучить модели, а провести их сравнительный анализ, выбрать лучшую для решения поставленной задачи и убедительно обосновать свой выбор.

## 2. Роли и распределение задач

Работа над проектом делится на три фазы. Несмотря на распределение ответственности, **каждый участник обязан понимать весь проект целиком** и быть готовым ответить на вопросы по любой его части.

#### **Фаза 1: Совместная подготовка данных (Вся команда)**
*   **Все участники команды** совместно проводят разведочный анализ (EDA) и принимают решения по обработке пропусков и созданию признаков.
*   **Один из участников (выбирается в команде)** берет на себя роль **Инженера данных (Data Engineer)**. Он отвечает за написание финального, чистого кода для `Pipeline` предобработки, который затем будет использоваться всеми.

---

#### **Фаза 2: Индивидуальное моделирование**
Каждый участник берет на себя ответственность за обучение, настройку (`GridSearchCV`) и первичный анализ **своего набора моделей**.

### **Если в команде 3 человека:**

#### Для вариантов с **РЕГРЕССИЕЙ** (Вариант 1 и 2):

*   **Участник 1:**
    1.  `LinearRegression`
    2.  `Ridge` (с подбором `alpha`)
    3.  `Lasso` (с подбором `alpha`)

*   **Участник 2:**
    1.  `DecisionTreeRegressor` (с подбором `max_depth`)
    2.  `RandomForestRegressor` (с подбором `n_estimators`)

*   **Участник 3 (Тим-лид):**
    1.  `SVR` (Support Vector Regressor, с подбором `kernel`, `C`, `gamma`)
    2.  `KNeighborsRegressor` (с подбором `n_neighbors`)

#### Для вариантов с **КЛАССИФИКАЦИЕЙ** (Вариант 3 и 4):

*   **Участник 1:**
    1.  `LogisticRegression`
    2.  `KNeighborsClassifier` (с подбором `n_neighbors`)

*   **Участник 2:**
    1.  `DecisionTreeClassifier` (с подбором `max_depth`)
    2.  `RandomForestClassifier` (с подбором `n_estimators`)

*   **Участник 3 (Тим-лид):**
    1.  `SVC` (Support Vector Classifier, с подбором `kernel`, `C`, `gamma`)

---
### **Если в команде 4 человека:**

#### Для вариантов с **РЕГРЕССИЕЙ** (Вариант 1 и 2):

*   **Участник 1 (Data Engineer):** Отвечает за **Фазу 1**, а также за модель `LinearRegression`.
*   **Участник 2:** `Ridge` и `Lasso`.
*   **Участник 3:** `DecisionTreeRegressor` и `KNeighborsRegressor`.
*   **Участник 4 (Тим-лид):** `RandomForestRegressor` и `SVR`.

#### Для вариантов с **КЛАССИФИКАЦИЕЙ** (Вариант 3 и 4):

*   **Участник 1 (Data Engineer):** Отвечает за **Фазу 1**, а также за модель `LogisticRegression`.
*   **Участник 2:** `KNeighborsClassifier` и `DecisionTreeClassifier`.
*   **Участник 3:** `RandomForestClassifier`.
*   **Участник 4 (Тим-лид):** `SVC`.

---

#### **Фаза 3: Совместный анализ и выводы (Вся команда)**
*   **Все участники команды** совместно анализируют полученные метрики, сравнивают модели и обсуждают, почему одни алгоритмы сработали лучше других.
*   **Тим-лид** отвечает за написание итогового заключения, которое отражает общее мнение команды.

## 3. План работы

1.  **Выбор варианта и знакомство с данными:**
    *   Выберите один из предложенных вариантов.
    *   Проведите **разведочный анализ данных (EDA)**. Изучите распределения, найдите аномалии, постройте графики для поиска взаимосвязей. Сделайте предварительные выводы о данных.

2.  **Подготовка данных для моделирования:**
    *   Проведите очистку данных (обработка пропусков, выбросов).
    *   Закодируйте категориальные признаки (`get_dummies`).
    *   Разделите данные на обучающую и тестовую выборки (`train_test_split`).
    *   Подготовьте `Pipeline` для масштабирования числовых признаков (`StandardScaler`).

3.  **Обучение и настройка моделей:**
    *   Для **каждой** модели из вашего списка ответственности проведите подбор гиперпараметров с помощью `GridSearchCV`.
    *   **Важно:** Объединяйте `Pipeline` и модель, чтобы избежать утечки данных.
    *   Для каждой модели выведите лучшие найденные параметры.

4.  **Оценка и сравнительный анализ:**
    *   Соберите предсказания всех моделей на тестовой выборке.
    *   Рассчитайте и выведите метрики качества. **Для регрессии:** R2, MAE, RMSE. **Для классификации:** `classification_report`.
    *   Создайте **сводную таблицу или график**, наглядно сравнивающий ключевые метрики всех обученных моделей.
    *   **Выберите лучшую модель** и письменно **обоснуйте свой выбор**: почему, на ваш взгляд, именно этот алгоритм лучше всего справился с задачей, учитывая структуру данных и полученные метрики?

5.  **Глубокий анализ лучшей модели:**
    *   Проанализируйте вашу лучшую модель более детально: посмотрите на коэффициенты (для линейных моделей) или на важность признаков (`feature_importances_` для лесов). Сделайте выводы о том, какие факторы наиболее сильно влияют на целевую переменную.


## 4. Варианты заданий

<div class="alert alert-block alert-info">
<b>ВАШ ВАРИАНТ!</b>
<br>
Для обеспечения уникальности результатов в `train_test_split` используйте `random_state`. В качестве значения `random_state` используйте **последние две цифры номера вашей зачетной книжки**. Например, если номер 1243<b>45</b>, используйте `random_state=45`.
</div>

---

### **Вариант 1 (Регрессия): Предсказание стоимости медицинского страхования**
*   **Датасет:** [Kaggle: Medical Cost Personal Datasets](https://www.kaggle.com/datasets/mirichoi0218/insurance)
*   **Целевая переменная:** `charges`
*   **Задача:** Построить модель, которая по данным о человеке (возраст, пол, ИМТ, курение и т.д.) предскажет его годовые расходы на медицинское страхование.

---

### **Вариант 2 (Регрессия): Предсказание энергоэффективности зданий**
*   **Датасет:** [Kaggle: Energy efficiency Data Set](https://www.kaggle.com/datasets/elikplim/eergy-efficiency-dataset?select=ENB2012_data.csv)
*   **Целевая переменная:** `Y1` (Heating Load) или `Y2` (Cooling Load) — выберите одну.
*   **Задача:** По архитектурным параметрам здания (площадь, высота, площадь остекления и т.д.) предсказать его потребность в отоплении или охлаждении.

---

### **Вариант 3 (Классификация): Диагностика рака груди**
*   **Датасет:** [Kaggle: Breast Cancer Wisconsin (Diagnostic) Data Set](https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data)
*   **Целевая переменная:** `diagnosis` (M — злокачественная, B — доброкачественная).
*   **Задача:** Построить модель, которая на основе данных о клеточных ядрах, полученных из изображения, сможет диагностировать тип опухоли.

---

### **Вариант 4 (Классификация): Определение качества вина**
*   **Датасет:** [Kaggle: Red Wine Quality](https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009)
*   **Целевая переменная:** `quality` (оценка от 3 до 8).
*   **Задача:** По физико-химическим показателям красного вина предсказать его оценку качества. Это задача **многоклассовой классификации**. В реальных проектах задачу иногда сводят в бинарную классификацию («качественное / некачественное»), но в рамках данной задачи реализуем многоклассовую классификацию.
*   **Важно:** Классы в этом датасете **несбалансированы**. При оценке моделей обращайте внимание не на `accuracy`, а на `f1-score (weighted)` или `f1-score (macro)`.

## 5. Структура отчета (Jupyter Notebook)

Отчет должен быть единым файлом `.ipynb`, структурированным с помощью Markdown-ячеек.

1.  **Титульная страница:**
    *   Название проекта, номер варианта.
    *   ФИО всех участников с указанием ролей.
2.  **Введение:**
    *   Краткое описание датасета и цели работы (какую задачу решаем).
3.  **Разведочный анализ данных (EDA):**
    *   Ячейки с кодом и **выводами** по основным графикам и статистикам.
4.  **Подготовка данных:**
    *   Код и комментарии, объясняющие ваши действия по очистке, кодированию и разделению данных.
5.  **Моделирование и оценка:**
    *   Для каждой модели должен быть свой подраздел.
    *   В каждом подразделе: код для `GridSearchCV`, вывод лучших параметров, вывод метрик качества.
6.  **Сравнительный анализ и выбор лучшей модели:**
    *   Сводная таблица/график с метриками всех моделей.
    *   Текстовое обоснование выбора лучшей модели.
7.  **Анализ лучшей модели:**
    *   Визуализация и интерпретация важности признаков или коэффициентов.
8.  **Общие выводы по проекту:**
    *   Краткое резюме (3-5 ключевых инсайтов), полученных в ходе работы. Какие факторы оказались самыми важными? Какая модель победила и почему?
9.  **Вклад участников:**
    *   Краткое описание того, какой вклад внес каждый участник в проект.

## 6. Критерии оценивания (20 баллов)

**Часть 1: Отчет в Jupyter Notebook (12 баллов - общая оценка для команды)**
*   **EDA и подготовка данных (3 балла):** Данные исследованы, очищены, корректно подготовлены к моделированию. `Pipeline` используется правильно.
*   **Обучение моделей (5 баллов):** Все требуемые модели обучены, для каждой проведен корректный подбор гиперпараметров с помощью `GridSearchCV`.
*   **Оценка и сравнительный анализ (4 балла):** Для всех моделей рассчитаны адекватные метрики. Есть сводная таблица/график для сравнения. Выбор лучшей модели четко обоснован.

**Часть 2: Индивидуальный вклад и защита (8 баллов - индивидуальная оценка)**
*   **Выполнение своей роли (4 балла):** Оценивается глубина и качество проработки той части отчета, за которую отвечал студент.
*   **Устная защита (4 балла):** Умение четко изложить свою часть работы, глубина понимания **всего проекта** и способность отвечать на вопросы по любой его части.