# Проектная работа по курсу "Введение в машинное обучение"
**Тема: "Разведочный анализ данных (EDA)"**

**Формат:** Самостоятельная работа обучающегося (СРО) в группах по 3 человека.

**Максимальный балл:** 20.

## 1. Общая информация

За последние 5 недель вы освоили ключевые инструменты для работы с данными в Python: NumPy, Pandas, Matplotlib и Seaborn. Настало время применить эти знания на практике.

Вам предстоит в команде из трех человек провести полный цикл разведочного анализа данных (EDA) для одного из предложенных наборов данных. Результатом вашей работы станет отчет в формате Jupyter Notebook и устная защита проекта.

**Цель проекта** — не просто построить как можно больше графиков, а задать данным правильные вопросы, найти на них ответы с помощью визуализации и сформулировать осмысленные выводы, следуя предложенному плану исследования.

## 2. Цели и задачи проекта

*   **Главная цель:** Провести комплексный разведочный анализ данных, чтобы выявить основные закономерности, взаимосвязи и аномалии в данных.
*   **Задачи:**
    1.  Загрузить, очистить и подготовить данные для анализа.
    2.  Выполнить **"Обязательную программу анализа"** для вашего варианта.
    3.  Сформулировать итоговые выводы на основе проделанной работы.
    4.  Подготовить понятный отчет (Jupyter Notebook) и 7-10 минутную презентацию для защиты.

## 3. Роли в команде

Для эффективной работы и справедливой индивидуальной оценки каждая команда должна распределить следующие роли. Несмотря на специализацию, **каждый участник обязан понимать весь проект целиком** и быть готовым ответить на вопросы по любой его части.

### 1. Инженер данных (Data Engineer)
*   **Ответственность:** Загрузка, очистка и подготовка данных к анализу.
*   **Задачи:**
    *   Написать код для загрузки данных.
    *   Провести первичный анализ: `.info()`, `.describe()`, `.isNone().sum()`.
    *   Разработать и применить стратегию обработки пропущенных значений и дубликатов.
    *   Проверить и скорректировать типы данных.
    *   Создать 1-2 новых признака (feature engineering), которые могут быть полезны для анализа (например, извлечь год из даты, сгруппировать редкие категории).
*   **В отчете:** Отвечает за раздел "Загрузка и предобработка данных".

### 2. Аналитик данных (Data Analyst)
*   **Ответственность:** Исследование основных характеристик данных и прямых взаимосвязей.
*   **Задачи:**
    *   **Одномерный анализ:** Исследовать распределения ключевых числовых признаков (`histplot`, `boxplot`) и частоты категориальных признаков (`countplot`).
    *   **Двумерный анализ:** Найти и визуализировать прямые связи между парами признаков: "число-число" (`scatterplot`), "категория-число" (`boxplot`, `barplot`).
    *   Сделать выводы по каждому построенному графику.
*   **В отчете:** Отвечает за разделы "Одномерный анализ" и "Двумерный анализ".

### 3. Ведущий аналитик / Тим-лид (Lead Analyst / Team Lead)
*   **Ответственность:** Глубокий анализ взаимосвязей, синтез всех результатов и формирование итоговой картины.
*   **Задачи:**
    *   **Корреляционный анализ:** Построить тепловую карту корреляций (`heatmap`) для всех числовых признаков, чтобы оценить общую картину взаимосвязей. **Вам потребуется самостоятельно изучить синтаксис `sns.heatmap()`**.
    *   **Многомерный анализ:** Строить сложные графики, используя 3 и более переменных (например, `scatterplot` или `boxplot` с параметром `hue`), чтобы проверить гипотезы, возникшие на предыдущих этапах анализа.
    *   **Синтез и выводы:** Объединить находки всей команды в единое повествование. Написать финальное заключение, отвечающее на главные вопросы исследования.
    *   **Координация:** Убедиться, что все части отчета логически связаны между собой.
*   **В отчете:** Отвечает за разделы "Многомерный анализ" и "Общие выводы".

## 4. Варианты заданий и обязательная программа анализа

Каждая команда получает один из следующих вариантов. Ваш отчет должен содержать ответы и визуализации для **всех** пунктов из программы анализа вашего варианта.

### **Вариант 1: Анализ рынка недвижимости**
*   **Датасет:** [Kaggle: House Prices](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data) (использовать `train.csv`)
*   **Целевая переменная:** `SalePrice`

**Обязательная программа анализа:**
1.  **Каково общее состояние рынка?** Проанализируйте распределение цен на дома (`SalePrice`). Опишите его: является ли оно симметричным? Каковы медианная и средняя цены? Есть ли явные выбросы?
2.  **Что важнее: размер или качество?** Сравните влияние жилой площади (`GrLivArea`) и общего качества (`OverallQual`) на цену продажи. Какой из этих двух факторов, на ваш взгляд, является более сильным предиктором высокой цены? Подтвердите свои выводы графиками.
3.  **Где строить: анализ районов.** Определите топ-3 самых дорогих и топ-3 самых дешевых района (`Neighborhood`). Проанализируйте, отличаются ли дома в этих районах по среднему качеству (`OverallQual`) и году постройки (`YearBuilt`).
4.  **Новое или старое?** Исследуйте, как год постройки (`YearBuilt`) и год реконструкции (`YearRemodAdd`) влияют на стоимость. Есть ли заметная разница в цене для старых, но отремонтированных домов по сравнению с просто старыми?
5.  **Роль дополнительных удобств.** Оцените влияние размера гаража (`GarageCars`) и наличия/качества бассейна (`PoolQC`) на цену. Являются ли эти удобства решающими факторами?
6.  **Архитектурные особенности.** Какие стили домов (`HouseStyle`) наиболее распространены? Сравните медианные цены для разных стилей. Есть ли стиль, который стабильно продается дороже других?
7.  **Поиск скрытых связей.** Постройте тепловую карту корреляций для 10 числовых признаков, которые вы считаете наиболее важными (включая `SalePrice`). Найдите и опишите 2-3 самые сильные и неожиданные корреляции.
8.  **Итоговый портрет.** Сформулируйте 3-4 ключевых рекомендации для человека, желающего купить дом в Эймсе с максимальной инвестиционной привлекательностью. На какие характеристики ему стоит обращать внимание в первую очередь?

---

### **Вариант 2: Анализ оттока клиентов телеком-компании**
*   **Датасет:** [Kaggle: Telco Customer Churn](https://www.kaggle.com/blastchar/telco-customer-churn)
*   **Целевая переменная:** `Churn`

**Обязательная программа анализа:**
1.  **Каков масштаб проблемы?** Проанализируйте баланс классов в переменной `Churn`. Рассчитайте точный процент оттока и сделайте вывод, является ли выборка несбалансированной.
2.  **"Кабальные" контракты.** Сравните уровень оттока для разных типов контрактов (`Contract`). Как долго (`tenure`) в среднем остаются клиенты с каждым типом контракта? Какой контракт самый надежный для компании?
3.  **Цена вопроса.** Исследуйте связь между ежемесячными платежами (`MonthlyCharges`) и оттоком. Существует ли "болевой порог" в цене, после которого клиенты начинают уходить чаще? Используйте как минимум два разных типа графиков для анализа.
4.  **Демография и лояльность.** Проанализируйте, влияют ли демографические факторы (`gender`, `SeniorCitizen`, `Partner`, `Dependents`) на отток. Составьте портрет наиболее лояльной демографической группы.
5.  **Интернет — палка о двух концах?** Изучите отток в разрезе типа интернет-сервиса (`InternetService`). Связано ли наличие определенных доп. услуг (`OnlineSecurity`, `TechSupport`) со снижением оттока?
6.  **Удобство или привычка?** Влияет ли способ оплаты (`PaymentMethod`) на лояльность? Есть ли способ оплаты, который предпочитают уходящие клиенты?
7.  **Поиск взаимосвязей.** Постройте тепловую карту корреляций для числовых признаков. Есть ли сильная связь между "продолжительностью жизни" клиента, его ежемесячными и общими платежами?
8.  **Профиль "клиента на грани".** Опишите 3-4 ключевых признака клиента, который с высокой вероятностью уйдет в следующем месяце. Какие превентивные меры могла бы предпринять компания на основе ваших выводов?

---

### **Вариант 3: Исследование видеоигр**
*   **Датасет:** [Kaggle: Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)
*   **Целевая переменная:** `Global_Sales`

**Обязательная программа анализа:**
1.  **Кто правит рынком?** Определите топ-5 платформ (`Platform`), жанров (`Genre`) и издателей (`Publisher`) по суммарным мировым продажам (`Global_Sales`).
2.  **Эволюция индустрии.** Постройте график, показывающий динамику общего объема продаж и количества выпускаемых игр по годам (`Year`). Выделите и опишите "золотую эру", период спада и текущее состояние рынка.
3.  **Жизненный цикл платформ.** Выберите 3-4 популярные платформы (например, PS2, X360, Wii). Для каждой из них постройте график динамики продаж по годам. Сравните их жизненные циклы: как быстро они набирали популярность и как быстро угасали?
4.  **Разница во вкусах: Запад vs Восток.** Сравните топ-5 самых продаваемых жанров в Северной Америке (`NA_Sales`) и в Японии (`JP_Sales`). Опишите ключевые различия в игровых предпочтениях этих двух регионов.
5.  **Формула блокбастера.** Проанализируйте топ-100 самых продаваемых игр в мире. Какие жанры и платформы в этом списке представлены чаще всего? Можно ли выявить общую "формулу" для создания хита?
6.  **Специализация издателей.** Выберите 2-3 крупных издателя (например, Nintendo, Electronic Arts, Activision). Проанализируйте их портфолио: на каких жанрах они специализируются и насколько успешны в них?
7.  **Корреляция рынков.** Насколько сильно связаны между собой рынки Северной Америки, Европы и Японии? Постройте тепловую карту корреляций для `NA_Sales`, `EU_Sales`, `JP_Sales`.
8.  **Рекомендации для инвестора.** Представьте, что сейчас последний год в вашем датасете. Основываясь на трендах, дайте совет инвестору: в игру какого жанра, для какой платформы и с ориентацией на какой регион ему стоит вложиться? Обоснуйте свой ответ.

---

### **Вариант 4: Анализ сердечно-сосудистых заболеваний**
*   **Датасет:** [Kaggle: Heart Disease UCI](https://www.kaggle.com/datasets/johnsmith88/heart-disease-dataset)
*   **Целевая переменная:** `target` (1 — есть заболевание, 0 — нет)

**Обязательная программа анализа:**
1.  **Оценка общей картины.** Проанализируйте соотношение здоровых и больных пациентов (`target`) в выборке. Изучите распределение пациентов по возрасту (`age`) и полу (`sex`).
2.  **Возраст как фактор риска.** Насколько сильно риск заболевания связан с возрастом? Постройте график, показывающий долю больных пациентов в разных возрастных группах (например, 30-40, 40-50, 50-60, 60+ лет).
3.  **"Тихие убийцы": давление и холестерин.** Сравните распределения артериального давления (`trestbps`) и уровня холестерина (`chol`) у здоровых и больных пациентов. Насколько эти показатели информативны для диагностики?
4.  **Симптомы и диагноз.** Какой тип боли в груди (`cp`) и какие результаты ЭКГ (`restecg`) наиболее тесно связаны с наличием заболевания? Подтвердите выводы визуализациями.
5.  **Реакция на нагрузку.** Сравните максимальную частоту сердечных сокращений (`thalach`) и депрессию сегмента ST (`oldpeak`) у здоровых и больных. Является ли реакция организма на физическую нагрузку ключевым показателем?
6.  **Гендерные особенности.** Проанализируйте, есть ли разница в средних значениях ключевых показателей (холестерин, давление, макс. пульс) между мужчинами и женщинами. Влияет ли пол на связь этих показателей с наличием заболевания?
7.  **Скрытые взаимосвязи.** Постройте тепловую карту корреляций для всех числовых признаков. Найдите и объясните 2-3 самые сильные или самые интересные корреляции.
8.  **Профиль пациента высокого риска.** Обобщите свои находки. Опишите 3-4 ключевых характеристики (медицинских показателя и симптома), которые в совокупности с наибольшей вероятностью указывают на наличие сердечного заболевания у пациента.

---

## 5. Требования к отчету (Jupyter Notebook)

Отчет должен быть единым файлом `.ipynb`, структурированным с помощью Markdown-ячеек.
1.  **Титульная страница:** Название проекта, номер варианта, ФИО всех участников с указанием ролей.
2.  **Введение:** Краткое описание датасета и цели работы.
3.  **Загрузка и предобработка данных:** Код и комментарии, объясняющие ваши действия.
4.  **Разведочный анализ данных (EDA):** Этот раздел должен быть структурирован в соответствии с пунктами "Обязательной программы анализа" для вашего варианта. Каждый пункт должен содержать ячейки с кодом и ячейки с вашими выводами.
5.  **Общие выводы:** Краткое резюме (3-5 ключевых инсайтов), полученных в ходе анализа.
6.  **Вклад участников:** Краткое описание того, какой вклад внес каждый участник в проект.

## 6. Критерии оценивания (20 баллов)

Оценка каждого студента будет индивидуальной.

**Часть 1: Отчет в Jupyter Notebook (10 баллов - общая оценка для команды)**
*   **Качество кода и предобработки (5 баллов):** Код чистый, читаемый, корректно выполнены все шаги предобработки.
*   **Качество визуализаций и выводов (5 баллов):** Для каждого пункта "Обязательной программы" выбран подходящий тип графика, графики оформлены, выводы логичны и основаны на данных.

**Часть 2: Индивидуальный вклад и защита (10 баллов - индивидуальная оценка)**
*   **Выполнение своей роли (5 баллов):** Оценивается глубина и качество проработки той части отчета, за которую отвечал студент.
*   **Устная защита (5 баллов):** Умение четко изложить свою часть работы, глубина понимания **всего проекта** и способность отвечать на вопросы по любой его части.