# Проект по бинарной классификации рисков сердечного приступа

## Обзор и цели

Этот проект посвящён разработке модели бинарной классификации, предсказывающей высокий или низкий риск сердечного приступа по реальным медицинским данным. Цель — провести исследовательский анализ данных (EDA), построить точную и интерпретируемую модель, а затем развернуть её как приложение FastAPI для получения предсказаний на новых данных.

Датасет включает ключевые группы признаков:
- Антропометрия: возраст, индекс массы тела (ИМТ).
- Образ жизни: курение, употребление алкоголя, физическая активность, диета.
- Клинические измерения: артериальное давление, частота сердечных сокращений.
- Лабораторные показатели: холестерин, триглицериды, уровень глюкозы.
- Сердечные биомаркеры: тропонин, CK-MB.
- Медицинский анамнез: диабет, семейная история сердечных заболеваний, прошлые сердечные события, приём лекарств и др.

Проект состоит из двух частей:
1. Анализ данных и построение модели классификации.
2. Развёртывание сервиса на FastAPI для онлайновых предсказаний риска.


## Ключевые задачи

1. **EDA (разведочный анализ):** изучить распределения признаков, выявить аномалии, пропуски и возможные утечки.
2. **Предобработка данных:** обработать пропуски, закодировать категориальные признаки, удалить/трансформировать вводящие в заблуждение признаки.
3. **Инженерия признаков:** использовать доменные знания (например, расчёт риск-скоров, агрегирование факторов риска) для улучшения качества модели.
4. **Моделирование:** обучить и сравнить несколько моделей классификации; акцент на ансамблях (**Random Forest**, **XGBoost**, **CatBoost**), избегая чрезмерно простых подходов.
5. **Метрики и валидация:** выбрать метрики с учётом дисбаланса классов и клинической значимости (например, ROC-AUC, PR-AUC, recall, F2), обосновать выбор.
6. **Интерпретируемость:** применить **SHAP** для выявления ключевых факторов и проверки согласованности поведения модели с медицинскими знаниями.
7. **Продакшн (FastAPI):** разработать сервис, принимающий вход (CSV/JSON) и возвращающий уровни риска в формате JSON.
8. **Документация и код:** подготовить воспроизводимый, структурированный код (ООП-подход), ноутбук с анализом, артефакты предсказаний и инструкцию по использованию.


# EDA

Краткий план EDA:
- Загрузить датасет и изучить структуру (размер, типы, описание признаков).
- Оценить качество данных: пропуски, дубликаты, выбросы, возможные утечки.
- Посчитать базовые статистики и проверить распределения признаков.
- Исследовать баланс целевого класса.
- Проанализировать корреляции и мультиколлинеарность (heatmap, парные графики).
- Изучить связи признаков с целевой переменной (box/violin, KDE, bar).
- Зафиксировать первичные инсайты и гипотезы для последующей предобработки и моделирования.


In [1]:
# Библиотеки
