# Предсказание сердечного приступа у пациента

# Цель исследования:

Разработать модель машинного обучения для предсказания на тестовой выборке риска возникновения сердечного приступа у пациента.

1. Исследование датасета
2. Предобработка данных
3. Обучение модели
4. Подготовка предсказания на тестовой выборке


# Описание данных

`heart_train.csv` - тренировочная выборка с данными пациентов

| Признак | Обозначение |
| ------- | ------- |
| `Age` | Возраст |
| `Cholesterol` | Холестерин |
| `Heart rate` | Сердечный ритм |
| `Diabetes` | Диабет |
| `Family History` | Семейный анамнез |
| `Smoking` | Курение |
| `Obesity` | Ожирение |
| `Alcohol Consumption` | Потребление алкоголя |
| `Exercise Hours Per Week` | Часы активности в неделю |
| `Diet` | Диета |
| `Previous Heart Problems` | Проблемы с сердцем ранее |
| `Medication Use` | Приём лекарств |
| `Stress Level` | Уровень стресса |
| `Sedentary Hours Per Day` | Сидячие часы в день |
| `Income` | Доход |
| `BMI` | Индекс массы тела |
| `Triglycerides` | Триглицериды |
| `Physical Activity Days Per Week` | Количество дней активности в неделю |
| `Sleep Hours Per Day` | Количество часов сна в день |
| `Heart Attack Risk (Binary)` | Риск сердечного приступа (бинарный) - целевой признак |
| `Blood sugar` | Содержание сахара в крови |
| `CK-MB` | Креатинкиназа-МВ |
| `Troponin` | Тропонин |
| `Gender` | Пол |
| `Systolic blood pressure` | Систолическое АД |
| `Diastolic blood pressure` | Диастолическое АД |
| `id` | Идентификатор пациента |

`heart_train.csv` - тестовая выборка с данными пациентов без целевого признака.

# Обзор данных

## Установка дополнительных библиотек

In [2]:
!pip install catboost -q

Collecting catboost
  Downloading catboost-1.2.8-cp39-cp39-win_amd64.whl.metadata (1.5 kB)
Collecting graphviz (from catboost)
  Downloading graphviz-0.21-py3-none-any.whl.metadata (12 kB)
Downloading catboost-1.2.8-cp39-cp39-win_amd64.whl (102.5 MB)
   ---------------------------------------- 0.0/102.5 MB ? eta -:--:--
   ---------------------------------------- 0.3/102.5 MB ? eta -:--:--
   ---------------------------------------- 0.8/102.5 MB 5.6 MB/s eta 0:00:19
   - -------------------------------------- 2.9/102.5 MB 6.2 MB/s eta 0:00:17
   - -------------------------------------- 3.7/102.5 MB 6.2 MB/s eta 0:00:16
   - -------------------------------------- 5.0/102.5 MB 5.6 MB/s eta 0:00:18
   -- ------------------------------------- 6.0/102.5 MB 5.4 MB/s eta 0:00:18
   -- ------------------------------------- 7.3/102.5 MB 5.4 MB/s eta 0:00:18
   --- ------------------------------------ 8.4/102.5 MB 5.4 MB/s eta 0:00:18
   --- ------------------------------------ 9.4/102.5 MB 5.3 

## Импортирование библиотек

In [3]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
    confusion_matrix,
    classification_report
)
import joblib
from catboost import CatBoostClassifier, Pool
from tqdm import tqdm

# Настройки отображения Pandas и графиков
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 120)
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (8, 5)