# Предсказание сердечного приступа у пациента

# Цель исследования:

Разработать модель машинного обучения для предсказания на тестовой выборке риска возникновения сердечного приступа у пациента.

1. Исследование датасета
2. Предобработка данных
3. Обучение модели
4. Подготовка предсказания на тестовой выборке


# Описание данных

`heart_train.csv` - тренировочная выборка с данными пациентов

| Признак | Обозначение |
| ------- | ------- |
| `Age` | Возраст |
| `Cholesterol` | Холестерин |
| `Heart rate` | Сердечный ритм |
| `Diabetes` | Диабет |
| `Family History` | Семейный анамнез |
| `Smoking` | Курение |
| `Obesity` | Ожирение |
| `Alcohol Consumption` | Потребление алкоголя |
| `Exercise Hours Per Week` | Часы активности в неделю |
| `Diet` | Диета |
| `Previous Heart Problems` | Проблемы с сердцем ранее |
| `Medication Use` | Приём лекарств |
| `Stress Level` | Уровень стресса |
| `Sedentary Hours Per Day` | Сидячие часы в день |
| `Income` | Доход |
| `BMI` | Индекс массы тела |
| `Triglycerides` | Триглицериды |
| `Physical Activity Days Per Week` | Количество дней активности в неделю |
| `Sleep Hours Per Day` | Количество часов сна в день |
| `Heart Attack Risk (Binary)` | Риск сердечного приступа (бинарный) - целевой признак |
| `Blood sugar` | Содержание сахара в крови |
| `CK-MB` | Креатинкиназа-МВ |
| `Troponin` | Тропонин |
| `Gender` | Пол |
| `Systolic blood pressure` | Систолическое АД |
| `Diastolic blood pressure` | Диастолическое АД |
| `id` | Идентификатор пациента |

`heart_test.csv` - тестовая выборка с данными пациентов без целевого признака.

# Обзор данных

## Установка дополнительных библиотек

In [1]:
#!pip install catboost -q

## Импортирование библиотек

In [2]:
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
    confusion_matrix,
    classification_report
)
import joblib
from catboost import CatBoostClassifier, Pool
from tqdm import tqdm

# Настройки отображения Pandas и графиков
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 120)
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (8, 5)

## Загрузка данных

In [11]:
pth0 = '../datasets/heart_train.csv'
pth1 = '../datasets/heart_test.csv'

def load_data(local_path):
    if os.path.exists(local_path):
        return pd.read_csv(local_path)
    else:
        return 'Что-то пошло не так'

data_train = load_data(pth0)
data_test = load_data(pth1)