## Класифікація ризику серцевого нападу за клінічними та поведінковими ознаками  
Ваше завдання полягає у побудові та оцінюванні моделі класифікації, яка за набором клінічних, поведінкових і соціодемографічних ознак передбачає наявність ризику серцевого нападу (цільова змінна: 1 — ризик є, 0 — ризику немає).  
Де застосовуються такі моделі класифікації:  
- Скринінг та тріаж у медицині: попередня оцінка ризику для пріоритизації пацієнтів та направлень на додаткові обстеження.  
- Підтримка клінічних рішень: підказки лікарю щодо профілактичних втручань (зміна способу життя, додаткові аналізи).  
- Персоналізована профілактика: таргетовані рекомендації щодо сну, активності, харчування, контролю ваги/тиску.  
- Громадське здоров’я: виявлення груп підвищеного ризику для планування програм профілактики.

Кожен рядок в наборі даних містить характеристики пацієнта, а саме:  
Patient ID — унікальний ідентифікатор пацієнта.  
Age — вік пацієнта.  
Sex — стать пацієнта (Male/Female).  
Cholesterol — рівень холестерину.  
Heart Rate — пульс (уд/хв).  
Diabetes — наявність діабету (Yes/No).  
Family History — сімейний анамнез серцево-судинних проблем (1 — так, 0 — ні).  
Smoking — статус куріння (1 — курить, 0 — ні).  
Obesity — ожиріння (1 — так, 0 — ні).  
Alcohol Consumption — рівень вживання алкоголю (None/Light/Moderate/Heavy).  
Exercise Hours Per Week — години фізичних вправ на тиждень.  
Diet — харчові звички (Healthy/Average/Unhealthy).  
Previous Heart Problems — наявність попередніх серцевих проблем (1 — так, 0 — ні).  
Medication Use — прийом ліків (1 — так, 0 — ні).  
Stress Level — рівень стресу (шкала 1–10).  
Sedentary Hours Per Day — години сидячої активності на день.  
Income — рівень доходу.  
BMI — індекс маси тіла.  
Triglycerides — рівень тригліцеридів.  
Physical Activity Days Per Week — дні фізичної активності на тиждень.  
Sleep Hours Per Day — години сну на день.  
Country — країна проживання.  
Continent — континент проживання.  
Systolic BP/ Diastolic BP — артеріальний тиск у форматі «систолічний/діастолічний».  
**Heart Attack Risk — цільова змінна: наявність ризику серцевого нападу (1 — так, 0 — ні).**

In [87]:
import pandas as pd
df = pd.read_csv('heart_at.csv')
df.head()

Unnamed: 0,Patient ID,Age,Sex,Cholesterol,Heart Rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,...,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Country,Continent,Heart Attack Risk,Systolic BP,Diastolic BP
0,BMW7812,67,Male,227,72,0,0,0,0,0,...,261404,27.385175,181,0,6,Argentina,South America,0,124,77
1,CZE1114,21,Male,209,98,0,1,1,0,0,...,285768,28.810186,128,1,8,Canada,North America,0,119,96
2,BNI9906,21,Female,193,72,0,0,1,0,0,...,235282,25.310741,128,4,7,France,Europe,0,116,76
3,JLN3497,84,Male,189,73,0,1,0,0,1,...,125640,22.173679,142,3,7,Canada,North America,0,124,87
4,GFO8847,66,Male,192,93,0,1,1,0,0,...,160555,24.22939,155,1,7,Thailand,Asia,0,132,82


**Завдання**  
- Огляд даних. Коротко опишіть структуру набору даних, типи змінних та наявність пропусків.  
- Порівняння груп пацієнтів із високим та низьким ризиком серцевого нападу. Порівняйте показники для Heart Attack Risk=1 та 0 (для цього можна застосувати групування даних, виведення описової статистики). Зробіть розгорнуті висновки: що найбільше відрізняє пацієнтів, які мають високий ризик серцевого нападу від тих, які не мають високого ризику серцевого нападу.  
- Підготовка даних. Приберіть службові ідентифікатори та зайві змінні, закодуйте категоріальні значення, за потреби обробіть пропуски.  
- Навчання моделі. Побудуйте модель класифікації та оцініть її точність. Зробіть розгорнуті висновки щодо точності моделі.  
- Ключові ознаки. Визначте, які ознаки мають пріоритетний вплив на ризик серцевого нападу (наведіть топ-фактори та коротко поясніть чому).