# Исследование: Прогноз сердечных заболеваний

## Содержание: основной причиной смерти в развитых странах являются болезни сердца. Поэтому необходимо проделать работу, чтобы помочь предотвратить риск сердечного приступа или инсульта.

## Постановка задачи: использоват имеющийся набор данных, чтобы предсказать, какие пациенты с наибольшей вероятностью будут страдать от сердечно-сосудистых заболеваний в ближайшем будущем.

#### Материал взят из репозитория машинного обучения Калифорнийского университета в Ирвине по адресу https://archive.ics.uci.edu/ml/datasets/Heart+Disease.

## Шаг 1. Откроем файл с данными и прочитаем его

In [1]:
#Импорт библиотек и различных метрик для работы 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_absolute_error
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score 
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.utils import shuffle
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV

In [2]:
data = pd.read_csv('C:/Users/liza9/OneDrive/Рабочий стол/Heart_Disease_Prediction/Heart_Disease_Prediction.csv')

In [3]:
data.info()
display (data)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Age                      270 non-null    int64  
 1   Sex                      270 non-null    int64  
 2   Chest pain type          270 non-null    int64  
 3   BP                       270 non-null    int64  
 4   Cholesterol              270 non-null    int64  
 5   FBS over 120             270 non-null    int64  
 6   EKG results              270 non-null    int64  
 7   Max HR                   270 non-null    int64  
 8   Exercise angina          270 non-null    int64  
 9   ST depression            270 non-null    float64
 10  Slope of ST              270 non-null    int64  
 11  Number of vessels fluro  270 non-null    int64  
 12  Thallium                 270 non-null    int64  
 13  Heart Disease            270 non-null    object 
dtypes: float64(1), int64(12), 

Unnamed: 0,Age,Sex,Chest pain type,BP,Cholesterol,FBS over 120,EKG results,Max HR,Exercise angina,ST depression,Slope of ST,Number of vessels fluro,Thallium,Heart Disease
0,70,1,4,130,322,0,2,109,0,2.4,2,3,3,Presence
1,67,0,3,115,564,0,2,160,0,1.6,2,0,7,Absence
2,57,1,2,124,261,0,0,141,0,0.3,1,0,7,Presence
3,64,1,4,128,263,0,0,105,1,0.2,2,1,7,Absence
4,74,0,2,120,269,0,2,121,1,0.2,1,1,3,Absence
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
265,52,1,3,172,199,1,0,162,0,0.5,1,0,7,Absence
266,44,1,2,120,263,0,0,173,0,0.0,1,0,7,Absence
267,56,0,2,140,294,0,2,153,0,1.3,2,0,3,Absence
268,57,1,4,140,192,0,0,148,0,0.4,2,0,6,Absence


### Описание данных

Age: The person’s age in years

Sex: The person’s sex (1 = male, 0 = female)

Chest pain type: chest pain type:
                 Value 1: asymptomatic
                 Value 2: atypical angina
                 Value 3: non-anginal pain
                 Value 4: typical angina

BP: The person’s resting blood pressure (mm Hg on admission to the hospital)

Cholesterol: The person’s cholesterol measurement in mg/dl

FBS over 120: The person’s fasting blood sugar (> 120 mg/dl, 1 = true; 0 = false)

EKG results: resting electrocardiographic results — 
             Value 0: showing probable or definite left ventricular hypertrophy by Estes’ criteria
             Value 1: normal 
             Value 2: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV)

Max HR: The person’s maximum heart rate achieved

Exercise angina: Exercise induced angina (1 = yes; 0 = no)

ST depression: ST depression induced by exercise relative to rest (‘ST’ relates to positions on the ECG plot. See more here)

Slope of ST: the slope of the peak exercise ST segment 
             0: downsloping; 
             1: flat; 
             2: upsloping

Number of vessels fluro: The number of major vessels (0–3)





Thallium: A blood disorder called thalassemia 
          Value 0: NULL (dropped from the dataset previously 
          Value 1: fixed defect (no blood flow in some part of the heart) 
          Value 2: normal blood flow 
          Value 3: reversible defect (a blood flow is observed but it is not normal)	

target: Heart Disease ((1 = yes(Presence), 0 = no(Absence)))



# Шаг 2. Предобработка и исследовательский анализ данных

In [4]:
#Изменим на змеиный шрифт названия столбцов и приведем к единообразию
data = data.rename(columns = {'Heart Disease': 'heart_disease', 'Age': 'age', 'Sex': 'sex', 
                              'Chest pain type': 'chest_pain_type', 'BP': 'bp', 'Cholesterol': 'cholesterol', 
                              'FBS over 120': 'fbs_over_120', 'EKG results': 'ekg_results', 'Max HR': 'max_hr', 
                              'Exercise angina': 'exercise_angina', 'ST depression': 'st_depression', 
                              'Slope of ST': 'slope_of_st','Number of vessels fluro': 'number_of_vessels_fluro', 
                              'Thallium': 'thallium', 'Heart Disease': 'heart_disease' })
#Проверим 
display (data)

Unnamed: 0,age,sex,chest_pain_type,bp,cholesterol,fbs_over_120,ekg_results,max_hr,exercise_angina,st_depression,slope_of_st,number_of_vessels_fluro,thallium,heart_disease
0,70,1,4,130,322,0,2,109,0,2.4,2,3,3,Presence
1,67,0,3,115,564,0,2,160,0,1.6,2,0,7,Absence
2,57,1,2,124,261,0,0,141,0,0.3,1,0,7,Presence
3,64,1,4,128,263,0,0,105,1,0.2,2,1,7,Absence
4,74,0,2,120,269,0,2,121,1,0.2,1,1,3,Absence
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
265,52,1,3,172,199,1,0,162,0,0.5,1,0,7,Absence
266,44,1,2,120,263,0,0,173,0,0.0,1,0,7,Absence
267,56,0,2,140,294,0,2,153,0,1.3,2,0,3,Absence
268,57,1,4,140,192,0,0,148,0,0.4,2,0,6,Absence


In [5]:
data.shape

(270, 14)

##### Проверим на возможность ошибок в датасете

In [6]:
data['age'].unique()

array([70, 67, 57, 64, 74, 65, 56, 59, 60, 63, 53, 44, 61, 71, 46, 40, 48,
       43, 47, 54, 51, 58, 66, 37, 50, 42, 62, 49, 52, 45, 41, 76, 39, 35,
       55, 34, 38, 69, 68, 77, 29], dtype=int64)

In [7]:
data['heart_disease'].unique()

array(['Presence', 'Absence'], dtype=object)

In [8]:
data.isna().sum()

age                        0
sex                        0
chest_pain_type            0
bp                         0
cholesterol                0
fbs_over_120               0
ekg_results                0
max_hr                     0
exercise_angina            0
st_depression              0
slope_of_st                0
number_of_vessels_fluro    0
thallium                   0
heart_disease              0
dtype: int64

In [9]:
data['ekg_results'].unique()

array([2, 0, 1], dtype=int64)

In [10]:
# Поиск дубликатов
data.duplicated().sum()

0

In [11]:
data.describe()

Unnamed: 0,age,sex,chest_pain_type,bp,cholesterol,fbs_over_120,ekg_results,max_hr,exercise_angina,st_depression,slope_of_st,number_of_vessels_fluro,thallium
count,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0
mean,54.433333,0.677778,3.174074,131.344444,249.659259,0.148148,1.022222,149.677778,0.32963,1.05,1.585185,0.67037,4.696296
std,9.109067,0.468195,0.95009,17.861608,51.686237,0.355906,0.997891,23.165717,0.470952,1.14521,0.61439,0.943896,1.940659
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0,0.0,3.0
25%,48.0,0.0,3.0,120.0,213.0,0.0,0.0,133.0,0.0,0.0,1.0,0.0,3.0
50%,55.0,1.0,3.0,130.0,245.0,0.0,2.0,153.5,0.0,0.8,2.0,0.0,3.0
75%,61.0,1.0,4.0,140.0,280.0,0.0,2.0,166.0,1.0,1.6,2.0,1.0,7.0
max,77.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,7.0


data['heart_disease'].unique()

Вывод: данные чистые, предварительной обработки не потребовалось. Удалять столбцы не будем, т.к. это медицинские понятия и наличие одного или другого показателя может влиять на болезнь человека
Целевой признак будет формироваться из колонки наличие болезни "heart_disease", т.к. в задании просят предсказать, какие пациенты с наибольшей вероятностью будут страдать от сердечно-сосудистых заболеваний.

#### Разбиваем данные на 3 выборки:обучающую, валидационную, тестовую

In [12]:
# Применим one hot encoding к датафрейму, избежав "ловушку фиктивных признаков"
data_ohe=pd.get_dummies(data, drop_first=True)
data_ohe.head()

Unnamed: 0,age,sex,chest_pain_type,bp,cholesterol,fbs_over_120,ekg_results,max_hr,exercise_angina,st_depression,slope_of_st,number_of_vessels_fluro,thallium,heart_disease_Presence
0,70,1,4,130,322,0,2,109,0,2.4,2,3,3,1
1,67,0,3,115,564,0,2,160,0,1.6,2,0,7,0
2,57,1,2,124,261,0,0,141,0,0.3,1,0,7,1
3,64,1,4,128,263,0,0,105,1,0.2,2,1,7,0
4,74,0,2,120,269,0,2,121,1,0.2,1,1,3,0


#### Данные разобьем на три части: обучающую, валидационную и тестовую. Исходные данные разбиваем в соотношении 3:1:1.

In [13]:
# Разбиваем данные на 3 выборки:обучающую, валидационную, тестовую
data_ohe_train, data_ohe_valid_test=train_test_split(data_ohe,train_size=0.6,test_size=0.4,random_state=12345)
data_ohe_valid,data_ohe_test=train_test_split(data_ohe_valid_test,test_size=0.5,random_state=12345)

In [14]:
# выборка для обучения
len(data_ohe_train) 

162

In [15]:
# выборка валидационная
len(data_ohe_valid) 

54

In [16]:
# выборка тестовая
len(data_ohe_test) 

54

##### Спрятанной тестовой выборки нет. Поэтому, данные разобьем на три части: обучающую, валидационную и тестовую. Исходные данные разбивают в соотношении 3:1:1

In [17]:
features=data_ohe.drop(['heart_disease_Presence'],axis=1) # Признаки
target=data_ohe['heart_disease_Presence'] # Целевой признак

In [18]:
#На базе обучающей выборки формирую датасет признаков и serias целевого признака ['heart_disease']
train_features = data_ohe_train.drop(['heart_disease_Presence'], axis=1)
train_target = data_ohe_train['heart_disease_Presence'] 

In [19]:
#На базе валидационной выборки формирую датасет признаков и serias целевого признака ['heart_disease']
valid_features = data_ohe_valid.drop(['heart_disease_Presence'], axis=1)
valid_target = data_ohe_valid['heart_disease_Presence']

In [20]:
#На базе тестовой выборки формирую датасет признаков и serias целевого признака ['heart_disease']
test_features = data_ohe_test.drop(['heart_disease_Presence'], axis=1)
test_target = data_ohe_test['heart_disease_Presence']

In [23]:
# Стандартизируем выборки, т.к есть значения и маленькие и очень большие. 
numeric=['age','bp','cholesterol','max_hr','NumOfProducts', 'EstimatedSalary']
scaler=StandardScaler()
scaler.fit(data_ohe_train[numeric])
test_features[numeric]=scaler.transform(test_features[numeric]) 
train_features[numeric]=scaler.transform(train_features[numeric])
valid_features[numeric]=scaler.transform(valid_features[numeric])

KeyError: "['NumOfProducts', 'EstimatedSalary'] not in index"