#Задание 5. Комплексный EDA
##Датасет: heart disease (заболевания сердца)
##Источник: https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction
1. Обзор структуры данных ( .info() , .describe() ).
2. Обнаружение и обработка пропущенных значений.
3. Обнаружение и удаление выбросов по признакам: age , cholesterol ,
restingbp , maxhr .
4. Масштабирование числовых признаков.
5. Кодирование категориальных признаков: sex , chestpain , exerciseangina ,
restecg .
6. Подготовьте отчёт в виде Jupyter-ноутбука с комментариями к каждому этапу и
промежуточными результатами.

In [9]:
import pandas as pd

#1. Обзор структуры данных

In [16]:
# Загрузка данных
heart_disease_df = pd.read_csv('heart.csv')

# Обзор структуры
print(heart_disease_df.info())

# Обзор статистики
print(heart_disease_df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB
None
              Age   RestingBP  Cholesterol   FastingBS       MaxHR  \
count  918.000000  918.000000   918.000000  918.000000  918.000000   
mean    53.510893  132.396514   198.799564    0.233115  1

#2. Обнаружение и обработка пропущенных значений

In [17]:
print(heart_disease_df.isnull().sum())
for column in ['RestingBP', 'Cholesterol', 'MaxHR']:
    heart_disease_df[column].fillna(heart_disease_df[column].median(), inplace=True)
heart_disease_df.dropna(subset=['ChestPainType', 'ExerciseAngina', 'RestingECG'], inplace=True)

Age               0
Sex               0
ChestPainType     0
RestingBP         0
Cholesterol       0
FastingBS         0
RestingECG        0
MaxHR             0
ExerciseAngina    0
Oldpeak           0
ST_Slope          0
HeartDisease      0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  heart_disease_df[column].fillna(heart_disease_df[column].median(), inplace=True)


#3. Обнаружение и удаление выбросов



In [18]:
def remove_outliers(df, column):
    q1 = df[column].quantile(0.25)
    q3 = df[column].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
for feature in ['Age', 'Cholesterol', 'RestingBP', 'MaxHR']:
    heart_disease_df = remove_outliers(heart_disease_df, feature)

#4. Масштабирование числовых признаков

In [19]:
from sklearn.preprocessing import StandardScaler

# Числовые признаки для масштабирования
numeric_features = ['Age', 'RestingBP', 'Cholesterol', 'MaxHR']
scaler = StandardScaler()
heart_disease_df[numeric_features] = scaler.fit_transform(heart_disease_df[numeric_features])

#5. Кодирование категориальных признаков

In [20]:
heart_disease_df = pd.get_dummies(
    heart_disease_df,
    columns=['Sex', 'ChestPainType', 'ExerciseAngina', 'RestingECG'],
    drop_first=True
)

Итоговый датасет

In [None]:
print(heart_disease_df.head())

        Age  RestingBP  Cholesterol  FastingBS     MaxHR  Oldpeak ST_Slope  \
0 -1.343776   0.539269     0.962124          0  1.296933      0.0       Up   
1 -0.400479   1.836853    -1.180312          0  0.640055      1.0     Flat   
2 -1.658208  -0.109523     0.844191          0 -1.741130      0.0       Up   
3 -0.505290   0.409510    -0.512029          0 -1.330581      1.5     Flat   
4  0.123574   1.188061    -0.885481          0 -0.755812      0.0       Up   

   HeartDisease  Sex_M  ChestPainType_ATA  ChestPainType_NAP  \
0             0   True               True              False   
1             1  False              False               True   
2             0   True               True              False   
3             1  False              False              False   
4             0   True              False               True   

   ChestPainType_TA  ExerciseAngina_Y  RestingECG_Normal  RestingECG_ST  
0             False             False               True          False 