# **심장건강과 환자 변수 데이터분석을 통한 심장마비 위험 예측**

- 데이터 출처 : heart-attack-prediction-dataset
https://www.kaggle.com/datasets/iamsouravbanerjee/heart-attack-prediction-dataset

### **라이브러리 불러오기**

In [26]:
import numpy as np 
import pandas as pd 
import os
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%matplotlib inline

for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

/kaggle/input/heart-attack-prediction-dataset/heart_attack_prediction_dataset.csv
/kaggle/input/d/iamsouravbanerjee/heart-attack-prediction-dataset/heart_attack_prediction_dataset.csv
/kaggle/input/epoch-heart-attack/heart_attack_prediction_dataset.csv


## **TASK 1. 데이터 출처 / 데이터 불러오기**

- **데이터 선정 이유 / 분석목적** : 현대의학의 발전에도 불구하고 꾸준히 유지되는 심장마비 발생건수는 심장마비가 아직 해결하기 어려운 질환이라는 것을 의미한다. 환자별 건강세부정보, 생활습관, 나라, 임금 등의 변수와 심장건강을 비교분석하여 유의미한 결론을 도출해 심장마비 예방안을 모색한다.

In [27]:
df = pd.read_csv('/kaggle/input/heart-attack-prediction-dataset/heart_attack_prediction_dataset.csv')

## **TASK 2. 기초통계량 확인**

In [34]:
df.head()

Unnamed: 0,Patient ID,Age,Sex,Cholesterol,Blood Pressure,Heart Rate,Diabetes,Family History,Smoking,Obesity,...,Sedentary Hours Per Day,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Country,Continent,Hemisphere,Heart Attack Risk
0,BMW7812,67,Male,208,158/88,72,0,0,1,0,...,6.615001,261404,31.251233,286,0,6,Argentina,South America,Southern Hemisphere,0
1,CZE1114,21,Male,389,165/93,98,1,1,1,1,...,4.963459,285768,27.194973,235,1,7,Canada,North America,Northern Hemisphere,0
2,BNI9906,21,Female,324,174/99,72,1,0,0,0,...,9.463426,235282,28.176571,587,4,4,France,Europe,Northern Hemisphere,0
3,JLN3497,84,Male,383,163/100,73,1,1,1,0,...,7.648981,125640,36.464704,378,3,4,Canada,North America,Northern Hemisphere,0
4,GFO8847,66,Male,318,91/88,93,1,1,1,1,...,1.514821,160555,21.809144,231,1,5,Thailand,Asia,Northern Hemisphere,0


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8763 entries, 0 to 8762
Data columns (total 26 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Patient ID                       8763 non-null   object 
 1   Age                              8763 non-null   int64  
 2   Sex                              8763 non-null   object 
 3   Cholesterol                      8763 non-null   int64  
 4   Blood Pressure                   8763 non-null   object 
 5   Heart Rate                       8763 non-null   int64  
 6   Diabetes                         8763 non-null   int64  
 7   Family History                   8763 non-null   int64  
 8   Smoking                          8763 non-null   int64  
 9   Obesity                          8763 non-null   int64  
 10  Alcohol Consumption              8763 non-null   int64  
 11  Exercise Hours Per Week          8763 non-null   float64
 12  Diet                

In [36]:
int_var = df[['Age','Cholesterol','Heart Rate','Diabetes','Family History','Smoking','Obesity','Alcohol Consumption','Previous Heart Problems','Medication Use','Stress Level','Previous Heart Problems','Medication Use','Stress Level','Income','Triglycerides','Physical Activity Days Per Week','Sleep Hours Per Day','Heart Attack Risk' ]]
obj_var = df[['Patient ID','Sex','Blood Pressure','Diet','Country','Continent','Hemisphere' ]]
float_var = df[['Exercise Hours Per Week','Sedentary Hours Per Day','Sedentary Hours Per Day','BMI']]

In [37]:
int_var.describe()

Unnamed: 0,Age,Cholesterol,Heart Rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,Previous Heart Problems,Medication Use,Stress Level,Previous Heart Problems.1,Medication Use.1,Stress Level.1,Income,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Heart Attack Risk
count,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0
mean,53.707977,259.877211,75.021682,0.652288,0.492982,0.896839,0.501426,0.598083,0.495835,0.498345,5.469702,0.495835,0.498345,5.469702,158263.181901,417.677051,3.489672,7.023508,0.358211
std,21.249509,80.863276,20.550948,0.476271,0.499979,0.304186,0.500026,0.490313,0.500011,0.500026,2.859622,0.500011,0.500026,2.859622,80575.190806,223.748137,2.282687,1.988473,0.479502
min,18.0,120.0,40.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,20062.0,30.0,0.0,4.0,0.0
25%,35.0,192.0,57.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,3.0,88310.0,225.5,2.0,5.0,0.0
50%,54.0,259.0,75.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,5.0,0.0,0.0,5.0,157866.0,417.0,3.0,7.0,0.0
75%,72.0,330.0,93.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,8.0,1.0,1.0,8.0,227749.0,612.0,5.0,9.0,1.0
max,90.0,400.0,110.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,10.0,1.0,1.0,10.0,299954.0,800.0,7.0,10.0,1.0


In [38]:
obj_var.describe()

Unnamed: 0,Patient ID,Sex,Blood Pressure,Diet,Country,Continent,Hemisphere
count,8763,8763,8763,8763,8763,8763,8763
unique,8763,2,3915,3,20,6,2
top,BMW7812,Male,146/94,Healthy,Germany,Asia,Northern Hemisphere
freq,1,6111,8,2960,477,2543,5660


In [30]:
df.describe()

Unnamed: 0,Age,Cholesterol,Heart Rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,Exercise Hours Per Week,Previous Heart Problems,Medication Use,Stress Level,Sedentary Hours Per Day,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Heart Attack Risk
count,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0,8763.0
mean,53.707977,259.877211,75.021682,0.652288,0.492982,0.896839,0.501426,0.598083,10.014284,0.495835,0.498345,5.469702,5.99369,158263.181901,28.891446,417.677051,3.489672,7.023508,0.358211
std,21.249509,80.863276,20.550948,0.476271,0.499979,0.304186,0.500026,0.490313,5.783745,0.500011,0.500026,2.859622,3.466359,80575.190806,6.319181,223.748137,2.282687,1.988473,0.479502
min,18.0,120.0,40.0,0.0,0.0,0.0,0.0,0.0,0.002442,0.0,0.0,1.0,0.001263,20062.0,18.002337,30.0,0.0,4.0,0.0
25%,35.0,192.0,57.0,0.0,0.0,1.0,0.0,0.0,4.981579,0.0,0.0,3.0,2.998794,88310.0,23.422985,225.5,2.0,5.0,0.0
50%,54.0,259.0,75.0,1.0,0.0,1.0,1.0,1.0,10.069559,0.0,0.0,5.0,5.933622,157866.0,28.768999,417.0,3.0,7.0,0.0
75%,72.0,330.0,93.0,1.0,1.0,1.0,1.0,1.0,15.050018,1.0,1.0,8.0,9.019124,227749.0,34.324594,612.0,5.0,9.0,1.0
max,90.0,400.0,110.0,1.0,1.0,1.0,1.0,1.0,19.998709,1.0,1.0,10.0,11.999313,299954.0,39.997211,800.0,7.0,10.0,1.0


## 데이터 개요

- 데이터 총 샘플 수: 8,763개
- 총 특성(컬럼) 수: 26개

- 수치형 데이터 : 19개 (**연속형데이터**: 나이, 콜레스테롤, 심박수, 주당 운동시간, 하루 좌식시간, 체질량지수, 중성지방, 소득 / **이산형데이터** : 당뇨, 가족력, 흡연여부, 비마여부, 음주여부, 이전심장질환여부, 약물복용여부, 스트레스 수준, 주간운동횟수, 수면시간, 심장마비 위험)

- 범주형 데이터: 7개 (**명목형데이터**: 환자ID, 성별, 국가, 대륙, 반구, 혈압변주, 식단유형)

## 기초통계 분석

**(1) 나이(Age)**
- 평균(mean): 53.7세
- 표준편차(std): 21.2
- 최소(min): 18세
- 최대(max): 90세
→ 데이터가 18~90세로 다양하게 분포, 평균적으로 중장년층이 많음.

**(2) 콜레스테롤(Cholesterol)**
- 평균: 259.88
- 최소/최대: 120 ~ 400
→ 콜레스테롤 수치가 꽤 높은 편으로, 심혈관 질환 위험이 있을 가능성이 큼.

**(3) 심박수(Heart Rate)**
- 평균: 75 bpm
- 최소/최대: 40 ~ 110 bpm
→ 전반적으로 정상 범위이지만, 40 이하/110 이상 값은 위험 가능성이 있음.

**(4) 당뇨(Diabetes)**
- 평균: 0.65 (이진 변수)
→ 전체 데이터 중 약 65%가 당뇨 환자. 심장질환과 관련성이 높을 가능성이 큼.

**(5) 가족력(Family History)**
- 평균: 0.49
→ 약 50%의 사람들이 가족력이 있음. 유전적 영향이 강할 가능성.

**(6) 흡연(Smoking)**
- 평균: 0.89
→ 대부분(약 90%)이 흡연 경험이 있음. 심장질환 위험 요소 중 하나.

**(7) 비만(Obesity)**
- 평균: 0.50
→ 절반 정도가 비만. BMI와 연관성이 높을 것으로 예상됨.

**(8) 운동 시간(Exercise Hours Per Week)**
- 평균: 10시간
- 최소/최대: 0.002 ~ 20시간
→ 대부분 적절한 운동을 하지만, 일부 데이터는 운동 부족 상태일 가능성이 있음.

**(9) BMI (체질량지수)**
- 평균: 28.89
- 최소/최대: 18 ~ 39
→ 평균적으로 과체중(25 이상), 일부는 비만(30 이상) 범주.

**(10) 트리글리세라이드(Triglycerides, 중성지방)**
- 평균: 417
- 최소/최대: 30 ~ 800
→ 혈중 중성지방이 높은 경우가 많음. 콜레스테롤과 연관.

**(11) 좌식 시간(Sedentary Hours Per Day)**
- 평균: 5.99시간
→ 하루 평균 6시간 이상 앉아 있는 생활패턴. 심혈관 건강에 부정적 영향 가능성.

**(12) 심장마비 위험(Heart Attack Risk)**
-평균: 0.35 (이진 변수)
→ 약 35%의 환자가 심장마비 위험군으로 분류됨. 높은 수치.

### 앗! 성별의 분포는?

In [33]:
import pandas as pd

sex_counts = df['Sex'].value_counts()

# 성별 분포 출력
print(sex_counts)

Sex
Male      6111
Female    2652
Name: count, dtype: int64


- 남자가 거의 3배 많다는 점을 고려해야 한다.

In [39]:
#성별에 따라 심장마비 위험 비율이 어떻게 다를까?
sex_heart_attack = df.groupby('Sex')['Heart Attack Risk'].mean()

# 출력
print(sex_heart_attack)

Sex
Female    0.355958
Male      0.359188
Name: Heart Attack Risk, dtype: float64


- 성별에 따른 심장마비 위험 비율이 거의 비슷한데, 남성의 위험 비율이 약간 더 높다.
- 두 그룹 간의 차이가 **0.3%**로 매우 미미하기 때문에, 성별만으로 심장마비 위험에 큰 차이가 있다고 보기는 어렵다.

## **TASK 3. 분석목적/인사이트 설명**

## **INSIGHT**

- 콜레스테롤 & 심장마비 위험: 양의 상관관계 예상 (콜레스테롤이 높을수록 심장마비 위험 증가 가능성)
- 흡연 & 심장마비 위험: 강한 상관관계 예상 (흡연자가 심장마비 위험이 높을 가능성)
- 비만 & 트리글리세라이드: 강한 상관관계 예상 (비만일수록 중성지방 수치 증가 가능성)
- 운동 & BMI: 음의 상관관계 예상 (운동 시간이 많을수록 BMI 낮아질 가능성)
- 심장마비 위험군이 35%로 높은 편이므로, 고위험군 특징을 더 분석해 볼 필요가 있다.
- 운동량과 건강 지표 간의 관계, 생활 습관(흡연, 좌식 시간 등)과의 관계를 추가 분석 예정