In [13]:
# from : https://www.kaggle.com/datasets/aqleemkhan/heart-disease-2020/data

# 개요

- 30만명의 여러 신체정보, 병변 등의 데이터를 이용하여 비지도학습을 진행 후 각 그룹에 대한 분석을 통해 시행할 수 있는 마케팅, 건강 개선 방법등을 제시하고자 한다.

# 데이터 전처리

## 데이터 확인

In [2]:
import pandas as pd

In [3]:
df_heart = pd.read_csv('../data/heart_2020_cleaned.csv')
df_heart

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,No,16.60,Yes,No,No,3.0,30.0,No,Female,55-59,White,Yes,Yes,Very good,5.0,Yes,No,Yes
1,No,20.34,No,No,Yes,0.0,0.0,No,Female,80 or older,White,No,Yes,Very good,7.0,No,No,No
2,No,26.58,Yes,No,No,20.0,30.0,No,Male,65-69,White,Yes,Yes,Fair,8.0,Yes,No,No
3,No,24.21,No,No,No,0.0,0.0,No,Female,75-79,White,No,No,Good,6.0,No,No,Yes
4,No,23.71,No,No,No,28.0,0.0,Yes,Female,40-44,White,No,Yes,Very good,8.0,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
319790,Yes,27.41,Yes,No,No,7.0,0.0,Yes,Male,60-64,Hispanic,Yes,No,Fair,6.0,Yes,No,No
319791,No,29.84,Yes,No,No,0.0,0.0,No,Male,35-39,Hispanic,No,Yes,Very good,5.0,Yes,No,No
319792,No,24.24,No,No,No,0.0,0.0,No,Female,45-49,Hispanic,No,Yes,Good,6.0,No,No,No
319793,No,32.81,No,No,No,0.0,0.0,No,Female,25-29,Hispanic,No,No,Good,12.0,No,No,No


In [12]:
df_heart['SleepTime'].unique()

array([ 5.,  7.,  8.,  6., 12.,  4.,  9., 10., 15.,  3.,  2.,  1., 16.,
       18., 14., 20., 11., 13., 17., 24., 19., 21., 22., 23.])

### Columns 설명

|항목|설명|Unique|분류|
|--|--|--|--|
|HeartDisease|관상동맥 심장 질환(CHD) 또는 심근경색(MI)을 앓은 적이 있다고 보고한 응답자|Yes,No|범주형 - 2분류|
|BMI|체질량 지수(BMI)||수치형|
|Smoking|평생 담배 100개비 이상을 피웠는지|Yes,No|범주형 - 2분류|
|AlcoholDrinking|성인 남성은 주 14잔 이상,여성은 주 7잔 이상 마시는 과음자|Yes,No|범주형 - 2분류|
|Stroke|뇌졸중을 앓은 적이 있는지|Yes,No|범주형 - 2분류|
|PhysicalHealth|신체적 질병과 부상을 포함한 신체 건강에 대해 지난 30일 중 며칠 동안 신체 건강이 좋지 않았던 일수|0~30|범주형 - 31분류|
|MentalHealth|정신 건강에 대해 지난 30일 중 며칠 동안 정신 건강이 좋지 않았던 일수|0~30|범주형 - 31분류|
|DiffWalking|걷거나 계단을 오르는 데 심각한 어려움이 있는지|Yes,No|범주형 - 2분류|
|Sex|성별|Male,Female|범주형 - 2분류|
|AgeCategory|연령대|5년 단위 18 ~ 80 연령대 분류|범주형 - 14분류|
|Race|인종,민족 추정값|white,black,asian,american indian/alaskan native,hispanic,other|범주형 - 6분류|
|Diabetic|당뇨병을 앓은 적이 있는지|Yes,No|범주형 - 2분류|
|PhysicalActivity|지난 30일 중 본업 외 신체 운동 여부|Yes,No|범주형 - 2분류|
|GenHealth|인지 건강상태|poor,fair,good,very good, excellent|범주형 - 5분류|
|SleepTime|평균 수면시간|1~24|범주형-24분류|
|Asthma|천식을 앓은 적이 있는지|Yes,No|범주형 - 2분류|
|KidneyDisease|결석, 방광염 또는 요실금을 제외한 신장 질환을 앓은 적이 있는지|Yes,No|범주형 - 2분류|
|SkinCancer|피부암을 앓은 적이 있는지|Yes,No|범주형 - 2분류|

### 결측치, 이상치 확인

#### 결측치

In [6]:
df_heart.isna().sum()

HeartDisease        0
BMI                 0
Smoking             0
AlcoholDrinking     0
Stroke              0
PhysicalHealth      0
MentalHealth        0
DiffWalking         0
Sex                 0
AgeCategory         0
Race                0
Diabetic            0
PhysicalActivity    0
GenHealth           0
SleepTime           0
Asthma              0
KidneyDisease       0
SkinCancer          0
dtype: int64

- 해당 데이터에 결측치는 없는 것으로 확인

#### 이상치

- 수치형 데이터 기본 정보 확인

In [4]:
df_heart.describe()

Unnamed: 0,BMI,PhysicalHealth,MentalHealth,SleepTime
count,319795.0,319795.0,319795.0,319795.0
mean,28.325399,3.37171,3.898366,7.097075
std,6.3561,7.95085,7.955235,1.436007
min,12.02,0.0,0.0,1.0
25%,24.03,0.0,0.0,6.0
50%,27.34,0.0,0.0,7.0
75%,31.42,2.0,3.0,8.0
max,94.85,30.0,30.0,24.0


- PhysicalHealth,MentalHealth,SleepTime 항목은 숫자로 된 범주형으로 모든 항목이 범주내 값임을 확인
- 단, SleepTime의 경우 min과 max의 값이 1,4사분위 값과 차이가 크게 나기 때문에 평균적으로 이상하다고 여겨지는 4시간 이하, 16시간 이상은 따로 그룹화 하여 확인
- BMI가 계산식의 결과임을 생각하면 min과 max가 1,4사분위와의 차이가 매우 크므로 1,4사분위를 벗어나는 값들은 따로 그룹화 하여 확인 