## 1. 패키지 로드 및 경로 설정

In [1]:
import os
import dotenv
import pandas as pd

In [3]:
dotenv.load_dotenv()

file_path = os.environ['FILE_PATH']

## 2. 원본 데이터 로드 및 병합

https://knhanes.kdca.go.kr/knhanes/sub03/sub03_02_05.do

- 2019 ~ 2022의 국민건강영양조사 데이터

In [6]:
# 연도별 데이터 로드

hn19 = pd.read_sas(file_path + 'Hn19_22_original/hn19_all.sas7bdat', format='sas7bdat')
hn20 = pd.read_sas(file_path + 'Hn19_22_original/hn20_all.sas7bdat', format='sas7bdat')
hn21 = pd.read_sas(file_path + 'Hn19_22_original/hn21_all.sas7bdat', format='sas7bdat')
hn22 = pd.read_sas(file_path + 'Hn19_22_original/hn22_all_240111.sas7bdat', format='sas7bdat')

In [7]:
print(hn19.shape)
print(hn20.shape)
print(hn21.shape)
print(hn22.shape)

(8110, 912)
(7359, 859)
(7090, 864)
(6265, 623)


In [8]:
# 연도별 데이터 병합

df_concat = pd.concat([hn19, hn20, hn21, hn22])

In [9]:
# 전처리에 사용되는 열 선택

columns = ['year', 'sex', 'age', 'DI1_dg', 'DI1_pr', 'DI2_dg', 'DI2_pr', 'DE2_dg',
           'DE2_pr', 'DE1_dg', 'DE1_pr', 'BO1_1', 'BO1_2', 'BO1_3', 'BO2_1', 'HE_HP',
           'HE_ht', 'HE_wt', 'HE_wc', 'HE_BMI', 'HE_obe', 'HE_DM_HbA1c', 'HE_HCHOL',
           'HE_HTG', 'N_INTK', 'N_EN', 'N_WATER', 'N_PROT', 'N_FAT', 'N_SFA', 'N_MUFA',
           'N_PUFA', 'N_CHOL', 'N_CHO', 'N_TDF', 'N_SUGAR', 'N_NA', 'BE3_71', 'BE3_72',
           'BE3_73', 'BE3_81', 'BE3_82', 'BE3_83', 'BE3_75', 'BE3_76', 'BE3_77', 'BE3_85',
           'BE3_86', 'BE3_87', 'BE8_1', 'BE3_31', 'BE3_32', 'BE3_33', 'BE5_1', 'pa_aerobic']

In [11]:
df_concat = df_concat[columns]
print(df_concat.shape)

(28824, 55)


In [12]:
# 열 이름 번역

korean_columns = {
    'year': '조사연도', 'sex': '성별', 'age': '만나이',
    'DI1_dg': '고혈압 의사진단여부', 'DI1_pr': '고혈압 현재 유병 여부',
    'DI2_dg': '이상지질혈증 의사진단여부', 'DI2_pr': '이상지질혈증 현재 유병 여부',
    'DE2_dg': '갑상선 질환 의사진단여부', 'DE2_pr': '갑상선 질환 현재 유병 여부',
    'DE1_dg': '당뇨병 의사진단여부', 'DE1_pr': '당뇨병 현재 유병 여부',
    'BO1_1': '(성인) 1년간 체중 변화 여부', 'BO1_2': '1년간 체중 감소량', 'BO1_3': '1년간 체중 증가량',
    'BO2_1': '1년간 체중 조절 여부', 'HE_HP': '고혈압 유병여부(19세이상)',
    'HE_ht': '신장', 'HE_wt': '체중', 'HE_wc': '허리둘레', 'HE_BMI': '체질량지수',
    'HE_obe': '비만 유병여부(19세이상)', 'HE_DM_HbA1c': '당뇨병(당화혈색소 포함) 유병여부(19세이상)',
    'HE_HCHOL': '고콜레스테롤혈증 유병여부(19세이상)', 'HE_HTG': '고중성지방혈증 유병여부(19세이상)',
    'N_INTK': '식품섭취량(g)', 'N_EN': '에너지 섭취량(kcal)', 'N_WATER': '수분 섭취량(g)',
    'N_PROT': '단백질 섭취량(g)', 'N_FAT': '지방 섭취량(g)', 'N_SFA': '포화지방산 섭취량(g)',
    'N_MUFA': '단일불포화지방산 섭취량(g)', 'N_PUFA': '다가불포화지방산 섭취량(g)',
    'N_CHOL': '콜레스테롤 섭취량(mg)', 'N_CHO': '탄수화물 섭취량(g)', 'N_TDF': '식이섬유 섭취량(g)',
    'N_SUGAR': '당 섭취량(g)', 'N_NA': '나트륨 섭취량(mg)',
    'BE3_71': '고강도 신체활동 여부: 일', 'BE3_72': '고강도 신체활동 일수: 일',
    'BE3_73': '고강도 신체활동 시간(시간): 일',
    'BE3_81': '중강도 신체활동 여부: 일', 'BE3_82': '중강도 신체활동 일수: 일',
    'BE3_83': '중강도 신체활동 시간(시간): 일',
    'BE3_91': '신체활동 여부: 장소이동', 'BE3_92': '신체활동 일수: 장소이동',
    'BE3_93': '신체활동 시간(시간): 장소이동',
    'BE3_75': '고강도 신체활동 여부: 여가', 'BE3_76': '고강도 신체활동 일수: 여가',
    'BE3_77': '고강도 신체활동 시간(시간): 여가',
    'BE3_85': '중강도 신체활동 여부: 여가', 'BE3_86': '중강도 신체활동 일수: 여가',
    'BE3_87': '중강도 신체활동 시간(시간): 여가',
    'BE3_31': '1주일간 걷기 일수', 'BE3_32': '걷기 지속 시간(시간)', 'BE3_33': '걷기 지속 시간(분)',
    'BE8_1': '평소 하루 앉아서 보내는 시간(시간)',
    'BE5_1': '1주일간 근력운동 일수', 'pa_aerobic': '유산소 신체활동 실천율'
}

In [13]:
# 번역된 이름으로 열 이름 변경

df_concat = df_concat.rename(columns = korean_columns)

In [14]:
# 데이터 확인

df_concat

Unnamed: 0,조사연도,성별,만나이,고혈압 의사진단여부,고혈압 현재 유병 여부,이상지질혈증 의사진단여부,이상지질혈증 현재 유병 여부,갑상선 질환 의사진단여부,갑상선 질환 현재 유병 여부,당뇨병 의사진단여부,...,고강도 신체활동 시간(시간): 여가,중강도 신체활동 여부: 여가,중강도 신체활동 일수: 여가,중강도 신체활동 시간(시간): 여가,평소 하루 앉아서 보내는 시간(시간),1주일간 걷기 일수,걷기 지속 시간(시간),걷기 지속 시간(분),1주일간 근력운동 일수,유산소 신체활동 실천율
0,2019.0,1.0,61.0,1.0,1.0,0.0,8.0,0.0,8.0,0.0,...,88.0,2.0,8.0,88.0,14.0,4.0,0.0,20.0,1.0,0.0
1,2019.0,1.0,28.0,0.0,8.0,0.0,8.0,0.0,8.0,0.0,...,88.0,2.0,8.0,88.0,10.0,4.0,0.0,30.0,4.0,0.0
2,2019.0,1.0,53.0,0.0,8.0,0.0,8.0,0.0,8.0,0.0,...,88.0,2.0,8.0,88.0,11.0,4.0,1.0,0.0,2.0,0.0
3,2019.0,2.0,50.0,0.0,8.0,0.0,8.0,0.0,8.0,0.0,...,88.0,2.0,8.0,88.0,8.0,3.0,1.0,0.0,1.0,1.0
4,2019.0,1.0,16.0,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6260,2022.0,2.0,66.0,0.0,8.0,0.0,8.0,,,1.0,...,88.0,2.0,8.0,88.0,7.0,8.0,0.0,40.0,1.0,0.0
6261,2022.0,2.0,80.0,0.0,8.0,0.0,8.0,,,0.0,...,99.0,9.0,9.0,99.0,99.0,99.0,99.0,99.0,9.0,
6262,2022.0,1.0,58.0,1.0,1.0,1.0,1.0,,,0.0,...,99.0,9.0,9.0,99.0,99.0,99.0,99.0,99.0,9.0,
6263,2022.0,1.0,77.0,0.0,8.0,0.0,8.0,,,1.0,...,88.0,1.0,6.0,0.0,10.0,8.0,2.0,0.0,6.0,1.0


In [15]:
# 병합된 데이터 저장

df_concat.to_csv(file_path + 'Hn19_22_new.csv', encoding = 'cp949', index = False)

## 3. 데이터 전처리

In [16]:
df = df_concat
print(df.shape)

(28824, 55)


### 3-1. 체중 변화 (감소 or 증가) 열의 값이 없으면 제외

- '(성인) 1년간 체중 변화 여부' 열의 값이 null 인 경우

In [17]:
df = df.dropna(subset = ['(성인) 1년간 체중 변화 여부'])

In [18]:
null_values = df['(성인) 1년간 체중 변화 여부'].isna().sum()
print(null_values)

0


### 3-2. 성인인 경우의 데이터만 선택

- 19 ≤ 만 나이 ≤ 39

In [19]:
df = df[(df['만나이'] >= 19) & (df['만나이'] <= 39)]
print(df.shape)

(5856, 55)


### 3-3. 질환이 있는 경우 제외

- 질환 관련 열의 값이 1 (있음)인 경우 제외

In [20]:
colums_1 = ['고혈압 의사진단여부', '고혈압 현재 유병 여부', '이상지질혈증 의사진단여부', '이상지질혈증 현재 유병 여부',
          '갑상선 질환 의사진단여부', '갑상선 질환 현재 유병 여부', '당뇨병 의사진단여부', '당뇨병 현재 유병 여부',
          '고콜레스테롤혈증 유병여부(19세이상)', '고중성지방혈증 유병여부(19세이상)']

for column in colums_1:
    df = df[df[column] != 1]

print(df.shape)

(4851, 55)


- 고혈압 or 당뇨병 유병여부 열의 값이 3 (있음)인 경우 제외

In [21]:
colums_3 = ['고혈압 유병여부(19세이상)', '당뇨병(당화혈색소 포함) 유병여부(19세이상)']

for column in colums_3:
    df = df[df[column] != 3]

print(df.shape)

(4585, 55)


- 전처리에 사용된 질환 관련 열 삭제

In [22]:
dia_columns = ['고혈압 의사진단여부', '고혈압 현재 유병 여부', '이상지질혈증 의사진단여부', '이상지질혈증 현재 유병 여부',
                '갑상선 질환 의사진단여부', '갑상선 질환 현재 유병 여부', '당뇨병 의사진단여부', '당뇨병 현재 유병 여부',
                '고혈압 유병여부(19세이상)', '당뇨병(당화혈색소 포함) 유병여부(19세이상)', '고콜레스테롤혈증 유병여부(19세이상)',
                '고중성지방혈증 유병여부(19세이상)']

df = df.drop(columns = dia_columns)

### 3-4. 섭취량 정보가 없는 경우 제외

In [23]:
columns_intake = ['식품섭취량(g)', '에너지 섭취량(kcal)', '수분 섭취량(g)', '단백질 섭취량(g)', '지방 섭취량(g)',
                  '포화지방산 섭취량(g)', '단일불포화지방산 섭취량(g)', '다가불포화지방산 섭취량(g)',
                  '콜레스테롤 섭취량(mg)', '탄수화물 섭취량(g)', '식이섬유 섭취량(g)', '당 섭취량(g)', '나트륨 섭취량(mg)']

df = df.dropna(subset = columns_intake)
print(df.shape)

(3793, 43)


### 3-5. 신체 활동 지수 열 추가

In [None]:
# 신체 활동지수 열 생성 후 초기화

df['신체 활동지수'] = 0

**신체 활동지수 열의 값이 1인 경우 (좌식 생활)**

- '평소 하루 앉아서 보내는 시간(시간)' 의 값이 9 이상 (9 to 6)
- '걷기 지속 시간(시간)' 의 값이 0인 경우 (1시간 미만)
- '1주일간 근력운동 일수' 의 값이 1인 경우 (근력 운동을 하지 않는 경우)
- '유산소 신체활동 실천율' 의 값이 0인 경우 (실천하지 않는 경우)

In [24]:
condition_1 = (df['평소 하루 앉아서 보내는 시간(시간)'] >= 9) & (df['걷기 지속 시간(시간)'] == 0) & (df['1주일간 근력운동 일수'] == 1) & (df['유산소 신체활동 실천율'] == 0)
indices = df[condition_1].index

df.loc[indices, '신체 활동지수'] = 1

**신체 활동지수 열의 값이 2인 경우 (가벼운 활동)**

- '1주일간 근력운동 일수' 의 값이 2 또는 3인 경우 (1 ~ 2일의 근력운동)

In [25]:
# 신체 활동지수 열의 값이 2인 경우
condition_2 = (df['1주일간 근력운동 일수'] == 2) | (df['1주일간 근력운동 일수'] == 3)

indices = df[condition_2].index

df.loc[indices, '신체 활동지수'] = 2

**신체 활동지수 열의 값이 3인 경우 (적당한 활동)**

- '1주일간 근력운동 일수' 의 값이 4 ~ 6인 경우 (3 ~ 5일의 근력운동)

In [26]:
condition_3 = (df['1주일간 근력운동 일수'] == 4) | (df['1주일간 근력운동 일수'] == 5) | (df['1주일간 근력운동 일수'] == 6)
indices = df[condition_3].index

df.loc[indices, '신체 활동지수'] = 3

**신체 활동지수 열의 값이 4인 경우 (고강도 운동)**

- '고강도 신체활동 일수: 일' 의 값이 3 ~ 4인 경우 (3 ~ 4일)
- '중강도 신체활동 일수: 일' 의 값이 6 ~ 7인 경우 (6 ~ 7일)
- '고강도 신체활동 일수: 여가' 의 값이 3 ~ 4인 경우 (3 ~ 4일)
- '중강도 신체활동 일수: 여가' 의 값이 6 ~ 7인 경우 (6 ~ 7일)

In [27]:
condition_4 = (df['고강도 신체활동 일수: 일'].between(3, 4)) | (df['중강도 신체활동 일수: 일'].between(6, 7)) | (df['고강도 신체활동 일수: 여가'].between(3, 4)) | (df['중강도 신체활동 일수: 여가'].between(6, 7))

indices = df[condition_4].index

df.loc[indices, '신체 활동지수'] = 4

**신체 활동지수 열의 값이 5인 경우 (운동선수 수준)**

- '고강도 신체활동 일수: 일' 의 값이 5 ~ 7인 경우 (5 ~ 7일)
- '고강도 신체활동 일수: 여가' 의 값이 5 ~ 7인 경우 (5 ~ 7일)

In [28]:
condition_5 = (df['고강도 신체활동 일수: 일'].between(5, 7)) | (df['고강도 신체활동 일수: 여가'].between(5, 7))

indices = df[condition_5].index

df.loc[indices, '신체 활동지수'] = 5

**신체 활동지수의 1 ~ 5 조건에 해당하지 않는 열의 값을 2 (가벼운 활동) 으로 변경**

In [29]:
# '신체 활동지수' 열의 값이 0인 행 확인

inactive_rows = df[df['신체 활동지수'] == 0]

print(inactive_rows)

        조사연도   성별   만나이  (성인) 1년간 체중 변화 여부  1년간 체중 감소량  1년간 체중 증가량  \
43    2019.0  1.0  29.0                3.0         8.0         1.0   
50    2019.0  1.0  22.0                3.0         8.0         2.0   
66    2019.0  2.0  32.0                3.0         8.0         3.0   
88    2019.0  2.0  34.0                3.0         8.0         1.0   
94    2019.0  2.0  33.0                1.0         8.0         8.0   
...      ...  ...   ...                ...         ...         ...   
6206  2022.0  2.0  31.0                3.0         8.0         1.0   
6209  2022.0  1.0  36.0                1.0         8.0         8.0   
6211  2022.0  2.0  30.0                3.0         8.0         1.0   
6223  2022.0  1.0  24.0                1.0         8.0         8.0   
6247  2022.0  1.0  36.0                2.0         1.0         8.0   

      1년간 체중 조절 여부     신장    체중  허리둘레  ...  중강도 신체활동 여부: 여가  중강도 신체활동 일수: 여가  \
43             2.0  178.6  81.2  93.6  ...              2.0              8.0   

In [30]:
# 신체 활동지수 열의 값이 0인 행을 선택하여 해당 값을 2로 변경

df.loc[df['신체 활동지수'] == 0, '신체 활동지수'] = 2

In [31]:
# '신체활동지수' 열의 값별 개수 세기

activity_index_counts = df['신체 활동지수'].value_counts()

# 결과 출력

print(activity_index_counts)

2    2002
4     584
1     479
3     448
5     280
Name: 신체 활동지수, dtype: int64


**사용하지 않는 열 삭제**

In [32]:
drop_columns = ['조사연도', '허리둘레', '체질량지수', '비만 유병여부(19세이상)', '포화지방산 섭취량(g)',
                '단일불포화지방산 섭취량(g)', '다가불포화지방산 섭취량(g)', '콜레스테롤 섭취량(mg)',
                '고강도 신체활동 여부: 일', '고강도 신체활동 일수: 일', '고강도 신체활동 시간(시간): 일',
                '중강도 신체활동 여부: 일', '중강도 신체활동 일수: 일', '중강도 신체활동 시간(시간): 일',
                '고강도 신체활동 여부: 여가', '고강도 신체활동 일수: 여가', '고강도 신체활동 시간(시간): 여가',
                '중강도 신체활동 여부: 여가', '중강도 신체활동 일수: 여가', '중강도 신체활동 시간(시간): 여가',
                '평소 하루 앉아서 보내는 시간(시간)', '1주일간 걷기 일수', '걷기 지속 시간(시간)', '걷기 지속 시간(분)',
                '1주일간 근력운동 일수', '유산소 신체활동 실천율', '수분 섭취량(g)']

df = df.drop(columns = drop_columns)

In [33]:
df.columns

Index(['성별', '만나이', '(성인) 1년간 체중 변화 여부', '1년간 체중 감소량', '1년간 체중 증가량',
       '1년간 체중 조절 여부', '신장', '체중', '식품섭취량(g)', '에너지 섭취량(kcal)', '단백질 섭취량(g)',
       '지방 섭취량(g)', '탄수화물 섭취량(g)', '식이섬유 섭취량(g)', '당 섭취량(g)', '나트륨 섭취량(mg)',
       '신체 활동지수'],
      dtype='object')

In [34]:
df.to_csv(file_path + 'Hn19_22_preprocessed.csv', encoding = 'cp949', index = False)