In [None]:
import pandas as pd

## 데이터 전처리

In [20]:
df = pd.read_csv("../data/combined/health_checkup_2022_2023.csv")

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000000 entries, 0 to 1999999
Data columns (total 33 columns):
 #   Column         Dtype  
---  ------         -----  
 0   기준년도           int64  
 1   가입자일련번호        int64  
 2   시도코드           int64  
 3   성별코드           int64  
 4   연령대코드(5세단위)    int64  
 5   신장(5cm단위)      int64  
 6   체중(5kg단위)      int64  
 7   허리둘레           float64
 8   시력(좌)          float64
 9   시력(우)          float64
 10  청력(좌)          float64
 11  청력(우)          float64
 12  수축기혈압          float64
 13  이완기혈압          float64
 14  식전혈당(공복혈당)     float64
 15  총콜레스테롤         float64
 16  트리글리세라이드       float64
 17  HDL콜레스테롤       float64
 18  LDL콜레스테롤       float64
 19  혈색소            float64
 20  요단백            float64
 21  혈청크레아티닌        float64
 22  혈청지오티(AST)     float64
 23  혈청지피티(ALT)     float64
 24  감마지티피          float64
 25  흡연상태           float64
 26  음주여부           float64
 27  구강검진수검여부       int64  
 28  치아우식증유무        float64
 29  결손치 유무        

In [22]:
df.columns

Index(['기준년도', '가입자일련번호', '시도코드', '성별코드', '연령대코드(5세단위)', '신장(5cm단위)',
       '체중(5kg단위)', '허리둘레', '시력(좌)', '시력(우)', '청력(좌)', '청력(우)', '수축기혈압',
       '이완기혈압', '식전혈당(공복혈당)', '총콜레스테롤', '트리글리세라이드', 'HDL콜레스테롤', 'LDL콜레스테롤',
       '혈색소', '요단백', '혈청크레아티닌', '혈청지오티(AST)', '혈청지피티(ALT)', '감마지티피', '흡연상태',
       '음주여부', '구강검진수검여부', '치아우식증유무', '결손치 유무', '치아마모증유무', '제3대구치(사랑니) 이상',
       '치석'],
      dtype='object')

In [24]:
drop_cols = [
    '결손치 유무', 
    '치아마모증유무', 
    '제3대구치(사랑니) 이상', 
    '치석', 
    '치아우식증유무', 
    '구강검진수검여부',
    '시력(좌)',
    '시력(우)', 
    '기준년도',
    '가입자일련번호',
    '시도코드'
]
df_drop = df.drop(columns=drop_cols)

### 제거한 컬럼
| 컬럼명 | 사유 |
|--------|------|
| 가입자일련번호, 기준년도 | 예측과 무관한 메타데이터 |
| 시도코드 | 지역별 유병률이 고혈압 예측 설득력 부족 판단 |
| 청력 | 예측과 직접 관련성 낮고 결측 있음 |
| 구강검진 및 치과 관련 항목 | 고혈압과 관련성 낮다고 판단 |

In [25]:
df_drop.columns

Index(['성별코드', '연령대코드(5세단위)', '신장(5cm단위)', '체중(5kg단위)', '허리둘레', '청력(좌)',
       '청력(우)', '수축기혈압', '이완기혈압', '식전혈당(공복혈당)', '총콜레스테롤', '트리글리세라이드',
       'HDL콜레스테롤', 'LDL콜레스테롤', '혈색소', '요단백', '혈청크레아티닌', '혈청지오티(AST)',
       '혈청지피티(ALT)', '감마지티피', '흡연상태', '음주여부'],
      dtype='object')

## 결측치 확인 및 제거

In [31]:
df_drop.isnull().sum()

성별코드                 0
연령대코드(5세단위)          0
신장(5cm단위)            0
체중(5kg단위)            0
허리둘레               803
청력(좌)              252
청력(우)              254
수축기혈압            11303
이완기혈압            11303
식전혈당(공복혈당)       11425
총콜레스테롤         1315776
트리글리세라이드       1315780
HDL콜레스테롤       1315780
LDL콜레스테롤       1328173
혈색소              11433
요단백              22210
혈청크레아티닌          11429
혈청지오티(AST)       11429
혈청지피티(ALT)       11429
감마지티피            11424
흡연상태               185
음주여부               129
dtype: int64

In [28]:
df_cleaned = df_drop.dropna()

In [34]:
df_cleaned.shape

(667798, 22)

In [33]:
df_cleaned.isnull().sum()

성별코드           0
연령대코드(5세단위)    0
신장(5cm단위)      0
체중(5kg단위)      0
허리둘레           0
청력(좌)          0
청력(우)          0
수축기혈압          0
이완기혈압          0
식전혈당(공복혈당)     0
총콜레스테롤         0
트리글리세라이드       0
HDL콜레스테롤       0
LDL콜레스테롤       0
혈색소            0
요단백            0
혈청크레아티닌        0
혈청지오티(AST)     0
혈청지피티(ALT)     0
감마지티피          0
흡연상태           0
음주여부           0
dtype: int64

### 결측치 처리 전략

- **혈액 데이터가 없는 경우 전체 행 제거**
- 평균/중앙값 대체 → 왜곡 우려 있음
- 최종 데이터: **667,798건 (결측 없는 완전한 샘플)**
- **혈액검사 지표 포함된 사람만 분석 대상**

### 의사결정 근거

- 본 프로젝트는 **혈액 데이터 기반 고혈압 예측**을 목표로 함
- 따라서 **혈액지표 결측이 있는 사람은 예측 대상 아님**
- 정제된 완전 데이터셋을 통해 **신뢰성 있는 모델 학습 가능**

In [36]:
df_cleaned.to_csv("../data/processed/health_checkup_cleaned.csv", index=False, encoding='utf-8-sig')