In [5]:
import pandas as pd
import os

## 데이터 불러오기

In [6]:
path_2022 = "../data/raw/health_checkup_2022.csv"
path_2023 = "../data/raw/health_checkup_2023.csv"

In [7]:
df_2022 = pd.read_csv(path_2022, encoding='cp949')
df_2023 = pd.read_csv(path_2023, encoding='cp949')

## 건강검진 데이터셋 이해

In [8]:
df_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 30 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   기준년도         1000000 non-null  int64  
 1   가입자일련번호      1000000 non-null  int64  
 2   시도코드         1000000 non-null  int64  
 3   성별           1000000 non-null  int64  
 4   연령대코드(5세단위)  1000000 non-null  int64  
 5   신장(5cm단위)    1000000 non-null  int64  
 6   체중(5kg단위)    1000000 non-null  int64  
 7   허리둘레         999608 non-null   float64
 8   시력(좌)        999814 non-null   float64
 9   시력(우)        999815 non-null   float64
 10  청력(좌)        999885 non-null   float64
 11  청력(우)        999884 non-null   float64
 12  수축기혈압        994444 non-null   float64
 13  이완기혈압        994444 non-null   float64
 14  식전혈당(공복혈당)   994389 non-null   float64
 15  총콜레스테롤       345618 non-null   float64
 16  트리글리세라이드     345614 non-null   float64
 17  HDL콜레스테롤     345614 non-null   float64
 18  LDL

In [9]:
df_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 33 columns):
 #   Column         Non-Null Count    Dtype  
---  ------         --------------    -----  
 0   기준년도           1000000 non-null  int64  
 1   가입자일련번호        1000000 non-null  int64  
 2   시도코드           1000000 non-null  int64  
 3   성별코드           1000000 non-null  int64  
 4   연령대코드(5세단위)    1000000 non-null  int64  
 5   신장(5cm단위)      1000000 non-null  int64  
 6   체중(5kg단위)      1000000 non-null  int64  
 7   허리둘레           999589 non-null   float64
 8   시력(좌)          999816 non-null   float64
 9   시력(우)          999823 non-null   float64
 10  청력(좌)          999863 non-null   float64
 11  청력(우)          999862 non-null   float64
 12  수축기혈압          994253 non-null   float64
 13  이완기혈압          994253 non-null   float64
 14  식전혈당(공복혈당)     994186 non-null   float64
 15  총콜레스테롤         338606 non-null   float64
 16  트리글리세라이드       338606 non-null   float64
 17  HDL콜레스테롤 

In [10]:
df_2022.columns

Index(['기준년도', '가입자일련번호', '시도코드', '성별', '연령대코드(5세단위)', '신장(5cm단위)',
       '체중(5kg단위)', '허리둘레', '시력(좌)', '시력(우)', '청력(좌)', '청력(우)', '수축기혈압',
       '이완기혈압', '식전혈당(공복혈당)', '총콜레스테롤', '트리글리세라이드', 'HDL콜레스테롤', 'LDL콜레스테롤',
       '혈색소', '요단백', '혈청크레아티닌', '혈청지오티(AST)', '혈청지피티(ALT)', '감마지티피', '흡연상태',
       '음주여부', '구강검진수검여부', '치아우식증유무', '치석'],
      dtype='object')

In [11]:
df_2023.columns

Index(['기준년도', '가입자일련번호', '시도코드', '성별코드', '연령대코드(5세단위)', '신장(5cm단위)',
       '체중(5kg단위)', '허리둘레', '시력(좌)', '시력(우)', '청력(좌)', '청력(우)', '수축기혈압',
       '이완기혈압', '식전혈당(공복혈당)', '총콜레스테롤', '트리글리세라이드', 'HDL콜레스테롤', 'LDL콜레스테롤',
       '혈색소', '요단백', '혈청크레아티닌', '혈청지오티(AST)', '혈청지피티(ALT)', '감마지티피', '흡연상태',
       '음주여부', '구강검진수검여부', '치아우식증유무', '결손치 유무', '치아마모증유무', '제3대구치(사랑니) 이상',
       '치석'],
      dtype='object')

| 연도   | 파일명                       | 컬럼 수 | 주요 차이                        |
| ---- | ------------------------- | ---- | ---------------------------- |
| 2022 | `health_checkup_2022.csv` | 30개  | `'성별'`이라는 컬럼명 사용             |
| 2023 | `health_checkup_2023.csv` | 33개  | `'성별코드'` 사용 + 치과 검사 항목 3개 추가 |


In [12]:
df_2022.rename(columns={'성별': '성별코드'}, inplace=True)

In [13]:
df_2022 = df_2022.reindex(columns=df_2023.columns)

In [None]:
df_combined = pd.concat([df_2022, df_2023], ignore_index=True)
df_combined.to_csv("../data/processed/health_checkup_2022_2023.csv", index=False)

In [None]:
df_sample = df_combined.sample(n=800000, random_state=42)

df_sample.to_csv("../data/sample/health_checkup_sample.csv", index=False)

1. **컬럼명 통일**
   - 2022: `'성별'` → `'성별코드'`로 변경 (`rename()`)

2. **컬럼 순서 통일**
   - 2023 컬럼 순서 기준으로 2022 데이터 재정렬 (`reindex()`)

3. **데이터 병합**
   - `pd.concat()`으로 수직 병합 (`ignore_index=True`)

4. **병합 데이터 저장**
   - 경로: `data/combined/health_checkup_2022_2023.csv`
   - 결과 크기: `2,000,000 rows × 34 columns`