# 데이터 정제 - 최종 버전

**작성자**: 오흥재 (vfxpedia)  
**작성일**: 2025-10-07  

---

## 📋 처리 방침

### ✅ 제거
- 응답거부, 모름 (모든 변수)
- churn 결측값

### ⚠️ 유지
- sob_02z1의 비해당 (Skip Logic 정상값)
- soa_06z2, soa_07z1의 비해당 (비경제활동인구 35.6%)

### 🔄 분석에서 제외
- sob_02z1 (졸업상태) - Skip Logic으로 인한 복잡도

### 📊 최종 분석 변수 (5개)
1. sob_01z1 - 교육수준(최종학력)
2. soa_01z1 - 경제활동 여부
3. soa_06z2 - 직업분류
4. soa_07z1 - 종사상 지위
5. sod_02z3 - 혼인상태

## 1. 환경 설정

In [None]:
import sys
import os
import pandas as pd
import numpy as np

# 프로젝트 루트를 Python 경로에 추가
project_root = os.path.abspath('../../..')
if project_root not in sys.path:
    sys.path.insert(0, project_root)

# 개인 유틸리티 경로 추가
utils_path = os.path.join(os.path.dirname(os.path.abspath('.')), 'utils')
if utils_path not in sys.path:
    sys.path.append(utils_path)

# 정제 함수 import
from data_cleaning import clean_data_for_analysis, get_analysis_summary

print("✅ 모듈 로드 완료")

✅ 모듈 로드 완료


## 2. 데이터 정제 실행

In [2]:
# 정제 실행
df_clean, report = clean_data_for_analysis(
    input_path='../../../data/analy_data.csv',
    output_path='./output/analy_data_cleaned.csv',
    verbose=True
)

🔧 데이터 정제 시작

원본 데이터: 89,822건

Step 1: churn 결측값 제거
  제거: 0건
  현재: 89,822건

Step 2: 응답거부/모름 제거
  sob_01z1: 34건
  soa_01z1: 4건
  soa_06z2: 9건
  soa_07z1: 2건
  sod_02z3: 16건
  총 제거: 65건
  현재: 89,757건

Step 3: sob_02z1 처리
  처리 방법: 분석 변수에서 제외 (Skip Logic)
  이유: sob_01z1이 1(무학) 또는 2(서당/한학)인 경우 비해당(8)이 정상값
  해당 케이스: 1,517건

Step 4: 직업/종사상지위 비해당 처리
  처리 방법: '비경제활동인구'로 유지 (제거하지 않음)
  비경제활동인구: 24,973건 (27.8%)
  이유: 분석적으로 의미 있는 그룹

Step 5: 결측값 제거
  대상 변수: sob_01z1, soa_01z1, soa_06z2, soa_07z1, sod_02z3
  제거: 0건
  현재: 89,757건

✅ 데이터 정제 완료

원본 데이터:     89,822건
정제 데이터:     89,757건
제거된 데이터:   65건 (0.1%)

금연 성공률 (원본): 54.83%
금연 성공률 (정제): 54.84%

✅ 최종 분석 변수 (5개):
  - sob_01z1: 교육수준(최종학력)
  - soa_01z1: 경제활동 여부
  - soa_06z2: 직업분류
  - soa_07z1: 종사상 지위
  - sod_02z3: 혼인상태

⚠️ 제외된 변수:
  - sob_02z1: 졸업상태 (Skip Logic)

💾 저장 완료: ./output/analy_data_cleaned.csv


## 3. 결과 요약

In [3]:
# 요약 정보 출력
get_analysis_summary(report)


📊 데이터 정제 요약

원본 → 정제:
  89,822건 → 89,757건
  제거율: 0.1%

금연 성공률:
  원본: 54.83%
  정제: 54.84%

비경제활동인구:
  24,973건
  (27.8%)

분석 변수:
  ✓ sob_01z1
  ✓ soa_01z1
  ✓ soa_06z2
  ✓ soa_07z1
  ✓ sod_02z3



## 4. 정제 데이터 확인

In [4]:
print("📊 정제 데이터 기본 정보")
print("=" * 60)
print(f"\nShape: {df_clean.shape}")
print(f"\n변수 목록:")
print(df_clean.columns.tolist())

print(f"\n\nchurn 분포:")
print(df_clean['churn'].value_counts())
print(f"\n금연 성공률: {df_clean['churn'].mean() * 100:.2f}%")

📊 정제 데이터 기본 정보

Shape: (89757, 210)

변수 목록:
['EXAMIN_YEAR', 'exmprs_no', 'age', 'sex', 'CTPRVN_CODE', 'PBHLTH_CODE', 'SPOT_NO', 'HSHLD_CODE', 'MBHLD_CODE', 'DONG_TY_CODE', 'HOUSE_TY_CODE', 'signgu_code', 'kstrata', 'wt_h', 'wt_p', 'mbhld_co', 'reside_adult_co', 'fma_19z3', 'fma_04z1', 'fma_12z1', 'fma_13z1', 'fma_14z1', 'fma_24z2', 'nue_01z1', 'fma_27z1', 'fma_26z1', 'qoa_01z1', 'smf_01z1', 'sma_01z1', 'sma_03z2', 'smb_01z1', 'smb_02z1', 'smb_03z1', 'smb_04z1', 'smb_05z1', 'smb_06z1', 'smb_09z1', 'sma_36z1', 'sma_37z1', 'smb_11z1', 'smb_12z1', 'smb_13z1', 'sma_08z1', 'sma_11z2', 'sma_12z2', 'smd_02z3', 'smd_01z3', 'smc_08z2', 'smc_09z2', 'smc_10z2', 'dra_01z1', 'drb_01z3', 'drb_03z1', 'drb_16z1', 'drb_04z1', 'drb_05z1', 'drg_01z3', 'dre_03z1', 'dre_04z1', 'sfa_02z3', 'sfb_05z2', 'sfa_12z2', 'sfb_07z1', 'sfa_06z2', 'sfb_03z2', 'sfa_08z2', 'pha_04z1', 'pha_05z1', 'pha_06z1', 'pha_07z1', 'pha_08z1', 'pha_09z1', 'phb_01z1', 'phb_02z1', 'phb_03z1', 'pha_11z1', 'nua_01z2', 'nuc_02z1', 'nuc_0

In [5]:
# 분석 변수별 유효값 확인
analysis_vars = ['sob_01z1', 'soa_01z1', 'soa_06z2', 'soa_07z1', 'sod_02z3']

print("\n📊 분석 변수별 유효값")
print("=" * 60)
for var in analysis_vars:
    valid = df_clean[var].notna().sum()
    print(f"{var:15} : {valid:,}건 (결측 {df_clean[var].isna().sum()}건)")


📊 분석 변수별 유효값
sob_01z1        : 89,757건 (결측 0건)
soa_01z1        : 89,757건 (결측 0건)
soa_06z2        : 89,757건 (결측 0건)
soa_07z1        : 89,757건 (결측 0건)
sod_02z3        : 89,757건 (결측 0건)


## 5. 비경제활동인구 분석

In [6]:
print("\n📊 경제활동 상태별 분석")
print("=" * 60)

# 비경제활동 vs 경제활동
non_econ = df_clean[df_clean['soa_06z2'] == 88]
econ = df_clean[df_clean['soa_06z2'] != 88]

print(f"\n비경제활동인구:")
print(f"  표본 수: {len(non_econ):,}건 ({len(non_econ)/len(df_clean)*100:.1f}%)")
print(f"  금연 성공률: {non_econ['churn'].mean()*100:.2f}%")

print(f"\n경제활동인구:")
print(f"  표본 수: {len(econ):,}건 ({len(econ)/len(df_clean)*100:.1f}%)")
print(f"  금연 성공률: {econ['churn'].mean()*100:.2f}%")

print(f"\n차이: {abs(non_econ['churn'].mean() - econ['churn'].mean())*100:.2f}%p")


📊 경제활동 상태별 분석

비경제활동인구:
  표본 수: 24,973건 (27.8%)
  금연 성공률: 64.76%

경제활동인구:
  표본 수: 64,784건 (72.2%)
  금연 성공률: 51.01%

차이: 13.75%p


## 6. 교육수준 분포 확인

In [7]:
print("\n📊 교육수준 분포")
print("=" * 60)

edu_dist = df_clean['sob_01z1'].value_counts().sort_index()
print(edu_dist)

print(f"\n교육수준별 금연 성공률:")
edu_success = df_clean.groupby('sob_01z1')['churn'].agg(['count', 'mean'])
edu_success.columns = ['표본수', '금연성공률']
edu_success['금연성공률'] = edu_success['금연성공률'] * 100
print(edu_success)


📊 교육수준 분포
sob_01z1
1.0     1463
2.0       54
3.0     9896
4.0    10376
5.0    31354
6.0    11169
7.0    21714
8.0     3731
Name: count, dtype: int64

교육수준별 금연 성공률:
            표본수      금연성공률
sob_01z1                  
1.0        1463  69.446343
2.0          54  77.777778
3.0        9896  70.008084
4.0       10376  63.087895
5.0       31354  49.291956
6.0       11169  45.769541
7.0       21714  53.472414
8.0        3731  67.274189


## 7. 저장 확인

In [8]:
import os

output_file = './output/analy_data_cleaned.csv'

if os.path.exists(output_file):
    file_size = os.path.getsize(output_file) / (1024 * 1024)  # MB
    print(f"\n✅ 파일 저장 확인")
    print(f"   경로: {output_file}")
    print(f"   크기: {file_size:.2f} MB")
    
    # 다시 읽어서 확인
    df_test = pd.read_csv(output_file)
    print(f"   데이터: {len(df_test):,}건")
    print(f"   변수: {len(df_test.columns)}개")
else:
    print(f"\n❌ 파일이 없습니다: {output_file}")


✅ 파일 저장 확인
   경로: ./output/analy_data_cleaned.csv
   크기: 81.45 MB
   데이터: 89,757건
   변수: 210개


## 8. 최종 체크리스트

In [9]:
print("\n" + "=" * 80)
print("✅ 데이터 정제 완료 체크리스트")
print("=" * 80)

checklist = [
    ("정제 데이터 건수", f"{len(df_clean):,}건"),
    ("비경제활동인구", f"{report['non_economic_count']:,}건 ({report['non_economic_count']/len(df_clean)*100:.1f}%)"),
    ("금연 성공률", f"{df_clean['churn'].mean()*100:.2f}%"),
    ("분석 변수", f"{len(report['analysis_vars'])}개"),
    ("제외 변수", "sob_02z1 (Skip Logic)"),
    ("저장 파일", output_file)
]

for item, value in checklist:
    print(f"  ✓ {item:20} : {value}")

print("\n" + "=" * 80)
print("💡 다음 단계: 이 데이터로 상관관계 분석 + 특성 중요도 분석")
print("=" * 80)


✅ 데이터 정제 완료 체크리스트
  ✓ 정제 데이터 건수            : 89,757건
  ✓ 비경제활동인구              : 24,973건 (27.8%)
  ✓ 금연 성공률               : 54.84%
  ✓ 분석 변수                : 5개
  ✓ 제외 변수                : sob_02z1 (Skip Logic)
  ✓ 저장 파일                : ./output/analy_data_cleaned.csv

💡 다음 단계: 이 데이터로 상관관계 분석 + 특성 중요도 분석
