In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
1_데이터탐색.py
- 전체 병합 데이터셋 기초 탐색
- 컬럼 구성, 데이터 형태, 결측치, 폐업 분포 확인
"""

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 1. 데이터 로드
# ============================================================================
print("="*80)
print("1. 데이터 로드")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")

print(f"데이터 형태: {df.shape}")
print(f"총 행(row): {df.shape[0]:,}개")
print(f"총 열(column): {df.shape[1]:,}개")
print()

# ============================================================================
# 2. 기본 정보 확인
# ============================================================================
print("="*80)
print("2. 기본 정보")
print("="*80)

print("\n[메모리 사용량]")
print(f"{df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\n[데이터 타입 분포]")
print(df.dtypes.value_counts())
print()

# ============================================================================
# 3. 컬럼명 확인 (100개씩 나눠서)
# ============================================================================
print("="*80)
print("3. 컬럼명 확인")
print("="*80)

total_cols = len(df.columns)
chunk_size = 50

for i in range(0, total_cols, chunk_size):
    end_idx = min(i + chunk_size, total_cols)
    print(f"\n[컬럼 {i+1}~{end_idx}]")
    for j, col in enumerate(df.columns[i:end_idx], start=i+1):
        print(f"  {j:3d}. {col}")

# ============================================================================
# 4. 결측치 확인
# ============================================================================
print("\n" + "="*80)
print("4. 결측치 확인")
print("="*80)

missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)
missing_df = pd.DataFrame({
    '결측치개수': missing,
    '결측비율(%)': missing_pct
})
missing_df = missing_df[missing_df['결측치개수'] > 0].sort_values('결측치개수', ascending=False)

print(f"\n결측치가 있는 컬럼: {len(missing_df)}개")
if len(missing_df) > 0:
    print("\n[결측치 상위 20개]")
    print(missing_df.head(20).to_string())
else:
    print("결측치가 없습니다.")

# ============================================================================
# 5. 폐업 관련 컬럼 확인
# ============================================================================
print("\n" + "="*80)
print("5. 폐업 관련 컬럼 확인")
print("="*80)

# 폐업 관련 컬럼 찾기
closure_cols = [col for col in df.columns if '폐업' in col]
print(f"\n폐업 관련 컬럼: {len(closure_cols)}개")
for col in closure_cols:
    print(f"  - {col}")

# 폐업여부가 있다면 분포 확인
if '폐업여부' in df.columns:
    print("\n[폐업여부 분포]")
    print(df['폐업여부'].value_counts())
    print(f"\n폐업률: {df['폐업여부'].mean()*100:.2f}%")

# 폐업일이 있다면 정보 확인
if '폐업일' in df.columns:
    print(f"\n폐업일 존재: {df['폐업일'].notna().sum():,}건")

# ============================================================================
# 6. 주요 식별 컬럼 확인
# ============================================================================
print("\n" + "="*80)
print("6. 주요 식별 컬럼 확인")
print("="*80)

key_cols = ['가맹점구분번호', '기준년월', '업종', '상권', '상권_코드_명', '지역명']
existing_keys = [col for col in key_cols if col in df.columns]

for col in existing_keys:
    unique_count = df[col].nunique()
    print(f"\n{col}:")
    print(f"  - 고유값 개수: {unique_count:,}개")
    if unique_count <= 20:
        print(f"  - 고유값: {df[col].unique().tolist()}")
    else:
        print(f"  - 상위 10개: {df[col].value_counts().head(10).to_dict()}")

# ============================================================================
# 7. 수치형 변수 기초 통계
# ============================================================================
print("\n" + "="*80)
print("7. 수치형 변수 기초 통계")
print("="*80)

numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"\n수치형 컬럼: {len(numeric_cols)}개")
print("\n[기초 통계량 - 일부만 표시]")
print(df[numeric_cols[:10]].describe().round(2).to_string())

# ============================================================================
# 8. 데이터 샘플 확인
# ============================================================================
print("\n" + "="*80)
print("8. 데이터 샘플 (첫 3행)")
print("="*80)

# 주요 컬럼만 선택해서 보기
display_cols = existing_keys[:5] if len(existing_keys) >= 5 else existing_keys
if display_cols:
    print(df[display_cols].head(3).to_string())

print("\n" + "="*80)
print("데이터 탐색 완료")
print("="*80)


1. 데이터 로드
데이터 형태: (86263, 188)
총 행(row): 86,263개
총 열(column): 188개

2. 기본 정보

[메모리 사용량]
196.86 MB

[데이터 타입 분포]
float64    170
object      15
int64        3
Name: count, dtype: int64

3. 컬럼명 확인

[컬럼 1~50]
    1. 가맹점구분번호
    2. 기준년월
    3. 가맹점 운영개월수 구간
    4. 매출금액 구간
    5. 매출건수 구간
    6. 유니크 고객 수 구간
    7. 객단가 구간
    8. 취소율 구간
    9. 배달매출금액 비율
   10. 동일 업종 매출금액 비율
   11. 동일 업종 매출건수 비율
   12. 동일 업종 내 매출 순위 비율
   13. 동일 상권 내 매출 순위 비율
   14. 동일 업종 내 해지 가맹점 비중
   15. 동일 상권 내 해지 가맹점 비중
   16. 배달가능여부
   17. M12_SME_BZN_ME_MCT_RAT_flag
   18. 기준연월
   19. 생활물가지수
   20. 식품
   21. 식품 이외
   22. 전월세
   23. 전·월세포함 생활물가지수
   24. CPI_품목_쌀
   25. CPI_품목_돼지고기
   26. CPI_품목_국산쇠고기
   27. CPI_품목_우유
   28. CPI_품목_라면
   29. CPI_품목_스낵과자
   30. CPI_품목_달걀
   31. CPI_품목_닭고기
   32. CPI_품목_두부
   33. CPI_품목_마른멸치
   34. CPI_품목_고등어
   35. CPI_품목_파
   36. CPI_품목_참기름
   37. CPI_품목_맛김
   38. CPI_품목_콩나물
   39. CPI_품목_탄산음료
   40. CPI_품목_밀가루
   41. CPI_품목_담배(국산)
   42. CPI_품목_맥주
   43. CPI_품목_소주
   44. CPI_품목_세탁료
   45. CP

In [2]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
2_지표군분류.py
- 5개 지표군 분류: 운영/고객/경쟁/접근성/경제환경
- 각 지표군별 컬럼 리스트 생성 및 저장
"""

import pandas as pd
import numpy as np
import json

# ============================================================================
# 1. 데이터 로드 및 폐업여부 생성
# ============================================================================
print("="*80)
print("1. 데이터 로드 및 전처리")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")

# 폐업여부 컬럼 생성
df['폐업여부'] = df['폐업일'].notna().astype(int)

print(f"데이터 형태: {df.shape}")
print(f"\n폐업 분포:")
print(df['폐업여부'].value_counts())
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")

# ============================================================================
# 2. 5개 지표군 분류
# ============================================================================
print("\n" + "="*80)
print("2. 5개 지표군 분류")
print("="*80)

# 제외할 컬럼 (식별자, 타겟 등)
exclude_cols = [
    '가맹점구분번호', '기준년월', '기준연월', '기준분기',
    '구분지역', '지역명', '지역명_매핑', '업종',
    '상권', '상권_코드', '상권_코드_명',
    '개설일', '폐업일', '폐업여부',
    '좌표정보(X)', '좌표정보(Y)'
]

# 분류 딕셔너리 초기화
categories = {
    '운영지표': [],
    '고객지표': [],
    '경쟁밀집지표': [],
    '접근성지표': [],
    '경제환경지표': []
}

# 모든 컬럼 순회하며 분류
all_cols = [col for col in df.columns if col not in exclude_cols]

for col in all_cols:

    # 경제환경지표
    if col.startswith('CPI_') or col in ['생활물가지수', '식품', '식품 이외', '전월세', '전·월세포함 생활물가지수']:
        categories['경제환경지표'].append(col)

    elif col.startswith('수익률정보') or col.startswith('공실률') or col.startswith('임대료'):
        categories['경제환경지표'].append(col)

    elif '지출_총금액' in col or col == '월_평균_소득_금액':
        categories['경제환경지표'].append(col)

    # 접근성지표
    elif '버스' in col or '지하철' in col:
        categories['접근성지표'].append(col)

    # 고객지표
    elif '고객' in col:
        categories['고객지표'].append(col)

    # 경쟁밀집지표
    elif '동일 업종' in col or '동일 상권' in col:
        categories['경쟁밀집지표'].append(col)

    # 운영지표 (매출, 배달, 취소, 시간대, 요일 등)
    elif any(keyword in col for keyword in ['매출', '배달', '취소', '운영개월수']):
        categories['운영지표'].append(col)

    elif any(keyword in col for keyword in ['월요일', '화요일', '수요일', '목요일', '금요일', '토요일', '주중', '주말', '시간대']):
        categories['운영지표'].append(col)

    # 미분류 항목 체크
    else:
        print(f"⚠️ 미분류 컬럼: {col}")

# ============================================================================
# 3. 분류 결과 확인
# ============================================================================
print("\n" + "="*80)
print("3. 분류 결과")
print("="*80)

total_classified = 0
for category, cols in categories.items():
    print(f"\n{category}: {len(cols)}개")
    total_classified += len(cols)

print(f"\n총 분류된 컬럼: {total_classified}개")
print(f"전체 컬럼 (식별자 제외): {len(all_cols)}개")
print(f"미분류 컬럼: {len(all_cols) - total_classified}개")

# ============================================================================
# 4. 각 지표군별 상세 컬럼 출력
# ============================================================================
print("\n" + "="*80)
print("4. 지표군별 상세 컬럼")
print("="*80)

for category, cols in categories.items():
    print(f"\n[{category}] {len(cols)}개")
    for i, col in enumerate(sorted(cols), 1):
        print(f"  {i:2d}. {col}")

# ============================================================================
# 5. 지표군별 기초 통계
# ============================================================================
print("\n" + "="*80)
print("5. 지표군별 기초 통계")
print("="*80)

for category, cols in categories.items():
    if len(cols) == 0:
        continue

    print(f"\n[{category}]")

    # 수치형 컬럼만 선택
    numeric_cols = [col for col in cols if df[col].dtype in ['int64', 'float64']]

    if len(numeric_cols) > 0:
        # 결측치 확인
        missing = df[numeric_cols].isnull().sum()
        if missing.sum() > 0:
            print(f"  결측치 있는 컬럼: {(missing > 0).sum()}개")

        # 기본 통계 (최대 5개 컬럼만)
        sample_cols = numeric_cols[:5]
        stats = df[sample_cols].describe().loc[['mean', 'std', 'min', 'max']].round(2)
        print(f"  기초 통계 (일부):")
        print(stats.to_string())
    else:
        print(f"  수치형 컬럼 없음")

# ============================================================================
# 6. 분류 결과 저장
# ============================================================================
print("\n" + "="*80)
print("6. 분류 결과 저장")
print("="*80)

# JSON 파일로 저장
output_path = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/지표군_분류.json"

with open(output_path, 'w', encoding='utf-8') as f:
    json.dump(categories, f, ensure_ascii=False, indent=2)

print(f"✓ 지표군 분류 저장 완료: {output_path}")

# CSV 파일로도 저장 (한 줄씩)
output_csv = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/지표군_분류.csv"

rows = []
for category, cols in categories.items():
    for col in cols:
        rows.append({'지표군': category, '컬럼명': col})

pd.DataFrame(rows).to_csv(output_csv, index=False, encoding='utf-8-sig')
print(f"✓ 지표군 분류 CSV 저장 완료: {output_csv}")

print("\n" + "="*80)
print("지표군 분류 완료")
print("="*80)


1. 데이터 로드 및 전처리
데이터 형태: (86263, 189)

폐업 분포:
폐업여부
0    83929
1     2334
Name: count, dtype: int64
폐업률: 2.71%

2. 5개 지표군 분류
⚠️ 미분류 컬럼: 객단가 구간
⚠️ 미분류 컬럼: M12_SME_BZN_ME_MCT_RAT_flag

3. 분류 결과

운영지표: 22개

고객지표: 16개

경쟁밀집지표: 6개

접근성지표: 8개

경제환경지표: 119개

총 분류된 컬럼: 171개
전체 컬럼 (식별자 제외): 173개
미분류 컬럼: 2개

4. 지표군별 상세 컬럼

[운영지표] 22개
   1. 가맹점 운영개월수 구간
   2. 금요일_매출_금액
   3. 당월_매출_건수
   4. 당월_매출_금액
   5. 매출건수 구간
   6. 매출금액 구간
   7. 목요일_매출_금액
   8. 배달가능여부
   9. 배달매출금액 비율
  10. 수요일_매출_금액
  11. 시간대_00~06_매출_금액
  12. 시간대_06~11_매출_금액
  13. 시간대_11~14_매출_금액
  14. 시간대_14~17_매출_금액
  15. 시간대_17~21_매출_금액
  16. 시간대_21~24_매출_금액
  17. 월요일_매출_금액
  18. 주말_매출_금액
  19. 주중_매출_금액
  20. 취소율 구간
  21. 토요일_매출_금액
  22. 화요일_매출_금액

[고객지표] 16개
   1. 거주 이용 고객 비율
   2. 남성 20대이하 고객 비중
   3. 남성 30대 고객 비중
   4. 남성 40대 고객 비중
   5. 남성 50대 고객 비중
   6. 남성 60대이상 고객 비중
   7. 신규 고객 비중
   8. 여성 20대이하 고객 비중
   9. 여성 30대 고객 비중
  10. 여성 40대 고객 비중
  11. 여성 50대 고객 비중
  12. 여성 60대이상 고객 비중
  13. 유니크 고객 수 구간
  14. 유동인구 이용 고객 비율
  15. 재방문 고객 비중
  

In [3]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
3_가설1_지표군별비교분석.py
- 가설1: 5개 지표군에 따른 정상/폐업 가맹점 비교
- 지표군별 T-test 수행
- 상관분석
"""

import pandas as pd
import numpy as np
from scipy import stats
import json
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 1. 데이터 및 지표군 로드
# ============================================================================
print("="*80)
print("1. 데이터 및 지표군 로드")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")
df['폐업여부'] = df['폐업일'].notna().astype(int)

# 지표군 로드
with open("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/지표군_분류.json", 'r', encoding='utf-8') as f:
    categories = json.load(f)

# 미분류 컬럼 추가
categories['운영지표'].append('객단가 구간')

print(f"데이터 형태: {df.shape}")
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")
print(f"\n지표군별 컬럼 수:")
for cat, cols in categories.items():
    print(f"  {cat}: {len(cols)}개")

# ============================================================================
# 2. 지표군별 정상 vs 폐업 비교 (T-test)
# ============================================================================
print("\n" + "="*80)
print("2. 지표군별 정상 vs 폐업 T-test")
print("="*80)

results = []

for category, cols in categories.items():
    print(f"\n[{category}]")

    # 수치형 컬럼만 선택
    numeric_cols = [col for col in cols if col in df.columns and df[col].dtype in ['int64', 'float64']]

    if len(numeric_cols) == 0:
        print("  수치형 컬럼 없음")
        continue

    for col in numeric_cols:
        # 정상/폐업 데이터 분리
        normal = df[df['폐업여부']==0][col].dropna()
        closed = df[df['폐업여부']==1][col].dropna()

        # 데이터가 충분한 경우만 검정
        if len(normal) < 30 or len(closed) < 30:
            continue

        # T-test
        t_stat, p_val = stats.ttest_ind(normal, closed)

        # 평균, 표준편차
        mean_normal = normal.mean()
        mean_closed = closed.mean()
        std_normal = normal.std()
        std_closed = closed.std()

        # Effect size (Cohen's d)
        pooled_std = np.sqrt((std_normal**2 + std_closed**2) / 2)
        cohen_d = (mean_closed - mean_normal) / pooled_std if pooled_std > 0 else 0

        results.append({
            '지표군': category,
            '변수명': col,
            '정상_평균': mean_normal,
            '정상_표준편차': std_normal,
            '폐업_평균': mean_closed,
            '폐업_표준편차': std_closed,
            '차이': mean_closed - mean_normal,
            't통계량': t_stat,
            'p값': p_val,
            '유의성': '***' if p_val < 0.001 else '**' if p_val < 0.01 else '*' if p_val < 0.05 else '',
            'Cohen_d': cohen_d
        })

# 결과 DataFrame
results_df = pd.DataFrame(results)

# 유의미한 결과만 출력 (p < 0.05)
sig_results = results_df[results_df['p값'] < 0.05].copy()
sig_results = sig_results.sort_values('p값')

print(f"\n총 검정 변수: {len(results_df)}개")
print(f"유의미한 변수 (p<0.05): {len(sig_results)}개")

print("\n[유의미한 차이가 있는 변수 TOP 20]")
for idx, row in sig_results.head(20).iterrows():
    print(f"\n{row['변수명']} ({row['지표군']})")
    print(f"  정상: {row['정상_평균']:.2f} ± {row['정상_표준편차']:.2f}")
    print(f"  폐업: {row['폐업_평균']:.2f} ± {row['폐업_표준편차']:.2f}")
    print(f"  차이: {row['차이']:.2f} | p={row['p값']:.4f} {row['유의성']} | Cohen's d={row['Cohen_d']:.3f}")

# ============================================================================
# 3. 지표군별 요약
# ============================================================================
print("\n" + "="*80)
print("3. 지표군별 유의미한 변수 요약")
print("="*80)

for category in categories.keys():
    cat_sig = sig_results[sig_results['지표군']==category]
    if len(cat_sig) > 0:
        print(f"\n[{category}] 유의미한 변수: {len(cat_sig)}개")
        print(f"  - p<0.001: {len(cat_sig[cat_sig['p값']<0.001])}개")
        print(f"  - p<0.01:  {len(cat_sig[cat_sig['p값']<0.01])}개")
        print(f"  - p<0.05:  {len(cat_sig[cat_sig['p값']<0.05])}개")

        # Effect size 큰 변수 Top 3 (절대값 기준)
        cat_sig_abs = cat_sig.copy()
        cat_sig_abs['Cohen_d_abs'] = cat_sig_abs['Cohen_d'].abs()
        top3 = cat_sig_abs.nlargest(3, 'Cohen_d_abs')
        if len(top3) > 0:
            print(f"  - Effect Size 큰 변수 (절대값):")
            for _, row in top3.iterrows():
                print(f"    * {row['변수명']}: d={row['Cohen_d']:.3f}")

# ============================================================================
# 4. 결과 저장
# ============================================================================
print("\n" + "="*80)
print("4. 결과 저장")
print("="*80)

# 전체 결과
output_all = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/가설1_T검정_전체결과.csv"
results_df.to_csv(output_all, index=False, encoding='utf-8-sig')
print(f"✓ 전체 T-test 결과 저장: {output_all}")

# 유의미한 결과만
output_sig = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/가설1_T검정_유의미한결과.csv"
sig_results.to_csv(output_sig, index=False, encoding='utf-8-sig')
print(f"✓ 유의미한 결과만 저장: {output_sig}")

print("\n" + "="*80)
print("가설1 지표군별 비교 분석 완료")
print("="*80)


1. 데이터 및 지표군 로드
데이터 형태: (86263, 189)
폐업률: 2.71%

지표군별 컬럼 수:
  운영지표: 23개
  고객지표: 16개
  경쟁밀집지표: 6개
  접근성지표: 8개
  경제환경지표: 119개

2. 지표군별 정상 vs 폐업 T-test

[운영지표]

[고객지표]

[경쟁밀집지표]

[접근성지표]

[경제환경지표]

총 검정 변수: 166개
유의미한 변수 (p<0.05): 121개

[유의미한 차이가 있는 변수 TOP 20]

CPI_품목_영화관람료 (경제환경지표)
  정상: 128.81 ± 0.00
  폐업: 128.81 ± 0.00
  차이: 0.00 | p=0.0000 *** | Cohen's d=0.002

여성 20대이하 고객 비중 (고객지표)
  정상: 10.68 ± 11.32
  폐업: 14.42 ± 12.36
  차이: 3.74 | p=0.0000 *** | Cohen's d=0.315

남성 60대이상 고객 비중 (고객지표)
  정상: 9.15 ± 12.04
  폐업: 6.04 ± 8.81
  차이: -3.11 | p=0.0000 *** | Cohen's d=-0.295

여성 30대 고객 비중 (고객지표)
  정상: 11.19 ± 8.72
  폐업: 13.39 ± 8.00
  차이: 2.21 | p=0.0000 *** | Cohen's d=0.264

배달매출금액 비율 (운영지표)
  정상: 9.17 ± 21.77
  폐업: 14.52 ± 26.96
  차이: 5.35 | p=0.0000 *** | Cohen's d=0.218

남성 50대 고객 비중 (고객지표)
  정상: 11.15 ± 10.32
  폐업: 8.78 ± 7.50
  차이: -2.37 | p=0.0000 *** | Cohen's d=-0.263

배달가능여부 (운영지표)
  정상: 0.29 ± 0.45
  폐업: 0.40 ± 0.49
  차이: 0.10 | p=0.0000 *** | Cohen's d=0.222

남성 20대이하 고객 비중 (고객

In [4]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
4_변수선택_및_중요도분석.py
- 구간형 변수 수치화 (피처 엔지니어링)
- Feature Importance 분석 (Random Forest)
- Lasso, Ridge 기반 변수 선택
- 최종 중요 변수 선정
"""

import pandas as pd
import numpy as np
import json
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LassoCV, RidgeCV, LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.inspection import permutation_importance
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 1. 데이터 로드 및 기본 전처리
# ============================================================================
print("="*80)
print("1. 데이터 로드 및 기본 전처리")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")
df['폐업여부'] = df['폐업일'].notna().astype(int)

print(f"데이터 형태: {df.shape}")
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")

# ============================================================================
# 2. 구간형 변수 수치화 (피처 엔지니어링)
# ============================================================================
print("\n" + "="*80)
print("2. 구간형 변수 수치화")
print("="*80)

# 구간형 변수 목록
interval_cols = [
    '가맹점 운영개월수 구간',
    '매출금액 구간',
    '매출건수 구간',
    '유니크 고객 수 구간',
    '객단가 구간',
    '취소율 구간'
]

# 매핑 규칙
grade_map = {
    '1_10%이하': 1,
    '2_10-25%': 2,
    '3_25-50%': 3,
    '4_50-75%': 4,
    '5_75-90%': 5,
    '6_90%초과(하위 10% 이하)': 6
}

print("\n구간형 변수 → 숫자형 변환:")
for col in interval_cols:
    if col in df.columns:
        new_col = col.replace(' 구간', '_등급')
        df[new_col] = df[col].map(grade_map)
        print(f"  ✓ {col} → {new_col}")
        print(f"    고유값: {df[new_col].nunique()}개, 결측: {df[new_col].isna().sum()}개")

# ============================================================================
# 3. 지표군 로드 및 변수 준비
# ============================================================================
print("\n" + "="*80)
print("3. 분석용 변수 준비")
print("="*80)

with open("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/2_지표군분류/지표군_분류.json", 'r', encoding='utf-8') as f:
    categories = json.load(f)

# 수치화된 변수 추가
categories['운영지표'].extend(['가맹점 운영개월수_등급', '매출금액_등급', '매출건수_등급', '객단가_등급', '취소율 구간_등급'])
categories['고객지표'].append('유니크 고객 수_등급')

# 모든 수치형 변수 수집
numeric_features = []
for cat, cols in categories.items():
    for col in cols:
        if col in df.columns and df[col].dtype in ['int64', 'float64']:
            numeric_features.append(col)

# 중복 제거
numeric_features = list(set(numeric_features))

print(f"수치형 변수 총 {len(numeric_features)}개")

# 결측치 처리: 중앙값으로 대체
X = df[numeric_features].copy()
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

y = df['폐업여부'].values

print(f"X shape: {X.shape}")
print(f"y 분포: 정상 {(y==0).sum()}, 폐업 {(y==1).sum()}")

# ============================================================================
# 4. Random Forest Feature Importance
# ============================================================================
print("\n" + "="*80)
print("4. Random Forest Feature Importance")
print("="*80)

# 클래스 불균형 처리
rf = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    random_state=42,
    class_weight='balanced',
    n_jobs=-1
)

rf.fit(X, y)

# Feature importance
rf_importance = pd.DataFrame({
    '변수명': X.columns,
    'RF_Importance': rf.feature_importances_
}).sort_values('RF_Importance', ascending=False)

print("\nRandom Forest Feature Importance TOP 30:")
for idx, row in rf_importance.head(30).iterrows():
    print(f"  {row['변수명']}: {row['RF_Importance']:.6f}")

# ============================================================================
# 5. Lasso (L1 Regularization)
# ============================================================================
print("\n" + "="*80)
print("5. Lasso Feature Selection")
print("="*80)

# 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Lasso with CV
lasso = LassoCV(cv=5, random_state=42, max_iter=10000)
lasso.fit(X_scaled, y)

# 0이 아닌 계수 선택
lasso_coefs = pd.DataFrame({
    '변수명': X.columns,
    'Lasso_Coef': np.abs(lasso.coef_)
}).sort_values('Lasso_Coef', ascending=False)

lasso_selected = lasso_coefs[lasso_coefs['Lasso_Coef'] > 0]

print(f"\nLasso 선택 변수: {len(lasso_selected)}개 (전체 {len(X.columns)}개)")
print(f"최적 alpha: {lasso.alpha_:.6f}")
print("\nLasso 계수 TOP 30:")
for idx, row in lasso_selected.head(30).iterrows():
    print(f"  {row['변수명']}: {row['Lasso_Coef']:.6f}")

# ============================================================================
# 6. Logistic Regression with L1 (더 엄격한 선택)
# ============================================================================
print("\n" + "="*80)
print("6. Logistic Regression (L1) Feature Selection")
print("="*80)

lr_l1 = LogisticRegression(
    penalty='l1',
    solver='saga',
    C=0.1,
    max_iter=1000,
    random_state=42,
    class_weight='balanced'
)

lr_l1.fit(X_scaled, y)

lr_coefs = pd.DataFrame({
    '변수명': X.columns,
    'LR_L1_Coef': np.abs(lr_l1.coef_[0])
}).sort_values('LR_L1_Coef', ascending=False)

lr_selected = lr_coefs[lr_coefs['LR_L1_Coef'] > 0]

print(f"\nLogistic Regression (L1) 선택 변수: {len(lr_selected)}개")
print("\nLR L1 계수 TOP 30:")
for idx, row in lr_selected.head(30).iterrows():
    print(f"  {row['변수명']}: {row['LR_L1_Coef']:.6f}")

# ============================================================================
# 7. 종합 변수 중요도
# ============================================================================
print("\n" + "="*80)
print("7. 종합 변수 중요도")
print("="*80)

# 3가지 방법 결합
importance_df = X.columns.to_frame(name='변수명').reset_index(drop=True)
importance_df = importance_df.merge(rf_importance, on='변수명', how='left')
importance_df = importance_df.merge(lasso_coefs, on='변수명', how='left')
importance_df = importance_df.merge(lr_coefs, on='변수명', how='left')

# 정규화 (0-1 스케일)
importance_df['RF_Norm'] = importance_df['RF_Importance'] / importance_df['RF_Importance'].max()
importance_df['Lasso_Norm'] = importance_df['Lasso_Coef'] / importance_df['Lasso_Coef'].max()
importance_df['LR_Norm'] = importance_df['LR_L1_Coef'] / importance_df['LR_L1_Coef'].max()

# 종합 점수 (평균)
importance_df['종합점수'] = (
    importance_df['RF_Norm'] * 0.4 +
    importance_df['Lasso_Norm'] * 0.3 +
    importance_df['LR_Norm'] * 0.3
)

importance_df = importance_df.sort_values('종합점수', ascending=False)

print("\n종합 변수 중요도 TOP 50:")
for idx, row in importance_df.head(50).iterrows():
    print(f"  {row['변수명']}: {row['종합점수']:.4f} "
          f"(RF:{row['RF_Norm']:.3f}, Lasso:{row['Lasso_Norm']:.3f}, LR:{row['LR_Norm']:.3f})")

# ============================================================================
# 8. 지표군별 중요 변수 추출
# ============================================================================
print("\n" + "="*80)
print("8. 지표군별 중요 변수")
print("="*80)

# 지표군 매핑
feature_category_map = {}
for cat, cols in categories.items():
    for col in cols:
        if col in importance_df['변수명'].values:
            feature_category_map[col] = cat

importance_df['지표군'] = importance_df['변수명'].map(feature_category_map)

for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    cat_df = importance_df[importance_df['지표군']==cat].head(10)
    if len(cat_df) > 0:
        print(f"\n[{cat}] TOP 10:")
        for idx, row in cat_df.iterrows():
            print(f"  {row['변수명']}: {row['종합점수']:.4f}")

# ============================================================================
# 9. 최종 추천 변수 선정
# ============================================================================
print("\n" + "="*80)
print("9. 최종 추천 변수 선정")
print("="*80)

# 기준 1: 종합점수 상위 30개
top30 = importance_df.head(30)['변수명'].tolist()

# 기준 2: 각 지표군에서 최소 2개씩
recommended = set()
for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    cat_vars = importance_df[importance_df['지표군']==cat].head(5)['변수명'].tolist()
    recommended.update(cat_vars)

# 통합
final_vars = list(set(top30) | recommended)

print(f"\n최종 추천 변수: {len(final_vars)}개")
print("\n지표군별 분포:")
for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    count = sum(1 for v in final_vars if feature_category_map.get(v) == cat)
    print(f"  {cat}: {count}개")

print("\n최종 추천 변수 목록:")
final_importance = importance_df[importance_df['변수명'].isin(final_vars)].copy()
for idx, row in final_importance.iterrows():
    print(f"  [{row['지표군']}] {row['변수명']}: {row['종합점수']:.4f}")

# ============================================================================
# 10. 결과 저장
# ============================================================================
print("\n" + "="*80)
print("10. 결과 저장")
print("="*80)

output_dir = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/4_변수선택"
import os
os.makedirs(output_dir, exist_ok=True)

# 전체 변수 중요도
importance_df.to_csv(f"{output_dir}/변수중요도_전체.csv", index=False, encoding='utf-8-sig')
print(f"✓ 전체 변수 중요도 저장")

# 최종 추천 변수
final_importance.to_csv(f"{output_dir}/변수중요도_최종추천.csv", index=False, encoding='utf-8-sig')
print(f"✓ 최종 추천 변수 저장")

# JSON 형식으로도 저장
final_vars_dict = {
    '총개수': len(final_vars),
    '변수목록': final_vars,
    '지표군별': {}
}

for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    cat_vars = [v for v in final_vars if feature_category_map.get(v) == cat]
    final_vars_dict['지표군별'][cat] = cat_vars

with open(f"{output_dir}/최종추천변수.json", 'w', encoding='utf-8') as f:
    json.dump(final_vars_dict, f, ensure_ascii=False, indent=2)
print(f"✓ JSON 형식 저장")

print("\n" + "="*80)
print("변수 선택 및 중요도 분석 완료")
print("="*80)


1. 데이터 로드 및 기본 전처리
데이터 형태: (86263, 189)
폐업률: 2.71%

2. 구간형 변수 수치화

구간형 변수 → 숫자형 변환:
  ✓ 가맹점 운영개월수 구간 → 가맹점 운영개월수_등급
    고유값: 6개, 결측: 0개
  ✓ 매출금액 구간 → 매출금액_등급
    고유값: 6개, 결측: 0개
  ✓ 매출건수 구간 → 매출건수_등급
    고유값: 6개, 결측: 0개
  ✓ 유니크 고객 수 구간 → 유니크 고객 수_등급
    고유값: 6개, 결측: 0개
  ✓ 객단가 구간 → 객단가_등급
    고유값: 6개, 결측: 0개
  ✓ 취소율 구간 → 취소율_등급
    고유값: 0개, 결측: 86263개

3. 분석용 변수 준비
수치형 변수 총 171개
X shape: (86263, 171)
y 분포: 정상 83929, 폐업 2334

4. Random Forest Feature Importance

Random Forest Feature Importance TOP 30:
  가맹점 운영개월수_등급: 0.054882
  1km내_버스정류장수: 0.035246
  500m내_평균버스승하차: 0.034984
  1km내_총버스승하차: 0.033454
  500m내_버스정류장수: 0.031440
  남성 50대 고객 비중: 0.031203
  여성 20대이하 고객 비중: 0.030611
  1km내_총지하철승하차: 0.029967
  여성 30대 고객 비중: 0.027953
  남성 30대 고객 비중: 0.027648
  남성 40대 고객 비중: 0.027431
  남성 60대이상 고객 비중: 0.027195
  동일 업종 내 매출 순위 비율: 0.027195
  동일 상권 내 매출 순위 비율: 0.022684
  여성 60대이상 고객 비중: 0.022152
  남성 20대이하 고객 비중: 0.021460
  여성 50대 고객 비중: 0.020185
  여성 40대 고객 비중: 0.019011
  동일 업종 매출건수 비율: 0.018386
  

In [5]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
5_고급변수선택_3단계.py
- Phase 1: Filter Methods (Variance, 상관관계, Mutual Information)
- Phase 2: 모델 기반 정밀화 (XGBoost 후진제거법, LASSO)
- Phase 3: Boruta 알고리즘 최종 선택
"""

import pandas as pd
import numpy as np
import json
from sklearn.feature_selection import VarianceThreshold, mutual_info_classif
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.linear_model import LassoCV
import xgboost as xgb
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 데이터 로드 및 전처리
# ============================================================================
print("="*80)
print("데이터 로드 및 기본 전처리")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")
df['폐업여부'] = df['폐업일'].notna().astype(int)

print(f"데이터 형태: {df.shape}")
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")
print(f"클래스 불균형 비율: 1:{(1-df['폐업여부'].mean())/df['폐업여부'].mean():.1f}")

# 지표군 로드
with open("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/2_지표군분류/지표군_분류.json", 'r', encoding='utf-8') as f:
    categories = json.load(f)

# 구간형 변수 수치화
grade_map = {
    '1_10%이하': 1,
    '2_10-25%': 2,
    '3_25-50%': 3,
    '4_50-75%': 4,
    '5_75-90%': 5,
    '6_90%초과(하위 10% 이하)': 6
}

interval_cols = [
    '가맹점 운영개월수 구간',
    '매출금액 구간',
    '매출건수 구간',
    '유니크 고객 수 구간',
    '객단가 구간'
]

for col in interval_cols:
    if col in df.columns:
        new_col = col.replace(' 구간', '_등급')
        df[new_col] = df[col].map(grade_map)

# 수치형 변수 추출
categories['운영지표'].extend(['가맹점 운영개월수_등급', '매출금액_등급', '매출건수_등급', '객단가_등급'])
categories['고객지표'].append('유니크 고객 수_등급')

numeric_features = []
for cat, cols in categories.items():
    for col in cols:
        if col in df.columns and df[col].dtype in ['int64', 'float64']:
            numeric_features.append(col)

numeric_features = list(set(numeric_features))

# 결측치 처리
X = df[numeric_features].copy()
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

y = df['폐업여부'].values

print(f"\n초기 변수 개수: {X.shape[1]}개")
print(f"샘플 수: {X.shape[0]}개")
print(f"정상: {(y==0).sum()}개, 폐업: {(y==1).sum()}개")

# ============================================================================
# Phase 1: Filter Methods (기초 필터링)
# ============================================================================
print("\n" + "="*80)
print("Phase 1: Filter Methods (기초 필터링)")
print("="*80)

# 1.1 분산 기반 필터링
print("\n[1.1] Variance Threshold 필터링")
variance_selector = VarianceThreshold(threshold=0.01)
X_var = variance_selector.fit_transform(X)
var_features = X.columns[variance_selector.get_support()].tolist()

print(f"분산 < 0.01 변수 제거: {X.shape[1]}개 → {len(var_features)}개 (제거: {X.shape[1] - len(var_features)}개)")

# 1.2 상관관계 분석
print("\n[1.2] 상관관계 기반 중복 변수 제거")
X_corr = X[var_features].copy()
corr_matrix = X_corr.corr().abs()

# 상삼각 행렬에서 높은 상관관계 찾기
upper_tri = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
to_drop = [column for column in upper_tri.columns if any(upper_tri[column] > 0.9)]

corr_features = [f for f in var_features if f not in to_drop]
print(f"상관관계 > 0.9 변수 제거: {len(var_features)}개 → {len(corr_features)}개 (제거: {len(to_drop)}개)")
if len(to_drop) > 0:
    print(f"제거된 변수: {to_drop[:10]}{'...' if len(to_drop) > 10 else ''}")

# 1.3 Mutual Information
print("\n[1.3] Mutual Information 기반 선택")
X_mi = X[corr_features].copy()
mi_scores = mutual_info_classif(X_mi, y, random_state=42)
mi_df = pd.DataFrame({
    '변수명': corr_features,
    'MI_Score': mi_scores
}).sort_values('MI_Score', ascending=False)

# 상위 100개 선택 (또는 MI > 0.001)
threshold_mi = max(0.001, mi_df['MI_Score'].quantile(0.4))  # 상위 60%
mi_features = mi_df[mi_df['MI_Score'] > threshold_mi]['변수명'].tolist()

print(f"MI Score > {threshold_mi:.4f} 선택: {len(corr_features)}개 → {len(mi_features)}개")
print(f"\nMutual Information TOP 20:")
for idx, row in mi_df.head(20).iterrows():
    print(f"  {row['변수명']}: {row['MI_Score']:.6f}")

phase1_features = mi_features
print(f"\n✅ Phase 1 완료: {X.shape[1]}개 → {len(phase1_features)}개")

# ============================================================================
# Phase 2: 모델 기반 정밀화 (XGBoost + LASSO)
# ============================================================================
print("\n" + "="*80)
print("Phase 2: 모델 기반 정밀화")
print("="*80)

# 2.1 XGBoost 기반 Feature Importance
print("\n[2.1] XGBoost Feature Importance")
X_phase2 = X[phase1_features].copy()

# 불균형 데이터 대응
scale_pos_weight = (y == 0).sum() / (y == 1).sum()

xgb_model = xgb.XGBClassifier(
    n_estimators=100,
    max_depth=5,
    learning_rate=0.05,
    scale_pos_weight=scale_pos_weight,
    random_state=42,
    eval_metric='logloss'
)

xgb_model.fit(X_phase2, y)

xgb_importance = pd.DataFrame({
    '변수명': phase1_features,
    'XGB_Importance': xgb_model.feature_importances_
}).sort_values('XGB_Importance', ascending=False)

print("XGBoost Feature Importance TOP 20:")
for idx, row in xgb_importance.head(20).iterrows():
    print(f"  {row['변수명']}: {row['XGB_Importance']:.6f}")

# 2.2 후진제거법 (Backward Elimination)
print("\n[2.2] 후진제거법 with Cross-Validation")

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
current_features = phase1_features.copy()
best_score = 0

# 초기 성능
initial_scores = cross_val_score(xgb_model, X[current_features], y, cv=cv, scoring='roc_auc')
best_score = initial_scores.mean()
print(f"초기 AUC: {best_score:.4f} ± {initial_scores.std():.4f}")

# 후진제거 반복
removed_count = 0
max_remove = max(1, len(current_features) - 60)  # 최소 60개는 유지

print(f"\n후진제거 시작 (목표: ~60개 변수)")
for i in range(max_remove):
    worst_feature = None
    worst_score = best_score

    # 중요도 낮은 변수부터 시도
    candidates = xgb_importance[xgb_importance['변수명'].isin(current_features)].tail(20)['변수명'].tolist()

    for feature in candidates[:5]:  # 상위 5개만 시도 (시간 단축)
        test_features = [f for f in current_features if f != feature]

        try:
            scores = cross_val_score(
                xgb_model,
                X[test_features],
                y,
                cv=cv,
                scoring='roc_auc',
                n_jobs=-1
            )
            score = scores.mean()

            # 성능이 유지되거나 향상되면 제거 가능
            if score >= worst_score - 0.001:  # 0.001 허용치
                worst_score = score
                worst_feature = feature
        except:
            continue

    if worst_feature:
        current_features.remove(worst_feature)
        best_score = worst_score
        removed_count += 1

        if removed_count % 5 == 0:
            print(f"  반복 {removed_count}: 변수 {len(current_features)}개, AUC {best_score:.4f}")
    else:
        break

backward_features = current_features
print(f"\n후진제거 완료: {len(phase1_features)}개 → {len(backward_features)}개 (제거: {len(phase1_features) - len(backward_features)}개)")
print(f"최종 AUC: {best_score:.4f}")

# 2.3 LASSO 정규화
print("\n[2.3] LASSO L1 Regularization")
X_scaled = StandardScaler().fit_transform(X[backward_features])

lasso = LassoCV(cv=5, random_state=42, max_iter=10000, n_jobs=-1)
lasso.fit(X_scaled, y)

lasso_coefs = pd.DataFrame({
    '변수명': backward_features,
    'Lasso_Coef': np.abs(lasso.coef_)
}).sort_values('Lasso_Coef', ascending=False)

lasso_selected = lasso_coefs[lasso_coefs['Lasso_Coef'] > 0]['변수명'].tolist()

print(f"LASSO 선택: {len(backward_features)}개 → {len(lasso_selected)}개")
print(f"최적 alpha: {lasso.alpha_:.6f}")
print(f"\nLASSO 계수 TOP 20:")
for idx, row in lasso_coefs[lasso_coefs['Lasso_Coef'] > 0].head(20).iterrows():
    print(f"  {row['변수명']}: {row['Lasso_Coef']:.6f}")

# Phase 2 최종: XGBoost + LASSO 교집합
phase2_features = list(set(backward_features) & set(lasso_selected))
print(f"\n✅ Phase 2 완료: {len(phase1_features)}개 → {len(phase2_features)}개")

# ============================================================================
# Phase 3: Boruta 알고리즘
# ============================================================================
print("\n" + "="*80)
print("Phase 3: Boruta 알고리즘")
print("="*80)

try:
    from boruta import BorutaPy

    print("Boruta 알고리즘 실행 중...")
    X_boruta = X[phase2_features].values

    rf_boruta = xgb.XGBClassifier(
        n_estimators=100,
        max_depth=5,
        scale_pos_weight=scale_pos_weight,
        random_state=42,
        eval_metric='logloss'
    )

    boruta_selector = BorutaPy(
        rf_boruta,
        n_estimators='auto',
        max_iter=100,
        random_state=42,
        verbose=0
    )

    boruta_selector.fit(X_boruta, y)

    boruta_features = [phase2_features[i] for i in range(len(phase2_features)) if boruta_selector.support_[i]]
    tentative_features = [phase2_features[i] for i in range(len(phase2_features)) if boruta_selector.support_weak_[i]]

    print(f"\nBoruta 선택:")
    print(f"  확정 변수: {len(boruta_features)}개")
    print(f"  잠정 변수: {len(tentative_features)}개")
    print(f"  제거 변수: {len(phase2_features) - len(boruta_features) - len(tentative_features)}개")

    # 확정 + 잠정 변수 포함
    final_features = boruta_features + tentative_features

    print(f"\n✅ Phase 3 완료: {len(phase2_features)}개 → {len(final_features)}개")

except ImportError:
    print("⚠️  Boruta 패키지가 설치되지 않았습니다. Phase 2 결과를 최종으로 사용합니다.")
    print("   설치: pip install Boruta")
    final_features = phase2_features[:35]  # 상위 35개만 사용
    print(f"\n✅ Phase 3 대체: {len(phase2_features)}개 → {len(final_features)}개 (상위 35개 선택)")

# ============================================================================
# 최종 결과 정리
# ============================================================================
print("\n" + "="*80)
print("최종 변수 선택 결과")
print("="*80)

# 지표군 매핑
feature_category_map = {}
for cat, cols in categories.items():
    for col in cols:
        if col in final_features:
            feature_category_map[col] = cat

# 지표군별 분포
print("\n지표군별 변수 분포:")
for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    count = sum(1 for v in final_features if feature_category_map.get(v) == cat)
    print(f"  {cat}: {count}개")

print(f"\n총 변수 개수: {len(final_features)}개")
print(f"축소율: {(1 - len(final_features)/X.shape[1])*100:.1f}%")

# 단계별 요약
summary_df = pd.DataFrame({
    '단계': ['초기', 'Phase 1', 'Phase 2', 'Phase 3'],
    '변수개수': [X.shape[1], len(phase1_features), len(phase2_features), len(final_features)],
    '설명': [
        '전체 수치형 변수',
        'Filter Methods (Variance + 상관관계 + MI)',
        'XGBoost 후진제거 + LASSO',
        'Boruta 최종 선택'
    ]
})

print("\n단계별 변수 축소 과정:")
print(summary_df.to_string(index=False))

# ============================================================================
# 결과 저장
# ============================================================================
print("\n" + "="*80)
print("결과 저장")
print("="*80)

output_dir = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/5_고급변수선택"
import os
os.makedirs(output_dir, exist_ok=True)

# Phase별 변수 목록
phase_results = {
    'Phase1_Filter': phase1_features,
    'Phase2_ModelBased': phase2_features,
    'Phase3_Boruta': final_features
}

with open(f"{output_dir}/phase별_변수목록.json", 'w', encoding='utf-8') as f:
    json.dump(phase_results, f, ensure_ascii=False, indent=2)
print("✓ Phase별 변수 목록 저장")

# 최종 선택 변수 상세
final_df = pd.DataFrame({
    '변수명': final_features,
    '지표군': [feature_category_map.get(f, 'Unknown') for f in final_features]
})

# XGBoost, Lasso 점수 병합
final_df = final_df.merge(
    xgb_importance[['변수명', 'XGB_Importance']],
    on='변수명',
    how='left'
)
final_df = final_df.merge(
    lasso_coefs[['변수명', 'Lasso_Coef']],
    on='변수명',
    how='left'
)
final_df = final_df.merge(
    mi_df[['변수명', 'MI_Score']],
    on='변수명',
    how='left'
)

final_df = final_df.sort_values('XGB_Importance', ascending=False)
final_df.to_csv(f"{output_dir}/최종선택변수_상세.csv", index=False, encoding='utf-8-sig')
print("✓ 최종 선택 변수 상세 저장")

# 단계별 요약
summary_df.to_csv(f"{output_dir}/단계별_요약.csv", index=False, encoding='utf-8-sig')
print("✓ 단계별 요약 저장")

# 지표군별 분류
final_vars_by_category = {}
for cat in ['운영지표', '고객지표', '경쟁밀집지표', '접근성지표', '경제환경지표']:
    cat_vars = [v for v in final_features if feature_category_map.get(v) == cat]
    final_vars_by_category[cat] = cat_vars

with open(f"{output_dir}/지표군별_최종변수.json", 'w', encoding='utf-8') as f:
    json.dump(final_vars_by_category, f, ensure_ascii=False, indent=2)
print("✓ 지표군별 최종 변수 저장")

print("\n" + "="*80)
print("고급 변수 선택 완료")
print("="*80)
print(f"\n최종 선택 변수: {len(final_features)}개")
print(f"저장 위치: {output_dir}")


데이터 로드 및 기본 전처리
데이터 형태: (86263, 189)
폐업률: 2.71%
클래스 불균형 비율: 1:36.0

초기 변수 개수: 171개
샘플 수: 86263개
정상: 83929개, 폐업: 2334개

Phase 1: Filter Methods (기초 필터링)

[1.1] Variance Threshold 필터링
분산 < 0.01 변수 제거: 171개 → 166개 (제거: 5개)

[1.2] 상관관계 기반 중복 변수 제거
상관관계 > 0.9 변수 제거: 166개 → 84개 (제거: 82개)
제거된 변수: ['CPI_목적_기타상품및서비스_미용용품및미용서비스', 'CPI_목적_통신_소계', 'CPI_품목_목욕료', '금요일_매출_금액', 'CPI_목적_통신_전화및팩스장비', '식품 이외', 'CPI_품목_삼겹살(외식)', 'CPI_품목_맥주', 'CPI_목적_음식및숙박_소계', 'CPI_목적_식료품및비주류음료_소계']...

[1.3] Mutual Information 기반 선택
MI Score > 0.0013 선택: 84개 → 50개

Mutual Information TOP 20:
  1km내_총버스승하차: 0.071966
  500m내_평균버스승하차: 0.062736
  500m내_버스정류장수: 0.019737
  CPI_품목_상수도료: 0.018498
  1km내_총지하철승하차: 0.013942
  CPI_품목_도시철도료: 0.011643
  CPI_목적_가정용품및가사서비스_가정용섬유제품: 0.009107
  가맹점 운영개월수_등급: 0.007223
  CPI_품목_도시가스: 0.006519
  여성 30대 고객 비중: 0.006367
  남성 20대이하 고객 비중: 0.006193
  1km내_지하철역수: 0.006175
  CPI_목적_교육_유치원및초등교육: 0.006100
  500m내_지하철역수: 0.006038
  여성 20대이하 고객 비중: 0.006010
  남성 50대 고객 비중: 0.005948
  의료비_지출_총금액: 0.005

In [6]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
6_피처엔지니어링_및_RFECV.py
- 도메인 지식 기반 피처 엔지니어링 (15개 신규 변수)
- RFECV (Recursive Feature Elimination with CV)로 최적 변수 선택
- SHAP 분석으로 해석 및 검증
"""

import pandas as pd
import numpy as np
import json
import xgboost as xgb
from sklearn.feature_selection import RFECV
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 1. 데이터 로드 및 전처리
# ============================================================================
print("="*80)
print("1. 데이터 로드 및 기본 전처리")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")
df['폐업여부'] = df['폐업일'].notna().astype(int)

print(f"데이터 형태: {df.shape}")
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")

# 구간형 변수 수치화
grade_map = {
    '1_10%이하': 1,
    '2_10-25%': 2,
    '3_25-50%': 3,
    '4_50-75%': 4,
    '5_75-90%': 5,
    '6_90%초과(하위 10% 이하)': 6
}

interval_cols = [
    '가맹점 운영개월수 구간',
    '매출금액 구간',
    '매출건수 구간',
    '유니크 고객 수 구간',
    '객단가 구간'
]

for col in interval_cols:
    if col in df.columns:
        new_col = col.replace(' 구간', '_등급')
        df[new_col] = df[col].map(grade_map)

# ============================================================================
# 2. 기존 25개 변수 로드
# ============================================================================
print("\n" + "="*80)
print("2. 기존 선택된 25개 변수 로드")
print("="*80)

with open("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/5_고급변수선택/지표군별_최종변수.json", 'r', encoding='utf-8') as f:
    selected_vars = json.load(f)

base_features = []
for cat, vars_list in selected_vars.items():
    base_features.extend(vars_list)

print(f"기존 변수 개수: {len(base_features)}개")
print(f"변수 목록: {base_features[:10]}...")

# ============================================================================
# 3. 도메인 지식 기반 피처 엔지니어링
# ============================================================================
print("\n" + "="*80)
print("3. 피처 엔지니어링 (가설1 인사이트 기반)")
print("="*80)

# 3.1 고객층 복합 지표 (가설1: 고객층 차이)
print("\n[3.1] 고객층 복합 지표")

# 고위험 고객층 (젊은 여성)
if '여성 20대이하 고객 비중' in df.columns and '여성 30대 고객 비중' in df.columns:
    df['고위험_고객층_비중'] = (
        df['여성 20대이하 고객 비중'] +
        df['여성 30대 고객 비중']
    )
    print("  ✓ 고위험_고객층_비중 (여성 20-30대)")

# 안정 고객층 (중장년 남성)
cols_stable = ['남성 40대 고객 비중', '남성 50대 고객 비중', '남성 60대이상 고객 비중']
if all(col in df.columns for col in cols_stable):
    df['안정_고객층_비중'] = (
        df['남성 40대 고객 비중'] +
        df['남성 50대 고객 비중'] +
        df['남성 60대이상 고객 비중']
    )
    print("  ✓ 안정_고객층_비중 (남성 40-60대)")

# 고객층 위험도 (비율)
if '고위험_고객층_비중' in df.columns and '안정_고객층_비중' in df.columns:
    df['고객층_위험도'] = df['고위험_고객층_비중'] / (df['안정_고객층_비중'] + 1)
    print("  ✓ 고객층_위험도 (고위험/안정 비율)")

# 3.2 배달 관련 상호작용 (가설1: 배달 의존도 역설)
print("\n[3.2] 배달 관련 상호작용")

if '배달가능여부' in df.columns and '여성 20대이하 고객 비중' in df.columns:
    df['배달_x_젊은여성비중'] = df['배달가능여부'] * df['여성 20대이하 고객 비중']
    print("  ✓ 배달_x_젊은여성비중")

if '배달가능여부' in df.columns and '당월_매출_건수' in df.columns:
    df['배달_x_매출건수'] = df['배달가능여부'] * df['당월_매출_건수']
    print("  ✓ 배달_x_매출건수")

# 3.3 접근성 종합 지표 (가설1: 접근성 역설)
print("\n[3.3] 접근성 종합 지표")

cols_access = ['500m내_버스정류장수', '500m내_지하철역수', '500m내_평균버스승하차']
if all(col in df.columns for col in cols_access):
    df['교통_접근성_종합'] = (
        (df['500m내_버스정류장수'] + df['500m내_지하철역수']) *
        df['500m내_평균버스승하차']
    )
    print("  ✓ 교통_접근성_종합")

# 접근성 대비 매출 효율
if '교통_접근성_종합' in df.columns and '당월_매출_건수' in df.columns:
    df['접근성_대비_매출'] = df['당월_매출_건수'] / (df['교통_접근성_종합'] + 1)
    print("  ✓ 접근성_대비_매출")

# 3.4 경쟁력/수익성 지표
print("\n[3.4] 경쟁력/수익성 지표")

# 임대료 부담률
if '임대료(천원/㎡)_소계' in df.columns and '월_평균_소득_금액' in df.columns:
    df['임대료_부담률'] = df['임대료(천원/㎡)_소계'] / (df['월_평균_소득_금액'] + 1)
    print("  ✓ 임대료_부담률")

# 소득 대비 매출
if '월_평균_소득_금액' in df.columns and '당월_매출_건수' in df.columns:
    df['소득_대비_매출'] = df['당월_매출_건수'] / (df['월_평균_소득_금액'] + 1)
    print("  ✓ 소득_대비_매출")

# 3.5 시간대 패턴
print("\n[3.5] 시간대 패턴")

# 주간 vs 야간 비율
if '시간대_14~17_매출_금액' in df.columns and '시간대_00~06_매출_금액' in df.columns:
    df['주간_야간_비율'] = df['시간대_14~17_매출_금액'] / (df['시간대_00~06_매출_금액'] + 1)
    print("  ✓ 주간_야간_비율")

# 피크타임 집중도
if '시간대_14~17_매출_금액' in df.columns and '당월_매출_건수' in df.columns:
    df['피크타임_집중도'] = df['시간대_14~17_매출_금액'] / (df['당월_매출_건수'] + 1)
    print("  ✓ 피크타임_집중도")

# 3.6 운영 효율성
print("\n[3.6] 운영 효율성")

# 매출/운영기간 효율
if '당월_매출_건수' in df.columns and '가맹점 운영개월수_등급' in df.columns:
    df['매출_운영기간_효율'] = df['당월_매출_건수'] / (df['가맹점 운영개월수_등급'] + 1)
    print("  ✓ 매출_운영기간_효율")

# 매출건수와 등급의 균형
if '매출건수_등급' in df.columns and '당월_매출_건수' in df.columns:
    df['매출건수_등급_일치도'] = df['매출건수_등급'] * df['당월_매출_건수']
    print("  ✓ 매출건수_등급_일치도")

# 3.7 경쟁 지표
print("\n[3.7] 경쟁 지표")

# 상권 경쟁 압력
if '동일 상권 내 매출 순위 비율' in df.columns and '교통_접근성_종합' in df.columns:
    df['상권_경쟁_압력'] = df['동일 상권 내 매출 순위 비율'] * df['교통_접근성_종합']
    print("  ✓ 상권_경쟁_압력")

# 순위 대비 접근성
if '동일 상권 내 매출 순위 비율' in df.columns and '500m내_평균지하철승하차' in df.columns:
    df['순위_대비_접근성'] = df['동일 상권 내 매출 순위 비율'] / (df['500m내_평균지하철승하차'] + 1)
    print("  ✓ 순위_대비_접근성")

# 신규 변수 목록 정리
new_features = [
    '고위험_고객층_비중', '안정_고객층_비중', '고객층_위험도',
    '배달_x_젊은여성비중', '배달_x_매출건수',
    '교통_접근성_종합', '접근성_대비_매출',
    '임대료_부담률', '소득_대비_매출',
    '주간_야간_비율', '피크타임_집중도',
    '매출_운영기간_효율', '매출건수_등급_일치도',
    '상권_경쟁_압력', '순위_대비_접근성'
]

# 실제 생성된 변수만 필터링
new_features = [f for f in new_features if f in df.columns]
print(f"\n신규 변수 생성 완료: {len(new_features)}개")

# ============================================================================
# 4. 전체 변수 준비 (기존 25개 + 신규 15개)
# ============================================================================
print("\n" + "="*80)
print("4. 전체 변수 준비")
print("="*80)

all_features = base_features + new_features
print(f"기존 변수: {len(base_features)}개")
print(f"신규 변수: {len(new_features)}개")
print(f"전체 변수: {len(all_features)}개")

# 데이터 준비
X = df[all_features].copy()

# 결측치 처리
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

# 무한대 처리
X = X.replace([np.inf, -np.inf], np.nan)
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

y = df['폐업여부'].values

print(f"\nX shape: {X.shape}")
print(f"y 분포: 정상 {(y==0).sum()}, 폐업 {(y==1).sum()}")

# ============================================================================
# 5. RFECV (Recursive Feature Elimination with CV)
# ============================================================================
print("\n" + "="*80)
print("5. RFECV - 최적 변수 개수 자동 선택")
print("="*80)

# 클래스 불균형 대응
scale_pos_weight = (y == 0).sum() / (y == 1).sum()

# XGBoost 모델
estimator = xgb.XGBClassifier(
    n_estimators=100,
    max_depth=5,
    learning_rate=0.05,
    scale_pos_weight=scale_pos_weight,
    random_state=42,
    eval_metric='logloss',
    n_jobs=-1
)

# RFECV 설정
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

print("RFECV 실행 중 (시간 소요: 약 5-10분)...")
print("  - 5-Fold Cross-Validation")
print("  - ROC-AUC 기준")
print("  - Step: 1개씩 제거")

rfecv = RFECV(
    estimator=estimator,
    step=1,
    cv=cv,
    scoring='roc_auc',
    n_jobs=-1,
    verbose=0
)

rfecv.fit(X, y)

# 결과 정리
selected_features = X.columns[rfecv.support_].tolist()
eliminated_features = X.columns[~rfecv.support_].tolist()

print(f"\n✅ RFECV 완료")
print(f"최적 변수 개수: {rfecv.n_features_}")
print(f"제거된 변수 개수: {len(eliminated_features)}")
print(f"최고 CV 점수: {rfecv.cv_results_['mean_test_score'].max():.4f}")

# CV 점수 변화
cv_scores = rfecv.cv_results_['mean_test_score']
print(f"\n변수 개수별 CV 점수:")
for i, score in enumerate(cv_scores):
    n_features = len(all_features) - i
    marker = " ⭐" if n_features == rfecv.n_features_ else ""
    print(f"  {n_features}개: {score:.4f}{marker}")

# 제거된 변수 출력
print(f"\n제거된 변수 ({len(eliminated_features)}개):")
for feat in eliminated_features:
    feat_type = "신규" if feat in new_features else "기존"
    print(f"  - [{feat_type}] {feat}")

# ============================================================================
# 6. SHAP 분석
# ============================================================================
print("\n" + "="*80)
print("6. SHAP 분석 (변수 해석)")
print("="*80)

try:
    import shap

    # 선택된 변수로 모델 재학습
    X_selected = X[selected_features]
    final_model = xgb.XGBClassifier(
        n_estimators=100,
        max_depth=5,
        learning_rate=0.05,
        scale_pos_weight=scale_pos_weight,
        random_state=42,
        eval_metric='logloss'
    )
    final_model.fit(X_selected, y)

    # SHAP 계산 (샘플링으로 속도 향상)
    print("SHAP values 계산 중...")
    sample_size = min(1000, len(X_selected))
    X_sample = X_selected.sample(n=sample_size, random_state=42)

    explainer = shap.TreeExplainer(final_model)
    shap_values = explainer.shap_values(X_sample)

    # SHAP 중요도
    shap_importance = pd.DataFrame({
        '변수명': selected_features,
        'SHAP_Importance': np.abs(shap_values).mean(axis=0)
    }).sort_values('SHAP_Importance', ascending=False)

    print("\nSHAP 기반 변수 중요도 TOP 20:")
    for idx, row in shap_importance.head(20).iterrows():
        feat_type = "신규" if row['변수명'] in new_features else "기존"
        print(f"  [{feat_type}] {row['변수명']}: {row['SHAP_Importance']:.6f}")

    shap_available = True

except ImportError:
    print("⚠️  SHAP 패키지가 설치되지 않았습니다.")
    print("   설치: pip install shap")
    shap_available = False
    shap_importance = None

# ============================================================================
# 7. 최종 변수 분석
# ============================================================================
print("\n" + "="*80)
print("7. 최종 선택 변수 분석")
print("="*80)

# 기존 vs 신규 분류
selected_base = [f for f in selected_features if f in base_features]
selected_new = [f for f in selected_features if f in new_features]

print(f"\n변수 유형별 분포:")
print(f"  기존 변수: {len(selected_base)}개 (25개 중 {len(selected_base)/25*100:.1f}% 유지)")
print(f"  신규 변수: {len(selected_new)}개 ({len(new_features)}개 중 {len(selected_new)/len(new_features)*100:.1f}% 선택)")

# 지표군별 분류 (기존 변수)
print(f"\n기존 변수의 지표군별 분포:")
for cat, vars_list in selected_vars.items():
    count = sum(1 for v in vars_list if v in selected_base)
    print(f"  {cat}: {count}개")

# 신규 변수 목록
print(f"\n선택된 신규 변수 ({len(selected_new)}개):")
for feat in selected_new:
    print(f"  ✓ {feat}")

# Feature Importance (XGBoost)
feature_importance_df = pd.DataFrame({
    '변수명': selected_features,
    'XGB_Importance': final_model.feature_importances_
}).sort_values('XGB_Importance', ascending=False)

print(f"\nXGBoost Feature Importance TOP 20:")
for idx, row in feature_importance_df.head(20).iterrows():
    feat_type = "신규" if row['변수명'] in new_features else "기존"
    print(f"  [{feat_type}] {row['변수명']}: {row['XGB_Importance']:.6f}")

# ============================================================================
# 8. 결과 저장
# ============================================================================
print("\n" + "="*80)
print("8. 결과 저장")
print("="*80)

output_dir = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/6_피처엔지니어링"
import os
os.makedirs(output_dir, exist_ok=True)

# 1. 최종 선택 변수 목록
final_result = {
    '총개수': len(selected_features),
    '기존_변수': {
        '개수': len(selected_base),
        '목록': selected_base
    },
    '신규_변수': {
        '개수': len(selected_new),
        '목록': selected_new
    },
    '제거_변수': {
        '개수': len(eliminated_features),
        '목록': eliminated_features
    },
    'RFECV_최고점수': float(rfecv.cv_results_['mean_test_score'].max())
}

with open(f"{output_dir}/최종선택변수.json", 'w', encoding='utf-8') as f:
    json.dump(final_result, f, ensure_ascii=False, indent=2)
print("✓ 최종 선택 변수 JSON 저장")

# 2. 상세 변수 정보
detail_df = feature_importance_df.copy()
detail_df['변수유형'] = detail_df['변수명'].apply(
    lambda x: '신규' if x in new_features else '기존'
)

if shap_available:
    detail_df = detail_df.merge(shap_importance, on='변수명', how='left')

detail_df.to_csv(f"{output_dir}/변수중요도_상세.csv", index=False, encoding='utf-8-sig')
print("✓ 변수 중요도 상세 CSV 저장")

# 3. RFECV 결과
rfecv_df = pd.DataFrame({
    '변수개수': [len(all_features) - i for i in range(len(cv_scores))],
    'CV_점수': cv_scores,
    '최적여부': [len(all_features) - i == rfecv.n_features_ for i in range(len(cv_scores))]
})
rfecv_df.to_csv(f"{output_dir}/RFECV_결과.csv", index=False, encoding='utf-8-sig')
print("✓ RFECV 결과 CSV 저장")

# 4. 신규 변수 정의서
new_features_def = []
for feat in new_features:
    if feat in df.columns:
        new_features_def.append({
            '변수명': feat,
            '선택여부': 'O' if feat in selected_new else 'X',
            '평균': float(df[feat].mean()),
            '표준편차': float(df[feat].std()),
            '최솟값': float(df[feat].min()),
            '최댓값': float(df[feat].max())
        })

new_features_df = pd.DataFrame(new_features_def)
new_features_df.to_csv(f"{output_dir}/신규변수_정의서.csv", index=False, encoding='utf-8-sig')
print("✓ 신규 변수 정의서 CSV 저장")

# 5. 요약 통계
summary = {
    '초기_변수개수': int(len(all_features)),
    '최종_변수개수': int(rfecv.n_features_),
    '축소율': f"{(1 - rfecv.n_features_/len(all_features))*100:.1f}%",
    '기존_유지율': f"{len(selected_base)/len(base_features)*100:.1f}%",
    '신규_선택율': f"{len(selected_new)/len(new_features)*100:.1f}%",
    '최고_CV_AUC': float(rfecv.cv_results_['mean_test_score'].max())
}

with open(f"{output_dir}/요약통계.json", 'w', encoding='utf-8') as f:
    json.dump(summary, f, ensure_ascii=False, indent=2)
print("✓ 요약 통계 JSON 저장")

print("\n" + "="*80)
print("피처 엔지니어링 및 RFECV 분석 완료")
print("="*80)
print(f"\n최종 선택 변수: {rfecv.n_features_}개")
print(f"  - 기존 변수: {len(selected_base)}개")
print(f"  - 신규 변수: {len(selected_new)}개")
print(f"\n최고 CV AUC: {rfecv.cv_results_['mean_test_score'].max():.4f}")
print(f"\n저장 위치: {output_dir}")


1. 데이터 로드 및 기본 전처리
데이터 형태: (86263, 189)
폐업률: 2.71%

2. 기존 선택된 25개 변수 로드
기존 변수 개수: 21개
변수 목록: ['매출건수_등급', '시간대_06~11_매출_금액', '가맹점 운영개월수_등급', '배달가능여부', '배달매출금액 비율', '여성 20대이하 고객 비중', '신규 고객 비중', '남성 60대이상 고객 비중', '여성 30대 고객 비중', '남성 50대 고객 비중']...

3. 피처 엔지니어링 (가설1 인사이트 기반)

[3.1] 고객층 복합 지표
  ✓ 고위험_고객층_비중 (여성 20-30대)
  ✓ 안정_고객층_비중 (남성 40-60대)
  ✓ 고객층_위험도 (고위험/안정 비율)

[3.2] 배달 관련 상호작용
  ✓ 배달_x_젊은여성비중
  ✓ 배달_x_매출건수

[3.3] 접근성 종합 지표
  ✓ 교통_접근성_종합
  ✓ 접근성_대비_매출

[3.4] 경쟁력/수익성 지표
  ✓ 임대료_부담률
  ✓ 소득_대비_매출

[3.5] 시간대 패턴
  ✓ 주간_야간_비율
  ✓ 피크타임_집중도

[3.6] 운영 효율성
  ✓ 매출_운영기간_효율
  ✓ 매출건수_등급_일치도

[3.7] 경쟁 지표
  ✓ 상권_경쟁_압력
  ✓ 순위_대비_접근성

신규 변수 생성 완료: 15개

4. 전체 변수 준비
기존 변수: 21개
신규 변수: 15개
전체 변수: 36개

X shape: (86263, 36)
y 분포: 정상 83929, 폐업 2334

5. RFECV - 최적 변수 개수 자동 선택
RFECV 실행 중 (시간 소요: 약 5-10분)...
  - 5-Fold Cross-Validation
  - ROC-AUC 기준
  - Step: 1개씩 제거

✅ RFECV 완료
최적 변수 개수: 35
제거된 변수 개수: 1
최고 CV 점수: 0.9678

변수 개수별 CV 점수:
  36개: 0.8371
  35개: 0.8840 ⭐
  34개: 0.9050
  33개: 0.9233
  32개: 0.9221
  

In [7]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
7_예측모델_XGBoost_SHAP.py
- XGBoost 폐업 예측 모델 구축
- SHAP 분석으로 변수 해석 및 비즈니스 인사이트 도출
- 성동땡겨요 정책 제안
"""

import pandas as pd
import numpy as np
import json
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.metrics import (
    roc_auc_score, roc_curve, confusion_matrix, classification_report,
    precision_recall_curve, average_precision_score
)
import shap
import warnings
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['axes.unicode_minus'] = False

# ============================================================================
# 1. 데이터 로드 및 전처리
# ============================================================================
print("="*80)
print("1. 데이터 로드 및 피처 엔지니어링")
print("="*80)

df = pd.read_csv("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1009/빅콘테스트_전체병합데이터_20251008.csv")
df['폐업여부'] = df['폐업일'].notna().astype(int)

print(f"데이터 형태: {df.shape}")
print(f"폐업률: {df['폐업여부'].mean()*100:.2f}%")

# 구간형 변수 수치화
grade_map = {
    '1_10%이하': 1,
    '2_10-25%': 2,
    '3_25-50%': 3,
    '4_50-75%': 4,
    '5_75-90%': 5,
    '6_90%초과(하위 10% 이하)': 6
}

interval_cols = [
    '가맹점 운영개월수 구간',
    '매출금액 구간',
    '매출건수 구간',
    '유니크 고객 수 구간',
    '객단가 구간'
]

for col in interval_cols:
    if col in df.columns:
        new_col = col.replace(' 구간', '_등급')
        df[new_col] = df[col].map(grade_map)

# 피처 엔지니어링 (6번 분석과 동일)
print("\n피처 엔지니어링 진행 중...")

# 고객층 복합 지표
if '여성 20대이하 고객 비중' in df.columns and '여성 30대 고객 비중' in df.columns:
    df['고위험_고객층_비중'] = df['여성 20대이하 고객 비중'] + df['여성 30대 고객 비중']

cols_stable = ['남성 40대 고객 비중', '남성 50대 고객 비중', '남성 60대이상 고객 비중']
if all(col in df.columns for col in cols_stable):
    df['안정_고객층_비중'] = df['남성 40대 고객 비중'] + df['남성 50대 고객 비중'] + df['남성 60대이상 고객 비중']

if '고위험_고객층_비중' in df.columns and '안정_고객층_비중' in df.columns:
    df['고객층_위험도'] = df['고위험_고객층_비중'] / (df['안정_고객층_비중'] + 1)

# 배달 관련
if '배달가능여부' in df.columns:
    if '여성 20대이하 고객 비중' in df.columns:
        df['배달_x_젊은여성비중'] = df['배달가능여부'] * df['여성 20대이하 고객 비중']
    if '당월_매출_건수' in df.columns:
        df['배달_x_매출건수'] = df['배달가능여부'] * df['당월_매출_건수']

# 접근성 종합
cols_access = ['500m내_버스정류장수', '500m내_지하철역수', '500m내_평균버스승하차']
if all(col in df.columns for col in cols_access):
    df['교통_접근성_종합'] = (df['500m내_버스정류장수'] + df['500m내_지하철역수']) * df['500m내_평균버스승하차']

if '교통_접근성_종합' in df.columns and '당월_매출_건수' in df.columns:
    df['접근성_대비_매출'] = df['당월_매출_건수'] / (df['교통_접근성_종합'] + 1)

# 경쟁력/수익성
if '임대료(천원/㎡)_소계' in df.columns and '월_평균_소득_금액' in df.columns:
    df['임대료_부담률'] = df['임대료(천원/㎡)_소계'] / (df['월_평균_소득_금액'] + 1)

if '월_평균_소득_금액' in df.columns and '당월_매출_건수' in df.columns:
    df['소득_대비_매출'] = df['당월_매출_건수'] / (df['월_평균_소득_금액'] + 1)

# 시간대 패턴
if '시간대_14~17_매출_금액' in df.columns and '시간대_00~06_매출_금액' in df.columns:
    df['주간_야간_비율'] = df['시간대_14~17_매출_금액'] / (df['시간대_00~06_매출_금액'] + 1)

if '시간대_14~17_매출_금액' in df.columns and '당월_매출_건수' in df.columns:
    df['피크타임_집중도'] = df['시간대_14~17_매출_금액'] / (df['당월_매출_건수'] + 1)

# 운영 효율성
if '당월_매출_건수' in df.columns and '가맹점 운영개월수_등급' in df.columns:
    df['매출_운영기간_효율'] = df['당월_매출_건수'] / (df['가맹점 운영개월수_등급'] + 1)

if '매출건수_등급' in df.columns and '당월_매출_건수' in df.columns:
    df['매출건수_등급_일치도'] = df['매출건수_등급'] * df['당월_매출_건수']

# 경쟁 지표
if '동일 상권 내 매출 순위 비율' in df.columns and '교통_접근성_종합' in df.columns:
    df['상권_경쟁_압력'] = df['동일 상권 내 매출 순위 비율'] * df['교통_접근성_종합']

if '동일 상권 내 매출 순위 비율' in df.columns and '500m내_평균지하철승하차' in df.columns:
    df['순위_대비_접근성'] = df['동일 상권 내 매출 순위 비율'] / (df['500m내_평균지하철승하차'] + 1)

print("피처 엔지니어링 완료")

# ============================================================================
# 2. 최종 선택 변수 로드 (6번 분석 결과)
# ============================================================================
print("\n" + "="*80)
print("2. 최종 선택 변수 로드")
print("="*80)

with open("/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/6_피처엔지니어링/최종선택변수.json", 'r', encoding='utf-8') as f:
    final_vars_dict = json.load(f)

final_features = final_vars_dict['기존_변수']['목록'] + final_vars_dict['신규_변수']['목록']

print(f"최종 변수 개수: {len(final_features)}개")
print(f"  - 기존 변수: {final_vars_dict['기존_변수']['개수']}개")
print(f"  - 신규 변수: {final_vars_dict['신규_변수']['개수']}개")

# 데이터 준비
X = df[final_features].copy()

# 결측치 및 무한대 처리
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

X = X.replace([np.inf, -np.inf], np.nan)
for col in X.columns:
    if X[col].isna().sum() > 0:
        X[col].fillna(X[col].median(), inplace=True)

y = df['폐업여부'].values

print(f"\nX shape: {X.shape}")
print(f"y 분포: 정상 {(y==0).sum()}, 폐업 {(y==1).sum()}")
print(f"클래스 불균형 비율: 1:{(y==0).sum()/(y==1).sum():.1f}")

# ============================================================================
# 3. Train/Test 분할
# ============================================================================
print("\n" + "="*80)
print("3. Train/Test 분할")
print("="*80)

# Stratified Split (클래스 비율 유지)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print(f"Train 크기: {X_train.shape[0]} (폐업: {y_train.sum()})")
print(f"Test 크기: {X_test.shape[0]} (폐업: {y_test.sum()})")

# ============================================================================
# 4. XGBoost 모델 학습
# ============================================================================
print("\n" + "="*80)
print("4. XGBoost 모델 학습")
print("="*80)

# 클래스 불균형 대응
scale_pos_weight = (y_train == 0).sum() / (y_train == 1).sum()
print(f"scale_pos_weight: {scale_pos_weight:.2f}")

# 모델 정의
model = xgb.XGBClassifier(
    n_estimators=200,
    max_depth=6,
    learning_rate=0.05,
    subsample=0.8,
    colsample_bytree=0.8,
    scale_pos_weight=scale_pos_weight,
    random_state=42,
    eval_metric='logloss',
    n_jobs=-1
)

# 학습
print("\n모델 학습 중...")
model.fit(X_train, y_train)
print("학습 완료")

# ============================================================================
# 5. 모델 성능 평가
# ============================================================================
print("\n" + "="*80)
print("5. 모델 성능 평가")
print("="*80)

# 예측
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# 5.1 AUC
auc_score = roc_auc_score(y_test, y_pred_proba)
print(f"\n[AUC Score]")
print(f"Test AUC: {auc_score:.4f}")

# 5.2 Confusion Matrix
print(f"\n[Confusion Matrix]")
cm = confusion_matrix(y_test, y_pred)
print(cm)
print(f"TN: {cm[0,0]}, FP: {cm[0,1]}")
print(f"FN: {cm[1,0]}, TP: {cm[1,1]}")

# 5.3 Classification Report
print(f"\n[Classification Report]")
print(classification_report(y_test, y_pred, target_names=['정상', '폐업']))

# 5.4 Precision-Recall
average_precision = average_precision_score(y_test, y_pred_proba)
print(f"\n[Average Precision Score]")
print(f"AP: {average_precision:.4f}")

# 5.5 Cross-Validation
print(f"\n[5-Fold Cross-Validation]")
cv_scores = cross_val_score(
    model, X_train, y_train,
    cv=StratifiedKFold(5, shuffle=True, random_state=42),
    scoring='roc_auc',
    n_jobs=-1
)
print(f"CV AUC: {cv_scores.mean():.4f} ± {cv_scores.std():.4f}")

# ============================================================================
# 6. SHAP 분석
# ============================================================================
print("\n" + "="*80)
print("6. SHAP 분석 (변수 해석)")
print("="*80)

# SHAP Explainer
print("SHAP TreeExplainer 생성 중...")
explainer = shap.TreeExplainer(model)

# 샘플링 (전체 데이터 사용 시 시간 오래 걸림)
sample_size = min(2000, len(X_test))
X_test_sample = X_test.sample(n=sample_size, random_state=42)

# 인덱스 매핑
sample_indices = X_test_sample.index
test_indices_map = {old_idx: new_idx for new_idx, old_idx in enumerate(X_test.index)}
y_test_sample = np.array([y_test[test_indices_map[idx]] for idx in sample_indices])

print(f"SHAP values 계산 중 (샘플: {sample_size}개)...")
shap_values = explainer.shap_values(X_test_sample)

# SHAP 중요도 계산
shap_importance = pd.DataFrame({
    '변수명': X_test_sample.columns,
    'SHAP_Importance': np.abs(shap_values).mean(axis=0)
}).sort_values('SHAP_Importance', ascending=False)

print("\nSHAP 기반 변수 중요도 TOP 20:")
for idx, row in shap_importance.head(20).iterrows():
    var_type = "신규" if row['변수명'] in final_vars_dict['신규_변수']['목록'] else "기존"
    print(f"  [{var_type}] {row['변수명']}: {row['SHAP_Importance']:.6f}")

# ============================================================================
# 7. 비즈니스 인사이트 도출
# ============================================================================
print("\n" + "="*80)
print("7. 비즈니스 인사이트 도출")
print("="*80)

# 7.1 신규 변수 vs 기존 변수 비교
신규_변수들 = final_vars_dict['신규_변수']['목록']
신규_shap = shap_importance[shap_importance['변수명'].isin(신규_변수들)]
기존_shap = shap_importance[~shap_importance['변수명'].isin(신규_변수들)]

print(f"\n[신규 변수 성과]")
print(f"신규 변수 평균 SHAP: {신규_shap['SHAP_Importance'].mean():.6f}")
print(f"기존 변수 평균 SHAP: {기존_shap['SHAP_Importance'].mean():.6f}")
print(f"신규 변수 TOP 10 진입: {len(신규_shap.head(10))}개")

# 7.2 주요 변수별 영향 분석
print(f"\n[주요 변수별 폐업 영향]")

top5_vars = shap_importance.head(5)['변수명'].tolist()

for var in top5_vars:
    if var in X_test_sample.columns:
        var_values = X_test_sample[var].values
        var_shap = shap_values[:, X_test_sample.columns.get_loc(var)]

        # 상위 25% vs 하위 25%
        q25 = np.percentile(var_values, 25)
        q75 = np.percentile(var_values, 75)

        low_shap = var_shap[var_values <= q25].mean()
        high_shap = var_shap[var_values >= q75].mean()

        direction = "↑" if high_shap > low_shap else "↓"
        var_type = "신규" if var in 신규_변수들 else "기존"

        print(f"\n  [{var_type}] {var}")
        print(f"    값 ↑ → 폐업 확률 {direction}")
        print(f"    SHAP (하위25%): {low_shap:.4f}")
        print(f"    SHAP (상위75%): {high_shap:.4f}")
        print(f"    차이: {high_shap - low_shap:.4f}")

# 7.3 성동땡겨요 타겟팅 기준
print(f"\n[성동땡겨요 타겟팅 기준]")

# 폐업 확률 높은 가맹점 추출
high_risk_threshold = 0.5
high_risk_mask = y_pred_proba >= high_risk_threshold
high_risk_indices = np.where(high_risk_mask)[0]

print(f"폐업 확률 >= {high_risk_threshold}: {len(high_risk_indices)}개 ({len(high_risk_indices)/len(y_pred_proba)*100:.1f}%)")

if len(high_risk_indices) > 0:
    # 고위험 가맹점의 특징
    high_risk_features = X_test.iloc[high_risk_indices]

    if '고객층_위험도' in high_risk_features.columns:
        print(f"\n고위험 가맹점 평균 고객층_위험도: {high_risk_features['고객층_위험도'].mean():.4f}")
        print(f"전체 평균 고객층_위험도: {X_test['고객층_위험도'].mean():.4f}")

    if '교통_접근성_종합' in high_risk_features.columns:
        print(f"\n고위험 가맹점 평균 교통_접근성_종합: {high_risk_features['교통_접근성_종합'].mean():.0f}")
        print(f"전체 평균 교통_접근성_종합: {X_test['교통_접근성_종합'].mean():.0f}")

# ============================================================================
# 8. 시각화 및 결과 저장
# ============================================================================
print("\n" + "="*80)
print("8. 결과 저장")
print("="*80)

output_dir = "/Users/yeong-gwang/Documents/배움 오전 1.38.42/외부/공모전/빅콘테스트/Project/work/ver3_/1012/result/7_예측모델"
import os
os.makedirs(output_dir, exist_ok=True)

# 8.1 모델 성능 지표
performance = {
    'AUC_Test': float(auc_score),
    'AUC_CV_Mean': float(cv_scores.mean()),
    'AUC_CV_Std': float(cv_scores.std()),
    'Average_Precision': float(average_precision),
    'Confusion_Matrix': {
        'TN': int(cm[0,0]),
        'FP': int(cm[0,1]),
        'FN': int(cm[1,0]),
        'TP': int(cm[1,1])
    },
    'High_Risk_Count': int(len(high_risk_indices)),
    'High_Risk_Ratio': float(len(high_risk_indices)/len(y_pred_proba))
}

with open(f"{output_dir}/모델성능.json", 'w', encoding='utf-8') as f:
    json.dump(performance, f, ensure_ascii=False, indent=2)
print("✓ 모델 성능 지표 저장")

# 8.2 SHAP 중요도
shap_importance['변수유형'] = shap_importance['변수명'].apply(
    lambda x: '신규' if x in 신규_변수들 else '기존'
)
shap_importance.to_csv(f"{output_dir}/SHAP_변수중요도.csv", index=False, encoding='utf-8-sig')
print("✓ SHAP 변수 중요도 저장")

# 8.3 예측 결과
predictions_df = pd.DataFrame({
    '실제': y_test,
    '예측': y_pred,
    '폐업확률': y_pred_proba
})
predictions_df.to_csv(f"{output_dir}/예측결과.csv", index=False, encoding='utf-8-sig')
print("✓ 예측 결과 저장")

# 8.4 ROC Curve 데이터
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
roc_df = pd.DataFrame({
    'FPR': fpr,
    'TPR': tpr,
    'Threshold': thresholds
})
roc_df.to_csv(f"{output_dir}/ROC_Curve.csv", index=False, encoding='utf-8-sig')
print("✓ ROC Curve 데이터 저장")

# 8.5 Precision-Recall Curve 데이터
precision, recall, pr_thresholds = precision_recall_curve(y_test, y_pred_proba)
pr_df = pd.DataFrame({
    'Precision': precision[:-1],
    'Recall': recall[:-1],
    'Threshold': pr_thresholds
})
pr_df.to_csv(f"{output_dir}/Precision_Recall_Curve.csv", index=False, encoding='utf-8-sig')
print("✓ Precision-Recall Curve 데이터 저장")

# 8.6 비즈니스 인사이트
insights = {
    '신규변수_평균SHAP': float(신규_shap['SHAP_Importance'].mean()),
    '기존변수_평균SHAP': float(기존_shap['SHAP_Importance'].mean()),
    '신규변수_TOP10_개수': int(len(신규_shap.head(10))),
    'TOP5_변수': top5_vars,
    '고위험_가맹점_특징': {}
}

if len(high_risk_indices) > 0:
    if '고객층_위험도' in high_risk_features.columns:
        insights['고위험_가맹점_특징']['고객층_위험도_평균'] = float(high_risk_features['고객층_위험도'].mean())
    if '교통_접근성_종합' in high_risk_features.columns:
        insights['고위험_가맹점_특징']['교통_접근성_종합_평균'] = float(high_risk_features['교통_접근성_종합'].mean())

with open(f"{output_dir}/비즈니스_인사이트.json", 'w', encoding='utf-8') as f:
    json.dump(insights, f, ensure_ascii=False, indent=2)
print("✓ 비즈니스 인사이트 저장")

print("\n" + "="*80)
print("XGBoost 예측 모델 및 SHAP 분석 완료")
print("="*80)
print(f"\nTest AUC: {auc_score:.4f}")
print(f"CV AUC: {cv_scores.mean():.4f} ± {cv_scores.std():.4f}")
print(f"Average Precision: {average_precision:.4f}")
print(f"\n저장 위치: {output_dir}")


1. 데이터 로드 및 피처 엔지니어링
데이터 형태: (86263, 189)
폐업률: 2.71%

피처 엔지니어링 진행 중...
피처 엔지니어링 완료

2. 최종 선택 변수 로드
최종 변수 개수: 35개
  - 기존 변수: 20개
  - 신규 변수: 15개

X shape: (86263, 35)
y 분포: 정상 83929, 폐업 2334
클래스 불균형 비율: 1:36.0

3. Train/Test 분할
Train 크기: 69010 (폐업: 1867)
Test 크기: 17253 (폐업: 467)

4. XGBoost 모델 학습
scale_pos_weight: 35.96

모델 학습 중...
학습 완료

5. 모델 성능 평가

[AUC Score]
Test AUC: 0.9975

[Confusion Matrix]
[[16452   334]
 [   13   454]]
TN: 16452, FP: 334
FN: 13, TP: 454

[Classification Report]
              precision    recall  f1-score   support

          정상       1.00      0.98      0.99     16786
          폐업       0.58      0.97      0.72       467

    accuracy                           0.98     17253
   macro avg       0.79      0.98      0.86     17253
weighted avg       0.99      0.98      0.98     17253


[Average Precision Score]
AP: 0.9619

[5-Fold Cross-Validation]
CV AUC: 0.9958 ± 0.0008

6. SHAP 분석 (변수 해석)
SHAP TreeExplainer 생성 중...
SHAP values 계산 중 (샘플: 2000개)...

SHAP 기반 변수 중