In [1]:
# 기본 라이브러리 임포트
import pandas as pd             
import numpy as np             
import matplotlib.pyplot as plt 
import seaborn as sns           
import gc                       # 가비지 컬렉션(메모리 해제)
import re                       # 정규 표현식 처리
from collections import defaultdict  # 기본값이 있는 딕셔너리 생성

# 경고 메시지 억제
import warnings
warnings.filterwarnings('ignore')   

# 그래프 스타일 설정
sns.set()                           # seaborn 기본 스타일 적용

# matplotlib 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'  
plt.rcParams['figure.figsize'] = (12, 6)       # 그림 크기 설정 (가로, 세로)
plt.rcParams['font.size'] = 14                 # 폰트 크기 설정
plt.rcParams['axes.unicode_minus'] = False     # 마이너스 기호 깨짐 방지

# 결측치 시각화 라이브러리 임포트
import missingno                          # 결측치 분포를 시각화하는 유틸리티

# 범주형 변수 레이블 인코딩을 위한 도구 임포트
from sklearn.preprocessing import LabelEncoder

# 중복 조합 생성에 사용할 product 함수 임포트
from itertools import product

# 회귀 및 통계 분석을 위한 statsmodels 임포트
import statsmodels.api as sm

# 다중공선성 진단용 VIF 계산 함수 임포트
from statsmodels.stats.outliers_influence import variance_inflation_factor

### 데이터 불러오기

In [2]:
# 데이터를 불러온다.
df1 = pd.read_parquet('승인매출정보_결측치_제거.parquet')

zero_after = [c for c in df1.columns if df1[c].eq(0).all()]
na_after   = [c for c in df1.columns if df1[c].isna().any()]

print("로드 후 0 전부 컬럼:", zero_after)
print("로드 후 NaN 있는 컬럼:", na_after)
print("로드 후 전체 컬럼 수:", len(df1.columns))

로드 후 0 전부 컬럼: []
로드 후 NaN 있는 컬럼: ['Segment']
로드 후 전체 컬럼 수: 341


### Segment 분포 확인하기

In [3]:
# 1) Segment(타깃) 분포 살펴보기
print("▶ Segment 정보:")
print(df1['Segment'].value_counts())

print("\n▶ Segment 분포 및 비율 (%):")
print(df1['Segment'].value_counts(normalize=True).round(5))

▶ Segment 정보:
Segment
E    1922052
D     349242
C     127590
A        972
B        144
Name: count, dtype: int64

▶ Segment 분포 및 비율 (%):
Segment
E    0.80086
D    0.14552
C    0.05316
A    0.00040
B    0.00006
Name: proportion, dtype: float64


In [4]:
c1 = list (df1.columns)
for c in c1:
    print (c)

기준년월
ID
최종이용일자_기본
최종이용일자_신판
최종이용일자_CA
최종이용일자_카드론
최종이용일자_체크
최종이용일자_일시불
최종이용일자_할부
이용건수_신용_B0M
이용건수_신판_B0M
이용건수_일시불_B0M
이용건수_할부_B0M
이용건수_할부_유이자_B0M
이용건수_할부_무이자_B0M
이용건수_CA_B0M
이용건수_체크_B0M
이용금액_일시불_B0M
이용금액_할부_B0M
이용금액_할부_유이자_B0M
이용금액_할부_무이자_B0M
이용금액_CA_B0M
이용금액_체크_B0M
이용후경과월_신용
이용후경과월_신판
이용후경과월_일시불
이용후경과월_할부
이용후경과월_할부_유이자
이용후경과월_할부_무이자
이용후경과월_부분무이자
이용후경과월_CA
이용후경과월_체크
이용후경과월_카드론
이용건수_신용_R12M
이용건수_신판_R12M
이용건수_일시불_R12M
이용건수_할부_R12M
이용건수_할부_유이자_R12M
이용건수_할부_무이자_R12M
이용건수_CA_R12M
이용건수_체크_R12M
이용건수_카드론_R12M
이용금액_일시불_R12M
이용금액_할부_R12M
이용금액_할부_유이자_R12M
이용금액_할부_무이자_R12M
이용금액_부분무이자_R12M
이용금액_CA_R12M
이용금액_체크_R12M
이용금액_카드론_R12M
최대이용금액_일시불_R12M
최대이용금액_할부_R12M
최대이용금액_할부_유이자_R12M
최대이용금액_할부_무이자_R12M
최대이용금액_부분무이자_R12M
최대이용금액_CA_R12M
최대이용금액_체크_R12M
최대이용금액_카드론_R12M
이용개월수_신용_R12M
이용개월수_신판_R12M
이용개월수_일시불_R12M
이용개월수_할부_R12M
이용개월수_할부_유이자_R12M
이용개월수_할부_무이자_R12M
이용개월수_부분무이자_R12M
이용개월수_CA_R12M
이용개월수_체크_R12M
이용개월수_카드론_R12M
이용건수_신용_R6M
이용건수_신판_R6M
이용건수_일시불_R6M
이용건수_할부_R6M
이용건수_할부_유이자_R6M
이용건수_할부_무이자_R6M
이용건수_부분무이자

In [5]:
1/0

ZeroDivisionError: division by zero

In [None]:
# One-Hot Encoding
df_ohe = pd.get_dummies(df1, columns=['Segment'], prefix='Seg')

# 결과 확인
print(df_ohe)

### 날짜형 컬럼 datetime으로 변경

In [None]:
# '기준년월' 컬럼을 문자열로 변환한 뒤 날짜로 파싱하고, 월 단위 Period 타입으로 변경
df1['기준년월'] = (
    pd.to_datetime(                         # 문자열을 datetime 타입으로 파싱
        df1['기준년월'].astype(str),         # 숫자형 등을 문자열로 변환
        format='%Y%m'                      # 'YYYYMM' 형식 지정
    )
    .dt.to_period('M')                     # 연-월 단위 Period 타입으로 변환
)

# 변환된 '기준년월' 컬럼의 데이터 타입 및 일부 값 출력
print(df1['기준년월'].dtype)             
print(df1['기준년월'].head())            

### 컬럼을 기간과 채널을 기준으로 그룹으로 묶는다.

In [None]:
# 그룹 딕셔너리 정의
groups = {
    'Identifiers': ['기준년월', 'ID', 'Segment'],
    'ARS': [
        '인입횟수_ARS_R6M_num','인입일수_ARS_R6M', '인입월수_ARS_R6M',
        '인입후경과월_ARS','인입횟수_ARS_B0M', '인입일수_ARS_B0M'
    ],
    'PC': [
        '방문횟수_PC_R6M_num','방문일수_PC_R6M_num','방문월수_PC_R6M',
        '방문후경과월_PC_R6M','방문횟수_PC_B0M','방문일수_PC_B0M'
    ],
    '앱': [
        '방문횟수_앱_R6M_num','방문일수_앱_R6M','방문월수_앱_R6M',
        '방문후경과월_앱_R6M','방문횟수_앱_B0M','방문일수_앱_B0M'
    ],
    '모바일웹': [
        '방문횟수_모바일웹_R6M','방문일수_모바일웹_R6M',
        '방문월수_모바일웹_R6M','방문후경과월_모바일웹_R6M',
        '방문횟수_모바일웹_B0M','방문일수_모바일웹_B0M'
    ],
    'IB_기본': [
        '인입횟수_IB_R6M','인입일수_IB_R6M','인입월수_IB_R6M',
        '인입후경과월_IB_R6M','인입횟수_IB_B0M','인입일수_IB_B0M'
    ],
    'IB_불만': [
        '인입불만후경과월_IB_R6M'
    ],
    # IB문의건수 메트릭별
    'IB_사용승인내역': ['IB문의건수_사용승인내역_R6M','IB문의건수_사용승인내역_B0M'],
    'IB_한도':       ['IB문의건수_한도_R6M'],
    'IB_선결제':     ['IB문의건수_선결제_R6M','IB문의건수_선결제_B0M'],
    'IB_결제':       ['IB문의건수_결제_R6M', 'IB문의건수_할부_R6M'],
    'IB_정보변경':    ['IB문의건수_정보변경_R6M', 'IB문의건수_결제일변경_R6M'],
    'IB_비밀번호':    ['IB문의건수_비밀번호_R6M'],
    'IB_SMS':       ['IB문의건수_SMS_R6M', 'IB문의건수_부대서비스_R6M'],
    'IB_포인트':     ['IB문의건수_포인트_R6M'],
    'IB_카드발급':    ['IB문의건수_카드발급_R6M','IB문의건수_카드발급_B0M'],
    'IB_BL':        ['IB문의건수_BL_R6M', 'IB문의건수_CA_R6M', 'IB문의건수_CL_RV_R6M','IB문의건수_CL_RV_B0M'],
    'IB_분실도난':    ['IB문의건수_분실도난_R6M'],
    'IB_CS':        ['IB문의건수_CS_R6M','IB문의건수_CS_B0M'],
    '상담건수':      ['상담건수_R6M','상담건수_B0M', '불만제기후경과월_R12M'],
    '인입후경과월_ARS':['인입후경과월_ARS'],
    '이용메뉴건수':['이용메뉴건수_ARS_R6M_num','이용메뉴건수_ARS_B0M', '이용메뉴건수_IB_B0M', '이용메뉴건수_IB_R6M'],
    '당사멤버쉽':['당사멤버쉽_방문월수_R6M', '당사멤버쉽_방문횟수_B0M', '당사멤버쉽_방문횟수_R6M'],
    '홈페이지_금융':['홈페이지_금융건수_R3M', '홈페이지_금융건수_R6M'],
    '홈페이지_선결제':['홈페이지_선결제건수_R3M', '홈페이지_선결제건수_R6M']
}

# 각 그룹의 이름과 변수 수를 출력
for name, cols in groups.items():
    print(f"{name} ({len(cols)}개): {cols}")

# 그룹에 포함되지 않은 컬럼 찾기
print ("="*20)

grouped_cols = set(sum(groups.values(), []))
all_cols = set(df1.columns)
ungrouped_cols = sorted(list(all_cols - grouped_cols))

if ungrouped_cols:
    print("그룹에 포함되지 않은 컬럼:")
    for col in ungrouped_cols:
        print(" -", col)
else:
    print("모든 컬럼이 그룹에 잘 포함되어 있습니다.")

### 그룹 내 변수 간 상관관계 분석
- 에타 제곱 분석의 신뢰도를 높이기 위해, 전체의 5% 미만을 차지하는 세그먼트는 표본 수가 부족하여 과도한 변동을 유발하고 해석에 혼란을 줄 수 있으므로 사전에 제외하였다.
- 에타 제곱 값이 0.01 미만인 변수는 그룹 간 차이를 설명하는 데 기여가 거의 없다고 판단하여 추가 분석 대상에서 제외하였다.

In [None]:
# 수치형 독립 변수와 범주형 타겟 변수 사이의 관련성 확인 (Eta Squared : 에타 제곱)
def eta_squared(y, x):
    # 제외할 세그먼트 리스트 설정
    drop_segs = ['A', 'B']
    
    # 제외 대상 세그먼트 필터 마스크 생성
    mask = ~y.isin(drop_segs)
    y_f = y[mask]
    x_f = x[mask]
    
    # 전체 x_f의 평균 산출하여 grand_mean에 저장
    grand_mean = x_f.mean()
    
    # 총 변동 SST 산출
    sst = ((x_f - grand_mean) ** 2).sum()
    
    # 필터링된 그룹별 x_f 리스트 생성
    groups = [x_f[y_f == val] for val in y_f.unique()]
    
    # 집단 간 변동 SSB 산출
    ssb = sum(len(g) * (g.mean() - grand_mean) ** 2 for g in groups)
    
    # Eta Squared 산출하여 반환
    return ssb / sst if sst != 0 else np.nan

In [None]:
# VIF 계산 함수 (그룹 내 수치형 변수만)
def compute_vif(df, feature_cols):
    # 수치형 컬럼만 선택
    X = df1[feature_cols].select_dtypes(include=[np.number]).copy()
    # 상수항 추가
    X['const'] = 1.0
    # 무한대·결측 제거
    X = X.replace([np.inf, -np.inf], np.nan).dropna()
    # VIF 계산
    vif_data = []
    for i, col in enumerate(X.columns):
        vif_data.append({
            'variable': col,
            'VIF': variance_inflation_factor(X.values, i)
        })
    return pd.DataFrame(vif_data)

In [None]:
# Seg_로 시작하는 더미 컬럼 리스트 생성
dummy_cols = [c for c in df_ohe.columns if c.startswith('Seg_')]

# Segment 복원: 값이 1인 더미 컬럼에서 'Seg_' 접두사를 제거
df_ohe['Segment'] = df_ohe[dummy_cols].idxmax(axis=1).str.replace('Seg_', '')

# 수치형 변수만 남긴 df_num 생성 (더미 컬럼 제거)
df_num = df_ohe.drop(columns=dummy_cols).copy()

# 기존에 생성한 df_num을 df로 재할당
df = df_num

### 1. ARS 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['인입횟수_ARS_R6M_num', '인입일수_ARS_R6M', '인입월수_ARS_R6M', '인입후경과월_ARS', '인입횟수_ARS_B0M', '인입일수_ARS_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['인입후경과월_ARS']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['인입횟수_ARS_R6M_num', '인입일수_ARS_R6M', '인입월수_ARS_R6M', '인입횟수_ARS_B0M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# 삭제할 피처 리스트
drop_cols = ['인입일수_ARS_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 2. PC 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['방문횟수_PC_R6M_num', '방문일수_PC_R6M_num', '방문월수_PC_R6M', '방문후경과월_PC_R6M', '방문횟수_PC_B0M', '방문일수_PC_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['방문횟수_PC_R6M_num', '방문후경과월_PC_R6M', '방문횟수_PC_B0M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# df.columns 중 '방문' 키워드가 포함된 것만 출력해 보기
print([c for c in df.columns if '방문' in c])

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['방문일수_PC_B0M_num', '방문월수_PC_R6M', '방문일수_PC_R6M']

# 존재하는 컬럼만 필터링
to_drop = [col for col in drop_cols if col in df.columns]

# 컬럼 삭제
df.drop(columns=to_drop, inplace=True)

# 삭제 확인
print(df.columns)

### 3. 앱 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['방문횟수_앱_R6M_num', '방문일수_앱_R6M', '방문월수_앱_R6M', '방문후경과월_앱_R6M', '방문횟수_앱_B0M', '방문일수_앱_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['방문횟수_앱_R6M_num', '방문후경과월_앱_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['방문일수_앱_R6M', '방문횟수_앱_B0M', '방문일수_앱_B0M', '방문월수_앱_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 4. 모바일웹 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['방문횟수_모바일웹_R6M', '방문일수_모바일웹_R6M', '방문월수_모바일웹_R6M', '방문후경과월_모바일웹_R6M', '방문횟수_모바일웹_B0M', '방문일수_모바일웹_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['방문횟수_모바일웹_R6M', '방문일수_모바일웹_R6M', '방문월수_모바일웹_R6M', '방문후경과월_모바일웹_R6M', '방문횟수_모바일웹_B0M', '방문일수_모바일웹_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 5. IB 기본 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['인입횟수_IB_R6M', '인입일수_IB_R6M', '인입월수_IB_R6M', '인입후경과월_IB_R6M', '인입횟수_IB_B0M', '인입일수_IB_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['인입횟수_IB_B0M', '인입일수_IB_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

In [None]:
# 그룹 변수 리스트 정의
ars_cols =['인입일수_IB_R6M', '인입월수_IB_R6M', '인입후경과월_IB_R6M']


# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['인입횟수_IB_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 6. IB_불만 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['인입불만후경과월_IB_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 데이터 확인
df['인입불만후경과월_IB_R6M'].describe()
df['인입불만후경과월_IB_R6M'].value_counts(dropna=False)

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['인입불만후경과월_IB_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 7. IB_사용승인내역 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['인입월수_IB_R6M', '인입후경과월_IB_R6M', '인입일수_IB_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['인입월수_IB_R6M', '인입후경과월_IB_R6M', '인입일수_IB_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

### 8. IB_한도 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_한도_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_한도_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 9. IB_선결제 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_선결제_R6M', 'IB문의건수_선결제_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_선결제_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 10. IB_결제 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_결제_R6M', 'IB문의건수_할부_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_결제_R6M', 'IB문의건수_할부_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 11. IB_정보변경 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_정보변경_R6M', 'IB문의건수_결제일변경_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_정보변경_R6M', 'IB문의건수_결제일변경_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 12. IB_비밀번호 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_비밀번호_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_비밀번호_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 13. IB_SMS 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_SMS_R6M', 'IB문의건수_부대서비스_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_SMS_R6M', 'IB문의건수_부대서비스_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 14. IB_카드발급 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_카드발급_R6M', 'IB문의건수_카드발급_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_카드발급_R6M', 'IB문의건수_카드발급_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 15. IB_BL 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_BL_R6M', 'IB문의건수_CA_R6M', 'IB문의건수_CL_RV_R6M', 'IB문의건수_CL_RV_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_BL_R6M', 'IB문의건수_CA_R6M', 'IB문의건수_CL_RV_R6M', 'IB문의건수_CL_RV_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 16. IB_분실도난

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_분실도난_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_분실도난_R6M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 17. IB_CS 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['IB문의건수_CS_R6M', 'IB문의건수_CS_B0M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['IB문의건수_CS_R6M', 'IB문의건수_CS_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

### 18. 상담건수 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['상담건수_R6M', '상담건수_B0M', '불만제기후경과월_R12M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['상담건수_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

In [None]:
# 그룹 변수 리스트 정의
ars_cols =['상담건수_R6M', '불만제기후경과월_R12M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

### 19. 이용메뉴건수 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['이용메뉴건수_ARS_R6M_num', '이용메뉴건수_ARS_B0M', '이용메뉴건수_IB_B0M', '이용메뉴건수_IB_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['이용메뉴건수_ARS_R6M_num', '이용메뉴건수_IB_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

In [None]:
# 그룹 변수 리스트 정의
ars_cols =['이용메뉴건수_ARS_B0M', '이용메뉴건수_IB_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

### 20. 당사멤버십 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['당사멤버쉽_방문월수_R6M', '당사멤버쉽_방문횟수_B0M', '당사멤버쉽_방문횟수_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 삭제할 피처 리스트 (>0.01이 아닌, 거의 효과가 없는 것)
drop_cols = ['당사멤버쉽_방문횟수_B0M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

# 삭제 확인
print(df.columns)

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['당사멤버쉽_방문월수_R6M', '당사멤버쉽_방문횟수_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

### 21. 홈페이지_금융 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['홈페이지_금융건수_R3M', '홈페이지_금융건수_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 그룹 변수 리스트 정의
ars_cols =['홈페이지_금융건수_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['홈페이지_금융건수_R3M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 22. 홈페이지_선결제 그룹

In [None]:
# 비교하고 싶은 그룹 변수 리스트
group_cols = ['홈페이지_선결제건수_R3M', '홈페이지_선결제건수_R6M']

# 각 변수에 대해 η² 계산
for col in group_cols:
    η2 = eta_squared(df['Segment'], df[col])
    print(f"{col} vs Segment η²: {η2:.3f}")

In [None]:
# 그룹 변수 리스트 정의
ars_cols = ['홈페이지_선결제건수_R6M']

# 그룹 내 다중공선성 확인
vif_ars = compute_vif(df, ars_cols)
print(vif_ars)

In [None]:
# 삭제할 피처 리스트 
drop_cols = ['홈페이지_선결제건수_R3M']

# 삭제
df.drop(columns=drop_cols, inplace = True)

### 범주형 데이터 원 핫 인코딩 후 저장

In [None]:
# 순서형 변수 '_num' 컬럼 리스트
mixed_cols = [
    '인입횟수_ARS_R6M',
    '이용메뉴건수_ARS_R6M',
    '방문횟수_PC_R6M',
    '방문일수_PC_R6M',
    '방문횟수_앱_R6M'
]
num_cols = [f'{col}_num' for col in mixed_cols if f'{col}_num' in df.columns]

# VIF 제거 후 남은 '_num' 컬럼 리스트를 기반으로 원-핫 인코딩
if num_cols:
    df = pd.get_dummies(
        df,
        columns=num_cols,
        prefix=[c.replace('_num', '') for c in num_cols]
    )

In [None]:
# 데이터 확인한 후 저장한다.
print(df.columns)
print(len(df.columns))

df.to_csv('채널정보_전처리.csv', index=False, encoding='utf-8-sig')

In [None]:
# 저장된 파일 불러와서 확인하기
df2 = pd.read_csv('채널정보_전처리.csv')
zero_after = [c for c in df2.columns if df2[c].eq(0).all()]
na_after   = [c for c in df2.columns if df2[c].isna().any()]

print("로드 후 0 전부 컬럼:", zero_after)
print("로드 후 NaN 있는 컬럼:", na_after)
print("로드 후 전체 컬럼 수:", len(df2.columns))

### Train 데이터와 Test 데이터 분리하기

In [None]:
# 데이터 불러오기
df = pd.read_csv('채널정보_전처리.csv')

# ID가 'TEST_'로 시작하면 test, 아니면 train으로 분리
is_test = df['ID'].str.startswith('TEST_')
train_df = df[~is_test].reset_index(drop=True)
test_df  = df[ is_test].reset_index(drop=True)

# 분리된 데이터 저장
train_df.to_csv('train_cleaned6.csv', index=False, encoding='utf-8-sig')
test_df .to_csv('test_cleaned6.csv',  index=False, encoding='utf-8-sig')

# 저장된 CSV 다시 불러와서 분리 상태 확인
train_check = pd.read_csv('train_cleaned6.csv')
test_check  = pd.read_csv('test_cleaned6.csv')

# 검증: train에 'TEST_' ID 없어야 하고, test에는 'TEST_' ID만 있어야 함
print("▶ train에 TEST_ ID 존재 여부:", train_check['ID'].str.startswith('TEST_').any())
print("▶ test에 TEST_ 아닌 ID 존재 여부:", (~test_check['ID'].str.startswith('TEST_')).any())

In [None]:
# train 데이터 불러오기
df = pd.read_csv ('train_cleaned6.csv')
df