In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import gc

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 13
plt.rcParams['axes.unicode_minus'] = False

In [5]:
# 데이터프레임을 넣고 column별 특성 및 결측값, 고유값들을 확인하는 함수를 작성해본다.
# 필수는 아니지만 전체적인 흐름을 파악하기 쉬워진다.

def resumetable(df, n):
    print(f'데이터셋 크기: {df.shape}')                                # 데이터프레임의 전체 크기(행, 열) 출력

    summary = pd.DataFrame(df.dtypes, columns=['데이터 타입'])         # 각 피처의 데이터 타입을 가져와 데이터프레임으로 생성
    summary = summary.reset_index()                                    # 인덱스를 초기화하여 컬럼으로 변환
    summary = summary.rename(columns={'index':'피처'})                 # 'index' 컬럼명을 '피처'로 변경

    summary['결측값 개수'] = df.isnull().sum().values                 # 각 피처의 결측값(null) 개수 계산
    summary['고유값 개수'] = df.nunique().values                      # 각 피처의 고유값 개수 계산

    for i in range(n):
        summary[f"{i+1}번째 값"] = df.iloc[i].values

    return summary                                                     # 요약 테이블 반환

In [6]:
# 2. pandas로 데이터 불러오기
import pandas as pd

# ▶ Feature 파일 불러오기
df_features = pd.read_csv('/content/drive/MyDrive/멋쟁이사자처럼_파이널프로젝트/unique_1/train_4.청구입금정보_변동없음.csv')

In [7]:
# ▶ Segment 파일 불러오기 (ID + Segment)
df_segment = pd.read_csv('/content/drive/MyDrive/멋쟁이사자처럼_파이널프로젝트/unique_1/Segment_병합.csv')

# ▶ Segment만 순서대로 붙이기 (ID 순서 동일하다는 전제)
df_features['Segment'] = df_segment['Segment'].values

# ▶ 확인
display(resumetable(df_features,3))
# df_features[['ID', 'Segment']]

데이터셋 크기: (2400000, 45)


Unnamed: 0,피처,데이터 타입,결측값 개수,고유값 개수,1번째 값,2번째 값,3번째 값
0,기준년월,int64,0,6,201807,201807,201807
1,ID,object,0,400000,TRAIN_000000,TRAIN_000001,TRAIN_000002
2,대표결제일,int64,0,11,27,13,1
3,대표청구지고객주소구분코드,object,0,3,미확인,주거지,미확인
4,대표청구서수령지구분코드,object,0,7,당사페이앱+이메일,우편,이메일
5,청구서수령방법,object,0,6,문자메세지,우편,이메일
6,청구서발송여부_B0,int64,0,2,1,1,1
7,청구서발송여부_R3M,int64,0,2,1,1,1
8,청구서발송여부_R6M,int64,0,2,1,1,1
9,청구금액_B0,int64,0,52973,12226,5834,21866


In [8]:
from sklearn.preprocessing import LabelEncoder

# 1. Segment를 숫자로 변환
le = LabelEncoder()
df_features['Segment_encoded'] = le.fit_transform(df_features['Segment'])

# 2. 숫자형 컬럼만 선택
numeric_cols = df_features.select_dtypes(include=['number']).columns.drop('Segment_encoded', errors='ignore')

# 3. 상관계수 계산
correlations = df_features[numeric_cols].corrwith(df_features['Segment_encoded'])

# ✅ 절댓값 적용 여부 → 아래 한 줄 주석처리로 토글
correlations = correlations.abs()

# 4. 정렬
correlations_sorted = correlations.sort_values(ascending=False)

# 5. 출력 형식
pd.set_option('display.float_format', lambda x: f'{x:.6f}')
pd.set_option('display.max_rows', None)

# 6. 출력
display(correlations_sorted)

Unnamed: 0,0
청구금액_R6M,0.597904
청구금액_R3M,0.590678
청구금액_B0,0.577988
혜택수혜금액_R3M,0.355754
혜택수혜금액,0.350857
포인트_마일리지_환산_B0M,0.281306
마일_적립포인트_R3M,0.276183
포인트_마일리지_건별_R3M,0.216643
포인트_마일리지_건별_B0M,0.214917
마일_적립포인트_R12M,0.213707


In [9]:
# 7. 상관계수 0.35 이상 컬럼만 선택
selected_cols = correlations_sorted[correlations_sorted >= 0.35].index.tolist()

# 8. 해당 컬럼만 추출
X_selected = df_features[selected_cols]

# 9. 확인
print("선택된 컬럼 수:", len(selected_cols))
display(X_selected.head(10))

선택된 컬럼 수: 5


Unnamed: 0,청구금액_R6M,청구금액_R3M,청구금액_B0,혜택수혜금액_R3M,혜택수혜금액
0,88693,46588,12226,3,0
1,16861,10530,5834,0,0
2,165221,85931,21866,121,50
3,127371,61518,16356,3,2
4,155,0,0,0,0
5,0,0,0,0,0
6,33966,16464,5512,0,0
7,10610,5308,1600,2,1
8,94241,62715,20512,540,273
9,0,0,0,0,0


In [10]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm

# vif를 계산하기 위한 상수항을 추가한다.
vif_X = sm.add_constant(X_selected)

# vif를 계산한다.
vif = pd.DataFrame()
vif['변수'] = vif_X.columns
vif['VIF'] = [variance_inflation_factor(vif_X.values, i) for i in range(vif_X.shape[1])]
vif

Unnamed: 0,변수,VIF
0,const,1.521265
1,청구금액_R6M,8.967088
2,청구금액_R3M,19.68493
3,청구금액_B0,11.366719
4,혜택수혜금액_R3M,11.969779
5,혜택수혜금액,11.847078


In [13]:
# vif 높은 컬럼 하나씩 제거
vif_X = X_selected.drop([
    '청구금액_R3M',
    # '혜택수혜금액_R3M'
    ], axis=1)

# vif를 계산하기 위해 상수항을 추가한다.
vif_X2 = sm.add_constant(vif_X)

# vif를 계산한다.
vif = pd.DataFrame()
vif['변수'] = vif_X2.columns
vif['VIF'] = [variance_inflation_factor(vif_X2.values, i) for i in range(vif_X2.shape[1])]
vif

Unnamed: 0,변수,VIF
0,const,1.520494
1,청구금액_R6M,5.21257
2,청구금액_B0,5.3045
3,혜택수혜금액_R3M,11.921732
4,혜택수혜금액,11.824211
