In [2]:
# 기본
import pandas as pd  # 데이터프레임 처리
import numpy as np  # 수치 계산
import matplotlib.pyplot as plt  # 데이터 시각화
import seaborn as sns  # 고급 시각화

# 경고 뜨지 않게 설정
import warnings  # 경고 무시 설정
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6  # 그래프 크기 설정
plt.rcParams['font.size'] = 14  # 글자 크기
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 깨짐 방지

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder  # 범주형 → 숫자형
from sklearn.preprocessing import StandardScaler  # 데이터 정규화

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split  # 데이터 분할

# 교차 검증
from sklearn.model_selection import cross_val_score  # 교차검증 점수
from sklearn.model_selection import cross_validate  # 교차검증 상세결과
from sklearn.model_selection import KFold  # K겹 검증
from sklearn.model_selection import StratifiedKFold  # 라벨 비율 유지한 K겹

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score  # 정확도
from sklearn.metrics import precision_score  # 정밀도
from sklearn.metrics import recall_score  # 재현율
from sklearn.metrics import f1_score  # F1 점수
from sklearn.metrics import roc_auc_score  # ROC AUC

# 회귀용
from sklearn.metrics import r2_score  # R² 결정계수
from sklearn.metrics import mean_squared_error  # 평균제곱오차

# 모델의 최적의 하이퍼 파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV  # 그리드서치

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier  # K-최근접 이웃
from sklearn.linear_model import LogisticRegression  # 로지스틱 회귀
from sklearn.svm import SVC  # 서포트 벡터 머신
from sklearn.tree import DecisionTreeClassifier  # 결정 트리
from sklearn.ensemble import RandomForestClassifier  # 랜덤 포레스트
from sklearn.ensemble import AdaBoostClassifier  # 아다부스트
from sklearn.ensemble import GradientBoostingClassifier  # 그래디언트 부스팅
from lightgbm import LGBMClassifier  # LightGBM 분류기
from xgboost import XGBClassifier  # XGBoost 분류기
from sklearn.ensemble import VotingClassifier  # 투표 기반 앙상블

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor  # K-최근접 회귀
from sklearn.linear_model import LinearRegression  # 선형 회귀
from sklearn.linear_model import Ridge  # 릿지 회귀
from sklearn.linear_model import Lasso  # 라쏘 회귀
from sklearn.linear_model import ElasticNet  # 엘라스틱넷 회귀
from sklearn.svm import SVR  # 서포트 벡터 회귀
from sklearn.tree import DecisionTreeRegressor  # 결정 트리 회귀
from sklearn.ensemble import RandomForestRegressor  # 랜덤 포레스트 회귀
from sklearn.ensemble import AdaBoostRegressor  # 아다부스트 회귀
from sklearn.ensemble import GradientBoostingRegressor  # 그래디언트 부스팅 회귀
from lightgbm import LGBMRegressor  # LightGBM 회귀
from xgboost import XGBRegressor  # XGBoost 회귀
from sklearn.ensemble import VotingRegressor  # 투표 기반 회귀 앙상블

# 차원 축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 학습 모델 저장을 위한 라이브러리
import pickle

### 데이터 준비

In [4]:
# parquet 파일 데이터를 읽어온다.
df1_train = pd.read_parquet('1.회원정보_train_filtered_data.parquet')

In [63]:
df2_train = pd.read_parquet('신용정보_VIF용5.parquet')

In [6]:
df3_train = pd.read_parquet('승인매출정보_변수추출_1차.parquet')

In [16]:
df4_train = pd.read_parquet('4.청구입금정보(train).parquet')

In [17]:
df5_train = pd.read_parquet('5.잔액정보(train).parquet')

In [18]:
df6_train = pd.read_parquet('6.채널정보_VIF용2.parquet')

In [57]:
df6_train

Unnamed: 0,기준년월,ID,인입횟수_ARS_R6M
0,201807,TRAIN_000000,10회 이상
1,201807,TRAIN_000001,1회 이상
2,201807,TRAIN_000002,1회 이상
3,201807,TRAIN_000003,10회 이상
4,201807,TRAIN_000004,1회 이상
...,...,...,...
2399995,201812,TRAIN_399995,1회 이상
2399996,201812,TRAIN_399996,1회 이상
2399997,201812,TRAIN_399997,1회 이상
2399998,201812,TRAIN_399998,1회 이상


In [65]:
merged_df1 = df1_train.merge(df2_train, how='inner', on=['ID', '기준년월'])

In [66]:
merged_df2 = merged_df1.merge(df3_train, how='inner', on=['ID', '기준년월'])

In [67]:
merged_df3 = merged_df2.merge(df4_train, how='inner', on=['ID', '기준년월'])

In [68]:
merged_df4 = merged_df3.merge(df5_train, how='inner', on=['ID', '기준년월'])

In [69]:
train_df = merged_df4.merge(df6_train, how='inner', on=['ID', '기준년월'])

In [70]:
train_df

Unnamed: 0,기준년월,ID,소지카드수_이용가능_신용,소지카드수_유효_신용,이용가능여부_해외겸용_본인,보유여부_해외겸용_본인,수신거부여부_TM,수신거부여부_메일,수신거부여부_DM,이용금액_R3M_신용체크,...,청구금액_R3M,청구금액_B0,할인건수_R3M,월중평잔_일시불_B0M,월중평잔_일시불,평잔_일시불_3M,잔액_일시불_B0M,잔액_일시불_B1M,잔액_일시불_B2M,인입횟수_ARS_R6M
0,201807,TRAIN_000000,1,1,0,0,0,0,0,196,...,46588,12226,1회 이상,1084,1503,1791,998,736,1083,10회 이상
1,201807,TRAIN_000001,1,1,0,0,0,0,0,13475,...,10530,5834,1회 이상,4090,4447,3761,2565,6795,1424,1회 이상
2,201807,TRAIN_000002,1,1,1,1,0,0,0,23988,...,85931,21866,1회 이상,5006,5540,6796,5312,5150,6143,1회 이상
3,201807,TRAIN_000003,2,2,1,1,0,0,0,3904,...,61518,16356,1회 이상,487,606,772,730,462,708,10회 이상
4,201807,TRAIN_000004,1,1,1,1,0,0,0,1190,...,0,0,1회 이상,0,0,0,0,0,0,1회 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2399995,201812,TRAIN_399995,1,1,1,1,0,0,0,10755,...,0,0,1회 이상,0,0,0,0,0,0,1회 이상
2399996,201812,TRAIN_399996,1,1,1,1,0,0,0,27636,...,37515,14402,1회 이상,4412,5515,9424,3351,4142,4362,1회 이상
2399997,201812,TRAIN_399997,1,1,1,1,1,1,1,23187,...,22274,5731,1회 이상,2694,3046,2998,2524,1523,2898,1회 이상
2399998,201812,TRAIN_399998,1,1,0,0,1,1,1,0,...,0,0,1회 이상,0,0,0,0,0,0,1회 이상


In [71]:
train_df.to_parquet("신용카드데이터.parquet", index=False)

In [26]:
# ID랑 기준년월 Drop
train_df = train_df.drop(['ID', '기준년월'], axis=1)

### 데이터 인코딩

In [33]:
# 컬럼들을 리스트에 담아 확인한다
column_list = train_df.columns.tolist()
column_list

['소지카드수_이용가능_신용',
 '소지카드수_유효_신용',
 '이용가능여부_해외겸용_본인',
 '보유여부_해외겸용_본인',
 '수신거부여부_TM',
 '수신거부여부_메일',
 '수신거부여부_DM',
 '이용금액_R3M_신용체크',
 '이용금액_R3M_신용',
 '_1순위카드이용금액',
 '이용카드수_신용체크',
 '_2순위카드이용금액',
 '_1순위카드이용건수',
 '_2순위카드이용건수',
 '이용카드수_신용',
 '상향가능한도금액',
 '상향가능CA한도금액',
 '정상청구원금_B5M',
 '정상청구원금_B0M',
 '정상청구원금_B2M',
 '이용금액_일시불_R12M',
 '이용금액_일시불_B0M',
 '이용금액_오프라인_B0M',
 '이용금액_일시불_R6M',
 '이용금액_일시불_R3M',
 '정상입금원금_B5M',
 '정상입금원금_B0M',
 '이용금액_오프라인_R3M',
 '이용금액_오프라인_R6M',
 '정상입금원금_B2M',
 '_3순위업종_이용금액',
 '_2순위업종_이용금액',
 '이용건수_신용_R12M',
 '_2순위쇼핑업종_이용금액',
 '최대이용금액_일시불_R12M',
 '이용건수_신판_R12M',
 '이용건수_일시불_R12M',
 '_1순위업종_이용금액',
 '_3순위쇼핑업종_이용금액',
 '이용가맹점수',
 '이용건수_오프라인_B0M',
 '이용건수_오프라인_R6M',
 '이용건수_오프라인_R3M',
 '쇼핑_도소매_이용금액',
 '이용건수_신용_R6M',
 '이용건수_신용_B0M',
 '이용건수_신용_R3M',
 '이용건수_신판_R6M',
 '이용건수_신판_B0M',
 '이용건수_신판_R3M',
 '이용건수_일시불_R6M',
 '이용건수_일시불_B0M',
 '이용건수_일시불_R3M',
 '_1순위교통업종_이용금액',
 '연체입금원금_B0M',
 '쇼핑_마트_이용금액',
 '쇼핑_슈퍼마켓_이용금액',
 '교통_주유이용금액',
 '이용금액_온라인_B0M',
 '연체입금원금_B5M',
 '연체입금원금_B2M',
 '이용금액_페이_온라인_B

In [37]:
# ID랑 기준년월 Drop
train_df = train_df.drop(['소지카드수_이용가능_신용', '소지카드수_유효_신용'], axis=1)

In [39]:
# 컬럼들을 리스트에 담아 확인한다
column_list = train_df.columns.tolist()
column_list

['이용가능여부_해외겸용_본인',
 '보유여부_해외겸용_본인',
 '수신거부여부_TM',
 '수신거부여부_메일',
 '수신거부여부_DM',
 '이용금액_R3M_신용체크',
 '이용금액_R3M_신용',
 '_1순위카드이용금액',
 '이용카드수_신용체크',
 '_2순위카드이용금액',
 '_1순위카드이용건수',
 '_2순위카드이용건수',
 '이용카드수_신용',
 '상향가능한도금액',
 '상향가능CA한도금액',
 '정상청구원금_B5M',
 '정상청구원금_B0M',
 '정상청구원금_B2M',
 '이용금액_일시불_R12M',
 '이용금액_일시불_B0M',
 '이용금액_오프라인_B0M',
 '이용금액_일시불_R6M',
 '이용금액_일시불_R3M',
 '정상입금원금_B5M',
 '정상입금원금_B0M',
 '이용금액_오프라인_R3M',
 '이용금액_오프라인_R6M',
 '정상입금원금_B2M',
 '_3순위업종_이용금액',
 '_2순위업종_이용금액',
 '이용건수_신용_R12M',
 '_2순위쇼핑업종_이용금액',
 '최대이용금액_일시불_R12M',
 '이용건수_신판_R12M',
 '이용건수_일시불_R12M',
 '_1순위업종_이용금액',
 '_3순위쇼핑업종_이용금액',
 '이용가맹점수',
 '이용건수_오프라인_B0M',
 '이용건수_오프라인_R6M',
 '이용건수_오프라인_R3M',
 '쇼핑_도소매_이용금액',
 '이용건수_신용_R6M',
 '이용건수_신용_B0M',
 '이용건수_신용_R3M',
 '이용건수_신판_R6M',
 '이용건수_신판_B0M',
 '이용건수_신판_R3M',
 '이용건수_일시불_R6M',
 '이용건수_일시불_B0M',
 '이용건수_일시불_R3M',
 '_1순위교통업종_이용금액',
 '연체입금원금_B0M',
 '쇼핑_마트_이용금액',
 '쇼핑_슈퍼마켓_이용금액',
 '교통_주유이용금액',
 '이용금액_온라인_B0M',
 '연체입금원금_B5M',
 '연체입금원금_B2M',
 '이용금액_페이_온라인_B0M',
 '_1순위쇼핑업종_이용금액',
 '연속유실적개월수_

In [41]:
train_df['이용금액대'] = train_df['이용금액대'].factorize()[0]
train_df['상향가능한도금액'] = train_df['상향가능한도금액'].factorize()[0]
train_df['상향가능CA한도금액'] = train_df['상향가능CA한도금액'].factorize()[0]
train_df['보유여부_해외겸용_본인'] = train_df['보유여부_해외겸용_본인'].factorize()[0]
train_df['이용가능여부_해외겸용_본인'] = train_df['이용가능여부_해외겸용_본인'].factorize()[0]
train_df['할인건수_R3M'] = train_df['할인건수_R3M'].factorize()[0]
train_df['인입횟수_ARS_R6M'] = train_df['인입횟수_ARS_R6M'].factorize()[0]
train_df['수신거부여부_TM'] = train_df['수신거부여부_TM'].factorize()[0]
train_df['수신거부여부_메일'] = train_df['수신거부여부_메일'].factorize()[0]
train_df['수신거부여부_DM'] = train_df['수신거부여부_DM'].factorize()[0]

In [47]:
train_df['상향가능CA한도금액'].value_counts()

상향가능CA한도금액
0    1092858
1     684390
2     500286
3     121872
4        594
Name: count, dtype: int64

### VIF 검사

In [49]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm

In [None]:
# 독립변수만 가져온다.
vif_X = train_df[['이용가능여부_해외겸용_본인','보유여부_해외겸용_본인','수신거부여부_TM',
 '수신거부여부_메일','수신거부여부_DM','이용금액_R3M_신용체크','이용금액_R3M_신용',
 '_1순위카드이용금액','이용카드수_신용체크','_2순위카드이용금액','_1순위카드이용건수',
 '_2순위카드이용건수','이용카드수_신용','상향가능한도금액','상향가능CA한도금액','정상청구원금_B5M','정상청구원금_B0M',
 '정상청구원금_B2M','이용금액_일시불_R12M','이용금액_일시불_B0M','이용금액_오프라인_B0M',
 '이용금액_일시불_R6M','이용금액_일시불_R3M','정상입금원금_B5M','정상입금원금_B0M','이용금액_오프라인_R3M',
'이용금액_오프라인_R6M','정상입금원금_B2M','_3순위업종_이용금액','_2순위업종_이용금액','이용건수_신용_R12M',
 '_2순위쇼핑업종_이용금액','최대이용금액_일시불_R12M','이용건수_신판_R12M','이용건수_일시불_R12M',
 '_1순위업종_이용금액','_3순위쇼핑업종_이용금액','이용가맹점수','이용건수_오프라인_B0M',
 '이용건수_오프라인_R6M','이용건수_오프라인_R3M','쇼핑_도소매_이용금액','이용건수_신용_R6M',
 '이용건수_신용_B0M','이용건수_신용_R3M','이용건수_신판_R6M','이용건수_신판_B0M','이용건수_신판_R3M',
 '이용건수_일시불_R6M','이용건수_일시불_B0M','이용건수_일시불_R3M','_1순위교통업종_이용금액','연체입금원금_B0M',
 '쇼핑_마트_이용금액','쇼핑_슈퍼마켓_이용금액','교통_주유이용금액','이용금액_온라인_B0M','연체입금원금_B5M',
 '연체입금원금_B2M','이용금액_페이_온라인_B0M','_1순위쇼핑업종_이용금액','연속유실적개월수_기본_24M_카드',
 '이용금액대','청구금액_R6M','청구금액_R3M','청구금액_B0','할인건수_R3M','월중평잔_일시불_B0M',
 '월중평잔_일시불','평잔_일시불_3M','잔액_일시불_B0M','잔액_일시불_B1M','잔액_일시불_B2M','인입횟수_ARS_R6M']]

# vif를 계산하기 위해 사용할 상수항을 추가한다.
vif_X2 = sm.add_constant(vif_X)

# vif를 계산한다
vif = pd.DataFrame()
vif['변수'] = vif_X2.columns
vif['VIF'] = [variance_inflation_factor(vif_X2.values, i) for i in range(vif_X2.shape[1])]
vif