In [1]:
# 기본
import pandas as pd  # 데이터프레임 처리
import numpy as np  # 수치 계산
import matplotlib.pyplot as plt  # 데이터 시각화
import seaborn as sns  # 고급 시각화

# 경고 뜨지 않게 설정
import warnings  # 경고 무시 설정
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6  # 그래프 크기 설정
plt.rcParams['font.size'] = 14  # 글자 크기
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 깨짐 방지

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder  # 범주형 → 숫자형
from sklearn.preprocessing import StandardScaler  # 데이터 정규화

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split  # 데이터 분할

# 교차 검증
from sklearn.model_selection import cross_val_score  # 교차검증 점수
from sklearn.model_selection import cross_validate  # 교차검증 상세결과
from sklearn.model_selection import KFold  # K겹 검증
from sklearn.model_selection import StratifiedKFold  # 라벨 비율 유지한 K겹

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score  # 정확도
from sklearn.metrics import precision_score  # 정밀도
from sklearn.metrics import recall_score  # 재현율
from sklearn.metrics import f1_score  # F1 점수
from sklearn.metrics import roc_auc_score  # ROC AUC

# 회귀용
from sklearn.metrics import r2_score  # R² 결정계수
from sklearn.metrics import mean_squared_error  # 평균제곱오차

# 모델의 최적의 하이퍼 파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV  # 그리드서치

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier  # K-최근접 이웃
from sklearn.linear_model import LogisticRegression  # 로지스틱 회귀
from sklearn.svm import SVC  # 서포트 벡터 머신
from sklearn.tree import DecisionTreeClassifier  # 결정 트리
from sklearn.ensemble import RandomForestClassifier  # 랜덤 포레스트
from sklearn.ensemble import AdaBoostClassifier  # 아다부스트
from sklearn.ensemble import GradientBoostingClassifier  # 그래디언트 부스팅
from lightgbm import LGBMClassifier  # LightGBM 분류기
from xgboost import XGBClassifier  # XGBoost 분류기
from sklearn.ensemble import VotingClassifier  # 투표 기반 앙상블

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor  # K-최근접 회귀
from sklearn.linear_model import LinearRegression  # 선형 회귀
from sklearn.linear_model import Ridge  # 릿지 회귀
from sklearn.linear_model import Lasso  # 라쏘 회귀
from sklearn.linear_model import ElasticNet  # 엘라스틱넷 회귀
from sklearn.svm import SVR  # 서포트 벡터 회귀
from sklearn.tree import DecisionTreeRegressor  # 결정 트리 회귀
from sklearn.ensemble import RandomForestRegressor  # 랜덤 포레스트 회귀
from sklearn.ensemble import AdaBoostRegressor  # 아다부스트 회귀
from sklearn.ensemble import GradientBoostingRegressor  # 그래디언트 부스팅 회귀
from lightgbm import LGBMRegressor  # LightGBM 회귀
from xgboost import XGBRegressor  # XGBoost 회귀
from sklearn.ensemble import VotingRegressor  # 투표 기반 회귀 앙상블

# 차원 축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 학습 모델 저장을 위한 라이브러리
import pickle

### 데이터 준비

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# parquet 파일 데이터를 읽어온다.
df1_train = pd.read_parquet('/content/drive/MyDrive/test데이터/1.회원정보_test_filtered_data.parquet')

In [4]:
df2_train = pd.read_parquet('/content/drive/MyDrive/test데이터/2.신용정보_TEST_통합2.parquet')

In [5]:
df3_train = pd.read_parquet('/content/drive/MyDrive/test데이터/3.승인매출정보_test.parquet')

In [6]:
df4_train = pd.read_parquet('/content/drive/MyDrive/test데이터/4.청구입금정보(test).parquet')

In [7]:
df5_train = pd.read_parquet('/content/drive/MyDrive/test데이터/5.잔액정보(test).parquet')

In [8]:
df6_train = pd.read_parquet('/content/drive/MyDrive/test데이터/6.채널정보_TEST_통합2.parquet')

In [9]:
df6_train

Unnamed: 0,기준년월,인입횟수_ARS_R6M
0,201807,1회 이상
1,201807,1회 이상
2,201807,1회 이상
3,201807,1회 이상
4,201807,1회 이상
...,...,...
599995,201812,1회 이상
599996,201812,1회 이상
599997,201812,1회 이상
599998,201812,1회 이상


In [10]:
merged_df1 = df1_train.merge(df2_train, how='inner', on=['ID', '기준년월'])

In [11]:
merged_df2 = merged_df1.merge(df3_train, how='inner', on=['ID', '기준년월'])

In [12]:
merged_df3 = merged_df2.merge(df4_train, how='inner', on=['ID', '기준년월'])

In [13]:
merged_df4 = merged_df3.merge(df5_train, how='inner', on=['ID', '기준년월'])

In [14]:
test_df = pd.concat([merged_df4, df6_train['인입횟수_ARS_R6M']], axis=1)

In [15]:
test_df

Unnamed: 0,기준년월,ID,소지카드수_이용가능_신용,소지카드수_유효_신용,이용가능여부_해외겸용_본인,보유여부_해외겸용_본인,수신거부여부_TM,수신거부여부_메일,수신거부여부_DM,이용금액_R3M_신용체크,...,청구금액_R3M,청구금액_B0,할인건수_R3M,월중평잔_일시불_B0M,월중평잔_일시불,평잔_일시불_3M,잔액_일시불_B0M,잔액_일시불_B1M,잔액_일시불_B2M,인입횟수_ARS_R6M
0,201807,TEST_00000,2,2,1,1,1,1,1,21458,...,11441,4931,1회 이상,6412,5187,3841,4802,2277,0,1회 이상
1,201807,TEST_00001,1,1,1,1,0,0,0,18681,...,20522,10152,1회 이상,1010,865,844,1201,1467,544,1회 이상
2,201807,TEST_00002,2,2,0,0,0,0,0,40758,...,50508,13223,1회 이상,4407,5591,5606,3046,2496,3096,1회 이상
3,201807,TEST_00003,1,1,1,1,0,0,0,5255,...,4604,2112,1회 이상,1107,1545,1510,768,675,1035,1회 이상
4,201807,TEST_00004,1,1,1,1,1,1,1,16148,...,6788,4406,1회 이상,1072,1462,1373,637,1395,620,1회 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
599995,201812,TEST_99995,0,0,0,0,0,0,0,0,...,0,0,1회 이상,0,0,0,0,0,0,1회 이상
599996,201812,TEST_99996,1,1,0,0,0,0,0,3110,...,1256,359,1회 이상,260,256,237,191,180,238,1회 이상
599997,201812,TEST_99997,1,1,0,0,0,0,0,0,...,0,0,1회 이상,0,0,0,0,0,0,1회 이상
599998,201812,TEST_99998,3,3,1,1,1,1,1,173263,...,48141,21273,1회 이상,16911,14005,17039,17916,18779,14586,1회 이상


In [18]:
# ID랑 기준년월 Drop
test_df = test_df.drop(['소지카드수_이용가능_신용', '소지카드수_유효_신용'], axis=1)

In [20]:
test_df.to_parquet("/content/drive/MyDrive/test데이터/신용카드데이터_test.parquet", index=False)

In [17]:
10/0

ZeroDivisionError: division by zero

In [None]:
# ID랑 기준년월 Drop
test_df = train_df.drop(['ID', '기준년월'], axis=1)

### 데이터 인코딩

In [None]:
# 컬럼들을 리스트에 담아 확인한다
column_list = train_df.columns.tolist()
column_list

In [None]:
# ID랑 기준년월 Drop
train_df = train_df.drop(['소지카드수_이용가능_신용', '소지카드수_유효_신용'], axis=1)

In [None]:
# 컬럼들을 리스트에 담아 확인한다
column_list = train_df.columns.tolist()
column_list

In [None]:
train_df['이용금액대'] = train_df['이용금액대'].factorize()[0]
train_df['상향가능한도금액'] = train_df['상향가능한도금액'].factorize()[0]
train_df['상향가능CA한도금액'] = train_df['상향가능CA한도금액'].factorize()[0]
train_df['보유여부_해외겸용_본인'] = train_df['보유여부_해외겸용_본인'].factorize()[0]
train_df['이용가능여부_해외겸용_본인'] = train_df['이용가능여부_해외겸용_본인'].factorize()[0]
train_df['할인건수_R3M'] = train_df['할인건수_R3M'].factorize()[0]
train_df['인입횟수_ARS_R6M'] = train_df['인입횟수_ARS_R6M'].factorize()[0]
train_df['수신거부여부_TM'] = train_df['수신거부여부_TM'].factorize()[0]
train_df['수신거부여부_메일'] = train_df['수신거부여부_메일'].factorize()[0]
train_df['수신거부여부_DM'] = train_df['수신거부여부_DM'].factorize()[0]

In [None]:
train_df['상향가능CA한도금액'].value_counts()