In [None]:
# 라이브러리
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 불러오기
card_df = pd.read_csv('/content/drive/MyDrive/ML_perfectguide/creditcard.csv')
print(card_df.head(3))


In [None]:
print(card_df.shape)
print(card_df.isna().sum().sum())
print(card_df.info())


In [None]:
# 사전 데이터 가공 함수 정의
def get_preprocessed_df(df):
    df_copy = df.copy() # copy
    df_copy.drop('Time', axis=1, inplace=True) # Time 컬럼은 불필요하여 drop
    return df_copy


In [None]:
from sklearn.model_selection import train_test_split

# 사전 데이터 가공 > 학습, 테스트 데이터 세트를 분리 함수 정의
def get_train_test_dataset(df):

    # 사전 데이터 가공 함수 호출
    df_copy = get_preprocessed_df(df)
    
    # 타겟 피처 분리
    X_features = df_copy.iloc[:, :-1]
    y_target = df_copy.iloc[:, -1]
    
    # 학습, 테스트 데이터 분할 : stratify=y_target
    X_train, X_test, y_train, y_test = train_test_split(X_features, y_target, 
                                                        test_size=0.3, random_state=0, 
                                                        stratify=y_target)
    
    # 학습, 테스트 데이터 세트 반환
    return X_train, X_test, y_train, y_test


In [None]:
# 학습, 테스트 데이터 분리 함수 적용
X_train, X_test, y_train, y_test = get_train_test_dataset(card_df)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)


In [None]:
# 타겟 레이블 비율 확인 : stratify 설정으로 거의 유사
print('학습 데이터 타겟 레이블 값 비율')
print(y_train.value_counts()/y_train.shape[0] * 100) 
print('테스트 데이터 타겟 레이블 값 비율')
print(y_test.value_counts()/y_test.shape[0] * 100)


In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

# 분류모델 평가 함수 정의
def get_clf_eval(y_test, pred, pred_proba):
    confusion = confusion_matrix(y_test, pred)    # 오차행렬
    accuracy = accuracy_score(y_test , pred)      # 정확도
    precision = precision_score(y_test , pred)    # 정밀도
    recall = recall_score(y_test , pred)          # 재현율
    f1 = f1_score(y_test,pred)
                    
    roc_auc = roc_auc_score(y_test, pred_proba)   # auc 스코어
    
    print('오차 행렬')
    print(confusion)
    print('정확도: {:.4f}, 정밀도: {:.4f}, 재현율: {:.4f}, F1: {:.4f}, AUC 스코어:{:.4f}'
          .format(accuracy, precision, recall, f1, roc_auc))


In [None]:
# 모델 생성 및 학습/예측/평가 함수 정의
def get_model_train_eval(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    pred_proba = model.predict_proba(X_test)[:, 1]
    get_clf_eval(y_test, pred, pred_proba)


In [None]:
from sklearn.linear_model import LogisticRegression
# LogisticRegression 모델
lr_clf = LogisticRegression()
get_model_train_eval(lr_clf, X_train, X_test, y_train, y_test)


In [None]:
from lightgbm import LGBMClassifier
# LGBMClassifier 모델 : 불균형 레이블 데이터일 경우 boost_from_average=False 설정 필요
lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, 
                          boost_from_average=False) 
get_model_train_eval(lgbm_clf, X_train, X_test, y_train, y_test)


In [None]:
# 피처 중요도 시각화
from lightgbm import plot_importance

fig, ax = plt.subplots(figsize=(10, 6))
plot_importance(lgbm_clf, ax=ax)
