In [None]:
# StandScaler 적용

# 로그 변환 적용
# 이상치 제거 적용

# 오버샘플링 적용 
# 업무 특징상 재현율을 높여야 하는 경우가 있는데, 그때 오버 샘플링을 사용
# 재현율이 보통 중요한 지표 (꼭 그런 것은 아니지만)

In [None]:
##########################################################################
# 심하게 불균형 되어 있는 데이터 셋
# 284,807건의 데이터 중 492건이 Fraud임. 전체의 0.172% 

# feature engineering 방식을 차례로 Logistic Regression과 LightGBM을 이용하여 적용 후 비교
# 1. 중요 feature의 데이터 분포도 변경 (정규분포, log변환)
# 2. 이상치 제거 (outlier)
# 3. SMOTE 오버 샘플링 

# 4. Logistic Regression (이진 classification)
# 5. LightGBM

In [None]:
##########################################################################
# Log 변환
# 왜곡된 분포도를 가진 데이터 세트를 비교적 정규 분포에 가깝게 변환해주는 훌륭한 Feature Engineering 방식

# IQR(Inter Quantile Range)를 이용한 Outlier Removal
# 이상치 : Q3 +1.5*IQR (최댓값), Q1 - 1.5*IQR (최솟값)의 범위를 넘어갈 때 
# IQR = Q3 - Q1

# 언더 샘플링(undersampling), 오버샘플링 (oversampling)
# 1. 레이블이 불균형한 분포를 가진 데이터 학습 시, 이상 레이블을 가진 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어려움..
# 2. 반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우친 학습을 수행하여, 제대로된 이상 데이터 검출이 어려움.
# 3. 대표적으로 oversampling과 undersampling이 있음.
# oversampling -> 적은 레이블을 가진 데이터 세트를 많은 레이블을 가진 데이터 세트 수준으로 증식.
# undersampling -> 많은 레이블을 가진 데이터 세트를 적은 레이블 세트를 가진 데이터 세트 수준으로 감소 샘플링.

# SMOTE(Synthetic Minority Over-sampling Technique) 개요
# 1. k 최근접 이웃으로 데이터 신규 증식
# 2. 신규 증식하여 오버 샘플링 완료

In [None]:
# 예제 데이터
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

card_df = pd.read_csv('./creditcard.csv')
card_df.head(3)

In [None]:
### amount에 standardscaler 적용 ###
from sklearn.preprocessing import StandardScaler

# 사전 feature engineering 함수
def get_preprocessed_df(df=None):
    df_copy = df.copy()
    scaler = StandardScaler()                         # ndarray -> 2차원
    amount_n = scaler.fit_transform(df_copy['Amount'].values.reshape(-1,1))
    # 변환된 Amount를 Amount_Scaled로 피처명 변경후 DataFrame맨 앞 컬럼으로 입력
    df_copy.insert(0, 'Amount_Scaled', amount_n)
    # 기존 Time, Amount 피처 삭제
    df_copy.drop(['Time', 'Amount'], axis=1, inplace=True)
    return df_copy

# train, test 데이터 셋을 반환하는 함수
def get_train_test_dataset(df=None):
    df_copy = get_preprocessed_df(df)
    
    X_features = df_copy.iloc[:, :-1]
    y_target = df_copy.iloc[:, -1]
    
    X_train, X_test, y_train, y_test = train_test_split(X_features, y_target, test_size=.3, random_state=0,
                                                        stratify=y_target) # stratify 꼭 적어주기
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = get_train_test_dataset(card_df)

# 모델을 학습/예측/평가하는 함수
def get_model_train_eval(model, ftr_train=None, ftr_test=None, tgt_train=None, tgt_test=None):
    model.fit(ftr_train, tgt_train)
    pred = model.predict(ftr_test)
    pred_proba = model.predict_proba(ftr_test)[:, 1]
    get_clf_eval(tgt_test, pred, pred_proba)

# 로지스틱 회귀 성능 예측
lr_clf = LogisticRegression(max_iter=1000)
get_model_train_eval(lr_clf, ftr_train = X_train, ftr_test = X_test, tgt_train = y_train, tgt_test = y_test)

# lightGBM 예측 성능
# class가 극도로 불균형 하기 때문에 boost_from_average=False로 지정
lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False)
get_model_train_eval(lgbm_clf, ftr_train = X_train, ftr_test = X_test, tgt_train = y_train, tgt_test = y_test)

In [None]:
### amount를 로그변환 ###

def get_preprocessed_df(df=None):
    df_copy = df.copy()
    # numpy의 log1p()를 이용하여 amount를 로그변환 -> log(x + 1)
    # 무한대의 값이 안나오도록 하기 위하여 log1p를 사용함
    amount_n = np.log1p(df_copy['Amount'])
    df_copy.insert(0, 'Amount_Scaled', amount_n)
    # 기존 Time, Amount 피처 삭제
    df_copy.drop(['Time', 'Amount'], axis=1, inplace=True)
    return df_copy

def get_train_test_dataset(df=None):
    df_copy = get_preprocessed_df(df)
    
    X_features = df_copy.iloc[:, :-1]
    y_target = df_copy.iloc[:, -1]
    
    X_train, X_test, y_train, y_test = train_test_split(X_features, y_target, test_size=.3, random_state=0,
                                                        stratify=y_target) # stratify 꼭 적어주기
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = get_train_test_dataset(card_df)

# 로지스틱 회귀 성능 예측
lr_clf = LogisticRegression(max_iter=1000)
get_model_train_eval(lr_clf, ftr_train = X_train, ftr_test = X_test, tgt_train = y_train, tgt_test = y_test)

# lightGBM 예측 성능
lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False)
get_model_train_eval(lgbm_clf, ftr_train = X_train, ftr_test = X_test, tgt_train = y_train, tgt_test = y_test)

In [None]:
import numpy as np

# 이상치 제거 함수. 
def get_outlier(df=None, column=None, weight=1.5):
    # fraud에 해당하는 column 데이터만 추출, 1/4 분위와 3/4 분위 지점을 np.percentile로 구함. 
    fraud = df[df['Class']==1][column]
    quantile_25 = np.percentile(fraud.values, 25)
    quantile_75 = np.percentile(fraud.values, 75)
    # IQR을 구하고, IQR에 1.5를 곱하여 최대값과 최소값 지점 구함. 
    iqr = quantile_75 - quantile_25
    iqr_weight = iqr * weight
    lowest_val = quantile_25 - iqr_weight
    highest_val = quantile_75 + iqr_weight
    # 최대값 보다 크거나, 최소값 보다 작은 값을 아웃라이어로 설정하고 DataFrame index 반환. 
    outlier_index = fraud[(fraud < lowest_val) | (fraud > highest_val)].index
    return outlier_index


# 이상치 데이터 제거 후 모델 학습/예측/평가
# 각 피처들의 상관 관계를 시각화, 결정 레이블인 class 값과 가장 상관도가 높은 피처 추출
import seaborn as sns

plt.figure(figsize=(12, 12))
corr = card_df.corr()
sns.heatmap(corr, annot=True, fmt='.1f',  cmap='RdBu')


# get_processed_df( )를 로그 변환 후 V14 피처의 이상치 데이터를 삭제하는 로직으로 변경. 
# 이상치를 너무 많이 제거하면 성능이 떨어질 수 있음.
# 이상치를 기준에서만 제거

def get_preprocessed_df(df=None):
    df_copy = df.copy()
    amount_n = np.log1p(df_copy['Amount'])
    df_copy.insert(0, 'Amount_Scaled', amount_n)
    df_copy.drop(['Time','Amount'], axis=1, inplace=True)
    # 이상치 데이터 삭제하는 로직 추가
    outlier_index = get_outlier(df=df_copy, column='V14', weight=1.5)
    df_copy.drop(outlier_index, axis=0, inplace=True)
    return df_copy

X_train, X_test, y_train, y_test = get_train_test_dataset(card_df)
print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)
print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)


In [None]:
## 오버 샘플링 ##
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=0)
# over_sampling된 값 반환
X_train_over, y_train_over = smote.fit_resample(X_train, y_train)

# 하지만 결괏값에서 정밀도가 굉장히 낮음.
# 재현율은 높음. 
# 로짓
lr_clf = LogisticRegression(max_iter=1000)
get_model_train_eval(lr_clf, ftr_train=X_train_over, ftr_test = X_test, tgt_train=y_train_over, tgt_test=y_test)
# lightGBM
lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False)
get_model_train_eval(lgbm_clf, ftr_train=X_train_over, ftr_test=X_test,
                  tgt_train=y_train_over, tgt_test=y_test)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from sklearn.metrics import precision_recall_curve
%matplotlib inline

def precision_recall_curve_plot(y_test , pred_proba_c1):
    # threshold ndarray와 이 threshold에 따른 정밀도, 재현율 ndarray 추출. 
    precisions, recalls, thresholds = precision_recall_curve( y_test, pred_proba_c1)
    
    # X축을 threshold값으로, Y축은 정밀도, 재현율 값으로 각각 Plot 수행. 정밀도는 점선으로 표시
    plt.figure(figsize=(8,6))
    threshold_boundary = thresholds.shape[0]
    plt.plot(thresholds, precisions[0:threshold_boundary], linestyle='--', label='precision')
    plt.plot(thresholds, recalls[0:threshold_boundary],label='recall')
    
    # threshold 값 X 축의 Scale을 0.1 단위로 변경
    start, end = plt.xlim()
    plt.xticks(np.round(np.arange(start, end, 0.1),2))
    
    # x축, y축 label과 legend, 그리고 grid 설정
    plt.xlabel('Threshold value'); plt.ylabel('Precision and Recall value')
    plt.legend(); plt.grid()
    plt.show()
    
precision_recall_curve_plot(y_test, lr_clf.predict_proba(X_test)[:,1])