## 캐글 신용카드 사기 검출 분류 모델
#### 데이터 1차 가공 및 모델 학습 평가

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')   # warning 메세지 출력을 하지 않도록설정

# https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets/notebook

card_df =pd.read_csv('./creditcard.csv')
card_df

In [None]:
from sklearn.model_selection import train_test_split

# 'Time' 컬럼만 삭제
def get_preprocessed_df(df=None):
    df_copy = df.copy()
    df_copy.drop('Time',axis = 1, inplace =True)
    print(df_copy.shape)
    print(df_copy.iloc[:,-1].value_counts())
    return df_copy

In [None]:
# train, test 데이터 세트를 분리하여 반환 : [70:30]
def get_train_test_dataset(df=None):
    df_copy = get_preprocessed_df(df)
    
    X_features = df_copy.iloc[:,:-1]
    y_target = df_copy.iloc[:,-1]
    
    # Stratified 방식으로 추출  (0과 1 비율이  0.998:0.001)
    X_train,X_test,y_train,y_test = \
    train_test_split(X_features,y_target, test_size=0.3,random_state=0, stratify=y_target)
    
    return X_train,X_test,y_train,y_test

X_train,X_test,y_train,y_test = get_train_test_dataset(card_df)

In [None]:
print('train 데이터 레이불 값 비율')
print(y_train.value_counts()/y_train.shape[0] * 100)

print('test 데이터 레이불 값 비율')
print(y_test.value_counts()/y_test.shape[0] * 100)
# y_train.shape,y_test.shape

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score,confusion_matrix

def get_clf_eval(y_test,pred):
    confusion = confusion_matrix(y_test,pred)
    accuracy = accuracy_score(y_test,pred)
    precision = precision_score(y_test,pred)
    recall = recall_score(y_test,pred)
    f1 = f1_score(y_test,pred)   
    roc_auc = roc_auc_score(y_test,pred)
    
    print('오차행렬')
    print(confusion)
    print('정확도:{0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1:{3:.4f}, AUC:{4:.4f}'.format(accuracy,precision,recall,f1,roc_auc))
    

In [None]:
from sklearn.linear_model import LogisticRegression
lr_clf = LogisticRegression()  # 0과 1 처럼 2진 분류

# 학습(training)
lr_clf.fit(X_train,y_train)

# 예측(prdict)
lr_pred = lr_clf.predict(X_test)

# 평가
get_clf_eval(y_test,lr_pred)

In [None]:
# 인자로 사이킷런의 Estimator객체와, 학습/테스트 데이터 세트를 입력 받아서 학습/예측/평가 수행.
def get_model_train_eval(model, ftr_train=None, ftr_test=None, tgt_train=None, tgt_test=None):
    model.fit(ftr_train, tgt_train)
    pred = model.predict(ftr_test)
    get_clf_eval(tgt_test, pred )

In [None]:
# ! pip install lightgbm
from lightgbm import LGBMClassifier

lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False)
get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

### 데이터의 분포를 변환하여 학습/예측/평가

In [None]:
import seaborn as sns

plt.figure(figsize=(8,4))
plt.xticks(range(0,30000,1000),rotation=60)
sns.distplot(card_df['Amount'])  # 카드 사용금액
plt.show()
card_df['Amount'].value_counts()

In [None]:
# 정규분포 형태로 변환
from sklearn.preprocessing import StandardScaler

def get_preprocessed_df(df=None):
    df_copy = df.copy()
    scaler = StandardScaler()
    amount_n = scaler.fit_transform(df_copy['Amount'].values.reshape(-1,1))
    df_copy.insert(0,'Amount_Scaled',amount_n)  # 변환된 결과를 0번 컬럼에  추가
    df_copy.drop(['Time','Amount'], axis=1,inplace=True)
    return df_copy

df_copy = get_preprocessed_df(card_df)
plt.figure(figsize=(8,4))
plt.xticks(range(0,200,10),rotation=60)
sns.distplot(df_copy['Amount_Scaled'])  # 카드 사용금액
plt.show()
df_copy['Amount_Scaled'].value_counts()
df_copy['Amount_Scaled'].max()

df_copy

In [None]:
# 'Amount'를 정규분포 형태로 변환 후 학습및 예측 수행
X_train,X_test,y_train,y_test = get_train_test_dataset(card_df)

print('### 로지스틱 회귀 예측 성능 ###')
lr_clf = LogisticRegression()
get_model_train_eval(lr_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
lgbm_clf = LGBMClassifier(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False)
get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

# 결과: 성능 개선이 거의 없다

In [None]:
## log 변환 후 학습및 예측 수행
def get_preprocessed_df(df=None):
    df_copy = df.copy()
    amount_n = np.log1p(df_copy['Amount'])   # np.log(0) = 무한대, np.log1p(0) ==> np.log(0 + 1)
    df_copy.insert(0,'Amount_Scaled',amount_n)
    df_copy.drop(['Time','Amount'], axis=1,inplace=True)
    return df_copy

df_copy = get_preprocessed_df(card_df)
plt.figure(figsize=(8,4))
plt.xticks(range(0,100,1),rotation=60)
sns.distplot(df_copy['Amount_Scaled'])  # 카드 사용금액
plt.show()
df_copy['Amount_Scaled'].value_counts()
df_copy['Amount_Scaled'].max()

In [None]:
# log 변환 후 학습및 예측 수행
X_train,X_test,y_train,y_test = get_train_test_dataset(card_df)

print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

# LightGBM 결과: 약간 성능 개선  , AUC:0.8783 --> AUC:0.8817

## 이상치 제거 후  모델 학습및 예측 수행
## IQR(Inter Quantile Range)

In [None]:
import seaborn as sns

plt.figure(figsize=(9,9))
corr = card_df.corr()
sns.heatmap(corr,cmap='RdBu')
plt.show()
corr

In [None]:
import numpy as np

def get_outlier(df=None,column=None, weight=1.5):
    # fraud에 해당하는 column 데이터만 추출, 1/4 분위수와 3/4 분위수를 np.percentile로 구함
    fraud =  df[df['Class'] == 1][column]
    quantile_25 = np.percentile(fraud.values,25)   # Q1
    quantile_75 = np.percentile(fraud.values,75)   # Q3
    
    iqr = quantile_75 - quantile_25
    
    lowest_val = quantile_25 - iqr*weight   # 최소값 지점  : Q1 - IQR*1.5
    highest_val = quantile_75 + iqr*weight   # 최대값 지점 : Q3 + IQR*1.5
    print(lowest_val,highest_val)
    outlier_index = fraud[(fraud < lowest_val) | (fraud > highest_val)].index
    return outlier_index

#     normal_data = fraud[(fraud >= lowest_val) & (fraud <= highest_val)] # 극단치가 아닌값만 추출


In [None]:
outlier_index = get_outlier(df=card_df, column='V14',weight=1.5)
print('이상치 인덱스:',outlier_index)
card_df['V14'][outlier_index]

In [None]:
## log 변환 및 이상치 제거 학습및 예측 수행
def get_preprocessed_df(df=None):
    df_copy = df.copy()
    amount_n = np.log1p(df_copy['Amount'])   # np.log(0) = 무한대, np.log1p(0) ==> np.log(0 + 1)
    df_copy.insert(0,'Amount_Scaled',amount_n)
    df_copy.drop(['Time','Amount'], axis=1,inplace=True)
   
    # 이상치 데이터 행을 모두 삭제하는 코드를 추가
    outlier_index = get_outlier(df=card_df, column='V14',weight=1.5)
    df_copy.drop(outlier_index,axis=0,inplace=True)
    return df_copy

# log 변환 및 이상치 제거후 학습및 예측 수행
X_train,X_test,y_train,y_test = get_train_test_dataset(card_df)

print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)

# LightGBM 결과: 성능 크게 개선  , AUC:0.8817 --> AUC:0.9144

# 'V17' 등 상관계수 값이 큰 컬럼들의 이상치를 제거하여 모델을 구현하면 성능 향상 기대됨(로그변환 포함):숙제

#### SMOTE(Synthetic Minority Over-Sampling Technique)오버 샘플링 적용 후 모델 학습/예측/평가
#### : 적은 데이터셋을 증식하여 학습을 위한 충분한 데이터를 확보
#### https://mkjjo.github.io/python/2019/01/04/smote_duplicate.html

In [None]:
# ! pip install imblearn
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=0)
X_train_over,y_train_over = smote.fit_sample(X_train,y_train)

print('SMOTE 적용 전 데이터: ',X_train.shape, y_train.shape)
print('SMOTE 적용 후 데이터: ',X_train_over.shape, y_train_over.shape)

print('SMOTE 적용 전 레이블 값 분포:\n ', y_train.value_counts())
print('SMOTE 적용 후 레이블 값 분포:\n ', pd.Series(y_train_over).value_counts())    # 50:50으로 label이 재 설정
# print(type(y_train_over))  # ndarray 는 value_counts() 안됨

In [None]:
print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train_over, ftr_test=X_test, tgt_train=y_train_over, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train_over, ftr_test=X_test, tgt_train=y_train_over, tgt_test=y_test)

# LightGBM 결과: 성능 크게 개선
# SMOTE를 적용하면 재현율은 높아지나 정밀도는 낮아짐 (실제 원본 보다 Class=1 인 데이터를  너무 많이 학습한 결과임)
# https://joonable.tistory.com/27

### 비지도 학습: 차원 축소, 군집화
#### 차원 축소 : PCA(Principle component Analysis,주성분 분석)
####   이미지 데이터, 자연언어 텍스트 의미 분석, 과적합(Overfitting)을 방지할수 있다

In [None]:
# PCA 변환
from sklearn.decomposition import PCA

pca = PCA(n_components = 7) # 축소될 차원 설정 : 7차원
pca.fit(X_train)
X_train_pca = pca.transform(X_train)
print('PCA 차원 축소 전:', X_train.shape)
print('PCA 차원 축소 후:', X_train_pca.shape)

pca.fit(X_test)
X_test_pca = pca.transform(X_test)
print('PCA 차원 축소 전:', X_test.shape)
print('PCA 차원 축소 후:', X_test_pca.shape)

In [None]:
print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train_pca, ftr_test=X_test_pca, tgt_train=y_train, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train_pca, ftr_test=X_test_pca, tgt_train=y_train, tgt_test=y_test)

# LightGBM 결과:  개선 없음

In [None]:
# PCA 변환 , SMOTE 오버샘플링 데이터 사용
from sklearn.decomposition import PCA

pca = PCA(n_components = 7) # 축소될 차원 설정 : 7차원
pca.fit(X_train_over)
X_train_pca = pca.transform(X_train_over)
print('PCA 차원 축소 전:', X_train_over.shape)
print('PCA 차원 축소 후:', X_train_pca.shape)

pca.fit(X_test)
X_test_pca = pca.transform(X_test)
print('PCA 차원 축소 전:', X_test.shape)
print('PCA 차원 축소 후:', X_test_pca.shape)

print('### 로지스틱 회귀 예측 성능 ###')
get_model_train_eval(lr_clf, ftr_train=X_train_pca, ftr_test=X_test_pca, tgt_train=y_train_over, tgt_test=y_test)

print('### LightGBM 예측 성능 ###')
get_model_train_eval(lgbm_clf, ftr_train=X_train_pca, ftr_test=X_test_pca, tgt_train=y_train_over, tgt_test=y_test)

# LightGBM 결과:  개선 없음