#  신용 카드 이상 거래 탐지 - 전통적 ML 지도학습

## Logistic Regression, Random Forest, KNN + Over/Under-sampling

- 극도로 편향된 신용카드 사기 거래 data 분류 - 지도학습 모델  

- Highly Imbalanced Dataset - 284,807 거래 건 중 492 개의 사기거래 존재


- [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud) - Kaggle


- Highly Imbalanced Dataset - dataset는 2013 년 9 월 유럽 카드 소지자 신용 카드 거래로 만들었습니다. 이 dataset는 2 일 동안 발생한 거래를 보여 주며, 284,807 건의 거래 중 492 건의 fraud가 있습니다. 데이터세트는 매우 불균형하며 포지티브 클래스(사기)는 모든 거래의 0.172 %를 차지합니다.


- 이 dataset는 PCA 변환의 결과인 숫자 입력 변수만 포함합니다. 기밀 유지 문제로 인해 데이터에 대한 원래 feature와 추가 background 정보는 제공되지 않습니다. 특성 V1, V2, ... V28은 PCA로 얻은 principal component이며 PCA로 변환되지 않은 유일한 기능은 'Time' 과 'Amount' 입니다. 'Time' 특성은 각 트랜잭션과 데이터 세트의 첫 번째 트랜잭션 사이에 경과된 시간(초) 입니다. 'Amount' 특성은 거래금액 입니다.  'Class'는 사기의 경우 1, 그렇지 않으면 0 입니다.


- 클래스 불균형 비율이 주어지면 Area Under the Precision-Recall Curve (AUPRC)을 사용하여 정확도를 측정하는 것이 좋습니다. 불균형 data 분류에는 confusion matrix 정확도가 의미가 없습니다.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
from sklearn.metrics import confusion_matrix, f1_score
from sklearn.metrics import  accuracy_score, precision_score, recall_score, \
                            roc_curve, roc_auc_score
import seaborn as sns
from collections import Counter

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

mpl.rcParams['figure.figsize'] = (12, 10)

SyntaxError: trailing comma not allowed without surrounding parentheses (211231286.py, line 6)

### Kaggle Credit Card Fraud dataset 다운로드

In [None]:
df = pd.read_csv('https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv')

df.head()

In [None]:
df['Class'].value_counts()

In [None]:
neg, pos = df['Class'].value_counts().values.tolist()
total = neg + pos
print(f'Total 건수: {total}\nPositive 건수/비율: {pos} ({pos/total*100:.2f}%)')

## Data 전처리 

- 2 일 동안의 data가 00:00:00 부터 발생했으므로 Time을 일중 시간으로 변경 : time / 3600 초 % 24 시간  
- Amount column 은 편차가 크므로 log-scale 로 변환

In [None]:
cleaned_df = df.copy()

# Time 을 일중 시간으로 변환
cleaned_df.loc[:, "Time"] = \
cleaned_df.loc[:, "Time"].apply(lambda x : x / 3600 % 24) 

# Amount column 은 편차가 크므로 log-scale 로 변환
eps=0.001     
cleaned_df['Amount'] = np.log(cleaned_df.pop('Amount') + eps)

cleaned_df.head()

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 3))
df['Amount'].plot(kind='hist', ax=ax1)
cleaned_df['Amount'].plot(kind='hist', ax=ax2)

In [None]:
labels = np.array(cleaned_df.pop('Class'))
labels

In [None]:
features = cleaned_df.values
features.shape

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x=labels)

### Dataset 을 Training 과 Test set 으로 분리

In [None]:
X_train, X_test, y_train, y_test = train_test_split(features, labels, 
                         test_size=0.5, random_state=0, stratify=labels)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
print("전체 data의 positive 건수 : ", Counter(labels))
print("Train set 의 positive 건수 : ", Counter(y_train))
print("Test set 의 positive 건수 : ", Counter(y_test))

### Feature Scaling

In [None]:
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test  = sc.transform(X_test)

## 1-1. Logistic Regression model 학습

In [None]:
lr  = LogisticRegression(random_state=0)
lr.fit(X_train, y_train)

### 훈련된 모델을 이용하여 Test set 예측
- predict_proba() - class 의 probability 반환 ([negative 확률, positive 확률])

In [None]:
y_pred_prob = lr.predict_proba(X_test)[:, 1]

In [None]:
y_pred = y_pred_prob > 0.5

print("Test set positive 건수 = ", sum(y_test))
print("Predicted positive 건수 = ", sum(y_pred))
print("accuracy = {:.5f}".format(accuracy_score(y_test, y_pred)))

## confusion matrix 를 이용한 model 성능 평가

In [None]:
def plot_cm(y_test, y_pred_proba, threshold):
    
    y_pred = y_pred_proba > threshold
    
    cm = confusion_matrix(y_test, y_pred)
    
    print("f1 score:", f1_score(y_test, y_pred))
    print("Accuracy", accuracy_score(y_test, y_pred))
    print("Precision", precision_score(y_test, y_pred))
    print("Recall", recall_score(y_test, y_pred))
    
    plt.figure(figsize=(5,5))

    sns.heatmap(cm, annot=True, fmt="d")
    plt.title('Confusion matrix (threshold>{:.2f}) '.format(threshold))
    plt.ylabel('Actual label')
    plt.xlabel('Predicted label')

In [None]:
plot_cm(y_test, y_pred_prob, 0.5)

### Fraud 거래를 잡아내는 것이 목적이므로, fraud case 를 놓치지 않으려면 recall 을 높인다.

이를 위해 threshold 를 0.2 로 조정.

In [None]:
plot_cm(y_test, y_pred_prob, 0.2)

## 불균형 데이터에 대한 Resampling 기법 적용
     
- minority class를 oversample 하고 majority class를 undersample  
- minority data 의 수(비율)를 증가시켜 새로이 fitting  

In [None]:
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

- 소수 class 비율이 10%가 되도록 소수 class를 oversample  
- `sampling_strategy` parameter는 리샘플링 후 다수 클래스에 대한 소수 클래스의  비율

In [None]:
over = RandomOverSampler(sampling_strategy=0.1)
X, y = over.fit_resample(X_train, y_train)
X.shape, y.shape, Counter(y)

- 소수 class 비율이 50%가 되도록 다수 class를 undersample

In [None]:
under = RandomUnderSampler(sampling_strategy=0.5)
X, y = under.fit_resample(X, y)
X.shape, y.shape, Counter(y)

- Data 시각화 

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x=y)

## 1-2.  Logistic Regression model 재학습

In [None]:
re_lr = LogisticRegression(max_iter=1000, random_state=0)
re_lr.fit(X, y)

- 학습된 모델을 이용하여 Test set 예측

In [None]:
y_pred_prob = re_lr.predict_proba(X_test)[:, 1]

In [None]:
y_pred = y_pred_prob > 0.5

print("Test set positive 건수 = ", sum(y_test))
print("Predicted positive 건수 = ", sum(y_pred))
print("accuracy = {:.5f}".format(accuracy_score(y_test, y_pred)))

In [None]:
plot_cm(y_test, y_pred_prob, 0.5)

oversample + undersample 기법 적용 결과 precision(positive로 예측한 내용 중에, 실제 Positive의 비율)은 크게 낮아지고,  recall(전체 positive 데이타 중에서 positive로 분류한 비율)이 높아짐.

## 2. RandomForest model을 이용한 분류

oversample + undersample 한 data 를  random forest model을 이용하여 분류

In [None]:
rf = RandomForestClassifier(n_estimators=1000, 
                            max_depth=12, min_samples_leaf=50,
                            min_samples_split=6, n_jobs=-1, verbose=1)
rf.fit(X, y)

In [None]:
y_pred_prob = rf.predict_proba(X_test)[:, 1]

y_pred = y_pred_prob > 0.5

print("Test set의 positive 건수 = ", sum(y_test))
print("Prediction의 positive  건수 = ", sum(y_pred))
print("accuracy = {:.5f}".format(sum(y_pred == y_test) / len(y_test)))

In [None]:
plot_cm(y_test, y_pred_prob, 0.5)

## 3. K-Nearest Neighbors model을 이용한 분류

oversample + undersample 한 data를  K-Nearest Neighbors model을 이용하여 분류

In [None]:
knn = KNeighborsClassifier(n_neighbors=15, weights='uniform')
knn.fit(X, y)

In [None]:
%%time
y_pred_prob = knn.predict_proba(X_test)[:, 1]

y_pred = y_pred_prob > 0.5

print("Test set의 positive 건수 = ", sum(y_test))
print("Prediction의 positive  건수 = ", sum(y_pred))
print("accuracy = {:.5f}".format(sum(y_pred == y_test) / len(y_test)))

In [None]:
plot_cm(y_test, y_pred_prob, 0.5)

## ROC(Receiver Operating Characteristic) curve 시각화로 모델 설능 비교
``` fpr, tpr, _ = roc_curve(y_true, y_score) ```
- fpr - false positive rates,  tpr - true positive rates

In [None]:
def plot_roc(name, labels, predictions, **kwargs):
    
    fpr, tpr, _ = roc_curve(labels, predictions)
    auc = roc_auc_score(y_test, predictions)
    
    plt.plot(100*fpr, 100*tpr, label=f"{name}={auc:.5f}", 
             linewidth=2, **kwargs)
    plt.title("ROC Curve")
    plt.xlabel('FPR [%]')
    plt.ylabel('TPR [%]')
    plt.xlim([-0.5,40])
    plt.ylim([80,100.5])
    fig = plt.gcf()
    fig.set_size_inches(8, 6)
    plt.legend(loc='lower right')

In [None]:
y_prob = lr.predict_proba(X_test)[:,1]
plot_roc("LogisticRegression", y_test, y_prob, 
         color='blue', linestyle='--')

y_prob = re_lr.predict_proba(X_test)[:,1]
plot_roc("over+under sampling(LogisticRegression)", y_test, y_prob, color='red', linestyle='--')

y_prob = rf.predict_proba(X_test)[:,1]
plot_roc("over+under sampling(RandomForest)", y_test, y_prob, color='green', linestyle='--')

y_prob = knn.predict_proba(X_test)[:,1]
plot_roc("over+under sampling(K-Nearest Neighbors)", y_test, y_prob, color='yellow', linestyle='--')

## IE (Integrated Error)

- FRR : False Rejection Rate  

- FAR : False Acceptance Rate

FRR = FNR = FN/(FN + TN)  
FAR = FPR = FP/(FP + FN)  

In [None]:
plt.figure(figsize=(8, 6))

y_prob = lr.predict_proba(X_test)[:,1]

fpr, tpr, _ = roc_curve(y_test, y_prob)
fnr = 1 - tpr
plt.plot(fnr, fpr, label='LogisticRegressiong')

y_prob = re_lr.predict_proba(X_test)[:,1]

fpr, tpr, _ = roc_curve(y_test, y_prob)
fnr = 1 - tpr
plt.plot(fnr, fpr, label='LogisticRegression over+undersampling')

y_prob = rf.predict_proba(X_test)[:,1]

fpr, tpr, _ = roc_curve(y_test, y_prob)
fnr = 1 - tpr
plt.plot(fnr, fpr, label='RandomForest over+undersampling')

y_prob = knn.predict_proba(X_test)[:,1]

fpr, tpr, _ = roc_curve(y_test, y_prob)
fnr = 1 - tpr
plt.plot(fnr, fpr, label='K-Nearest Neighbors over+undersampling')

plt.title("Integrated Error")
plt.xlabel('False Rejection Rate')
plt.ylabel('Flase Acceptance Rate')
plt.xlim([0, 0.4])
plt.ylim([-0.05, 0.4])
plt.legend()