1. 학습(Train) 데이터셋 (113842개)  
ID : 신용 카드 거래 ID  
Column ('V1', 'V2', 'V3', ... ,'V30) : 비식별화된 신용 카드 거래 Feature

2. 검증(Validation) 데이터셋 (28462개)    
  ID : 신용 카드 거래 ID  
Column ('V1', 'V2', 'V3', ... ,'V30) : 비식별화된 신용 카드 거래 Feature  
Class : 신용 카드 거래의 정상, 사기 여부 (정상 : 0, 사기 : 1)

3. 테스트(Test) 데이터셋 (142503개)  
ID : 신용 카드 거래 ID  
Column ('V1', 'V2', 'V3', ... ,'V30) : 비식별화된 신용 카드 거래 Feature


# Import

In [None]:
import pandas as pd
import numpy as np

from sklearn.ensemble import IsolationForest
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn import svm
from sklearn.neighbors import LocalOutlierFactor
from sklearn.covariance import EllipticEnvelope

import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

# Data Load

In [None]:
train= pd.read_csv('./Data/train.csv') # Train
train.head()

In [None]:
val= pd.read_csv('./Data/val.csv') # Validation
val.head()

# 결측치 확인

In [None]:
train.info()

# train/validation 분포 확인

In [None]:
train.describe()

In [None]:
train.drop(columns=['ID']).hist(bins = 100, figsize = (15,15))
plt.show()

In [None]:
val.drop(columns=['ID', 'Class']).hist(bins = 100, figsize = (15,15))
plt.show()

# Validation set 사기 거래 비율  
* Validation set의 사기 거래 비율이 다른 데이터집합에서도 비슷하게 발생할 것이라고 가정

In [None]:
val_normal, val_fraud = val['Class'].value_counts()
val_contamination = val_fraud / val_normal
print(f'Validation contamination : [{val_contamination}]')

# Model Define & Fit

`Isolation forest`는 기본적으로 데이터셋을 의사결정나무(Decision Tree) 형태로 표현해 정상값을 분리하기 위해서는 의사결정나무를 깊숙하게 타고 내려가야 하고, 반대로 이상값은 의사결정나무 상단부에서 분리할 수 있다는 것을 이용한다.  
이 특성을 사용해 의사결정나무를 몇 회 타고 내려가야 분리되는가를 기준으로 정상과 이상을 분리한다.
- Isolation forest의 장점  
  군집기반 이상탐지 알고리즘에 비해 계산량이 매우 적다  
  강건한(Robust)한 모델을 만들 수 있다

![image.png](attachment:image.png)

|parameters|description|  
|---|---|  
|n_estimators|나무의 개수,디폴트:100 |  
|max_samples|지정한 개수 만큼 나무별로 데이터를 샘플링|  
|contamination|전체 데이터에서 이상치 비율|  
|max_features|각 나무를 훈련할 때, 사용할 feature의 개수, 디폴트:1|  

In [None]:
train_x = train.drop(columns=['ID']) # Input Data

In [None]:
# 가설 설정 : Train dataset도 Validation dataset과 동일한 비율로 사기거래가 발생 했을 것이다. 
#verbose=0 이라서 과정이 안 보임
model = IsolationForest(n_estimators=1000, max_samples=len(train_x), contamination=val_contamination, random_state=42, verbose=0)
model.fit(train_x)

`one class svm`은 특정 클래스의 테스트 샘플을 다른 클래스와 구별하는 능력을 학습하는 비지도 학습 기법

![image.png](attachment:image.png)

In [None]:
oc_svm_clf = svm.OneClassSVM(gamma=0.00000001, kernel='rbf', nu=val_contamination,verbose=False) 
oc_svm_clf.fit(train_x)

`Local Outlier Factor(LOF)`는 각 점들의 밀도와 이웃점들의 밀도를 고려하여 해당 점의 스코어를 계산

![image.png](attachment:image.png)

In [None]:
lof = LocalOutlierFactor(n_neighbors=40, contamination=val_contamination)

`EllipticEnvelope`은 정규 분포를 이용하여 데이터 분포에 타원을 그립니다. 타원에서 벗어날수록 outlier입니다.

![image.png](attachment:image.png)

In [None]:
Ell= EllipticEnvelope(support_fraction=0.218,contamination = val_contamination, random_state = 42)
Ell.fit(train_x)

# Evaluation : Validation set

In [None]:
def get_pred_label(model_pred):
    # IsolationForest 모델 출력 (1:정상, -1:불량(사기)) 이므로 (0:정상, 1:불량(사기))로 Label 변환
    model_pred = np.where(model_pred == 1, 0, model_pred)
    model_pred = np.where(model_pred == -1, 1, model_pred)
    return model_pred

In [None]:
val_x = val.drop(columns=['ID', 'Class']) # Input Data
val_y = val['Class'] # Label

val_pred = model.predict(val_x) # model prediction
val_pred = get_pred_label(val_pred)
val_score = f1_score(val_y, val_pred, average='macro')
print(f'Validation F1 Score : [{val_score}]')
print(classification_report(val_y, val_pred))

In [None]:
oc_svm_pred = oc_svm_clf.predict(val_x)
oc_svm_pred= get_pred_label(oc_svm_pred)
oc_svm_score = f1_score(val_y, oc_svm_pred, average='macro')
print(f'Validation F1 Score : [{oc_svm_score}]')
print(classification_report(val_y, oc_svm_pred))

In [None]:
lof_pred = lof.fit_predict(val_x)
lof_pred= get_pred_label(lof_pred)
lof_score = f1_score(val_y, lof_pred, average='macro')
print(f'Validation F1 Score : [{lof_score}]')
print(classification_report(val_y, lof_pred))

In [None]:
Ell_pred = Ell.predict(val_x)
Ell_pred= get_pred_label(Ell_pred)
Ell_score = f1_score(val_y, Ell_pred, average='macro')
print(f'Validation F1 Score : [{Ell_score}]')
print(classification_report(val_y, Ell_pred))

# Inference : Test set

In [None]:
test= pd.read_csv('./Data/test.csv') 
test.head()

In [None]:
test_x = test.drop(columns=['ID'])

In [None]:
test_pred = model.predict(test_x) # model prediction
test_pred = get_pred_label(test_pred)

In [None]:
test_svm_pred = oc_svm_clf.predict(test_x) # model prediction
test_svm_pred = get_pred_label(test_svm_pred)

In [None]:
test_lof_pred = lof.predict(test_x) # model prediction
test_lof_pred = get_pred_label(test_lof_pred)

In [None]:
test_Ell_pred = Ell.predict(test_x) # model prediction
test_Ell_pred = get_pred_label(test_Ell_pred)

# Submission

In [None]:
submit = pd.read_csv('./Data/sample_submission.csv')
submit.head()

In [None]:
submit['Class'] = test_pred
submit.to_csv('./submit.csv', index=False)

In [None]:
submit['Class'] = test_svm_pred
submit.to_csv('./submit_svm.csv', index=False)

In [None]:
submit['Class'] = test_lof_pred
submit.to_csv('./submit_lof.csv', index=False)

In [None]:
submit['Class'] = test_Ell_pred
submit.to_csv('./submit_Ell.csv', index=False)