<h2>데이터 탐색</h2>

In [1]:
import pandas as pd
import numpy as np

from sklearn.metrics import classification_report
from sklearn.metrics import make_scorer, f1_score
from sklearn import model_selection

from sklearn.ensemble import IsolationForest
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.mixture import GaussianMixture
from sklearn.cluster import DBSCAN
from sklearn.svm import OneClassSVM
from sklearn.covariance import EllipticEnvelope
from sklearn.neighbors import LocalOutlierFactor

In [None]:
# submit csv 만드는 코드
submit = pd.read_csv('sample_submission.csv')
submit['Class'] = y_pred
submit.to_csv('submit.csv', index=False)

In [2]:
# 데이터 load 
train = pd.read_csv('train.csv')
val = pd.read_csv('val.csv')
test = pd.read_csv('test.csv')

# shape 확인
train.shape, val.shape, test.shape

((113842, 31), (28462, 32), (142503, 31))

In [3]:
# 검증 데이터를 통해 타겟 비율 확인
val_normal, val_fraud = val['Class'].value_counts()
val_contamination = val_fraud / val_normal
print(f'정상 데이터 : {val_normal}, 사기 데이터 : {val_fraud}')
print(f'검증 데이터의 사기 비율 : [{val_contamination}]')

정상 데이터 : 28432, 사기 데이터 : 30
검증 데이터의 사기 비율 : [0.0010551491277433877]


In [4]:
# 데이터 셋 정리
X_train = train.drop('ID', axis=1)

X_val = val.drop(['ID', 'Class'], axis=1)
y_val = val['Class']

X_test = test.drop('ID', axis=1)

# shape 확인
X_train.shape, X_val.shape, y_val.shape, X_test.shape

((113842, 30), (28462, 30), (28462,), (142503, 30))

<h2>IsolationForest(Base Code 참조)</h2>

In [6]:
# 모델 출력값 변환 (1:정상, -1:불량(사기)) 이므로 (0:정상, 1:불량(사기))로 Label 변환
def get_pred_label(model_pred):
    model_pred = np.where(model_pred == 1, 0, model_pred)
    model_pred = np.where(model_pred == -1, 1, model_pred)
    return model_pred

In [48]:
# 모델 학습
IF = IsolationForest(contamination=val_contamination, random_state=42)
IF.fit(X_train)
IF_val_pred = IF.predict(X_val)
IF_val_pred = get_pred_label(IF_val_pred)

# 모델 결과 확인
unique, counts = np.unique(IF_val_pred, return_counts=True)
IF_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{IF_contamination}]')

print(classification_report(y_val, IF_val_pred))



클래스 : [0 1], 클래스별 개수 : [28435    27]
정상 데이터 : 28435, 사기 데이터 : 27
검증 데이터의 사기 비율 : [0.0009495340249692281]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     28432
           1       0.37      0.33      0.35        30

    accuracy                           1.00     28462
   macro avg       0.68      0.67      0.68     28462
weighted avg       1.00      1.00      1.00     28462



In [None]:
# GridSearchCV를 통한 최적의 파라미터 조정
param_grid = {'n_estimators': list(range(100, 500, 10)), 
              'max_samples': list(range(100, 500, 10)), 
              'contamination': [0.0001, 0.001, 0.002, 0.005], 
              'max_features': [1, 5, 10, 15], 
              'bootstrap': [True, False]
             }

f1sc = make_scorer(f1_score, average='micro')

grid_dt_estimator = model_selection.GridSearchCV(IF, 
                                                 param_grid,
                                                 scoring=f1sc, 
                                                 refit=True,
                                                 cv=5, 
                                                 return_train_score=True)
grid_dt_estimator.fit(X_val, y_val)

<h2>K-Means</h2>

In [49]:
# 모델 학습
kmeans = KMeans(n_clusters=2, init='k-means++', max_iter=300, random_state=42)
kmeans.fit(X_train)
kmeans_val_pred = kmeans.predict(X_val)

# 모델 결과 확인
unique, counts = np.unique(kmeans_val_pred, return_counts=True)
kmeans_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{kmeans_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, kmeans_val_pred))

클래스 : [0 1], 클래스별 개수 : [27911   551]
정상 데이터 : 27911, 사기 데이터 : 551
검증 데이터의 사기 비율 : [0.019741320626276378]
              precision    recall  f1-score   support

           0       1.00      0.98      0.99     28432
           1       0.00      0.00      0.00        30

    accuracy                           0.98     28462
   macro avg       0.50      0.49      0.49     28462
weighted avg       1.00      0.98      0.99     28462



<h2>MeanShift</h2>

In [None]:
# 모델 학습
MS = MeanShift(bandwidth=2)
MS.fit(X_train)
MS_val_pred = MS.predict(X_val)

# 모델 결과 확인
unique, counts = np.unique(MS_val_pred, return_counts=True)
MS_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{MS_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, MS_val_pred))

<h2>GMM</h2>

In [52]:
# 모델 학습
gmm = GaussianMixture(n_components=2, random_state=42)
gmm.fit(X_train)
gmm_val_pred = gmm.predict(X_val)

# 모델 결과 확인
unique, counts = np.unique(gmm_val_pred, return_counts=True)
gmm_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{gmm_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, gmm_val_pred))

클래스 : [0 1], 클래스별 개수 : [17872 10590]
정상 데이터 : 17872, 사기 데이터 : 10590
검증 데이터의 사기 비율 : [0.5925470008952551]
              precision    recall  f1-score   support

           0       1.00      0.63      0.77     28432
           1       0.00      0.90      0.01        30

    accuracy                           0.63     28462
   macro avg       0.50      0.76      0.39     28462
weighted avg       1.00      0.63      0.77     28462



<h2>DBSCAN</h2>

In [33]:
def get_pred_label_db(model_pred):
    model_pred = np.where(model_pred == -1, 0, model_pred)
    model_pred = np.where(model_pred != 0, 1, model_pred)
    return model_pred

In [35]:
# 모델 학습
dbscan = DBSCAN(metric='euclidean')
dbscan_val_pred = dbscan.fit_predict(X_val)
dbscan_val_pred = get_pred_label_db(dbscan_val_pred)

# 모델 결과 확인
unique, counts = np.unique(dbscan_val_pred, return_counts=True)
dbscan_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{dbscan_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, dbscan_val_pred))

클래스 : [0 1], 클래스별 개수 : [26246  2216]
정상 데이터 : 26246, 사기 데이터 : 2216
검증 데이터의 사기 비율 : [0.0844319134344281]
              precision    recall  f1-score   support

           0       1.00      0.92      0.96     28432
           1       0.00      0.00      0.00        30

    accuracy                           0.92     28462
   macro avg       0.50      0.46      0.48     28462
weighted avg       1.00      0.92      0.96     28462



<h2>One-Class SVM</h2>

In [11]:
# 모델 학습
ocsvm=OneClassSVM()
ocsvm.fit(X_train)
ocsvm_val_pred = ocsvm.predict(X_val)
ocsvm_val_pred = get_pred_label(ocsvm_val_pred)

# 모델 결과 확인
unique, counts = np.unique(ocsvm_val_pred, return_counts=True)
unique, counts
ocsvm_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{ocsvm_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, ocsvm_val_pred))

클래스 : [0 1], 클래스별 개수 : [14338 14124]
정상 데이터 : 14338, 사기 데이터 : 14124
검증 데이터의 사기 비율 : [0.9850746268656716]
              precision    recall  f1-score   support

           0       1.00      0.50      0.67     28432
           1       0.00      1.00      0.00        30

    accuracy                           0.50     28462
   macro avg       0.50      0.75      0.34     28462
weighted avg       1.00      0.50      0.67     28462



<h2>EllipticEnvelope</h2>

In [67]:
# 모델 학습
ell = EllipticEnvelope(contamination=val_contamination)
ell.fit(X_train)
ell_val_pred = ell.predict(X_val)
ell_val_pred = get_pred_label(ell_val_pred)

# 모델 결과 확인
unique, counts = np.unique(ell_val_pred, return_counts=True)
ell_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{ell_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, ell_val_pred))



클래스 : [0 1], 클래스별 개수 : [28437    25]
정상 데이터 : 28437, 사기 데이터 : 25
검증 데이터의 사기 비율 : [0.0008791363364630587]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     28432
           1       0.00      0.00      0.00        30

    accuracy                           1.00     28462
   macro avg       0.50      0.50      0.50     28462
weighted avg       1.00      1.00      1.00     28462



<h2>LOF</h2>

In [10]:
# 모델 학습
lof = LocalOutlierFactor(n_neighbors=20, contamination=val_contamination, algorithm='kd_tree', p=10)
lof_val_pred = lof.fit_predict(X_val)
lof_val_pred = get_pred_label(lof_val_pred)

# 모델 결과 확인
unique, counts = np.unique(lof_val_pred, return_counts=True)
lof_contamination = counts[1] / counts[0]
print(f'클래스 : {unique}, 클래스별 개수 : {counts}')
print(f'정상 데이터 : {counts[0]}, 사기 데이터 : {counts[1]}')
print(f'검증 데이터의 사기 비율 : [{lof_contamination}]')

# 모델 성능 확인
print(classification_report(y_val, lof_val_pred))

클래스 : [0 1], 클래스별 개수 : [28431    31]
정상 데이터 : 28431, 사기 데이터 : 31
검증 데이터의 사기 비율 : [0.001090359115050473]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     28432
           1       0.29      0.30      0.30        30

    accuracy                           1.00     28462
   macro avg       0.64      0.65      0.65     28462
weighted avg       1.00      1.00      1.00     28462



In [82]:
# test 데이터로 label 만들기
lof_test_pred = lof.fit_predict(X_test)
lof_test_pred = get_pred_label(lof_test_pred)

In [83]:
# submit csv 만드는 코드
submit_lof = pd.read_csv('sample_submission.csv')
submit_lof['Class'] = lof_test_pred
submit_lof.to_csv('submit_lof.csv', index=False)