In [None]:
# https://anaconda.org/conda-forge/imbalanced-learn
# !conda install -c conda-forge imbalanced-learn

## 불균형한 데이터
* 데이터를 다룰 때 데이터의 값이 꼭 균형있게 분포되어 있지는 않습니다.
* 데이터에 따라 한 값으로 극도로 치우쳐져 있기도 합니다.
* 이런 데이터를 다루는 방법에 대해서 알아보겠습니다.

### 대상 데이터
* Credit Card Fraud Detection - Anonymized credit card transactions labeled as fraudulent or genuine
* 신용카드 사용자들의 결제내역에 대한 데이터입니다.
* 결제내역과 관련된 정보를 보고, 신용불량자인지 아닌지 분류하는 것이 목표입니다.
* 시간(Time)과 결제액(Amount)를 제외하고 나머지 변수(V1~V28)는 익명화되어있습니다.
* https://www.kaggle.com/mlg-ulb/creditcardfraud

## 라이브러리 로드

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
# pandas가 모든 열을 표시하도록 옵션을 변경합니다.
pd.set_option('display.max_columns', None)

## 데이터 로드

In [3]:
# creditcard.csv를 pandas로 읽어와서 df 변수에 할당합니다.
# 결과를 확인합니다.
df = pd.read_csv("data/creditcard.csv")
df

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,0.090794,-0.551600,-0.617801,-0.991390,-0.311169,1.468177,-0.470401,0.207971,0.025791,0.403993,0.251412,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.166480,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,-0.166974,1.612727,1.065235,0.489095,-0.143772,0.635558,0.463917,-0.114805,-0.183361,-0.145783,-0.069083,-0.225775,-0.638672,0.101288,-0.339846,0.167170,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.379780,-0.503198,1.800499,0.791461,0.247676,-1.514654,0.207643,0.624501,0.066084,0.717293,-0.165946,2.345865,-2.890083,1.109969,-0.121359,-2.261857,0.524980,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,-0.054952,-0.226487,0.178228,0.507757,-0.287924,-0.631418,-1.059647,-0.684093,1.965775,-1.232622,-0.208038,-0.108300,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.50,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,0.753074,-0.822843,0.538196,1.345852,-1.119670,0.175121,-0.451449,-0.237033,-0.038195,0.803487,0.408542,-0.009431,0.798278,-0.137458,0.141267,-0.206010,0.502292,0.219422,0.215153,69.99,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284802,172786.0,-11.881118,10.071785,-9.834783,-2.066656,-5.364473,-2.606837,-4.918215,7.305334,1.914428,4.356170,-1.593105,2.711941,-0.689256,4.626942,-0.924459,1.107641,1.991691,0.510632,-0.682920,1.475829,0.213454,0.111864,1.014480,-0.509348,1.436807,0.250034,0.943651,0.823731,0.77,0
284803,172787.0,-0.732789,-0.055080,2.035030,-0.738589,0.868229,1.058415,0.024330,0.294869,0.584800,-0.975926,-0.150189,0.915802,1.214756,-0.675143,1.164931,-0.711757,-0.025693,-1.221179,-1.545556,0.059616,0.214205,0.924384,0.012463,-1.016226,-0.606624,-0.395255,0.068472,-0.053527,24.79,0
284804,172788.0,1.919565,-0.301254,-3.249640,-0.557828,2.630515,3.031260,-0.296827,0.708417,0.432454,-0.484782,0.411614,0.063119,-0.183699,-0.510602,1.329284,0.140716,0.313502,0.395652,-0.577252,0.001396,0.232045,0.578229,-0.037501,0.640134,0.265745,-0.087371,0.004455,-0.026561,67.88,0
284805,172788.0,-0.240440,0.530483,0.702510,0.689799,-0.377961,0.623708,-0.686180,0.679145,0.392087,-0.399126,-1.933849,-0.962886,-1.042082,0.449624,1.962563,-0.608577,0.509928,1.113981,2.897849,0.127434,0.265245,0.800049,-0.163298,0.123205,-0.569159,0.546668,0.108821,0.104533,10.00,0


## 데이터 확인

In [4]:
# info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

In [None]:
# 결측치를 확인합니다.


## target 분포

In [None]:
# Class (value_counts)


In [None]:
# "Class" value_counts normalize=True


In [None]:
# countplot


## 독립변수(문제)와 종속변수(정답) 분리

In [None]:
# input으로 들어갈 X와 기대값인 y를 분리합니다.
# X에는 예측할 값인 "Class"를 제외한 값이 들어가야 합니다.
# y에는 예측할 값인 "Class"만 들어가야 합니다.

X, y

### train_test_split

* train_test_split은 sklearn에서 제공하는 데이터 분할 메서드입니다.
* 입력 변수와 목표 변수를 입력하면 데이터를 학습용 데이터와 검증용 데이터로 나눠줍니다.
* 머신러닝에서 데이터를 학습용 데이터와 검증용 데이터로 나누는 것은 매우 중요합니다.
* 두 데이터가 제대로 분리되지 않으면, 모델이 답지를 보고 예상하는 것이나 마찬가지이기 때문입니다.
* 이러한 상황을 데이터 유출(Data Leakage)라고 합니다.
* tran_test_split의 파라미터 중에서 random_state와 stratify에 대해서 알아보겠습니다.
* tran_test_split은 기본적으로 데이터를 분할할 때 섞어서(shuffle) 분할하도록 되어있습니다.
* random_state는 난수를 고정시켜 같은 값을 넣었을 때 동일한 결과를 얻을 수 있도록 해줍니다.
* 지금 다루는 것과 같은 불균형 데이터에서 train_test_split을 실행시켰을 때, 한 쪽 데이터에 희소한 값이 몰릴 가능성이 있습니다.
* stratify는 원래 데이터의 값 비율대로 학습용 데이터와 검증용 데이터를 분할시켜줍니다.

* https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# X와 y값을 학습용 데이터와 검증용 데이터로 나눕니다.(train_test_split)
# X_train, X_test, y_train, y_test에 값을 반환받습니다.
# stratify=y


## 머신러닝 모델
### DummyClassifier
* DummyClassifier는 입력 변수를 무시하는 모델입니다.
* DummyClassifier는 예측할 값에 대해서만 판단하여 예측값을 반환합니다.
* 불균형한 데이터일 경우 정확도로만 예측 성능을 파악하기 어렵다는 것을 보이기 위해 DummyClassifier 모델을 학습시키겠습니다.
* 단, DummyClassifier를 학습시킨다는 것을 일반적인 머신러닝 방식으로 학습시키는 것으로 오해해서는 안 됩니다.
* DummyClassifier는 학습 데이터를 참고하지 않습니다.
* 대신 DummyClassifier는 주어진 방식에 따라서 어떤 값을 반환할지 결정합니다.
* 방식을 지정하지 않으면, DummyClassifier는 검증 값으로 주어진 데이터에서 최빈값을 조사해 반환합니다.
* https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html

In [None]:
# DummyClassifier는 sklearn에서 제공하는, 입력 변수를 무시하는 모델입니다.
# DummyClassifier 모델 model_dummy를 선언합니다.
from sklearn.dummy import DummyClassifier

model_dummy = DummyClassifier()

In [None]:
# DummyClassifier 모델을 X_train, y_train으로 학습시킵니다.
# 단, DummyClassifier는 실제로 머신러닝 방식으로 학습하는 것이 아닙니다.
# y_train에서 최빈값을 찾아서 그 값으로 반환합니다.


In [None]:
# X_test로 model_dummy가 예측하게 만들겠습니다.
# DummyClassifier가 실제로 X_test을 참고하여 예측하는 것이 아님에 주의하세요.
# 예측한 값을 확인합니다.
# y_predict_dummy


In [None]:
# 예측값의 unique 값을 확인합니다.


* 모두 0으로 예측한 것을 알 수 있습니다.
* 이것은 y_train의 최빈값이 0이기 때문입니다.
* DummyClassifiers는 아무것도 학습하지 않았습니다.
* 대신 y_train의 최빈값을 계산하고 반환했을 뿐입니다.

In [None]:
# model_dummy의 정확도를 계산(score)합니다.


In [None]:
# 실제 값과 DummyClassifier가 예측한 값으로 혼동 행렬을 출력합니다.


In [None]:
# DummyClassifier의 classification_report


In [None]:
# accuracy


In [None]:
# f1_score


In [None]:
# precision, recall


* 결과가 0.99 로 매우 높습니다.
* 그러면 DummyClassifier는 좋은 모델인 것일까요?
* 그렇지 않다는 것을 알고 있습니다.
* 정확도만으로는 예측 성능을 평가하기에 어려운 경우가 있습니다.

## 혼동 행렬(confusion matrix)

<img src="https://oopy.lazyrockets.com/api/v2/notion/image?src=https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fa7fb3ffc-5c0e-4db5-89c6-021994823e01%2FUntitled.png&blockId=d5474d00-6501-48b7-a9a1-59d5bbb640d8" width="500">

* https://driip.me/3ef36050-f5a3-41ea-9f23-874afe665342

### 기본 용어

* true positives (TP): 참으로 예측하고, 실제로 참이었던 경우
* true negatives (TN): 거짓으로 예측하고, 실제로 거짓이었던 경우
* false positives (FP): 참으로 예측했지만 거짓이었던 경우 (Type I error)
* false negatives (FN): 거짓으로 예측했지만 참이었던 경우 (Type II error)

### 정확도(Accuracy)

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/7bfe40cea126a04004b82f729cf7df1ec435fbf6"/>

* (TP+TN) / (TP+TN+FP+FN)
* 전체 범위에서, 정확히 예측한 경우에 대한 비율을 의미합니다.
* 일상적인 상황에서 예측의 성능에 대해서 이야기할 때, 정확도를 이야기합니다.
* https://en.wikipedia.org/wiki/Accuracy_and_precision


### 정확도의 문제점

* 이진분류(binary classification)에서 예측의 성능을 평가하기 위한 도구입니다.
* 이진분류의 경우 정확도(Accuracy)로만 예측을 평가하기 어렵습니다.
* 주어진 상황이 불균형(imbalance)할 때, 많은 쪽으로 전부 예측할 경우 실제 예측 성능은 낮지만 정확도는 높기 때문입니다.
    + 99%가 정상이고, 1%가 불량인 제품의 제조공정에서 불량품을 예측하는 경우를 생각해보겠습니다.
    + 모두 정상이라고 판단할 경우 정확도는 99%지만, 이런 모델을 불량품 검출용으로 사용할 수는 없습니다.

### 정밀도(precision)

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/26106935459abe7c266f7b1ebfa2a824b334c807"/>

* TP / (FP+TP)
* 참으로 예측한 것들 중에서 실제로 참이었던 경우입니다.

* https://ko.wikipedia.org/wiki/%EC%A0%95%EB%B0%80%EB%8F%84%EC%99%80_%EC%9E%AC%ED%98%84%EC%9C%A8

### 재현율(recall)

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/4c233366865312bc99c832d1475e152c5074891b"/>

* TP / (FN+TP)
* 실제 값이 참이었던 것들 중에서 참으로 예측한 경우입니다.

* https://ko.wikipedia.org/wiki/%EC%A0%95%EB%B0%80%EB%8F%84%EC%99%80_%EC%9E%AC%ED%98%84%EC%9C%A8

### F1 Score

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/4179c69cf1dde8418c4593177521847e862e7df8"/>

* F1 점수는 정밀도와 재현율의 조화평균입니다.
* 정밀도와 재현율이 균형있게 올라야 F1 점수도 오르도록 되어 있습니다.
* https://en.wikipedia.org/wiki/F-score

### scikit-learn으로 지표 출력하기

* 혼동 행렬의 경우 sklearn.metrics.confusion_matrix()를 이용해 생성할 수 있습니다.
* sklearn에서는 앞에서 설명된 척도들을 쉽게 계산할 수 있도록 메서드로 제공하고 있습니다.
* 정확도의 경우 sklearn.metrics.accuracy_score()
* f1 점수의 경우 sklearn.metrics.f1_score()
* 정밀도의 경우 sklearn.metrics.precision_score()
* 재현도의 경우 sklearn.metrics.recall_score()
* 위와 같은 메서드를 이용해서 계산할 수 있습니다.
* 주요 지표에 대한 텍스트 보고서를 sklearn.metrics.classification_report()로 생성할 수 있습니다.
* 위에서 살펴본 지표들을 모두 포함합니다.
* 더 자세한 정보는 sklearn의 문서를 참고하세요.
* https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html
* https://scikit-learn.org/stable/modules/model_evaluation.html
* https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html

### 표 해석하기
* precision은 위에서 설명한 정밀도를 의미합니다.
* recall은 위에서 설명한 재현도를 의미합니다.
* f1-score는 위에서 설명한 f1 점수를 의미합니다.
* support는 클래스의 실제 발생 횟수가 얼마인지 알려줍니다.
    * 따라서 support는 모델에 따라 달라지는 숫자가 아닙니다.
* accuracy는 위에서 설명한 정확도를 의미합니다.
* macro avg는 각 레이블에 대한 측정항목을 계산하고 가중치가 적용되지 않은 평균을 찾습니다. 이것은 레이블 불균형을 고려하지 않습니다.
* weighted avg는 각 레이블에 대한 메트릭을 계산하고 지원(각 레이블에 대한 실제 인스턴스 수)별로 가중치를 부여한 평균을 찾습니다.
* weighted avg는 가중 평균을 의미하고, macro avg는 가중되지 않은 평균을 의미합니다.

### 정확도와 f1 점수 차이
* 왜 정밀도와 재현도가 모두 0일까요?
* 그것은 모두 0으로 예측했기 때문입니다.
* 모두 거짓으로 예측했기 때문에, TP가 0이므로 정밀도, 재현도, f1 점수 모두 0으로 출력됩니다.
* 정확도는 약 0.998인데, f1 점수는 0점입니다.
* 이러한 차이 때문에 불균형한 데이터 분류 문제에서 한 지표만 가지고 모델을 신뢰하기 어렵습니다.

### DecisionTreeClassifier

In [None]:
# model_dt


In [None]:
# fit


In [None]:
# predict


In [None]:
# 예측 결과의 unique 값


In [None]:
# 정확도


In [None]:
# crosstab


In [None]:
# confusion_matrix


In [None]:
# classification_report


In [None]:
# accuracy


In [None]:
# f1_score


In [None]:
#  precision_score, recall_score


* 신용불량자가 아닌 케이스를 알고 싶은 것이 아니고, 신용불량자인 소수 케이스를 알아내고 싶은 것입니다.
* 따라서 정확도만 가지고 비교하면 알기 어렵습니다.

## 데이터 샘플링

### 현실 속 데이터

* 실제로 데이터를 탐색하다 보면 불균형한 데이터가 매우 많습니다.
* 1년 중 눈이 오는 날과 눈이 오지 않는 날
* 공장에서 정상 제품과 불량품
* 등 5대 5로 균형 있게 분포되어 있는 분류 문제가 더 드뭅니다.
* 이런 경우 어떻게 대처해야 할까요?

### under-sampling과 over-sampling

<img src="https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/resampling.png"/>

* https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets
<br><br>
* 이런 문제를 해결하기 위해서 불균형한 데이터는 전체 데이터에서 샘플링을 하는 방식을 달리합니다.
* 방법은 크게 under-sampling과 over-sampling 두 가지가 있습니다.
* 주요 골자는 두 값의 비율이 비슷하게 맞춰주는 것입니다.
* under-sampling은 더 값이 많은 쪽에서 일부만 샘플링하여 비율을 맞춰주는 방법입니다.
* over-sampling은 더 값이 적은 쪽에서 값을 늘려 비율을 맞춰준 방법입니다.
* under-sampling은 구현이 쉽지만 전체 데이터가 줄어 머신러닝 모델 성능이 떨어질 우려가 있습니다.
* 이번 예제에서는 over-sampling에 해당하는 SMOTE에 대해 알아보겠습니다.

### SMOTE

<img src="https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/smote.png"/>

* https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets
<br><br>
* SMOTE는 Synthetic Minority Over-sampling Technique의 약자로 합성 소수자 오버샘플링 기법입니다.
* 적은 값을 늘릴 때, k-근접 이웃의 값을 이용하여 합성된 새로운 값을 추가합니다.
* k-근접 이웃이란 가장 가까운 k개 이웃을 의미합니다.
* https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html

In [None]:
# SMOTE는 Synthetic Minority Over-sampling Technique의 약자로 합성 소수자 오버샘플링 기법입니다.
# X, y를 학습하고 다시 샘플링합니다(fit_resample).


In [None]:
# X shape


In [None]:
# y shape


In [None]:
# y의 value_counts


In [None]:
# y_resample의 value_counts


## 데이터 분리

In [None]:
# resample X와 y값을 학습용 데이터와 검증용 데이터로 나눕니다.(train_test_split)
# random_state는 난수 값을 고정하는 역할을 하는 파라미터입니다.
# X_train, X_test, y_train, y_test에 값을 반환받습니다.


## DummyClassifier

In [None]:
# DummyClassifier 모델 model_dummy를 선언합니다.


In [None]:
# DummyClassifier 모델을 X_train, y_train으로 학습시킵니다.
# 단, DummyClassifier는 실제로 머신러닝 방식으로 학습하는 것이 아닙니다.
# y_train에서 최빈값을 찾아서 그 값으로 반환합니다.


In [None]:
# X_test로 model_dummy가 예측하게 만들겠습니다.
# DummyClassifier가 실제로 X_test을 참고하여 예측하는 것이 아님에 주의하세요.
# 예측한 값을 확인합니다.


In [None]:
# X_test로 model_dummy가 예측하게 만들겠습니다.
# DummyClassifier가 실제로 X_test을 참고하여 예측하는 것이 아님에 주의하세요.
# 예측한 값을 확인합니다.


In [None]:
# 예측값의 고유값을 확인합니다.


In [None]:
# DummyClassifier의 classification_report


## DecisionTreeClassifier

In [None]:
# DecisionTreeClassifier


In [None]:
# fit


In [None]:
# predict


In [None]:
# 예측 결과의 고유한 값의 개수를 포함하는 Series를 반환합니다.


In [None]:
# 정확도


In [None]:
# classification_report


In [None]:
# accuracy


In [None]:
# f1_score

In [None]:
# precision, recall
