# Class Imbalance

__Class Imbalance Problem__  
>    다수 클래스(Majority Class)의 수가  
    소수 클래스(Minority Class)의 수보다  
    훨씬 많아 적은 클래스 데이터를 무시해버리는 문제  

우리가 살아가면서 접하게 되는 데이터들은  
균형잡힌 데이터보다는 불균형 데이터가 많습니다.  

머신 러닝 모델을 적합할 때 `target`값의 분포를 살피지 않는다면  
__과적합(overfitting)__ 문제에 직면하게 됩니다.  

즉, __정확도__(Accuracy, 전체 중 정답을 맞춘 정도)는 높은데  
__재현율__(Recall, 실제로 맞는 것을 정답이라 고른 비율)은 낮을 수 밖에 없습니다.

그렇다면, 우리는 이 문제를 어떻게 다뤄야 할까요?

---
## 분류 성능 평가 지표    
__정확도(Accuracy)__ 는  
데이터의 분포가 균일할 때 사용하는 지표입니다.  
불균형 데이터에 대해 사용할 시 아래와 같은 문제가 발생합니다.  

전체 100개의 데이터에서 95개의 값이 1   
5개의 값이 0 이라 했을 때  
우리는 1로만 예측을 해도 95%의 정확도를 얻을 수 있습니다.  

이런 문제를 피하기 위해 사용하는 평가 지표는 다음과 같습니다.  

1. __F1-score__    
클래스의 라벨이 불균형을 이룰 때 많이 사용하는 척도로  
__재현율__(Recall)과 __정밀도__(Precision)의 조화 평균으로 구합니다.  

> 여기서 __정밀도__는 정답으로 예측한 것 중 실제로 정답인 경우  

2. __ROC curve__와 __AUC__  
가로 축을 __1-특이도(Specificity)__ 로 두고  
세로 축을 __재현율(Recall)__ 로 표현한 그래프로  
그래프 위쪽의 넓이가 적어질수록 성능이 좋다고 할 수 있습니다.  
이때, __ROC curve__의 아래 면적을 __AUC__ 라고 합니다.  

> 여기서 __특이도__는 정답이 아니라고 예측한 것 중 실제로 정답이 아닌 경우 


---
## 불균형 데이터 처리 방법
불균형 데이터를 처리하는 방법은 여러가지 존재하지만,  
그 중 두 가지를 알아보도록 하겠습니다.  


### 1. __오버샘플링(Oversampling)__  

#### __<무작위 추출>__  
소수의 값을 무작위로 추출하여  
원래 데이터에 더하는 방식  

> __장점__   
> - 데이터의 손실 없이 모두 사용 가능    
>
> __단점__   
> - 데이터의 수가 증가 돼 계산량이 많아짐
> - 소수 데이터에 과적합 문제가 발생  

#### __<유의 정보 추출>__   
기준을 정해 해당 하는 값만 추출하여  
원래 데이터에 더하는 방식  


#### __<합성 데이터 생성>__  
__SMOTE(Synthetic Minority Oversampling Technique)__  
소수의 데이터들을 상호보완하여  
새로운 값을 만들어 추가하는 방법  

`K-NN` 알고리즘을 사용하여  
소수 데이터에 근접한 값을  
랜덤하게 생성 해  
적은 클래스의 특성을 반영하는  
데이터를 추가하는 방법

__BLSMOTE(Borderline SMOTE)__  
다수 클래스와 소수 클래스   
경계선 근처에 값을 생성하여  
데이터를 추가하는 방법  

### 2. __언더샘플링(Undersampling)__  

#### __<무작위 추출>__  
다수의 값을 무작위로 추출하여  
원 데이터에서 그 값을 삭제하는 방식  

> __장점__  
> - 크기가 매우 클 때 효과적
>
> __단점__  
> - 데이터 정보 손실이 있음

#### __<유의 정보 추출>__   
유의한 데이터만 남기는 방식  

__EasyEnsemble__  
다수 범주 데이터와 소수 범주 데이터를  
동일한 수로 랜덤하게 여러번 추출해   
각 분류기를 학습시키는 방법으로,  
여러개의 분류기를 취합해 하나의 분류기를 만드는 방식

__BalanceCascade__   
다수 범주의 데이트을 N개로 나눠    
소수 범주의 데이터와 합쳐 분류기를 만든다.  

많은 범주의 일부 데이터를 분류기에 대입해  
잘 분류하면 그 값을 제거한다.  

위 작업을 충분히 반복 후  
최종 분류기를 만드는 방식

## Reference
- [불균형 데이터 처리를 위한
과표본화 기반 앙상블 학습 기법](https://bi.snu.ac.kr/Publications/Journals/Domestic/KIISE_CPL_20_10_KMKim.pdf)  
- [[Python] SMOTE를 통한 데이터 불균형 처리](https://mkjjo.github.io/python/2019/01/04/smote_duplicate.html)
- [Ybigta-Team-project](https://github.com/hw79chopin/Kaggle_Card_fraud_detection)
- [비대칭 데이터 문제](https://datascienceschool.net/view-notebook/c1a8dad913f74811ae8eef5d3bedc0c3/)
- [분류 성능 평가지표](https://sumniya.tistory.com/26)