## Class Imbalanced Problem이란
- 클래스 불균형은 다수 클래스의 수가 소수 클래스의 수보다 월등히 많은 학습 상황을 의미하며, 클래스 불균형 데이터를 이용해 분류 모델을 학습하면 분류 성능이 저하되는 문제가 발생함
- 클래스 불균형의 데이터는 의료, 반도체, 보험, 텍스트 등 여러 분야에 걸쳐서 발생하고 있는 문제임
- IR(class imbalanced ratio)=$\frac{nums of majority class}{nums of minority class}$

- 모델이 소수의 데이터를 무시하는 경향이 생김
- 아래의 예시는 IR=20인 데이터를 decision tree로 학습했을 때의 decision boundary
![ex2.jpg](attachment:ex2.jpg)

- Oversampling 기법을 통해 minority 데이터를 부풀려서 사용이 가능함
![ex2.jpg](attachment:ex2.jpg)

- Binary 문제에서 일반적으로 모델은 각 데이터에 대한 확률 값을 output으로 함
- IR이 높은 경우, 대부분의 데이터 셋에 대하여 0에 가까운 확률 예측 값을 냄
- 예측 **threshold 값(기본 0.5)이 달라져야 하는 문제**가 생김

## Class Imbalanced Problem에서 사용하는 모델 성능 지표
### 1. G-mean, F1 measure
- 실제 데이터의 대표적인 특성에는 **불량(이상) 데이터를 탐지하는 것이 중요**하다는 점과, 이러한 불량 데이터는 **매우 소수의 데이터**라는 점임
- 데이터 1000개 중 불량 데이터가 10개, 나머지 990개를 정상 데이터라고 가정했을 때, 분류 모형이 모든 데이터를 정상 데이터라고만 예측해도 정확도는 99%이며(accuracy paradox), 만약 우연히 1개만 불량이라고 예측했을 때, 실제 불량일 경우 정밀도 지표는 1이 됨
- 실제 데이터의 특성상 정확도보다는 제 1종 오류와 제 2종 오류 중 성능이 나쁜 족에 더 가중치를 주는 G-mean 지표나 불량에 관여하는 지표인 정밀도와 재현율만 고려하는 F1 measure가 더 고려해볼 수 있는 지표임
![ex2.jpg](attachment:ex2.jpg)

## 정밀도, 재현율, 특이도
![ex2.jpg](attachment:ex2.jpg)
- 정밀도 : 분류 모형이 불량을 진단하기 위해 얼마나 잘 작동했는지 보여주는 지표
- 재현율 : 불량 데이터 중 실제로 불량이라고 진단한 제품의 비율(진단 확률)
- 특이도 : 분류 모옇이 정상을 진단하기 위해 잘 작동하는지를 보여주는 지표


### 2. ROC curve, AUC
  - 가로축을 1-특이도, 세로축을 재현율로 하여 시각화한 그래프를 ROC(Receiver Operating Characteristics) curve라고 함
  - 이 때의 ROC curve의 면적을 AUC라고 부름
    - AUC는 곡선을 그리며 올라가는 것이 효율이 좋음
  - 확률값 만으로 표현할 수 있는 그래프이기 때문에 자주 사용하는 그래프임
    ![ex2.jpg](attachment:ex2.jpg)

## Class Imbalanced Problem을 해결하기 위한 방법
### 1. Resampling method
- **Over sampling** : 소수의 데이터를 부풀리는 방법
- **Under sampling** : 다수의 데이터를 줄이는 방법
- **Hybrid resampling** : Over & Under sampling을 결합하여 사용하는 방법

![ex2.jpg](attachment:ex2.jpg)

- 테스트 데이터를 예측할 때, 테스트 데이터를 항상 처음 보는 것처럼 대하여라.
  - 학습, 검정, 테스트 단계 모두 샘플링 과정이 필요하다는 소리임
- 시간순과 같은 **독립적이지 않은 데이터들을 추출하기 위해서는** 이를 항상 고려하여 예측을 하여야 한다.
- 학습과 검증/테스트 모두 IR을 맞추기 위해 **샘플링 이전에 층화추출 과정이 필요함**

### 2. Cost-sensitive learning
- Class의 오분류에 대한 cost의 가중치를 조절하여 학습하는 방법