# Unbalanced Data
> 불균형 데이터 분석을 위한 샘플링 기법
- toc: true
- branch: master
- badges: false
- comments: true
- author: pinkocto
- categories: [python]

## 불균형 데이터란?
<font color='blue'>**"정상"**</font> 범주의 관측치 수와 <font color='red'>**"이상"**</font> 범주의 관측치 수의 차이가 크게 나타나는 경우

<img src='./my_icons/unbal.PNG'>

## 불균형 데이터 특징

### 왜 문제인가?
<font color='blue'>정상(다수)</font>을 정확히 분류 vs. <font color='red'>이상(소수)</font>을 정확히 분류

`#1.` 일반적으로 <font color='red'>이상(소수)</font>을 정확히 분류하는 것이 중요

`#2.` 적절한 분류경계선이 형성되지 못함
$\to$ <font color='red'>이상(소수)</font>을 정확히 찾아내지 못함

`#3.` 높은 예측 정확도를 보임(?) 모델 성능에 대한 왜곡이 있을 수 있음.

<img src='./my_icons/unbal2.PNG'>

<img src='my_icons/ideal.PNG'>

<img src='./my_icons/real.PNG'>

<img src='./my_icons/real_ideal.PNG'>

불균형 상황 하에서는 분류 경계선이 잘못 설정된다.

<img src='./my_icons/unbal_pro.PNG'>

미래의 이상점이 나타났을 때(회색 점) 실제 분류경계선 옆 주황색 점들은 실제 이상임에도 불구하고 이 분류 경계선에 의하면 정상으로 오분류를 하게 된다.

$\to$ 이상을 잘 찾아내지 못하는 문제 발생

## 성능평가

<img src='./my_icons/confu.PNG'>

<img src='my_icons/unbal_score.PNG'>

- 이것만 봤을때는 정확도는 꽤 좋다. 그래서 우리 모델이 참 좋다! 라고 결론내릴 수 있는데 아마 이건 말이안된다고 생각할 것이다.

- 왜냐하면 정상데이터는  다 맞췄지만 우리가 관심있는 것은 이상이고, 이상관점에서만 봤을때는 반 밖에 못맞췄는데?? 이것이 어떻게 좋은 모델일까?


> Warning: 예측 정확도는 높게 나오지만 그것을 곧이곧대로 해석하면 안된다!!

## 해결방법은?


불균형 데이터의 해결방안은 크게 두가지로 볼 수 있다.

1. 첫번째는 데이터를 조절해서 해결한다.

2. 두번째는 분류모델 자체를 조절해서 해결한다.

세부적으로 불균형 데이터를 해결하는 방법은 3개가 있다고 볼 수 있다.
1. 샘플링 기법 (Sampling method)
2. 비용 기반 학습 (Cost sensitive leraning)
3. 단일 클래스 분류기법 (Novelty detection)

이번 시간에는 샘플링 기법에 대해서 알아보자.

## 데이터를 조정해서 해결

<img src = 'my_icons/unbal_sol.PNG'>

## 데이터를 조정해서 해결 (Sampling)

<img src='my_icons/unbal_sampling.PNG'>

샘플링 기법은 크게 언더 샘플링과 오버 샘플링으로 나눈다.

언더샘플링은 다수 범주를 줄여서 소수범주의 개수와 비슷하게 만들자

오버샘플링은 소수범주의 개수를 증폭시켜 다수 범주의 개수와 비슷하게 만들자..

### `-` 언더 샘플링

#### `#1.` Random undersampling

<img src='my_icons/random_undersampling.PNG'>

<img src='my_icons/random_under.PNG'>

<img src='my_icons/random_under_ex1.PNG'>

<img src='my_icons/random_under_ex2.PNG'>

또 이런식으로 샘플링 될 수도 있겠지.. 이런 경우에는 분류경계선이 다음과 같다.

<img src='./my_icons/random_under_ex2-v2.PNG'>

<img src='my_icons/random_under_ex3.PNG'>

랜덤 언더샘플링은 무작위로 샘플링하기 때문에 할 때마다 다른 결과가 나올 수 있다.

굉장히 쉬운방법이긴 하나 단점으로 작용할 수 있다.

잘 작동할때도 많이 있지만(의외로 잘 작동한다.) 샘플링할 때마다 성능이 달라질 수 있다는 문제가 있다.

#### `#2.` Tomek links

두 범주 사이를 탐지하고 정리를 통해 부정확한 분류경계선 방지

정의: $d(x_i,x_k) < d(x_i, x_j) 또는 d(x_j,x_k) < d(x_i, x_j)$가 되는 관측치 $x_k$가 없는 경우

$\to$ 두 샘플 $x_i, x_j$는 Tomek links를 형성

$\to$ 둘 중 하나는 노이즈 이거나 둘 다 경계선 근처에 있음

<img src='./my_icons/tomek_links.PNG'>

두 점사이에는 k점이 없어야 한다. 

k점은 뭐냐? 하면은 두 점사이(다수범주의 점1, 소수범주의 점1)에 어떠한 한점으로 각 점과 k점이 연결되었을 때 i와 j를 연결한 것보다 거리보다 작은 그런 중간에 있는 점이 없을 때 그 두 점을 연결한것을 tomek links라고 한다.

<img src='./my_icons/tomek_links_ex1.PNG'>

보라색으로 표시한 부분이 Tomek link

<img src='./my_icons/tomek_links_ex2.PNG'>

Tomek links에 해당하는 다수 범주에 속한 관측치가 제거되었기떄문에 언더샘플링이 된 것!

<img src='./my_icons/tomek_effect.PNG'>

샘플링 이전에는 분류경계선이 다수 범주에 편향된 분류경계선이 나온다면,

샘플링 이후에는 일부를 지웠기때문에(다수범주를 언더샘플링 헀기때문에) 분류경계선이 조금 더 향상되게 나온다.

####  `#4.` CNN (condensed nearest neighbor)
>1-NN 알고리즘을 통해 원데이터를 분류

<img src='./my_icons/cnn_effect.PNG'>

- $k=1$ 이어야만 한다.
- $k$가 1이 아니면? 모든 다수클래스가 이상으로된다. = CNN이 의미없다.

#### `#4` OSS (One-Side Selection)
> Tomek links + CNN

<img src='my_icons/oss.PNG'>

<img src='./my_icons/oss_effect.PNG'>

####  Summary

#### [ 🌞 장점 ]
- 다수 범주 관측치 제거로 계산 시간 감소
- 데이터 클랜징으로 클래스 오버랩 감소 가능


#### [ 🌚 단점 ]
- 데이터 제거로 인한 정보 손실 방생

### 오버 샘플링
> Resampling, SMOTE, Borderline-SMOTE, ADASYN

#### `#1.` Resampling
> 소수 범주 내 관측치를 늘려보자. (단순히 증폭) <br>
> 다수 범주의 관측치 수가 비슷해지도록 소수클래스 관측치 복제

<img src='./my_icons/resampling.PNG'>

<img src='my_icons/resampling_ex.PNG'>

<img src='./my_icons/before_resample.PNG'>

<img src='./my_icons/after_resample.PNG'>

<img src='./my_icons/before_after_resample.PNG'>

단점: 오히려 소수 클래스를 잡으려다 보니까 다수 클래스가 너무 안좋아지는 과적합이 발생할 수 있다.

정상도 잘 분류하고 이상도 잘 분류하는게 우리의 궁긍적인 목표인데 이상은 제대로 하는데 정상이 너무 안좋아지는..그러한 경우

이를 보완하는 꽤 많은 방법들이 있는데 그 중 하나로 **가상의 관측치를 생성**하는 것이다.

가상의 데이터를 생성하자. (빨간색을 그대로 카피하지 말고 그 주변에 생성을 하면 앞의 단점들이 보완되지 않을까..? $\to$ **SMOTE**

#### `#2.` SMOTE (synthetic minority oversampling technique)
> 소수 범주에서 가상의 데이터를 생성하는 방법

<img src='./my_icons/smote.PNG'>

<img src='./my_icons/smote4.PNG'>

$$synthetic = X + u \cdot (X(nn) - X)$$

<img src='./my_icons/smote2.PNG'>

<img src='./my_icons/smote3.PNG'>

<img src='./my_icons/smote_step1.PNG'>

<img src='./my_icons/smote_step2.PNG'>

<img src='./my_icons/smote_step3.PNG'>

***K는 반드시 2이상을 설정해야 한다.***

<img src='./my_icons/smote_k.PNG'>

<img src='./my_icons/smote_before_after.PNG'>

#### `#3.` Borderline - SMOTE
> Borderline(경계선) 부분만 샘플링 <br>
> 정상과 이상의 경계부분만 오버샘플링을 하면 좋지 않을까?

<img src = './my_icons/borderline_step1.PNG'>

`-` safe 관측치 (Borderline X)

<img src='./my_icons/borderline_no.PNG'>

`-` Danger 관측치 (Borderline O)

<img src='./my_icons/borderline_yes.PNG'>

`-` Noise 관측치 (Borderline X)

<img src='./my_icons/borderline_noise.PNG'>

전체 중 다수가 몇개 있어야 safe이고, 몇개 있어야 노이즈인지 기준이 있어야 한다.

<img src = './my_icons/borderline_stan.PNG'>

**즉, Danger 관측치가 borderline에 있다고 할 수 있다.**

<img src= './my_icons/borderline_smote.PNG'>

`-` Danger 관측치에 대해 SMOTE 적용

<img src = './my_icons/danger_obs.PNG'>

Danger 관측치를 하나 설정하고, $k$를 5라고 하면 그 주변의 5개 선정하고 그 중 하나를 랜덤하게 선택한다.

`-` Danger 관측치 5개 선정 ($k=5$)

<img src='./my_icons/danser_obs5.PNG'>

`-` 5개 중 1개를 랜덤으로 선택

<img src='./my_icons/danger_obs_random1.PNG'>

`-` 다음과 같은 방법을 통해 복원

<img src='./my_icons/border_method.PNG'>

`-` Borderline - SMOTE

<img src ='./my_icons/borderline_smote_result.PNG'>

original SMOTE 같은 경우 소수 관측치 전반에 걸쳐서 증폭이 됐다면, 이제는 경계선 위치에만 데이터가 샘플링 되는 효과를 얻을 수 있다.

`-` Borderline-SMOTE 전 / 후 비교

<img  src='./my_icons/borderline_smote_compare.PNG'>

샘플링 이전에는 다수 관측치에 분류경계선이 편향되서 나온다면, 샘플링 이후에는 (오버샘플링 되었기 때문에) 분류경계선이 약간 왼쪽으로 이동한다.

**새로 생성된 데이터들이 경계선 부분에 주로 생성이 된다**

`-` Borderline - SMOTE를 제안한 논문

<img src='./my_icons/borderline_smote_ref.PNG'>

(1) 검은색이 다수범주, 빨간색이 소수범주, 데이터는 눈사람 형태로 되어있다.

(2) 파란색 점이 Borderline주변에 Danger 관측치가 잘 선정이 됐다.

(3) 이 부분에 대해서만 SMOTE를 적용해서 오버샘플링 되었다.

#### `#4.` ADASYN (adaptive synthetic sampling approach)
> 샘플링하는 개수를 위치에 따라 다르게

<img src='./my_icons/adasyn.PNG'>

**각 <font color='red'>소수</font> 클래스 주변에 얼마나 많은 <font color='blue'>다수</font> 클래스 관측치가 있는가를 정량화 한 지표**

`-` 예제1

<img src='./my_icons/adasyn_ex1.PNG'>

`-` 예제2

<img src = './my_icons/adasyn_ex2.PNG'>

`-` 예제3

<img src = './my_icons/adasyn_ex3.PNG'>

<img src='./my_icons/adasyn_ratio.PNG'>

<img src='./my_icons/adasyn_scaling.PNG'>

<img src='./my_icons/adasyn_num.PNG'>

괄호 안에 있는 개수만큼 개수를 증폭시키겠다는 말이다.
첫번째 소수클래스 주변에 14개를, 13번째 주변에는 40개를 생성해내겠다.

소수 클래스 주변에 다수클래스가 몇 개 있느냐에 따라 비율이 ($r_i$) 결정되고, 그에 따라 증폭되는 오버샘플링한 데이터의 개수가 달라진다.

<img src = './my_icons/adasyn_ex4.PNG'>

<img src='./my_icons/adasyn_ex5.PNG'>

**소수 클래스 주변의 다수 클래스의 수에 따라 유동적으로 오버샘플링 개수 생성이 가능**

#### ADASYN 어떻게 생성하는가?
ADASYN도 SMOTE를 적용한다. SMOTE의 imporve된 버전이라고 생각하면 된다.,

단 일반 SMOTE처럼 모든데에 다 적용하는 것이 아닌 조금 adaptive하게 한다는 것.

`-` STEP1

<img src='./my_icons/adasyn_step1.PNG'>

`-` STEP2

<img src='./my_icons/adasyn_step2.PNG'>

`-` STEP3

<img src='./my_icons/adasyn_step3.PNG'>

`-` STEP4

<img src='./my_icons/adasyn_step4.PNG'>

`-` STEP5

<img src='./my_icons/adasyn_step5.PNG'>

`-` ADASYN 적용 전/후 비교

<img src='./my_icons/adasyn_compare.PNG'>

### Borderlin - SMOTE    vs.    ADASYN

Borderline-SMOTE는 경계선에 집중하겠다라는 것이고, ADASYN은 경계선은 당연하고 다수 클래스 쪽에 있는 소수 클래스가 있는 부분에 집중을 하자는 것이다. 

$\to$ 분류 성능을 높이자!

### oversampling - ADASYN 관련 논문

<img src='./my_icons/adasyn_ref.PNG'>

이 데이터의 특징은 다수 클래스의 데이터가 3개의 패턴이 존재한다. 이런것을 멀티모달이라고 한다. 정상 데이터 즉 다수 클래스가 유니모달 패턴이 아닌 여러개의 패턴이 있는 경우 ADASYN이 작동을 잘 한다.

- SMOTE같은 경우 소수 클래스에 적용이 되고 있다.

- Borderlin-SMOTE의 경우 Borderline 주변에 생성이 되어 있다.

- ADASYN의 경우 Borderline도 잘 잡는다. Borderline을 오히려 Borderline SMOTE보다 더 잘 잡는다. 

***SMOTE도 데이터의 패턴에 따라 잘 생성된 것 같은데 불필요한 부분에도 생성된 것을 볼 수 있다. ADASYN의 경우 SMOTE와 Borderline - SMOTE의 장점을 잘 포함하고 있다.***

#### `#5.` GAN

<img src='./my_icons/gan.PNG'>

`-` GAN 예시

<img src='./my_icons/gan_ex0.PNG'>

<img src='./my_icons/gan_ex1.PNG'>