# Unbalanced Data
> 불균형 데이터 분석을 위한 샘플링 기법
- toc: true
- branch: master
- badges: false
- comments: true
- author: pinkocto
- categories: [python]

## 불균형 데이터란?
<font color='blue'>**"정상"**</font> 범주의 관측치 수와 <font color='red'>**"이상"**</font> 범주의 관측치 수의 차이가 크게 나타나는 경우

<img src='./my_icons/unbal.PNG'>

## 불균형 데이터 특징

### 왜 문제인가?
<font color='blue'>정상(다수)</font>을 정확히 분류 vs. <font color='red'>이상(소수)</font>을 정확히 분류

`#1.` 일반적으로 <font color='red'>이상(소수)</font>을 정확히 분류하는 것이 중요

`#2.` 적절한 분류경계선이 형성되지 못함
$\to$ <font color='red'>이상(소수)</font>을 정확히 찾아내지 못함

`#3.` 높은 예측 정확도를 보임(?) 모델 성능에 대한 왜곡이 있을 수 있음.

<img src='./my_icons/unbal2.PNG'>

<img src='my_icons/ideal.PNG'>

<img src='./my_icons/real.PNG'>

<img src='./my_icons/real_ideal.PNG'>

불균형 상황 하에서는 분류 경계선이 잘못 설정된다.

<img src='./my_icons/unbal_pro.PNG'>

미래의 이상점이 나타났을 때(회색 점) 실제 분류경계선 옆 주황색 점들은 실제 이상임에도 불구하고 이 분류 경계선에 의하면 정상으로 오분류를 하게 된다.

$\to$ 이상을 잘 찾아내지 못하는 문제 발생

## 성능평가

<img src='./my_icons/confu.PNG'>

<img src='my_icons/unbal_score.PNG'>

- 이것만 봤을때는 정확도는 꽤 좋다. 그래서 우리 모델이 참 좋다! 라고 결론내릴 수 있는데 아마 이건 말이안된다고 생각할 것이다.

- 왜냐하면 정상데이터는  다 맞췄지만 우리가 관심있는 것은 이상이고, 이상관점에서만 봤을때는 반 밖에 못맞췄는데?? 이것이 어떻게 좋은 모델일까?


> Warning: 예측 정확도는 높게 나오지만 그것을 곧이곧대로 해석하면 안된다!!

## 해결방법은?


불균형 데이터의 해결방안은 크게 두가지로 볼 수 있다.

1. 첫번째는 데이터를 조절해서 해결한다.

2. 두번째는 분류모델 자체를 조절해서 해결한다.

세부적으로 불균형 데이터를 해결하는 방법은 3개가 있다고 볼 수 있다.
1. 샘플링 기법 (Sampling method)
2. 비용 기반 학습 (Cost sensitive leraning)
3. 단일 클래스 분류기법 (Novelty detection)

이번 시간에는 샘플링 기법에 대해서 알아보자.

## 데이터를 조정해서 해결

<img src = 'my_icons/unbal_sol.PNG'>

## 데이터를 조정해서 해결 (Sampling)

<img src='my_icons/unbal_sampling.PNG'>

샘플링 기법은 크게 언더 샘플링과 오버 샘플링으로 나눈다.

언더샘플링은 다수 범주를 줄여서 소수범주의 개수와 비슷하게 만들자

오버샘플링은 소수범주의 개수를 증폭시켜 다수 범주의 개수와 비슷하게 만들자..

### `-` 언더 샘플링

#### `#1.` Random undersampling

<img src='my_icons/random_undersampling.PNG'>

<img src='my_icons/random_under.PNG'>

<img src='my_icons/random_under_ex1.PNG'>

<img src='my_icons/random_under_ex2.PNG'>

또 이런식으로 샘플링 될 수도 있겠지.. 이런 경우에는 분류경계선이 다음과 같다.

<img src='./my_icons/random_under_ex2-v2.PNG'>

<img src='my_icons/random_under_ex3.PNG'>

랜덤 언더샘플링은 무작위로 샘플링하기 때문에 할 때마다 다른 결과가 나올 수 있다.

굉장히 쉬운방법이긴 하나 단점으로 작용할 수 있다.

잘 작동할때도 많이 있지만(의외로 잘 작동한다.) 샘플링할 때마다 성능이 달라질 수 있다는 문제가 있다.

#### `#2.` Tomek links

두 범주 사이를 탐지하고 정리를 통해 부정확한 분류경계선 방지

정의: $d(x_i,x_k) < d(x_i, x_j) 또는 d(x_j,x_k) < d(x_i, x_j)$가 되는 관측치 $x_k$가 없는 경우

$\to$ 두 샘플 $x_i, x_j$는 Tomek links를 형성

$\to$ 둘 중 하나는 노이즈 이거나 둘 다 경계선 근처에 있음

<img src='./my_icons/tomek_links.PNG'>

두 점사이에는 k점이 없어야 한다. 

k점은 뭐냐? 하면은 두 점사이(다수범주의 점1, 소수범주의 점1)에 어떠한 한점으로 각 점과 k점이 연결되었을 때 i와 j를 연결한 것보다 거리보다 작은 그런 중간에 있는 점이 없을 때 그 두 점을 연결한것을 tomek links라고 한다.

<img src='./my_icons/tomek_links_ex1.PNG'>

보라색으로 표시한 부분이 Tomek link

<img src='./my_icons/tomek_links_ex2.PNG'>

Tomek links에 해당하는 다수 범주에 속한 관측치가 제거되었기떄문에 언더샘플링이 된 것!