## 데이터의 불균형 문제 처리
- 정상을 정확하게 분류하는 것과 이상을 정확하게 분류하는 것 중 일반적으로 이상을 정확히 분류하는 것이 중요
- 보통 이상 데이터가 target데이터로 사용하는 경우가 많다.
- 데이터가 불균형할때는 분류의 성능과 target데이터를 정확히 분류해내는 목표가 일치하지 않게 된다.
- 이러한 경우 분석걸과의 해석 뿐만이 아니라 머신러닝 등 모델링에서 문제가 발생
- 소수의 데이터인 target의 중요를 낮게 판단하게 되므로 궁극적으로 분석가능한 모델을 생성할 수 없다.
- 이러한 문제를 해결하기 위해 소수의 비정상 데이터를 늘리는 오버 샘플링, 상대적으로 많은 데이터에서 일부만 사용하는 언더 샘플링이 존재

In [15]:
# 라이브러리 설치
# !pip install imbalanced-learn

### 언더 샘플링
- 다수의 라벨을 가진 데이터를 샘플링하여 소수의 데이터 세트가 가진 라벨의 수 수준으로 감소시키는 방법
- 이 기법은 데이터 불균형 문제는 해결이 가능하지만 전체 데이터의 개수가 줄어들어서 학습 성능이 떨어질 수 있다.

In [6]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from collections import Counter
from imblearn.under_sampling import RandomUnderSampler

In [10]:
# 랜던 데이터 셋을 하나 생성
# 90 : 10 비율로 생성

x, y = make_classification(n_samples=2000,
                           n_features=5,
                           weights=[0.9],
                           flip_y=0)

In [11]:
Counter(y)

Counter({np.int64(0): 1801, np.int64(1): 199})

In [12]:
# 랜덤 언더 샘플링
# 다수의 데이터를 소수의 데이터의 개수만큼 줄여주는 작업
undersampler = RandomUnderSampler()

In [13]:
x_under, y_under = undersampler.fit_resample(x, y)

In [14]:
Counter(y_under)

Counter({np.int64(0): 199, np.int64(1): 199})

In [16]:
# sampling_strategy 매개변수 : 소수의 데이터의 비율을 지정하여 다수의 데이터의 개수를 정한다
undersampler2 = RandomUnderSampler(sampling_strategy=0.3)
x_under2, y_under2 = undersampler2.fit_resample(x, y)

In [18]:
Counter(y_under2)

Counter({np.int64(0): 663, np.int64(1): 199})