참고 링크
https://casa-de-feel.tistory.com/15

# Over Sampling
#### 소수 범주의 데이터를 다수 범주의 데이터 수에 맞게 늘리는 샘플링 방식

## 1. RandomOverSampler
#### 기존의 데이터를 무작위로 복제하는 기법
imblearn.over_sampling.RandomOverSampler(*, sampling_strategy='auto', random_state=None, shrinkage=None)
- parameters
    - sampling_strategy : float, str, dict or callable, default=’auto’
        - float : 비율을 뜻한다. minor / major 의 비율
        - str 
            - minority : 소수 클래스만 resampling
            - not minority : 소수를 제외한 모든 클래스를 resampling
            - not majority : 다수를 제외한 모든 클래스를 resampling
            - all : 모든 클래스를 resampling
            - auto : not majority 와 동일
        - <strong>dict : { target : 목표개수 } 로, target을 목표개수만큼 resampling 해준다. 목표개수는 원래 개수보다 많아야함.</strong>
        

## 2. SMOTE
#### knn과 비슷하다. 임의의 minor 한 점을 선택하고 이웃 k 개의 minor와 직선을 긋고, 그 내분점 어딘가에 새로운 데이터를 생성
imblearn.over_sampling.SMOTE(*, sampling_strategy='auto', random_state=None, k_neighbors=5, n_jobs=None)
- parameters
    - sampling_strategy : RandomOverSampling과 완전 똑같다
    - k_neighbors : 이웃 개수 설정

## 3. BorderlineSMOTE
#### Borderline 부분에 대해서만 SMOTE 방식을 사용하는 것입니다.
imblearn.over_sampling.BorderlineSMOTE(*, sampling_strategy='auto', random_state=None, k_neighbors=5, n_jobs=None, m_neighbors=10, kind='borderline-1')

## 4. ADASYN
#### Borderline의 응용 버전
imblearn.over_sampling.ADASYN(*, sampling_strategy='auto', random_state=None, n_neighbors=5, n_jobs=None)

In [2]:
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=5000, n_features=2, n_informative=2,
                           n_redundant=0, n_repeated=0, n_classes=3,
                           n_clusters_per_class=1,
                           weights=[0.01, 0.05, 0.94],
                           class_sep=0.8, random_state=0)

In [3]:
from imblearn.over_sampling import RandomOverSampler, SMOTE, ADASYN, BorderlineSMOTE

ros = RandomOverSampler(random_state=42, sampling_strategy={0 : 200})
smote = SMOTE(random_state=42)
adasyn = ADASYN(random_state=42)
borderline_smote = BorderlineSMOTE(random_state=42)

# 이런식으로 학습만 시키면 됨
X_resampled, y_resampled = ros.fit_resample(X, y)

# Under Sampling
#### 다수 범주의 데이터를 소수 범주의 데이터 수에 맞게 줄이는 샘플링 방식

## 1. RandomUnderSampler
#### 기존의 데이터 무작위 삭제
class imblearn.under_sampling.RandomUnderSampler(*, sampling_strategy='auto', random_state=None, replacement=False)

## 2. Tomek Links
#### Tomek Links를 형성한 후, 다수 범주에 속한 관측치를 제거하는 기법
#### Tomek Links: 서로 다른 두 클래스의 직선 거리가, 다른 점과 그 두 점의 각 거리보다 가까운 경우를 Tomek Links라고 한다. 쉽게 말해서 서로 다른 두 클래스의 거리가 가장 가까운 점들. 
imblearn.under_sampling.TomekLinks(*, sampling_strategy='auto', n_jobs=None)

## 3. CNN Rule
imblearn.under_sampling.CondensedNearestNeighbour(*, sampling_strategy='auto', random_state=None, n_neighbors=None, n_seeds_S=1, n_jobs=None)

## 4. OneSidedSelection
imblearn.under_sampling.CondensedNearestNeighbour(*, sampling_strategy='auto', random_state=None, n_neighbors=None, n_seeds_S=1, n_jobs=None)

In [22]:
from collections import Counter
from sklearn.datasets import make_classification
from imblearn.under_sampling import OneSidedSelection

X, y = make_classification(n_classes=2, class_sep=2,
weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
print('Original dataset shape %s' % Counter(y))


# 사용법
oss = OneSidedSelection(random_state=42)
X_res, y_res = oss.fit_resample(X, y)


print('Resampled dataset shape %s' % Counter(y_res))

Original dataset shape Counter({1: 900, 0: 100})
Resampled dataset shape Counter({1: 496, 0: 100})
