# Over Sampling & Under Sampling

* 흔하게 일반적인 데이터들은 데이터 불균형을 가지고 있다.
* 일반적으로 이런 방법에 대해서 가장 쉬운 방법은 적은 데이터 기준으로 맞추던지(UnderSampling)  큰 데이터 기준으로 맞추는 것(Over Sampling) 이다.
* 일단 ` imbalanced-learn`  패키지를 활용하여 쉽게 해보는 방법을 알아보자

## [Document Url](https://imbalanced-learn.readthedocs.io/en/stable/over_sampling.html)

## OverSampling

`SMOTE` , `ADASYN` 새로운 샘플을 생성할 때 같은 알고리즘을 사용한다. KNN으로 사용한다. 
$x_{new} = x_i + \lambda x ( x_{zi} - x_i )$
`SMOTE-NC` 는 categorical features를 수행하기 때문에 다소 다르게 생성시킨다. 
* 다른 `SMOTE` `ADASYN` 의 다른 `변종` 들은 각각 다른 $X_i$ 를 뽑기 떄문에 다르게 생성된다.
* `regularSMOTE`
* `borderlineSMOTE`
* `SVMSMOTE`

## Under Sampling
* `ClusterCentroids`
    * 줄어든 데이터에서 군집을 잘 표현할 수 있는 방법인다
    * Sparse matrices를 지원한다. 그러나 새로운 샘플은 생성되지 않는다. 
* `RandomUnderSampler`
    * fast and easy way
    * replacement = True 로 하면 bootstrap 사용 가능하다.
* `NearMiss`
    * Nearest Neighbor 알고리즘 사용한다. 
* `EditedNearestNeighbours`
    * Nearset Neighbor 알고리즘을 사용하되, neighborhood 에 있지 않을 것 같은 것은 제거한다.
* `CondensedNearestNeighbour`
    * 1 nearest neighbor 규칙을 사용해서 반복적으로 제거할지 안할지 결정한다.
    * CondensedNearestNeighbour is sensitive to noise and will add noisy samples.
* `OneSidedSelection`
    * In the contrary, OneSidedSelection will use TomekLinks to remove noisy samples
* `InstanceHardnessThreshold`
    * 분류 모델이 데이터 및 샘플을 훈련시키고 낮은 확률들을 제거한다.

In [3]:
from sklearn.datasets import make_classification

In [4]:
X , y = make_classification( n_samples=5000 , n_features= 2 , n_informative= 2 , 
                            n_redundant=0, n_repeated=0, n_classes=3,
                            n_clusters_per_class=1,
                            weights=[0.01, 0.05, 0.94],
                            class_sep=0.8, random_state=0)

## OverSampling

`SMOTE` , `ADASYN` 새로운 샘플을 생성할 때 같은 알고리즘을 사용한다. KNN으로 사용한다. 
$x_{new} = x_i + \lambda x ( x_{zi} - x_i )$
`SMOTE-NC` 는 categorical features를 수행하기 때문에 다소 다르게 생성시킨다. 
* 다른 `SMOTE` `ADASYN` 의 다른 `변종` 들은 각각 다른 $X_i$ 를 뽑기 떄문에 다르게 생성된다.
* `regularSMOTE`
* `borderlineSMOTE`
* `SVMSMOTE`

In [15]:
import numpy as np , collections

unique, counts = np.unique( y, return_counts=True)
method1 = dict(zip(unique, counts))

method2 = collections.Counter(y)

print(method1)
print(method2)



{0: 64, 1: 262, 2: 4674}
Counter({2: 4674, 1: 262, 0: 64})


In [16]:
from imblearn.over_sampling import RandomOverSampler

In [17]:
ros = RandomOverSampler(random_state=0)

In [18]:
X_resampled, y_resampled = ros.fit_resample(X, y)

In [20]:
collections.Counter(y_resampled)

Counter({0: 4674, 1: 4674, 2: 4674})

## From random `over-sampling` to `SMOTE` and `ADASYN`

In [29]:
from imblearn.over_sampling import SMOTE, ADASYN
X_resampled, y_resampled = SMOTE().fit_resample(X , y)
collections.Counter(y_resampled)

Counter({0: 4674, 1: 4674, 2: 4674})

In [28]:
X_resampled, y_resampled = ADASYN().fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 4673, 1: 4662, 2: 4674})

## `SMOTE` 의 변종 `BorderlineSMOTE`

In [30]:
from imblearn.over_sampling import BorderlineSMOTE

In [32]:
X_resampled, y_resampled = BorderlineSMOTE().fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 4674, 1: 4674, 2: 4674})

In [35]:
from imblearn.over_sampling import SMOTENC
rng = np.random.RandomState(42)
n_samples = 50
X = np.empty((n_samples, 3), dtype=object)
X[:, 0] = rng.choice(['A', 'B', 'C'], size=n_samples).astype(object)
X[:, 1] = rng.randn(n_samples)
X[:, 2] = rng.randint(3, size=n_samples)
y = np.array([0] * 20 + [1] * 30)
print(collections.Counter(y))
smote_nc = SMOTENC(categorical_features=[0, 2], random_state=0)
X_resampled, y_resampled = smote_nc.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({1: 30, 0: 20})


Counter({0: 30, 1: 30})

## Under Sampling
* `ClusterCentroids`
    * 줄어든 데이터에서 군집을 잘 표현할 수 있는 방법인다
    * Sparse matrices를 지원한다. 그러나 새로운 샘플은 생성되지 않는다. 
* `RandomUnderSampler`
    * fast and easy way
    * replacement = True 로 하면 bootstrap 사용 가능하다.
* `NearMiss`
    * Nearest Neighbor 알고리즘 사용한다. 
* `EditedNearestNeighbours`
    * Nearset Neighbor 알고리즘을 사용하되, neighborhood 에 있지 않을 것 같은 것은 제거한다.
* `CondensedNearestNeighbour`
    * 1 nearest neighbor 규칙을 사용해서 반복적으로 제거할지 안할지 결정한다.
    * CondensedNearestNeighbour is sensitive to noise and will add noisy samples.
* `OneSidedSelection`
    * In the contrary, OneSidedSelection will use TomekLinks to remove noisy samples
* `InstanceHardnessThreshold`
    * 분류 모델이 데이터 및 샘플을 훈련시키고 낮은 확률들을 제거한다.

In [36]:
X , y = make_classification( n_samples=5000 , n_features= 2 , n_informative= 2 , 
                            n_redundant=0, n_repeated=0, n_classes=3,
                            n_clusters_per_class=1,
                            weights=[0.01, 0.05, 0.94],
                            class_sep=0.8, random_state=0)

In [38]:
collections.Counter(y)

Counter({0: 64, 1: 262, 2: 4674})

In [37]:
from imblearn.under_sampling import ClusterCentroids

In [39]:
cc = ClusterCentroids(random_state=0)
X_resampled, y_resampled = cc.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 64, 2: 64})

In [40]:
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 64, 2: 64})

In [41]:
rus = RandomUnderSampler(random_state=0, replacement=True)
X_resampled, y_resampled = rus.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 64, 2: 64})

In [42]:
from imblearn.under_sampling import NearMiss
nm1 = NearMiss(version=1)
X_resampled_nm1, y_resampled = nm1.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 64, 2: 64})

In [50]:
print("Real :" , sorted(collections.Counter(y).items()))

Real : [(0, 64), (1, 262), (2, 4674)]


In [43]:
from imblearn.under_sampling import EditedNearestNeighbours
enn = EditedNearestNeighbours()
X_resampled, y_resampled = enn.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 213, 2: 4568})

In [44]:
from imblearn.under_sampling import CondensedNearestNeighbour
cnn = CondensedNearestNeighbour(random_state=0)
X_resampled, y_resampled = cnn.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 24, 2: 115})

In [45]:
from imblearn.under_sampling import OneSidedSelection
oss = OneSidedSelection(random_state=0)
X_resampled, y_resampled = oss.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 174, 2: 4404})

In [46]:
from imblearn.under_sampling import NeighbourhoodCleaningRule
ncr = NeighbourhoodCleaningRule()
X_resampled, y_resampled = ncr.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 234, 2: 4666})

In [53]:
from imblearn.under_sampling import InstanceHardnessThreshold
from sklearn.linear_model import LogisticRegression
iht = InstanceHardnessThreshold(random_state=0,cv=10,
                                estimator=LogisticRegression(solver='lbfgs', multi_class='auto'))
X_resampled, y_resampled = iht.fit_resample(X, y)
collections.Counter(y_resampled)

Counter({0: 64, 1: 64, 2: 64})