In [29]:
from collections import Counter
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE, ADASYN

In [30]:
X, y = make_classification(n_classes=3, weights=[0.03, 0.07, 0.9], n_features=10, n_clusters_per_class=2, n_informative=3, n_samples=2000, random_state=10)
print(f'Original data shape: {Counter(y)}')

Original data shape: Counter({2: 1796, 1: 140, 0: 64})


# make_classification
- scikit-learn 라이브러리에서 제공하는 함수로, 분류 모델 학습을 위한 가상의 데이터를 생성하는 데 사용

## n_classes: 
- 생성할 클래스의 개수를 지정

## weights: 
- 각 클래스에 속하는 샘플의 비율을 지정
- 위 예제에서는 [0.03, 0.07, 0.9]로 설정되어 있어, 첫 번째 클래스는 전체 데이터의 3%, 두 번째 클래스는 7%, 세 번째 클래스는 90%의 비율로 샘플이 생성

## n_features: 
- 생성할 특성(Feature)의 수를 지정
- 위 예제에서는 10으로 설정되어 있어, 각 샘플은 10개의 특성을 가지게 됨.

## n_clusters_per_class:
- 각 클래스 내에서 서로 비슷한 데이터끼리 얼마나 많은 그룹을 이루어야 하는지를 결정하는 것
- 1:
    - 각 클래스는 공간적으로 하나의 그룹을 형성
    - 각 클래스의 데이터가 단일 클러스터로 모여 있음을 나타낸다.
- 1보다 큰 경우
    - 각 클래스 내부에 여러 개의 클러스터가 생성
    - 이는 같은 레이블을 가진 데이터 포인트들이 여러 서로 다른 그룹을 형성할 수 있음을 의미
    - 각각의 그룹은 공간적으로 분리되어 있을 수 있다.

## n_samples: 
- 생성할 샘플의 총 개수를 지정

## random_state: 
- 데이터 생성 시 사용되는 난수 시드 값을 지정
- 이 값을 지정함으로써 결과를 재현할 수 있다.

---

# Coubter
- 컨테이너에 동일한 값의 자료가 몇 개인지를 파악하는 데 사용
- 리스트, 튜플 등의 이터러블한 객체에 포함된 요소의 개수를 세어, 요소와 그 요소의 개수를 딕셔너리 형태로 반환
- Counter(y)의 결과는 생성된 데이터 세트의 클래스별 샘플 분포를 나타내며, 이를 통해 각 클래스가 데이터 세트에서 차지하는 비율을 확인할 수 있다.

In [31]:
import numpy as np

X = np.array(X)
y = np.array(y)

print(f'X: {X}', X.shape)
print(f'y: {y}', y.shape)

X: [[-0.51580758  0.15256514  0.19278189 ...  0.50877241 -0.34522647
   1.423667  ]
 [-1.5482071  -0.68817046  1.09443894 ...  0.24956233 -1.587214
   0.86775055]
 [-1.93662622 -2.86165403  2.80846998 ... -1.6660675  -0.40622295
  -0.28346911]
 ...
 [-1.74754951  2.88207434 -0.46722554 ... -0.60987331 -0.05450079
  -1.13015615]
 [-0.51302964  0.01705309  0.42950344 ... -0.58542597  0.92029394
  -0.12764409]
 [-0.31070964  1.61987332 -0.31604515 ...  0.62993607 -1.08860256
   0.04336445]] (2000, 10)
y: [2 2 2 ... 2 2 2] (2000,)


In [32]:
sm = SMOTE(random_state=42, k_neighbors=20)
X_res, y_res = sm.fit_resample(X, y)
print(f'Resampled dataset shape: {Counter(y_res)}')

Resampled dataset shape: Counter({2: 1796, 1: 1796, 0: 1796})


In [33]:
ada = ADASYN(random_state=0)
X_syn, y_syn = ada.fit_resample(X, y)
print(f'Resampled dataset shape from ADASYN : {Counter(y_syn)}')

Resampled dataset shape from ADASYN : Counter({2: 1796, 1: 1789, 0: 1775})
