# 불군형자료 - Imbalanced Data
### 불균형자료
- 특정 클래스의 관측치가 다른 클래스에 비해 매우 낮게 나타난 경우

### 불균형 문제를 해결하는 방법
#### 과소표집 (Undersampling)
- 다수 클래스(Major Class)의 표본을 임의로 학습데이터로부터 제거하는 것

#### 과대표집 (Oversampling)
- 소수 클래스(Minor Class)의 표본을 복제하여 이를 학습데이터에 추가하는 것

**-> 일반적으로는 과소표집보다는 과대표집이 통계적으로 유용함**

**과소표집은 표본의 수를 줄이기 때문에 모형의 정밀도가 일반적으로 떨어지기 때문**

### 과대표집
#### 합성소수표집법 (SMOTE)
- Synthetic Minority Oversampling Technique

#### 조절합성표집법 (ADASYN)
- Adaptive Synthetic Sampling Method

#### 둘의 비교
- SMOTE와 ADASYN은 근본적으로 같은 방법
- 소수클래스에 속한 각각의 관측치에 대응하는 합성관측치의 생성방법에만 차이가 있음.
- **소수클래스를 위한 합성관측치의 수는 다수클래스에 속한 관측치의 수와 같도록 생성함.**




In [None]:
!pip install imblearn



In [None]:
from collections import Counter
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE, ADASYN

X, y = make_classification(n_classes=3, weights=[0.03, 0.07, 0.9], n_features=10, n_clusters_per_class=1, n_samples=2000, random_state=10)
print('Original dataset shape %s' % Counter(y))

Original dataset shape Counter({2: 1795, 1: 141, 0: 64})


In [None]:
# SMOTE

sm = SMOTE(random_state=42)
X_res, y_res = sm.fit_resample(X, y)
print('Resampled dataset shape %s' % Counter(y_res))

Resampled dataset shape Counter({2: 1795, 1: 1795, 0: 1795})




In [None]:
# ADASYN

ada = ADASYN(random_state=0)
X_syn, y_syn = ada.fit_resample(X, y)
print('Resampled dataset shape from ADASYN %s' % Counter(y_syn))

Resampled dataset shape from ADASYN Counter({1: 1805, 2: 1795, 0: 1795})


