# 불균형 분류에 대한 Random Oversampling 및 Undersampling 

## Random Undersampling 

- Random Undersampling은 다수 클래스에서 example 을 삭제하므로 모델에 중요한 정보를 잃을 수 있습니다.


## Random Oversampling

- Random Oversampling은 훈련 데이터 세트의 소수 클래스의 예제를 복제하므로 일부 모델에 대해 과적합을 초래할 수 있습니다.  

- Training set 에서 복원 추출    

## Imbalanced-Learn Library

In [None]:
# !pip install scikit-learn==1.3.2
# !pip install imbalanced-learn==0.11.0

make_classification : 랜덤 n-class 분류 문제 생성  

- weights :  각 클래스에 할당된 샘플의 비율. None - 균형 class
- flip_y :  클래스가 무작위로 할당된 샘플의 비율. 값이 클수록 레이블에 노이즈가 발생하고 분류 작업이 더 어려워진다.

### 임의의 n-class 분류 문제를 생성
- normal(0) : abnormal(1) = 99:1 의 비율로 data 생성

In [None]:
# 분류 문제를 위한 합성 데이터 세트 생성
# n_samples=10000: 샘플의 총 수 10,000개
# n_features=10: 특성(독립 변수)의 수 10개
# n_classes=2: 클래스(종속 변수)의 수 2개, 이진 분류 문제를 의미
# weights=(0.99,): 첫 번째 클래스의 샘플이 전체의 99%를 차지하도록 설정
# flip_y=0.0: 샘플의 레이블을 무작위로 뒤집을 확률, 여기서는 0%로 설정

### Over Sampling

sampling_strategy  : 리샘플링 후 다수 클래스 샘플 수에 대한 소수 클래스 샘플 수의 원하는 비율  

- minority class 를 oversampling 하여 normal(0) : abnormal(1) = 2:1 이 되도록 resample

In [None]:
# 오버샘플링 전략을 설정합니다. 여기서는 적은 클래스의 샘플 수를 전체의 50%로 맞추는 전략을 사용합니다.
# X와 y 데이터를 오버샘플링하여 새로운 X_over와 y_over 데이터를 생성합니다.
# 오버샘플링된 y 데이터의 클래스 분포 출력

In [None]:
# y_over 데이터의 클래스 분포를 시각화합니다.
# sns.countplot() 함수는 각 클래스의 샘플 수를 세어 막대 그래프로 보여줍니다.

### Under Sampling

sampling_strategy : `majority`: 다수 클래스만 리샘플링 

- majority class 를 undersample 하여 normal(0) : abnormal(1) = 1:1 이 되도록 resample

In [None]:
# 'majority': 다수 클래스의 샘플 수를 소수 클래스의 샘플 수와 동일하게 줄입니다. 

In [None]:
# y_under 데이터의 클래스 분포를 시각화합니다.
# sns.countplot() 함수는 각 클래스의 샘플 수를 세어 막대 그래프로 보여줍니다.

## Random Oversampling 과 Undersampling을 동시 적용
- 소수 class 를 oversampling 하여 normal(0) : abnormal(1) = 10:1 이 되도록 하고,  
- 다수 class 를 undersampling 하여 normal(0) : abnormal(1) = 2:1 이 되도록 한다.

In [None]:
# sampling_strategy=0.1은 소수 클래스를 다수 클래스의 10%까지 증가시킴
# sampling_strategy=0.5는 다수 클래스를 소수 클래스의 2배 수준으로 줄이기

### 임의의 n-class 분류 문제를 생성
- normal(0) : abnormal(1) = 99:1 의 비율로 data 생성

In [None]:
# sample data 재 생성
# y 데이터의 클래스 분포를 출력합니다.

## SMOTE (Synthetic Minority Over-Sampling Technique) 적용

http://www.incodom.kr/SMOTE

- SMOTE는 불균형 데이터셋에서 소수 클래스의 샘플을 늘려 데이터의 균형을 맞추기 위한 오버샘플링 기법입니다.  
- 소수 클래스의 각 샘플에 대해 k-최근접 이웃(k-nearest neighbors)을 찾습니다. 기본적으로 k는 5로 설정됩니다.  
- 각 소수 클래스 샘플에 대해 선택된 k-최근접 이웃 중 하나를 무작위로 선택합니다.  
- 선택된 이웃과 원래 샘플 사이의 선형 간격을 따라 새로운 샘플을 생성합니다. 새로운 샘플은 원래 샘플과 이웃 샘플 사이의 선형 보간(interpolation)으로 생성됩니다.  

In [None]:
# SMOTE 객체를 생성합니다. sampling_strategy를 생략하면 소수 클래스가 다수 클래스와 같아질 때까지 오버샘플링합니다.
# SMOTE를 사용하여 데이터셋을 재샘플링합니다.

- SMOTE 적용 전, 후 분포 시각화  

- 시각화를 위해 2 차원으로 축소

SMOTE 적용전 original data 시각화

In [None]:
# 클래스별 색상 정의 (0: 빨강, 1: 파랑)
# 클래스 0에 해당하는 샘플의 PCA1, PCA2 추출
# 클래스 1에 해당하는 샘플의 PCA1, PCA2 추출
# x축, y축 라벨 및 범례 설정
# 그래프 출력

SMOTE 적용 후 data 시각화

## 실습 문제: 불균형 데이터 처리 및 시각화

- 데이터 비율 조정

In [None]:
# 1. 불균형 데이터 (95:5 비율) 생성
# 2. RandomOverSampler 적용 (1:1 맞춤)
# 3. RandomUnderSampler 적용 (1:1 맞춤)

- Oversampling → Undersampling 순차 적용

In [None]:
# 오버샘플링: 소수 클래스 → 다수 클래스의 10%까지 증가
# 언더샘플링: 다수 클래스 → 소수 클래스의 2배까지 감소

- 위와 동일한 데이터셋을 사용하여 SMOTE를 적용하세요.

In [None]:
# SMOTE 적용
# 스케일링 후 PCA 변환
# 시각화
# Before SMOTE
# After SMOTE