In [1]:
import pandas as pd
import numpy as np

np.random.seed(1234)

n = 100

data = {
    'age': np.random.randint(18, 65, size=n),  
    'salary': np.random.normal(loc=50000, scale=15000, size=n).astype(int),  
    'department': np.random.choice(['HR', 'Engineering', 'Marketing'], size=n, p=[0.7, 0.2, 0.1])
}

# 데이터프레임 생성
df = pd.DataFrame(data)

df['department'].value_counts()

HR             72
Engineering    19
Marketing       9
Name: department, dtype: int64

In [34]:
from imblearn.over_sampling import SMOTE 
# Synthetic Minority Over-sampling Technique
# 불균형한 데이터셋에서 소수 클래스 샘플을 인위적으로 생성하여 데이터의 균형을 맞출 때 사용
 
# ratio : 소수 클래스에 대해 얼마나 샘플을 생성할지를 지정하는 파라미터
# 'auto' = (기본값) 소수 클래스를 다수 클래스와 동일한 수로 맞춤
# float = 예: 0.5이면 소수 클래스가 다수 클래스의 50%가 되도록 샘플 생성  (이진 분류에서 사용)
# dict = 예: {0: 100, 1: 300} → 클래스 0은 100개, 클래스 1은 300개로 맞춤
# 'minority' = 가장 작은 소수 클래스만 oversampling
# 'not majority' = 다수 클래스를 제외한 모든 클래스를 oversampling
# 'all' = 모든 클래스를 동일한 수로 맞춤 (다수 클래스 포함)

# kind : SMOTE 알고리즘의 변형 종류를 지정
# 'regular' = (기본값) KNN 기반으로 단순하게 소수 클래스 샘플을 생성
# 'borderline1' = 경계선 근처에 있는 소수 클래스만 oversampling (Borderline-SMOTE 1)
#'borderline2' = Borderline-SMOTE 2 방식
# 'svm' = SVM 경계 기반 SMOTE (SVM-SMOTE)
smote = SMOTE(ratio='auto', kind='regular', random_state=1234)
X_train, y_train = smote.fit_resample(df[['age', 'salary']], df['department']) # fit_resample(data, class)

In [35]:
df_resampled = pd.DataFrame(X_train, columns=['age', 'salary'])
df_resampled['department'] = y_train

In [36]:
df_resampled['department'].value_counts()

Marketing      72
Engineering    72
HR             72
Name: department, dtype: int64