In [7]:
from imblearn.over_sampling import SMOTE, BorderlineSMOTE, ADASYN
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [8]:
def apply_oversampling_and_save(X, y, method='smote', target_ratio=0.5, 
                               file_name='resampled_data.csv', random_state=42):
    """
    오버샘플링 적용 후 CSV 파일로 저장하는 함수
    
    Parameters:
    -----------
    X : DataFrame or array
        특성 데이터
    y : Series or array
        타겟 데이터
    method : str
        'smote', 'borderline_smote', 'adasyn' 중 선택
    target_ratio : float
        목표 비율
    file_name : str
        저장할 파일 이름
    """
    
    # 현재 클래스 비율 출력
    unique, counts = np.unique(y, return_counts=True)
    current_ratio = counts[1] / counts[0]
    print(f"현재 클래스 비율 (minority:majority) = 1:{1/current_ratio:.2f}")
    
    # 오버샘플링 방법 선택
    if method.lower() == 'smote':
        sampler = SMOTE(sampling_strategy=target_ratio, random_state=random_state)
    elif method.lower() == 'borderline_smote':
        sampler = BorderlineSMOTE(sampling_strategy=target_ratio, random_state=random_state)
    elif method.lower() == 'adasyn':
        sampler = ADASYN(sampling_strategy=target_ratio, random_state=random_state)
    
    # 오버샘플링 적용
    X_resampled, y_resampled = sampler.fit_resample(X, y)
    
    # 결과 클래스 비율 출력
    unique_new, counts_new = np.unique(y_resampled, return_counts=True)
    new_ratio = counts_new[1] / counts_new[0]
    print(f"리샘플링 후 클래스 비율 (minority:majority) = 1:{1/new_ratio:.2f}")
    
    # DataFrame으로 변환
    if isinstance(X, pd.DataFrame):
        resampled_df = pd.DataFrame(X_resampled, columns=X.columns)
    else:
        resampled_df = pd.DataFrame(X_resampled)
    
    # 타겟 변수 추가
    resampled_df['target'] = y_resampled
    
    # CSV 파일로 저장
    resampled_df.to_csv(file_name, index=False)
    print(f"데이터가 {file_name}으로 저장되었습니다.")
    
    return X_resampled, y_resampled

# 사용 예시:
"""
# 5:1 비율로 SMOTE 적용하고 저장
X_smote, y_smote = apply_oversampling_and_save(X, y, 
                                              method='smote', 
                                              target_ratio=0.2,
                                              file_name='smote_5to1.csv')

# 3:1 비율로 Borderline-SMOTE 적용하고 저장
X_border, y_border = apply_oversampling_and_save(X, y, 
                                                method='borderline_smote', 
                                                target_ratio=0.33,
                                                file_name='borderline_3to1.csv')
"""

"\n# 5:1 비율로 SMOTE 적용하고 저장\nX_smote, y_smote = apply_oversampling_and_save(X, y, \n                                              method='smote', \n                                              target_ratio=0.2,\n                                              file_name='smote_5to1.csv')\n\n# 3:1 비율로 Borderline-SMOTE 적용하고 저장\nX_border, y_border = apply_oversampling_and_save(X, y, \n                                                method='borderline_smote', \n                                                target_ratio=0.33,\n                                                file_name='borderline_3to1.csv')\n"

In [9]:
df_drop = pd.read_csv('../data1.csv')

In [11]:
df_median = pd.read_csv('../data2.csv')