In [1]:
import pandas as pd 
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from collections import Counter

In [3]:
train = pd.read_csv('train_selected_10features.csv')
train.Status.value_counts()

Status
2    10108
0     4520
1      372
Name: count, dtype: int64

In [3]:
X= train.drop(columns=['Status'])
y = train['Status']

# ตรวจสอบข้อมูลก่อนทำการจัดการ class imbalance
print("Original class distribution:", Counter(y))

# เริ่มทำ oversampling และ undersampling
# ใช้ SMOTE เพื่อเพิ่มจำนวนตัวอย่างใน class 1 (จาก 372 เป็น 2000)
smote = SMOTE(sampling_strategy={1: 4000}, random_state=42)

# ใช้ RandomUnderSampler เพื่อลดตัวอย่างใน class 0 และ class 2 ลงเหลือ 2000
undersample = RandomUnderSampler(sampling_strategy={0: 4000, 2: 4000}, random_state=42)

# ทำการ oversampling และ undersampling
X_resampled, y_resampled = smote.fit_resample(X, y)  # ทำ SMOTE ก่อน
X_resampled, y_resampled = undersample.fit_resample(X_resampled, y_resampled)  # ทำ undersampling

# ตรวจสอบข้อมูลหลังการทำ oversampling และ undersampling
print("Resampled class distribution:", Counter(y_resampled))

# สร้าง DataFrame ใหม่หลังการจัดการ class imbalance
train_balanced = pd.DataFrame(X_resampled, columns=X.columns)
train_balanced['Status'] = y_resampled

# บันทึกข้อมูลที่ได้รับการปรับสมดุลลงในไฟล์ใหม่
train_balanced.to_csv('train_balanced_selected_3_4000each_10features.csv',index=False)

print("Balanced data saved as 'train_balanced.csv'")

Original class distribution: Counter({2: 10108, 0: 4520, 1: 372})
Resampled class distribution: Counter({0: 4500, 1: 4500, 2: 4500})
Balanced data saved as 'train_balanced.csv'


In [4]:
df = pd.read_csv('train_balanced_selected.csv')
df.Status.value_counts()

Status
0    4000
1    4000
2    4000
Name: count, dtype: int64