In [42]:
# ==============================================
# Create balanced dataset with EasyEnsemble
# ==============================================

In [43]:
import pandas as pd
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler
from collections import Counter

In [44]:
# Load the base dataset
data = pd.read_csv('creditcard_dataset.csv')
print("Rozmiar oryginalnego zbioru:", data.shape)

Rozmiar oryginalnego zbioru: (284807, 31)


In [45]:
X = data.drop('Class', axis=1)
y = data['Class']

In [46]:
# 4️⃣ Train/test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [47]:
print("Rozkład klas w zbiorze treningowym:", Counter(y_train))
print("Rozkład klas w zbiorze testowym:", Counter(y_test))

Rozkład klas w zbiorze treningowym: Counter({0: 227451, 1: 394})
Rozkład klas w zbiorze testowym: Counter({0: 56864, 1: 98})


In [48]:
# 5️⃣ Simulate EasyEnsemble augmentation (multi-undersampling)
n_subsets = 10
rus = RandomUnderSampler(random_state=42)

In [49]:
X_resampled_list = []
y_resampled_list = []

In [50]:
for i in range(n_subsets):
    X_res, y_res = rus.fit_resample(X_train, y_train)
    X_resampled_list.append(X_res)
    y_resampled_list.append(y_res)
    print(f"Podzbiór {i+1}: {Counter(y_res)}")

Podzbiór 1: Counter({0: 394, 1: 394})
Podzbiór 2: Counter({0: 394, 1: 394})
Podzbiór 3: Counter({0: 394, 1: 394})
Podzbiór 4: Counter({0: 394, 1: 394})
Podzbiór 5: Counter({0: 394, 1: 394})
Podzbiór 6: Counter({0: 394, 1: 394})
Podzbiór 7: Counter({0: 394, 1: 394})
Podzbiór 8: Counter({0: 394, 1: 394})
Podzbiór 9: Counter({0: 394, 1: 394})
Podzbiór 10: Counter({0: 394, 1: 394})


In [51]:
# 6️⃣ Merge all resampled subsets into one combined dataset
X_balanced = pd.concat(X_resampled_list, axis=0)
y_balanced = pd.concat(y_resampled_list, axis=0)

In [52]:
print("Rozmiar po połączeniu:", X_balanced.shape)
print("Rozkład klas po połączeniu:", Counter(y_balanced))

Rozmiar po połączeniu: (7880, 30)
Rozkład klas po połączeniu: Counter({0: 3940, 1: 3940})


In [53]:
# 7️⃣ Save augmented dataset
balanced_data = X_balanced.copy()
balanced_data['Class'] = y_balanced.values
balanced_data.to_csv('creditcard_dataset_easyensemble.csv', index=False)

In [54]:
print("✅ Dane po augmentacji (EasyEnsemble-style) zapisano do creditcard_dataset_easyensemble.csv")

✅ Dane po augmentacji (EasyEnsemble-style) zapisano do creditcard_dataset_easyensemble.csv
