# Chuẩn bị dữ liệu

In [1]:
# Import thư viện cần thiết
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from imblearn.combine import SMOTEENN
import numpy as np
from joblib import dump
import pandas as pd

In [2]:


data = pd.read_csv('creditcard.csv')
print(data.head())

   Time        V1        V2        V3  ...       V27       V28  Amount  Class
0   0.0 -1.359807 -0.072781  2.536347  ...  0.133558 -0.021053  149.62      0
1   0.0  1.191857  0.266151  0.166480  ... -0.008983  0.014724    2.69      0
2   1.0 -1.358354 -1.340163  1.773209  ... -0.055353 -0.059752  378.66      0
3   1.0 -0.966272 -0.185226  1.792993  ...  0.062723  0.061458  123.50      0
4   2.0 -1.158233  0.877737  1.548718  ...  0.219422  0.215153   69.99      0

[5 rows x 31 columns]


# Xử lý dữ liệu

In [3]:
from sklearn.preprocessing import StandardScaler

# Chuẩn hóa cột Amount và Time
data['scaled_amount'] = StandardScaler().fit_transform(data['Amount'].values.reshape(-1, 1))
data['scaled_time'] = StandardScaler().fit_transform(data['Time'].values.reshape(-1, 1))

# Loại bỏ các cột gốc
data = data.drop(['Amount', 'Time'], axis=1)

In [4]:

# Chia tập dữ liệu thành đặc trưng (X) và nhãn (y)
X = data.drop('Class', axis=1)
y = data['Class'].copy()
y[np.isnan(y)] = 0  # Thay thế NaN bằng 0 (hoặc giá trị phù hợp khác)
# Chia dữ liệu thành tập huấn luyện và kiểm tra (70:30)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Hàm đánh giá mô hình
def evaluate_model(model_name, y_test, y_pred, y_pred_proba):
    print(f"\nModel: {model_name}")
    print("Confusion Matrix:")
    print(confusion_matrix(y_test, y_pred))
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred))
    print(f"ROC-AUC Score: {roc_auc_score(y_test, y_pred_proba):.4f}")
    return roc_auc_score(y_test, y_pred_proba)


In [5]:
smote_enn = SMOTEENN(random_state=42)
X_train_smote_enn, y_train_smote_enn = smote_enn.fit_resample(X_train, y_train)

In [6]:
#Export data
# Lưu dữ liệu đã được resample vào tệp .pkl
dump(X_test, './data/X_test.pkl')
dump(y_test, './data/y_test.pkl')
dump(X_train_smote_enn, './data/X_train_smote_enn.pkl')
dump(y_train_smote_enn, './data/y_train_smote_enn.pkl')

['./data/y_train_smote_enn.pkl']