# Chia dữ liệu thành tập train và test

Dữ liệu được chia làm 3 dạng:
- Dữ liệu chưa qua xử lý (Imbalance)
- Dữ liệu đã được xử lý mất cân bằng bằng SMOTE
- Dữ liệu đã được xử lý mất cân bằng bằn ADASYN

### 1. Import thư viện và đường dẫn

In [None]:
import os

import pandas as pd
from imblearn.over_sampling import SMOTE, ADASYN
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

In [None]:
data_feature_path = "../data/generated/feature_data.csv"
data_split_dir = "../data/splits"
os.makedirs(data_split_dir, exist_ok=True)
figure_dir = "../reports/figures"

#### Đọc dữ liệu đã xử lý trước

In [None]:
data = pd.read_csv(data_feature_path)

### 2. Tách lấy đặc trưng

In [None]:
# Xác định các cột đặc trưng và nhãn
not_features = ["Amount", "Class", "Scaled_Amount", "Scaled_Time", "Normalized_Amount"]
X = data.drop(not_features, axis=1)
y = data["Class"]

print("Số lượng mẫu dữ liệu:", X.shape[0])
print("Phân phối nhãn:\n", y.value_counts())

### 3. Chia dữ liệu thành tập huấn luyện và kiểm tra

#### Chia dữ liệu gốc (Imbalance)

In [None]:
# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Lưu dữ liệu gốc (không xử lý mất cân bằng)
pd.DataFrame(X_train).to_csv(f'{data_split_dir}/X_train_imbalance.csv', index=False)
pd.DataFrame(y_train).to_csv(f'{data_split_dir}/y_train_imbalance.csv', index=False)
pd.DataFrame(X_test).to_csv(f'{data_split_dir}/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv(f'{data_split_dir}/y_test.csv', index=False)
print("Tập chia dữ liệu gốc đã lưu.")

In [None]:
# Kiểm tra phân phối nhãn trong tập huấn luyện và kiểm tra
print("Số lượng lớp trong tập huấn luyện:")
train_class_counts = y_train.value_counts()
print(train_class_counts)
print("Số lượng lớp trong tập kiểm tra:")
test_class_counts = y_test.value_counts()
print(test_class_counts)

In [None]:
# Vẽ biểu đồ cột phân phối nhãn trong tập huấn luyện và kiểm tra
fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# Biểu đồ phân phối cho tập huấn luyện
train_class_counts.plot(kind='bar', ax=ax[0], color=['skyblue', 'lightgreen'], title='Distribution of Class in Training Set')
ax[0].set_ylabel('Count')
ax[0].set_xlabel('Class')

# Biểu đồ phân phối cho tập kiểm tra
test_class_counts.plot(kind='bar', ax=ax[1], color=['skyblue', 'lightgreen'], title='Distribution of Class in Test Set')
ax[1].set_ylabel('Count')
ax[1].set_xlabel('Class')

# Hiển thị các biểu đồ
plt.tight_layout()
plt.savefig(os.path.join(figure_dir, "12_train_test_class.png"))
plt.show()


#### Chia dữ liệu với SMOTE

In [None]:
# Áp dụng SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

# Lưu dữ liệu đã xử lý SMOTE
pd.DataFrame(X_train_smote).to_csv(f'{data_split_dir}/X_train_smote.csv', index=False)
pd.DataFrame(y_train_smote).to_csv(f'{data_split_dir}/y_train_smote.csv', index=False)
print("Tập dữ liệu cân bằng SMOTE đã lưu.")

In [None]:
# Kiểm tra phân phối nhãn sau khi áp dụng SMOTE
print("Số lượng lớp trong tập huấn luyện:")
train_class_smote = y_train_smote.value_counts()
print(train_class_smote)

In [None]:
# Vẽ biểu đồ phân phối nhãn sau khi áp dụng SMOTE
train_class_smote.plot(kind="bar", color="skyblue")
plt.title("Phân phối nhãn huấn luyện SMOTE")
plt.xlabel("Class")
plt.ylabel("Số lượng")
plt.savefig(os.path.join(figure_dir, "13_train_class_smote.png"))
plt.show()

#### Chia dữ liệu với ADASYN

In [None]:
# Áp dụng ADASYN
adasyn = ADASYN(random_state=42)
X_train_adasyn, y_train_adasyn = adasyn.fit_resample(X_train, y_train)

# Lưu dữ liệu đã xử lý ADASYN
pd.DataFrame(X_train_adasyn).to_csv(f'{data_split_dir}/X_train_adasyn.csv', index=False)
pd.DataFrame(y_train_adasyn).to_csv(f'{data_split_dir}/y_train_adasyn.csv', index=False)
print("Tập dữ liệu cân bằng ADASYN đã lưu.")

In [None]:
# Kiểm tra phân phối nhãn sau khi áp dụng ADASYN
print("Số lượng lớp trong tập huấn luyện:")
train_class_adasyn = y_train_adasyn.value_counts()
print(train_class_adasyn)

In [None]:
# Vẽ biểu đồ phân phối nhãn sau khi áp dụng ADASYN
train_class_adasyn.plot(kind="bar", color="skyblue")
plt.title("Phân phối nhãn huấn luyện ADASYN")
plt.xlabel("Class")
plt.ylabel("Số lượng")
plt.savefig(os.path.join(figure_dir, "14_train_class_adasyn.png"))
plt.show()