In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split

# ===== CẤU HÌNH =====
input_file = 'E:/Phat/non-imbalance/data_nonprocess.parquet'       # ← Thay bằng đường dẫn thực tế
label_column = 'fraud'                   # ← Cột nhãn dùng để stratify
output_train = 'trainn.parquet'
output_val = 'vali.parquet'
output_test = 'testt.parquet'

# ===== ĐỌC DỮ LIỆU GỐC =====
df = pd.read_parquet(input_file)
print(f"Tổng số dòng: {len(df)}")

# ===== KIỂM TRA CỘT NHÃN =====
if label_column not in df.columns:
    raise ValueError(f"Cột '{label_column}' không tồn tại trong dữ liệu!")

# ===== CHIA DỮ LIỆU VỚI STRATIFY =====
df_train, df_temp = train_test_split(
    df,
    test_size=0.4,
    random_state=42,
    stratify=df[label_column]
)

df_val, df_test = train_test_split(
    df_temp,
    test_size=0.5,
    random_state=42,
    stratify=df_temp[label_column]
)

# ===== THỐNG KÊ =====
def count_ratio(data, label_column):
    counts = data[label_column].value_counts(normalize=True).sort_index()
    return ', '.join([f"{int(cls)}: {p:.2%}" for cls, p in counts.items()])

print(f"Train size: {len(df_train)} ({count_ratio(df_train, label_column)})")
print(f"Validation size: {len(df_val)} ({count_ratio(df_val, label_column)})")
print(f"Test size: {len(df_test)} ({count_ratio(df_test, label_column)})")

# ===== GHI FILE PARQUET =====
df_train.to_parquet(output_train, index=False)
df_val.to_parquet(output_val, index=False)
df_test.to_parquet(output_test, index=False)

print("✅ Đã lưu xong 3 file:")
print(f" - {output_train}")
print(f" - {output_val}")
print(f" - {output_test}")


Tổng số dòng: 22178305
Train size: 13306983 (0: 98.73%, 1: 1.27%)
Validation size: 4435661 (0: 98.73%, 1: 1.27%)
Test size: 4435661 (0: 98.73%, 1: 1.27%)
✅ Đã lưu xong 3 file:
 - trainn.parquet
 - vali.parquet
 - testt.parquet
