In [13]:
import os
# Import các thư viện cần thiết

import pandas as pd
from sklearn.model_selection import train_test_split

# Đường dẫn dữ liệu
data_path = "../data/old_data/processed/data_processed.csv"
split_dir = "../data/old_data/splits"
os.makedirs(split_dir, exist_ok=True)

# Đọc dữ liệu đã xử lý
data = pd.read_csv(data_path)
print("Dữ liệu ban đầu:")
print(data.head())


Dữ liệu ban đầu:
   Unnamed: 0            Timestamp          Open          High           Low  \
0           0  2018-04-20 00:00:00  2.968710e-08  2.981171e-08  2.985985e-08   
1           0  2018-04-20 00:00:00  5.611265e-11  5.626842e-11  5.581456e-11   
2           0  2018-04-20 00:00:00  4.974454e-11  5.001026e-11  5.026829e-11   
3           0  2018-04-20 00:00:00  1.484172e-09  1.511651e-09  1.499799e-09   
4           0  2018-04-20 00:00:00  5.480045e-09  5.497445e-09  5.407188e-09   

          Close    Volume     Pair Exchange  Price_Change_Pct  Volume_Spike  \
0  2.959089e-08  0.000001  ETC-ETH  binance         -0.324074           0.0   
1  5.605767e-11  0.000108  AST-BTC  binance         -0.097640           0.0   
2  4.974454e-11  0.000059  LYM-ETH   kucoin          0.000000           0.0   
3  1.511661e-09  0.000003  BTM-ETH   kucoin          1.851852           0.0   
4  5.360930e-09  0.000052  ICX-ETH  binance         -2.173550           0.0   

     Volatility  Anomaly_Sc

In [14]:
# Xác định các cột đặc trưng và nhãn
features = ["Open", "High", "Low", "Close", "Volume", "Price_Change_Pct", "Volume_Spike", "Volatility"]
X = data[features]
y = data["Label"]

print("Số lượng mẫu dữ liệu:", X.shape[0])
print("Phân phối nhãn:\n", y.value_counts())


Số lượng mẫu dữ liệu: 468955
Phân phối nhãn:
 Label
0    464266
1      4689
Name: count, dtype: int64


In [15]:
# Chia dữ liệu thành train (70%) và temp (30% cho validation và test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Kích thước tập huấn luyện: {X_train.shape[0]}")
print(f"Kích thước tập kiểm tra: {X_test.shape[0]}")


Kích thước tập huấn luyện: 375164
Kích thước tập kiểm tra: 93791


In [16]:
# %%
from imblearn.over_sampling import SMOTE

# Khởi tạo SMOTE
smote = SMOTE(random_state=42)

# Tạo dữ liệu cân bằng
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# Kiểm tra lại phân phối nhãn sau SMOTE
print("Phân phối nhãn sau SMOTE:")
print(pd.Series(y_train_balanced).value_counts())


Phân phối nhãn sau SMOTE:
Label
0    371413
1    371413
Name: count, dtype: int64


In [17]:
# Lưu tập train, validation, và test
X_train_balanced.to_csv(f"{split_dir}/X_train.csv", index=False)
y_train_balanced.to_csv(f"{split_dir}/y_train.csv", index=False)

X_test.to_csv(f"{split_dir}/X_test.csv", index=False)
y_test.to_csv(f"{split_dir}/y_test.csv", index=False)

print("Dữ liệu đã được chia và lưu tại:", split_dir)


Dữ liệu đã được chia và lưu tại: ../data/old_data/splits
