In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import random

# Đặt seed để đảm bảo tính tái lập
seed = 42

# Đọc dữ liệu từ file CSV (giả sử bạn đã có file dữ liệu)
df = pd.read_csv("./fico.csv")

# Chia dữ liệu thành các biến đầu vào (X) và đầu ra (y)
X, y = df.iloc[:, :-1], df.iloc[:, -1]

# Đảm bảo tất cả dữ liệu là số nguyên (nếu cần thiết)
df = df.astype(int)

# Chia dữ liệu thành tập train và test với tỷ lệ 70:30
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=seed)

# Lấy mẫu ngẫu nhiên 256 hàng từ tập train
subset_idx = train_X.sample(n=256, random_state=seed).index
subset_train_X = train_X.loc[subset_idx]
subset_train_y = train_y.loc[subset_idx]
print("Subset train shapes: X={}, y={}".format(subset_train_X.shape, subset_train_y.shape))
print("Test shapes: X={}, y={}".format(test_X.shape, test_y.shape))

# Huấn luyện mô hình GOSDT
from gosdt import GOSDT

# Cấu hình mô hình GOSDT
config = {
    "regularization": 0.1,
    "time_limit": 100,
    "verbose": True,
    "similar_support": 0.5
}

model = GOSDT(config)

# Chuẩn bị dữ liệu cho GOSDT
subset_train_X = subset_train_X.to_numpy()
subset_train_y = subset_train_y.to_numpy()

# Huấn luyện mô hình
model.fit(subset_train_X, subset_train_y)

# Dự đoán trên tập test
test_X_np = test_X.to_numpy()
predictions = model.predict(test_X_np)

# Đánh giá độ chính xác
accuracy = accuracy_score(test_y, predictions)
print("GOSDT Test Accuracy: ", accuracy)
