Mục đích: nạp thư viện, load processed data

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

PROC_DIR = Path("../data/processed")

# load processed data
X_train = pd.read_csv(PROC_DIR / "X_train.csv", index_col=0)
X_test  = pd.read_csv(PROC_DIR / "X_test.csv", index_col=0)
y_train = pd.read_csv(PROC_DIR / "y_train.csv", index_col=0)["status"]
y_test  = pd.read_csv(PROC_DIR / "y_test.csv", index_col=0)["status"]

print("Train:", X_train.shape, "Test:", X_test.shape)


Train: (172, 21) Test: (43, 21)


Mục đích: fit Logistic Regression trên processed data

In [2]:
logreg = LogisticRegression(
    penalty="l2",
    solver="lbfgs",
    max_iter=1000,
    random_state=42
)

logreg.fit(X_train, y_train)
print("Model đã train xong.")


Model đã train xong.


Mục đích: xem kết quả cơ bản để đảm bảo pipeline chạy đúng

In [3]:
y_pred = logreg.predict(X_test)
y_score = logreg.predict_proba(X_test)[:, 1]

acc = accuracy_score(y_test, y_pred)
f1  = f1_score(y_test, y_pred)
roc = roc_auc_score(y_test, y_score)

print(f"Accuracy: {acc:.3f} | F1: {f1:.3f} | ROC AUC: {roc:.3f}")


Accuracy: 0.860 | F1: 0.897 | ROC AUC: 0.938


Mục đích: xem có overfitting không

In [4]:
train_acc = accuracy_score(y_train, logreg.predict(X_train))
test_acc  = accuracy_score(y_test, y_pred)

print(f"Train acc: {train_acc:.3f}")
print(f"Test acc : {test_acc:.3f}")


Train acc: 0.901
Test acc : 0.860


Mục đích: đảm bảo pipeline logistic ở đây nhất quán với note trước

In [5]:
coef = logreg.coef_.ravel()
print("Số features:", len(coef))
print("5 hệ số đầu:", coef[:5])


Số features: 21
5 hệ số đầu: [-0.50073478  0.50103346 -0.34395424  0.34425292  0.12939979]


Mục đích: minh bạch rằng bản teaching này KHÔNG lưu ra file .pkl

In [6]:
print("⚠️ Đây là bản training minh hoạ. Model KHÔNG được lưu ra .pkl.")


⚠️ Đây là bản training minh hoạ. Model KHÔNG được lưu ra .pkl.
