In [1]:
# notebooks/baseline.ipynb  — Baseline đơn giản

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# 1) Đọc dữ liệu (bảng)
df = pd.read_csv("../data/heart.csv")

# 2) Tách "đề bài" và "đáp án"
#   X = các cột dùng để đoán
#   y = cột target (0/1)
X = df.drop("target", axis=1)
y = df["target"]

# 3) Chia dữ liệu: 80% để học, 20% để kiểm tra
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.20, random_state=42, stratify=y
)

# 4) Tạo model "Logistic Regression" (máy đoán 0/1)
model = LogisticRegression(max_iter=1000, solver="liblinear")
model.fit(X_train, y_train)   # cho máy học

# 5) Cho máy đoán bộ kiểm tra
y_pred = model.predict(X_test)

# 6) Chấm điểm: Accuracy & F1 (2 điểm số dễ hiểu)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))

# 7) Bảng đúng/sai (Confusion Matrix)
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


Accuracy: 0.8341463414634146
F1 Score: 0.8508771929824561
Confusion Matrix:
 [[74 26]
 [ 8 97]]


In [2]:
import json
metrics = {
    "accuracy": accuracy_score(y_test, y_pred),
    "f1": f1_score(y_test, y_pred)
}
with open("../results/metrics.json", "w") as f:
    json.dump(metrics, f, indent=4)

print("Saved metrics to results/metrics.json")

Saved metrics to results/metrics.json
