In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Đọc dữ liệu
df = pd.read_csv('preprocess.csv')

# Tách đặc trưng và nhãn
X = pd.get_dummies(df.drop(columns='HadStroke'))
y = df['HadStroke']

# Tách dữ liệu thành train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Huấn luyện và đánh giá mô hình Random Forest
model_rf = RandomForestClassifier(random_state=42)
model_rf.fit(X_train, y_train)
y_pred_rf = model_rf.predict(X_test)
y_train_pred_rf = model_rf.predict(X_train)

print("Đánh giá mô hình Random Forest")
print(f"Accuracy : {accuracy_score(y_test, y_pred_rf):.4f}")
print(f"Precision: {precision_score(y_test, y_pred_rf, zero_division=0):.4f}")
print(f"Recall   : {recall_score(y_test, y_pred_rf, zero_division=0):.4f}")
print(f"F1-Score : {f1_score(y_test, y_pred_rf, zero_division=0):.4f}")
try:
    print(f"ROC-AUC  : {roc_auc_score(y_test, y_pred_rf):.4f}")
except:
    print("ROC-AUC  : Không tính được")

print(f"\nOverfitting kiểm tra:")
print(f"Train Accuracy: {accuracy_score(y_train, y_train_pred_rf):.4f}")
print(f"Test Accuracy : {accuracy_score(y_test, y_pred_rf):.4f}")
print("="*50)


Đánh giá mô hình Random Forest
Accuracy : 0.9990
Precision: 0.9979
Recall   : 1.0000
F1-Score : 0.9990
ROC-AUC  : 0.9990

Overfitting kiểm tra:
Train Accuracy: 1.0000
Test Accuracy : 0.9990


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Đọc dữ liệu
df = pd.read_csv('preprocess.csv')

# Tách đặc trưng và nhãn
X = pd.get_dummies(df.drop(columns='HadStroke'))
y = df['HadStroke']

# Tách dữ liệu thành train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Huấn luyện và đánh giá mô hình Decision Tree
model_dt = DecisionTreeClassifier(random_state=42)
model_dt.fit(X_train, y_train)
y_pred_dt = model_dt.predict(X_test)
y_train_pred_dt = model_dt.predict(X_train)

print("Đánh giá mô hình Decision Tree")
print(f"Accuracy : {accuracy_score(y_test, y_pred_dt):.4f}")
print(f"Precision: {precision_score(y_test, y_pred_dt, zero_division=0):.4f}")
print(f"Recall   : {recall_score(y_test, y_pred_dt, zero_division=0):.4f}")
print(f"F1-Score : {f1_score(y_test, y_pred_dt, zero_division=0):.4f}")
try:
    print(f"ROC-AUC  : {roc_auc_score(y_test, y_pred_dt):.4f}")
except:
    print("ROC-AUC  : Không tính được")

print(f"\nOverfitting kiểm tra:")
print(f"Train Accuracy: {accuracy_score(y_train, y_train_pred_dt):.4f}")
print(f"Test Accuracy : {accuracy_score(y_test, y_pred_dt):.4f}")
print("="*50)


Đánh giá mô hình Decision Tree
Accuracy : 0.9732
Precision: 0.9491
Recall   : 1.0000
F1-Score : 0.9739
ROC-AUC  : 0.9732

Overfitting kiểm tra:
Train Accuracy: 1.0000
Test Accuracy : 0.9732
