# Phân tích bộ dữ liệu `Heart Disease`


## 1. Preparing datasets

In [None]:
# %pip install numpy matplotlib seaborn graphviz

# --- Thư viện cơ bản ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import graphviz
import os

# --- Thư viện cho Machine Learning ---
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# --- Định nghĩa các đường dẫn ---
# Đi từ `notebooks` ra ngoài một cấp để thấy các thư mục khác
DATA_PATH = '../data/heart_disease.csv'
OUTPUT_IMAGE_DIR = '../outputs/images/heart_disease/'
# Tạo thư mục output nếu nó chưa tồn tại
os.makedirs(OUTPUT_IMAGE_DIR, exist_ok=True)

# (Tùy chọn) Thêm thư mục src vào path để import các hàm từ utils.py
import sys
sys.path.append('../')
from src.utils import plot_label_distribution, plot_label_original # Ví dụ nếu bạn có hàm riêng

from sklearn.impute import SimpleImputer

# --- Tải và khám phá dữ liệu ---
df = pd.read_csv(DATA_PATH)

# Chuyển cột 'num' thành nhãn nhị phân (0: không bệnh, 1: có bệnh)
df['num'] = (df['num'] > 0).astype(int)

# 1. Tách features và labels
features = df.drop('num', axis=1)
labels = df['num']

# 2. Áp dụng One-Hot Encoding
print("Áp dụng One-Hot Encoding...")
features_encoded = pd.get_dummies(features)
print(f"Số lượng features sau One-Hot Encoding: {features_encoded.shape[1]}")

# 3. Xử lý giá trị thiếu (NaN)
print("\nXử lý các giá trị bị thiếu...")
imputer = SimpleImputer(strategy='median')
# Dùng features_final để lưu lại kết quả cuối cùng
features_final = pd.DataFrame(imputer.fit_transform(features_encoded), columns=features_encoded.columns)

# Kiểm tra lại lần cuối để chắc chắn không còn giá trị thiếu
print("\nThông tin dữ liệu sau khi xử lý hoàn tất:")
features_final.info()

# 4. Chia dữ liệu train/test (SỬ DỤNG features_final)
print("\nChia dữ liệu thành tập train và test...")
# Danh sách tỷ lệ test để lặp
feature_train_60, feature_test_40, label_train_60, label_test_40 = train_test_split(
        features_final, labels, test_size=0.4, shuffle=True, stratify=labels, random_state=42)

feature_train_40, feature_test_60, label_train_40, label_test_60 = train_test_split(
        features_final, labels, test_size=0.6, shuffle=True, stratify=labels, random_state=42)

feature_train_80, feature_test_20, label_train_80, label_test_20 = train_test_split(
        features_final, labels, test_size=0.2, shuffle=True, stratify=labels, random_state=42)

feature_train_90, feature_test_10, label_train_90, label_test_10 = train_test_split(
        features_final, labels, test_size=0.1, shuffle=True, stratify=labels, random_state=42)

plot_label_original(labels, OUTPUT_IMAGE_DIR)

plot_label_distribution(label_train_60, label_test_40, 0.6, OUTPUT_IMAGE_DIR)
plot_label_distribution(label_train_40, label_test_60, 0.4, OUTPUT_IMAGE_DIR)
plot_label_distribution(label_train_80, label_test_20, 0.8, OUTPUT_IMAGE_DIR)
plot_label_distribution(label_train_90, label_test_10, 0.9, OUTPUT_IMAGE_DIR)


print("Hoàn tất xử lý dữ liệu!")

## 2. Building the decision tree classifiers


In [None]:
from sklearn.tree import DecisionTreeClassifier

# Khởi tạo mô hình Cây quyết định với tiêu chí entropy
clf_80_20 = DecisionTreeClassifier(criterion='entropy', random_state=42)

# Huấn luyện mô hình trên tập train
clf_80_20.fit(feature_train_80, label_train_80)

# Dự đoán trên tập test
label_pred_80_20 = clf_80_20.predict(feature_test_20)

# Classification report
print("=== Classification Report (80/20) ===")
print(classification_report(label_test_20, label_pred_80_20, target_names=["No Disease", "Disease"]))

# Tạo confusion matrix
cm_80_20 = confusion_matrix(label_test_20, label_pred_80_20)

# Vẽ heatmap
plt.figure(figsize=(6, 4))
sns.heatmap(cm_80_20, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Disease', 'Disease'],
            yticklabels=['No Disease', 'Disease'])

plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix (80/20)')
plt.tight_layout()

# Lưu hình vào thư mục output
conf_matrix_path = os.path.join(OUTPUT_IMAGE_DIR, 'confusion_matrix_80_20.png')
plt.savefig(conf_matrix_path)
plt.show()

print(f"Confusion matrix đã được lưu tại: {conf_matrix_path}")

## 3. Evaluating the decision tree classifiers


## 4. The depth and accuracy of a decision tree
