# 📋 Jupyter Notebook Quick Shortcuts (Markdown cell)
# Press 'H' in command mode to view all shortcuts
# 
# **Command Mode** (press Esc to enter):
# - A: Insert cell above
# - B: Insert cell below
# - D D: Delete current cell
# - Z: Undo delete
# - M: Change cell to Markdown
# - Y: Change cell to Code
# - Shift + Enter: Run cell and go to next
# - Ctrl + Enter: Run cell (stay on it)
#
# **Edit Mode** (press Enter to enter):
# - Tab: Auto-complete
# - Shift + Tab: Show function hint
# - Ctrl + /: Comment/uncomment line


In [13]:
import pandas as pd

column_names = [
    "age",         # tuổi
    "sex",         # giới tính (1 = nam, 0 = nữ)
    "cp",          # loại đau ngực
    "trestbps",    # huyết áp khi nghỉ
    "chol",        # cholesterol
    "fbs",         # đường huyết lúc đói > 120 mg/dl (1/0)
    "restecg",     # kết quả ECG lúc nghỉ
    "thalach",     # nhịp tim tối đa đạt được
    "exang",       # đau thắt ngực do gắng sức (1/0)
    "oldpeak",     # ST chênh so với nghỉ
    "slope",       # độ dốc đoạn ST
    "ca",          # số lượng mạch chính được nhuộm màu (0–3)
    "thal",        # kết quả thallium test (3 = bình thường, 6 = lỗi cố định, 7 = lỗi có thể phục hồi)
    "target"       # nhãn kết quả (0 = không bệnh, 1-4 = có bệnh)
]


df = pd.read_csv("Data/heart+disease/processed.cleveland.data", names=column_names, na_values='?')
# in dữ liệu bị thiếu ban đầu
df.isna().sum()
# điền dữ liệu bị thiếu 
df["ca"] = df["ca"].fillna(df["ca"].median())
df["thal"] = df["thal"].fillna(df["thal"].mode()[0]) 
# sau khi điền dữ liệu bị thiếu
df.isna().sum()



age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          0
thal        0
target      0
dtype: int64

In [16]:
# drop bỏ cái cột target
X = df.drop("target", axis=1)
# bảng mỗi cột target
y = df["target"]




from sklearn.model_selection import train_test_split

split_ratios = [0.4, 0.6, 0.8, 0.9]
datasets = {}

for ratio in split_ratios:
    X_train, X_test, y_train, y_test = train_test_split(
        X, y,
        test_size=1-ratio,
        stratify=y,
        random_state=42
    )
    # lưu dữ liệu vào data set
    # ví dụ  0.4_0.6 là tỉ lệ 40% train và 60% test
    key = f"{int(ratio * 100)}_{int((1 - ratio) * 100)}"
    datasets[f"feature_train_{key}"] = X_train
    datasets[f"label_train_{key}"] = y_train
    datasets[f"feature_test_{key}"] = X_test
    datasets[f"label_test_{key}"] = y_test

#lưu vào file csv
# for key, value in datasets.items():
#     value.to_csv(f"{key}.csv", index=False)


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distribution(y, title):
    sns.countplot(x=y)
    plt.title(title)
    plt.xlabel("Target")
    plt.ylabel("Count")
    plt.show()


# Vẽ biểu đồ phân phối nhãn cho toàn bộ dữ liệu gốc
plot_distribution(y, "Full Dataset")

# Vẽ cho từng tập train/test
for ratio in split_ratios:
    key = f"{int(ratio*100)}_{int((1-ratio)*100)}"
    plot_distribution(datasets[f"label_train_{key}"], f"Train {key}")
    plot_distribution(datasets[f"label_test_{key}"], f"Test {key}")
