# **IMPORT LIBRARY**

In [2]:
# 📘 01_preprocessing.ipynb
# Tác vụ:
# - Tạo metadata từ WFDB records
# - Mapping SNOMED & resolve Unknown qua API
# - Lọc nhiễu tín hiệu ECG
# - Chuẩn hóa & lưu .npy
# - Chia train/val/test

import os, sys
sys.path.append("../")

from processing.preprocess import run_preprocessing
from processing.feature_extraction import process_and_save_ecg_files
from processing.split_dataset import run_split_dataset
from processing.denoised_ecg import load_ecg_mat, denoise_all_leads

# **TIỀN XỬ LÍ METADATA**

In [2]:
# === Bước 1: Tiền xử lý metadata WFDB ===
# Tạo patient_metadata_clean.xlsx

run_preprocessing()

# Sau bước này:
# -> data/processed/patient_metadata_clean.xlsx
# -> data/processed/Unknown_SNOMED_Codes_Resolved_NEW.xlsx

✅ Tạo metadata xong: 45152 bản ghi
🧩 Mapping SNOMED lần đầu (có thể còn Unknown)
✅ Đã resolve SNOMED Unknown -> E:\NCKH - 2026\ECG Project\data\processed\Unknown_SNOMED_Codes_Resolved_NEW.xlsx
🔍 Tải 55 mã SNOMED đã resolved
💾 Đã lưu metadata sạch: E:\NCKH - 2026\ECG Project\data\processed\patient_metadata_clean.xlsx


# **LỌC NHIỄU VÀ CHUẨN HÓA ECG**

In [3]:
import pandas as pd

# === Bước 2: Lọc nhiễu và lưu file .npy ===

# 1️⃣ Đọc danh sách file từ metadata
metadata_path = r"E:\NCKH - 2026\ECG Project\data\processed\patient_metadata_clean.xlsx"
df = pd.read_excel(metadata_path)
file_paths = df["file_path"].tolist()

# 2️⃣ Chạy xử lý tín hiệu
processed_dir = r"E:\NCKH - 2026\ECG Project\data\processed\ecg_npy"
valid_indices = process_and_save_ecg_files(
    X_paths=file_paths,
    save_dir=processed_dir,
    fs=500,
    verbose=True
)

print(f"✅ Hoàn tất xử lý tín hiệu cho {len(valid_indices)} bản ghi hợp lệ")

✓ Đã xử lý 100/44848 file
✓ Đã xử lý 200/44848 file
✓ Đã xử lý 300/44848 file
✓ Đã xử lý 400/44848 file
✓ Đã xử lý 500/44848 file
✓ Đã xử lý 600/44848 file
✓ Đã xử lý 700/44848 file
✓ Đã xử lý 800/44848 file
✓ Đã xử lý 900/44848 file
✓ Đã xử lý 1000/44848 file
✓ Đã xử lý 1100/44848 file
✓ Đã xử lý 1200/44848 file
✓ Đã xử lý 1300/44848 file
✓ Đã xử lý 1400/44848 file
✓ Đã xử lý 1500/44848 file
✓ Đã xử lý 1600/44848 file
✓ Đã xử lý 1700/44848 file
✓ Đã xử lý 1800/44848 file
✓ Đã xử lý 1900/44848 file
✓ Đã xử lý 2000/44848 file
✓ Đã xử lý 2100/44848 file
✓ Đã xử lý 2200/44848 file
✓ Đã xử lý 2300/44848 file
✓ Đã xử lý 2400/44848 file
✓ Đã xử lý 2500/44848 file
✓ Đã xử lý 2600/44848 file
✓ Đã xử lý 2700/44848 file
✓ Đã xử lý 2800/44848 file
✓ Đã xử lý 2900/44848 file
✓ Đã xử lý 3000/44848 file
✓ Đã xử lý 3100/44848 file
✓ Đã xử lý 3200/44848 file
✓ Đã xử lý 3300/44848 file
✓ Đã xử lý 3400/44848 file
✓ Đã xử lý 3500/44848 file
✓ Đã xử lý 3600/44848 file
✓ Đã xử lý 3700/44848 file
✓ Đã xử lý

# **CHIA THƯ MỤC TRAIN/VAL/TEST**

In [3]:
# === Bước 3: Chia dữ liệu train/val/test ===
run_split_dataset()

# Sau bước này sẽ có thư mục:
# data/splits/
# ├── train_files.npy
# ├── val_files.npy
# ├── test_files.npy
# ├── y_train.npy
# ├── y_val.npy
# └── y_test.npy


===== Bước 3: Chia dữ liệu train/val/test =====
🔹 Tổng số file tín hiệu ECG: 44848
✅ Train: 31393, Val: 4485, Test: 8970
y_train shape: (31393, 8)
y_val shape: (4485, 8)
y_test shape: (8970, 8)
📁 Đã lưu toàn bộ file chia tập vào: E:\NCKH - 2026\ECG Project\notebooks\..\data\processed\ecg_npy\..\splits
✅ Hoàn tất chia dữ liệu!

