# **Preprocessing Data**

**Các bước chính:**

1. Load lại dữ liệu gốc từ file CSV.
2. Chuẩn hóa giá trị missing về một chuẩn chung.
3. Chuyển các cột số / ordinal sang dạng `float`.
4. Điền missing (imputation) cho:
   - Numeric: median + chuẩn hóa Z-score.
   - Categorical: mode + one-hot encoding.
5. Ghép tất cả thành ma trận đặc trưng `X` và vector nhãn `y`.
6. Lưu kết quả ra thư mục `data/processed/` để tái sử dụng ở các notebook sau.

## Import thư viện & module trong src

In [1]:
import os
import sys
import numpy as np

PROJECT_ROOT = os.path.abspath(os.path.join(os.getcwd(), ".."))
if PROJECT_ROOT not in sys.path:
    sys.path.append(PROJECT_ROOT)

from src.data_processing import (
    load_hr_csv,
    normalize_missing_values,
    build_hr_feature_matrix,
    preprocess_hr_dataset,
)

## Load dữ liệu & Set up đường dẫn

In [2]:
DATA_PATH = "../data/raw/aug_train.csv"
PROCESSED_DIR = "../data/processed"
os.makedirs(PROCESSED_DIR, exist_ok=True)

print("Đường dẫn dữ liệu thô:", DATA_PATH)
print("Thư mục lưu dữ liệu đã xử lý:", PROCESSED_DIR)

header, data_raw = load_hr_csv(DATA_PATH)

Đường dẫn dữ liệu thô: ../data/raw/aug_train.csv
Thư mục lưu dữ liệu đã xử lý: ../data/processed


## Xử lí Missing value

In [3]:
data_norm = normalize_missing_values(data_raw)

num_missing = np.sum(data_norm == "")
print("Tổng số ô missing (sau chuẩn hóa):", num_missing)

Tổng số ô missing (sau chuẩn hóa): 20733


## Xây dựng ma trận đặc trưng X, y

In [4]:
X, y, feature_names, meta = build_hr_feature_matrix(header, data_norm, scale_numeric=True)

print("Kích thước X:", X.shape)
print("Kích thước y:", y.shape)
print("Số feature sau preprocessing:", len(feature_names))
print("Một vài feature đầu tiên:", feature_names[:10])

ValueError: invalid literal for int() with base 10: np.str_('1.0')

## Thông tin numeric sau tiền xử lý

In [None]:
print("Thông tin các feature numeric sau impute và scale:")
for name in meta["numeric_features"]:
    stats = meta["numeric_stats"][name]
    print(f"- {name}: median={stats['median']:.4f}", end="")
    if stats.get("scaled", False):
        print(f", mean={stats['mean']:.4f}, std={stats['std']:.4f} (đã Z-score)")
    else:
        print(" (không scale)")
