# 02 — Chuẩn bị Đặc trưng (Feature Preparation)
Mục tiêu: đọc `cleaned.parquet`, kiểm tra leakage, chọn các cột đặc trưng phù hợp, và lưu snapshot sẵn sàng cho modelling vào `data/processed/dataset_for_clf.parquet`.

In [None]:
# ===== THAM SỐ CẤU HÌNH =====
CLEANED_PATH = 'data/processed/cleaned.parquet'
OUTPUT_DATASET_PATH = 'data/processed/dataset_for_clf.parquet'

# (tuỳ chọn) lọc những dòng thiếu target
DROP_ROWS_WITHOUT_TARGET = True

In [None]:
from pathlib import Path
import pandas as pd

PROJECT_ROOT = Path('..').resolve()
cleaned_path = (PROJECT_ROOT / CLEANED_PATH).resolve()
out_path = (PROJECT_ROOT / OUTPUT_DATASET_PATH).resolve()
out_path.parent.mkdir(parents=True, exist_ok=True)

df = pd.read_parquet(cleaned_path)
print('Đã tải:', cleaned_path)
print('Kích thước:', df.shape)
df.head()

In [None]:
# Kiểm tra các cột có nguy cơ leakage (PM2.5 & pm25_24h phải loại khỏi đặc trưng khi huấn luyện)
leak_cols = [c for c in ['PM2.5', 'pm25_24h'] if c in df.columns]
print('Các cột có nguy cơ leakage (sẽ loại bỏ khi modelling):', leak_cols)

if DROP_ROWS_WITHOUT_TARGET:
    before = len(df)
    df = df[df['aqi_class'].notna()].copy()
    print('Số dòng đã loại bỏ (thiếu target):', before - len(df))

In [None]:
# Gợi ý danh sách đặc trưng (để sinh viên thấy rõ các cột được sử dụng)
drop_cols = {'PM2.5', 'pm25_24h', 'aqi_class', 'datetime'}
feature_cols = [c for c in df.columns if c not in drop_cols]
print('Số lượng đặc trưng:', len(feature_cols))
feature_cols[:30]

In [None]:
df.to_parquet(out_path, index=False)
print('Đã lưu:', out_path)