In [1]:
!conda install -c conda-forge py-xgboost -y

3 channel Terms of Service accepted
Channels:
 - conda-forge
 - defaults
Platform: win-64
Collecting package metadata (repodata.json): - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | done
Solving environment: - \ | / - \ | done

# All requested packages already installed.





    current version: 25.5.1
    latest version: 25.11.1

Please update conda by running

    $ conda update -n base -c defaults conda




In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Cấu hình
pd.set_option('display.max_columns', None)
plt.rcParams['figure.figsize'] = (12, 6)

# 1. Load dữ liệu sạch
df = pd.read_csv("data/processed/air_quality_processed.csv")
df['date'] = pd.to_datetime(df['date'])

# 2. Chọn một trạm tiêu biểu để phân tích (Ví dụ: 'Zhongming' hoặc trạm có nhiều dữ liệu nhất)
# Lý do: Mô hình hóa cho từng trạm thường chính xác hơn mô hình chung cho tất cả
target_station = 'Zhongming' 
data = df[df['sitename'] == target_station].sort_values('date').copy()

print(f"Đang xử lý dữ liệu cho trạm: {target_station}")

# 3. Feature Engineering (Tạo đặc trưng)
# Mục tiêu dự báo: PM2.5
target_col = 'pm2.5'

# A. Lag Features (Giá trị quá khứ): t-1, t-2, t-3, t-6, t-12, t-24
# Giúp mô hình học được tính "quán tính" của ô nhiễm
lags = [1, 2, 3, 6, 12, 24]
for lag in lags:
    data[f'lag_{lag}'] = data[target_col].shift(lag)

# B. Rolling Features (Xu hướng): Trung bình trượt 6h, 24h
# Giúp giảm nhiễu (outlier) và nắm bắt xu hướng trung bình
data['rolling_mean_6h'] = data[target_col].rolling(window=6).mean().shift(1)
data['rolling_mean_24h'] = data[target_col].rolling(window=24).mean().shift(1)

# C. Time Features (Yếu tố chu kỳ)
# Giờ trong ngày (ảnh hưởng giao thông), Tháng (ảnh hưởng mùa vụ)
data['hour'] = data['date'].dt.hour
data['month'] = data['date'].dt.month
data['day_of_week'] = data['date'].dt.dayofweek

# D. Create Targets (Mục tiêu tương lai): t+1, t+6, t+12, t+24
# Đây là cái chúng ta muốn dự báo
horizons = [1, 6, 12, 24]
for h in horizons:
    data[f'target_t+{h}'] = data[target_col].shift(-h)

# 4. Loại bỏ các dòng NaNs (do shift tạo ra)
data_ml = data.dropna().reset_index(drop=True)

# Chọn Features đầu vào (X)
feature_cols = [c for c in data_ml.columns if 'lag_' in c or 'rolling_' in c or c in ['hour', 'month', 'day_of_week', 'windspeed', 'so2', 'no2']]
# (Bạn có thể thêm các chất ô nhiễm khác như so2, no2 vào làm feature nếu muốn)

print("Số lượng mẫu dùng để huấn luyện:", len(data_ml))
display(data_ml[feature_cols + [f'target_t+{h}' for h in horizons]].head())

Đang xử lý dữ liệu cho trạm: Zhongming
Số lượng mẫu dùng để huấn luyện: 67590


Unnamed: 0,so2,no2,windspeed,lag_1,lag_2,lag_3,lag_6,lag_12,lag_24,rolling_mean_6h,rolling_mean_24h,hour,month,day_of_week,target_t+1,target_t+6,target_t+12,target_t+24
0,4.2,23.0,3.1,34.0,32.0,38.0,32.0,34.0,12.0,33.666667,26.458333,13,11,5,33.0,4.0,4.0,3.0
1,2.5,16.0,2.2,27.0,34.0,32.0,32.0,29.0,24.0,32.833333,27.083333,14,11,5,20.0,4.0,3.0,4.0
2,1.7,14.0,3.4,33.0,27.0,34.0,34.0,34.0,16.0,33.0,27.458333,15,11,5,18.0,4.0,5.0,5.0
3,1.6,12.0,3.1,20.0,33.0,27.0,38.0,31.0,23.0,30.666667,27.625,16,11,5,6.0,6.0,4.0,7.0
4,1.5,13.0,2.3,18.0,20.0,33.0,32.0,31.0,13.0,27.333333,27.416667,17,11,5,12.0,7.0,3.0,10.0


In [None]:
# Chọn điểm cắt (ví dụ: 80% train, 20% test)
split_index = int(len(data_ml) * 0.8)

# Chia X (Features)
X = data_ml[feature_cols]
X_train, X_test = X.iloc[:split_index], X.iloc[split_index:]

# Lưu ý: Y sẽ được chia riêng cho từng horizon ở bước sau
print(f"Train size: {len(X_train)}, Test size: {len(X_test)}")

In [None]:
# Khởi tạo danh sách lưu kết quả
results = []

# Định nghĩa 2 mô hình (Cấu hình cơ bản, có thể tune sau)
models = {
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1),
    "XGBoost": XGBRegressor(n_estimators=100, learning_rate=0.1, random_state=42, n_jobs=-1)
}

# Vòng lặp huấn luyện cho từng khung thời gian dự báo
for h in horizons:
    target_name = f'target_t+{h}'
    
    # Chia Y (Target) tương ứng
    y = data_ml[target_name]
    y_train, y_test = y.iloc[:split_index], y.iloc[split_index:]
    
    print(f"\n--- Đang huấn luyện cho mốc dự báo: {h} giờ tới ---")
    
    for name, model in models.items():
        # Huấn luyện
        model.fit(X_train, y_train)
        
        # Dự báo
        y_pred = model.predict(X_test)
        
        # Đánh giá
        # MAE: Sai số tuyệt đối trung bình (Đơn vị: µg/m3) - Dễ hiểu cho người dân
        mae = mean_absolute_error(y_test, y_pred)
        # RMSE: Sai số bình phương trung bình - Nhạy cảm với outlier hơn
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        
        # Lưu kết quả
        results.append({
            "Horizon (Hours)": h,
            "Model": name,
            "MAE": mae,
            "RMSE": rmse
        })
        print(f"{name} -> MAE: {mae:.2f}, RMSE: {rmse:.2f}")

# Chuyển kết quả thành DataFrame để dễ vẽ biểu đồ
results_df = pd.DataFrame(results)
display(results_df)

In [None]:
# 1. Biểu đồ so sánh MAE theo thời gian (Độ chính xác suy giảm thế nào?)
plt.figure(figsize=(10, 6))
sns.lineplot(data=results_df, x="Horizon (Hours)", y="MAE", hue="Model", marker="o", linewidth=2.5)

plt.title("Biến động Sai số Dự báo (MAE) theo Khung thời gian", fontsize=15, fontweight='bold')
plt.xlabel("Dự báo trước (Giờ)", fontsize=12)
plt.ylabel("Sai số trung bình (MAE - µg/m3)", fontsize=12)
plt.xticks(horizons)
plt.grid(True, linestyle='--', alpha=0.6)

# Vẽ đường giới hạn tin cậy giả định (Ví dụ: MAE > 10 là kém tin cậy)
plt.axhline(y=10, color='red', linestyle='--', label='Ngưỡng chấp nhận được (Giả định)')
plt.legend()
plt.show()

# 2. Biểu đồ Scatter: Giá trị Thực tế vs Dự báo (Tại mốc xa nhất t+24)
# Để xem mô hình có bắt được outlier ở mốc xa không
h_focus = 24
model_focus = models['XGBoost'] # Chọn model tốt hơn để plot
y_test_focus = data_ml[f'target_t+{h_focus}'].iloc[split_index:]
y_pred_focus = model_focus.predict(X_test)

plt.figure(figsize=(8, 8))
plt.scatter(y_test_focus, y_pred_focus, alpha=0.3, color='purple')
plt.plot([0, 100], [0, 100], 'r--', lw=2) # Đường chuẩn 45 độ
plt.title(f"Thực tế vs Dự báo (XGBoost - Sau {h_focus} giờ)", fontsize=14)
plt.xlabel("Giá trị Thực tế (PM2.5)", fontsize=12)
plt.ylabel("Giá trị Dự báo", fontsize=12)
plt.xlim(0, 100); plt.ylim(0, 100)
plt.grid(True)
plt.show()