### US Accidents 資料分析：模型比較與時空風險預測
## 實驗設計
1. 比較有無資料前處理的影響
2. 比較有無混合採樣策略的影響
3. 使用三個模型：LightGBM, XGBoost, CatBoost（GPU加速版）
4. 包含交叉驗證和進度顯示
5. 創建時空風險預測數據供 Kepler.gl 使用

In [1]:
# ===========================
# Cell 1: 導入套件和設定
# ===========================
import os, time, json, gc, warnings
from datetime import datetime, timedelta

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
import torch

# Scikit-learn
from sklearn.preprocessing import StandardScaler, LabelEncoder, RobustScaler
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import (
    accuracy_score, f1_score, balanced_accuracy_score
)

# Imbalanced-learn（保留混合採樣）
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

# 只保留 XGBoost
import xgboost as xgb

warnings.filterwarnings('ignore')

# GPU 檢查
print("="*60)
print("環境檢查")
print("="*60)
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"GPU Memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.2f} GB")
print(f"XGBoost version: {xgb.__version__}")
print("="*60)


環境檢查
CUDA available: True
GPU: NVIDIA GeForce RTX 3090
GPU Memory: 23.56 GB
XGBoost version: 3.0.2


In [2]:
# ===========================
# Cell 2: 記憶體優化函數
# ===========================

def reduce_memory_usage(df, verbose=True):
    """通過改變數據類型來減少DataFrame的記憶體使用"""
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose:
        print(f'記憶體使用減少了 {100 * (start_mem - end_mem) / start_mem:.1f}%')
        print(f'{start_mem:.2f} MB --> {end_mem:.2f} MB')
    
    return df

def clean_memory():
    """清理記憶體"""
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()


In [3]:
# ===========================
# Cell 3: 載入資料（優化版）
# ===========================

def load_data_optimized(file_path, sample_frac=1):  # 使用10%資料做實驗
    """優化的資料載入"""
    print(f"\n載入資料: {file_path}")
    
    # 定義需要的欄位
    important_cols = [
        'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',
        'Distance(mi)', 'Temperature(F)', 'Humidity(%)', 'Pressure(in)',
        'Visibility(mi)', 'Wind_Speed(mph)', 'Precipitation(in)',
        'Weather_Condition', 'Amenity', 'Bump', 'Crossing', 'Give_Way',
        'Junction', 'No_Exit', 'Railway', 'Roundabout', 'Station', 'Stop',
        'Traffic_Calming', 'Traffic_Signal', 'Sunrise_Sunset', 'State'
    ]
    
    # 載入資料
    print(f"載入 {sample_frac*100}% 的資料...")
    df = pd.read_csv(file_path, usecols=lambda x: x in important_cols)
    df = df.sample(frac=sample_frac, random_state=42)
    
    print(f"載入資料大小: {df.shape}")
    print(f"記憶體使用: {df.memory_usage().sum() / 1024**2:.2f} MB")
    
    # 顯示目標變數分布
    print("\n目標變數分布:")
    severity_counts = df['Severity'].value_counts().sort_index()
    for sev, count in severity_counts.items():
        print(f"Severity {sev}: {count:,} ({count/len(df)*100:.2f}%)")
    
    return df

# 執行載入
file_path = 'us-accidents/US_Accidents_March23.csv'
df = load_data_optimized(file_path, sample_frac=1)


載入資料: us-accidents/US_Accidents_March23.csv
載入 100% 的資料...


載入資料大小: (7728394, 27)
記憶體使用: 1031.85 MB

目標變數分布:
Severity 1: 67,366 (0.87%)
Severity 2: 6,156,981 (79.67%)
Severity 3: 1,299,337 (16.81%)
Severity 4: 204,710 (2.65%)


In [4]:
# ===========================
# Cell 4: 基礎特徵工程函數
# ===========================

def basic_preprocessing(df):
    """基礎前處理：只處理缺失值和基本轉換"""
    df_copy = df.copy()
    
    # 處理日期時間
    df_copy['Start_Time'] = pd.to_datetime(df_copy['Start_Time'], errors='coerce')
    df_copy['End_Time'] = pd.to_datetime(df_copy['End_Time'], errors='coerce')
    
    # 計算持續時間
    df_copy['Duration_minutes'] = (df_copy['End_Time'] - df_copy['Start_Time']).dt.total_seconds() / 60
    
    # 過濾異常值
    df_copy = df_copy[(df_copy['Duration_minutes'] > 0) & (df_copy['Duration_minutes'] < 1440*7)]
    df_copy = df_copy.dropna(subset=['Start_Time'])
    
    # 提取基本時間特徵
    df_copy['Hour'] = df_copy['Start_Time'].dt.hour
    df_copy['DayOfWeek'] = df_copy['Start_Time'].dt.dayofweek
    df_copy['Month'] = df_copy['Start_Time'].dt.month
    
    # 處理缺失值（簡單填充）
    numeric_cols = df_copy.select_dtypes(include=[np.number]).columns
    for col in numeric_cols:
        if col != 'Severity':
            df_copy[col] = df_copy[col].fillna(df_copy[col].median())
    
    # 類別變數填充
    categorical_cols = ['Weather_Condition', 'State', 'Sunrise_Sunset']
    for col in categorical_cols:
        if col in df_copy.columns:
            df_copy[col] = df_copy[col].fillna('Unknown')
    
    # 布林型欄位轉換
    bool_cols = df_copy.select_dtypes(include=['bool']).columns
    for col in bool_cols:
        df_copy[col] = df_copy[col].astype(int)
    
    # 刪除不需要的欄位
    df_copy = df_copy.drop(['Start_Time', 'End_Time'], axis=1, errors='ignore')
    
    return df_copy

def advanced_preprocessing(df):
    """進階前處理：包含所有特徵工程"""
    df_copy = df.copy()
    
    # 先做基礎處理
    df_copy = basic_preprocessing(df_copy)
    
    # 額外的特徵工程
    # 1. 是否週末
    df_copy['IsWeekend'] = (df_copy['DayOfWeek'] >= 5).astype(int)
    
    # 2. 是否尖峰時段
    df_copy['IsRushHour'] = df_copy['Hour'].apply(
        lambda x: 1 if (6 <= x <= 9) or (16 <= x <= 19) else 0
    )
    
    # 3. 時段分類
    df_copy['TimeOfDay'] = pd.cut(df_copy['Hour'], 
                                  bins=[-1, 6, 12, 18, 24], 
                                  labels=[0, 1, 2, 3]).astype(int)
    
    # 4. 季節
    df_copy['Season'] = pd.cut(df_copy['Month'], 
                               bins=[0, 3, 6, 9, 12], 
                               labels=[0, 1, 2, 3]).astype(int)
    
    # 5. 天氣分類（如果有天氣條件）
    if 'Weather_Condition' in df_copy.columns:
        def categorize_weather(condition):
            if pd.isna(condition):
                return 0
            condition = str(condition).lower()
            if any(word in condition for word in ['clear', 'fair']):
                return 1
            elif any(word in condition for word in ['cloud', 'overcast']):
                return 2
            elif any(word in condition for word in ['rain', 'drizzle']):
                return 3
            elif any(word in condition for word in ['snow', 'sleet']):
                return 4
            elif any(word in condition for word in ['fog', 'mist']):
                return 5
            elif any(word in condition for word in ['storm', 'thunder']):
                return 6
            else:
                return 7
        
        df_copy['Weather_Category'] = df_copy['Weather_Condition'].apply(categorize_weather)
        df_copy = df_copy.drop('Weather_Condition', axis=1)
    
    # 6. 對類別變數進行標籤編碼
    label_encoders = {}
    categorical_cols = ['State', 'Sunrise_Sunset']
    for col in categorical_cols:
        if col in df_copy.columns:
            le = LabelEncoder()
            df_copy[col] = le.fit_transform(df_copy[col].astype(str))
            label_encoders[col] = le
    
    return df_copy, label_encoders

In [5]:
# ===========================
# Cell 5: 混合採樣策略
# ===========================

def apply_mixed_sampling(X_train, y_train):
    """應用混合採樣策略"""
    print("\n應用混合採樣策略...")
    
    # 計算各類別數量
    unique, counts = np.unique(y_train, return_counts=True)
    class_counts = dict(zip(unique, counts))
    print("原始分布:", class_counts)
    
    # 混合策略：對多數類欠採樣，對少數類過採樣
    median_count = int(np.median(counts))
    target_count = int(median_count * 1.5)
    
    # 第一步：欠採樣
    undersample_strategy = {}
    for cls, cnt in class_counts.items():
        if cnt > target_count:
            undersample_strategy[cls] = target_count
        else:
            undersample_strategy[cls] = cnt
    
    if len(undersample_strategy) > 0:
        rus = RandomUnderSampler(sampling_strategy=undersample_strategy, random_state=42)
        X_temp, y_temp = rus.fit_resample(X_train, y_train)
    else:
        X_temp, y_temp = X_train, y_train
    
    # 第二步：過採樣
    temp_unique, temp_counts = np.unique(y_temp, return_counts=True)
    temp_class_counts = dict(zip(temp_unique, temp_counts))
    
    oversample_strategy = {}
    for cls, cnt in temp_class_counts.items():
        if cnt < target_count:
            oversample_strategy[cls] = target_count
        else:
            oversample_strategy[cls] = cnt
    
    if len(oversample_strategy) > 0:
        ros = RandomOverSampler(sampling_strategy=oversample_strategy, random_state=42)
        X_resampled, y_resampled = ros.fit_resample(X_temp, y_temp)
    else:
        X_resampled, y_resampled = X_temp, y_temp
    
    # 顯示新分布
    unique_new, counts_new = np.unique(y_resampled, return_counts=True)
    print("採樣後分布:", dict(zip(unique_new, counts_new)))
    
    return X_resampled, y_resampled

In [6]:
# ===========================
# Cell 6: XGBoost GPU 訓練器
# ===========================
def train_xgboost_gpu(
        X_train, X_test, y_train, y_test,
        X_val=None, y_val=None,
        *,
        objective='multi:softprob',
        num_class=4
    ):
    """
    通用 XGBoost GPU 訓練器
      - 多分類: objective='multi:softprob'，num_class=類別總數
    """
    params = {
        'objective': objective,
        # ==== 3090 GPU 最佳化 ====
        'tree_method': 'gpu_hist',
        'predictor':   'gpu_predictor',
        'gpu_id': 0,
        'max_bin': 256,
        'sampling_method': 'gradient_based',
        # ==== 常用超參 ====
        'max_depth': 8,
        'learning_rate': 0.08,
        'n_estimators': 2000,
        'subsample': 0.8,
        'colsample_bytree': 0.8,
        'min_child_weight': 1,
        'gamma': 0.15,
        'lambda': 1.0,
        'alpha': 0.0,
        'n_jobs': os.cpu_count()
    }

    # 只有在多分類時才加入 num_class & eval_metric
    if objective.startswith('multi'):
        params['num_class'] = num_class
        params['eval_metric'] = ['mlogloss', 'merror']

    Model = xgb.XGBClassifier
    model = Model(**params)

    eval_set = [(X_test, y_test)]
    if X_val is not None:
        eval_set.append((X_val, y_val))

    start = time.time()
    model.fit(
        X_train, y_train,
        eval_set=eval_set,
        # early_stopping_rounds=80,
        verbose=200
    )
    train_time = time.time() - start

    preds = model.predict(X_test)
    return model, preds, train_time


In [7]:
# ===========================
# Cell 7: 交叉驗證函數
# ===========================

def cross_validate_model(model_func, X, y, cv_folds=5):
    """執行交叉驗證"""
    print(f"\n執行 {cv_folds} 折交叉驗證...")
    
    skf = StratifiedKFold(n_splits=cv_folds, shuffle=True, random_state=42)
    cv_scores = {
        'accuracy': [],
        'f1_score': [],
        'balanced_accuracy': []
    }
    
    for fold, (train_idx, val_idx) in enumerate(tqdm(skf.split(X, y), total=cv_folds, desc="CV Progress")):
        X_train_cv, X_val_cv = X[train_idx], X[val_idx]
        y_train_cv, y_val_cv = y[train_idx], y[val_idx]
        
        # 訓練模型
        model, y_pred, _ = model_func(X_train_cv, X_val_cv, y_train_cv, y_val_cv)
        
        # 計算指標
        cv_scores['accuracy'].append(accuracy_score(y_val_cv, y_pred))
        cv_scores['f1_score'].append(f1_score(y_val_cv, y_pred, average='weighted'))
        cv_scores['balanced_accuracy'].append(balanced_accuracy_score(y_val_cv, y_pred))
        
        # 清理GPU記憶體
        clean_memory()
    
    # 計算平均值和標準差
    results = {}
    for metric, scores in cv_scores.items():
        results[f'{metric}_mean'] = np.mean(scores)
        results[f'{metric}_std'] = np.std(scores)
        print(f"{metric}: {results[f'{metric}_mean']:.4f} (+/- {results[f'{metric}_std']:.4f})")
    
    return results




In [8]:
# ===========================
# Cell 8: run_experiment（僅嚴重度分類）
# ===========================
def run_experiment(df):
    results = {}

    # ---------- Ⅰ. 嚴重度（分類） ----------
    df_cls, _ = advanced_preprocessing(df)
    df_cls = df_cls[df_cls['Severity'].isin([1,2,3,4])].dropna()

    obj_cols = df_cls.select_dtypes(include='object').columns
    df_cls[obj_cols] = df_cls[obj_cols].astype('category').apply(lambda s: s.cat.codes)

    X_cls = df_cls.drop('Severity', axis=1).values
    y_cls = df_cls['Severity'].values - 1      # 0~3

    X_tmp, X_test, y_tmp, y_test = train_test_split(
        X_cls, y_cls, test_size=0.20, random_state=42, stratify=y_cls
    )
    X_train, X_val, y_train, y_val = train_test_split(
        X_tmp, y_tmp, test_size=0.25, random_state=42, stratify=y_tmp
    )

    X_train_s, y_train_s = apply_mixed_sampling(X_train, y_train)

    print("\n--- 訓練【嚴重度】XGBoost 分類 ---")
    sev_model, sev_pred, sev_time = train_xgboost_gpu(
        X_train_s, X_test, y_train_s, y_test,
        X_val=X_val, y_val=y_val,
        objective='multi:softprob', num_class=4
    )
    sev_acc     = accuracy_score(y_test, sev_pred)
    sev_f1      = f1_score(y_test, sev_pred, average='weighted')
    sev_bal_acc = balanced_accuracy_score(y_test, sev_pred)
    print(f"Severity 分類結果 → acc: {sev_acc:.4f}, f1: {sev_f1:.4f}, bal_acc: {sev_bal_acc:.4f}, time: {sev_time:.1f}s")

    results['severity'] = {
        'acc':        float(sev_acc),
        'f1':         float(sev_f1),
        'bal_acc':    float(sev_bal_acc),
        'train_time': float(sev_time),
        'model':      sev_model
    }

    # ---------- 打印最終結果 ----------
    print("\n=== Experiment Summary ===")
    print(f"嚴重度 (分類):   acc={results['severity']['acc']:.4f}, "
          f"f1={results['severity']['f1']:.4f}, "
          f"bal_acc={results['severity']['bal_acc']:.4f}, "
          f"time={results['severity']['train_time']:.1f}s")

    return results

# 執行實驗
print("\n開始執行嚴重度分類實驗...")
results = run_experiment(df)



開始執行嚴重度分類實驗...



應用混合採樣策略...
原始分布: {0: 40419, 1: 3690866, 2: 779551, 3: 122104}
採樣後分布: {0: 676240, 1: 676240, 2: 676240, 3: 676240}

--- 訓練【嚴重度】XGBoost 分類 ---
[0]	validation_0-mlogloss:1.34685	validation_0-merror:0.47085	validation_1-mlogloss:1.34691	validation_1-merror:0.47134
[200]	validation_0-mlogloss:0.74675	validation_0-merror:0.35052	validation_1-mlogloss:0.74750	validation_1-merror:0.35163
[400]	validation_0-mlogloss:0.68755	validation_0-merror:0.31481	validation_1-mlogloss:0.68800	validation_1-merror:0.31545
[600]	validation_0-mlogloss:0.65548	validation_0-merror:0.29669	validation_1-mlogloss:0.65575	validation_1-merror:0.29702
[800]	validation_0-mlogloss:0.63234	validation_0-merror:0.28407	validation_1-mlogloss:0.63246	validation_1-merror:0.28423
[1000]	validation_0-mlogloss:0.61322	validation_0-merror:0.27398	validation_1-mlogloss:0.61325	validation_1-merror:0.27411
[1200]	validation_0-mlogloss:0.59786	validation_0-merror:0.26584	validation_1-mlogloss:0.59781	validation_1-merror:0.26595
[14

In [9]:
# # ===========================
# # Cell 9: 結果視覺化
# # ===========================

# def visualize_results(results):
#     """視覺化實驗結果"""
#     # 準備數據
#     metrics = ['accuracy', 'f1_score', 'balanced_accuracy']
#     models = ['LightGBM', 'XGBoost', 'CatBoost']
#     experiments = list(results.keys())
    
#     # 創建比較圖表
#     fig, axes = plt.subplots(2, 2, figsize=(15, 12))
#     axes = axes.flatten()
    
#     for idx, metric in enumerate(metrics):
#         ax = axes[idx]
        
#         # 準備數據
#         data = []
#         for exp in experiments:
#             row = []
#             for model in models:
#                 row.append(results[exp][model][metric])
#             data.append(row)
        
#         # 繪製熱力圖
#         sns.heatmap(data, annot=True, fmt='.4f', 
#                    xticklabels=models, yticklabels=experiments,
#                    cmap='YlOrRd', ax=ax, cbar_kws={'label': metric})
#         ax.set_title(f'{metric.replace("_", " ").title()} 比較')
    
#     # 訓練時間比較
#     ax = axes[3]
#     time_data = []
#     for exp in experiments:
#         row = []
#         for model in models:
#             row.append(results[exp][model]['training_time'])
#         time_data.append(row)
    
#     sns.heatmap(time_data, annot=True, fmt='.2f', 
#                xticklabels=models, yticklabels=experiments,
#                cmap='Blues', ax=ax, cbar_kws={'label': '秒'})
#     ax.set_title('訓練時間比較 (秒)')
    
#     plt.tight_layout()
#     plt.savefig('model_comparison_results.png', dpi=300, bbox_inches='tight')
#     plt.show()
    
#     # 打印總結表格
#     print("\n" + "="*100)
#     print("實驗結果總結")
#     print("="*100)
#     print(f"{'實驗':<20} {'模型':<10} {'準確率':<10} {'F1分數':<10} {'平衡準確率':<12} {'訓練時間(秒)':<12}")
#     print("-"*100)
    
#     for exp in experiments:
#         for model in models:
#             metrics = results[exp][model]
#             print(f"{exp:<20} {model:<10} {metrics['accuracy']:<10.4f} "
#                   f"{metrics['f1_score']:<10.4f} {metrics['balanced_accuracy']:<12.4f} "
#                   f"{metrics['training_time']:<12.2f}")
    
#     # 找出最佳組合
#     best_score = 0
#     best_combo = None
#     for exp in experiments:
#         for model in models:
#             score = results[exp][model]['balanced_accuracy']
#             if score > best_score:
#                 best_score = score
#                 best_combo = (exp, model)
    
#     print(f"\n最佳組合: {best_combo[0]} - {best_combo[1]}")
#     print(f"平衡準確率: {best_score:.4f}")
    
#     return best_combo

# best_combo = visualize_results(results)


In [10]:
# ===========================
# Cell 10: Kepler.gl Data (真實分布抽樣 + Batch 推論，30 天預測、預估 60 萬筆)
# ===========================
import time
import numpy as np
import pandas as pd

def create_kepler_predictions_realistic(
    df_geo,                # 原始全部資料，需包含 Start_Lat, Start_Lng, Start_Time, State
    df_full_processed,     # advanced_preprocessing(df) → drop('Severity') 後的 DataFrame
    sev_model,             # 已訓練好的 XGBClassifier
    horizon_days=30,       # 預測 30 天
    daily_times=[0, 6, 12, 18],  # 每天四個時段
    total_predictions=600000     # 目標輸出筆數 (約 0.6M)
):
    """
    步驟概覽：
    1. 以經緯度四捨五入至 2 位 (lat_bin, lng_bin)，計算每個格點的事故計數。
    2. 計算每個格點的抽樣權重 = cnt / sum(cnt)，
       依此從所有格點中抽取 n_locs 個格點，n_locs = total_predictions / (horizon_days * len(daily_times))。
    3. 生成 (lat, lng, timestamp, Hour, DayOfWeek, Month) 的 Cartesian product → big_df。
    4. 其餘所有訓練時用過的特徵用「整體平均值」填入 big_df。
    5. 一次性呼叫 sev_model.predict_proba(batch_features)，塞回 risk_score, risk_level。
    6. 回傳 big_df。
    """
    # 1. 建立格點 (lat_bin, lng_bin) 並計算計數與權重
    df_geo['lat_bin'] = df_geo['Start_Lat'].round(2)
    df_geo['lng_bin'] = df_geo['Start_Lng'].round(2)
    grid_counts = (
        df_geo.groupby(['lat_bin', 'lng_bin'])
              .size()
              .reset_index(name='cnt')
    )
    grid_counts['weight'] = grid_counts['cnt'] / grid_counts['cnt'].sum()

    # 2. 計算要抽取的格點數量
    time_points = horizon_days * len(daily_times)  # 30 * 4 = 120
    n_locs = int(total_predictions / time_points)
    n_locs = min(n_locs, len(grid_counts))

    # 3. 依照權重隨機抽 n_locs 個格點 (無放回)
    sampled_idxs = np.random.choice(
        grid_counts.index,
        size=n_locs,
        replace=False,
        p=grid_counts['weight'].values
    )
    sample_locs = grid_counts.loc[sampled_idxs, ['lat_bin', 'lng_bin']].reset_index(drop=True)
    sample_locs = sample_locs.rename(columns={'lat_bin':'lat','lng_bin':'lng'})

    # 4. 構造所有 (lat, lng, timestamp, Hour, DayOfWeek, Month) 組合
    latest_day = df_geo['Start_Time'].max().normalize()
    rows = []
    for lat, lng in sample_locs.values:
        for d in range(1, horizon_days + 1):
            ts_base = latest_day + pd.Timedelta(days=d)
            dow = ts_base.weekday()
            for hr in daily_times:
                ts = ts_base + pd.Timedelta(hours=hr)
                rows.append((lat, lng, ts, hr, dow, ts.month))
    big_df = pd.DataFrame(rows, columns=['lat','lng','timestamp','Hour','DayOfWeek','Month'])

    # 5. 其餘訓練特徵以平均值填充
    feature_cols = df_full_processed.columns.tolist()
    # 檢查常用時間特徵一定存在
    for c in ['Hour','DayOfWeek','Month']:
        if c not in feature_cols:
            raise ValueError(f"訓練特徵缺少 '{c}'，請先確認 advanced_preprocessing 有生成這三個欄。")
    template = df_full_processed[feature_cols].mean().round(4)
    for col in feature_cols:
        if col in ['Hour','DayOfWeek','Month']:
            continue
        big_df[col] = float(template[col])

    # 6. Batch 推論：一次性呼叫 predict_proba
    X_all = big_df[feature_cols].values  # shape=(n_locs*120, len(feature_cols))
    all_probs = sev_model.predict_proba(X_all)  # shape=(n_rows, num_class)
    risk_scores = all_probs.max(axis=1)  # 取最大機率作為風險分數
    risk_levels = np.where(risk_scores > 0.7, 'High',
                  np.where(risk_scores > 0.4, 'Medium', 'Low'))
    big_df['risk_score'] = risk_scores
    big_df['risk_level'] = risk_levels

    return big_df


# ——— 重新讀取完整地理資料，這次要帶 State，用 grid_counts 時其實不需要 State，但不影響抽樣分布 —— 
df_geo_full = pd.read_csv(
    file_path,
    usecols=['Start_Lat','Start_Lng','Start_Time','State'],
    parse_dates=['Start_Time']
)
df_geo = df_geo_full.copy()

# ——— 取得與訓練時相同的完整特徵 DataFrame —— 
df_full_processed, _ = advanced_preprocessing(df.copy())
df_full_processed = df_full_processed.drop('Severity', axis=1)

# ——— 執行 Batch 預測，預測 30 天，共約 600k 筆資料 —— 
print("\n[Kepler] 以真實格點分布抽樣，開始 Batch 推論 30 天 …")
start_time = time.time()
pred_df = create_kepler_predictions_realistic(
    df_geo,
    df_full_processed,
    results['severity']['model'],
    horizon_days=30,         # 預測未來 30 天
    daily_times=[0,6,12,18],  # 每天 4 個時段
    total_predictions=1000000  # 共約 600k 筆輸出
)
elapsed = time.time() - start_time
print(f"→ 完成 {len(pred_df):,} 筆預測，花費 {elapsed:.1f} 秒")

# ——— 將結果存為 CSV，方便 Kepler.gl 使用 —— 
csv_out = 'accident_severity_forecast_kepler_30days_realistic.csv'
pred_df.to_csv(csv_out, index=False)
print(f"Kepler CSV 已存：{csv_out}  （檔案大小約 { (pred_df.memory_usage(deep=True).sum()/1024**2):.1f } MB）")



[Kepler] 以真實格點分布抽樣，開始 Batch 推論 30 天 …
→ 完成 999,960 筆預測，花費 7.8 秒


ValueError: Invalid format specifier

In [11]:
# ===========================
# Cell 11: Kepler.gl 使用教學（針對 accident_severity_forecast_kepler_30days_realistic.csv）
# ===========================

print("\n" + "="*80)
print("Kepler.gl 使用教學 (針對 accident_severity_forecast_kepler_30days_realistic.csv)")
print("="*80)

instructions = """
### 如何使用 Kepler.gl 視覺化 「accident_severity_forecast_kepler_30days_realistic.csv」：

1. **下載或確認 CSV 檔案路徑**
   - 請確定「accident_severity_forecast_kepler_30days_realistic.csv」已經存在於本機硬碟上，並且你能夠在瀏覽器或檔案總管中找到它。

2. **打開 Kepler.gl**
   - 在瀏覽器中輸入: https://kepler.gl/
   - 等待 Kepler.gl 網頁載入完成。

3. **上傳資料**
   - 點擊右上角的「Add Data」按鈕，或直接把 `accident_severity_forecast_kepler_30days_realistic.csv` 檔案拖放到網頁上。
   - Kepler.gl 會自動解析 CSV 中的標題列，並將數據加載到地圖中。

4. **檢查數據欄位**
   - 確認以下欄位都已正確匯入：
     - `lat`、`lng`：地理緯度與經度（必須）
     - `timestamp`：時間戳
     - `risk_score`：風險分數 (0~1)
     - `risk_level`：風險等級（High / Medium / Low）
     - `Hour`：小時
     - `DayOfWeek`：星期幾 (0=週一, …, 6=週日)
     - `Month`：月份 (1~12)
     - **以及其他模型訓練時所需的數值特徵（如果需要在 Kepler 篩選，也可一併查看）**

5. **建立基礎地圖圖層 (Point Layer)**
   - 在左側的「Layers」面板，點擊「Add Layer」。
   - 選擇「Point」圖層。
   - 設定：
     - **Longitude**: 選 `lng`
     - **Latitude**: 選 `lat`
     - **Color Encoding**: 
       - Data: `risk_score`
       - Scale: 選「Color Range」→ 紅色漸變 (或自訂)
     - **Size Encoding**:
       - Data: `risk_score`
       - Scale: “Range” 設為 [1, 10]（或看需求調整）
   - 點擊「OK」後，即可看到所有點依照 `risk_score` 上色並顯示大小。

6. **設定時間動畫 (Time Filter)**
   - 左側點選「Filters」標籤，點「+ Add Filter」。
   - 在彈出選單中選擇 `timestamp`，Kepler 會自動偵測時間格式並顯示「Time Filter」控制條。
   - 開啟「Enable Time Playback」按鈕，設定：
     - **Window Size**: 例如 1 天 (1d) 或 12 小時 (12h)，隨需求調整。
     - **Playback Speed**: 隨需求調整 (例如 1x 或 2x)。
   - 點擊播放按鍵即可看到地圖隨時間演進，點隨 `timestamp` 動態出現。

7. **新增風險等級過濾器 (Category Filter)**
   - 點「+ Add Filter」，選擇 `risk_level` 欄位。
   - 這會自動建立「Category Filter」下拉選單，可以切換只顯示 High / Medium / Low 其中一種或多種組合。

8. **新增其他篩選，如小時 & 星期 (Hour & DayOfWeek)**
   - 同樣透過「+ Add Filter」分別選擇 `Hour` 或 `DayOfWeek` 欄位，
     - 針對 `Hour`：可以選擇某些小時段（如只看早上 6~9 點、傍晚 16~19 點）。
     - 針對 `DayOfWeek`：可以只顯示週末 (5,6) 或特定星期。
   - 打開「Multiple Select」模式，可以多選不同值。

9. **調整圖層樣式 (Layer Settings)**
   - 點選剛剛建立的「Point Layer」，展開「Style」面板：
     - **Opacity**: 依需求調整點的透明度（如 0.8 避免重疊過濃）。
     - **Stroke Width**: 若想讓點看起來更突出，可調整邊框粗細 (e.g. 0.5)。
     - **Outline Color**: 可選灰色或白色，讓點在底圖上更清晰可見。

10. **建立其他圖層 (可選)**
    - **Heatmap Layer**：
      - 在「Add Layer」選「Heatmap」。
      - Data: 選 `timestamp`、`lat`、`lng`、`weight`（如果想用 `risk_score`，就 Weight = `risk_score`）。
      - 修改 `Radius` (e.g. 10 km) 來調整熱度分布範圍。
    - **Hexagon Layer**：
      - 在「Add Layer」選「Hexagon」。
      - Data: 同樣選 `lat`、`lng`，Aggregation: `risk_score` → Sum 或平均。
      - 修改 `Radius` (5~10 km) 及 `Elevation Scale` 來顯示立體柱狀。
    - **Trip Layer (若要顯示連續軌跡)**：  
      - 如果有「多段軌跡」資料可用，可考慮 Trip Layer，這裡暫不示範。

11. **3D 模式**  
    - 點擊地圖右上方的「3D」按鈕，可進入 3D 視角，調整垂直角度與縮放，更立體地看風險柱狀 (適用於 Hexagon Layer)。

12. **匯出與分享**  
    - 地圖設定完成後，點「Export Map」→ 選「Export as HTML」即可下載一個純 HTML 檔案，打開就能離線瀏覽互動地圖。
    - 或者「Export Config」將當前的圖層與篩選配置打包成 JSON，下次匯入相同數據可直接復現設定。

---

### 欄位說明 (針對這個 CSV)：
- **lat, lng**：地理座標 (緯度／經度)  
- **timestamp**：預測時間戳 (Datetime)  
- **risk_score**：模型預測出的風險分數 (0 ~ 1)  
- **risk_level**：風險等級 (High / Medium / Low)  
- **Hour**：小時 (0 ~ 23)  
- **DayOfWeek**：星期幾 (0 = 週一 … 6 = 週日)  
- **Month**：月份 (1 ~ 12)  
- **其他訓練特徵**（如溫度、濕度、Weather_Category 等）如果需要，也可在 Kepler 裡作為 Color/Size/Filter 依據。

---

### 範例執行流程總結
1. 拖入 `accident_severity_forecast_kepler_30days_realistic.csv`。  
2. 建立一個 Point Layer，將 `lat`,`lng` 設為座標、`risk_score` 設為顏色與大小。  
3. 建立 Time Filter → 播放未來 30 天 4 個時段 (0,6,12,18) 的風險地圖動態。  
4. 建立 Category Filter (`risk_level`) 可快速顯示 High/Medium/Low。  
5. 建立 Hour、DayOfWeek 篩選以聚焦特定時段或特定星期。  
6. 可選擇 Heatmap 或 Hexagon Layer 展示整體風險熱度或聚合分布。  
7. 進入 3D 模式、匯出 HTML 與設定檔，完成分享與分析。

按以上步驟，你就能在 Kepler.gl 中完整展現這份「未來 30 天」的事故嚴重度風險預測，並且自由篩選、做時空動畫與不同圖層疊加。  
"""

print(instructions)

# 顯示一些數據基本統計，確認匯入無誤
print("\n數據預覽：")
print(pred_df[['lat','lng','timestamp','risk_score','risk_level','Hour','DayOfWeek','Month']].head(10))

print(f"\n數據統計：")
print(f"- 總數據點: {len(pred_df):,}")
print(f"- 風險等級 High: {len(pred_df[pred_df['risk_level']=='High']):,}")
print(f"- 風險等級 Medium: {len(pred_df[pred_df['risk_level']=='Medium']):,}")
print(f"- 風險等級 Low: {len(pred_df[pred_df['risk_level']=='Low']):,}")
print(f"- 唯一 (lat,lng) 熱點數: {pred_df[['lat','lng']].drop_duplicates().shape[0]:,}")

# 顯示 GPU 使用情況 (如果需要)
if torch.cuda.is_available():
    print(f"\nGPU 記憶體使用: {torch.cuda.memory_allocated() / 1024**3:.2f} GB")
    print(f"GPU 記憶體快取: {torch.cuda.memory_reserved() / 1024**3:.2f} GB")

print("\n教學完成！請打開 Kepler.gl 並依據步驟匯入 CSV。")



Kepler.gl 使用教學 (針對 accident_severity_forecast_kepler_30days_realistic.csv)

### 如何使用 Kepler.gl 視覺化 「accident_severity_forecast_kepler_30days_realistic.csv」：

1. **下載或確認 CSV 檔案路徑**
   - 請確定「accident_severity_forecast_kepler_30days_realistic.csv」已經存在於本機硬碟上，並且你能夠在瀏覽器或檔案總管中找到它。

2. **打開 Kepler.gl**
   - 在瀏覽器中輸入: https://kepler.gl/
   - 等待 Kepler.gl 網頁載入完成。

3. **上傳資料**
   - 點擊右上角的「Add Data」按鈕，或直接把 `accident_severity_forecast_kepler_30days_realistic.csv` 檔案拖放到網頁上。
   - Kepler.gl 會自動解析 CSV 中的標題列，並將數據加載到地圖中。

4. **檢查數據欄位**
   - 確認以下欄位都已正確匯入：
     - `lat`、`lng`：地理緯度與經度（必須）
     - `timestamp`：時間戳
     - `risk_score`：風險分數 (0~1)
     - `risk_level`：風險等級（High / Medium / Low）
     - `Hour`：小時
     - `DayOfWeek`：星期幾 (0=週一, …, 6=週日)
     - `Month`：月份 (1~12)
     - **以及其他模型訓練時所需的數值特徵（如果需要在 Kepler 篩選，也可一併查看）**

5. **建立基礎地圖圖層 (Point Layer)**
   - 在左側的「Layers」面板，點擊「Add Layer」。
   - 選擇「Point」圖層。
   - 設定：
     - **Longitude**: 選 `lng`
     - **Latitude**: 選 `lat`
     - **Color Encoding**: 
       - Data: