# 🚀 CyberPuppy 霸凌偵測訓練 - Google Colab

**目標**: 達成 F1 ≥ 0.75 的霸凌偵測模型  
**策略**: 多模型訓練 + 智能選擇 + 自動推送  
**GPU**: T4 (免費) / V100 / A100 (Pro)  

---

## 📋 使用說明

1. **檢查 GPU**: Runtime → Change runtime type → GPU
2. **執行所有 cell**: Runtime → Run all
3. **監控訓練**: TensorBoard 會自動顯示
4. **自動推送**: 達標模型會自動推送回 GitHub

**預計時間**:
- T4: 6-9 小時 (免費)
- V100: 3-5 小時 (Pro)
- A100: 2-3 小時 (Pro+)

## 1️⃣ 環境設置與 GPU 檢查

In [None]:
# 檢查 GPU 可用性
import torch
print(f"PyTorch version: {torch.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"GPU Memory: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
else:
    print("⚠️ 警告: 未偵測到 GPU！請檢查 Runtime 設置")

## 2️⃣ Clone Repository (優化版 - 跳過大模型)

In [None]:
# 設置 GitHub 認證 (需要個人訪問令牌)
import os
from getpass import getpass

# 輸入你的 GitHub 資訊
GITHUB_USERNAME = input("GitHub 用戶名: ")
GITHUB_TOKEN = getpass("GitHub Personal Access Token (需要 repo 權限): ")
REPO_NAME = "cyberbully-zh-moderation-bot"

# 設置 Git 配置
!git config --global user.email "colab@example.com"
!git config --global user.name "Colab Training Bot"

print("✅ Git 配置完成")

In [None]:
# Clone repository (跳過 LFS 大檔案)
import os

if os.path.exists(REPO_NAME):
    print("📂 Repository 已存在，跳過 clone")
else:
    print("📥 開始 clone repository...")
    
    # 使用 token 進行認證
    repo_url = f"https://{GITHUB_USERNAME}:{GITHUB_TOKEN}@github.com/{GITHUB_USERNAME}/{REPO_NAME}.git"
    
    # Clone repository (先跳過 LFS)
    !GIT_LFS_SKIP_SMUDGE=1 git clone --depth 1 {repo_url}
    %cd {REPO_NAME}

    # 安裝 Git LFS
    !git lfs install

    # 設置 Git LFS 認證 (避免 Bad credentials 錯誤)
    !git config lfs.url https://{GITHUB_USERNAME}:{GITHUB_TOKEN}@github.com/{GITHUB_USERNAME}/{REPO_NAME}.git/info/lfs

    print("📥 下載訓練資料 (這可能需要幾分鐘)...")
    
    # 下載訓練資料
    !git lfs pull --include="data/processed/training_dataset/train.json"
    !git lfs pull --include="data/processed/training_dataset/dev.json"
    !git lfs pull --include="data/processed/training_dataset/test.json"
    !git lfs pull --include="data/processed/cold_augmented.csv"

    # 驗證檔案完整性
    train_file = "data/processed/training_dataset/train.json"
    if os.path.exists(train_file):
        file_size = os.path.getsize(train_file)
        if file_size > 1000000:  # 應該至少 1 MB
            print(f"✅ 訓練資料已下載: {file_size / 1024 / 1024:.1f} MB")
        else:
            print(f"⚠️ 訓練資料可能不完整: {file_size} bytes")
            print("如果下載失敗，請檢查:")
            print("1. GitHub Token 是否有效")
            print("2. Token 是否有 repo 完整權限")
            print("3. Git LFS 頻寬是否足夠")
    else:
        print("❌ 訓練資料下載失敗")

    print("✅ Repository 設置完成")

# 切換到專案目錄
%cd /content/{REPO_NAME}

## 3️⃣ 安裝依賴套件

In [None]:
# 安裝必要套件（CUDA 12.6 + PyTorch 2.8 三件套、NumPy 2.x、TensorBoard 對齊）
print("📦 安裝依賴套件...")

# ── GPU (CUDA 12.6) 版本 ─────────────────────────────
!pip install -q --index-url https://download.pytorch.org/whl/cu126 \
  torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0

# 若沒有 GPU，要 CPU 版請改用：
# !pip install -q --index-url https://download.pytorch.org/whl/cpu \
#   torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0

# 科學計算基礎：NumPy 2.x（OpenCV 4.12.* 需要 >=2 且 <2.3）
!pip install -q "numpy>=2,<2.3"

# 其餘套件（與上面版本相容）
!pip install -q transformers==4.46.3 accelerate==1.2.1 datasets==3.2.0
!pip install -q scikit-learn==1.6.1 tqdm==4.67.1

# Colab 常見相依：避免 google-colab 1.0.0 的 pandas 釘版警告
!pip install -q pandas==2.2.2

# TensorBoard 對齊 TensorFlow 2.19
!pip install -q "tensorboard~=2.19.0"

# WandB（可選：更好的實驗追蹤）
!pip install -q wandb==0.19.1

# 驗證是否還有殘留不相容
!python -m pip check

print("✅ 套件安裝完成")

# 驗證版本
import torch
import numpy as np
print(f"✅ PyTorch: {torch.__version__}")
print(f"✅ NumPy: {np.__version__}")
print(f"✅ CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"✅ CUDA version: {torch.version.cuda}")

## 4️⃣ 驗證資料集完整性

In [None]:
# 檢查訓練資料
import json
import os

data_dir = "data/processed/training_dataset"
all_ok = True

for split in ["train", "dev", "test"]:
    filepath = os.path.join(data_dir, f"{split}.json")
    if os.path.exists(filepath):
        file_size = os.path.getsize(filepath)
        if file_size > 100000:  # 至少要大於 100KB
            try:
                with open(filepath, 'r', encoding='utf-8') as f:
                    data = json.load(f)
                print(f"✅ {split}.json: {len(data)} 樣本 ({file_size / 1024 / 1024:.1f} MB)")
            except json.JSONDecodeError as e:
                print(f"❌ {split}.json JSON 格式錯誤: {e}")
                print(f"   檔案大小: {file_size} bytes")
                print(f"   這可能是 Git LFS 指標檔案，不是實際資料")
                all_ok = False
        else:
            print(f"⚠️ {split}.json 檔案太小 ({file_size} bytes)")
            print(f"   這是 Git LFS 指標檔案，實際資料未下載")
            all_ok = False
    else:
        print(f"❌ 缺少 {split}.json")
        all_ok = False

# 檢查增強資料
augmented_path = "data/processed/cold_augmented.csv"
if os.path.exists(augmented_path):
    file_size = os.path.getsize(augmented_path)
    if file_size > 1000000:  # 至少 1MB
        print(f"✅ 增強資料: {file_size / 1024 / 1024:.1f} MB")
    else:
        print(f"⚠️ 增強資料檔案太小: {file_size} bytes")
else:
    print("⚠️ 未找到增強資料")

if not all_ok:
    print("\n" + "="*60)
    print("❌ Git LFS 檔案下載失敗")
    print("="*60)
    print("\n可能的原因:")
    print("1. GitHub Token 權限不足")
    print("   → 確認 Token 有 'repo' 完整權限")
    print("2. Git LFS 頻寬用完")
    print("   → 檢查 GitHub Settings → Billing → Git LFS 用量")
    print("3. Token 已過期")
    print("   → 重新生成新的 Token")
    print("\n解決方法:")
    print("1. 刪除 repository 目錄: !rm -rf " + REPO_NAME)
    print("2. 重新生成 Token (有效期選 90 days)")
    print("3. 重新執行 Cell 4 和 Cell 5")
else:
    print("\n✅ 所有訓練資料完整！可以開始訓練")

## 5️⃣ 配置訓練參數

In [None]:
# 訓練配置
from dataclasses import dataclass
from typing import List

@dataclass
class TrainingConfig:
    """訓練配置"""
    name: str
    base_model: str
    learning_rate: float
    batch_size: int
    num_epochs: int
    early_stopping_patience: int
    focal_loss_alpha: float
    focal_loss_gamma: float
    warmup_ratio: float = 0.1
    weight_decay: float = 0.01
    gradient_accumulation_steps: int = 1

# 定義三個訓練配置
configs = [
    TrainingConfig(
        name="macbert_conservative",
        base_model="hfl/chinese-macbert-base",
        learning_rate=1e-5,
        batch_size=8,
        num_epochs=20,
        early_stopping_patience=5,
        focal_loss_alpha=2.0,
        focal_loss_gamma=2.5,
    ),
    TrainingConfig(
        name="macbert_aggressive",
        base_model="hfl/chinese-macbert-base",
        learning_rate=3e-5,
        batch_size=16,
        num_epochs=15,
        early_stopping_patience=3,
        focal_loss_alpha=2.5,
        focal_loss_gamma=3.0,
        gradient_accumulation_steps=2,
    ),
    TrainingConfig(
        name="roberta_balanced",
        base_model="hfl/chinese-roberta-wwm-ext",
        learning_rate=2e-5,
        batch_size=12,
        num_epochs=18,
        early_stopping_patience=4,
        focal_loss_alpha=2.2,
        focal_loss_gamma=2.8,
    ),
]

print("📋 訓練配置:")
for i, cfg in enumerate(configs, 1):
    print(f"{i}. {cfg.name}")
    print(f"   - 學習率: {cfg.learning_rate}")
    print(f"   - Batch size: {cfg.batch_size}")
    print(f"   - Epochs: {cfg.num_epochs}")

## 6️⃣ 載入訓練腳本

In [None]:
# 確保腳本可執行
!chmod +x scripts/train_bullying_f1_optimizer.py

# 檢查腳本是否存在
import os
script_path = "scripts/train_bullying_f1_optimizer.py"
if os.path.exists(script_path):
    print(f"✅ 訓練腳本就緒: {script_path}")
else:
    print(f"❌ 訓練腳本不存在: {script_path}")
    print("請確保 repository 完整 clone")

## 7️⃣ 啟動 TensorBoard 監控

In [None]:
# 載入 TensorBoard
%load_ext tensorboard

# 啟動 TensorBoard
%tensorboard --logdir runs/

print("✅ TensorBoard 已啟動，請查看上方的儀表板")

## 8️⃣ 執行訓練 - Model A (保守配置)

In [None]:
# 訓練 Model A
config_a = configs[0]
print(f"🚀 開始訓練: {config_a.name}")
print("="*60)

!python scripts/train_bullying_f1_optimizer.py \
  --model_name {config_a.base_model} \
  --output_dir models/experiments/{config_a.name} \
  --train_file data/processed/training_dataset/train.json \
  --dev_file data/processed/training_dataset/dev.json \
  --test_file data/processed/training_dataset/test.json \
  --learning_rate {config_a.learning_rate} \
  --batch_size {config_a.batch_size} \
  --num_epochs {config_a.num_epochs} \
  --early_stopping_patience {config_a.early_stopping_patience} \
  --focal_loss_alpha {config_a.focal_loss_alpha} \
  --focal_loss_gamma {config_a.focal_loss_gamma} \
  --fp16 \
  --use_tensorboard

print(f"✅ {config_a.name} 訓練完成")

## 9️⃣ 執行訓練 - Model B (激進配置)

In [None]:
# 訓練 Model B
config_b = configs[1]
print(f"🚀 開始訓練: {config_b.name}")
print("="*60)

!python scripts/train_bullying_f1_optimizer.py \
  --model_name {config_b.base_model} \
  --output_dir models/experiments/{config_b.name} \
  --train_file data/processed/training_dataset/train.json \
  --dev_file data/processed/training_dataset/dev.json \
  --test_file data/processed/training_dataset/test.json \
  --learning_rate {config_b.learning_rate} \
  --batch_size {config_b.batch_size} \
  --num_epochs {config_b.num_epochs} \
  --early_stopping_patience {config_b.early_stopping_patience} \
  --focal_loss_alpha {config_b.focal_loss_alpha} \
  --focal_loss_gamma {config_b.focal_loss_gamma} \
  --gradient_accumulation_steps {config_b.gradient_accumulation_steps} \
  --fp16 \
  --use_tensorboard \
  --use_data_augmentation

print(f"✅ {config_b.name} 訓練完成")

## 🔟 執行訓練 - Model C (RoBERTa 變體)

In [None]:
# 訓練 Model C
config_c = configs[2]
print(f"🚀 開始訓練: {config_c.name}")
print("="*60)

!python scripts/train_bullying_f1_optimizer.py \
  --model_name {config_c.base_model} \
  --output_dir models/experiments/{config_c.name} \
  --train_file data/processed/training_dataset/train.json \
  --dev_file data/processed/training_dataset/dev.json \
  --test_file data/processed/training_dataset/test.json \
  --learning_rate {config_c.learning_rate} \
  --batch_size {config_c.batch_size} \
  --num_epochs {config_c.num_epochs} \
  --early_stopping_patience {config_c.early_stopping_patience} \
  --focal_loss_alpha {config_c.focal_loss_alpha} \
  --focal_loss_gamma {config_c.focal_loss_gamma} \
  --fp16 \
  --use_tensorboard

print(f"✅ {config_c.name} 訓練完成")

## 1️⃣1️⃣ 評估所有模型並選出最佳

In [None]:
# 評估所有訓練的模型
import json
import os

results = []

for config in configs:
    model_dir = f"models/experiments/{config.name}"
    metrics_file = os.path.join(model_dir, "best_model", "eval_results.json")
    
    if os.path.exists(metrics_file):
        with open(metrics_file, 'r') as f:
            metrics = json.load(f)
        
        f1_score = metrics.get('bullying_f1', 0.0)
        results.append({
            'name': config.name,
            'f1': f1_score,
            'path': os.path.join(model_dir, "best_model"),
            'metrics': metrics
        })
        print(f"{config.name}: F1 = {f1_score:.4f}")
    else:
        print(f"⚠️ {config.name}: 評估結果未找到")

# 選出最佳模型
if results:
    best_model = max(results, key=lambda x: x['f1'])
    print("\n" + "="*60)
    print(f"🏆 最佳模型: {best_model['name']}")
    print(f"📊 F1 Score: {best_model['f1']:.4f}")
    print("="*60)
    
    # 保存最佳模型資訊
    with open('best_model_info.json', 'w') as f:
        json.dump(best_model, f, indent=2, ensure_ascii=False)
else:
    print("❌ 沒有找到任何評估結果")

## 1️⃣2️⃣ 複製最佳模型到部署目錄

In [None]:
# 複製最佳模型
import shutil

if 'best_model' in locals() and best_model['f1'] >= 0.70:
    deploy_dir = "models/bullying_improved/best_single_model"
    os.makedirs(deploy_dir, exist_ok=True)
    
    # 複製模型檔案
    for file in os.listdir(best_model['path']):
        src = os.path.join(best_model['path'], file)
        dst = os.path.join(deploy_dir, file)
        if os.path.isfile(src):
            shutil.copy2(src, dst)
    
    print(f"✅ 最佳模型已複製到: {deploy_dir}")
    print(f"📊 F1 Score: {best_model['f1']:.4f}")
    
    # 保存部署資訊
    deploy_info = {
        'model_name': best_model['name'],
        'f1_score': best_model['f1'],
        'metrics': best_model['metrics'],
        'trained_on': 'Google Colab',
        'timestamp': pd.Timestamp.now().isoformat()
    }
    
    with open(os.path.join(deploy_dir, 'deployment_info.json'), 'w') as f:
        json.dump(deploy_info, f, indent=2, ensure_ascii=False)
    
    print("✅ 部署資訊已保存")
else:
    print("⚠️ 未達到最低 F1 門檻 (0.70) 或沒有可用模型")

## 1️⃣3️⃣ 推送最佳模型到 GitHub (如果達標)

In [None]:
# 自動推送達標模型
TARGET_F1 = 0.75

if 'best_model' in locals() and best_model['f1'] >= TARGET_F1:
    print(f"🎉 模型達標！F1 = {best_model['f1']:.4f} ≥ {TARGET_F1}")
    print("開始推送模型到 GitHub...")
    
    # 配置 Git LFS
    !git lfs install
    !git lfs track "models/bullying_improved/**/*.safetensors"
    !git lfs track "models/bullying_improved/**/*.bin"
    
    # 添加 .gitattributes
    !git add .gitattributes
    
    # 添加最佳模型
    !git add models/bullying_improved/best_single_model/
    
    # 提交
    commit_msg = f"feat: Add bullying detection model (F1={best_model['f1']:.4f}) trained on Colab"
    !git commit -m "{commit_msg}"
    
    # 推送
    !git push origin main
    
    print("✅ 模型已成功推送到 GitHub！")
    print(f"📊 Git LFS 用量: ~390 MB")
    
elif 'best_model' in locals():
    print(f"⚠️ 模型未達標: F1 = {best_model['f1']:.4f} < {TARGET_F1}")
    print("建議:")
    print("1. 檢查 TensorBoard 分析訓練曲線")
    print("2. 嘗試調整超參數")
    print("3. 考慮使用模型集成")
else:
    print("❌ 沒有可用的模型進行推送")

## 1️⃣4️⃣ (可選) 模型集成 - 如果單模型未達標

In [None]:
# 如果單模型未達標，嘗試集成
if 'best_model' in locals() and best_model['f1'] < TARGET_F1 and len(results) >= 2:
    print("🔧 單模型未達標，建立模型集成...")
    
    # 選出 Top-3 模型
    top_models = sorted(results, key=lambda x: x['f1'], reverse=True)[:3]
    
    print("\n集成模型:")
    for i, model in enumerate(top_models, 1):
        print(f"{i}. {model['name']}: F1 = {model['f1']:.4f}")
    
    # 執行集成評估
    !python scripts/ensemble_models.py \
      --models {" ".join([m['path'] for m in top_models])} \
      --test_file data/processed/training_dataset/test.json \
      --output_dir models/bullying_improved/ensemble_models \
      --method soft_voting
    
    print("✅ 集成評估完成，請查看結果")
else:
    print("ℹ️ 跳過集成：單模型已達標或可用模型不足")

## 1️⃣5️⃣ 產生完整評估報告

In [None]:
# 產生詳細評估報告
if 'best_model' in locals():
    !python scripts/evaluate_comprehensive.py \
      --model {best_model['path']} \
      --dataset data/processed/training_dataset/test.json \
      --output evaluation_results/ \
      --include_explainability \
      --include_error_analysis
    
    print("✅ 完整評估報告已生成於 evaluation_results/")
    print("包含:")
    print("- 混淆矩陣")
    print("- 錯誤案例分析")
    print("- SHAP 可解釋性分析")
    print("- 詳細指標報告")

## 1️⃣6️⃣ 下載模型到本地（可選）

In [None]:
# 壓縮並下載模型
if 'best_model' in locals() and best_model['f1'] >= 0.70:
    import shutil
    from google.colab import files
    
    # 壓縮模型
    archive_name = f"bullying_model_f1_{best_model['f1']:.4f}"
    shutil.make_archive(archive_name, 'zip', 'models/bullying_improved/best_single_model')
    
    print(f"✅ 模型已壓縮: {archive_name}.zip")
    print(f"大小: ~390 MB")
    print("\n是否要下載到本地? (執行下方的 cell)")

In [None]:
# 執行此 cell 以下載模型
# 注意: 檔案較大 (~390 MB)，下載可能需要幾分鐘
from google.colab import files

if 'archive_name' in locals():
    files.download(f"{archive_name}.zip")
    print("✅ 下載開始...")
else:
    print("❌ 沒有可下載的模型")

## 📊 訓練總結

In [None]:
# 顯示訓練總結
print("="*80)
print("🎯 CyberPuppy 霸凌偵測模型訓練總結")
print("="*80)

if 'results' in locals() and results:
    print("\n訓練的模型:")
    for model in sorted(results, key=lambda x: x['f1'], reverse=True):
        status = "✅ 達標" if model['f1'] >= TARGET_F1 else "⚠️ 未達標"
        print(f"  {status} {model['name']}: F1 = {model['f1']:.4f}")
    
    if 'best_model' in locals():
        print(f"\n🏆 最佳模型: {best_model['name']}")
        print(f"📊 F1 Score: {best_model['f1']:.4f}")
        print(f"🎯 目標: {TARGET_F1}")
        
        if best_model['f1'] >= TARGET_F1:
            print("\n✅ 訓練成功！模型已達標並推送到 GitHub")
            print(f"📦 Git LFS 用量: ~390 MB")
        else:
            gap = TARGET_F1 - best_model['f1']
            print(f"\n⚠️ 距離目標還差 {gap:.4f}")
            print("建議下一步:")
            print("  1. 分析錯誤案例 (evaluation_results/)")
            print("  2. 調整超參數重新訓練")
            print("  3. 嘗試模型集成")
else:
    print("\n❌ 沒有完成的訓練")

print("\n" + "="*80)
print("感謝使用 CyberPuppy 訓練系統！")
print("="*80)