# 第一次 LLM 架構戰爭：數據分析 (C-01)

本筆記本分析了 2023-2025 年間主要 LLM 的關鍵指標，以量化架構戰爭的趨勢。

## 1. 數據加載與預處理

In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# 讀取數據
df = pd.read_csv('../data/llm_models.csv')
df['Release_Date'] = pd.to_datetime(df['Release_Date'])
df.sort_values('Release_Date', inplace=True)
df.head()

## 2. 參數量演變：Dense vs MoE

觀察總參數 (Total Parameters) 與實際啟動參數 (Active Parameters) 隨時間的變化，可以看出 MoE 架構如何打破了「參數越大越好」的迷思。

In [None]:
fig = px.scatter(df, x='Release_Date', y='Total_Parameters_B', 
                 size='Active_Parameters_B', color='Architecture', 
                 hover_name='Model', text='Model',
                 title='LLM 參數演變 (圓點大小代表啟動參數)')
fig.update_traces(textposition='top center')
fig.show()

## 3. 訓練成本革命

DeepSeek 與 Kimi 的出現徹底改變了成本結構。下圖展示了不同模型的訓練成本對比。

In [None]:
fig = px.bar(df, x='Model', y='Training_Cost_USD_M', color='Architecture',
             title='各模型訓練成本對比 (百萬美元)',
             text='Training_Cost_USD_M')
fig.update_layout(xaxis_tickangle=-45)
fig.show()

## 4. 結論

從數據中可以清晰地看到：
1. **MoE 的效率優勢**：雖然總參數量持續增長（達到 1T+），但啟動參數保持在 30B-50B 區間，保證了推理速度。
2. **成本崩塌**：2025 年的頂級模型訓練成本僅為 2023 年的 5%，這是架構創新（MoE）帶來的紅利。
3. **Meta 的轉向**：Llama 4 的數據點清楚地標誌著開源界向 MoE 的全面倒戈。