# 01_cost_analysis.ipynb: 訓練成本與架構分析

本分析旨在對比不同架構（Dense vs MoE）在訓練成本上的巨大差異，特別是中國模型（DeepSeek, Kimi）帶來的「成本革命」。

In [None]:
import pandas as pd
import plotly.express as px

# 讀取數據
df = pd.read_csv('../data/models_cost.csv')

# 過濾掉 Stargate Project (因為它是基礎設施投資，不是單一模型成本，會破壞圖表比例)
df_models = df[df['model_name'] != 'Stargate Project'].copy()

# 繪製長條圖
fig = px.bar(df_models, x='model_name', y='training_cost_usd', 
             color='architecture_type', text='training_cost_usd',
             title='LLM 訓練成本對比 (美元)',
             labels={'training_cost_usd': '訓練成本 (USD)', 'model_name': '模型名稱'},             hover_data=['company', 'release_date'])
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(xaxis_tickangle=-45)
fig.show()

## 核心發現

1. **MoE 的成本優勢**：DeepSeek V3 ($5.5M) 和 Kimi K2 ($4.6M) 的成本僅為 GPT-4 ($100M) 的約 5%。
2. **Meta 的轉向**：Llama 4 採用 MoE 後，預估成本大幅下降，與 Llama 3 形成鮮明對比。