# CH02-02: NLP 演變歷程與技術典範

**課程目標:**
- 理解 NLP 的五大技術典範轉移
- 掌握每個時代的核心技術與代表模型
- 了解計算能力/數據/演算法三維驅動框架
- 認識模型規模的指數級增長

**學習時間:** 約 90 分鐘

**前置知識:**
- 基礎程式設計概念
- NLP 基本概念 (完成 CH02-01)
- 機率論基礎

---

## 📚 目錄

1. [NLP 發展時間軸 (1950-2024)](#1)
2. [第一典範: 規則系統時代 (1950-1990)](#2)
3. [第二典範: 統計學習時代 (1990-2010)](#3)
4. [第三典範: 淺層神經網路 (2010-2017)](#4)
5. [第四典範: 深度學習與 Transformer (2017-2020)](#5)
6. [第五典範: 大型語言模型 LLM (2020-至今)](#6)
7. [模型規模演進與三維驅動框架](#7)
8. [實戰練習](#8)

---

In [None]:
# 環境設定與套件導入
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
from collections import defaultdict, Counter
from IPython.display import display, HTML

# 設定中文顯示
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei', 'SimHei', 'Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False

# 設定顯示風格
sns.set_style('whitegrid')
sns.set_palette('husl')

print("✅ 環境設定完成")
print(f"NumPy 版本: {np.__version__}")

<a id="1"></a>
## 1. NLP 發展時間軸 (1950-2024)

自然語言處理經歷了五次重大典範轉移,每次轉移都解決了前一代的核心瓶頸,但也引入了新的挑戰。

### NLP 五大典範時期

| 典範 | 時期 | 核心思想 | 代表技術 | 關鍵突破 |
|:---|:---|:---|:---|:---|
| **規則系統** | 1950s-1980s | 專家手工編寫規則 | CFG, ELIZA | 可解釋性強 |
| **統計學習** | 1990s-2000s | 從數據學習機率模型 | N-gram, HMM, CRF | 自動學習,處理歧義 |
| **淺層神經網路** | 2000s-2013 | 詞向量與淺層模型 | Word2Vec, GloVe | 解決稀疏性,捕捉語義 |
| **深度學習** | 2013-2017 | RNN/LSTM 序列建模 | Seq2Seq, Attention | 端到端學習,長距離依賴 |
| **Transformer & LLM** | 2017-至今 | 純注意力機制+預訓練 | BERT, GPT, ChatGPT | 完全並行,湧現能力 |

---

In [None]:
# 視覺化 NLP 發展時間軸
import matplotlib.patches as mpatches

fig, ax = plt.subplots(figsize=(16, 8))

# 時間軸數據
paradigms = [
    {'name': '規則系統', 'start': 1950, 'end': 1990, 'color': '#FF6B6B', 'y': 5},
    {'name': '統計學習', 'start': 1990, 'end': 2010, 'color': '#4ECDC4', 'y': 4},
    {'name': '淺層神經網路', 'start': 2003, 'end': 2013, 'color': '#45B7D1', 'y': 3},
    {'name': '深度學習', 'start': 2013, 'end': 2017, 'color': '#F7B731', 'y': 2},
    {'name': 'Transformer & LLM', 'start': 2017, 'end': 2024, 'color': '#5F27CD', 'y': 1}
]

# 關鍵里程碑
milestones = [
    {'year': 1954, 'event': 'Georgetown-IBM\n機器翻譯實驗', 'y': 5.3},
    {'year': 1966, 'event': 'ELIZA\n聊天機器人', 'y': 5.3},
    {'year': 1988, 'event': 'HMM 用於\n語音識別', 'y': 4.3},
    {'year': 1997, 'event': 'LSTM\n長短期記憶網路', 'y': 3.5},
    {'year': 2013, 'event': 'Word2Vec\n詞向量革命', 'y': 3.3},
    {'year': 2014, 'event': 'Seq2Seq\n序列到序列', 'y': 2.3},
    {'year': 2017, 'event': 'Transformer\n"Attention is All You Need"', 'y': 1.5},
    {'year': 2018, 'event': 'BERT & GPT\n預訓練革命', 'y': 1.3},
    {'year': 2020, 'event': 'GPT-3\n175B 參數', 'y': 1.3},
    {'year': 2022, 'event': 'ChatGPT\n引爆 AI 熱潮', 'y': 1.3},
]

# 繪製時期區塊
for p in paradigms:
    width = p['end'] - p['start']
    rect = mpatches.Rectangle(
        (p['start'], p['y']-0.35), width, 0.7,
        linewidth=2, edgecolor='white', facecolor=p['color'], alpha=0.7
    )
    ax.add_patch(rect)
    ax.text(
        p['start'] + width/2, p['y'], p['name'],
        ha='center', va='center', fontsize=11, fontweight='bold', color='white'
    )

# 繪製里程碑
for m in milestones:
    ax.plot([m['year'], m['year']], [0.5, m['y']-0.4], 
            'k--', alpha=0.4, linewidth=1)
    ax.scatter(m['year'], m['y']-0.4, s=150, c='gold', 
               edgecolors='black', zorder=5, marker='*')
    ax.text(m['year'], 0.3, m['event'], 
            ha='center', va='top', fontsize=8, rotation=0)

# 設定座標軸
ax.set_xlim(1945, 2026)
ax.set_ylim(0, 6)
ax.set_xlabel('年份', fontsize=14, fontweight='bold')
ax.set_yticks([])
ax.set_title('NLP 技術典範演進時間軸 (1950-2024)', 
             fontsize=18, fontweight='bold', pad=20)
ax.grid(axis='x', alpha=0.3)
ax.spines['left'].set_visible(False)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

plt.tight_layout()
plt.show()

print("\n🔍 時間軸觀察:")
print("  1. 早期典範持續時間長 (規則系統 40 年)")
print("  2. 近期典範更迭加速 (深度學習僅 4 年就被 Transformer 取代)")
print("  3. 關鍵突破密集出現在 2013-2020 年間")
print("  4. Transformer 架構主導當前 NLP 發展")

### 典範轉移的驅動因素

每次典範轉移都由**計算能力、數據規模、演算法創新**三股力量共同推動:

```
規則系統 → 統計學習
├─ 數據: 大規模語料庫出現 (Penn Treebank)
├─ 演算法: 機率圖模型成熟 (HMM, CRF)
└─ 計算: CPU 性能提升,可處理百萬詞級語料

統計學習 → 神經網路
├─ 數據: 網路爬蟲數據爆炸 (Wikipedia, Common Crawl)
├─ 演算法: 反向傳播算法優化,詞向量技術突破
└─ 計算: GPU 普及,矩陣運算加速 100 倍

RNN → Transformer
├─ 數據: 多語言多任務數據集 (GLUE, SuperGLUE)
├─ 演算法: 自注意力機制,預訓練-微調範式
└─ 計算: TPU/雲端算力,可訓練數十億參數模型
```

---

<a id="2"></a>
## 2. 第一典範: 規則系統時代 (1950-1990)

### 核心思想

人類專家編寫語法規則,系統按規則執行。

### 代表技術

- **上下文無關文法 (Context-Free Grammar, CFG)**
- **Georgetown-IBM 機器翻譯實驗 (1954)**
- **ELIZA 聊天機器人 (1966)**

### 優點與侷限

| 優點 | 侷限 |
|:---|:---|
| ✅ 可解釋性強 (每個決策可追溯) | ❌ 規則覆蓋不全 (語言現象無窮) |
| ✅ 無需大量數據 | ❌ 維護成本高 (規則衝突) |
| ✅ 對簡單任務效果好 | ❌ 無法處理歧義 |

---

### 實作範例: 正則表達式分詞

In [None]:
# 規則系統範例: 使用正則表達式進行文本處理
import re

class RuleBasedTokenizer:
    """基於規則的分詞器"""
    
    def __init__(self):
        # 手工定義規則
        self.rules = [
            (r"\b(don't|won't|can't|isn't)\b", self.contraction_rule),
            (r"\b([A-Z][a-z]+)\b", self.proper_noun_rule),
            (r"\b(\d+)\b", self.number_rule),
            (r"[.,!?;:]", self.punctuation_rule),
        ]
    
    def contraction_rule(self, match):
        return f"[CONTRACTION: {match.group()}]"
    
    def proper_noun_rule(self, match):
        return f"[PROPER_NOUN: {match.group()}]"
    
    def number_rule(self, match):
        return f"[NUMBER: {match.group()}]"
    
    def punctuation_rule(self, match):
        return f"[PUNCT: {match.group()}]"
    
    def tokenize(self, text):
        """應用規則處理文本"""
        result = text
        for pattern, rule_func in self.rules:
            result = re.sub(pattern, lambda m: rule_func(m), result)
        return result

# 測試
tokenizer = RuleBasedTokenizer()
sentences = [
    "John don't like apples.",
    "Mary has 3 cats and 2 dogs!",
    "I can't believe it's 2024."
]

print("規則系統處理結果:\n")
for sent in sentences:
    print(f"原文: {sent}")
    print(f"處理: {tokenizer.tokenize(sent)}")
    print()

print("\n💡 規則系統的問題:")
print("  1. 規則無法窮盡: 'cannot' 沒被識別為縮寫")
print("  2. 維護困難: 新規則可能與舊規則衝突")
print("  3. 無法處理歧義: 'John' 可能是動詞 (約翰福音)")

### 上下文無關文法 (CFG) 示例

CFG 是規則系統的代表技術,用於描述句子的語法結構。

**文法規則:**
```
S  → NP VP         (句子 = 名詞短語 + 動詞短語)
NP → Det N         (名詞短語 = 限定詞 + 名詞)
VP → V NP          (動詞短語 = 動詞 + 名詞短語)
Det → "the" | "a"
N → "cat" | "dog" | "mat"
V → "sat" | "chased"
```

**解析樹範例:**
```
        S
       / \
      NP  VP
     / \  / \
   Det N V  NP
    |  | |  / \
  the cat sat Det N
              |   |
             on  mat
```

**組合爆炸問題:**
- 50 條基本規則 → 2 條組合: C(50,2) = 1,225
- 50 條基本規則 → 3 條組合: C(50,3) = 19,600
- 實際語言需要數千條規則 → 手工維護不可行

---

<a id="3"></a>
## 3. 第二典範: 統計學習時代 (1990-2010)

### 核心思想

從大規模語料庫中學習機率模型,用統計方法處理歧義。

### 代表技術

- **N-gram 語言模型**: 預測下一個詞的機率
- **隱馬可夫模型 (HMM)**: 詞性標註、語音識別
- **統計機器翻譯 (SMT)**: 基於短語的翻譯
- **條件隨機場 (CRF)**: 序列標註任務

### 核心數學: 最大化條件機率

$$
\hat{T} = \arg\max_{T} P(T | \text{sentence})
$$

將規則問題轉換為優化問題!

---

### 實作範例: Bigram 語言模型

In [None]:
# 統計學習範例: Bigram 語言模型
from collections import defaultdict, Counter

class BigramLanguageModel:
    """Bigram 語言模型: P(w_i | w_{i-1})"""
    
    def __init__(self):
        self.bigram_counts = defaultdict(Counter)
        self.unigram_counts = Counter()
    
    def train(self, sentences):
        """從語料庫訓練模型"""
        for sentence in sentences:
            words = ['<START>'] + sentence.lower().split() + ['<END>']
            for i in range(len(words) - 1):
                w1, w2 = words[i], words[i+1]
                self.bigram_counts[w1][w2] += 1
                self.unigram_counts[w1] += 1
    
    def probability(self, w1, w2):
        """計算條件機率 P(w2|w1)"""
        if self.unigram_counts[w1] == 0:
            return 0
        return self.bigram_counts[w1][w2] / self.unigram_counts[w1]
    
    def perplexity(self, test_sentence):
        """計算困惑度 (模型不確定性)"""
        words = ['<START>'] + test_sentence.lower().split() + ['<END>']
        log_prob = 0
        for i in range(len(words) - 1):
            prob = self.probability(words[i], words[i+1])
            if prob > 0:
                log_prob += np.log2(prob)
            else:
                return float('inf')  # 未見過的詞組
        return 2 ** (-log_prob / (len(words) - 1))
    
    def generate(self, max_length=10):
        """生成句子"""
        words = ['<START>']
        for _ in range(max_length):
            w1 = words[-1]
            if w1 == '<END>' or not self.bigram_counts[w1]:
                break
            # 選擇機率最高的下一個詞
            next_word = self.bigram_counts[w1].most_common(1)[0][0]
            words.append(next_word)
        return ' '.join(words[1:-1]) if '<END>' in words else ' '.join(words[1:])

# 訓練語料
train_corpus = [
    "the cat sat on the mat",
    "the dog sat on the log",
    "the cat chased the mouse",
    "the mouse ran away",
    "the dog chased the cat",
    "the cat climbed the tree",
]

# 訓練模型
model = BigramLanguageModel()
model.train(train_corpus)

print("Bigram 語言模型訓練完成\n")

# 測試條件機率
print("條件機率測試:")
print(f"  P(sat | cat) = {model.probability('cat', 'sat'):.3f}")
print(f"  P(chased | cat) = {model.probability('cat', 'chased'):.3f}")
print(f"  P(barked | cat) = {model.probability('cat', 'barked'):.3f} (未見過)")

# 生成句子
print("\n生成句子範例:")
for i in range(3):
    print(f"  {i+1}. {model.generate()}")

# 計算困惑度
test_sentences = [
    "the cat sat on the mat",
    "the dog ran away",
    "the elephant flew high"  # 未見過的詞組
]

print("\n困惑度測試 (越低越好):")
for sent in test_sentences:
    ppl = model.perplexity(sent)
    print(f"  '{sent}': {ppl:.2f}")

print("\n💡 統計模型的優勢:")
print("  1. 自動從數據學習,無需手工規則")
print("  2. 可處理歧義 (選擇機率最高的解釋)")
print("  3. 魯棒性強,允許小錯誤")
print("\n⚠️ 統計模型的侷限:")
print("  1. 稀疏性問題: 未見過的詞組機率為 0")
print("  2. 無法捕捉長距離依賴 (Bigram 只看前一個詞)")
print("  3. 生成的句子較為機械,缺乏創造性")

In [None]:
# 視覺化 Bigram 機率矩陣
words = ['<START>', 'the', 'cat', 'dog', 'sat', 'chased', 'on', 'mat']
prob_matrix = np.zeros((len(words), len(words)))

for i, w1 in enumerate(words):
    for j, w2 in enumerate(words):
        prob_matrix[i, j] = model.probability(w1, w2)

plt.figure(figsize=(10, 8))
sns.heatmap(prob_matrix, annot=True, fmt='.2f', cmap='YlOrRd',
            xticklabels=words, yticklabels=words,
            cbar_kws={'label': 'Probability P(w_j | w_i)'})
plt.xlabel('Next Word (w_j)', fontsize=12)
plt.ylabel('Current Word (w_i)', fontsize=12)
plt.title('Bigram 轉移機率矩陣', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n📊 機率矩陣解讀:")
print("  - 每一行總和為 1 (歸一化)")
print("  - 顏色越深表示轉移機率越高")
print("  - 'the' 後面最常接名詞 ('cat', 'dog')")

### 稀疏性問題示例

統計模型的核心瓶頸是**稀疏性問題** (Sparsity Problem):

```
詞彙表大小: 100,000
Bigram 組合: 100,000 × 100,000 = 10^10
Trigram 組合: 100,000^3 = 10^15

實際語料庫: 10^9 詞 (10 億詞)
覆蓋率: 10^9 / 10^15 = 0.0001%

結論: 絕大多數詞組從未出現,機率為 0!
```

**解決方案預告:**
- 平滑技術 (Smoothing): Add-1, Kneser-Ney
- **詞向量 (Word Embeddings)**: 將離散詞彙映射到連續空間 → 下一典範!

---

<a id="4"></a>
## 4. 第三典範: 淺層神經網路 (2010-2017)

### 核心思想

將詞彙映射到**連續向量空間**,用神經網路學習分佈式表示。

### 代表技術

- **Word2Vec (2013)**: CBOW 與 Skip-gram
- **GloVe (2014)**: 全域詞向量
- **淺層前饋神經網路**: 文本分類、情感分析

### 關鍵突破: 解決稀疏性問題

```
One-Hot 編碼 (離散空間):
cat  = [0, 0, 0, 1, 0, ..., 0]  (100,000 維, 99.999% 為 0)
dog  = [0, 0, 1, 0, 0, ..., 0]
→ 無法捕捉語義相似度!

詞向量 (連續空間):
cat  = [0.5, -0.3, 0.8, ...]  (300 維, 稠密)
dog  = [0.6, -0.2, 0.7, ...]
→ 相似詞的向量接近!
```

---

### 實作範例: Word2Vec 詞向量

In [None]:
# 詞向量範例: 使用 gensim 訓練 Word2Vec
try:
    from gensim.models import Word2Vec
    gensim_available = True
except ImportError:
    gensim_available = False
    print("⚠️ gensim 未安裝,將使用簡化版示例")

if gensim_available:
    # 訓練語料 (更大規模)
    sentences = [
        ["the", "cat", "sat", "on", "the", "mat"],
        ["the", "dog", "sat", "on", "the", "log"],
        ["the", "cat", "chased", "the", "mouse"],
        ["the", "mouse", "ran", "away", "quickly"],
        ["the", "dog", "chased", "the", "cat"],
        ["the", "cat", "climbed", "the", "tree"],
        ["cats", "and", "dogs", "are", "animals"],
        ["animals", "need", "food", "and", "water"],
        ["the", "king", "ruled", "the", "kingdom"],
        ["the", "queen", "lived", "in", "the", "palace"],
    ] * 100  # 重複以增加訓練數據
    
    # 訓練 Word2Vec (Skip-gram)
    model = Word2Vec(
        sentences=sentences,
        vector_size=50,      # 詞向量維度
        window=5,            # 上下文窗口大小
        min_count=1,         # 最小詞頻
        sg=1,                # 1=Skip-gram, 0=CBOW
        epochs=50,
        seed=42
    )
    
    print("Word2Vec 訓練完成\n")
    
    # 查詢詞向量
    print("詞向量範例 (前 10 維):")
    for word in ['cat', 'dog', 'king']:
        vec = model.wv[word][:10]
        print(f"  {word}: {vec}")
    
    # 計算相似度
    print("\n詞彙相似度測試:")
    pairs = [('cat', 'dog'), ('cat', 'king'), ('king', 'queen')]
    for w1, w2 in pairs:
        sim = model.wv.similarity(w1, w2)
        print(f"  similarity('{w1}', '{w2}') = {sim:.3f}")
    
    # 尋找最相似的詞
    print("\n最相似的詞:")
    for word in ['cat', 'king']:
        similar = model.wv.most_similar(word, topn=3)
        print(f"  與 '{word}' 最相似: {[w for w, _ in similar]}")
    
    # 詞向量運算
    print("\n詞向量運算 (類比推理):")
    try:
        # king - man + woman ≈ queen (經典範例,需要更大語料)
        result = model.wv.most_similar(
            positive=['king', 'woman'], 
            negative=['man'], 
            topn=1
        )
        print(f"  king - man + woman ≈ {result[0][0]}")
    except:
        print("  (需要更大規模語料才能展現類比推理能力)")

else:
    # 簡化版: 手工創建示例詞向量
    print("\n使用簡化版詞向量示例:\n")
    word_vectors = {
        'cat':   np.array([0.5, -0.3, 0.8, 0.1]),
        'dog':   np.array([0.6, -0.2, 0.7, 0.2]),
        'king':  np.array([-0.1, 0.9, -0.2, 0.5]),
        'queen': np.array([-0.2, 0.8, -0.1, 0.6]),
    }
    
    def cosine_similarity(v1, v2):
        return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
    
    print("相似度測試:")
    print(f"  similarity('cat', 'dog') = {cosine_similarity(word_vectors['cat'], word_vectors['dog']):.3f}")
    print(f"  similarity('king', 'queen') = {cosine_similarity(word_vectors['king'], word_vectors['queen']):.3f}")

print("\n💡 詞向量的優勢:")
print("  1. 解決稀疏性: 稠密表示,無 0 值問題")
print("  2. 捕捉語義: 相似詞向量接近")
print("  3. 遷移學習: 預訓練詞向量可用於下游任務")
print("\n⚠️ 詞向量的侷限:")
print("  1. 靜態表示: 一詞多義問題 (bank: 銀行 vs 河岸)")
print("  2. 無法捕捉長距離依賴: 前饋網路無記憶")

In [None]:
# 視覺化詞向量空間 (使用 t-SNE 降維)
if gensim_available and len(model.wv) >= 5:
    from sklearn.manifold import TSNE
    
    # 選擇部分詞彙
    words = [word for word in model.wv.index_to_key[:20] if len(word) > 2]
    word_vecs = np.array([model.wv[word] for word in words])
    
    # t-SNE 降維到 2D
    tsne = TSNE(n_components=2, random_state=42, perplexity=min(5, len(words)-1))
    word_vecs_2d = tsne.fit_transform(word_vecs)
    
    # 繪圖
    plt.figure(figsize=(12, 8))
    plt.scatter(word_vecs_2d[:, 0], word_vecs_2d[:, 1], s=100, alpha=0.6)
    
    for i, word in enumerate(words):
        plt.annotate(word, xy=(word_vecs_2d[i, 0], word_vecs_2d[i, 1]),
                     xytext=(5, 5), textcoords='offset points',
                     fontsize=11, fontweight='bold')
    
    plt.title('詞向量空間視覺化 (t-SNE 降維)', fontsize=14, fontweight='bold')
    plt.xlabel('Dimension 1', fontsize=12)
    plt.ylabel('Dimension 2', fontsize=12)
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    print("\n📊 視覺化觀察:")
    print("  - 相似詞在空間中距離較近")
    print("  - 語義關係被編碼為幾何關係")
else:
    print("\n(需要安裝 gensim 和更多訓練數據才能進行視覺化)")

### Word2Vec 的數學原理

**Skip-gram 目標:** 給定中心詞 $w_c$,預測上下文詞 $w_o$

$$
\max \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} | w_t)
$$

其中條件機率:

$$
P(w_o | w_c) = \frac{\exp(u_o \cdot v_c)}{\sum_{w=1}^{V} \exp(u_w \cdot v_c)}
$$

- $v_c$: 中心詞向量 (Query)
- $u_o$: 上下文詞向量 (Key)
- 分母是所有詞的歸一化 (Softmax)

**訓練技巧:**
- **Negative Sampling**: 避免計算完整 Softmax (太慢)
- **Hierarchical Softmax**: 使用二元樹加速

---

<a id="5"></a>
## 5. 第四典範: 深度學習與 Transformer (2017-2020)

### 核心思想

使用**循環神經網路 (RNN/LSTM)** 處理序列,後被 **Transformer** 純注意力架構取代。

### 代表技術

#### RNN/LSTM 時期 (2013-2017)
- **RNN/LSTM**: 序列建模,有記憶能力
- **Seq2Seq (2014)**: 編碼器-解碼器架構
- **Attention 機制 (2015)**: 動態關注輸入不同部分

#### Transformer 革命 (2017-2020)
- **Transformer (2017)**: "Attention is All You Need"
- **BERT (2018)**: 雙向預訓練,刷新 11 項 NLP 紀錄
- **GPT-2 (2019)**: 生成式預訓練,15 億參數

---

### RNN vs Transformer 核心差異

In [None]:
# 對比表格: RNN vs Transformer
comparison_data = {
    '特性': ['並行化', '長距離依賴', '訓練速度', '計算複雜度', '記憶能力', '可擴展性'],
    'RNN/LSTM': ['❌ 串行處理', '⚠️ 梯度消失', '🐌 慢', 'O(n)', '✅ 隱藏狀態', '⚠️ 難擴展'],
    'Transformer': ['✅ 完全並行', '✅ 直接連接', '🚀 快 10-100x', 'O(n²)', '✅ Self-Attention', '✅ 可擴展至 100B+']
}

import pandas as pd
df = pd.DataFrame(comparison_data)

# 顯示表格
display(HTML(df.to_html(index=False, escape=False)))

print("\n💡 Transformer 的革命性突破:")
print("  1. 完全拋棄循環結構,純注意力機制")
print("  2. 並行化訓練,GPU 利用率從 20% 提升到 80%+")
print("  3. 長距離依賴: 任意兩位置 O(1) 路徑連接")
print("  4. 可擴展性: GPT-3 達到 175B 參數")

### Attention 機制可視化

**Self-Attention 核心公式:**

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
$$

**計算步驟:**
1. **Query-Key 相似度**: $QK^T$ (點積計算相關性)
2. **縮放**: $\frac{QK^T}{\sqrt{d_k}}$ (避免數值過大)
3. **Softmax 歸一化**: 轉換為機率分佈
4. **加權組合**: 乘以 Value 得到輸出

---

In [None]:
# 實作簡化版 Self-Attention
def simple_self_attention(X, d_k):
    """
    簡化版 Self-Attention 機制
    
    Args:
        X: 輸入矩陣 (seq_len, d_model)
        d_k: Key 維度
    
    Returns:
        output: Attention 輸出
        attn_weights: 注意力權重矩陣
    """
    Q = K = V = X  # 簡化: 直接使用輸入 (實際需要投影矩陣)
    
    # Step 1: 計算相似度分數
    scores = np.dot(Q, K.T) / np.sqrt(d_k)
    
    # Step 2: Softmax 歸一化
    exp_scores = np.exp(scores - np.max(scores, axis=-1, keepdims=True))
    attn_weights = exp_scores / np.sum(exp_scores, axis=-1, keepdims=True)
    
    # Step 3: 加權組合
    output = np.dot(attn_weights, V)
    
    return output, attn_weights

# 測試範例
np.random.seed(42)
seq_len = 6
d_model = 8

# 模擬輸入序列: "The cat sat on the mat"
X = np.random.randn(seq_len, d_model)
output, attn_weights = simple_self_attention(X, d_model)

print(f"輸入形狀: {X.shape}")
print(f"輸出形狀: {output.shape}")
print(f"注意力權重形狀: {attn_weights.shape}")
print(f"\n注意力權重矩陣:\n{attn_weights}")

# 視覺化 Attention 權重
words = ['The', 'cat', 'sat', 'on', 'the', 'mat']

plt.figure(figsize=(10, 8))
sns.heatmap(attn_weights, annot=True, fmt='.2f', cmap='YlOrRd',
            xticklabels=words, yticklabels=words,
            cbar_kws={'label': 'Attention Score'})
plt.xlabel('Key (被關注的詞)', fontsize=12)
plt.ylabel('Query (查詢詞)', fontsize=12)
plt.title('Self-Attention 權重矩陣視覺化', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n🔍 Attention 權重解讀:")
print("  - 每一行總和為 1 (Softmax 歸一化)")
print("  - 對角線值較高: 詞關注自己")
print("  - 'cat' 也會關注 'sat' (語法關係)")
print("  - 'mat' 關注 'the' (限定詞依賴)")

### Multi-Head Attention 概念

**為什麼需要多頭?**

一個句子中存在**多種關係**:
- **語法關係**: 主詞-動詞-受詞
- **語義關係**: 近義詞、上下位詞
- **指代關係**: 代名詞指涉

**多頭機制讓模型同時學習這些不同關係!**

$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W^O
$$

其中每個頭:

$$
\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)
$$

**Transformer 原論文設定:** 8 個頭,每個頭維度 64 (總維度 512)

---

<a id="6"></a>
## 6. 第五典範: 大型語言模型 LLM (2020-至今)

### 核心思想

**規模法則 (Scaling Laws)**: 模型越大,性能越強,甚至出現**湧現能力 (Emergent Abilities)**!

### 代表模型

| 模型 | 發布時間 | 參數量 | 架構類型 | 關鍵特性 |
|:---|:---|:---|:---|:---|
| **GPT-3** | 2020.06 | 175B | Decoder-Only | Few-shot 學習 |
| **T5** | 2020.10 | 11B | Encoder-Decoder | 統一框架 |
| **ChatGPT** | 2022.11 | ~175B | Decoder-Only | RLHF 對齊 |
| **GPT-4** | 2023.03 | ~1T (估計) | Decoder-Only | 多模態能力 |
| **Claude 3** | 2024.03 | 未公開 | Decoder-Only | 長上下文 (200K) |
| **LLaMA 3** | 2024.04 | 70B | Decoder-Only | 開源高效 |

---

### LLM 三大模型家族對比

In [None]:
# 三大模型家族對比圖
fig, axes = plt.subplots(1, 3, figsize=(16, 6))

families = [
    {
        'name': 'Encoder-Only\n(BERT)',
        'structure': '雙向編碼',
        'tasks': ['文本分類', '命名實體識別', '問答系統', '語義理解'],
        'examples': ['BERT', 'RoBERTa', 'ALBERT'],
        'color': '#4ECDC4'
    },
    {
        'name': 'Decoder-Only\n(GPT)',
        'structure': '單向生成',
        'tasks': ['文本生成', '對話系統', '程式碼生成', '創作寫作'],
        'examples': ['GPT-3/4', 'ChatGPT', 'Claude'],
        'color': '#5F27CD'
    },
    {
        'name': 'Encoder-Decoder\n(T5)',
        'structure': '轉換架構',
        'tasks': ['機器翻譯', '文本摘要', '問答生成', '改寫潤色'],
        'examples': ['T5', 'BART', 'mT5'],
        'color': '#F7B731'
    }
]

for idx, family in enumerate(families):
    ax = axes[idx]
    ax.set_xlim(0, 10)
    ax.set_ylim(0, 10)
    ax.axis('off')
    
    # 標題
    ax.text(5, 9, family['name'], ha='center', va='top',
            fontsize=14, fontweight='bold', color=family['color'])
    
    # 架構
    ax.text(5, 7.5, f"架構: {family['structure']}", ha='center',
            fontsize=11, style='italic')
    
    # 任務列表
    y_pos = 6.5
    ax.text(5, y_pos, '適用任務:', ha='center', fontsize=10, fontweight='bold')
    y_pos -= 0.8
    for task in family['tasks']:
        ax.text(5, y_pos, f"• {task}", ha='center', fontsize=9)
        y_pos -= 0.7
    
    # 代表模型
    y_pos -= 0.5
    ax.text(5, y_pos, '代表模型:', ha='center', fontsize=10, fontweight='bold')
    y_pos -= 0.8
    for model in family['examples']:
        ax.text(5, y_pos, model, ha='center', fontsize=9,
                bbox=dict(boxstyle='round', facecolor=family['color'], alpha=0.3))
        y_pos -= 0.7

plt.suptitle('Transformer 三大模型家族', fontsize=16, fontweight='bold', y=0.98)
plt.tight_layout()
plt.show()

print("\n💡 如何選擇模型家族?")
print("  1. 理解任務 → BERT (雙向上下文)")
print("  2. 生成任務 → GPT (自回歸生成)")
print("  3. 轉換任務 → T5 (輸入→輸出映射)")

### LLM 的湧現能力 (Emergent Abilities)

當模型規模超過某個**臨界點**後,會突然出現新能力:

```
模型規模 < 10B 參數:
❌ 無法進行複雜推理
❌ Few-shot 學習能力弱
❌ 指令遵循能力差

模型規模 > 100B 參數:
✅ 多步驟推理 (Chain-of-Thought)
✅ 少樣本學習 (Few-shot Learning)
✅ 指令理解與遵循 (Instruction Following)
✅ 程式碼生成與除錯
✅ 常識推理能力
```

**關鍵發現:** 性能提升不是線性的,而是**突現的** (非連續跳躍)!

---

### 預訓練範式演變

| 範式 | 代表模型 | 核心思想 | 下游任務適配 |
|:---|:---|:---|:---|
| **靜態詞向量** | Word2Vec, GloVe | 預訓練詞向量 | 作為特徵輸入 |
| **預訓練 + 微調** | BERT, GPT-2 | 大規模預訓練 | 微調全部參數 |
| **提示學習** | GPT-3 | 上下文學習 | 設計提示詞 (零樣本/少樣本) |
| **指令微調** | ChatGPT, Claude | RLHF 對齊 | 直接對話,無需微調 |

**趨勢:** 從需要大量標註數據 → 零樣本/少樣本 → 自然語言指令

---

<a id="7"></a>
## 7. 模型規模演進與三維驅動框架

### 模型規模指數級增長

從 2013 年至今,NLP 模型規模呈現**指數級增長** (約每 2 年增長 10 倍)。

In [None]:
# 模型規模演進數據
model_history = [
    {'year': 2013, 'model': 'Word2Vec', 'params': 1e6, 'flops': 1e15},
    {'year': 2014, 'model': 'GloVe', 'params': 1e6, 'flops': 1e16},
    {'year': 2017, 'model': 'Transformer', 'params': 1e8, 'flops': 1e18},
    {'year': 2018, 'model': 'BERT-Base', 'params': 1.1e8, 'flops': 1e19},
    {'year': 2018, 'model': 'GPT-1', 'params': 1.2e8, 'flops': 1e19},
    {'year': 2019, 'model': 'BERT-Large', 'params': 3.4e8, 'flops': 5e19},
    {'year': 2019, 'model': 'GPT-2', 'params': 1.5e9, 'flops': 1e20},
    {'year': 2020, 'model': 'GPT-3', 'params': 1.75e11, 'flops': 3.14e23},
    {'year': 2022, 'model': 'PaLM', 'params': 5.4e11, 'flops': 2.5e24},
    {'year': 2023, 'model': 'GPT-4', 'params': 1e12, 'flops': 1e25},
]

# 視覺化模型規模演進
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# 左圖: 參數量演進
years = [m['year'] for m in model_history]
params = [m['params'] for m in model_history]
models = [m['model'] for m in model_history]

ax1.semilogy(years, params, 'o-', linewidth=2, markersize=8, color='#5F27CD')
for i, (x, y, label) in enumerate(zip(years, params, models)):
    if i % 2 == 0:  # 只標註部分模型以避免重疊
        ax1.annotate(label, (x, y), textcoords='offset points',
                     xytext=(0, 10), ha='center', fontsize=9)

ax1.set_xlabel('年份', fontsize=12)
ax1.set_ylabel('參數量 (對數尺度)', fontsize=12)
ax1.set_title('NLP 模型參數量演進 (2013-2023)', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3, which='both')
ax1.set_xlim(2012, 2024)

# 右圖: 訓練算力演進
flops = [m['flops'] for m in model_history]

ax2.semilogy(years, flops, 's-', linewidth=2, markersize=8, color='#F7B731')
for i, (x, y, label) in enumerate(zip(years, flops, models)):
    if i % 2 == 1:  # 交替標註
        ax2.annotate(label, (x, y), textcoords='offset points',
                     xytext=(0, 10), ha='center', fontsize=9)

ax2.set_xlabel('年份', fontsize=12)
ax2.set_ylabel('訓練算力 FLOPs (對數尺度)', fontsize=12)
ax2.set_title('NLP 模型訓練算力演進 (2013-2023)', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3, which='both')
ax2.set_xlim(2012, 2024)

plt.tight_layout()
plt.show()

print("\n📈 增長趨勢分析:")
print(f"  - 2013-2023 年參數量增長: {params[-1]/params[0]:.2e} 倍 (100 萬倍!)")
print(f"  - 2013-2023 年算力增長: {flops[-1]/flops[0]:.2e} 倍 (1000 萬倍!)")
print(f"  - 摩爾定律: 每 2 年性能翻倍 → 實際增長遠超預期!")

### 三維驅動框架

NLP 典範轉移受到**計算能力、數據規模、演算法創新**三維力量共同驅動。

In [None]:
# 視覺化三維驅動框架
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(14, 10))
ax = fig.add_subplot(111, projection='3d')

# 三維數據 (歸一化到 0-10 範圍)
paradigms_3d = [
    {'name': '規則系統', 'compute': 1, 'data': 1, 'algo': 1, 'color': '#FF6B6B'},
    {'name': '統計學習', 'compute': 2, 'data': 3, 'algo': 3, 'color': '#4ECDC4'},
    {'name': '淺層神經網路', 'compute': 4, 'data': 5, 'algo': 5, 'color': '#45B7D1'},
    {'name': '深度學習', 'compute': 6, 'data': 7, 'algo': 7, 'color': '#F7B731'},
    {'name': 'Transformer', 'compute': 8, 'data': 9, 'algo': 9, 'color': '#5F27CD'},
    {'name': 'LLM', 'compute': 10, 'data': 10, 'algo': 10, 'color': '#000000'},
]

# 繪製點
for p in paradigms_3d:
    ax.scatter(p['compute'], p['data'], p['algo'], 
               s=300, c=p['color'], marker='o', edgecolors='black', linewidths=2)
    ax.text(p['compute'], p['data'], p['algo'], p['name'],
            fontsize=9, ha='center', va='bottom')

# 繪製演進路徑
compute_path = [p['compute'] for p in paradigms_3d]
data_path = [p['data'] for p in paradigms_3d]
algo_path = [p['algo'] for p in paradigms_3d]
ax.plot(compute_path, data_path, algo_path, 'k--', alpha=0.5, linewidth=1.5)

# 設定座標軸
ax.set_xlabel('計算能力\n(Computing Power)', fontsize=12, fontweight='bold')
ax.set_ylabel('數據規模\n(Data Scale)', fontsize=12, fontweight='bold')
ax.set_zlabel('演算法創新\n(Algorithm Innovation)', fontsize=12, fontweight='bold')
ax.set_title('NLP 演變的三維驅動框架', fontsize=16, fontweight='bold', pad=20)

# 設定視角
ax.view_init(elev=20, azim=45)

plt.tight_layout()
plt.show()

print("\n🎯 三維驅動框架解讀:")
print("\n1️⃣ 計算能力 (Computing Power)")
print("  - CPU → GPU → TPU → 專用 AI 晶片")
print("  - 算力增長: 10^6 倍 (1990-2023)")
print("  - 摩爾定律持續驅動硬體進步")

print("\n2️⃣ 數據規模 (Data Scale)")
print("  - Penn Treebank (1M 詞) → Common Crawl (1T 詞)")
print("  - 語料庫規模增長: 10^6 倍")
print("  - 網路爬蟲數據爆炸式增長")

print("\n3️⃣ 演算法創新 (Algorithm Innovation)")
print("  - 規則 → 統計 → 神經網路 → Attention → Scaling")
print("  - 關鍵突破: Word2Vec (2013), Transformer (2017)")
print("  - 預訓練-微調範式成為主流")

### 規模法則 (Scaling Laws)

**OpenAI 研究發現:** 模型性能與計算量呈冪律關係

$$
\text{Performance} \propto (\text{Compute})^\alpha
$$

其中 $\alpha \approx 0.5$ (實驗測得)

**啟示:**
- 計算量每增加 10 倍 → 性能提升 $\sqrt{10} \approx 3.16$ 倍
- 計算量每增加 100 倍 → 性能提升 10 倍
- **結論:** 只要有足夠算力,模型還有巨大提升空間!

**限制因素:**
1. 能源消耗 (GPT-3 訓練耗電 ~1,287 MWh)
2. 硬體成本 (數千萬美元 GPU 集群)
3. 環境影響 (碳排放問題)

---

<a id="8"></a>
## 8. 實戰練習

### 練習 1: 對比不同時代的分詞技術

實作並對比規則分詞、統計分詞、神經網路分詞。

In [None]:
# 練習 1: 對比三種分詞方法
test_sentence = "I don't believe it's raining cats and dogs!"

print("測試句子:", test_sentence)
print("\n" + "="*60)

# 方法 1: 規則分詞 (正則表達式)
def rule_based_tokenize(text):
    """規則系統: 使用正則表達式"""
    tokens = re.findall(r"\b\w+\b|[.,!?]", text)
    return tokens

tokens_rule = rule_based_tokenize(test_sentence)
print("\n1️⃣ 規則分詞 (正則表達式):")
print(f"  結果: {tokens_rule}")
print(f"  數量: {len(tokens_rule)} tokens")
print("  優點: 快速、可解釋")
print("  缺點: 無法處理縮寫 (don't → do n't)")

# 方法 2: 統計分詞 (基於頻率)
def statistical_tokenize(text):
    """統計學習: 基於詞頻的簡單分詞"""
    # 簡化: 使用空格分詞 + 標點分離
    tokens = []
    for word in text.split():
        # 分離標點
        if word[-1] in '.,!?':
            tokens.extend([word[:-1], word[-1]])
        else:
            tokens.append(word)
    return tokens

tokens_stat = statistical_tokenize(test_sentence)
print("\n2️⃣ 統計分詞 (基於頻率):")
print(f"  結果: {tokens_stat}")
print(f"  數量: {len(tokens_stat)} tokens")
print("  優點: 自動學習分詞邊界")
print("  缺點: 仍無法完美處理縮寫")

# 方法 3: 神經網路分詞 (子詞分詞 BPE)
def neural_tokenize(text):
    """神經網路: 子詞分詞 (BPE 風格)"""
    # 簡化版: 分離常見縮寫
    text = text.replace("don't", "do n't")
    text = text.replace("it's", "it 's")
    tokens = re.findall(r"\b\w+\b|[.,!?]", text)
    return tokens

tokens_neural = neural_tokenize(test_sentence)
print("\n3️⃣ 神經網路分詞 (子詞分詞):")
print(f"  結果: {tokens_neural}")
print(f"  數量: {len(tokens_neural)} tokens")
print("  優點: 可處理縮寫、未登錄詞")
print("  缺點: 需要大量訓練數據")

print("\n" + "="*60)
print("\n💡 總結:")
print("  - 規則系統: 快但僵化")
print("  - 統計學習: 自動但需要特徵工程")
print("  - 神經網路: 強大但需要數據與算力")

### 練習 2: 模型規模與性能關係模擬

模擬規模法則,觀察模型規模與性能的關係。

In [None]:
# 練習 2: 規模法則模擬
def scaling_law(compute, alpha=0.5):
    """規模法則: Performance ∝ Compute^α"""
    base_performance = 50  # 基準性能
    return base_performance + 40 * (compute ** alpha) / (1e12 ** alpha)

# 模擬不同算力下的性能
compute_range = np.logspace(15, 25, 50)  # 10^15 到 10^25 FLOPs
performance = [scaling_law(c) for c in compute_range]

# 標記真實模型位置
real_models = [
    {'name': 'Word2Vec', 'compute': 1e15, 'color': '#FF6B6B'},
    {'name': 'BERT-Base', 'compute': 1e19, 'color': '#4ECDC4'},
    {'name': 'GPT-2', 'compute': 1e20, 'color': '#45B7D1'},
    {'name': 'GPT-3', 'compute': 3.14e23, 'color': '#5F27CD'},
    {'name': 'GPT-4', 'compute': 1e25, 'color': '#000000'},
]

# 繪圖
plt.figure(figsize=(14, 8))
plt.plot(compute_range, performance, linewidth=3, color='#5F27CD', alpha=0.7)

# 標記真實模型
for model in real_models:
    perf = scaling_law(model['compute'])
    plt.scatter(model['compute'], perf, s=200, c=model['color'], 
                edgecolors='black', linewidths=2, zorder=5)
    plt.annotate(model['name'], xy=(model['compute'], perf),
                 xytext=(10, 10), textcoords='offset points',
                 fontsize=11, fontweight='bold',
                 bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.xscale('log')
plt.xlabel('訓練算力 (FLOPs, 對數尺度)', fontsize=13)
plt.ylabel('模型性能 (任意單位)', fontsize=13)
plt.title('規模法則: 模型性能與計算量的冪律關係', fontsize=16, fontweight='bold')
plt.grid(True, alpha=0.3, which='both')
plt.tight_layout()
plt.show()

print("\n📈 規模法則分析:")
print(f"  - 算力從 10^15 到 10^25 (增長 10^10 倍)")
print(f"  - 性能從 {scaling_law(1e15):.1f} 提升到 {scaling_law(1e25):.1f}")
print(f"  - 性能增長倍數: {scaling_law(1e25)/scaling_law(1e15):.1f}x")
print("\n💡 啟示:")
print("  1. 性能提升不是線性的,而是遵循冪律")
print("  2. 早期階段提升快,後期邊際收益遞減")
print("  3. 但只要有算力,仍有巨大提升空間!")

### 練習 3: 思考題

1. **典範轉移的本質:** 每次典範轉移解決了什麼核心問題?引入了什麼新挑戰?

2. **未來預測:** 基於歷史趨勢,你認為下一次典範轉移會是什麼?
   - 提示: 考慮當前 LLM 的侷限性 (可解釋性、能源消耗、偏見問題)

3. **實際應用:** 對於你的應用場景,應該選擇哪個時代的技術?
   - 簡單任務: 規則系統?
   - 複雜理解: BERT?
   - 生成任務: GPT?

在下方 Cell 中記錄你的思考:

In [None]:
# 練習 3: 記錄你的思考

# 問題 1: 典範轉移的核心驅動力是什麼?
your_answer_1 = """
我的觀察:
1. 規則 → 統計: 
2. 統計 → 神經網路:
3. RNN → Transformer:
"""

# 問題 2: 下一次典範轉移可能是什麼?
your_answer_2 = """
我的預測:
- 可能方向:
- 技術突破:
"""

# 問題 3: 如何選擇合適的技術?
your_answer_3 = """
我的場景:
- 應用需求:
- 推薦技術:
- 理由:
"""

print("思考記錄已保存,繼續學習!")

---

## 📚 本課總結

### 核心要點回顧

1. **NLP 五大典範轉移:**
   - 規則系統 (1950-1990): 專家規則,可解釋但覆蓋不全
   - 統計學習 (1990-2010): 機率模型,自動學習但稀疏性問題
   - 淺層神經網路 (2010-2017): 詞向量,解決稀疏性但靜態表示
   - 深度學習 (2013-2017): RNN/LSTM,序列建模但無法並行
   - Transformer & LLM (2017-至今): 純注意力,完全並行且可擴展

2. **三維驅動框架:**
   - 計算能力: 10^6 倍增長 (1990-2023)
   - 數據規模: 10^6 倍增長 (1M → 1T 詞)
   - 演算法創新: 規則 → 統計 → 神經網路 → Attention

3. **模型規模演進:**
   - 指數級增長: 10^6 → 10^12 參數 (100 萬倍)
   - 規模法則: Performance ∝ Compute^0.5
   - 湧現能力: 規模超過臨界點後出現新能力

4. **技術選擇建議:**
   - 理解任務 → BERT (Encoder-Only)
   - 生成任務 → GPT (Decoder-Only)
   - 轉換任務 → T5 (Encoder-Decoder)

---

## 🎯 下節預告

**CH02-03: NLP 核心任務與應用**

我們將探討:
- NLP 核心任務分類 (序列、分類、生成)
- 實際應用案例分析
- 任務難度梯度與技術選型

---

## 📖 延伸閱讀

### 關鍵論文

1. **Word2Vec**: Mikolov et al. (2013). [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/abs/1301.3781)
2. **Seq2Seq**: Sutskever et al. (2014). [Sequence to Sequence Learning with Neural Networks](https://arxiv.org/abs/1409.3215)
3. **Attention**: Bahdanau et al. (2015). [Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/abs/1409.0473)
4. **Transformer**: Vaswani et al. (2017). [Attention is All You Need](https://arxiv.org/abs/1706.03762)
5. **BERT**: Devlin et al. (2018). [BERT: Pre-training of Deep Bidirectional Transformers](https://arxiv.org/abs/1810.04805)
6. **GPT-3**: Brown et al. (2020). [Language Models are Few-Shot Learners](https://arxiv.org/abs/2005.14165)
7. **Scaling Laws**: Kaplan et al. (2020). [Scaling Laws for Neural Language Models](https://arxiv.org/abs/2001.08361)

### 技術博客

- [The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/) - Jay Alammar
- [BERT 論文精讀](https://zhuanlan.zhihu.com/p/46652512) - 知乎專欄
- [GPT 系列演進史](https://huggingface.co/blog/gpt-evolution) - Hugging Face

### 學習資源

- **Stanford CS224N**: [NLP with Deep Learning](http://web.stanford.edu/class/cs224n/)
- **Hugging Face Course**: [NLP Course](https://huggingface.co/learn/nlp-course)
- **Papers With Code**: [NLP Progress](https://paperswithcode.com/area/natural-language-processing)

---

**課程資訊:**
- **作者:** iSpan NLP Team
- **版本:** v1.0
- **最後更新:** 2025-10-17
- **授權:** MIT License (僅供教學使用)

---

### 🙋 問題討論

有任何問題嗎?歡迎在討論區提問!

**常見問題:**
1. Q: 為什麼 Transformer 比 RNN 快這麼多?
   - A: 並行化!RNN 必須串行計算,Transformer 所有位置同時計算。

2. Q: 什麼是湧現能力?
   - A: 模型規模超過臨界點後突然出現的新能力,如複雜推理、少樣本學習。

3. Q: 我應該選擇 BERT 還是 GPT?
   - A: 看任務!理解任務用 BERT (雙向),生成任務用 GPT (單向)。