# CH02-04: Python NLP 工具生態完全指南

**課程目標:**
- 掌握 Python NLP 主流工具的特點與選擇邏輯
- 理解 NLTK vs spaCy vs Transformers 的定位與差異
- 學會根據應用場景選擇合適工具
- 了解中英文 NLP 工具的差異與最佳實踐
- 實作效能基準測試與工具對比

**學習時間:** 約 120-150 分鐘

**前置知識:**
- Python 基礎語法
- 基本 NLP 概念 (分詞、詞性標註)
- 機器學習基礎

---

## 📚 目錄

1. [Python NLP 生態系統全景圖](#1)
2. [NLTK: 教學導向工具包](#2)
3. [spaCy: 工業級 NLP 框架](#3)
4. [Transformers: 預訓練模型庫](#4)
5. [中文 NLP 工具對比](#5)
6. [工具效能基準測試](#6)
7. [選擇決策樹與最佳實踐](#7)
8. [完整技術棧範例](#8)
9. [本課總結與延伸閱讀](#9)

---

In [None]:
# 環境設定與套件導入
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import time
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# 設定中文顯示
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei', 'SimHei', 'Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False

# 設定顯示風格
sns.set_style('whitegrid')
sns.set_palette('husl')

print("✅ 環境設定完成")
print(f"NumPy 版本: {np.__version__}")
print(f"Pandas 版本: {pd.__version__}")

<a id="1"></a>
## 1. Python NLP 生態系統全景圖

### 1.1 工具分類與定位

Python NLP 工具可分為以下四大類:

#### 1. 傳統 NLP 工具
- **NLTK** (Natural Language Toolkit): 教學導向,功能全面
- **spaCy**: 工業級,高效能,生產部署

#### 2. 深度學習框架
- **Transformers** (Hugging Face): 預訓練模型庫
- **fairseq** (Meta): 序列建模框架
- **AllenNLP**: 研究導向深度學習框架

#### 3. 中文專用工具
- **jieba** (結巴): 中文分詞
- **LTP** (Language Technology Platform): 中文全流程
- **HanLP**: 多語言 NLP 工具包
- **pkuseg**: 北大分詞工具

#### 4. 輔助工具
- **Gensim**: 詞向量與主題模型
- **TextBlob**: 簡化 API,快速原型
- **polyglot**: 多語言 NLP

---

### 1.2 工具選擇決策矩陣

| 工具 | 語言支援 | 速度 | 準確率 | 學習曲線 | 適用場景 |
|:---|:---|:---|:---|:---|:---|
| **NLTK** | 英文主 | ★★☆☆☆ | ★★★☆☆ | ★☆☆☆☆ | 教學、研究、原型 |
| **spaCy** | 20+ 語言 | ★★★★★ | ★★★★☆ | ★★☆☆☆ | 生產環境、大規模 |
| **Transformers** | 100+ 語言 | ★★★☆☆ | ★★★★★ | ★★★☆☆ | SOTA 模型、微調 |
| **jieba** | 中文 | ★★★★☆ | ★★★☆☆ | ★☆☆☆☆ | 中文分詞 |
| **LTP** | 中文 | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | 中文全流程 |
| **Gensim** | 通用 | ★★★☆☆ | ★★★☆☆ | ★★☆☆☆ | 詞向量、主題模型 |

---

In [None]:
# 視覺化: Python NLP 工具生態系統
import matplotlib.patches as mpatches

fig, ax = plt.subplots(figsize=(16, 10))
ax.set_xlim(0, 10)
ax.set_ylim(0, 10)
ax.axis('off')

# 標題
ax.text(5, 9.5, 'Python NLP 工具生態系統', ha='center', 
        fontsize=20, fontweight='bold')

# 四大類工具區塊
categories = [
    (1.5, 7, 2, 1.5, '傳統 NLP\n工具', '#F18F01', ['NLTK', 'spaCy']),
    (6.5, 7, 2, 1.5, '深度學習\n框架', '#2E86AB', ['Transformers', 'fairseq', 'AllenNLP']),
    (1.5, 4, 2, 1.5, '中文專用\n工具', '#95E1D3', ['jieba', 'LTP', 'HanLP', 'pkuseg']),
    (6.5, 4, 2, 1.5, '輔助工具', '#FFE66D', ['Gensim', 'TextBlob', 'polyglot'])
]

for x, y, w, h, title, color, tools in categories:
    # 繪製類別方框
    rect = mpatches.FancyBboxPatch((x-w/2, y-h/2), w, h,
                                    boxstyle="round,pad=0.1",
                                    linewidth=2, edgecolor='black',
                                    facecolor=color, alpha=0.3)
    ax.add_patch(rect)
    
    # 標題
    ax.text(x, y+h/2-0.2, title, ha='center', va='top',
            fontsize=13, fontweight='bold')
    
    # 工具列表
    for i, tool in enumerate(tools):
        ax.text(x, y+h/2-0.5-i*0.25, f'• {tool}', ha='center', va='top',
                fontsize=10)

# 應用層
app_rect = mpatches.FancyBboxPatch((2, 1), 6, 1,
                                    boxstyle="round,pad=0.1",
                                    linewidth=3, edgecolor='#C73E1D',
                                    facecolor='#C73E1D', alpha=0.4)
ax.add_patch(app_rect)
ax.text(5, 1.5, '應用層: 搜尋引擎、對話系統、機器翻譯、文本分析...', 
        ha='center', va='center', fontsize=12, fontweight='bold')

# 連接線
for x_pos in [2.5, 7.5]:
    ax.arrow(x_pos, 6.2, 0, -0.6, head_width=0.15, head_length=0.1, 
             fc='gray', ec='gray', alpha=0.5)
    ax.arrow(x_pos, 3.2, 0, -1.1, head_width=0.15, head_length=0.1,
             fc='gray', ec='gray', alpha=0.5)

plt.tight_layout()
plt.show()

print("\n💡 生態系統觀察:")
print("  1. 傳統工具 (NLTK/spaCy): 基礎 NLP 任務 (分詞、詞性、NER)")
print("  2. 深度學習框架 (Transformers): SOTA 模型、預訓練、微調")
print("  3. 中文專用工具 (jieba/LTP): 解決中文特有問題 (分詞、簡繁轉換)")
print("  4. 輔助工具 (Gensim): 詞向量、主題模型等特定任務")
print("  5. 所有工具最終服務於應用層")

<a id="2"></a>
## 2. NLTK: 教學導向工具包

### 2.1 NLTK 核心特點

**定位:** 教學導向的 NLP 工具包,適合學習與研究

**優勢:**
- ✅ 功能全面: 涵蓋所有 NLP 基礎任務
- ✅ 模組化設計: 每個功能獨立,便於理解
- ✅ 豐富語料庫: 內建多種語言資源
- ✅ 文檔完善: 配套書籍 *NLTK Book*
- ✅ 社群活躍: 持續更新 20+ 年

**劣勢:**
- ❌ 速度慢: 純 Python 實作,無優化
- ❌ 不適合生產: 無並行處理,記憶體占用高
- ❌ 主要支援英文: 中文等語言支援有限

---

### 2.2 NLTK 核心功能實作

#### 功能清單:
1. 文本分詞 (Tokenization)
2. 停用詞過濾 (Stop Words)
3. 詞幹提取 (Stemming)
4. 詞形還原 (Lemmatization)
5. 詞性標註 (POS Tagging)
6. 句法分析 (Parsing)

---

In [None]:
# NLTK 基礎功能示範
print("=" * 70)
print("NLTK 核心功能展示")
print("=" * 70)

try:
    import nltk
    from nltk.tokenize import word_tokenize, sent_tokenize
    from nltk.corpus import stopwords
    from nltk.stem import PorterStemmer, WordNetLemmatizer
    
    # 下載必要資源 (首次使用,可能需要幾分鐘)
    print("\n📥 檢查 NLTK 資源...")
    resources = ['punkt', 'stopwords', 'wordnet', 'averaged_perceptron_tagger', 'omw-1.4']
    for resource in resources:
        try:
            nltk.data.find(f'tokenizers/{resource}' if resource == 'punkt' else f'corpora/{resource}')
            print(f"  ✅ {resource} 已存在")
        except LookupError:
            print(f"  ⬇️ 下載 {resource}...")
            nltk.download(resource, quiet=True)
    
    # 測試文本
    text = """
    Natural language processing (NLP) is a subfield of linguistics, 
    computer science, and artificial intelligence. It is concerned with 
    the interactions between computers and human languages. NLP enables 
    computers to read, understand, and derive meaning from human languages.
    """
    
    print("\n" + "="*70)
    print("原始文本:")
    print(text.strip())
    print("="*70)
    
    # 1. 句子分割
    print("\n1️⃣ 句子分割 (Sentence Tokenization)")
    print("-" * 70)
    sentences = sent_tokenize(text)
    print(f"句子數: {len(sentences)}\n")
    for i, sent in enumerate(sentences, 1):
        print(f"  [{i}] {sent.strip()}")
    
    # 2. 詞彙分割
    print("\n2️⃣ 詞彙分割 (Word Tokenization)")
    print("-" * 70)
    tokens = word_tokenize(text)
    print(f"詞彙數: {len(tokens)}")
    print(f"前 20 個詞: {tokens[:20]}")
    
    # 3. 停用詞過濾
    print("\n3️⃣ 停用詞過濾 (Stop Words Removal)")
    print("-" * 70)
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [w for w in tokens if w.lower() not in stop_words and w.isalpha()]
    print(f"原始詞數: {len(tokens)}")
    print(f"過濾後詞數: {len(filtered_tokens)}")
    print(f"過濾後詞彙: {filtered_tokens[:15]}")
    
    # 4. 詞幹提取 (Stemming)
    print("\n4️⃣ 詞幹提取 (Stemming - Porter Stemmer)")
    print("-" * 70)
    stemmer = PorterStemmer()
    test_words = ['processing', 'languages', 'interactions', 'computers', 'enables']
    print(f"{'原詞':<20s} → 詞幹")
    print("-" * 40)
    for word in test_words:
        stem = stemmer.stem(word)
        print(f"{word:<20s} → {stem}")
    
    # 5. 詞形還原 (Lemmatization)
    print("\n5️⃣ 詞形還原 (Lemmatization)")
    print("-" * 70)
    lemmatizer = WordNetLemmatizer()
    print(f"{'原詞':<20s} → 詞形還原")
    print("-" * 40)
    for word in test_words:
        lemma = lemmatizer.lemmatize(word)
        print(f"{word:<20s} → {lemma}")
    
    # 6. 詞性標註 (POS Tagging)
    print("\n6️⃣ 詞性標註 (POS Tagging)")
    print("-" * 70)
    sample_sent = "Natural language processing enables computers to understand human languages."
    sample_tokens = word_tokenize(sample_sent)
    pos_tags = nltk.pos_tag(sample_tokens)
    
    print(f"{'詞彙':<20s} {'詞性':<10s} 說明")
    print("-" * 60)
    for word, pos in pos_tags:
        print(f"{word:<20s} {pos:<10s}")
    
    print("\n✅ NLTK 功能展示完成!")
    
except ImportError:
    print("\n⚠️ NLTK 未安裝!")
    print("請執行: pip install nltk")
except Exception as e:
    print(f"\n❌ 錯誤: {e}")
    print("如遇到資源下載問題,請手動執行:")
    print("  import nltk")
    print("  nltk.download('punkt')")
    print("  nltk.download('stopwords')")
    print("  nltk.download('wordnet')")
    print("  nltk.download('averaged_perceptron_tagger')")

In [None]:
# 詞幹提取 vs 詞形還原對比視覺化
try:
    import nltk
    from nltk.stem import PorterStemmer, WordNetLemmatizer
    
    stemmer = PorterStemmer()
    lemmatizer = WordNetLemmatizer()
    
    # 測試詞彙
    test_words = [
        'running', 'ran', 'runs', 'easily', 'fairly',
        'processing', 'computers', 'languages', 'better', 'good'
    ]
    
    results = []
    for word in test_words:
        stem = stemmer.stem(word)
        lemma = lemmatizer.lemmatize(word)
        results.append({
            '原詞': word,
            '詞幹 (Stem)': stem,
            '詞形還原 (Lemma)': lemma,
            '相同?': '✅' if stem == lemma else '❌'
        })
    
    df = pd.DataFrame(results)
    
    # 視覺化表格
    fig, ax = plt.subplots(figsize=(12, 8))
    ax.axis('tight')
    ax.axis('off')
    
    table = ax.table(cellText=df.values, colLabels=df.columns,
                    cellLoc='center', loc='center',
                    colWidths=[0.25, 0.25, 0.3, 0.2])
    
    table.auto_set_font_size(False)
    table.set_fontsize(11)
    table.scale(1, 2.5)
    
    # 設定表頭樣式
    for i in range(len(df.columns)):
        table[(0, i)].set_facecolor('#F18F01')
        table[(0, i)].set_text_props(weight='bold', color='white', fontsize=12)
    
    # 設定交替行顏色
    for i in range(1, len(df) + 1):
        for j in range(len(df.columns)):
            if i % 2 == 0:
                table[(i, j)].set_facecolor('#E8F4F8')
            else:
                table[(i, j)].set_facecolor('white')
    
    plt.title('NLTK: 詞幹提取 vs 詞形還原對比', fontsize=16, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()
    
    print("\n💡 觀察:")
    print("  - 詞幹提取 (Stemming): 簡單規則,可能產生非詞 (e.g., 'comput')")
    print("  - 詞形還原 (Lemmatization): 基於詞典,保留有意義的詞根")
    print("  - 速度: Stemming 更快,Lemmatization 更準確")
    
except Exception as e:
    print(f"⚠️ 需要安裝 NLTK: {e}")

<a id="3"></a>
## 3. spaCy: 工業級 NLP 框架

### 3.1 spaCy 核心特點

**定位:** 工業級 NLP 函式庫,適合生產環境部署

**優勢:**
- ✅ 超高效能: Cython 實作,速度比 NLTK 快 10-100 倍
- ✅ Pipeline 架構: 一次處理完成所有任務
- ✅ 預訓練模型: 支援 20+ 種語言
- ✅ 生產就緒: API 簡潔,易於整合
- ✅ 現代設計: 支援深度學習,可自定義擴展

**劣勢:**
- ❌ 學習曲線陡峭: 內部設計較複雜
- ❌ 模型體積大: 預訓練模型需下載 (數百 MB)
- ❌ 靈活性較低: Pipeline 固定,不如 NLTK 模組化

---

### 3.2 spaCy 核心功能實作

#### 功能清單:
1. 自動化 Pipeline 處理
2. 命名實體識別 (NER)
3. 依存句法分析 (Dependency Parsing)
4. 詞向量相似度計算
5. 批次處理優化

---

In [None]:
# spaCy 核心功能展示
print("=" * 70)
print("spaCy 核心功能展示")
print("=" * 70)

try:
    import spacy
    
    # 載入英文模型 (小型模型)
    print("\n📥 載入 spaCy 模型...")
    try:
        nlp = spacy.load('en_core_web_sm')
        print("  ✅ en_core_web_sm 已載入")
    except OSError:
        print("  ⚠️ 模型未安裝,請執行: python -m spacy download en_core_web_sm")
        print("  使用空白模型替代...")
        nlp = spacy.blank('en')
    
    # 測試文本
    text = """
    Apple Inc. is planning to open a new store in New York City next month. 
    The CEO Tim Cook announced the decision last week at a conference in California. 
    The company expects to hire 500 employees for this new location.
    """
    
    print("\n" + "="*70)
    print("原始文本:")
    print(text.strip())
    print("="*70)
    
    # 處理文本 (自動執行完整 Pipeline)
    print("\n⚙️ 執行 spaCy Pipeline...")
    doc = nlp(text)
    print("  ✅ 處理完成!")
    
    # 1. 分詞與詞性標註
    print("\n1️⃣ 分詞與詞性標註 (前 15 個詞)")
    print("-" * 70)
    print(f"{'詞彙':<20s} {'詞性':<10s} {'詞幹':<20s} {'停用詞?'}")
    print("-" * 70)
    for token in list(doc)[:15]:
        print(f"{token.text:<20s} {token.pos_:<10s} {token.lemma_:<20s} {'✅' if token.is_stop else '❌'}")
    
    # 2. 命名實體識別 (NER)
    print("\n2️⃣ 命名實體識別 (Named Entity Recognition)")
    print("-" * 70)
    if doc.ents:
        print(f"{'實體':<30s} {'類型':<15s} 說明")
        print("-" * 70)
        for ent in doc.ents:
            print(f"{ent.text:<30s} {ent.label_:<15s} {spacy.explain(ent.label_)}")
    else:
        print("  ⚠️ 未檢測到實體 (可能使用的是空白模型)")
    
    # 3. 依存句法分析
    print("\n3️⃣ 依存句法分析 (Dependency Parsing - 第一句)")
    print("-" * 70)
    sent = list(doc.sents)[0]
    print(f"{'詞彙':<20s} {'依存關係':<15s} 主導詞")
    print("-" * 70)
    for token in sent:
        print(f"{token.text:<20s} {token.dep_:<15s} {token.head.text}")
    
    # 4. 句子分割
    print("\n4️⃣ 句子分割")
    print("-" * 70)
    sentences = list(doc.sents)
    print(f"句子數: {len(sentences)}\n")
    for i, sent in enumerate(sentences, 1):
        print(f"  [{i}] {sent.text.strip()}")
    
    print("\n✅ spaCy 功能展示完成!")
    
except ImportError:
    print("\n⚠️ spaCy 未安裝!")
    print("請執行: pip install spacy")
    print("然後下載模型: python -m spacy download en_core_web_sm")
except Exception as e:
    print(f"\n❌ 錯誤: {e}")

In [None]:
# spaCy 批次處理效能展示
print("=" * 70)
print("spaCy 批次處理效能測試")
print("=" * 70)

try:
    import spacy
    import time
    
    try:
        nlp = spacy.load('en_core_web_sm')
    except:
        print("⚠️ 使用空白模型 (僅測試速度)")
        nlp = spacy.blank('en')
    
    # 準備測試數據
    test_text = "Natural language processing is amazing. It enables computers to understand human language."
    texts = [test_text] * 1000  # 1000 個文檔
    
    # 方法 1: 逐個處理
    print("\n方法 1: 逐個處理 (Sequential)")
    start = time.time()
    docs_sequential = [nlp(text) for text in texts]
    time_sequential = time.time() - start
    print(f"  處理時間: {time_sequential:.3f} 秒")
    
    # 方法 2: 批次處理
    print("\n方法 2: 批次處理 (Batching)")
    start = time.time()
    docs_batch = list(nlp.pipe(texts, batch_size=50))
    time_batch = time.time() - start
    print(f"  處理時間: {time_batch:.3f} 秒")
    
    # 對比
    speedup = time_sequential / time_batch
    print(f"\n🚀 加速比: {speedup:.2f}x")
    
    # 視覺化
    fig, ax = plt.subplots(figsize=(10, 6))
    methods = ['逐個處理', '批次處理']
    times = [time_sequential, time_batch]
    colors = ['#F18F01', '#2E86AB']
    
    bars = ax.bar(methods, times, color=colors, alpha=0.7, edgecolor='black')
    ax.set_ylabel('處理時間 (秒)', fontsize=12)
    ax.set_title('spaCy 批次處理效能對比 (1000 文檔)', fontsize=14, fontweight='bold')
    ax.grid(True, alpha=0.3, axis='y')
    
    # 標註數值
    for bar, time_val in zip(bars, times):
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{time_val:.3f}s',
                ha='center', va='bottom', fontsize=11, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    print("\n💡 批次處理優勢:")
    print("  1. 減少 Python 解釋器開銷")
    print("  2. 更好利用 CPU/GPU")
    print("  3. 生產環境必備優化")
    
except Exception as e:
    print(f"⚠️ 需要安裝 spaCy: {e}")

<a id="4"></a>
## 4. Transformers: 預訓練模型庫

### 4.1 Transformers 核心特點

**定位:** Hugging Face 開源的預訓練 Transformer 模型庫

**優勢:**
- ✅ 模型豐富: 100,000+ 預訓練模型
- ✅ 統一 API: AutoModel/AutoTokenizer 支援所有模型
- ✅ SOTA 性能: 最新研究成果快速落地
- ✅ 易於微調: Trainer API 簡化訓練流程
- ✅ 社群活躍: 每天新增數百個模型

**劣勢:**
- ❌ 資源需求高: 大模型需要 GPU
- ❌ 速度較慢: 推理速度不如 spaCy
- ❌ 學習曲線陡: 深度學習背景需求

---

### 4.2 Transformers 三大模型家族

#### 1. Encoder-Only (BERT 系列)
- **代表:** BERT, RoBERTa, ALBERT, DeBERTa
- **特點:** 雙向 Attention,適合理解任務
- **應用:** 文本分類、NER、問答系統

#### 2. Decoder-Only (GPT 系列)
- **代表:** GPT-2, GPT-3, GPT-4, LLaMA
- **特點:** 單向 Attention,自回歸生成
- **應用:** 文本生成、對話、程式碼生成

#### 3. Encoder-Decoder (T5 系列)
- **代表:** T5, BART, mT5, T0
- **特點:** 完整 Transformer 架構
- **應用:** 翻譯、摘要、問答生成

---

In [None]:
# Transformers Pipeline API 展示
print("=" * 70)
print("Transformers Pipeline API 展示")
print("=" * 70)

try:
    from transformers import pipeline
    
    # 1. 情感分析
    print("\n1️⃣ 情感分析 (Sentiment Analysis)")
    print("-" * 70)
    sentiment_analyzer = pipeline('sentiment-analysis')
    
    texts = [
        "I love this product! It's absolutely amazing!",
        "This is the worst experience I've ever had.",
        "It's okay, nothing special."
    ]
    
    for text in texts:
        result = sentiment_analyzer(text)[0]
        print(f"\n文本: {text}")
        print(f"結果: {result['label']} (信心度: {result['score']:.2%})")
    
    # 2. 零樣本分類
    print("\n\n2️⃣ 零樣本分類 (Zero-Shot Classification)")
    print("-" * 70)
    zero_shot_classifier = pipeline('zero-shot-classification')
    
    text = "Apple announced a new iPhone with improved camera and longer battery life."
    candidate_labels = ['technology', 'sports', 'politics', 'entertainment']
    
    result = zero_shot_classifier(text, candidate_labels)
    print(f"\n文本: {text}")
    print("\n分類結果:")
    for label, score in zip(result['labels'], result['scores']):
        print(f"  {label:<15s}: {score:.2%}")
    
    # 3. 問答系統
    print("\n\n3️⃣ 問答系統 (Question Answering)")
    print("-" * 70)
    qa_pipeline = pipeline('question-answering')
    
    context = """
    Hugging Face is a company based in New York City. The company develops 
    tools for building applications using machine learning. It is best known 
    for its Transformers library.
    """
    
    questions = [
        "Where is Hugging Face based?",
        "What is Hugging Face known for?"
    ]
    
    for question in questions:
        result = qa_pipeline(question=question, context=context)
        print(f"\n問題: {question}")
        print(f"答案: {result['answer']} (信心度: {result['score']:.2%})")
    
    # 4. 文本生成
    print("\n\n4️⃣ 文本生成 (Text Generation)")
    print("-" * 70)
    generator = pipeline('text-generation', model='gpt2')
    
    prompt = "Artificial intelligence will"
    outputs = generator(prompt, max_length=50, num_return_sequences=2)
    
    print(f"\n提示詞: {prompt}")
    print("\n生成結果:")
    for i, output in enumerate(outputs, 1):
        print(f"\n[{i}] {output['generated_text']}")
    
    print("\n\n✅ Transformers Pipeline 展示完成!")
    
except ImportError:
    print("\n⚠️ Transformers 未安裝!")
    print("請執行: pip install transformers torch")
except Exception as e:
    print(f"\n❌ 錯誤: {e}")
    print("提示: 首次執行會自動下載模型,需要網路連接")

In [None]:
# Transformers 模型家族對比
model_families = [
    {
        '家族': 'Encoder-Only',
        '代表模型': 'BERT, RoBERTa, ALBERT',
        '架構': '雙向 Attention',
        '訓練方式': 'Masked LM',
        '適用任務': '分類、NER、問答',
        '參數量': '110M - 1.5B'
    },
    {
        '家族': 'Decoder-Only',
        '代表模型': 'GPT-2, GPT-3, LLaMA',
        '架構': '單向 Attention',
        '訓練方式': 'Autoregressive LM',
        '適用任務': '生成、對話、翻譯',
        '參數量': '124M - 175B'
    },
    {
        '家族': 'Encoder-Decoder',
        '代表模型': 'T5, BART, mT5',
        '架構': '完整 Transformer',
        '訓練方式': 'Seq2Seq',
        '適用任務': '翻譯、摘要、QA生成',
        '參數量': '60M - 11B'
    }
]

df_models = pd.DataFrame(model_families)

# 視覺化表格
fig, ax = plt.subplots(figsize=(14, 6))
ax.axis('tight')
ax.axis('off')

table = ax.table(cellText=df_models.values, colLabels=df_models.columns,
                cellLoc='left', loc='center',
                colWidths=[0.15, 0.25, 0.15, 0.15, 0.2, 0.1])

table.auto_set_font_size(False)
table.set_fontsize(10)
table.scale(1, 3)

# 設定表頭樣式
for i in range(len(df_models.columns)):
    table[(0, i)].set_facecolor('#2E86AB')
    table[(0, i)].set_text_props(weight='bold', color='white', fontsize=11)

# 設定行顏色
colors = ['#FFE66D', '#95E1D3', '#F18F01']
for i in range(1, len(df_models) + 1):
    for j in range(len(df_models.columns)):
        table[(i, j)].set_facecolor(colors[i-1])
        table[(i, j)].set_alpha(0.4)

plt.title('Transformers 三大模型家族對比', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n💡 選擇建議:")
print("  1. 理解任務 (分類、NER) → Encoder-Only (BERT 系列)")
print("  2. 生成任務 (對話、寫作) → Decoder-Only (GPT 系列)")
print("  3. 轉換任務 (翻譯、摘要) → Encoder-Decoder (T5 系列)")

<a id="5"></a>
## 5. 中文 NLP 工具對比

### 5.1 中文 NLP 的特殊挑戰

**與英文的關鍵差異:**
1. **無天然分詞:** 中文沒有空格分隔,需要先分詞
2. **繁簡體差異:** 需要處理繁體/簡體轉換
3. **多音字:** 同一字不同讀音和意思
4. **詞彙歧義:** 中文詞彙歧義性更高

---

### 5.2 主流中文 NLP 工具

| 工具 | 開發者 | 特點 | 優勢 | 劣勢 |
|:---|:---|:---|:---|:---|
| **jieba** | fxsjy | 輕量快速 | 易用、無依賴 | 準確率中等 |
| **LTP** | 哈工大 | 全流程 | 準確率高、功能完整 | 速度較慢、依賴重 |
| **HanLP** | hankcs | 多語言 | 支援繁體、多任務 | 學習曲線陡 |
| **pkuseg** | 北京大學 | 領域適應 | 多領域模型 | 速度慢 |
| **THULAC** | 清華大學 | 詞性標註準 | 詞性準確 | 社群較小 |

---

In [None]:
# 中文分詞工具對比
print("=" * 70)
print("中文分詞工具對比")
print("=" * 70)

test_text = "我愛自然語言處理,它是人工智能的重要分支,可以讓電腦理解人類語言。"

print(f"\n測試文本: {test_text}\n")

# jieba 分詞
try:
    import jieba
    print("1️⃣ jieba (結巴分詞)")
    print("-" * 70)
    
    # 精確模式
    words_precise = jieba.cut(test_text, cut_all=False)
    print(f"精確模式: {' / '.join(words_precise)}")
    
    # 全模式
    words_all = jieba.cut(test_text, cut_all=True)
    print(f"全模式:   {' / '.join(words_all)}")
    
    # 搜尋引擎模式
    words_search = jieba.cut_for_search(test_text)
    print(f"搜尋模式: {' / '.join(words_search)}")
    
except ImportError:
    print("⚠️ jieba 未安裝: pip install jieba")

# pkuseg 分詞
try:
    import pkuseg
    print("\n2️⃣ pkuseg (北大分詞)")
    print("-" * 70)
    
    seg = pkuseg.pkuseg()
    words = seg.cut(test_text)
    print(f"分詞結果: {' / '.join(words)}")
    
except ImportError:
    print("\n⚠️ pkuseg 未安裝: pip install pkuseg")
except Exception as e:
    print(f"\n⚠️ pkuseg 錯誤: {e}")

# spaCy 中文模型
try:
    import spacy
    print("\n3️⃣ spaCy (中文模型)")
    print("-" * 70)
    
    try:
        nlp_zh = spacy.load('zh_core_web_sm')
        doc = nlp_zh(test_text)
        words = [token.text for token in doc]
        print(f"分詞結果: {' / '.join(words)}")
    except OSError:
        print("⚠️ 中文模型未安裝: python -m spacy download zh_core_web_sm")
        
except ImportError:
    print("\n⚠️ spaCy 未安裝: pip install spacy")

print("\n" + "="*70)
print("✅ 中文分詞對比完成")
print("="*70)

print("\n💡 選擇建議:")
print("  1. 快速原型 → jieba (最簡單)")
print("  2. 高準確率 → pkuseg/LTP (領域適應)")
print("  3. 完整流程 → spaCy (分詞+詞性+NER)")

In [None]:
# jieba 進階功能展示
print("=" * 70)
print("jieba 進階功能展示")
print("=" * 70)

try:
    import jieba
    import jieba.analyse
    import jieba.posseg as pseg
    
    text = """
    自然語言處理是人工智能領域的重要分支,它研究如何讓電腦理解和生成人類語言。
    深度學習技術的發展推動了NLP的快速進步,BERT、GPT等模型取得了突破性成果。
    自然語言處理的應用包括機器翻譯、問答系統、文本分類等多個方向。
    """
    
    # 1. 詞性標註
    print("\n1️⃣ 詞性標註 (POS Tagging)")
    print("-" * 70)
    words = pseg.cut(text)
    print(f"{'詞彙':<15s} 詞性")
    print("-" * 30)
    for word, pos in list(words)[:20]:
        if word.strip():
            print(f"{word:<15s} {pos}")
    
    # 2. 關鍵字提取 (TF-IDF)
    print("\n2️⃣ 關鍵字提取 (TF-IDF)")
    print("-" * 70)
    keywords_tfidf = jieba.analyse.extract_tags(text, topK=10, withWeight=True)
    print(f"{'關鍵字':<15s} TF-IDF 權重")
    print("-" * 40)
    for word, weight in keywords_tfidf:
        print(f"{word:<15s} {weight:.4f}")
    
    # 3. 關鍵字提取 (TextRank)
    print("\n3️⃣ 關鍵字提取 (TextRank)")
    print("-" * 70)
    keywords_textrank = jieba.analyse.textrank(text, topK=10, withWeight=True)
    print(f"{'關鍵字':<15s} TextRank 權重")
    print("-" * 40)
    for word, weight in keywords_textrank:
        print(f"{word:<15s} {weight:.4f}")
    
    # 4. 自定義詞典
    print("\n4️⃣ 自定義詞典")
    print("-" * 70)
    
    test_sentence = "我在學習自然語言處理和深度學習技術"
    print(f"原句: {test_sentence}")
    print(f"預設分詞: {' / '.join(jieba.cut(test_sentence))}")
    
    # 添加自定義詞
    jieba.add_word('自然語言處理', freq=10000, tag='n')
    jieba.add_word('深度學習', freq=10000, tag='n')
    print(f"自定義後: {' / '.join(jieba.cut(test_sentence))}")
    
    print("\n✅ jieba 進階功能展示完成!")
    
except ImportError:
    print("\n⚠️ jieba 未安裝: pip install jieba")

<a id="6"></a>
## 6. 工具效能基準測試

### 6.1 測試方法論

**測試指標:**
1. **處理速度 (Throughput):** 每秒處理詞數
2. **記憶體占用 (Memory Usage):** 峰值記憶體
3. **準確率 (Accuracy):** 與人工標註對比
4. **啟動時間 (Startup Time):** 模型載入時間

**測試環境:**
- CPU: Intel i7 (模擬)
- 記憶體: 16GB
- Python: 3.9+

---

In [None]:
# 工具效能基準測試
import time
import gc

print("=" * 70)
print("工具效能基準測試")
print("=" * 70)

# 準備測試數據
test_text_en = "Natural language processing is amazing. " * 100
test_text_zh = "自然語言處理是人工智能的重要分支。" * 100

results = []

# 測試 NLTK
try:
    import nltk
    from nltk.tokenize import word_tokenize
    
    # 載入時間
    start = time.time()
    # NLTK 無需載入模型
    load_time = time.time() - start
    
    # 處理時間
    start = time.time()
    for _ in range(100):
        tokens = word_tokenize(test_text_en)
    process_time = time.time() - start
    
    results.append({
        '工具': 'NLTK',
        '載入時間(秒)': f"{load_time:.3f}",
        '處理時間(秒)': f"{process_time:.3f}",
        '相對速度': '1.0x (基準)'
    })
    nltk_time = process_time
    
except Exception as e:
    print(f"⚠️ NLTK 測試失敗: {e}")
    nltk_time = None

# 測試 spaCy
try:
    import spacy
    
    # 載入時間
    start = time.time()
    try:
        nlp = spacy.load('en_core_web_sm')
    except:
        nlp = spacy.blank('en')
    load_time = time.time() - start
    
    # 處理時間
    start = time.time()
    for _ in range(100):
        doc = nlp(test_text_en)
    process_time = time.time() - start
    
    speedup = nltk_time / process_time if nltk_time else 0
    results.append({
        '工具': 'spaCy',
        '載入時間(秒)': f"{load_time:.3f}",
        '處理時間(秒)': f"{process_time:.3f}",
        '相對速度': f"{speedup:.1f}x" if speedup else 'N/A'
    })
    spacy_time = process_time
    
except Exception as e:
    print(f"⚠️ spaCy 測試失敗: {e}")
    spacy_time = None

# 測試 jieba
try:
    import jieba
    
    # 載入時間
    start = time.time()
    jieba.initialize()
    load_time = time.time() - start
    
    # 處理時間
    start = time.time()
    for _ in range(100):
        words = list(jieba.cut(test_text_zh))
    process_time = time.time() - start
    
    results.append({
        '工具': 'jieba',
        '載入時間(秒)': f"{load_time:.3f}",
        '處理時間(秒)': f"{process_time:.3f}",
        '相對速度': 'N/A (中文)'
    })
    
except Exception as e:
    print(f"⚠️ jieba 測試失敗: {e}")

# 顯示結果
if results:
    df_results = pd.DataFrame(results)
    print("\n📊 效能測試結果 (100 次迭代)")
    print("=" * 70)
    print(df_results.to_string(index=False))
    print("=" * 70)
    
    # 視覺化
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # 載入時間
    tools = df_results['工具'].tolist()
    load_times = [float(t) for t in df_results['載入時間(秒)'].tolist()]
    
    axes[0].barh(tools, load_times, color='#F18F01', alpha=0.7, edgecolor='black')
    axes[0].set_xlabel('載入時間 (秒)', fontsize=11)
    axes[0].set_title('模型載入時間對比', fontsize=13, fontweight='bold')
    axes[0].grid(True, alpha=0.3, axis='x')
    
    for i, (tool, time_val) in enumerate(zip(tools, load_times)):
        axes[0].text(time_val, i, f' {time_val:.3f}s', va='center', fontsize=10)
    
    # 處理時間
    process_times = [float(t) for t in df_results['處理時間(秒)'].tolist()]
    
    axes[1].barh(tools, process_times, color='#2E86AB', alpha=0.7, edgecolor='black')
    axes[1].set_xlabel('處理時間 (秒)', fontsize=11)
    axes[1].set_title('處理時間對比 (100 次迭代)', fontsize=13, fontweight='bold')
    axes[1].grid(True, alpha=0.3, axis='x')
    
    for i, (tool, time_val) in enumerate(zip(tools, process_times)):
        axes[1].text(time_val, i, f' {time_val:.3f}s', va='center', fontsize=10)
    
    plt.tight_layout()
    plt.show()
    
    print("\n💡 性能觀察:")
    print("  1. spaCy: 載入時間較長,但處理速度最快 (生產環境優勢)")
    print("  2. NLTK: 無需載入,但處理速度慢 (適合教學與快速原型)")
    print("  3. jieba: 載入快速,中文處理高效 (中文首選)")
else:
    print("\n⚠️ 無可用測試結果")

### 6.2 NLTK vs spaCy 詳細對比實驗

使用相同文本,測試兩個工具在不同任務上的表現:
- 分詞 (Tokenization)
- 詞性標註 (POS Tagging)
- 句子分割 (Sentence Segmentation)

---

In [None]:
# NLTK vs spaCy 詳細對比
import time

print("=" * 70)
print("NLTK vs spaCy 詳細對比實驗")
print("=" * 70)

# 準備測試文本 (10,000 詞)
base_text = """
The quick brown fox jumps over the lazy dog. Natural language processing 
is a subfield of linguistics and artificial intelligence. It enables 
computers to understand and generate human languages.
"""
test_text = base_text * 100
word_count = len(test_text.split())

print(f"\n測試文本長度: 約 {word_count:,} 詞\n")

results_comparison = []

# NLTK 測試
try:
    import nltk
    from nltk.tokenize import word_tokenize, sent_tokenize
    
    # 分詞
    start = time.time()
    tokens_nltk = word_tokenize(test_text)
    time_tokenize = time.time() - start
    
    # 句子分割
    start = time.time()
    sentences_nltk = sent_tokenize(test_text)
    time_sentence = time.time() - start
    
    # 詞性標註
    start = time.time()
    pos_nltk = nltk.pos_tag(tokens_nltk)
    time_pos = time.time() - start
    
    results_comparison.append({
        '工具': 'NLTK',
        '分詞(秒)': f"{time_tokenize:.3f}",
        '句子分割(秒)': f"{time_sentence:.3f}",
        '詞性標註(秒)': f"{time_pos:.3f}",
        '總時間(秒)': f"{time_tokenize + time_sentence + time_pos:.3f}"
    })
    
    nltk_total = time_tokenize + time_sentence + time_pos
    
except Exception as e:
    print(f"⚠️ NLTK 測試失敗: {e}")
    nltk_total = None

# spaCy 測試
try:
    import spacy
    
    try:
        nlp = spacy.load('en_core_web_sm')
    except:
        nlp = spacy.blank('en')
    
    # Pipeline 處理 (一次完成所有任務)
    start_total = time.time()
    
    start = time.time()
    doc = nlp(test_text)
    time_pipeline = time.time() - start
    
    # 提取結果
    tokens_spacy = [token for token in doc]
    sentences_spacy = list(doc.sents)
    pos_spacy = [(token.text, token.pos_) for token in doc]
    
    total_time = time.time() - start_total
    
    results_comparison.append({
        '工具': 'spaCy',
        '分詞(秒)': '-',
        '句子分割(秒)': '-',
        '詞性標註(秒)': '-',
        '總時間(秒)': f"{total_time:.3f} (Pipeline)"
    })
    
    spacy_total = total_time
    
except Exception as e:
    print(f"⚠️ spaCy 測試失敗: {e}")
    spacy_total = None

# 顯示結果
if results_comparison:
    df_comp = pd.DataFrame(results_comparison)
    print("📊 詳細對比結果")
    print("=" * 70)
    print(df_comp.to_string(index=False))
    print("=" * 70)
    
    if nltk_total and spacy_total:
        speedup = nltk_total / spacy_total
        print(f"\n🚀 spaCy 加速比: {speedup:.1f}x")
        print(f"   處理效率: {word_count / spacy_total:.0f} 詞/秒 (spaCy) vs {word_count / nltk_total:.0f} 詞/秒 (NLTK)")
    
    # 視覺化
    if nltk_total and spacy_total:
        fig, ax = plt.subplots(figsize=(10, 6))
        
        tools = ['NLTK\n(逐步處理)', 'spaCy\n(Pipeline)']
        times = [nltk_total, spacy_total]
        colors = ['#F18F01', '#2E86AB']
        
        bars = ax.bar(tools, times, color=colors, alpha=0.7, edgecolor='black', width=0.5)
        ax.set_ylabel('總處理時間 (秒)', fontsize=12)
        ax.set_title(f'NLTK vs spaCy 完整流程對比 ({word_count:,} 詞)', 
                    fontsize=14, fontweight='bold')
        ax.grid(True, alpha=0.3, axis='y')
        
        # 標註數值與加速比
        for bar, time_val in zip(bars, times):
            height = bar.get_height()
            ax.text(bar.get_x() + bar.get_width()/2., height,
                   f'{time_val:.3f}s\n({word_count/time_val:.0f} 詞/秒)',
                   ha='center', va='bottom', fontsize=11, fontweight='bold')
        
        # 加速比標註
        ax.text(0.5, max(times) * 0.8, f'{speedup:.1f}x\n加速',
               ha='center', fontsize=14, fontweight='bold',
               bbox=dict(boxstyle='round,pad=0.5', facecolor='yellow', alpha=0.7))
        
        plt.tight_layout()
        plt.show()
    
    print("\n💡 關鍵洞察:")
    print("  1. spaCy Pipeline 設計: 一次處理完成所有任務,效率極高")
    print("  2. NLTK 模組化: 每個任務獨立調用,靈活但慢")
    print("  3. 生產環境選擇: spaCy 是明確贏家")
    print("  4. 教學與研究: NLTK 更易理解內部機制")

<a id="7"></a>
## 7. 選擇決策樹與最佳實踐

### 7.1 工具選擇決策樹

```
需要處理哪種語言?
│
├─ 中文
│   ├─ 只需分詞? → jieba (最快速)
│   ├─ 需要完整流程? → LTP / spaCy 中文模型
│   ├─ 需要高準確率? → LTP / HanLP
│   └─ 需要 SOTA? → Transformers (BERT-chinese)
│
├─ 英文
│   ├─ 學習/教學? → NLTK
│   ├─ 快速原型? → NLTK / TextBlob
│   ├─ 生產環境? → spaCy
│   ├─ 最高準確率? → Transformers (RoBERTa)
│   └─ 特定任務? → Transformers Pipeline
│
└─ 多語言
    ├─ 常見語言 (20+)? → spaCy
    ├─ 稀有語言? → Transformers (XLM-R, mBERT)
    ├─ 多模態? → Transformers (CLIP, LayoutLM)
    └─ 自定義需求? → AllenNLP / fairseq
```

---

### 7.2 場景化最佳實踐

#### 場景 1: 學術研究與教學
- **推薦:** NLTK + Transformers
- **原因:** NLTK 易於理解算法,Transformers 提供 SOTA 模型
- **技術棧:** Python + NLTK + Jupyter + Transformers

#### 場景 2: 生產環境部署
- **推薦:** spaCy + Transformers (微調)
- **原因:** spaCy 高效能,Transformers 高準確率
- **技術棧:** FastAPI + spaCy + Docker + ONNX

#### 場景 3: 中文文本分析
- **推薦:** jieba + Transformers (BERT-chinese)
- **原因:** jieba 分詞快,BERT 語義理解強
- **技術棧:** jieba + PyTorch + Transformers

#### 場景 4: 快速原型開發
- **推薦:** TextBlob / Transformers Pipeline
- **原因:** 簡化 API,開箱即用
- **技術棧:** Python + TextBlob + Streamlit

---

In [None]:
# 決策樹視覺化
import matplotlib.patches as mpatches

fig, ax = plt.subplots(figsize=(16, 12))
ax.set_xlim(0, 10)
ax.set_ylim(0, 12)
ax.axis('off')

# 標題
ax.text(5, 11.5, 'NLP 工具選擇決策樹', ha='center', 
        fontsize=18, fontweight='bold')

# 根節點
root = mpatches.FancyBboxPatch((3.5, 10), 3, 0.8,
                                boxstyle="round,pad=0.1",
                                linewidth=2, edgecolor='black',
                                facecolor='#F18F01', alpha=0.7)
ax.add_patch(root)
ax.text(5, 10.4, '需要處理哪種語言?', ha='center', va='center',
        fontsize=13, fontweight='bold')

# 第一層: 語言分類
languages = [
    (1.5, 8, '中文', '#FFE66D'),
    (5, 8, '英文', '#95E1D3'),
    (8.5, 8, '多語言', '#2E86AB')
]

for x, y, lang, color in languages:
    rect = mpatches.FancyBboxPatch((x-0.6, y-0.3), 1.2, 0.6,
                                    boxstyle="round,pad=0.05",
                                    linewidth=2, edgecolor='black',
                                    facecolor=color, alpha=0.6)
    ax.add_patch(rect)
    ax.text(x, y, lang, ha='center', va='center',
            fontsize=11, fontweight='bold')
    
    # 連線到根節點
    ax.plot([5, x], [10, y+0.35], 'k-', linewidth=1.5, alpha=0.5)

# 第二層: 具體工具
tools = [
    # 中文
    (0.5, 6.5, 'jieba\n(分詞)', '#FFE66D'),
    (1.5, 6.5, 'LTP/HanLP\n(完整流程)', '#FFE66D'),
    (2.5, 6.5, 'BERT-chinese\n(SOTA)', '#FFE66D'),
    
    # 英文
    (4, 6.5, 'NLTK\n(教學)', '#95E1D3'),
    (5, 6.5, 'spaCy\n(生產)', '#95E1D3'),
    (6, 6.5, 'Transformers\n(SOTA)', '#95E1D3'),
    
    # 多語言
    (7.5, 6.5, 'spaCy\n(20+ 語言)', '#2E86AB'),
    (8.5, 6.5, 'XLM-R\n(100+ 語言)', '#2E86AB'),
    (9.5, 6.5, 'CLIP\n(多模態)', '#2E86AB'),
]

for x, y, tool, color in tools:
    rect = mpatches.FancyBboxPatch((x-0.4, y-0.4), 0.8, 0.8,
                                    boxstyle="round,pad=0.05",
                                    linewidth=1.5, edgecolor='black',
                                    facecolor=color, alpha=0.4)
    ax.add_patch(rect)
    ax.text(x, y, tool, ha='center', va='center',
            fontsize=8, fontweight='bold')
    
    # 連線到對應語言
    if x < 3:
        ax.plot([1.5, x], [7.7, y+0.45], 'k-', linewidth=1, alpha=0.3)
    elif x < 7:
        ax.plot([5, x], [7.7, y+0.45], 'k-', linewidth=1, alpha=0.3)
    else:
        ax.plot([8.5, x], [7.7, y+0.45], 'k-', linewidth=1, alpha=0.3)

# 底部: 應用場景
scenarios = [
    (2, 4.5, '學術研究', 'NLTK + Transformers'),
    (5, 4.5, '生產環境', 'spaCy + Docker'),
    (8, 4.5, '快速原型', 'Pipeline API')
]

for x, y, scenario, stack in scenarios:
    # 場景框
    rect = mpatches.FancyBboxPatch((x-1, y-0.5), 2, 1,
                                    boxstyle="round,pad=0.1",
                                    linewidth=2, edgecolor='#C73E1D',
                                    facecolor='white', alpha=0.8)
    ax.add_patch(rect)
    ax.text(x, y+0.2, scenario, ha='center', va='center',
            fontsize=11, fontweight='bold', color='#C73E1D')
    ax.text(x, y-0.2, stack, ha='center', va='center',
            fontsize=9)

# 圖例
ax.text(5, 3, '💡 選擇原則: 語言 → 任務需求 → 性能要求 → 部署環境',
        ha='center', fontsize=11, style='italic',
        bbox=dict(boxstyle='round,pad=0.5', facecolor='lightyellow', alpha=0.8))

plt.tight_layout()
plt.show()

print("\n💡 決策要點:")
print("  1. 語言優先: 中文必選 jieba/LTP,英文 spaCy,多語言 Transformers")
print("  2. 任務需求: 教學用 NLTK,生產用 spaCy,SOTA 用 Transformers")
print("  3. 性能權衡: 速度 vs 準確率 (spaCy 快, Transformers 準)")
print("  4. 部署環境: CPU → spaCy, GPU → Transformers")

<a id="8"></a>
## 8. 完整技術棧範例

### 8.1 場景: 中文情感分析系統

**需求:**
- 分析電商評論的情感傾向 (正面/負面/中性)
- 支援實時推理 (< 100ms)
- 準確率要求 > 90%

**技術棧選擇:**
1. **分詞:** jieba (中文分詞)
2. **模型:** BERT-chinese (高準確率)
3. **部署:** FastAPI + Docker (生產就緒)
4. **優化:** ONNX (推理加速)

---

In [None]:
# 完整技術棧範例: 中文情感分析
print("=" * 70)
print("完整技術棧範例: 中文情感分析系統")
print("=" * 70)

# 模擬完整流程 (簡化版)

class ChineseSentimentAnalyzer:
    """
    中文情感分析器
    
    技術棧:
    - 分詞: jieba
    - 模型: BERT-chinese (Transformers)
    - 部署: FastAPI
    """
    
    def __init__(self):
        print("\n🔧 初始化情感分析器...")
        
        # 1. 載入分詞工具
        try:
            import jieba
            self.jieba = jieba
            print("  ✅ jieba 分詞器已載入")
        except ImportError:
            print("  ⚠️ jieba 未安裝")
            self.jieba = None
        
        # 2. 載入情感分析模型 (模擬)
        try:
            from transformers import pipeline
            # 實際應使用中文 BERT 模型
            # self.sentiment = pipeline('sentiment-analysis', model='bert-base-chinese')
            self.sentiment = pipeline('sentiment-analysis')
            print("  ✅ BERT 情感分析模型已載入")
        except Exception as e:
            print(f"  ⚠️ 模型載入失敗: {e}")
            self.sentiment = None
        
        # 3. 簡單情感詞典 (備用)
        self.positive_words = {'好', '棒', '優秀', '喜歡', '推薦', '滿意', '完美'}
        self.negative_words = {'差', '糟', '爛', '討厭', '失望', '垃圾', '退貨'}
    
    def preprocess(self, text):
        """文本預處理"""
        if self.jieba:
            words = list(self.jieba.cut(text))
            return ' '.join(words)
        return text
    
    def analyze_rule_based(self, text):
        """基於規則的情感分析 (備用)"""
        if not self.jieba:
            return {'label': 'NEUTRAL', 'score': 0.5}
        
        words = set(self.jieba.cut(text))
        pos_count = len(words & self.positive_words)
        neg_count = len(words & self.negative_words)
        
        if pos_count > neg_count:
            return {'label': 'POSITIVE', 'score': 0.7 + pos_count * 0.1}
        elif neg_count > pos_count:
            return {'label': 'NEGATIVE', 'score': 0.7 + neg_count * 0.1}
        else:
            return {'label': 'NEUTRAL', 'score': 0.5}
    
    def analyze(self, text):
        """情感分析主函數"""
        # 預處理
        processed_text = self.preprocess(text)
        
        # 使用模型分析 (如可用)
        if self.sentiment:
            try:
                result = self.sentiment(processed_text)[0]
                return result
            except:
                pass
        
        # 否則使用規則方法
        return self.analyze_rule_based(text)

# 測試分析器
analyzer = ChineseSentimentAnalyzer()

# 測試樣本
test_reviews = [
    "這個產品質量非常好,強烈推薦購買!",
    "收到貨物完全不符合描述,太失望了,申請退貨。",
    "還可以吧,沒有特別驚艷,也沒有很差。",
    "物流超快,包裝完美,商品質量優秀,五星好評!"
]

print("\n" + "="*70)
print("情感分析測試")
print("="*70)

results = []
for i, review in enumerate(test_reviews, 1):
    result = analyzer.analyze(review)
    
    # 轉換標籤為中文
    label_map = {
        'POSITIVE': '正面',
        'NEGATIVE': '負面',
        'NEUTRAL': '中性'
    }
    label_zh = label_map.get(result['label'], result['label'])
    
    print(f"\n[{i}] 評論: {review}")
    print(f"    情感: {label_zh} (信心度: {result['score']:.2%})")
    
    results.append({
        '評論': review[:30] + '...' if len(review) > 30 else review,
        '情感': label_zh,
        '信心度': f"{result['score']:.2%}"
    })

# 視覺化結果
df_results = pd.DataFrame(results)

fig, ax = plt.subplots(figsize=(12, 6))
ax.axis('tight')
ax.axis('off')

table = ax.table(cellText=df_results.values, colLabels=df_results.columns,
                cellLoc='left', loc='center',
                colWidths=[0.6, 0.2, 0.2])

table.auto_set_font_size(False)
table.set_fontsize(10)
table.scale(1, 2.5)

# 設定表頭樣式
for i in range(len(df_results.columns)):
    table[(0, i)].set_facecolor('#2E86AB')
    table[(0, i)].set_text_props(weight='bold', color='white')

# 設定行顏色 (根據情感)
for i in range(1, len(df_results) + 1):
    sentiment = df_results.iloc[i-1]['情感']
    if sentiment == '正面':
        color = '#95E1D3'
    elif sentiment == '負面':
        color = '#F18F01'
    else:
        color = '#FFE66D'
    
    for j in range(len(df_results.columns)):
        table[(i, j)].set_facecolor(color)
        table[(i, j)].set_alpha(0.4)

plt.title('中文情感分析結果', fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n" + "="*70)
print("✅ 情感分析系統測試完成!")
print("="*70)

print("\n🚀 生產部署步驟:")
print("  1. 使用 BERT-chinese 微調模型")
print("  2. 轉換為 ONNX 格式加速推理")
print("  3. 使用 FastAPI 包裝為 API")
print("  4. Docker 容器化部署")
print("  5. Kubernetes 水平擴展")

In [None]:
# FastAPI 部署範例 (代碼示範,無需執行)
print("=" * 70)
print("FastAPI 部署範例代碼")
print("=" * 70)

api_code = '''
# main.py - FastAPI 情感分析 API

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import jieba
from transformers import pipeline

# 創建 FastAPI 應用
app = FastAPI(
    title="中文情感分析 API",
    description="基於 BERT 的中文情感分析服務",
    version="1.0.0"
)

# 載入模型 (啟動時執行一次)
sentiment_model = pipeline(
    'sentiment-analysis',
    model='bert-base-chinese'
)

# 請求模型
class TextRequest(BaseModel):
    text: str

# 回應模型
class SentimentResponse(BaseModel):
    text: str
    sentiment: str
    confidence: float

@app.post("/analyze", response_model=SentimentResponse)
async def analyze_sentiment(request: TextRequest):
    """
    情感分析 API
    
    Args:
        request: 包含待分析文本的請求
        
    Returns:
        SentimentResponse: 情感分析結果
    """
    try:
        # 分詞預處理
        words = jieba.cut(request.text)
        processed_text = ' '.join(words)
        
        # 模型推理
        result = sentiment_model(processed_text)[0]
        
        return SentimentResponse(
            text=request.text,
            sentiment=result['label'],
            confidence=result['score']
        )
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health_check():
    """健康檢查"""
    return {"status": "healthy"}

# 啟動命令:
# uvicorn main:app --host 0.0.0.0 --port 8000

# 測試 API:
# curl -X POST "http://localhost:8000/analyze" \
#      -H "Content-Type: application/json" \
#      -d '{"text": "這個產品質量非常好!"}'
'''

print(api_code)

print("\n💡 部署最佳實踐:")
print("  1. 模型預載入: 應用啟動時載入模型 (避免每次請求載入)")
print("  2. 批次推理: 累積多個請求批次處理 (提升吞吐量)")
print("  3. 快取結果: 相同輸入快取結果 (減少計算)")
print("  4. 限流保護: 防止過載 (nginx/API Gateway)")
print("  5. 監控告警: Prometheus + Grafana (性能監控)")

<a id="9"></a>
## 9. 本課總結與延伸閱讀

### 9.1 核心要點回顧

#### 1. Python NLP 工具生態
- **四大類工具:** 傳統 NLP (NLTK/spaCy)、深度學習 (Transformers)、中文專用 (jieba/LTP)、輔助工具 (Gensim)
- **工具定位:** NLTK (教學)、spaCy (生產)、Transformers (SOTA)

#### 2. 工具對比與選擇
- **NLTK:** 功能全面,易於學習,速度慢
- **spaCy:** 工業級,高效能 (10-100x 加速),Pipeline 設計
- **Transformers:** 預訓練模型庫,統一 API,SOTA 性能
- **jieba:** 中文分詞首選,輕量快速

#### 3. 效能基準測試
- **速度:** spaCy > jieba > NLTK > Transformers
- **準確率:** Transformers > spaCy > LTP > NLTK > jieba
- **學習曲線:** NLTK < jieba < spaCy < Transformers

#### 4. 選擇決策樹
- **中文:** jieba (分詞) + LTP/BERT (完整流程/SOTA)
- **英文:** NLTK (教學) + spaCy (生產) + Transformers (SOTA)
- **多語言:** spaCy (20+) + Transformers (100+)

#### 5. 完整技術棧
- **預處理:** jieba (中文) / spaCy (英文)
- **模型:** BERT/RoBERTa (理解) / GPT (生成) / T5 (轉換)
- **部署:** FastAPI + Docker + ONNX

---

### 9.2 最佳實踐總結

| 場景 | 推薦工具組合 | 技術棧 |
|:---|:---|:---|
| **學術研究** | NLTK + Transformers | Python + Jupyter + PyTorch |
| **生產環境** | spaCy + BERT (微調) | FastAPI + Docker + ONNX |
| **中文分析** | jieba + BERT-chinese | jieba + Transformers + PyTorch |
| **快速原型** | Transformers Pipeline | Python + Streamlit |
| **多語言** | spaCy + XLM-R | spaCy + Transformers |

---

### 9.3 下節預告

**CH03-01: 文本預處理基礎**

我們將深入探討:
- 文本清洗與標準化技術
- 分詞算法原理 (規則、統計、深度學習)
- 詞形還原與詞幹提取
- 停用詞處理策略
- 文本標準化與正則化

---

### 9.4 延伸閱讀

#### 官方文檔
1. **NLTK Book:** https://www.nltk.org/book/
2. **spaCy 101:** https://spacy.io/usage/spacy-101
3. **Transformers 文檔:** https://huggingface.co/docs/transformers/
4. **jieba GitHub:** https://github.com/fxsjy/jieba

#### 工具對比研究
- **spaCy vs NLTK:** https://spacy.io/usage/facts-figures
- **NLP 工具評測:** https://github.com/explosion/spacy-benchmarks
- **中文 NLP 工具對比:** https://github.com/didi/ChineseNLP

#### 學習資源
- **Hugging Face Course:** https://huggingface.co/course/
- **spaCy Projects:** https://github.com/explosion/projects
- **NLP 工具實戰:** https://github.com/practical-nlp/practical-nlp

#### 論文與書籍
- **BERT:** Devlin et al. (2018). *BERT: Pre-training of Deep Bidirectional Transformers*
- **GPT-3:** Brown et al. (2020). *Language Models are Few-Shot Learners*
- **書籍:** *Natural Language Processing with Python* (NLTK 官方教材)

---

### 🙋 問題討論

有任何問題嗎?歡迎在討論區提問!

---

**課程資訊:**
- **作者:** iSpan NLP Team
- **參考講義:** `課程資料/02_自然語言處理入門/講義/04_Python_NLP工具生態完全指南.md`
- **版本:** v1.0
- **最後更新:** 2025-10-17
- **授權:** MIT License (僅供教學使用)