# Chapter 10: 集合資料 - 詳解範例 | Worked Examples

本檔案提供 5 個詳細解說的範例,展示集合在實際問題中的應用。

每個範例包含:
- 問題描述
- 解題思路
- 完整程式碼
- 執行結果
- 知識點說明

## 範例 1: 列表去重

**問題描述**:
給定一個包含重複元素的列表,移除所有重複項,保留唯一元素。

**解題思路**:
1. 將列表轉換為集合 (自動去重)
2. 如果需要保持順序,使用字典或手動去重
3. 將結果轉回列表

In [None]:
# 方法 1: 使用集合 (不保證順序)
def remove_duplicates_v1(items):
    """使用集合去重,不保證順序"""
    return list(set(items))

# 方法 2: 使用字典 (保持順序,Python 3.7+)
def remove_duplicates_v2(items):
    """使用字典去重,保持首次出現的順序"""
    return list(dict.fromkeys(items))

# 方法 3: 手動去重 (保持順序)
def remove_duplicates_v3(items):
    """手動去重,保持順序"""
    seen = set()
    result = []
    for item in items:
        if item not in seen:
            seen.add(item)
            result.append(item)
    return result

# 測試
numbers = [1, 2, 2, 3, 4, 4, 5, 5, 5, 1, 3]
print("原始列表:", numbers)
print("\n方法 1 (集合):", remove_duplicates_v1(numbers))
print("方法 2 (字典):", remove_duplicates_v2(numbers))
print("方法 3 (手動):", remove_duplicates_v3(numbers))

# 字串列表去重
words = ["apple", "banana", "apple", "cherry", "banana", "date"]
print("\n字串去重:")
print("原始:", words)
print("去重後:", remove_duplicates_v2(words))

**知識點**:
- 集合自動去重,但不保證順序
- Python 3.7+ 字典保證插入順序
- `dict.fromkeys()` 可用於保序去重
- 使用 `seen` 集合可以高效檢查重複 (O(1))

---

## 範例 2: 找出共同學生 (交集應用)

**問題描述**:
有兩個班級的學生名單,找出同時在兩個班級的學生。

**解題思路**:
1. 將兩個名單轉換為集合
2. 使用交集運算找出共同元素
3. 可以擴展到多個班級

In [None]:
def find_common_students(class_a, class_b):
    """找出兩個班級的共同學生"""
    return set(class_a) & set(class_b)

def find_common_multiple(classes):
    """找出多個班級的共同學生"""
    if not classes:
        return set()
    
    # 將第一個班級轉為集合
    common = set(classes[0])
    
    # 與其他班級求交集
    for class_list in classes[1:]:
        common &= set(class_list)
    
    return common

# 測試 - 兩個班級
math_class = ["Alice", "Bob", "Charlie", "David", "Eve"]
science_class = ["Bob", "David", "Frank", "Grace", "Eve"]

common = find_common_students(math_class, science_class)
print("數學課學生:", math_class)
print("科學課學生:", science_class)
print("共同學生:", common)
print(f"共有 {len(common)} 位學生同時上兩門課")

# 測試 - 多個班級
english_class = ["Bob", "Alice", "Eve", "Henry"]
all_classes = [math_class, science_class, english_class]

all_common = find_common_multiple(all_classes)
print("\n三門課共同學生:", all_common)

# 實際應用: 找出選修所有必修課的學生
required_courses = {
    "Math": {"Alice", "Bob", "Charlie"},
    "English": {"Alice", "Bob", "David"},
    "Science": {"Alice", "Bob", "Eve"}
}

students_all_required = set.intersection(*required_courses.values())
print("\n完成所有必修課的學生:", students_all_required)

**知識點**:
- 交集運算 `&` 找出共同元素
- 可以連續使用 `&=` 進行多次交集
- `set.intersection(*sets)` 可以對多個集合求交集
- 交集符合交換律: A & B = B & A

---

## 範例 3: 找出獨有學生 (差集應用)

**問題描述**:
找出只在 A 班但不在 B 班的學生。

**解題思路**:
1. 使用差集運算 A - B
2. 注意差集不符合交換律
3. 可以找出雙向的獨有學生

In [None]:
def analyze_class_difference(class_a, class_b, name_a="A班", name_b="B班"):
    """分析兩個班級的差異"""
    set_a = set(class_a)
    set_b = set(class_b)
    
    # 只在 A 班
    only_a = set_a - set_b
    
    # 只在 B 班
    only_b = set_b - set_a
    
    # 共同學生
    common = set_a & set_b
    
    # 所有學生
    all_students = set_a | set_b
    
    print(f"\n{'='*50}")
    print(f"{name_a}: {len(set_a)} 人 - {sorted(set_a)}")
    print(f"{name_b}: {len(set_b)} 人 - {sorted(set_b)}")
    print(f"{'='*50}")
    print(f"只在{name_a}: {len(only_a)} 人 - {sorted(only_a)}")
    print(f"只在{name_b}: {len(only_b)} 人 - {sorted(only_b)}")
    print(f"共同學生: {len(common)} 人 - {sorted(common)}")
    print(f"總人數: {len(all_students)} 人")
    print(f"{'='*50}")
    
    return {
        f"only_{name_a}": only_a,
        f"only_{name_b}": only_b,
        "common": common,
        "all": all_students
    }

# 測試
morning_class = ["Alice", "Bob", "Charlie", "David", "Eve"]
afternoon_class = ["Bob", "David", "Frank", "Grace", "Henry"]

result = analyze_class_difference(
    morning_class, 
    afternoon_class,
    "上午班",
    "下午班"
)

# 實際應用: 找出新增和移除的配置項
old_config = {"debug", "verbose", "cache", "logging"}
new_config = {"debug", "cache", "optimize", "monitoring"}

added = new_config - old_config
removed = old_config - new_config
unchanged = old_config & new_config

print("\n配置變更分析:")
print(f"新增: {added}")
print(f"移除: {removed}")
print(f"不變: {unchanged}")

**知識點**:
- 差集 A - B: 在 A 但不在 B
- 差集不符合交換律: A - B ≠ B - A
- 可用於配置比較、版本差異分析
- 結合多種集合運算可以做完整分析

---

## 範例 4: Email 唯一性檢查

**問題描述**:
檢查 email 列表中是否有重複項,並找出重複的 email。

**解題思路**:
1. 使用集合檢查長度差異
2. 使用字典統計出現次數
3. 找出重複的項目

In [None]:
def validate_email_uniqueness(email_list):
    """檢查 email 列表的唯一性"""
    unique_emails = set(email_list)
    
    print(f"總 email 數: {len(email_list)}")
    print(f"唯一 email 數: {len(unique_emails)}")
    
    if len(email_list) == len(unique_emails):
        print("✓ 所有 email 都是唯一的")
        return True
    else:
        duplicate_count = len(email_list) - len(unique_emails)
        print(f"✗ 發現 {duplicate_count} 個重複 email")
        return False

def find_duplicates(items):
    """找出列表中所有重複的項目"""
    seen = set()
    duplicates = set()
    
    for item in items:
        if item in seen:
            duplicates.add(item)
        else:
            seen.add(item)
    
    return duplicates

def count_occurrences(items):
    """統計每個項目的出現次數"""
    counts = {}
    for item in items:
        counts[item] = counts.get(item, 0) + 1
    return counts

# 測試
emails = [
    "user1@example.com",
    "user2@example.com",
    "user3@example.com",
    "user1@example.com",  # 重複
    "user4@example.com",
    "user2@example.com",  # 重複
    "user1@example.com",  # 重複
]

print("Email 驗證:")
print("="*50)
validate_email_uniqueness(emails)

# 找出重複項
duplicates = find_duplicates(emails)
print(f"\n重複的 email: {duplicates}")

# 統計出現次數
counts = count_occurrences(emails)
print("\nEmail 出現次數:")
for email, count in sorted(counts.items()):
    status = "⚠" if count > 1 else "✓"
    print(f"  {status} {email}: {count} 次")

# 實際應用: 清理重複 email
unique_emails = list(set(emails))
print(f"\n清理後的 email 列表 ({len(unique_emails)} 個):")
for email in sorted(unique_emails):
    print(f"  - {email}")

**知識點**:
- 集合長度與列表長度比較可檢查重複
- 使用兩個集合 (seen, duplicates) 可找出重複項
- `item in set` 的時間複雜度是 O(1)
- 實務中常用於資料清理和驗證

---

## 範例 5: 標籤管理系統

**問題描述**:
設計一個簡單的標籤管理系統,支援標籤的新增、刪除、搜尋等操作。

**解題思路**:
1. 使用集合儲存每篇文章的標籤
2. 使用集合運算找出符合條件的文章
3. 支援多標籤搜尋 (交集、聯集)

In [None]:
class TagManager:
    """標籤管理系統"""
    
    def __init__(self):
        self.articles = {}  # {文章ID: {標籤集合}}
    
    def add_article(self, article_id, tags):
        """新增文章及其標籤"""
        self.articles[article_id] = set(tags)
    
    def add_tag(self, article_id, tag):
        """為文章新增標籤"""
        if article_id in self.articles:
            self.articles[article_id].add(tag)
    
    def remove_tag(self, article_id, tag):
        """移除文章的標籤"""
        if article_id in self.articles:
            self.articles[article_id].discard(tag)
    
    def find_with_all_tags(self, tags):
        """找出包含所有指定標籤的文章 (AND 搜尋)"""
        required = set(tags)
        result = []
        
        for article_id, article_tags in self.articles.items():
            if required <= article_tags:  # required 是 article_tags 的子集
                result.append(article_id)
        
        return result
    
    def find_with_any_tag(self, tags):
        """找出包含任一指定標籤的文章 (OR 搜尋)"""
        search_tags = set(tags)
        result = []
        
        for article_id, article_tags in self.articles.items():
            if search_tags & article_tags:  # 有交集
                result.append(article_id)
        
        return result
    
    def get_all_tags(self):
        """取得所有標籤"""
        all_tags = set()
        for tags in self.articles.values():
            all_tags |= tags  # 聯集
        return all_tags
    
    def get_popular_tags(self, top_n=5):
        """取得最常用的標籤"""
        tag_counts = {}
        for tags in self.articles.values():
            for tag in tags:
                tag_counts[tag] = tag_counts.get(tag, 0) + 1
        
        # 按出現次數排序
        sorted_tags = sorted(tag_counts.items(), key=lambda x: x[1], reverse=True)
        return sorted_tags[:top_n]

# 測試
tm = TagManager()

# 新增文章
tm.add_article("article1", ["python", "tutorial", "beginner"])
tm.add_article("article2", ["python", "advanced", "performance"])
tm.add_article("article3", ["javascript", "tutorial", "beginner"])
tm.add_article("article4", ["python", "web", "flask"])
tm.add_article("article5", ["python", "data", "pandas"])

print("所有標籤:", tm.get_all_tags())
print("\n最常用標籤:")
for tag, count in tm.get_popular_tags():
    print(f"  {tag}: {count} 篇")

# AND 搜尋 - 同時有 python 和 tutorial
print("\n搜尋: python AND tutorial")
result = tm.find_with_all_tags(["python", "tutorial"])
print(f"找到 {len(result)} 篇: {result}")

# OR 搜尋 - 有 tutorial 或 beginner
print("\n搜尋: tutorial OR beginner")
result = tm.find_with_any_tag(["tutorial", "beginner"])
print(f"找到 {len(result)} 篇: {result}")

# 搜尋所有 Python 文章
print("\n搜尋: python")
result = tm.find_with_any_tag(["python"])
print(f"找到 {len(result)} 篇: {result}")

**知識點**:
- 使用集合儲存標籤,自動去重
- 子集運算 `<=` 可檢查是否包含所有標籤
- 交集運算 `&` 可檢查是否有任一標籤
- 聯集運算 `|=` 可合併所有標籤
- 實務應用: 部落格系統、文件管理、搜尋引擎

---

## 總結 | Summary

這 5 個範例展示了集合的主要應用場景:

1. **資料去重**: 利用集合的唯一性
2. **交集運算**: 找出共同元素
3. **差集運算**: 找出差異
4. **重複檢測**: 資料驗證
5. **標籤管理**: 複雜的集合運算組合

**關鍵技巧**:
- 選擇適當的集合運算符號
- 理解運算的數學意義
- 結合多種運算解決複雜問題
- 注意效能優勢 (O(1) 查詢)