# Chapter 10: 集合資料 | Sets

## Part I: 理論基礎 | Theoretical Foundation

### 章節概覽 | Chapter Overview

**學習時數**: 2-3 小時  
**難度等級**: ⭐⭐ (中階)  
**先備知識**: Ch01-09

**本章重點**:
- 理解集合的特性: 無序、唯一、可變
- 掌握集合的創建與操作
- 熟練使用集合運算
- 應用集合解決實際問題

### 為什麼需要集合? | Why Sets?

**First Principles 分析**:

集合(Sets)源自數學的集合論,是處理「唯一元素集合」的理想資料結構。

**核心特性**:
1. **無序性 (Unordered)**: 元素沒有固定順序
2. **唯一性 (Unique)**: 自動去除重複元素
3. **可變性 (Mutable)**: 可以新增、刪除元素

**使用場景**:
- 資料去重
- 成員檢查 (in 運算子)
- 集合運算 (聯集、交集、差集等)
- 高效的存在性檢查

### 集合的數學背景 | Mathematical Background

**維恩圖 (Venn Diagram) 表示集合運算**:

```
聯集 (Union): A ∪ B
    ┌─────────┐
    │    A    │
    │  ┌──────┼────┐
    │  │ ████ │ B  │  所有在 A 或 B 的元素
    └──┼──────┘    │
       │    ████   │
       └───────────┘

交集 (Intersection): A ∩ B
    ┌─────────┐
    │    A    │
    │  ┌──────┼────┐
    │  │ ████ │ B  │  同時在 A 和 B 的元素
    └──┼──────┘    │
       │           │
       └───────────┘

差集 (Difference): A - B
    ┌─────────┐
    │ ████ A  │
    │  ┌──────┼────┐
    │██│      │ B  │  在 A 但不在 B 的元素
    └──┼──────┘    │
       │           │
       └───────────┘

對稱差集 (Symmetric Difference): A △ B
    ┌─────────┐
    │ ████ A  │
    │  ┌──────┼────┐
    │██│      │ B█ │  在 A 或 B 但不同時在兩者
    └──┼──────┘ ███│
       │      █████│
       └───────────┘
```

---

## Part II: 實作演練 | Practical Examples

### 範例 1: 集合的創建 | Creating Sets

三種創建集合的方式:
1. 使用花括號 `{}`
2. 使用 `set()` 函數
3. 使用集合推導式

In [None]:
# 方式 1: 使用花括號
fruits = {"apple", "banana", "cherry"}
print("方式 1:", fruits)

# 方式 2: 使用 set() 函數
numbers = set([1, 2, 3, 4, 5])
print("方式 2:", numbers)

# 從字串創建集合 (每個字元成為元素)
chars = set("hello")
print("從字串:", chars)  # {'h', 'e', 'l', 'o'} - 自動去重

# 方式 3: 集合推導式
squares = {x**2 for x in range(5)}
print("推導式:", squares)

# 注意: 創建空集合
empty_dict = {}        # 這是空字典!
empty_set = set()      # 這才是空集合!
print("\n空字典類型:", type(empty_dict))
print("空集合類型:", type(empty_set))

**重點提示**:
- `{}` 會創建空字典,不是空集合
- 必須使用 `set()` 創建空集合
- 集合會自動去除重複元素
- 集合是無序的,輸出順序可能不同

### 範例 2: 集合的基本操作 | Basic Set Operations

新增、刪除、查詢元素

In [None]:
# 創建集合
colors = {"red", "green", "blue"}
print("初始集合:", colors)

# 新增單個元素 - add()
colors.add("yellow")
print("\n新增 yellow:", colors)

# 新增多個元素 - update()
colors.update(["purple", "orange"])
print("新增多個元素:", colors)

# 新增已存在的元素 - 不會改變集合
colors.add("red")
print("新增重複元素:", colors)  # 不變

# 刪除元素 - remove() (元素不存在會報錯)
colors.remove("green")
print("\n刪除 green:", colors)

# 刪除元素 - discard() (元素不存在不報錯)
colors.discard("pink")  # pink 不存在,但不報錯
print("discard 不存在元素:", colors)

# 隨機刪除並返回一個元素 - pop()
removed = colors.pop()
print("\npop 返回:", removed)
print("pop 後:", colors)

# 清空集合 - clear()
colors.clear()
print("清空後:", colors)

**方法對照表**:

| 方法 | 說明 | 注意事項 |
|:-----|:-----|:---------|
| `add(x)` | 新增單個元素 | 已存在則忽略 |
| `update(iterable)` | 新增多個元素 | 可接受列表、元組等 |
| `remove(x)` | 刪除元素 | 不存在會報錯 |
| `discard(x)` | 刪除元素 | 不存在不報錯 |
| `pop()` | 隨機刪除並返回 | 空集合會報錯 |
| `clear()` | 清空集合 | - |

### 範例 3: 集合運算 - 聯集 | Union

聯集: 取得所有在 A 或 B 中的元素

In [None]:
# 定義兩個集合
set_a = {1, 2, 3, 4}
set_b = {3, 4, 5, 6}

print("集合 A:", set_a)
print("集合 B:", set_b)

# 方法 1: 使用 | 運算子
union1 = set_a | set_b
print("\n使用 | 運算子:", union1)

# 方法 2: 使用 union() 方法
union2 = set_a.union(set_b)
print("使用 union():", union2)

# union() 可以接受多個參數
set_c = {7, 8}
union3 = set_a.union(set_b, set_c)
print("多個集合聯集:", union3)

# union() 可以接受其他可迭代物件
union4 = set_a.union([5, 6, 7])
print("與列表聯集:", union4)

# 實際應用: 合併兩個班級的學生名單
class_a = {"Alice", "Bob", "Charlie"}
class_b = {"Bob", "David", "Eve"}
all_students = class_a | class_b
print("\n所有學生:", all_students)

### 範例 4: 集合運算 - 交集 | Intersection

交集: 取得同時在 A 和 B 中的元素

In [None]:
# 定義兩個集合
set_a = {1, 2, 3, 4}
set_b = {3, 4, 5, 6}

print("集合 A:", set_a)
print("集合 B:", set_b)

# 方法 1: 使用 & 運算子
intersection1 = set_a & set_b
print("\n使用 & 運算子:", intersection1)

# 方法 2: 使用 intersection() 方法
intersection2 = set_a.intersection(set_b)
print("使用 intersection():", intersection2)

# intersection() 可以接受多個參數
set_c = {3, 7, 8}
intersection3 = set_a.intersection(set_b, set_c)
print("多個集合交集:", intersection3)

# 實際應用: 找出兩個班級的共同學生
class_a = {"Alice", "Bob", "Charlie", "David"}
class_b = {"Bob", "David", "Eve", "Frank"}
common_students = class_a & class_b
print("\n共同學生:", common_students)

# 實際應用: 找出共同興趣
alice_hobbies = {"reading", "swimming", "coding"}
bob_hobbies = {"swimming", "gaming", "coding"}
common_hobbies = alice_hobbies & bob_hobbies
print("共同興趣:", common_hobbies)

### 範例 5: 集合運算 - 差集 | Difference

差集: 取得在 A 但不在 B 中的元素

In [None]:
# 定義兩個集合
set_a = {1, 2, 3, 4}
set_b = {3, 4, 5, 6}

print("集合 A:", set_a)
print("集合 B:", set_b)

# 方法 1: 使用 - 運算子
diff1 = set_a - set_b
print("\nA - B (使用 -):", diff1)

diff2 = set_b - set_a
print("B - A (使用 -):", diff2)

# 方法 2: 使用 difference() 方法
diff3 = set_a.difference(set_b)
print("\nA - B (使用 difference()):", diff3)

# 注意: 差集不符合交換律
print("\n差集順序很重要:")
print("A - B =", set_a - set_b)
print("B - A =", set_b - set_a)

# 實際應用: 找出只在 A 班的學生
class_a = {"Alice", "Bob", "Charlie", "David"}
class_b = {"Bob", "David", "Eve", "Frank"}
only_in_a = class_a - class_b
print("\n只在 A 班:", only_in_a)

only_in_b = class_b - class_a
print("只在 B 班:", only_in_b)

### 範例 6: 集合運算 - 對稱差集 | Symmetric Difference

對稱差集: 取得在 A 或 B 中但不同時在兩者的元素

In [None]:
# 定義兩個集合
set_a = {1, 2, 3, 4}
set_b = {3, 4, 5, 6}

print("集合 A:", set_a)
print("集合 B:", set_b)

# 方法 1: 使用 ^ 運算子
sym_diff1 = set_a ^ set_b
print("\n使用 ^ 運算子:", sym_diff1)

# 方法 2: 使用 symmetric_difference() 方法
sym_diff2 = set_a.symmetric_difference(set_b)
print("使用 symmetric_difference():", sym_diff2)

# 對稱差集等於 (A - B) ∪ (B - A)
manual_sym_diff = (set_a - set_b) | (set_b - set_a)
print("手動計算:", manual_sym_diff)

# 實際應用: 找出不共同的學生
class_a = {"Alice", "Bob", "Charlie", "David"}
class_b = {"Bob", "David", "Eve", "Frank"}
not_common = class_a ^ class_b
print("\n不共同的學生:", not_common)

# 實際應用: 找出有變化的配置項
old_config = {"debug", "verbose", "cache"}
new_config = {"debug", "cache", "optimize"}
changed = old_config ^ new_config
print("\n配置變化:", changed)

**集合運算總結**:

| 運算 | 符號 | 方法 | 說明 |
|:-----|:-----|:-----|:-----|
| 聯集 | `\|` | `union()` | A 或 B 的所有元素 |
| 交集 | `&` | `intersection()` | 同時在 A 和 B 的元素 |
| 差集 | `-` | `difference()` | 在 A 但不在 B 的元素 |
| 對稱差集 | `^` | `symmetric_difference()` | 在 A 或 B 但不同時的元素 |

### 範例 7: 集合推導式 | Set Comprehension

類似列表推導式,但創建集合

In [None]:
# 基本集合推導式
squares = {x**2 for x in range(10)}
print("平方數集合:", squares)

# 帶條件的集合推導式
even_squares = {x**2 for x in range(10) if x % 2 == 0}
print("偶數的平方:", even_squares)

# 從字串列表創建長度集合
words = ["apple", "banana", "cherry", "date", "fig"]
word_lengths = {len(word) for word in words}
print("\n字串長度集合:", word_lengths)

# 提取首字母集合
first_letters = {word[0] for word in words}
print("首字母集合:", first_letters)

# 實際應用: 提取所有不重複的標籤
articles = [
    {"title": "Python Basics", "tags": ["python", "tutorial"]},
    {"title": "Advanced Python", "tags": ["python", "advanced"]},
    {"title": "Web Development", "tags": ["web", "tutorial"]}
]

all_tags = {tag for article in articles for tag in article["tags"]}
print("\n所有標籤:", all_tags)

# 找出所有偶數位數的數字
numbers = [12, 345, 6789, 10, 234, 5]
even_digit_numbers = {num for num in numbers if len(str(num)) % 2 == 0}
print("偶數位數的數字:", even_digit_numbers)

### 範例 8: 集合的實際應用 | Practical Applications

集合在實務中的常見用途

In [None]:
# 應用 1: 列表去重
numbers = [1, 2, 2, 3, 4, 4, 5, 5, 5]
unique_numbers = list(set(numbers))
print("去重前:", numbers)
print("去重後:", unique_numbers)

# 應用 2: 快速成員檢查
# 列表的 in 操作是 O(n),集合是 O(1)
large_list = list(range(1000000))
large_set = set(large_list)

import time

# 列表檢查
start = time.time()
999999 in large_list
list_time = time.time() - start

# 集合檢查
start = time.time()
999999 in large_set
set_time = time.time() - start

print(f"\n列表檢查時間: {list_time:.6f} 秒")
print(f"集合檢查時間: {set_time:.6f} 秒")
print(f"集合快 {list_time/set_time:.0f} 倍")

# 應用 3: 找出遺失的數字
expected = set(range(1, 11))  # 1 到 10
actual = {1, 2, 3, 5, 6, 7, 9, 10}
missing = expected - actual
print(f"\n遺失的數字: {missing}")

# 應用 4: Email 地址驗證 (唯一性)
email_list = [
    "user1@example.com",
    "user2@example.com",
    "user1@example.com",  # 重複
    "user3@example.com"
]

unique_emails = set(email_list)
if len(unique_emails) < len(email_list):
    print(f"\n警告: 發現 {len(email_list) - len(unique_emails)} 個重複 email")
    
# 應用 5: 權限檢查
user_permissions = {"read", "write", "execute"}
required_permissions = {"read", "write"}

if required_permissions <= user_permissions:  # 子集檢查
    print("\n權限檢查: 通過")
else:
    missing_perms = required_permissions - user_permissions
    print(f"權限檢查: 失敗,缺少 {missing_perms}")

---

## Part III: 本章總結 | Chapter Summary

### 知識回顧 | Knowledge Review

**集合的三大特性**:
1. **無序性**: 元素沒有固定順序
2. **唯一性**: 自動去除重複元素
3. **可變性**: 可以新增、刪除元素

**集合的創建**:
- 花括號: `{1, 2, 3}`
- `set()` 函數: `set([1, 2, 3])`
- 推導式: `{x for x in range(5)}`

**集合運算**:
- 聯集: `A | B` 或 `A.union(B)`
- 交集: `A & B` 或 `A.intersection(B)`
- 差集: `A - B` 或 `A.difference(B)`
- 對稱差集: `A ^ B` 或 `A.symmetric_difference(B)`

**常用方法**:
- 新增: `add()`, `update()`
- 刪除: `remove()`, `discard()`, `pop()`, `clear()`
- 關係: `issubset()`, `issuperset()`, `isdisjoint()`

### 常見誤區 | Common Pitfalls

1. **空集合創建**
   ```python
   wrong = {}      # 這是字典!
   correct = set() # 這才是集合!
   ```

2. **集合是無序的**
   ```python
   s = {3, 1, 2}
   # 輸出順序不確定,可能是 {1, 2, 3}
   ```

3. **集合元素必須可雜湊**
   ```python
   # s = {[1, 2]}  # 錯誤! 列表不可雜湊
   s = {(1, 2)}    # 正確! 元組可雜湊
   ```

4. **符號運算 vs 方法**
   ```python
   s1 = {1, 2}
   # s1 | [3, 4]         # 錯誤! 符號只能用於集合
   s1.union([3, 4])      # 正確! 方法可接受可迭代物件
   ```

### 自我檢核 | Self-Check

完成本章後,你應該能夠:

- [ ] 理解集合的三大特性
- [ ] 使用三種方式創建集合
- [ ] 正確創建空集合
- [ ] 新增和刪除集合元素
- [ ] 執行四種集合運算
- [ ] 使用集合推導式
- [ ] 應用集合解決實際問題
- [ ] 選擇適當的資料結構

### 延伸閱讀 | Further Reading

1. **Python 官方文件**:
   - [Set Types](https://docs.python.org/3/library/stdtypes.html#set)
   - [Set Methods](https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset)

2. **進階主題**:
   - frozenset (不可變集合)
   - 集合的時間複雜度
   - 雜湊表原理

3. **實務應用**:
   - 資料去重最佳實踐
   - 權限管理系統設計
   - 社群網路分析