# 第09章：集合（Set）

集合是一种无序、不重复的数据结构，主要用于去重和数学运算。

## 什么是集合？

集合就像一个篮子，相同的东西只能放一个。

In [None]:
# 自动去重
numbers = {1, 2, 2, 3, 3, 3}
print(numbers)  # {1, 2, 3}

# 无序（不保证顺序）
fruits = {"apple", "banana", "orange"}
print(fruits)  # 每次运行顺序可能不同

## 创建集合

### 直接创建

In [None]:
# 用花括号
numbers = {1, 2, 3, 4, 5}
fruits = {"apple", "banana", "orange"}

# 空集合只能用set()
empty = set()  # 正确
# empty = {}  # 错误！这是空字典

### 从其他类型转换

In [None]:
# 列表转集合（去重）
lst = [1, 2, 2, 3, 3, 3]
s = set(lst)
print(s)  # {1, 2, 3}

# 字符串转集合
chars = set("hello")
print(chars)  # {'h', 'e', 'l', 'o'}（自动去重）

# 元组转集合
tup = (1, 2, 2, 3)
s = set(tup)
print(s)  # {1, 2, 3}

## 集合操作

### 添加元素

In [None]:
fruits = {"apple", "banana"}

# add()添加单个元素
fruits.add("orange")
print(fruits)  # {'apple', 'banana', 'orange'}

# 添加已存在的元素（无效，不会报错）
fruits.add("apple")
print(fruits)  # 还是3个元素

# update()添加多个元素
fruits.update(["grape", "melon"])
print(fruits)  # {'apple', 'banana', 'orange', 'grape', 'melon'}

### 删除元素

In [None]:
fruits = {"apple", "banana", "orange"}

# remove()删除（不存在会报错）
fruits.remove("banana")
print(fruits)  # {'apple', 'orange'}
# fruits.remove("grape")  # KeyError!

# discard()删除（不存在不会报错）
fruits.discard("apple")
fruits.discard("grape")  # 不报错

# pop()随机删除一个元素
fruits = {"apple", "banana", "orange"}
item = fruits.pop()
print(f"删除了：{item}")

# clear()清空
fruits.clear()
print(fruits)  # set()

### 检查元素

In [None]:
fruits = {"apple", "banana", "orange"}

# in 运算符
print("apple" in fruits)   # True
print("grape" in fruits)   # False
print("grape" not in fruits)  # True

## 集合运算

集合支持数学运算：并集、交集、差集、对称差集。

### 并集（Union）

所有元素的集合。

In [None]:
a = {1, 2, 3}
b = {3, 4, 5}

# | 运算符
print(a | b)  # {1, 2, 3, 4, 5}

# union()方法
print(a.union(b))  # {1, 2, 3, 4, 5}

### 交集（Intersection）

共同元素的集合。

In [None]:
a = {1, 2, 3}
b = {3, 4, 5}

# & 运算符
print(a & b)  # {3}

# intersection()方法
print(a.intersection(b))  # {3}

### 差集（Difference）

在a中但不在b中的元素。

In [None]:
a = {1, 2, 3}
b = {3, 4, 5}

# - 运算符
print(a - b)  # {1, 2}
print(b - a)  # {4, 5}

# difference()方法
print(a.difference(b))  # {1, 2}

### 对称差集（Symmetric Difference）

在a或b中，但不同时在两者中的元素。

In [None]:
a = {1, 2, 3}
b = {3, 4, 5}

# ^ 运算符
print(a ^ b)  # {1, 2, 4, 5}

# symmetric_difference()方法
print(a.symmetric_difference(b))  # {1, 2, 4, 5}

### 图解集合运算

```
a = {1, 2, 3}
b = {3, 4, 5}

并集 a | b  = {1, 2, 3, 4, 5}  # 所有元素
交集 a & b  = {3}              # 共同元素
差集 a - b  = {1, 2}           # a有b没有
对称差 a ^ b = {1, 2, 4, 5}    # 不共同的元素
```

## 集合判断

### 子集和超集

In [None]:
a = {1, 2}
b = {1, 2, 3, 4}

# 子集（a的所有元素都在b中）
print(a.issubset(b))  # True
print(a <= b)         # True

# 真子集（子集且不相等）
print(a < b)          # True

# 超集（b包含a的所有元素）
print(b.issuperset(a))  # True
print(b >= a)           # True

# 真超集
print(b > a)            # True

### 不相交

In [None]:
a = {1, 2, 3}
b = {4, 5, 6}
c = {3, 4, 5}

# 没有共同元素
print(a.isdisjoint(b))  # True
print(a.isdisjoint(c))  # False

## 集合推导式

In [None]:
# 基本形式
squares = {x**2 for x in range(1, 6)}
print(squares)  # {1, 4, 9, 16, 25}

# 带条件
even_squares = {x**2 for x in range(1, 11) if x % 2 == 0}
print(even_squares)  # {4, 16, 36, 64, 100}

## 冻结集合（frozenset）

不可变的集合，可以作为字典的key。

In [None]:
# 创建frozenset
fs = frozenset([1, 2, 3])
print(fs)  # frozenset({1, 2, 3})

# 不能修改
# fs.add(4)  # AttributeError

# 可以做字典的key
d = {
    frozenset([1, 2]): "a",
    frozenset([3, 4]): "b"
}

## 集合遍历

In [None]:
fruits = {"apple", "banana", "orange"}

# 遍历元素
for fruit in fruits:
    print(fruit)

# 转成列表再遍历（如果需要顺序）
for fruit in sorted(fruits):
    print(fruit)

## 实战例子

### 例子1：去重

In [None]:
# 列表去重
numbers = [1, 2, 2, 3, 3, 3, 4, 4, 5]
unique = list(set(numbers))
print(unique)  # [1, 2, 3, 4, 5]

# 保持顺序去重
def unique_list(lst):
    seen = set()
    result = []
    for item in lst:
        if item not in seen:
            seen.add(item)
            result.append(item)
    return result

numbers = [1, 2, 2, 3, 3, 3, 4, 4, 5]
print(unique_list(numbers))  # [1, 2, 3, 4, 5]

### 例子2：找出共同好友

In [None]:
# 社交网络
friends_a = {"张三", "李四", "王五", "赵六"}
friends_b = {"李四", "王五", "孙七", "周八"}

# 共同好友
common = friends_a & friends_b
print(f"共同好友：{common}")  # {'李四', '王五'}

# A有但B没有的朋友
only_a = friends_a - friends_b
print(f"只有A的朋友：{only_a}")  # {'张三', '赵六'}

# 所有朋友
all_friends = friends_a | friends_b
print(f"所有朋友：{all_friends}")

### 例子3：统计唯一单词

In [None]:
text = """
Python is great. Python is easy.
I love Python. Python is powerful.
"""

# 提取所有单词
words = text.lower().split()

# 去除标点
import string
words = [word.strip(string.punctuation) for word in words]

# 唯一单词
unique_words = set(words)
print(f"唯一单词数：{len(unique_words)}")
print(f"唯一单词：{unique_words}")

### 例子4：检查权限

In [None]:
# 用户权限系统
admin_permissions = {"read", "write", "delete", "execute"}
user_permissions = {"read", "write"}

# 检查是否有权限
required = "delete"
if required in admin_permissions:
    print("管理员有删除权限")

# 检查用户缺少的权限
missing = admin_permissions - user_permissions
print(f"用户缺少的权限：{missing}")  # {'delete', 'execute'}

# 授予权限
user_permissions.add("delete")
print(f"新权限：{user_permissions}")

### 例子5：数据验证

In [None]:
# 验证邮箱域名
valid_domains = {"gmail.com", "outlook.com", "qq.com", "163.com"}

def validate_email(email):
    if "@" not in email:
        return False
    domain = email.split("@")[1]
    return domain in valid_domains

# 测试
emails = ["test@gmail.com", "user@yahoo.com", "hello@qq.com"]
for email in emails:
    if validate_email(email):
        print(f"{email} ✓")
    else:
        print(f"{email} ✗")

### 例子6：找出重复元素

In [None]:
def find_duplicates(lst):
    """找出列表中的重复元素"""
    seen = set()
    duplicates = set()
    for item in lst:
        if item in seen:
            duplicates.add(item)
        else:
            seen.add(item)
    return duplicates

numbers = [1, 2, 3, 2, 4, 3, 5, 1]
dups = find_duplicates(numbers)
print(f"重复元素：{dups}")  # {1, 2, 3}

## 集合 vs 列表 vs 字典

| 特性 | 列表 | 集合 | 字典 |
|------|------|------|------|
| 顺序 | 有序 | 无序 | Python 3.7+有序 |
| 重复 | 允许 | 不允许 | key不允许 |
| 可变 | 可变 | 可变 | 可变 |
| 索引 | 支持 | 不支持 | key访问 |
| 查找速度 | O(n) | O(1) | O(1) |
| 适用场景 | 有序数据 | 去重、集合运算 | 键值对查找 |

## 常见陷阱

### 陷阱1：空集合

In [None]:
# 错误
empty = {}  # 这是空字典！
print(type(empty))  # <class 'dict'>

# 正确
empty = set()
print(type(empty))  # <class 'set'>

### 陷阱2：集合元素必须可哈希

In [None]:
# 错误
# s = {[1, 2], [3, 4]}  # TypeError: unhashable type: 'list'

# 正确：用元组代替列表
s = {(1, 2), (3, 4)}

### 陷阱3：集合无序

In [None]:
s = {3, 1, 2}
print(s)  # 输出顺序不一定是{3, 1, 2}

# 如果需要顺序，先排序
for item in sorted(s):
    print(item)

## 练习题

### 练习1：集合运算练习

```python
a = {1, 2, 3, 4, 5}
b = {4, 5, 6, 7, 8}
# 计算：并集、交集、差集、对称差集
```

### 练习2：找出只出现一次的元素

```python
numbers = [1, 2, 3, 2, 4, 3, 5]
# 找出只出现一次的元素：[1, 4, 5]
```

### 练习3：两个列表的交集

找出两个列表的共同元素。

### 练习4：检查是否是字母异位词

两个单词是否由相同的字母组成。

```python
# "listen" 和 "silent" → True
# "hello" 和 "world" → False
```

### 练习5：数独验证

检查数独的一行是否有效（1-9不重复）。

## 本章重点

- ✅ 集合自动去重
- ✅ 集合无序
- ✅ 支持数学运算（并、交、差、对称差）
- ✅ 查找速度快O(1)
- ✅ 元素必须可哈希（不可变）
- ✅ 空集合用set()不是{}

**记住**
- 集合主要用于去重和集合运算
- 集合无序，不能用索引访问
- 元素必须是不可变类型
- 查找效率比列表高得多
- frozenset是不可变集合