# Python Set 集合用法完整指南

## 📚 什么是Set
Set是Python中的一种**无序**、**不重复**的可变数据类型，类似于数学中的集合概念。

## 🔧 创建Set的方法

### 基本创建方式
```python
# 空集合
empty_set = set()

# 直接创建
s1 = {1, 2, 3, 4}
s2 = {'a', 'b', 'c'}

# 从其他数据类型创建
s3 = set([1, 2, 3, 3, 4])  # 重复元素会被去除
s4 = set('hello')          # {'h', 'e', 'l', 'o'}
s5 = set((1, 2, 3))        # 从元组创建
```

### ⚠️ 注意事项
- `{}` 创建的是字典，不是集合
- 集合中的元素必须是**不可变类型**（数字、字符串、元组等）
- 不能包含列表、字典等可变类型


In [None]:
# 基本创建和去重演示
s1 = {1, 2, 3, 4}
s2 = set([1, 2, 2, 3, 3, 4])  # 自动去重
s3 = set('hello')              # 字符串去重

print(f"s1: {s1}")
print(f"s2: {s2}")  
print(f"s3: {s3}")
print(f"空集合: {set()}")

# 验证类型
print(f"类型: {type(s1)}")


## 🔍 基本操作方法

### 添加元素
| 方法 | 功能 | 用法 |
|------|------|------|
| `add(elem)` | 添加单个元素 | `s.add(5)` |
| `update(iterable)` | 添加多个元素 | `s.update([4, 5, 6])` |

### 删除元素  
| 方法 | 功能 | 区别 |
|------|------|------|
| `remove(elem)` | 删除指定元素 | 元素不存在会报错 |
| `discard(elem)` | 删除指定元素 | 元素不存在不报错 |
| `pop()` | 删除并返回任意元素 | 集合为空会报错 |
| `clear()` | 清空集合 | 集合变为空集合 |

### 查询操作
| 方法 | 功能 | 返回值 |
|------|------|--------|
| `len(s)` | 获取元素个数 | 整数 |
| `elem in s` | 检查元素是否存在 | True/False |
| `elem not in s` | 检查元素是否不存在 | True/False |


In [None]:
# 基本操作演示
s = {1, 2, 3}
print(f"初始集合: {s}")

# 添加元素
s.add(4)
print(f"add(4)后: {s}")

s.update([5, 6, 7])
print(f"update([5,6,7])后: {s}")

# 删除元素
s.remove(7)  # 删除7
print(f"remove(7)后: {s}")

s.discard(10)  # 删除不存在的元素，不会报错
print(f"discard(10)后: {s}")

# 弹出元素
popped = s.pop()
print(f"pop()返回: {popped}, 剩余: {s}")

# 查询操作
print(f"长度: {len(s)}")
print(f"2 in s: {2 in s}")
print(f"10 not in s: {10 not in s}")


## 🧮 集合运算方法

### 数学集合操作
| 运算 | 方法形式 | 运算符形式 | 功能 |
|------|----------|------------|------|
| **并集** | `s1.union(s2)` | `s1 \| s2` | 两集合所有元素 |
| **交集** | `s1.intersection(s2)` | `s1 & s2` | 两集合共同元素 |
| **差集** | `s1.difference(s2)` | `s1 - s2` | s1中有但s2没有的元素 |
| **对称差集** | `s1.symmetric_difference(s2)` | `s1 ^ s2` | 两集合不共同的元素 |

### 集合关系判断
| 方法 | 运算符 | 功能 |
|------|--------|------|
| `s1.issubset(s2)` | `s1 <= s2` | s1是否为s2的子集 |
| `s1.issuperset(s2)` | `s1 >= s2` | s1是否为s2的超集 |
| `s1.isdisjoint(s2)` | 无 | 两集合是否无交集 |

### 原地更新方法
| 方法 | 运算符 | 功能 |
|------|--------|------|
| `s1.update(s2)` | `s1 \|= s2` | 将s2并入s1 |
| `s1.intersection_update(s2)` | `s1 &= s2` | s1保留与s2的交集 |
| `s1.difference_update(s2)` | `s1 -= s2` | 从s1中删除s2的元素 |
| `s1.symmetric_difference_update(s2)` | `s1 ^= s2` | s1更新为对称差集 |


In [None]:
# 集合运算演示
s1 = {1, 2, 3, 4}
s2 = {3, 4, 5, 6}

print(f"s1: {s1}")
print(f"s2: {s2}")
print()

# 集合运算
print("=== 集合运算 ===")
print(f"并集 s1 | s2: {s1 | s2}")
print(f"交集 s1 & s2: {s1 & s2}")
print(f"差集 s1 - s2: {s1 - s2}")
print(f"对称差集 s1 ^ s2: {s1 ^ s2}")
print()

# 集合关系
print("=== 集合关系 ===")
s3 = {1, 2}
print(f"s3: {s3}")
print(f"s3是s1的子集: {s3 <= s1}")
print(f"s1是s3的超集: {s1 >= s3}")
print(f"s1和s2无交集: {s1.isdisjoint(s2)}")
print()

# 原地更新演示
print("=== 原地更新 ===")
s_copy = s1.copy()
print(f"原始: {s_copy}")
s_copy |= {7, 8}
print(f"并入{7,8}后: {s_copy}")


## 🔄 其他重要方法

### 复制和转换
| 方法 | 功能 | 用法 |
|------|------|------|
| `copy()` | 浅复制集合 | `s2 = s1.copy()` |
| `list(s)` | 转换为列表 | `lst = list(s)` |
| `tuple(s)` | 转换为元组 | `tup = tuple(s)` |

### 遍历和迭代
```python
# 直接遍历
for item in s:
    print(item)

# 使用enumerate获取索引（注意：集合无序）
for i, item in enumerate(s):
    print(f"{i}: {item}")
```

### frozenset - 不可变集合
```python
# 创建不可变集合
fs = frozenset([1, 2, 3])

# frozenset可以作为字典的键或其他集合的元素
d = {fs: 'value'}
s = {fs, frozenset([4, 5])}
```


In [None]:
# 其他方法演示
s = {1, 2, 3, 4, 5}

# 复制
s_copy = s.copy()
print(f"原集合: {s}")
print(f"复制集合: {s_copy}")
print(f"是同一对象: {s is s_copy}")
print()

# 转换
print("=== 类型转换 ===")
print(f"转为列表: {list(s)}")
print(f"转为元组: {tuple(s)}")
print()

# 遍历
print("=== 遍历方式 ===")
for item in s:
    print(f"元素: {item}")
print()

# frozenset演示
print("=== frozenset ===")
fs = frozenset([1, 2, 3])
print(f"frozenset: {fs}")
print(f"类型: {type(fs)}")

# frozenset作为字典键
d = {fs: "frozen集合作为键"}
print(f"字典: {d}")

# frozenset作为集合元素
s_with_frozen = {fs, frozenset([4, 5])}
print(f"包含frozenset的集合: {s_with_frozen}")


## 🎯 常见用途总结

### 1. 数据去重
```python
# 列表去重
numbers = [1, 2, 2, 3, 3, 4]
unique_numbers = list(set(numbers))
```

### 2. 成员关系测试（高效）
```python
# O(1) 时间复杂度
if item in large_set:
    # 比列表查找快得多
    pass
```

### 3. 集合运算
```python
# 找两个列表的共同元素
common = set(list1) & set(list2)

# 找两个列表的不同元素  
diff = set(list1) - set(list2)
```

### 4. 数据清洗
```python
# 过滤重复数据
clean_data = set(dirty_data)
```

## 📋 完整方法列表

| 类别 | 方法名 | 功能描述 |
|------|--------|----------|
| **创建** | `set()`, `{...}` | 创建集合 |
| **添加** | `add()`, `update()` | 添加元素 |
| **删除** | `remove()`, `discard()`, `pop()`, `clear()` | 删除元素 |
| **查询** | `len()`, `in`, `not in` | 查询操作 |
| **运算** | `union()`, `intersection()`, `difference()`, `symmetric_difference()` | 集合运算 |
| **关系** | `issubset()`, `issuperset()`, `isdisjoint()` | 关系判断 |
| **更新** | `update()`, `intersection_update()`, `difference_update()`, `symmetric_difference_update()` | 原地更新 |
| **其他** | `copy()`, `frozenset()` | 复制和不可变版本 |

## ⚡ 性能特点
- **查找**: O(1) 平均时间复杂度
- **添加/删除**: O(1) 平均时间复杂度  
- **集合运算**: 线性时间复杂度
- **空间**: 哈希表实现，内存效率高


In [None]:
# 常见用途演示
import time

# 1. 数据去重
print("=== 数据去重 ===")
numbers = [1, 2, 2, 3, 3, 4, 4, 5]
unique_numbers = list(set(numbers))
print(f"原列表: {numbers}")
print(f"去重后: {unique_numbers}")
print()

# 2. 高效成员测试
print("=== 性能对比 ===")
large_list = list(range(100000))
large_set = set(large_list)

# 测试查找性能
target = 99999

# 列表查找
start = time.time()
result1 = target in large_list
time1 = time.time() - start

# 集合查找
start = time.time()
result2 = target in large_set
time2 = time.time() - start

print(f"列表查找耗时: {time1:.6f}秒")
print(f"集合查找耗时: {time2:.6f}秒")
print(f"集合比列表快 {time1/time2:.1f} 倍")
print()

# 3. 集合运算应用
print("=== 实际应用 ===")
favorites_alice = {'python', 'java', 'go', 'rust'}
favorites_bob = {'python', 'javascript', 'go', 'c++'}

print(f"Alice喜欢: {favorites_alice}")
print(f"Bob喜欢: {favorites_bob}")
print(f"共同喜欢: {favorites_alice & favorites_bob}")
print(f"Alice独有: {favorites_alice - favorites_bob}")
print(f"Bob独有: {favorites_bob - favorites_alice}")
print(f"所有语言: {favorites_alice | favorites_bob}")
