# 基本结构类型-集合(set)

集合是数学中一个基本概念。Python 内置的集合（set）类型适用于异质，无序、唯一、可变，无映射的数据集。与列表有些类似，但差别在于集合中的元素是唯一的，无序的。

## 创建集合对象

在 Python 中使用`{}`来创建集合对象，包括0个或多个对象。但要注意**字典对象也是用大括号 `{}` 来创建**，字典的元素是一个键值对，集合的一个元素就是一个对象，二者能够区别开来的。但是当当创建空集合时，就无法区别了，故只能使用 Python 内置函数`set()`来创建空集合。

集合是个元素唯一，无序的的序列，即集合中的元素都是独一无二的。在创建集合对象时，输入的元素有重复则会自动去重。

In [1]:
emptyset = set()
colors = {'红', '黄', '绿', '红', '黄'}
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(emptyset)
print(colors)
print(basket)

## 自省

> 吾每遇对象必自省，用变量而知其类乎？用其值而知属性乎？用其法而知方法乎？

集合对象都是 Python 内置结构类型集合(set)的实例对象：

In [2]:
print(type(colors), type(basket), type(set()), type({}))

集合包含多个元素时，字典会维持一个键值序号对，并分别指向对应的对象。例如下面创建两个字典对象：

In [3]:
datatypes = {128, 3.13, 'Hello World'}

创建的集合对象以及每个元素，如下图所示：
![集合与元素](../images/set_objects.png)

> 每个对象都有三个特性：类型、身份标识、值。

与列表、字典类似，集合对象的值可以改变，即集合是可变对象，能够可以对集合进行更改、增加、删除操作。

### 属性和方法

使用 `dir()` 函数列出集合对象的属性和方法：

In [4]:
# Try dir(colors)
print(dir(set))

#### 魔术方法

集合定义了一些魔术方法，可以使用简单的算术运算符实现集合的差集，交集，并集，对称差集等操作。

##### 集合运算

这些魔术方法用来实现集合的差集，交集，并集，对称差集等操作。

|运算符 | 魔术方法    |  说明   |
| :----:|:-------------| -------: |
| `-`  | `__sub__`    | 计算差集   |
| `&`    | `__and__`  | 计算交集  |
| <code>&#124;</code>  | `__or__`    | 计算并集  |
| `^`    | `__xor__`   | 计算对称差集|
| `-=`    | `__isub__`   | 计算差集并更新  |
| `&=`    | `__iand__`   | 计算交集并更新  |
| <code>&#124;=</code>    | `__ior__`    | 计算并集并更新  |
| `^=`    | `__ixor__`   | 计算堆成差集并更新 |

##### 比较运算

集合对象之间无法比较谁大谁小，但可以检查是否相等，即比较两个集合中的对象是否一致：

In [5]:
seta = {1, 2, 3.1}
setb = {3.1, 2, 1}
print(seta == setb)
seta = {1, 2, 3.1}
setb = {1, 2, 3.2}
print(seta == setb)

##### 序列运算符

严格意义来说，集合对象不是一个序列对象，它没有实现`__getitem__()`魔术方法。不过可以把它当做一个序列，使用如下运算符：

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
|`len()` | `__len__`   | 返回元素数目  |
|`in` | `__contains__`   | 成员 |

使用 `len()` 函数获得集合的长度，即元素的数目：

In [6]:
len(colors)

使用成员运算符 `in` 来检查指定对象是否在集合中：

In [7]:
print('红' in colors)
print('apple' in basket)

#### 常规函数

集合类型还定义许多常规方法，实现集合的元素增加、更改、删除等操作，以及集合的操作。

##### 元素操作

|方法         |  说明      |
|:--------------:|-------------: |
|`s.add()`     | 添加元素 |
|`s.update()`    | 更新集合 |
|`s.remove()`    | 移除元素 |
|`s.discard()`    | 移除元素 |
|`s.pop()`      | 弹出元素 |
|`s.clear()`    | 删除所有元素 |
|`s.copy()`     | 浅拷贝 |

##### 集合操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.union()`    | 计算并集 |
|`s.intersection()`      | 计算交集 |
|`s.intersection_update()`    | 计算交集并更新 |
|`s.difference()`      | 计算差集 |
|`s.difference_update()`  | 计算差集并更新 |
|`s.symmetric_difference()`   | 计算对称差集   |
|`s.symmetric_difference_update()`    | 计算对称差集并更新 |

##### 测试操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.issubset()`       | 子集测试 |
|`s.issuperset()`  | 超集测试 |
|`s.isdisjoint()`  | 测试集合是否不相交 |

## 操作和方法示例

### 增加元素

集合对象是可变对象，可以添加元素：
- `set.add()`
- `set.update()`

使用`set.add()`添加一个元素，如果元素已存在，则不进行任何操作。

In [8]:
# set add method
colors = {'红', '黄', '绿', '红', '黄'}
print(colors)
colors.add('黑')
colors.add('白')
print(colors)
colors.add('黄')
print(colors)

使用`set.update()`添加多个元素，参数是包含多个元素的列表、元组、字典等数据结构对象。

可以一次传入多个参数。

In [10]:
bigset = set()
digits = {0, 1, 2, 3, 4, 5 , 6,7, 8, 8}
bigset.update(colors, digits)
print(bigset)

{0, 1, 2, '绿', '黄', 3, 4, 5, 6, 7, 8, '白', '红', '黑'}


### 删除元素

从集合中删除元素的方法包括：
- `set.remove()`
- `set.discard()`
- `set.pop()`
- `set.clear()`

`set.remove`将指定元素从集合中删除：

In [14]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(digits)
digits.remove(9)
print(digits)
digits.remove(0)
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


如果元素不存在，会抛出键错误 `KeyError` 异常：

In [15]:
digits.remove('NotAMember')

KeyError: 'NotAMember'

`set.discard()`也会移除中的元素，但当元素不存在时，就啥也不干，也不会抛出异常。

In [16]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(digits)
digits.discard(9)
print(digits)
digits.discard(0)
digits.discard('NotAMember')
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


`set.pop()`会移除集合中的一个元素，并返回该元素。因为集合是无序的序列，所以是随机移除元素。集合如果为空则会抛出KeyError异常。

In [17]:
colors = {'红', '绿', '黄', }
print(colors)
print(colors.pop())
print(colors)
print(colors.pop())
print(colors)
print(colors.pop())
print(colors)

{'红', '绿', '黄'}
红
{'绿', '黄'}
绿
{'黄'}
黄
set()


In [18]:
# print(colors.pop())
# print(colors)

`set.clear()`会把集合所有元素移除，成为空集合。

In [19]:
colors = {'红', '绿', '黄', }
print(colors)
colors.clear()
print(colors)

{'红', '绿', '黄'}
set()


### 浅拷贝集合

使用`set.copy`获得集合的浅拷贝。

In [20]:
colors = {'红', '绿', '黄', }
colors2 = colors.copy()
print(colors)
print(colors2)
print(colors is colors2)

{'红', '绿', '黄'}
{'红', '绿', '黄'}
False


### 并集计算

A和B的并集就是把两个集合可以“相加”，是将A和B的元素放到一起构成的新集合。
![并集](../images/set_union2.png)

集合的并集可以使用如下方法：
- 使用`|`运算符和`set.union()`，计算 A 和 B 的并集，返回并集结果对象；
- 使用`|=`运算符和`set.update()`， 计算 A 和 B 的并集，结果更新到集合 A 

In [21]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa | sb)
print(sa.union(sb))

{'c', 'r', 'a', 'b', 'd'} {'c', 'l', 'z', 'a', 'm'}
{'c', 'l', 'r', 'z', 'a', 'm', 'b', 'd'}
{'c', 'l', 'r', 'z', 'a', 'm', 'b', 'd'}


In [22]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
sa |= sb
print(sa)
sa = set('abracadabra')
sb = set('alacazam')
sa.update(sb)
print(sa)

{'c', 'l', 'r', 'z', 'a', 'm', 'b', 'd'}
{'c', 'l', 'r', 'z', 'a', 'm', 'b', 'd'}


### 交集

通过两个集合共有的元素来构造新的集合。A和B的交集，是既属于A的、又属于B的所有元素组成的集合。
![交集](../images/set_intersection2.png)

集合的交集可以使用如下方法：
- 运算符 `&` 和 `set.intersection()`，计算交集并返回结果
- 运算符 `&=` 和 `set.intersection_update()`，计算交集并更新

In [23]:
# set intersection
sa = set('abracadabra')
sb = set('alacazam')
print(sa & sb)
print(sa.intersection(sb))

{'a', 'c'}
{'a', 'c'}


In [24]:
# set intersection_update
sa = set('abracadabra')
sb = set('alacazam')
sa &= sb
print(sa)
sa = set('abracadabra')
sb = set('alacazam')
sa.intersection_update(sb)
print(sa)

{'a', 'c'}
{'a', 'c'}


### 差集

两个集合也可以相"减"。差集（$A−B$），也就是是属于A的、但不属于B的所有元素组成的集合。

![交集](../images/set_difference2.png)

集合的差集可以使用如下方法：
- 运算符 `-` 和 `set.difference()`，
- 运算符 `-=` 和 `set.difference_update()`

In [25]:
# set difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa - sb)
print(sa.difference(sb))

{'r', 'b', 'd'}
{'r', 'b', 'd'}


In [26]:
# set difference_update
sa = set('abracadabra')
sb = set('alacazam')
sa -= sb
print(sa)

sa = set('abracadabra')
sb = set('alacazam')
sa.difference_update(sb)
print(sa)

{'r', 'b', 'd'}
{'r', 'b', 'd'}


### 对称差集

对称差就是两个集合的交集减去其并集。
![对称差](../images/set_sym_difference2.png)

集合的对称差集可以使用如下方法：
- 运算符 `^` 与 `set.symmetric_difference()`
- 运算符`^=` 与 `set.symmetric_difference_update()`

In [27]:
# set symmetric_difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa ^ sb)
print(sa.symmetric_difference(sb))

{'m', 'b', 'l', 'z', 'r', 'd'}
{'m', 'b', 'l', 'z', 'r', 'd'}


In [28]:
# set systemtric_difference_update
sa = set('abracadabra')
sb = set('alacazam')
sa ^= sb
print(sa)

sa = set('abracadabra')
sb = set('alacazam')
sa.symmetric_difference_update(sb)
print(sa)

{'l', 'r', 'z', 'm', 'b', 'd'}
{'l', 'r', 'z', 'm', 'b', 'd'}


### 测试操作

如果一个集合A是另一个集合的子集，意味着A的所有元素也都是B的元素。反之，则为超集。
![子集](../images/set-subset.jpg)

In [29]:
A = {1, 2, 3}
digits = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
print(A.issubset(digits))
print(digits.issuperset(A))

True
True


如果两个集合不相交，也就是说二者没有交集，即没有共同元素。
![不相交](../images/set-disjoint-sets.jpg)

In [33]:
digits = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
colors = {'红', '绿', '黄'}
print(colors.isdisjoint(A))

True


## 遍历集合

集合没有实现`__getitem__()`方法，不能算是序列对象，不过集合对象实现有`__iter__()`方法。实现了`__iter__()`方法的对象称为可迭代对象。序列对象或可迭代对象都可以进行遍历循环。下面使用 `for` 语句来遍历集合中的的每一个元素，注意集合是无序的：

In [1]:
colors = {'红', '绿', '黄'}
for color in colors:
    if color == '红':
        print('停下来')
    else:
        print('走起')        

走起
走起
停下来


## 转换

使用内置`set`类构造对象:
- 不传入参数，返回空集合；
- 传入迭代对象，返回新的集合对象。

In [31]:
emptyset = set()
print(emptyset)

set()


In [2]:
digits = set(range(9))
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8}


## 错误与异常

> 像硬币一样，任何事物都具有两重性或两面性。

集合中常见错误是
- 键错误（KeyError），当集合中删除元素时，当元素不存在是会抛出键错误异常。