# 基本结构类型-集合(set)

集合是数学中一个基本概念。Python 内置的集合（set）类型适用于异质，无序、唯一、可变，无映射的数据集。与列表有些类似，但差别在于集合中的元素是唯一的，无序的。

## 创建集合对象

在 Python 中使用`{}`来创建集合对象，包括0个或多个对象。但要注意**字典对象也是用大括号 `{}` 来创建**，字典的元素是一个键值对，集合的一个元素就是一个对象，二者能够区别开来的。但是当当创建空集合时，就无法区别了，故只能使用 Python 内置函数`set()`来创建空集合。

In [1]:
emptyset = set()
colors = {'红', '黄', '绿', '红', '黄'}
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(emptyset)
print(colors)
print(basket)

set()
{'黄', '绿', '红'}
{'banana', 'apple', 'pear', 'orange'}


## 自省

In [2]:
print(type(colors), type(basket), type(set()), type({}))

<class 'set'> <class 'set'> <class 'set'> <class 'dict'>


集合包含多个元素时，字典会维持一个键值序号对，并分别指向对应的对象。例如下面创建两个字典对象：

In [3]:
datatypes = {128, 3.13, 'Hello World'}

创建的集合对象以及每个元素，如下图所示：
![集合与元素](../images/set_objects.png)

### 属性和方法

##### 集合运算

这些魔术方法用来实现集合的差集，交集，并集，对称差集等操作。

|运算符 | 魔术方法    |  说明   |
| :----:|:-------------| -------: |
| `-`  | `__sub__`    | 计算差集   |
| `&`    | `__and__`  | 计算交集  |
| <code>&#124;</code>  | `__or__`    | 计算并集  |
| `^`    | `__xor__`   | 计算对称差集|
| `-=`    | `__isub__`   | 计算差集并更新  |
| `&=`    | `__iand__`   | 计算交集并更新  |
| <code>&#124;=</code>    | `__ior__`    | 计算并集并更新  |
| `^=`    | `__ixor__`   | 计算堆成差集并更新 |

##### 序列运算符

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
|`len()` | `__len__`   | 返回元素数目  |
|`in` | `__contains__`   | 成员 |

使用成员运算符 `in` 来检查指定对象是否在集合中：

In [4]:
print('红' in colors)
print('apple' in basket)

True
True


##### 元素操作

|方法         |  说明      |
|:--------------:|-------------: |
|`s.add()`     | 添加元素 |
|`s.update()`    | 更新集合 |
|`s.remove()`    | 移除元素 |
|`s.discard()`    | 移除元素 |
|`s.pop()`      | 弹出元素 |
|`s.clear()`    | 删除所有元素 |
|`s.copy()`     | 浅拷贝 |

##### 集合操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.union()`    | 计算并集 |
|`s.intersection()`      | 计算交集 |
|`s.intersection_update()`    | 计算交集并更新 |
|`s.difference()`      | 计算差集 |
|`s.difference_update()`  | 计算差集并更新 |
|`s.symmetric_difference()`   | 计算对称差集   |
|`s.symmetric_difference_update()`    | 计算对称差集并更新 |

##### 测试操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.issubset()`       | 子集测试 |
|`s.issuperset()`  | 超集测试 |
|`s.isdisjoint()`  | 测试集合是否不相交 |

## 操作和方法示例

### 增加元素

集合对象是可变对象，可以添加元素：
- `set.add()`
- `set.update()`

In [5]:
# set add method
colors = {'红', '黄', '绿', '红', '黄'}
print(colors)
colors.add('黑')
colors.add('白')
print(colors)
colors.add('黄')
print(colors)

{'黄', '绿', '红'}
{'黄', '绿', '白', '红', '黑'}
{'黄', '绿', '白', '红', '黑'}


使用`set.update()`添加多个元素，参数是包含多个元素的列表、元组、字典等数据结构对象。

可以一次传入多个参数。

In [6]:
bigset = set()
digits = {0, 1, 2, 3, 4, 5 , 6,7, 8, 8}
bigset.update(colors, digits)
print(bigset)

{0, 1, 2, 3, 4, 5, 6, 7, 8, '黄', '绿', '白', '红', '黑'}


### 删除元素

从集合中删除元素的方法包括：
- `set.remove()`
- `set.discard()`
- `set.pop()`
- `set.clear()`

`set.discard()`也会移除中的元素，但当元素不存在时，就啥也不干，也不会抛出异常。

In [7]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(digits)
digits.discard(9)
print(digits)
digits.discard(0)
digits.discard('NotAMember')
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


### 并集计算

A和B的并集就是把两个集合可以“相加”，是将A和B的元素放到一起构成的新集合。
![并集](../images/set_union2.png)

In [8]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa | sb)
print(sa.union(sb))

{'a', 'c', 'd', 'b', 'r'} {'a', 'l', 'c', 'z', 'm'}
{'a', 'l', 'c', 'z', 'd', 'b', 'r', 'm'}
{'a', 'l', 'c', 'z', 'd', 'b', 'r', 'm'}


### 交集

通过两个集合共有的元素来构造新的集合。A和B的交集，是既属于A的、又属于B的所有元素组成的集合。
![交集](../images/set_intersection2.png)

In [9]:
# set intersection
sa = set('abracadabra')
sb = set('alacazam')
print(sa & sb)
print(sa.intersection(sb))

{'a', 'c'}
{'a', 'c'}


## 遍历集合

In [10]:
colors = {'红', '绿', '黄'}
for color in colors:
    if color == '红':
        print('停下来')
    else:
        print('走起')        

走起
走起
停下来


## 转换

使用内置`set`类构造对象:
- 不传入参数，返回空集合；
- 传入迭代对象，返回新的集合对象。

In [11]:
digits = set(range(9))
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8}
