# 基本类型-集合(set)


集合（set）是异质、可变、唯一，无序的，无索引的序列。

## 创建集合对象

集合是个无序不重复元素（数据项）的序列。集合中的元素都是独一无二的。创建集合对象：
- 使用`{}`。
- 使用内置`set()`

> 注意：字典也用到大括号`{ }`，并且可用来创建空字典。故而要创建空集合必须用`set()`。

In [1]:
colors = {'红', '黄', '绿', '红', '黄'}
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(colors)
print(basket)

{'红', '绿', '黄'}
{'banana', 'pear', 'orange', 'apple'}


使用内置`set`类构造对象:
- 不传入参数，返回空集合；
- 传入迭代对象，返回新的集合对象。

```
set() -> new empty set object
set(iterable) -> new set object
```

In [2]:
emptyset = set()
print(emptyset)

set()


In [3]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 9])
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


## 自省

> 吾每遇对象必自省，用变量而知其类乎？用其值而知属性乎？用其法而知方法乎？

使用内置函数`type()`查看对象的类型

In [4]:
print(type({}), type(colors), type(basket), type(digits))

<class 'dict'> <class 'set'> <class 'set'> <class 'set'>


使用内置函数`id()`查看对象内存地址

In [5]:
colors2 = {'红', '黄', '绿', '红'}
print(id(colors), id(colors2))

139905359429192 139905341456904


使用`is`操作符来检查是否时同一对象

In [6]:
colors is colors2

False

![集合对象](assets/setObjects01.png)

> 每个对象都有三个特性：类型、身份标识、值。

与列表、字典类似，集合对象的值可以改变，集合是可变对象。能够更改、增加、删除集合的数据选项。

### 帮助

- 使用内置函数`help()`函数

- 可以使用IPython自省功能?或??

In [7]:
# Try help(colors)
help(set)

Help on class set in module builtins:

class set(object)
 |  set() -> new empty set object
 |  set(iterable) -> new set object
 |  
 |  Build an unordered collection of unique elements.
 |  
 |  Methods defined here:
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __contains__(...)
 |      x.__contains__(y) <==> y in x.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iand__(self, value, /)
 |      Return self&=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __ior__(self, value, /)
 |      Return self|=value.
 |  
 |  __isub__(self, value, /)
 |      Return self-=value.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __ixor__(self, value, /)
 |      Re

In [8]:
colors?

### 属性和方法

- 使用`dir()`函数列出对象的属性和方法

In [9]:
# Try dir(colors)
dir(set)

['__and__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'add',
 'clear',
 'copy',
 'difference',
 'difference_update',
 'discard',
 'intersection',
 'intersection_update',
 'isdisjoint',
 'issubset',
 'issuperset',
 'pop',
 'remove',
 'symmetric_difference',
 'symmetric_difference_update',
 'union',
 'update']

#### 算术操作

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `-`  | `__sub__`    | 计算差集   |

#### 比较运算

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `<`  | `__lt__`    | 小于   |
| `<=`  | `__le__`   | 小于等于   |
| `>`  | `__gt__`    | 大于   |
| `>=` | `__ge__`    | 大于等于   |
| `==`  | `__eq__`   | 等于   |
| `!=` | `__ne__`    | 不等于   |

#### 集合运算

| 操作符 | 特殊方法    |  说明     |
| :----: |:-------------| :---------- |
| `&`    | `__and__`   | 计算交集  |
| <code>&#124;</code>    | `__or__`    | 计算并集  |
| `^`    | `__xor__`   | 计算对称差集|

#### 赋值运算

| 操作符 | 特殊方法    |  说明     |
| :----: |:-------------| :---------- |
| `-=`    | `__isub__`   | 计算差集并更新  |
| `&=`    | `__iand__`   | 计算交集并更新  |
| <code>&#124;=</code>    | `__ior__`    | 计算并集并更新  |
| `^=`    | `__ixor__`   | 计算堆成差集并更新 |

#### 元素访问

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
|`len()` | `__len__`   | 返回元素数目  |

In [10]:
len(colors)

3

#### 成员运算符

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
|`in` | `__contains__`   | 成员 |

In [11]:
print('红' in colors)
print('apple' in basket)

True
True


#### 常规函数

##### 元素操作

|方法         |  说明      |
|:--------------:|-------------: |
|`s.add()`     | 添加元素 |
|`s.update()`    | 更新集合 |
|`s.remove()`    | 移除元素 |
|`s.discard()`    | 移除元素 |
|`s.pop()`      | 弹出元素 |
|`s.clear()`    | 删除所有元素 |
|`s.copy()`     | 浅拷贝 |

##### 集合操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.union()`    | 计算并集 |
|`s.intersection()`      | 计算交集 |
|`s.intersection_update()`    | 计算交集并更新 |
|`s.difference()`      | 计算差集 |
|`s.difference_update()`  | 计算差集并更新 |
|`s.symmetric_difference()`   | 计算对称差集   |
|`s.symmetric_difference_update()`    | 计算对称差集并更新 |

##### 测试操作

|方法         |  说明      |
|:-----------------:|-------------: |
|`s.issubset()`       | 子集测试 |
|`s.issuperset()`  | 超集测试 |
|`s.isdisjoint()`  | 测试集合是否不相交 |

## 操作和方法示例

### 添加元素

集合实例是可变对象，可以添加元素：
- `set.add()`
- `set.update()`

使用`set.add()`添加一个元素，如果元素已存在，则不进行任何操作。

In [12]:
help(set.add)

Help on method_descriptor:

add(...)
    Add an element to a set.
    
    This has no effect if the element is already present.



In [13]:
# set add method
colors = {'红', '黄', '绿', '红', '黄'}
print(colors)
colors.add('黑')
colors.add('白')
print(colors)
colors.add('黄')
print(colors)

{'绿', '红', '黄'}
{'白', '绿', '黑', '红', '黄'}
{'白', '绿', '黑', '红', '黄'}


使用`set.update()`添加多个元素，参数是包含多个元素的列表、元组、字典等数据结构对象。

可以一次传入多个参数。

In [14]:
help(set.update)

Help on method_descriptor:

update(...)
    Update a set with the union of itself and others.



In [15]:
bigset = set()
bigset.update(colors, digits)
print(bigset)

{0, 1, 2, 3, 4, '白', 5, 6, 7, '黑', '绿', 8, 9, '红', '黄'}


### 移除元素

从集合中移除元素的方法包括：
- `set.remove()`
- `set.discard()`
- `set.pop()`
- `set.clear()`

`set.remove`将指定元素从集合中删除，如果元素不存在，会抛出KeyError异常

In [16]:
help(set.remove)

Help on method_descriptor:

remove(...)
    Remove an element from a set; it must be a member.
    
    If the element is not a member, raise a KeyError.



In [17]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(digits)
digits.remove(9)
print(digits)
digits.remove(0)
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


In [18]:
# digits.remove('NotAMember')

`set.discard()`也会移除中的元素，但当元素不存在时，就啥也不干，也不会抛出异常。

In [19]:
help(set.discard)

Help on method_descriptor:

discard(...)
    Remove an element from a set if it is a member.
    
    If the element is not a member, do nothing.



In [20]:
digits = set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(digits)
digits.discard(9)
print(digits)
digits.discard(0)
digits.discard('NotAMember')
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


`set.pop()`会移除集合中的一个元素，并返回该元素。因为集合是无序的序列，所以是随机移除元素。集合如果为空则会抛出KeyError异常。

In [21]:
help(set.pop)

Help on method_descriptor:

pop(...)
    Remove and return an arbitrary set element.
    Raises KeyError if the set is empty.



In [22]:
colors = {'红', '绿', '黄', }
print(colors)
print(colors.pop())
print(colors)
print(colors.pop())
print(colors)
print(colors.pop())
print(colors)

{'绿', '红', '黄'}
绿
{'红', '黄'}
红
{'黄'}
黄
set()


In [24]:
# print(colors.pop())
# print(colors)

`set.clear()`会把集合所有元素移除，成为空集合。

In [25]:
colors = {'红', '绿', '黄', }
print(colors)
colors.clear()
print(colors)

{'绿', '红', '黄'}
set()


### 浅拷贝集合

使用`set.copy`获得集合的浅拷贝。

In [26]:
colors = {'红', '绿', '黄', }
colors2 = colors.copy()
print(colors)
print(colors2)
print(colors is colors2)

{'绿', '红', '黄'}
{'绿', '红', '黄'}
False


### 并集

A和B的并集就是把两个集合可以“相加”，是将A和B的元素放到一起构成的新集合。
![并集](assets/set_union2.png)

在Python中，并集计算方法包括：
- 使用`|`操作符
- 使用`|=`操作符
- `set.union()`

In [27]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa | sb)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'l', 'd', 'm', 'r', 'a', 'z', 'c'}


In [28]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa |= sb
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'l', 'd', 'm', 'r', 'a', 'z', 'c'}


使用`set.union()`可以返回两个集合的并集

In [29]:
help(set.union)

Help on method_descriptor:

union(...)
    Return the union of sets as a new set.
    
    (i.e. all elements that are in either set.)



In [30]:
# set union
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa.union(sb))

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'l', 'd', 'm', 'r', 'a', 'z', 'c'}


### 交集

通过两个集合共有的元素来构造新的集合。A和B的交集，是既属于A的、又属于B的所有元素组成的集合。
![交集](assets/set_intersection2.png)

在Python中，交集计算方法包括：
- 使用`&`操作符
- 使用`&=`操作符
- `set.intersection()`
- `set.intersection_update()`

In [31]:
# set intersection
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa & sb)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'a', 'c'}


使用`set.intersection()`可以返回两个集合的交集

In [32]:
help(set.intersection)

Help on method_descriptor:

intersection(...)
    Return the intersection of two sets as a new set.
    
    (i.e. all elements that are in both sets.)



In [33]:
# set intersection
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sab = sa.intersection(sb)
print(sab)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'a', 'c'}


In [34]:
# set intersection_update
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa &= sb
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'a', 'c'}


使用`set.intersection_update()`会更新集合，更新为二者交集。

In [35]:
help(set.intersection_update)

Help on method_descriptor:

intersection_update(...)
    Update a set with the intersection of itself and another.



In [36]:
# set intersection_update
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa.intersection_update(sb)
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'a', 'c'}


### 差集

两个集合也可以相"减"。差集（$A−B$），也就是是属于A的、但不属于B的所有元素组成的集合。

![交集](assets/set_difference2.png)

在Python中，差集计算方法包括：
- 使用`-`操作符
- `set.difference()`
- 使用`-=`操作符
- `set.difference_update()`

In [37]:
# set difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa - sb)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'd', 'r'}


使用`set.difference()`可以返回两个集合的差集

In [38]:
help(set.difference)

Help on method_descriptor:

difference(...)
    Return the difference of two or more sets as a new set.
    
    (i.e. all elements that are in this set but not the others.)



In [39]:
# set difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sab = sa.difference(sb)
print(sab)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'd', 'r'}


In [40]:
# set difference_update
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa -= sb
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'd', 'r'}


使用set.difference_update()会更新集合，更新为二者差集。

In [41]:
help(set.difference_update)

Help on method_descriptor:

difference_update(...)
    Remove all elements of another set from this set.



In [42]:
# set difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa.difference_update(sb)
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'd', 'r'}


### 对称差集

对称差就是两个集合的交集减去其并集。
![对称差](assets/set_sym_difference2.png)

在Python中，对称差集计算方法包括：
- 使用`^`操作符
- 使用`^=`操作符
- `set.symmetric_difference()`
- `set.symmetric_difference_update()`

In [43]:
# set difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
print(sa ^ sb)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'m', 'b', 'z', 'l', 'r', 'd'}


使用`set.symmetric_difference()`可以返回两个集合的对称差集

In [44]:
help(set.symmetric_difference)

Help on method_descriptor:

symmetric_difference(...)
    Return the symmetric difference of two sets as a new set.
    
    (i.e. all elements that are in exactly one of the sets.)



In [45]:
# set symmetric_difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sab = sa.symmetric_difference(sb)
print(sab)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'m', 'b', 'z', 'l', 'r', 'd'}


In [46]:
# set systemtric_difference_update
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa ^= sb
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'l', 'd', 'm', 'r', 'z'}


使用set.symmetric_update()会更新集合，更新为二者对称差集。

In [47]:
help(set.symmetric_difference_update)

Help on method_descriptor:

symmetric_difference_update(...)
    Update a set with the symmetric difference of itself and another.



In [48]:
# set symmetric_difference
sa = set('abracadabra')
sb = set('alacazam')
print(sa, sb)
sa.symmetric_difference_update(sb)
print(sa)

{'b', 'd', 'r', 'a', 'c'} {'l', 'm', 'a', 'z', 'c'}
{'b', 'l', 'd', 'm', 'r', 'z'}


### 测试操作

如果一个集合A是另一个集合的子集，意味着A的所有元素也都是B的元素。反之，则为超集。
![子集](assets/python-subset.jpg)

In [49]:
A = {1, 2, 3}
digits = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
print(A.issubset(digits))
print(digits.issuperset(A))

True
True


如果两个集合不相交，也就是说二者没有交集，即没有共同元素。
![不相交](assets/Python-disjoint-sets.jpg)

In [50]:
digits = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
colors = {'红', '绿', '黄'}
print(colors.isdisjoint(A))

True


## 转换

使用内置`set`类构造对象:
- 不传入参数，返回空集合；
- 传入迭代对象，返回新的集合对象。

```
set() -> new empty set object
set(iterable) -> new set object
```

In [51]:
emptyset = set()
print(emptyset)

set()


In [52]:
digits = set(range(9))
print(digits)

{0, 1, 2, 3, 4, 5, 6, 7, 8}


## 错误与异常

> 像硬币一样，任何事物都具有两重性或两面性。

- 键错误（KeyError）
- ...