## 常用数据结构之集合
***
在学习了列表和元组之后，再来学习一种容器型的数据类型，叫集合（set）。可以**把一定范围、确定的、可以区别的事物当作一个整体来看待**，那么这个整体就是集合，集合中的各个事物称为集合的元素。通常集合需要满足以下要求：
1. 无序性：一个集合中，每个元素的地位都是相同的，元素之间是无序的；
2. 互异性：一个集合中，任何两个元素都是不相同的，即元素在集合中只能出现一次；
3. 确定性：给定一个集合和一个任意元素，该元素要么属于这个集合，要么不属于这个集合，二者必居其一，不允许有模棱两可的情况出现。

Python程序中的集合跟数学上的集合没有什么本质的区别，需要强调的是上面所说的无序性和互异性。**无序性**说明集合中的元素并不像列表中的元素那样存在某种次序，可以通过索引运算就能访问任意元素，**集合并不支持索引运算**。另外，集合的**互异性**决定了集合中不能有重复元素，这一点也是集合区别于列表的地方，即无法将重复的无得添加到一个集合中。因此，集合类型必然是支持`in`和`not in`成员运算的，这样就可以确定一个元素是否属于集合。**集合的成员运算在性能上要优于列表的成员运算**，这是集合的底层存储特性决定的。
> 说明：集合底层使用了哈希存储（散表存储），

## 创建集合
在Python中，创建集合可以使用`{}`字面量语法，`{}`中需要至少有一个元素，因为没有元素的`{}`并不是空集合而是一个空字典。当然，也可以使用Python内置函数`set`来创建一个集合，准确的说`set`并不是一个函数，而是创建集合的构造器。我们可以使用`set`函数创建一个空集合，也可以用它将其它序列转换成集合，例如`set('hello;)`会得到一个包含了4个字符的集合（因为重复的字符`l`在集合中只出现一次）。除了这两种方式，还可以使用生成式语法来创建集合，类似于生成式语法创建列表那样。

In [6]:
set1 = {1,2,3,3,1}
print(set1) # {1, 2, 3}

set2 = {'banana', 'pitaya', 'apple', 'apple', 'banana', 'grape'}
print(set2) # {'pitaya', 'apple', 'banana', 'grape'}

set3 = {'hello'} # {'hello'}
print(set3)

set3_0 = set('hello')
print(set3_0) # {'h', 'e', 'o', 'l'}

set4 = set([1, 2, 2, 3, 3, 2, 1]) #{1, 2, 3}
print(set4)

set5 = {num for num in range(1, 20) if num % 3 == 0 or num % 7 == 0}
print(set5) # {3, 6, 7, 9, 12, 14, 15, 18}

{1, 2, 3}
{'pitaya', 'apple', 'banana', 'grape'}
{'hello'}
{'h', 'e', 'o', 'l'}
{1, 2, 3}
{3, 6, 7, 9, 12, 14, 15, 18}


需要提醒是的，集合中的元素必须是`hashable`类型，所谓`hashable`类型指的是能够计算出哈希码的数据类型，通常不可变类型都是`hashable`类型，如整数(`int`)、浮点小数(`float`)、布尔值(`bool`)、字符串(`str`)、元组(`tuple`)等。可变类型都不是`hashable`类型，因为可变类型无法计算出确定的哈希码，所以它们不能放到集合中。例如，不能将列表作为集合听 元素；同理，由于集合本身也是可变类型，所以集合也不能作为集合中的元素，即可以创建嵌套列表（列表的元素也是列表），但不能创建出嵌套的集合。

## 元素的遍历
我们可以通过`len`函数来获得集合中有多少个元素，但不能通过索引运算来遍历集合中的元素，因为集合元素没有特定的顺序。当然，要对集合元素的遍历，仍可以使用`for-in`循环，代码如下所示：

In [10]:
set1 = {'Python', 'C++', 'Java', 'Kotlin', 'Swift'}
for ele in set1:
    print(ele)

Swift
Kotlin
C++
Java
Python


## 集合的运算
Python为集合提供了非常丰富的运算，主要包括：成员运算、交集运算、并集运算、差集运算、比较运算（相关性、子集、超集）等。

### 成员运算
可以通过成员运算`in`和`not in`检查元素是否在集合中，代码如下所示。

In [11]:
set1 = {11,12,13,14,15}
print(10 in set1) # False
print(15 in set1) # True

set2 = {'Python', 'C++', 'Java', 'Swift'}
print('Ruby' in set2) # False
print('Java' in set2) # True

False
True
False
True


## 二元运算
集合的二元运算主要指集合的交集、并集、差集、对称差等运算，这些运算可以通过运算符来实现，也可以通过集合类型的方法来实现，代码如下所示。
![set_operations](./image/set_operations.png)

In [13]:
set1 = {1,2,3,4,5,6,7}
set2 = {2, 4, 6, 8, 10}

# 交集
print(set1 & set2) # {2, 4, 6}
print(set1.intersection(set2)) # {2, 4, 6}

# 并集
print(set1 | set2) # {1, 2, 3, 4, 5, 6, 7, 8, 10}
print(set1.union(set2)) # {1, 2, 3, 4, 5, 6, 7, 8, 10}

# 差集
print(set1 - set2) # {1, 3, 5, 7}
print(set1.difference(set2)) # {1, 3, 5, 7}

# 对称差
print(set1 ^ set2) # {1, 3, 5, 7, 8, 10}
print(set1.symmetric_difference(set2)) # {1, 3, 5, 7, 8, 10}


{2, 4, 6}
{2, 4, 6}
{1, 2, 3, 4, 5, 6, 7, 8, 10}
{1, 2, 3, 4, 5, 6, 7, 8, 10}
{1, 3, 5, 7}
{1, 3, 5, 7}
{1, 3, 5, 7, 8, 10}
{1, 3, 5, 7, 8, 10}


> 对称差：A Δ B = (A ∪ B) \ (A ∩ B)。也可以写成 A Δ B = (A \ B) ∪ (B \ A)，即 A 与 B 的差集和 B 与 A 的差集的并集。

通过上面的代码可以看出，对于两个集合求交集，`&`运算符和`intersection`方法的作用是完全相同的。集合的二元运算还可以跟赋值运算一起构成复合赋值运算，例如: `set1 |= set2`，相当于`set1 = set1 | set2`，跟`|=`作用相同的方法是`update`；`set &= set2`相当于`set1 = set1 & set2`，跟&=作用相同的方法是`intersection_update`，代码如下所示。

In [16]:
set1 = {1, 3, 5, 7}
set2 = {2, 4, 6}
set1 |= set2
# set1.update(set2)
print(set1) # {1, 2, 3, 4, 5, 6, 7}

set3 = {3, 6, 9}
set1 &= set3
# set1.intersection_update(set3)
print(set1) # {3, 6}

set2 -= set1
# set2.difference_update(set1)
print(set2) # {2, 4}

{1, 2, 3, 4, 5, 6, 7}
{3, 6}
{2, 4}


## 比较运算
两个集合可以用`==`和`!=`进行相等性判断，如果两个集合中的元素完成相同，那么`==`比较结果是`True`，否则就是`False`。如果集合`A`任意一个元素都是集合`B`的元素，那那集合`A`称为集合`B`的子集，即对于$\forall a \in A$,均有$a \in B$，则$A \subseteq B$,`A`是`B`的**子集**，反过来也可以称`B`是`A`的**超集**。如果A是B的子集且A不等于B，那么A就是B的真子集，即$A \subsetneq B$. Python为集合类型提供了判断子集和超子集的运算符，其它就是非常熟悉的`<`、`<=`、`>`、`>=`，这些运算符，当然，也可以通过集合类型的方法`issubset`和`issuperset`来判断集合之间的关系，代码如下所示。

In [17]:
set1 = {1, 3, 5}
set2 = {1, 2, 3, 4, 5}
set3 = {5, 4, 3, 2, 1}

print(set1 < set2) # True
print(set1 <= set2) # True
print(set2 < set3) # False
print(set2 <= set3) # False
print(set2 > set1) # True
print(set2 == set3) # True

print(set1.issubset(set2)) # True
print(set2.issuperset(set1)) # True

True
True
False
True
True
True
True
True


## 集合的方法
Python中的集合是可变类型，可以通过集合的方法向集合添加元素或从集合中删除元素

In [21]:
set1 = {1, 10, 100}

# 添加元素
set1.add(1000)
set1.add(10000)
print(set1) # {1, 100, 1000, 10, 10000}

# 删除元素
set1.discard(10)
if 100 in set1:
    set1.remove(100)
print(set1) # {1, 1000, 10000}

# 清空元素
set1.clear()
print(set1) # set()

{1, 100, 1000, 10, 10000}
{1, 1000, 10000}
set()


> 说明：删除元素的`remove`方法在元素不存在时会引发`KeyError`错误，所以上面的代码中需要先通过成员运算判断元素是否在集合中。集合类型中还是一个`pop`方法可以从集合中**随机**删除一个元素，该方法在删除元素同时会返回（获得）该被删除的元素，而`remove`和`diacard`方法仅仅是删除元素，不会返回（获得）被删除的元素。

集合类型还有一个名为`isdisjoint`的方法可以判断两个集合有没有相同的元素，如果没有相同元素，该方法返回`True`，否则该方法返回`False`，代码如下所示。

In [22]:
set1 = {'Jave', 'Python', 'C++', 'Kotlin'}
set2 = {'Kotlin', 'Swift', 'Java', 'Dart'}
set3 = {'HTML', 'CSS', 'JavaScript'}

print(set1.isdisjoint(set2)) # False
print(set1.isdisjoint(set3)) # Ture

False
True


### 不可变集合
Python中还有一种不可变类型的集合，名字叫`frozenset`。`set`跟`frozenset`的区别就如同`list`跟`tuple`的区别，`frozenset`由于是不可变类型，**能够计算出哈希码**，因此它可以作为`set中`的元素。除了不能添加和删除元素，`frozenset`在其他方面跟`set`是一样的，如下面代码所示：

In [23]:
fset1 = frozenset({1, 3, 5, 7})
fset2 = frozenset(range(1, 6))

print(fset1) # frozenset({1, 3, 5, 7})
print(fset2) # frozenset({1, 2, 3, 4, 5})

print(fset1 & fset2) # frozenset({1, 3, 5})
print(fset1 | fset2) # frozenset({1, 2, 3, 4, 5, 7})
print(fset1 - fset2) # frozenset({7})
print(fset1 < fset2) # False

frozenset({1, 3, 5, 7})
frozenset({1, 2, 3, 4, 5})
frozenset({1, 3, 5})
frozenset({1, 2, 3, 4, 5, 7})
frozenset({7})
False


## 总结
Python中的**集合类型是一种无序容器，不允许有重复运算**，由于底层使用了哈希存储，集合听 元素必须是`hashable`类型。集合和列表最大的区别在于**集合中的元素没有顺序**、所以**不能够通过索引运算访问元素**，但是集合可以执行交集、并集、差集等二元运算，也可以通过关系运算符检查两个集合是否存在超集、子集等关系。