数学意义上的集合

没有重复元素

## 定义与初始化

In [1]:
s = set()

In [2]:
s

set()

In [3]:
s = {1, 2, 3}

In [4]:
s

{1, 2, 3}

In [5]:
s = set(range(3))

In [6]:
s

{0, 1, 2}

## 增加

In [7]:
s

{0, 1, 2}

In [8]:
s.add(3) # 和列表类似， 增加单个元素， 原地修改   append

In [9]:
s

{0, 1, 2, 3}

In [12]:
s.add(3) # 增加已存在的元素，什么也不做

In [11]:
s

{0, 1, 2, 3}

In [13]:
help(s.update)

Help on built-in function update:

update(...) method of builtins.set instance
    Update a set with the union of itself and others.



In [14]:
s.update(range(4, 7)) # 和列表类似， 附加一个可迭代对象， 原地修改 extend

In [15]:
s

{0, 1, 2, 3, 4, 5, 6}

In [18]:
s.update(range(4, 9)) # 对于已经存在的元素， 什么也不做

In [19]:
s

{0, 1, 2, 3, 4, 5, 6, 7, 8}

```python
for e in itrator:
    s.add(e)
```

## 删除

In [20]:
help(s.remove)

Help on built-in function remove:

remove(...) method of builtins.set instance
    Remove an element from a set; it must be a member.
    
    If the element is not a member, raise a KeyError.



In [21]:
s.remove(0)

In [22]:
s

{1, 2, 3, 4, 5, 6, 7, 8}

In [23]:
s.remove(10) # 删除不存在的元素时， 抛出KeyError

KeyError: 10

In [24]:
help(s.pop)

Help on built-in function pop:

pop(...) method of builtins.set instance
    Remove and return an arbitrary set element.
    Raises KeyError if the set is empty.



In [25]:
s.pop()

1

In [26]:
s.pop()

2

In [27]:
s.clear()

In [28]:
s

set()

In [29]:
s.pop() # 当集合为空时， 抛出KeyError

KeyError: 'pop from an empty set'

In [30]:
help(s.discard)

Help on built-in function discard:

discard(...) method of builtins.set instance
    Remove an element from a set if it is a member.
    
    If the element is not a member, do nothing.



In [31]:
s = set(range(10))

In [32]:
s

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [33]:
s.discard(3)

In [34]:
s

{0, 1, 2, 4, 5, 6, 7, 8, 9}

In [35]:
s.discard(10)  # discard 删除不存在的元素的时候， 什么也不做

In [36]:
s

{0, 1, 2, 4, 5, 6, 7, 8, 9}

* remove  删除给定的元素， 元素不存在抛出KeyError
* discard 删除给定的元素， 元素不存在，什么也不做
* pop    **随机**删除一个元素并返回， 集合为空，抛出KeyError
* clear   清空集合

## 修改

集合不能修改单个元素

## 查找

集合不能通过索引

集合没有访问单个元素的方法

**集合不是线性结构， 集合元素没有顺序**

In [39]:
s = {1, 2, 3, 4, 5, 65, 67, 87}

In [40]:
s

{1, 2, 3, 4, 5, 65, 67, 87}

In [41]:
s.pop()

65

## 成员运算符

* in
* not in

用于判断一个元素是否在容器中

In [42]:
3 in [1, 2, 3, 4]

True

In [43]:
10 in [1, 2, 3, 4]

False

In [44]:
10 not in [1, 2, 3, 4]

True

In [46]:
'love' in 'i love python'

True

In [47]:
3 in {1, 2, 3, 4}

True

集合的成员运算和其他线性结构的时间复杂度不同

In [51]:
lst = list(range(1000000))

In [52]:
s = set(range(1000000))

In [53]:
%%timeit
-1 in lst

10 loops, best of 3: 19.5 ms per loop


In [54]:
%%timeit
-1 in s

The slowest run took 25.58 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 60.8 ns per loop


做成员运算的时候 集合的效率远高于列表

In [55]:
lst2 = list(range(100))

In [56]:
%%timeit
-1 in lst2

100000 loops, best of 3: 2.22 µs per loop


做成员运算时 列表的效率和列表的规模有关

In [57]:
s2 = set(range(100))

In [58]:
%%timeit
-1 in s2

The slowest run took 44.06 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 55.7 ns per loop


做成员运算时 集合的效率和集合的规模无关

成员运算：

* 集合 O(1)
* 列表(线性结构) O(n)

## 集合运算

In [60]:
s1 = {1, 2, 3}

In [61]:
s2 = {2, 3, 4}

In [62]:
s1.intersection(s2) # 交集

{2, 3}

存在集合A和B， 对于集合C， 如果C的每个元素既是A的元素，又是B的元素， 并且A和B所有相同的元素都在C找到， 那么C是A和B的交集

In [63]:
s2.intersection(s1) # 不修改原来的两个集合， 返回新的集合

{2, 3}

In [64]:
s1

{1, 2, 3}

In [65]:
s2

{2, 3, 4}

In [66]:
s1.intersection_update(s2) # _update版本， 原地修改， 返回None， 等效于  s1 = s1.intersection(s2)

In [67]:
s1

{2, 3}

In [68]:
s2

{2, 3, 4}

In [70]:
s1 = {1, 2, 3}

In [71]:
s1 & s2

{2, 3}

In [72]:
s2 & s1 # set 重载按位与运算符为 求交集运算 等效于 s2.intersection(s2)

{2, 3}

In [73]:
s1.difference(s2) # 差集

{1}

集合A和B， 当集合C的元素仅存在A中，但不存在B中， 并且A中存在B中不存在的元素全部存在C中， 那么C是A和B的差集

In [75]:
s2.difference(s1)  # 差集没有交换律

{4}

In [76]:
s1.difference_update(s2) # _update 版本原地修改， 返回None， 相当于  s1 = s1.difference(s2)

In [77]:
s1

{1}

In [78]:
s2

{2, 3, 4}

In [79]:
s1 = {1, 2, 3}

In [80]:
s1 - s2 # set 重载了运算符 - 执行差集计算，相当于  s1.difference(s2)

{1}

In [81]:
s2 - s1

{4}

In [82]:
s1.symmetric_difference(s2) # 对称差集

{1, 4}

如果把两个集合 A和B看成是一个全集，对称差集是交集的补集

In [84]:
s2.symmetric_difference(s1) # 对成差集具有交换律

{1, 4}

In [86]:
s1.symmetric_difference_update(s2)# 原地修改，返回None 相当于  s1 = s1.symmetric_difference(s2)

In [87]:
s1 = {1, 2, 3}

In [89]:
s1 ^ s2 # set 重载了异或应算符， 执行对称差集运算，相当于 s1.symmetric_difference(s2)

{1, 4}

In [90]:
s1.union(s2) # 并集

{1, 2, 3, 4}

In [91]:
s2.union(s1)

{1, 2, 3, 4}

In [92]:
s1.update(s2) # 这就是并集的update版本

In [93]:
s1

{1, 2, 3, 4}

In [94]:
s1 = {1, 2, 3}

In [97]:
s1 + s2 # 集合并没有重载加法运算符

TypeError: unsupported operand type(s) for +: 'set' and 'set'

In [98]:
s1 | s2 # set重载了按位或运算符，用于并集计算

{1, 2, 3, 4}

## 集合相关的判断

In [99]:
s1 = {1, 2, 3, 4}

In [100]:
s2 = {2, 3}

集合A里的所有元素都能在集合B里找到， 哪个A是B的子集， B是A的超集

In [101]:
s2.issubset(s1) # 判断s2 是否是s1的子集

True

In [103]:
s1.issubset(s2)

False

In [104]:
s1.issuperset(s2) # 判断 s1 是否s2的超集

True

In [105]:
s1.issubset(s1)

True

In [106]:
s1.issuperset(s1)

True

In [107]:
def issubset(s1, s2):
    for x in s1:
        if x not in s2:
            return False
    return True

In [108]:
def issuperset(s1, s2):
    for x in s2:
        if x not in s1:
            return False
    return True

In [109]:
s1.isdisjoint(s2)  # 判断两个集合是否有交集， 如果有交集返回False， 没有交集返回True

False

In [110]:
s3 = {1, 2}

In [111]:
s4 = {3, 4}

In [112]:
s3.isdisjoint(s4)

True

## 集合的用法

有一个api， 它要有认证， 并且有一定权限才可以访问，例如 要求满足权限 A,B， C中任意一项， 有一个用户具有权限 B， C， D， 那么此用户是否有权限访问此API

有一个任务列表， 存储全部的任务， 有一个列表， 存储已经完成的任务， 找出未完成的任务

## 集合的限制

In [113]:
{1, 2, 3}

{1, 2, 3}

In [114]:
{'a', 'b', 'c'}

{'a', 'b', 'c'}

In [115]:
{1, 'b'}

{1, 'b'}

In [117]:
{[1, 2, 3], [2, 2, 3]} # list 不能是集合的元素

TypeError: unhashable type: 'list'

In [118]:
{bytearray(b'abc')} # bytearray 不能是集合的元素

TypeError: unhashable type: 'bytearray'

In [119]:
{{3}} # set 不能是集合的元素

TypeError: unhashable type: 'set'

In [121]:
{(1, 2)} # 元组可以作为集合的元素

{(1, 2)}

In [123]:
{b'abc'} # bytes 可以作为集合的元素

{b'abc'}

可变类型不能成为集合的元素

**集合元素必须可hash**

In [124]:
hash(b'abc')

6539173263894108041

In [125]:
hash(1)

1

In [126]:
hash([1, 2,3])

TypeError: unhashable type: 'list'

目前我们所知道的所有的可变类型都是不可hash的， 所有的不可变类型都是可hash

In [None]:
s.isdisjoint