# 第三章 字典和set

In [1]:
from collections import abc
my_dict = {}
isinstance(my_dict, abc.Mapping)

True

### 1. 只有可散列的数据类型才能作为key
#### 1.1 如果一个对象是可散列的，那么在这个对象的生命周期中，它的散列值是不变的
#### 1.2 这个对象需要实现 \_\_hash__() 方法
#### 1.3 可散列对象还要有 \_\_eq__()方法，这样才能跟其他键做比较
#### 1.4 如果两个可散列对象是相等的，那么它们的散列值一定是一样的

### 2. 字典推导

In [2]:
m = [(1, "1"), (2, "2"), (3, "3")]
m_dict = { i: s for i, s in m}
print(m_dict)

{1: '1', 2: '2', 3: '3'}


### 3. python直接赋值、浅拷贝、深拷贝
#### 3.1 直接赋值：指向同一个对象
#### 3.2 浅拷贝：拷贝父对象，不拷贝内部的子对象
#### 3.3 深拷贝：copy.deepcopy，完全拷贝父对象及其子对象

In [3]:
import copy
a = {1: [1,2,3]}
b = a.copy()
c = copy.deepcopy(a)
print(a, b, c)
a[1].append(4)
print(a, b, c)

{1: [1, 2, 3]} {1: [1, 2, 3]} {1: [1, 2, 3]}
{1: [1, 2, 3, 4]} {1: [1, 2, 3, 4]} {1: [1, 2, 3]}


### 4.集合 set
#### 4.1 集合内的元素是唯一的，可以用来去重
#### 4.2 set中的元素必须是可散列的，set本身不可散列，frozenset是可散列的
#### 4.3 中缀运算符：| 返回合集，& 返回交集， - 返回差集
#### 4.4 集合推导

In [4]:
m = {i for i in range(10)}
print(m)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


### 5.字典中的散列表
#### 5.1 散列表是稀疏数组，Python中会设法保证三分之一的表元是空的，当快达到阈值时，原有的散列表会被复制到一个更大的空间
#### 5.2散列表算法
##### 为了获取 my_dict[search_key] 背后的值，Python 首先会调用 hash(search_key)来计算search_key 的散列值，把这个值最低的几位数字当作偏移量，在散列表里查找表元（具体取几位，得看当前散列表的大小）。若找到的表元是空的，则抛出 KeyError 异常。若不是空的，则表元里会有一对 found_key:found_value。这时候 Python 会检验 search_key ==found_key 是否为真，如果它们相等的话，就会返回 found_value
#### 当插入新值之后，Python可能会根据散列表的拥挤程度来决定是否从子女分配内存来扩容

### 6.dict的实现
#### 6.1 利用散列表来实现dict
#### 6.2 键必须是可散列的
##### （1）支持 hash() 函数，并且通过 \_\_hash__() 方法所得到的散列值是不变的
##### （2）支持通过 \_\_eq__() 方法来检测相等性
##### （3）若 a == b 为真，则 hash(a) == hash(b) 也为真
#### 6.2字典在内存上的开销巨大
#### 6.3键查询速度很快
#### 6.4键的次序取决于添加顺序
#### 6.5往字典里添加新键可能会改变原有的键的顺序
##### 因为当添加新键时，Python解释器可能会为字典扩容，建立一个更大的散列表，这个过程中可能会出现新的散列冲突，导致新散列表中的键的次序变化

### 7.set的实现
#### 7.1 set的实现也依赖散列表