#### 字典（dict）和集合（set)

* 字典:一系列由键（key）和值（value）配对组成的元素的集合
    - Python3.7+，字典被确定为有序
    - 3.6 之前是无序的，其长度大小可变，元素可以任意地删减和改变
    - 对于查找、添加和删除操作，常数时间复杂度内完成
* 集合:一系列无序的、唯一的元素组合
    - 不支持索引操作，本质上是一个哈希表
    - pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，无法知道会删除哪个元素，因此这个操作得谨慎使用
* 无论是键还是值，都可以是混合类型

##### 字典

In [3]:
# 初始化
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 ==d4

True

In [74]:
# key 必须为不可变类型： list or tuple[list] 都不行
d = {'name': 'jason', ('education'): ['Tsinghua University', 'Stanford University']}

In [8]:
# 访问
d1['name']

'jason'

In [10]:
d1.get('gender', 'female')

'male'

In [14]:
'name' in d1

True

In [17]:
d1['dob'] = '1999-0201' # 新增
d1['age'] = 21 # 修改
d1

{'name': 'jason', 'age': 21, 'gender': 'male', 'dob': '1999-0201'}

In [31]:
d1.pop('gender') # 删除
d1

KeyError: 'gender'

In [34]:
# 根据键或值排序
d5 ={'b':1, 'a':4, 'd':36, 'c':99}
sorted(d5.items(),key=lambda x:x[0])

[('a', 4), ('b', 1), ('c', 99), ('d', 36)]

In [38]:
sorted(d5.items(), key=lambda x:x[1])

[('b', 1), ('a', 4), ('d', 36), ('c', 99)]

##### 集合

In [2]:

# 初始化
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2

True

In [20]:
5 in s1

False

In [23]:
s1.add(4)
s1

{1, 2, 3, 4}

In [26]:
s1.remove(4)
s1

KeyError: 4

In [29]:
s1.pop()

3

In [39]:
s1

set()

In [43]:
sorted({9,5,7,4,10})

[4, 5, 7, 9, 10]

##### 性能

* 集合:元素不能重复(自动去重功能)，并且其添加和查找操作只需 O(1) 的复杂度

In [68]:
## 有多少种不同价格
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150),
    (937153201, 30),
        (937153200, 50)
]

def find_unique_price_using_list(products):
    unique_price_list = []
    for _, price in products: # A
        if price not in unique_price_list: #B
            unique_price_list.append(price)
    return len(unique_price_list)
print('number of unique price is: {}'.format(find_unique_price_using_list(products)))

def find_unique_price_using_set(products): 
    unique_price_set = set() 
    for _, price in products: 
        unique_price_set.add(price) 
    return len(unique_price_set) 
print('number of unique price is: {}'.format(find_unique_price_using_set(products)))

number of unique price is: 4
number of unique price is: 4


In [59]:
products = { 143121312: 100, 432314553: 30, 32421912367: 150}
print('The price of product 432314553 is {}'.format(products[432314553]))

The price of product 432314553 is 30


##### 运行时间

In [69]:
import time
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))

In [71]:
# 计算列表版本的时间
start_using_list = time.perf_counter()
find_unique_price_using_list(products)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))
# time elapse using list: 122.1191324229876

time elapse using list: 122.1191324229876


In [70]:
# 计算集合版本的时间
start_using_set = time.perf_counter()
find_unique_price_using_set(products)
end_using_set = time.perf_counter()
print("time elapse using set: {}".format(end_using_set - start_using_set))
# time elapse using set: 0.021850589982932433

time elapse using set: 0.021850589982932433


#### 结构

* 内部结构都是一张哈希表
    - 老版本中:对每条数据的每个字段做hash,随着哈希表的扩张，会变得越来越稀疏.
        + 浪费存储空间
        + 随机寻址
    - 新版本：会把索引和哈希值、键、值单独分开
        + 通过添加一层索引，数据改为序列化存储
* 字典:存储了哈希值（hash）、键和值这 3 个元素
* 集合:哈希表内没有键和值的配对，只有单一的元素

##### 复杂度

* 插入
    - 计算键的哈希值（hash(key)），再和 mask = PyDicMinSize - 1 做与操作，计算这个元素应该插入哈希表的位置 index = hash(key) & mask
    - 如果哈希表中此位置是空的，那么这个元素就会被插入其中
    - 如果此位置已被占用，比较两个元素的哈希值和键是否相等
        + 两者都相等，表明元素已经存在
        + 值不同，更新值
        + 哈希冲突（hash collision）:两者中有一个不相等，意思是两个元素的键不相等，但是哈希值相等。会继续寻找表中空余的位置，直到找到位置为止
* 查找
    - 根据哈希值，找到其应该处于的位置
    - 比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等
    - 相等，则直接返回
    - 不等，则继续查找，直到找到空位或者抛出异常为止
* 删除：会暂时对这个位置的元素，赋于一个特殊的值，等到重新调整哈希表的大小时，再将其删除
* 优化：哈希冲突的发生，往往会降低字典和集合操作的速度
    - 为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有 1/3 的剩余空间
    - 随着元素的不停插入，当剩余空间小于 1/3 时，Python 会重新获取更大的内存空间，扩充哈希表。这种情况下，表内所有的元素位置都会被重新排放