# 04. 字典、集合，你真的了解吗？

## 字典和集合基础

### 1. 定义：

字典是一系列由键（key）和值（value）配对组成的元素的集合。

**在 Python3.7+，字典被确定为有序**（注意：在 3.6 中，字典有序是一个 implementation detail，在 3.7 才正式成为语言特性，因此 3.6 中无法 100% 确保其有序性），而 3.6 之前是无序的，其长度大小可变，元素可以任意地删减和改变。

字典定义： 基本与字典相同，区别就在于集合没有键和值得配对，是一系列无序的、唯一的元素

In [1]:
d1 = {
    'name': 'jason',
    'age': 20, 
    'gender': 'male'
}

In [2]:
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

In [3]:
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])

In [4]:
d4 = dict(name='jason', age=20, gender='male')

In [5]:
d1 == d2 == d3 == d4 

True

In [6]:
s1 = {1, 2, 3}

In [7]:
s2 = set([1, 2, 3])

In [9]:
s1 == s2

True

### 2. 元素类型

Python 中字典和集合，无论是键还是值，都可以是混合类型

In [10]:

s = {1, 'hello', 5.0}

### 3. 元素访问

1. 字典访问可以直接索引键，如果不存在就抛出异常

In [11]:
d = {'name': 'jason', 'age': 20}

In [12]:
d['name']

'jason'

In [13]:
d['location']

KeyError: 'location'

2. 也可以使用 get(key, default) 函数来进行索引

In [16]:
d = {'name': 'jason', 'age': 20}
d.get('name')


'jason'

In [15]:
d.get('location', 'null')

'null'

3. 集合访问并不支持索引操作，因为集合本质上是一个**哈希表**，和列表不一样

In [18]:
s = {1, 2, 3}
s[0]

TypeError: 'set' object does not support indexing

4. 判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断

In [19]:
s = {1, 2, 3}
print(1 in s)
print(10 in s)

True
False


In [20]:
d = {'name': 'jason', 'age': 20}
'name' in d 

True

In [21]:
'location' in d

False

5. 增删改查

In [23]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
d

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}

In [24]:
d['dob'] = '1998-01-01' # 更新键'dob'对应的值
d.pop('dob') # 删除键为'dob'的元素对

'1998-01-01'

In [25]:
d

{'name': 'jason', 'age': 20, 'gender': 'male'}

In [26]:
s = {1, 2, 3}
s.add(4)


In [27]:
s

{1, 2, 3, 4}

In [28]:
s.remove(4)

In [29]:
s

{1, 2, 3}

注意：集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你无法知道会删除哪个元素

6. 根据建或者值排序

In [30]:
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序

In [31]:
d_sorted_by_key

[('a', 2), ('b', 1), ('c', 10)]

In [32]:
d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

In [33]:
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序

[1, 2, 3, 4]

## 字典和集合的性能

比如电商企业的后台，存储了每件产品的 ID、名称和价格。现在的需求是，给定某件商品的 ID，我们要找出其价格
如果我们用列表来存储这些数据结构，并进行查找，代码如下

In [34]:
def find_product_price(products, product_id):
    for id, price in products:
        if id == product_id:
            return price 
    return None 

products = [ (143121312, 100), (432314553, 30), (32421912367, 150) ]
print('The price of product 432314553 is {}'.format(find_product_price(products, 432314553)))

The price of product 432314553 is 30


查找的过程要遍历列表，那么时间复杂度就为 O(n)

如果我们用字典来存储这些数据，那么查找就会非常便捷高效，只需 O(1) 的时间复杂度就可以完成。

In [35]:
products = { 143121312: 100, 432314553: 30, 32421912367: 150}
print('The price of product 432314553 is {}'.format(products[432314553]))

The price of product 432314553 is 30


现在需求变成，要找出这些商品有多少种不同的价格.用列表，时间复杂度是O(n)

In [36]:
# list version 
def find_unique_price_using_list(products):
    unique_price_list = []
    for _, price in products: # A
        if price not in unique_price_list: #B
            unique_price_list.append(price)
            
    return len(unique_price_list)

products = [ (143121312, 100), (432314553, 30), (32421912367, 150), (937153201, 30)]
print('number of unique price is: {}'.format(find_unique_price_using_list(products)))

number of unique price is: 3


如果我们选择使用集合这个数据结构，由于集合是高度优化的哈希表，里面元素不能重复，并且其添加和查找操作只需 O(1) 的复杂度，那么，总的时间复杂度就只有 O(n)

In [39]:
# set version 
def find_unique_price_using_set(products):
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set)

In [40]:
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150),
    (937153201, 30)
]
print('number of unique price is: {}'.format(find_unique_price_using_set(products)))

number of unique price is: 3


下面的代码，初始化了100000个元素的产品，分别计算了用列表和集合来统计产品价格数量的运行时间

In [41]:
import time
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))

# 计算列表版本的时间
start_using_list = time.perf_counter()
find_unique_price_using_list(products)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))

# 计算集合版本的时间
start_using_set = time.perf_counter()
find_unique_price_using_set(products)
end_using_set = time.perf_counter()
print("time elapse using set: {}".format(end_using_set - start_using_set))

time elapse using list: 71.50515436800197
time elapse using set: 0.018546096980571747


## 字典和集合的工作原理

不同于其他数据结构，字典和集合的内部结构都是一张哈希表。

1. 对于字典而言，这张表存储了哈希值（hash）、键和值这 3 个元素。
2. 而对集合来说，区别就是哈希表内没有键和值的配对，只有单一的元素了。

为了提高存储空间的利用率，现在的哈希表除了字典本身的结构，会把索引和哈希值、键、值单独分开，也就是下面这样新的结构：

```
Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------

Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------
```

In [43]:
indices = [None, 1, None, None, 0, None, 2]
entries = [
[1231236123, 'name', 'mike'],
[-230273521, 'dob', '1999-01-01'],
[9371539127, 'gender', 'male']
]

### 插入操作

每次向字典或集合插入一个元素时，
1. Python 会首先计算键的哈希值（hash(key)），
2. 再和 mask = PyDicMinSize - 1 做与操作，计算这个元素应该插入哈希表的位置 index = hash(key) & mask。
3. 如果哈希表中此位置是空的，那么这个元素就会被插入其中。
4. 而如果此位置已被占用，Python 便会比较两个元素的哈希值和键是否相等。
    - 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
    - 若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。
    
   这种情况下，Python 便会继续寻找表中空余的位置，直到找到位置为止。

### 查找操作

1. Python会根据哈希值，找到其应该处于的位置；
2. 然后，比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。
    - 如果相等，则直接返回；
    - 如果不等，则继续查找，直到找到空位或者抛出异常为止。

### 删除操作

1. Python会暂时对这个位置的元素，赋予一个特殊的值，等到重新调整哈希表的大小时，再将其删除

2. 哈希冲突会降低字典和集合操作的速度。为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入，当剩余空间小于 1/3 时，Python 会重新获取更大的内存空间，扩充哈希表。不过，这种情况下，表内所有的元素位置都会被重新排放。

3. 哈希冲突和哈希表大小的调整，都会导致速度减缓，但是这种情况发生的次数极少。所以，平均情况下，这仍能保证插入、查找和删除的时间复杂度为 O(1)。

## 总结

1. 字典在 Python3.7+ 是有序的数据结构，而集合是无序的，
2. 其内部的哈希表存储结构，保证了其查找、插入、删除操作的高效性。所以，字典和集合通常运用在对元素的**高效查找、去重**等场景。

## 思考题

1. 下面初始化字典的方式，哪一种更高效？

In [44]:

# Option A
d = {'name': 'jason', 'age': 20, 'gender': 'male'}

# Option B
d = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

 2. 字典的键可以是一个列表吗？下面这段代码中，字典的初始化是否正确呢？如果不正确，可以说出你的原因吗？

In [45]:

d = {'name': 'jason', ['education']: ['Tsinghua University', 'Stanford University']}

TypeError: unhashable type: 'list'

### 评论回复

pyhhou
思考题 1：
第一种方法更快，原因感觉上是和之前一样，就是不需要去调用相关的函数，而且像老师说的那样 {} 应该是关键字，内部会去直接调用底层C写好的代码

思考题 2:
用列表作为 Key 在这里是不被允许的，因为列表是一个动态变化的数据结构，字典当中的 key 要求是不可变的，原因也很好理解，key 首先是不重复的，如果 Key 是可以变化的话，那么随着 Key 的变化，这里就有可能就会有重复的 Key，那么这就和字典的定义相违背；如果把这里的列表换成之前我们讲过的元组是可以的，因为元组不可变


    作者回复: 正解