# 字典和集合基础
- 字典是一系列键(keys)、值(valuse)配对组成的元素的集合，**在python3.7以后字典被确定成有序**。
- 相对于列表和元组，**字典的性能更优秀，特别是对于查找、添加和删除操作，字典都能在常叔时间复杂度内完成**。
- 而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一堆无序的、**唯一**的元素组合。

In [1]:
#字典和集合的创建方法
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
print(d1 == d2 == d3 ==d4)

s1 = {1, 2, 3}
s2 = set([1, 2, 3])
print(s1 == s2)

True
True


- 字典和集合，无论是键还是值，都可以是混合类型。
- 字典访问可以直接索引键，如果不存在，就会抛出异常：

In [2]:
# 字典的访问
d = {'name': 'jason', 'age': 20}
print(d['name'])
d['location']

jason


KeyError: 'location'

- 也可以使用 get(key, default) 函数来进行索引。如果键不存在，调用 get() 函数可以返回一个默认值。比如下面这个示例，返回了'null'。

In [4]:
# 字典的get函数
d = {'name': 'jason', 'age': 20}
print(d.get('name'))
print(d.get('location', 'null'))
print(d.get('location', '不存在'))

jason
null
不存在


- ***集合不支持索引操作，因为集合本身是一个哈希表，和列表不一样。***

In [5]:
# set的访问
s = {1, 2, 3}
s[0]

TypeError: 'set' object is not subscriptable

In [6]:
# 想要判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断。

s = {1, 2, 3}
print(1 in s)

print(10 in s)

d = {'name': 'jason', 'age': 20}
print('name' in d)

print('location' in d)

True
False
True
False


In [11]:
# 当然，除了创建和访问，字典和集合也同样支持增加、删除、更新等操作。

d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
print(d)

d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
elm  = d.pop('dob') # 删除键为'dob'的元素对，并且返回value

print(d)
print(elm)

s = {1, 2, 3}
s.add(4) # 增加元素4到集合
print(s)

s.remove(4) # 从集合中删除元素4
print(s)

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}
{'name': 'jason', 'age': 20, 'gender': 'male'}
1998-01-01
{1, 2, 3, 4}
{1, 2, 3}


- ***集合的pop()操作是删除集合中的最后一个元素。可是集合本身是无序的，无法知道会删除哪个元素，因此这个操作慎用***。
- 实际应用中，很多情况下，我们需要对字典或集合进行排序，比如取出值最大的50对。
- 对于字典，我们通常会根据键或值，进行升序或者降序排序。

In [16]:
# 排序操作
d = {'b': 1, 'a': 2, 'c': 10}
'''
sorted(iterable, key=None, reverse=False)，iterable 表示指定的序列，key 参数可以自定义排序规则；
reverse 参数指定以升序（False，默认）还是降序（True）进行排序
'''
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0], reverse=True) # 根据字典键的降序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
print(d_sorted_by_key)

print(d_sorted_by_value)

[('c', 10), ('b', 1), ('a', 2)]
[('b', 1), ('a', 2), ('c', 10)]


- 对于集合，其排序和列表、元组类似，直接调用sorted(set)即可，**结果会返回一个排好序的列表。**

In [17]:
s = {3,2,1,5}
sorted(s)

[1, 2, 3, 5]

# 字典和集合的性能

In [20]:
# 若用列表进行存储，则对应的查询方式如下:
def find_product_price(products, product_id):
    for id,price in products:
        if id == product_id:
            return price
    return None

products = [
    (143121312, 100),
    (432314553, 30), 
    (32421912367, 150)
]

print('The price of product 432314553 is {}'.format(find_product_price(products,432314553)))

The price of product 432314553 is 30


- 假设列表有 n 个元素，而查找的过程要遍历列表，那么时间复杂度就为 O(n)。即使我们先对列表进行排序，然后使用二分查找，也会需要 O(logn) 的时间复杂度，更何况，列表的排序还需要 O(nlogn) 的时间。
- 但如果我们用字典来存储这些数据，那么查找就会非常便捷高效，只需 O(1) 的时间复杂度就可以完成。原因也很简单，刚刚提到过的，字典的内部组成是一张哈希表，你可以直接通过键的哈希值，找到其对应的值。

In [21]:
# 按字典存储的查询方法：
products = { 
    143121312: 100, 
    432314553: 30,
    32421912367: 150
}
print('The price of product 432314553 is {}'.format(products[432314553]))

The price of product 432314553 is 30


类似的，现在需求变成，要找出这些商品有多少种不同的价格。我们还用同样的方法来比较一下。
如果还是选择使用列表，对应的代码如下，其中，A 和 B 是两层循环。同样假设原始列表有 n 个元素，那么，在最差情况下，需要 O(n^2) 的时间复杂度。

In [22]:
products = [ 
    (143121312, 100), 
    (432314553, 30), 
    (32421912367, 150),
    (937153201, 30)
]

In [29]:
# list版本：
def find_unique_price_list(products):
    unique_price_list = []
    for id,price in products:#A
        if price not in unique_price_list:#B
            unique_price_list.append(price)
    return len(unique_price_list)

print("number of unique price is: {}".format(find_unique_price_list(products)))

number of unique price is: 3


- 但如果我们选择使用集合这个数据结构，由于集合是高度优化的哈希表，里面元素不能重复，并且其添加和查找操作只需 O(1) 的复杂度，那么，总的时间复杂度就只有 O(n)

In [30]:
# set版本：
def find_unique_price_set(products):
    unique_price_set = set()
    for id,price in products:
        unique_price_set.add(price)
    return len(unique_price_set)
print("number of unique price is: {}".format(find_unique_price_set(products)))       

number of unique price is: 3


- 假设有100000个元素的产品，分别计算使用列表和集合来统计产品价格数量的运行时间：

In [32]:
import time

ids = [x for x in range(0, 100000)]
prices = [x for x in range(200000,300000)]
products = list(zip(ids,prices))

# 计算列表版本的时间
start = time.perf_counter()
find_unique_price_list(products)
end = time.perf_counter()
print("time elapse using list: {}".format(end - start))

time elapse using list: 63.6363717000022


In [33]:
start = time.perf_counter()
find_unique_price_set(products)
end = time.perf_counter()
print("time elapse using list: {}".format(end - start))

time elapse using list: 0.012224400001286995


- 可以看到，仅仅十万的数据量，两者的速度差异就如此之大。事实上，大型企业的后台数据往往有上亿乃至十亿数量级，如果使用了不合适的数据结构，就很容易造成服务器的崩溃，不但影响用户体验，并且会给公司带来巨大的财产损失。

# 字典和集合的工作原理

- 对于字典而言，这张表存储了哈希值（hash）、键和值这三个元素。
- 对于集合来说，区别就是哈希表内没有键和值的匹对，只有单一的元素。

## 老版本Python的哈希表结构
![title](./img/3.png)
不难想象，随着哈希表的扩张，它会变得越来越稀疏。举个例子，比如我有这样一个字典：
![title](./img/4.png)

## 新版本python的哈希表结构
这样的设计结构显然非常浪费存储空间。为了提高存储空间的利用率，现在的哈希表除了字典本身的结构，会把索引和哈希值、键、值单独分开，也就是下面这样新的结构：
![title](./img/5.png)
那么，刚刚的这个例子，在新的哈希表结构下的存储形式，就会变成下面这样：
![title](./img/6.png)
我们可以很清晰地看到，空间利用率得到很大的提高。

# 插入操作
每次向字典或集合插入一个元素时，Python会首先计算键的哈希值（hash(key)）,再和mask=PyDicMinSize -1做与操作，计算这个元素应该插入哈希表的位置index = hash(key)&mask。如果哈希表中此时这个位置是空的，那么这个元素就会被插入其中。
而如果此位置已被占用，Python便会比较两个元素的哈希值和键是否相等。
- 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
- 若两者有一个不相等，这种情况便被称为哈子冲突(hash collision),意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python便会继续寻找表中空余的位置，直到找到位置为止。

值得一提的是，通常来说，遇到这种情况，最简单的方式是线性寻找，**即从这个位置开始，挨个往后寻找空位。当然，Python内部进行了优化。**

# 查找操作
和前面的插入操作类似，Python 会根据哈希值，找到其应该处于的位置；然后，比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。如果相等，则直接返回；如果不等，则继续查找，直到找到空位或者抛出异常为止。

# 删除操作
- 对于删除操作，Python会暂时对这个位置的元素，赋予一个特殊的值，等到重新调整哈希表的大小时，再将其删除。
- 不难理解，哈希冲突的发生，往往会降低字典和集合操作的速度。因此，为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有三分之一的剩余空间。随着元素的不停插入，当剩余空间小于三分之一时，Pyhon会获取更大的内存空间，扩充哈希表。不过，这种情况下，表内所有的元素位置都会被重新排放。
- 虽然哈希冲突和哈希表大小的调整，都会导致速度减缓，但是这种情况发生的次数极少。所以，平均情况下，这仍能保证插入、查找和删除的时间复杂度为O（1）。

# 思考题
字典的键可以是一个列表吗？下面这段代码中，字典的初始化是否正确呢？如果不正确，可以说出你的原因吗？

In [1]:
d = {'name': 'jason', ['education']: ['Tsinghua University', 'Stanford University']}

TypeError: unhashable type: 'list'

用列表作为 Key 在这里是不被允许的，因为列表是一个动态变化的数据结构，字典当中的 key 要求是不可变的，原因也很好理解，key 首先是不重复的，如果 Key 是可以变化的话，那么随着 Key 的变化，这里就有可能就会有重复的 Key，那么这就和字典的定义相违背；如果把这里的列表换成之前我们讲过的元组是可以的，因为元组不可变