字典
====
字典是一系列由键（key）和值（value）配对组成的元素的集合
相比于列表和元组，字典的性能更优，特别是对于查找、添加和删除操作，字典都能在常数时间复杂度内完成。
#集合和字典的区别
集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。

In [1]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 ==d4

True

In [2]:
s = {1,'hello',50}
s

{1, 50, 'hello'}

In [7]:
d = {'name': 'jason', 'age': 20}
d['name']
d.get('name')
d.get('location','null')

'null'

集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样

In [9]:
s = {1,2,3,4}
s[1]

TypeError: 'set' object is not subscriptable

判断一个元素在不在字典或集合内，可以用 value in dict/set 来判断。

In [11]:
s = {1,2,3}
1 in s
10 in s

True

In [16]:
d = {'name':'jason','age':20}
'name' in d
'jason' in d
'age' in d
20 in d

False

除了创建和访问，字典和集合也同样支持增加、删除、更新等操作

In [22]:
d = {'name':'jason','age': 20}
d['gender'] = 'male'
d['dob'] = '1999-02-01'
d['dob'] = '1996-09-09'
d.pop('dob')
d


s = {1,2,3}
s.add(4)
s
s.remove(2)
s

{1, 3, 4}

In [26]:
d = {'b':1,'a':2,'c':10}
d_sorted_by_key = sorted(d.items(), key=lambda x:x[0])    # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(),key=lambda x : x[1]) # 根据字典值的升序排序
d_sorted_by_key
d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

列表中的每个元素，是由原字典的键和值组成的元组。

In [28]:
s = {3,4,1,2}
sorted(s)

[1, 2, 3, 4]

字典和集合性能
======================
字典和集合是进行过性能高度优化的数据结构，特别是对于查找、添加和删除操作。

那接下来看看，它们在具体场景下的性能表现，以及与列表等其他数据结构的对比。

比如电商企业的后台，存储了每件产品的 ID、名称和价格。现在的需求是，给定某件商品的 ID，我们要找出其价格。

用列表来存储这些数据结构，并进行查找，相应的代码如下：

In [30]:
def find_product_price(products, product_id):
    for id, price in products:
        if id == product_id:
            return price
    return None 
     
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150) 
]
print('The price of product 432314553 is {}'.format(find_product_price(products, 432314553)))

The price of product 432314553 is 30


要找出这些商品有多少种不同的价格。我们还用同样的方法来比较一下。

In [36]:
#first version
def find_unique_price_using_list(products):
    unique_price_list = []
    for _,price in products: #A
        if price not in unique_price_list:#B
            unique_price_list.append(price)
    return len(unique_price_list)


products = [
        (143121312, 100), 
        (432314553, 30),
        (32421912367, 150),
        (937153201, 30)
]
print('number of unique price is: {}'.format(find_unique_price_using_list(products)))

number of unique price is: 3


In [37]:
# set version
def find_unique_price_using_set(products):
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set)        
 
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150),
    (937153201, 30)
]
print('number of unique price is: {}'.format(find_unique_price_using_set(products)))


number of unique price is: 3


初始化了含有 100,000 个元素的产品，并分别计算了使用列表和集合来统计产品价格数量的运行时间：

In [None]:
import time
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))
 
# 计算列表版本的时间
start_using_list = time.perf_counter()
find_unique_price_using_list(products)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))

 
# 计算集合版本的时间
start_using_set = time.perf_counter()
find_unique_price_using_set(products)
end_using_set = time.perf_counter()
print("time elapse using set: {}".format(end_using_set - start_using_set))

字典和集合的工作原理
===================
对于字典而言，这张表存储了哈希值（hash）、键和值这 3 个元素。

而对集合来说，区别就是哈希表内没有键和值的配对，只有单一的元素了。

老版本 Python 的哈希表结构如下所示：
--+-------------------------------+
  | 哈希值 (hash)  键 (key)  值 (value)
--+-------------------------------+
0 |    hash0      key0    value0
--+-------------------------------+
1 |    hash1      key1    value1
--+-------------------------------+
2 |    hash2      key2    value2
--+-------------------------------+
. |           ...
__+_______________________________+

这样的设计结构显然非常浪费存储空间。为了提高存储空间的利用率，

现在的哈希表除了字典本身的结构，会把索引和哈希值、键、值单独分开，也就是下面这样新的结构：
Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------
 
Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------
空间利用率得到很大的提高。

几个操作的工作原理。
==================

##插入操作

每次向字典或集合插入一个元素时，Python 会首先计算键的哈希值（hash(key)），再和 mask = PyDicMinSize - 1 做与操作，计算这个元素应该插入哈希表的位置 index = hash(key) & mask。如果哈希表中此位置是空的，那么这个元素就会被插入其中。

而如果此位置已被占用，Python 便会比较两个元素的哈希值和键是否相等。

若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。

若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python 便会继续寻找表中空余的位置，直到找到位置为止。

值得一提的是，通常来说，遇到这种情况，最简单的方式是线性寻找，即从这个位置开始，挨个往后寻找空位。当然，Python 内部对此进行了优化（这一点无需深入了解，你有兴趣可以查看源码，我就不再赘述），让这个步骤更加高效。

##查找操作
和前面的插入操作类似，Python 会根据哈希值，找到其应该处于的位置；然后，比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。如果相等，则直接返回；如果不等，则继续查找，直到找到空位或者抛出异常为止。


##删除操作
对于删除操作，Python 会暂时对这个位置的元素，赋于一个特殊的值，等到重新调整哈希表的大小时，再将其删除。

不难理解，哈希冲突的发生，往往会降低字典和集合操作的速度。因此，为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入，当剩余空间小于 1/3 时，Python 会重新获取更大的内存空间，扩充哈希表。不过，这种情况下，表内所有的元素位置都会被重新排放。

虽然哈希冲突和哈希表大小的调整，都会导致速度减缓，但是这种情况发生的次数极少。所以，平均情况下，这仍能保证插入、查找和删除的时间复杂度为 O(1)。