## Dict 和 Set

### dict和集合的基础知识
* 字典是一系列由键（key）和值（value）配对组成的元素的集合: d = { 'name': 'Tony', 'job': 'DevOps'}
* 在Python3.6+之后，字典是有序的, 键值对A先插入字典，键值对B后插入字典，但是当你打印字典的Keys列表时，你会发现B可能在A的前面。但是从Python 3.6开始，字典是变成有顺序的了。你先插入键值对A，后插入键值对B，那么当你打印Keys列表的时候，你就会发现B在A的后面。
* 相比list和tuple，字典的性能更优，特别是对于增删改查，字典的操作复杂度是O(1)
* 集合没有键和值的配对，是一系列无序的、唯一的元素组合。s = {'tony', 'python', 3, 2}
* 虽然集合看起来很像list或者tuple，但是集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。

In [None]:
s = [1, 2, 3, 4]
s[2]

s = {1, 2, 3, 4}
s[2]

### dict和集合的创建
dict和set的创建通常来说有以下几种方式
```bash
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 ==d4
True

s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2
True
```

### dict的访问
* dict可以直接通过索引键访问，如果不存在索引键，那么就会抛出异常
```bash
d = {'name': 'jason', 'age': 20}
d['name']
'jason'
d['location']
```
* 你也可以用get()函数来进行访问
```bash
d = {'name': 'jason', 'age': 20}
d.get('name')
'jason'
d.get('location', 'null')
'null'
```

### set的访问
* 集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。大家看看下面这个例子，觉得返回值是多少呢？
```bash
s = {1, 2, 3}
s[0]
```
* 考考大家，如果我想从一个set里面获取第二个元素，有什么办法呢？


### dict和set的基本操作
* 判断是否存在
```bash

s = {1, 2, 3}
1 in s
True
10 in s
False

d = {'name': 'jason', 'age': 20}
'name' in d
True
'location' in d
False
```
* 增加元素
```bash
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
s = {1, 2, 3}
s.add(4) # 增加元素4到集合
```
* 删除元素
```bash
d.pop('dob') # 删除键为'dob'的元素对
'1998-01-01'

s = {1, 2, 3, 4}
s.remove(4)
```


### dict和set的排序
很多情况下，我们需要对字典或集合进行排序，比如，取出值最大的 50 对。而对于dict，我们通常会根据键或值，进行升序或降序排序
```bash
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
d_sorted_by_key
[('a', 2), ('b', 1), ('c', 10)]
d_sorted_by_value
[('b', 1), ('a', 2), ('c', 10)]
```
set的排序比较简单，直接sort就可以
```bash
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序
[1, 2, 3, 4]
```

### 字典和集合的工作原理
每次向字典或集合插入一个元素时，Python 会首先计算键的哈希值（hash(key)），再和 mask = PyDicMinSize - 1 做与操作，计算这个元素应该插入哈希表的位置 index = hash(key) & mask。如果哈希表中此位置是空的，那么这个元素就会被插入其中。

而如果此位置已被占用，Python 便会比较两个元素的哈希值和键是否相等。
* 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
* 若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python 便会继续寻找表中空余的位置，直到找到位置为止。

插入、查找和删除的时间复杂度为 O(1)

### 应用举例
比如电商企业的后台，存储了每件产品的 ID、名称和价格。现在的需求是，给定某件商品的 ID，我们要找出其价格。

如果我们用列表来存储这些数据结构，并进行查找，相应的代码如下：
```bash

def find_product_price(products, product_id):
    for id, price in products:
        if id == product_id:
            return price
    return None 
     
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150) 
]

print('The price of product 432314553 is {}'.format(find_product_price(products, 432314553)))

# 输出
The price of product 432314553 is 30
```

用字典的代码
```bash

products = {
  143121312: 100,
  432314553: 30,
  32421912367: 150
}
print('The price of product 432314553 is {}'.format(products[432314553])) 

# 输出
The price of product 432314553 is 30
```

### 思考
既然我们有了list和tuple？我们为什么需要集合？

In [8]:
l1 = [1, 2, 3, 4, 5, 5, 5, 6]

temp_l1 = []

for x in l1:
     if x not in temp_l1:
        temp_l1.append(x)

print(temp_l1)

temp_l2 = list(set(l1))

print(temp_l2)

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 4, 5, 6]
