## dictionary & set

- 字典的创建

   Python 中字典和集合，无论是键还是值，都可以是混合类型。

In [2]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 

- 字典的访问
  
  可以直接索引键，如果不存在，就会抛出异常，或者使用 get(key, default) 函数来进行索引，间不存在返回默认值

In [5]:
d = {'name': 'jason', 'age': 20}
print(d.get('name'))
print(d.get('location', 'null'))

jason
null


- 集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。

In [6]:
s = {1, 2, 3}
s[0]

TypeError: 'set' object is not subscriptable

- 想要判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断。

In [8]:
s = {1, 2, 3}
print(1 in s)
print(10 in s)

d = {'name': 'jason', 'age': 20}
print('name' in d)
print('location' in d)

True
False
True
False


- 字典和集合也同样支持增加、删除、更新等操作

In [9]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
print(d)

d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
d.pop('dob') # 删除键为'dob'的元素对
print(d)

s = {1, 2, 3}
s.add(4) # 增加元素4到集合
print(s)

s.remove(4) # 从集合中删除元素4
print(s)


{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}
{'name': 'jason', 'age': 20, 'gender': 'male'}
{1, 2, 3, 4}
{1, 2, 3}


>注意，集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你无法知道会删除哪个元素，谨慎使用。

- 对于字典,升序或降序排序

In [10]:
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
print(d_sorted_by_key)
print(d_sorted_by_value)

[('a', 2), ('b', 1), ('c', 10)]
[('b', 1), ('a', 2), ('c', 10)]


- 对于集合，其排序和前面讲过的列表、元组很类似，直接调用 sorted(set) 即可

In [13]:
s = {3, 4, 2, 1}
print(sorted(s))

[1, 2, 3, 4]


- 字典和集合性能

  假设列表有 n 个元素，而查找的过程要遍历列表，那么时间复杂度就为 O(n)。即使我们先对列表进行排序，然后使用二分查找，也会需要 O(logn) 的时间复杂度，更何况，列表的排序还需要 O(nlogn) 的时间。

  但如果我们用字典来存储这些数据，那么查找就会非常便捷高效，只需 O(1) 的时间复杂度就可以完成。原因也很简单，字典的内部组成是一张哈希表，你可以直接通过键的哈希值，找到其对应的值。

  这与字典、集合内部的数据结构相关。
  
  - 对于字典而言，这张表存储了哈希值（hash）、键和值这 3 个元素。
  - 而对集合来说，区别就是哈希表内没有键和值的配对，只有单一的元素了。

  针对字典的内部数据结构而言，随着哈希表的扩张，它会变得越来越稀疏。

  这样的设计结构显然非常浪费存储空间。为了提高存储空间的利用率，现在的哈希表除了字典本身的结构，会把索引和哈希值、键、值单独分开。

  初期的设计：

```
--+-------------------------------+
  | 哈希值(hash)  键(key)  值(value)
--+-------------------------------+
0 |    hash0      key0    value0
--+-------------------------------+
1 |    hash1      key1    value1
--+-------------------------------+
2 |    hash2      key2    value2
--+-------------------------------+
. |           ...
__+_______________________________+
```

=> 变得稀疏

```
entries = [
  ['--', '--', '--']
  [-230273521, 'dob', '1999-01-01'],
  ['--', '--', '--'],
  ['--', '--', '--'],
  [1231236123, 'name', 'mike'],
  ['--', '--', '--'],
  [9371539127, 'gender', 'male']
]
```

改进设计：

```
Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------

Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------
```

存储结构

```
indices = [None, 1, None, None, 0, None, 2]
entries = [
  [1231236123, 'name', 'mike'],
  [-230273521, 'dob', '1999-01-01'],
  [9371539127, 'gender', 'male']
]
```

插入元素的步骤

1. 计算hash(key)
2. 计算插入hash表位置index
3. 如果哈希表中此位置是空的，那么这个元素就会被插入其中。
4. 而如果此位置已被占用，Python 便会比较两个元素的哈希值和键是否相等。
   - 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
   - 若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python 需要解决哈希冲突的算法。（查看源码）

查找元素的步骤

1. 和插入操作类似，Python 计算哈希值和index，定位到index位置；
2. 比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。
   - 如果相等，则直接返回；
   - 如果不等，则继续查找，直到找到空位或者抛出异常为止。

删除元素的步骤

与查找类似，定位到hash表，Python 会暂时对这个位置的元素，赋于一个特殊的值，等到重新调整哈希表的大小时，再将其删除。

哈希冲突的发生，往往会降低字典和集合操作的速度。因此，为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入，当剩余空间小于 1/3 时，Python 会重新获取更大的内存空间，扩充哈希表。这种情况下，表内所有的元素位置都会被重新排放。虽然哈希冲突和哈希表大小的调整，都会导致速度减缓，但是这种情况发生的次数极少。所以，平均情况下，这仍能保证插入、查找和删除的时间复杂度为 O(1)。



### 思考题

In [48]:
import dis

def keyword_init():
  d = {'name': 'jason', 'age': 20, 'gender': 'male'}

def dict_init():
  d = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

# 性能分析
dis.dis(keyword_init)
dis.dis(dict_init)

%timeit keyword_init
%timeit dict_init


  4           0 LOAD_CONST               1 ('jason')
              2 LOAD_CONST               2 (20)
              4 LOAD_CONST               3 ('male')
              6 LOAD_CONST               4 (('name', 'age', 'gender'))
              8 BUILD_CONST_KEY_MAP      3
             10 STORE_FAST               0 (d)
             12 LOAD_CONST               0 (None)
             14 RETURN_VALUE
  7           0 LOAD_GLOBAL              0 (dict)
              2 LOAD_CONST               1 ('jason')
              4 LOAD_CONST               2 (20)
              6 LOAD_CONST               3 ('male')
              8 LOAD_CONST               4 (('name', 'age', 'gender'))
             10 BUILD_CONST_KEY_MAP      3
             12 CALL_FUNCTION            1
             14 STORE_FAST               0 (d)
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE
16.4 ns ± 0.0471 ns per loop (mean ± std. dev. of 7 runs, 100000000 loops each)
17.5 ns ± 0.105 ns per loop (mean ± std. 

In [49]:
%timeit {}
%timeit dict()

28.5 ns ± 0.729 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
83.9 ns ± 0.687 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [54]:
import profile

profile.run('{}')
profile.run('dict')

         4 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 :0(exec)
        1    0.000    0.000    0.000    0.000 :0(setprofile)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        0    0.000             0.000          profile:0(profiler)
        1    0.000    0.000    0.000    0.000 profile:0({})


         4 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 :0(exec)
        1    0.000    0.000    0.000    0.000 :0(setprofile)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 profile:0(dict)
        0    0.000             0.000          profile:0(profiler)




上面使用了三种方式来分析性能
- dis
- timeit
- profile

In [24]:
d = {'name': 'jason', ['education']: ['Tsinghua University', 'Stanford University']}

TypeError: unhashable type: 'list'

这里的问题是list是可变类型，不可以hash，不可以作为字典的key，换做tuple就可以了

In [25]:
d = {'name': 'jason', ('education'): ['Tsinghua University', 'Stanford University']}

In [None]:
python 3.7开始字典是有序的，比较一下性能：

In [47]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}

## double star
def double_stars():
    d2 = {'hobby': 'swim', **d1}

%timeit double_stars

## update 函数：
def dict_update():
    d3 = {'hobby': 'swim'}
    d3.update(d1)

%timeit dict_update

17.2 ns ± 1.36 ns per loop (mean ± std. dev. of 7 runs, 100000000 loops each)
