# 字典和集合基础 (dict & set)
字典是一系列由键（key）和值（value）配对组成的元素的集合，在 Python3.7+，字典被确定为有序（注意：在 3.6 中，字典有序是一个 implementation detail，在 3.7 才正式成为语言特性，因此 3.6 中无法 100% 确保其有序性），而 3.6 之前是无序的，其长度大小可变，元素可以任意地删减和改变。

* 相比于列表和元组，字典的性能更优，特别是对于查找、添加和删除操作，字典都能在常数时间复杂度内完成。
* 而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。

## 字典和集合的创建

In [2]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 == d4

True

In [3]:
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2

True

* Python 中字典和集合，无论是键还是值，都可以是混合类型

In [4]:
s = {1, 'hello', 5.0}

## 元素访问(字典)

In [5]:
d = {'name': 'jason', 'age': 20}
d['name']

'jason'

* 字典访问可以直接索引键，如果不存在，就会抛出异常

In [6]:
d['location']

KeyError: 'location'

* 也可以使用 get(key, default) 函数来进行索引。如果键不存在，调用 get() 函数可以返回一个默认值。

In [7]:
d = {'name': 'jason', 'age': 20}
d.get('name')

'jason'

In [8]:
d.get('location', 'null')

'null'

## 元素访问(集合)

* 集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样

In [9]:
s = {1, 2, 3}
s[0]

TypeError: 'set' object is not subscriptable

* 想要判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断

In [10]:
s = {1, 2, 3}
1 in s

True

In [11]:
10 in s

False

In [13]:
d = {'name': 'jason', 'age': 20}
'name' in d

True

In [14]:
'location' in d

False

## 增加、删除、更新等操作

In [16]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
d

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}

* ! 集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你无法知道会删除哪个元素，因此这个操作得谨慎使用

In [17]:
d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
d.pop('dob') # 删除键为'dob'的元素对

'1998-01-01'

In [18]:
d

{'name': 'jason', 'age': 20, 'gender': 'male'}

In [19]:
s = {1, 2, 3}
s.add(4) # 增加元素4到集合
s

{1, 2, 3, 4}

In [20]:
s.remove(4) # 从集合中删除元素4
s

{1, 2, 3}

## 排序

In [21]:
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序

In [22]:
d_sorted_by_key

[('a', 2), ('b', 1), ('c', 10)]

In [23]:
d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

In [24]:
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序

[1, 2, 3, 4]

## 字典和集合的工作原理
* 对于字典而言，这张表存储了哈希值（hash）、键和值这 3 个元素。
* 而对集合来说，区别就是哈希表内没有键和值的配对，只有单一的元素了

### 插入操作
每次向字典或集合插入一个元素时，Python 会首先计算键的哈希值（hash(key)），再和 mask = PyDicMinSize - 1 做与操作，计算这个元素应该插入哈希表的位置 index = hash(key) & mask。如果哈希表中此位置是空的，那么这个元素就会被插入其中。

而如果此位置已被占用，Python 便会比较两个元素的哈希值和键是否相等。
* 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
* 若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python 便会继续寻找表中空余的位置，直到找到位置为止。

### 查找操作
Python 会根据哈希值，找到其应该处于的位置；然后，比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。如果相等，则直接返回；如果不等，则继续查找，直到找到空位或者抛出异常为止。

### 删除操作
对于删除操作，Python 会暂时对这个位置的元素，赋于一个特殊的值，等到重新调整哈希表的大小时，再将其删除。

不难理解，哈希冲突的发生，往往会降低字典和集合操作的速度。因此，为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入，当剩余空间小于 1/3 时，Python 会重新获取更大的内存空间，扩充哈希表。不过，这种情况下，表内所有的元素位置都会被重新排放。