## 1. 哈希表

不知道你有没有好奇过为什么 Python 里的 dict 和 set 查找速度这么快呢，用了什么黑魔法吗？ 经常听别人说哈希表(也叫做散列表)，究竟什么是哈希表呢？这一章我们来介绍哈希表，后续章节我们会看到 Python 中的字典和集合是如何实现的。

### 2. 哈希表的工作过程


数组能通过下标 O(1) 访问，但是删除一个中间元素却要移动其他元素，时间 O(n)。 
循环双端链表倒是可以在知道一个节点的情况下迅速删除它，但是查找又成了 O(n)。

难道就没有一种方法可以快速定位和删除元素吗？似乎想要快速找到一个元素除了知道下标之外别无他法，于是乎聪明的计算机科学家又想到了一种方法。 能不能给每个元素一种『逻辑下标』，然后直接找到它呢，哈希表就是这种实现。它通过一个哈希函数来计算一个元素应该放在数组哪个位置，当然对于一个 特定的元素，哈希函数每次计算的下标必须要一样才可以，而且范围不能超过给定的数组长度。


我们还是以书中的例子说明，假如我们有一个数组 T，包含 M=13 个元素，我们可以定义一个简单的哈希函数 h

In [3]:
 h(key) = key % M

这里取模运算使得 h(key) 的结果不会超过数组的长度。我们分别插入以下元素：765, 431, 96, 142, 579, 226, 903, 388

### 3. 哈希冲突 (collision)

当不同的 key 通过我们的哈希函数[ h(key)=key%M ]计算后得到的下标一样， 这种情况成为哈希冲突。

### 3.1. 链接法

如果产生冲突了让数组中对应的槽变成一个链式结构。
但是如果哈希函数选不好的话，可能就导致冲突太多一个链变得太长，这样查找就不再是 O(1) 的了。

### 3.2. 开放寻址法(open addressing)

   它的基本思想是当一个槽被占用的时候，采用一种方式来寻找下一个可用的槽。 （这里槽指的是数组中的一个位置），根据找下一个槽的方式不同，分为：

    (1)、线性探查(linear probing): 当一个槽被占用，找下一个可用的槽。 h(k,i)=(h’(k)+i) % m,i=0,1,...,m−1

    (2)、二次探查(quadratic probing): 当一个槽被占用，以二次方作为偏移量。 h(k,i)=(h′(k)+c1+c2i2) % m,i=0,1,...,m−1

    (3)、双重散列(double hashing): 重新计算 hash 结果。 h(k,i)=(h1(k)+ih2(k)) % m

### 4. 哈希冲突举例

In [5]:
# 哈希冲突
# 选一个简单的二次探查函数 h(k,i)=(home+i2)%m，它的意思是如果遇到了冲突，我们就在原始计算的位置不断加上 i 的平方


inserted_index_set = set()
M = 13

def h(key, M=13):
    return key % M

to_insert = [765, 431, 96, 142, 579, 226, 903, 388]
for number in to_insert:
    index = h(number)
    first_index = index
    i = 1
    while index in inserted_index_set:
        print('\th({number}) = {number} % M = {index} collision'.format(number=number, index=index))
        index = (first_index+i*i) % M
        i += 1
    else:
        print('h({number}) = {number}%M = {index}'.format(number=number, index=index))
        inserted_index_set.add(index)
        

h(765) = 765%M = 11
h(431) = 431%M = 2
h(96) = 96%M = 5
h(142) = 142%M = 12
h(579) = 579%M = 7
	h(226) = 226 % M = 5 collision
h(226) = 226%M = 6
	h(903) = 903 % M = 6 collision
	h(903) = 903 % M = 7 collision
h(903) = 903%M = 10
	h(388) = 388 % M = 11 collision
	h(388) = 388 % M = 12 collision
	h(388) = 388 % M = 2 collision
	h(388) = 388 % M = 7 collision
h(388) = 388%M = 1
