In [0]:
import math

## 11.0 序论

- 在散列表中，不是直接把关键字作为数组的下标，而是根据关键字计算出相应的下标

## 11.1 直接寻址表

- 当关键字的全域 $U$ 较小时，直接寻址是一种简单有效的技术
- 示意图：
  - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200120181439.png width=500>

### 练习

#### 11.1-3
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200122201523.png width=700>

- 采用双向链表来处理冲突即可

#### 11.1-4
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200122201744.png width=700>

- 用一个双向链表 $S$ 来储存指向大数组 $A$ 中的指针；同时也在 $A$ 中储存指向 $S$ 中元素的指针
- 通过两者相互确认，可判断当前槽位是否含有值

## 11.2 散列表(hash table)

- 当关键字集合 $K$ 比所有可能的关键字的全域 $U$ 要小许多时，直接寻址表会造成大量的内存浪费
- 散列表能将存储需求降至 $\Theta(|K|)$，同时散列表中查找一个元素的平均时间为 $O(1)$

###### 散列函数(hash function)

- 散列函数 $h$，由关键字 $k$ 计算出槽的位置
- 函数 $h$ 将关键字的全域 $U$ 映射到散列表 $T[0,\cdots, m-1]$ 的槽位上
  - 示意图
    - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200120182833.png width=500>
  - 散列表的大小 $m$ 一般要比 $|U|$ 小得多
- 两个关键字可能映射到同一个槽位上，称为**冲突**
  - 由于 $|U| > m$，故至少有两个关键字的散列值相同，想要完全避免冲突是不可能的
  - 解决冲突我方法有 **链接法** 和 **开放寻址法**

#### 通过链接法解决冲突

- 将散列到同一个槽中的所有元素都放在一个链表中
  - 示意图
    - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200120183642.png width=600>

#### 链接法散列的分析

- 装载因子 $\alpha = n / m$，其中 $n$ 为元素的数量，$m$ 为槽位的数量
- 当所有的元素都散列到同一个槽位时，最坏情况的查找时间为 $\Theta(n)$

##### 简单均匀散列

- 任何一个给定的元素等可能的散列到 $m$ 个槽位中的任意一个，且与其它元素被散列到什么位置无关
- 链表 $T[j]$ 的长度用 $n_j$ 来表示，则可得到：
  - $$n = n_0 + n_1 + \cdots + n_{m-1}$$
  - 在简单均匀假设的前提下，可得到 $E(n_j) = n / m$

###### 定理11.1
- 在简单均匀散列的假设下，对于用链接法解决冲突的散列表，一次不成功查找的平均时间为 $\Theta(1+\alpha)$

- 证明
  - 计算$h(k)$需要时间为 $O(1)$ 
  - 不成功的查找需要查找 $h(k)$ 槽位的链表，需要的期望时间为 $E(n_{h(k)})$，即 $\alpha$
  - 总时间为 $\Theta(1+\alpha)$

###### 定理11.2
- 在简单均匀散列的假设下，对于用链接法解决冲突的散列表，一次不成功查找的平均时间为 $\Theta(1+\alpha)$

- 证明
  - 定义指示器随机变量 
    - $$X_{ij} = I\{h(k_i) = h(k_j)\}$$
  - 设待查找的元素为 $i$，则在一次成功的遍历中，只会查找散列值与 $i$ 相同，且在 $i$ 之后插入的元素，所以可按下式计算期望值
    - $$E({1 \over n}\sum_{i=1}^{n}{(1 + \sum_{j=i+1}^{n}{X_{ij}})})$$

### 练习

#### 11.2-1
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200122203254.png width=700>

- 可能出现的冲突的对数为 $\binom{n}{2}$，则期望的冲突数为：
  - $$\binom{n}{2}{1 \over m} = {n^2 - n \over 2m}$$

#### 11.2-6
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200122211640.png width=700>

- 随机选取关键字的步骤
  1. 为了使得每个元素被选得的概率相同，先生成 1 个 $[1, m]$ 的随机数 $i$
  2. 然后生成 1 个 $[1, L]$ 的随机数 $j$
    - 如果 $j <= n_i$ 且直接返回 $i$ 槽中的第 $j$ 个元素
    - 如果 $J > N$，则重复步骤 1,2
  - 在每次选择的过程中，散列表中的每个元素被选中的概率均为 $1/(mL)$
- 运行时间分析
  - 在一次选取的过程中，恰好有元素被选中的概率 $$p={n\over mL} = {\alpha \over L}$$
  - 设执行 1,2 步的次数为 $X$，则可得 
  $$E(X) =\sum_{i=1}^{\infty}{P_r(X\ge i)} = \sum_{i=1}^{\infty}{(1-p)^{i-1}} = \sum_{i=0}^{\infty}{(1-p)^{i}} = {1 \over 1 - (1 - p)} = {1\over p} = {L \over \alpha}$$
  - 返回特定的元素期望的运行时间为 $\alpha$，则总的运行时间为
  $$E(X) + \alpha = {L \over \alpha} + \alpha = L({\alpha \over L} + {1 \over \alpha})$$ 
  - 由于 $L \ge \alpha$，可得总得运行时间为 $O(L\bullet(1 + 1/\alpha))$

## 11.3 散列函数

#### 好的散列函数的特点

- 一个好的散列函数应(近似地) 满足简单均匀散列假设
- 在实际应用中，常可运用启发式方法来构造性能好的散列函数
- 散列函数的某些应用可能会要求比简单均匀散列更强的性质
  - 可能会希望某些很近似的关键字具有截然不同的散列值

#### 将关键字转换为自然数

- 多数散列函数假定关键字的全域为自然数集 $N=\{0, 1, 2, \cdots\}$
- 如果所给的关键字不是自然数，则需要将其转换为自然数
  - 将字符串转换为自然数
    - pt 转换为十进制的整数对为 $(112, 116)$
    - 以 $128$ 为基数来表示， pt 即为 $(112 \times 128) + 116 = 14452$

### 11.3.1 除法散列法

- 散列函数为：
  - $$h(k) = k \bmod m$$
- $m$ 不应该为 $2$ 的幂，因为如果 $m=2^p$，则 $h(k)$ 就是 $k$ 的 $p$ 个最低位数字
- 一个不太接近 $2$ 的整数幂的素数，常常是 $m$ 的一个较好的选择

### 11.3.2 乘法散列法

- 散列函数为：
  - $$h(k) = \lfloor m(kA \bmod 1)\rfloor$$
  - $0 < A < 1$
  - $kA \bmod 1 = kA - \lfloor kA \rfloor$
- 乘法散列的优点是对 $m$ 的选择不是特别关键
- $A \approx (\sqrt{5} - 1) / 2$ 是一个比较理想的值
- 示意图
  - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200120193852.png width=600>

### 11.3.3 全域散列法

- 为了避免最坏的平均检索时间，唯一有效的改进方法就是随机地选择散列函数，使之独立于要储存的关键字，这种方法称为全域散列(universal hashing)
- 全域散列函数
  - 设 $\mathscr{H}$ 是一组有限散列函数，将全域 $U$ 映射到 $\{0, 1, \cdots, m-1\}$ 中
  - 如果从 $\mathscr{H}$ 中随机选择一个散列函数，当关键字 $k\neq l$ 时，两者发生冲突的概率不大于 $1/m$，则称 $\mathscr{H}$ 这个函数组是全域的

###### 定理 11.3
- 如果 $h$ 选自一组全域散列函数，将 $n$ 个关键字散列到一个大小为 $m$ 的表 $T$ 中，并且链接法解决冲突
- 如果 $k \notin T$, 则 $E[n_{h(k)}] \le \alpha = n/m$
- 如果 $k \in T$，则 $E[n_{h(k)}] \le 1 + \alpha$

- 根据定理 11.3，则看出通过在运行时随机的选择散列函数，就要吧确保每一个操作序列都具有良好的平均情况运行时间

###### 推论 11.4

- 对于一个具有 $m$ 个槽位且初始为空的表，采用全域散列法和利用链接法解决冲突
  - 需要 $\Theta(n)$ 的期望时间来处理包含了 $n$ 个 $INSERT, SEARCH$ 和 $DELETE$ 的操作序列
  - 其中包含了 $O(m)$ 个 $INSERT$ 操作

#### 设计一个全域散列函数

1. 选择一个足够大的素数 $p$，使得 $\forall k \in U, k \in [0, p-1]$
2. 设 $$\left \{ \begin{aligned} &\textbf{Z}_p = \{0, 1, \cdots, p-1\} \\
        &\textbf{Z}_{p}^{*} = \{1, 2, \cdots, p-1 \}
      \end{aligned}
      \right.$$
3. $\forall a \in \textbf{Z}_{p}^{*}, b \in \textbf{Z}_p$，定义散列函数 $h_{ab}$
  - $$h_{ab}(k) = ((ak+b)\bmod p) \bmod m \tag{11.3}$$
  - 所有这样的函数构成的函数簇为 $$\mathscr{H}_{pm} = \{h_{ab}: a \in \textbf{Z}_p^*,\ b \in \textbf{Z}_p\}\tag{11.4}$$
  - $\mathscr{H}_{pm}$ 中包含 $p(p-1)$ 个散列函数

###### 定理 11.5
- 由公式 (11.3) 和公式 (11.4) 定义的散列函数簇 $\mathscr{H}_{pm}$ 是全域的

- 证明：
1. 由 **定理31.6** 可证明，在 $(ak+b) \pmod p$ 的层面上不会发生冲突
2. 则在 $\bmod m$ 阶段发生冲突的数目至多为：
  - $\lceil p / m \rceil - 1 \le {p + m - 1\over m} - 1 = {p-1 \over m}$
3. 则 $\forall k, l \in \textbf{Z}_p\ \land k \neq l$，有： $$Pr\{h_{ab}(k) = h_{ab}(l)\} \le {(p-1)/m \over p - 1} = {1 \over m}$$
- 由1，2，3 即可证明 $\mathscr{H}_{pm}$ 是全域的

### 练习

#### 11.3-2
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123091413.png width=700> 

- 设字符串每一位对应的 ascii 码为 $a_i,\ i = 0, 1, \cdots, r-1$
- 令 $p = 128 \bmod m$
- 设长度为 $r$ 字符串为 $k$，可得 $$h(k) = \sum_{i=0}^{r-1}{128^ia_i} \bmod m = \sum_{i=0}^{r-1}{p^i\ a_i} \bmod m$$
  - 为了进一步的减少计算时所占用的机器字，计算 $p^i \bmod m$　时可以采用分治法， 即
    - $$p^i \bmod m = (p^{i/2} \bmod m) \times (p^{i/2} \bmod m)$$
    - 假设 $p$ 为偶数
- 根据上述计算方法，可以实现在计算一个字符串的散列值时，只占用常数个机器字

#### 11.3-3
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123094557.png width=700>

- 设字符串 $k$ 的长度为 $r$，其每一位字符对应的编码分别为 $a_i,\ i = 0, 1, \cdots, r-1$,则可得： 
  - $$h(k) = \sum_{i=0}^{r-1}{2^{pi}a_i} \bmod m = \sum_{i=0}^{r-1}{(2^{p} \bmod m)^{i}a_i} \bmod m $$
- 因为 $m = 2^p - 1$，可得 $m \bmod 2^p = 1$，代入上式可得
  - $$h(k) = \sum_{i=0}^{r-1}{a_i \bmod m}$$
- 由此可证明，交换字符的位置，将不影响最终 $hash$ 值的结果

#### 11.3-4 
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123095636.png width=700>

In [0]:
def multipy_hash(k, m = 1000, A=(5 ** 0.5 - 1) / 2):
  return math.floor(m * math.modf(k * A)[0])

In [0]:
for k in [61, 62, 63, 64]:
  print(multipy_hash(k))

700
318
936
554


#### 11.3-5
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123104935.png width=700>

- 证明
  1. 设 $S$ 为 $\forall k, l \in U$ 和 $\forall h \in \mathscr{H}$， 事件 $h(k) = h(l)$ 发生的总次数
  2. 采用反证法进行证明，即假设
    - $$\varepsilon \lt {1 \over |B|} - {1\over |U|}$$
  3. 对于一对特定的 $k, l$,  $\mathscr{H}$ 中发生冲突的 $h$ 的个数小于： $|\mathscr{H}|({1 \over |B|} - {1\over |U|})$
  4. 则可得：
    - $$S < \binom{|U|}{2}|\mathscr{H}|({1 \over |B|} - {1\over |U|}) \lt {|U|^2 \over 2}|\mathscr{H}|({1 \over |B|} - {1\over |U|})= |\mathscr{H}|({|U|^2 \over 2|B|} - {|U| \over 2})$$ 
  5. 由于函数簇 $\mathscr{H}$ 将 $U$ 映射到 $H$, 则对于任意的 $h$，$k, l$ 发生冲突的对数至少为:
    - $|B|\binom{|U|/|B|}{2}$
  6. 由 5 可得， $\forall h \in \mathscr{H}$
    - $$S \ge |\mathscr{H}| |B|\binom{|U|/|B|}{2} = |\mathscr{H}|({|U|^2 \over 2|B|} - {|U| \over 2})$$
  7. 6 与 4 矛盾，故得证

## 11.4 开放寻址法

- 在开放寻址法中，所有的元素均被存放在散列表中
  - 装载因子 $\alpha \le 1$

- 开放寻址法的好处在于其不用指针，而是计算出要存取的槽序列
  - 不用储存指针而节省的空间，使得可以用同样的空间来提供更多的槽，潜在的减少了冲突，提高了检索速度

- 为了使用开放寻址法插入一个元素，需要连续的 **探查** 散列表，直到找到一个空槽来放置待插入的关键字为止
- 检查的序列依赖于待插入的关键字，开放寻址法的探查序列为：
  - $$<h(k,0), h(k,1), \cdots, h(k, m-1)>$$
  - 其是 $<0, 1, \cdots, m-1>$ 的一个排列

###### 插入散列表的伪代码

```python
HASH-INSERT(T, k)
  i = 0
  repeat
    j = h(k, i)
    if T[j] == NIL
      T[j] = k
      return j
    else i = i + 1
  until i == m
  error "hash table overflow"
```

###### 查找关键字 $k$ 的伪代码

```python
HASH-SEARCH(T, k)
  i = 0
  repeat
    j = h(k, i)
    if T[j] == k
    return j
    i = i + 1
  until T[j] == NIL or i == m
  return NIL
```

###### 从开放寻址法中删除元素

- 从开放寻址法中删除元素比较困难，因为不能将其简单的置为 $NIL$
  - 如果在插入 $k$ 的时候，发现槽 $i$ 处已经有元素，此时 $k$ 会被插入到探查序列 $i$ 之后的槽位中。如果此时将 $i$ 删除，并置$NIL$，则在搜索 $k$ 的时候，会返回 $NIL$
- 为了解决这个问题，可以采用 $DELETED$ 标志
  - 需要修改 $HASH-INSERT$ 的代码，使其将 $DELETED$ 标志视为 $NIL$
  - $HASH-SEARCH$ 的代码基本不用改动
- 使用 $DELETED$ 标志后，查找时间就不再依赖于 $\alpha$，因此在必须要删除关键字的应用中，更常见的做法是采用链接法来解决冲突

###### 均匀散列的假设

- 每个关键字的探查序列等可能的为 $<0, 1, \cdots, m-1>$ 的 $m!$ 种排列中的任一种
  - 真正的均匀散列化是难以实现的，在实际应用中，常常采用它的一些近似方法
- 常用的三种探查技术：线性探查、二次探查和双重探查
  - 这三种技术能保证对每个关键字 $k$，$<h(k, 0), h(k, 1), \cdots, h(k, m-1)>$ 都是 $<0, 1, \cdots, m-1>$ 的一个排列
  - 但这三种技术均不能满足均匀散列的假设

#### 线性探查

- 辅助散列函数 $h^{'}: U \rightarrow \{0, 1, \cdots, m - 1 \}$
- 线性探查采用的散列函数为 $$h(k, i) = (h^{'}(k) + i) \bmod m, \ i = 0, 1, \cdots, m-1$$
  - 初始的探查位置决定了整个探查序列，故只有 $m$ 种不同的探查序列
- 一次群集
  - 群集现象很容易出现，因为当一个空槽前有 $i$ 个满的槽时，该空槽为下一个将被占用的概率为 $(i+1)/m$
  - 如此，连续被占用的槽位就会变得越来越长，因此平均的查找时间也会越来越大

#### 二次探查

- 二次探查采用如下形式的散列函数: $$h(k, i) = (h^{'}(k) + c_1i + c_2i^2) \bmod m$$
  - 初始的探查位置决定了整个探查序列，故只有 $m$ 种不同的探查序列
- 可能会导致一种轻度的群集现象，称为二次群集

#### 双重散列

- **双重散列** 是用于开放寻址法的最好方法之一，采用如下形式的散列函数： $$h(k, i) = (h_1(k)+ih_2(k))\bmod m$$
  - 示意图
    - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200121210845.png width=600>
  - 双重散列法中用到了 $\Theta(m^2)$ 种探查序列

###### $h_2(k)$ 和 $m$ 的选取

- 为了能查找整个散列表，值 $h_2(k)$ 的大小必须与表的大小 $m$ 互素，可采用以下两种方法
  1. 可取 $m$ 为 $2$ 的幂，并设计一个总产生奇数的 $h_2$
  2. 取 $m$ 为素数，并设计一个总是返回较 $m$ 小的正整数的函数 $h_2$
- 尽管理论上除素数和 2 的幂以外的 $m$ 值也可用于双重散列，但这际中，要想确保 $h_2(k)$ 与 $m$ 互素，将会更加困难
  - 因为这些数的相对密度 $\phi(m)/m$ 可能较小

### 练习

#### 11.4-4
  - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123132959.png width=700>

- 设 $l = m / d \bullet h_2(k)$，由于 $d|m$，所以 $l \equiv 0 \pmod m$
- 即 $ l + h_1(k) + ih_2(k) \equiv h_1(k) + ih_2(k) \pmod m$，即 $h(k, i) \bmod m$ 中 $i$ 的周期为 $m/d$
- 如果 $d=1$，则 $h(k, i) \bmod m$ 关于 $i$ 的周期为 $m$，即查找操作可能会检查整个列表

#### 开放寻址散列的分析

###### 定理 11.6
- 给定一个装载因为为 $\alpha$ 的开放寻址散列表，并假设是均匀散列的，对于一次不成功的查找，其期望的探查次数至多为 $1/(1-\alpha)$

- 证明
  - 设 $X$ 为探查的总次数，由 $E(X) = \sum_{i=1}^{\infty}{P_r(X \ge i)}$，可推得结论

###### 推论 11.7
- 给定一个装载因为为 $\alpha$ 的开放寻址散列表，并假设是均匀散列的，向其中插入一个元素，至多需要做 $1 / (1-\alpha)$ 次探查

###### 定理 11.8

- 对于一个装载因子为 $\alpha < 1$ 的开放寻址列表，一次成功的查找中的探查期望数至多为 $${1\over \alpha}ln{1 \over 1 - \alpha}$$
- 假设采用的是均匀散列，且表中每个关键字被查找到的概率是相同的

- 证明：
  - 成功查找的探查次数与插入时的探查次数相同，由 **推论11.7** 可得如果 $k$ 为第 $i+1$ 个插入的元素，则其需要进行的探查次数至多为 $${1 \over 1 - (i / m)} = {m \over m - i}$$

## 11.5 完全散列

- 当关键字集合是 **静态** 时，散列技术能够提供出色的 **最坏情况** 性能
  - 静态是指一旦各关键字存入表中，关键字集合就不再发生变化
- **完全散列** 能在最坏的情况下用 $O(1)$ 次访存完成

###### 采用两级的散列方法来设计完全散列

- 示意图
  - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200122185927.png width=600>

- 一级散列表将 $n$ 个关键字散列到 $m$ 个槽中
- 为了解决冲突，采用二级散列表，利用精心选择的散列函数 $h_j$，可以确保第二级上不出现冲突
- 通过选择适当的第一级散列函数，可以将预期使用的总体存储空间限制为 $O(n)$

###### 定理 11.9 
- 如果从一个全域散列函数类中随机选出散列函数 $h$，将 $n$ 个关键字存储在一个大小为 $m=n^2$ 的散列表中，那么表中出现冲突的概率小于 $1/2$

- 证明
  1. 共有 $\binom{n}{2}$ 对关键字可能发生冲突，设 $X$ 为发生冲突的总次数，可得期望的冲突次数为： 
    $$E[X] = \binom{n}{2}\bullet {1 \over n^2} = {n(n-1)\over 2} \bullet {{1 \over n^2}}\lt {1 \over 2}$$
  2. 由马尔可夫不等式： $P_r(X \ge t) \le E[x] / t$，令 $t=1$ 即可得： $$P_r(X \ge 1) = {1 \over 2}$$

- 由于待散列的集合 $K$ 是静态的，只需要几次随机尝试，就可以确定一个没有冲突的散列函数 $h$ 

###### 定理11.10
- 从一个全域散列函数类中随机选出散列函数 $h$, 用它将 $n$ 个关键字储存到一个大小为 $m=n$ 的散列表中，则有
  - $$E[\sum_{i=0}^{m-1}{n_j^2}] < 2n$$
  - $n_j$ 为散列到槽 $j$ 中的关键字数

- 证明
  1. 下述等式对于任何 $a \in \textbf{N}$ 成立
    - $$a^2 = a + 2 \binom{a}{2} \tag{11.6}$$
  2. 借助上式，可求得 
    - $$E[\sum_{i=0}^{m-1}{n_j^2}] = n + 2E[\sum_{i=0}^{m-1}{\binom{n_j}{2}}]$$
  3. $\sum_{i=0}^{m-1}{\binom{n_j}{2}}$ 为散列表中发生冲突的关键字总对数，可得：
    - $$E[\sum_{i=0}^{m-1}{\binom{n_j}{2}}] = E(X) = \binom{n}{2}{1 \over m} = {n - 1 \over 2} $$
  4. 结合 1，2，3 即可证明结论

###### 推论 11.11
- 从一个全域散列函数类中随机选出散列函数 $h$, 用它将 $n$ 个关键字储存到一个大小为 $m=n$ 的散列表中，并将每个二次散列表的大小设置为 $n_j^2(j = 0, 1, \cdots, m-1)$
- 则在些散列方案中，存储所有二次散列表所需的储存总量的期望值小于 $2n$

- 证明： 由 **定理11.10** 可以直接证得

###### 推论 11.12
- **推论 11.11 ** 中二级散列表的存储总量不超过 $4n$ 的概率小于 $1/2$

- 由推论 11.11 结合马尔可夫不等式即可证明

- 由此推论可得出，只需尝试几次，就可以快速地找到一个所需储存量较为合理的函数

### 练习

#### 11.5-1
- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123135533.png width=700>

- $n$ 个关键字中任意两个不相同的元素不发生冲突的概率 $$p = { m - 1 \over m}$$
- $n$ 个元素中共有 $\binom{n}{2}$ 对元素，这些成对元素不发生冲突的概率服从独立同分布，可得
  - $$p(m, n) = ({m-1 \over m})^{\binom{n}{2}} = ({1}-{ 1\over m})^{\binom{n}{2}}$$
  - 代入 $1 + x \le e^x$ 可得
  - $$p(m, n) \le e^{-\binom{n}{2}/m} = e^{-n(n-1)/2m}$$
- 当 $n \gt \sqrt{m}$ 时，随着 $n$ 的增大， $-n(n-1)/2m \rightarrow -\infty$，则 $p(m,n) \rightarrow 0$

## 思考题

### 11-1 散列最长探查的界

- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123194757.png width=700>

###### a

- 证明：
  1. 由于 $n \le m/2$，所以每次探查到一个已占用槽位的概率至多为 $1/2$，所以第 $i$ 次插入需要严格多于 $k$ 次探查的概率至多为 $2^{-k}$

###### b

- 证明：
  1. 将 $k=2lgn$ 代入到 a 中的结论可得： $$2^{-k} = 2^{-2lgn} = 2^{lg(1/n^2)} = 1 / n^2$$
  2. 由 1 可得，第 $i$ 次插入需要多于 $2lgn$ 次探查的概率为 $O(1/n^2)$

###### c

- 证明：
  1. $$\begin{aligned}
  Pr\{X>2lgn\} &= Pr\{\exists i \in [1, 2, \cdots, n], 使得 X_i > 2lgn\} \\
  &\le \sum_{i=1}^{n}{Pr\{X_i > 2lgn\}}\\
  &= n * 1 / n^2 = 1 / n \\
  &= O( 1/n)
  \end{aligned}$$

###### d

- 证明
  1. $$E(X) = Pr\{ X \le 2lgn\}\bullet 2lgn + Pr\{X > 2lgn\}n$$
  2. $Pr\{ X \le 2lgn\} \le 1$，由 c 可得 $Pr\{X > 2lgn\} \le 1/n$，代入 1 中的式子可得：
    - $$E(X) \le 2lgn + 1/n * n = 2lgn + 1 = O(lgn)$$

### 11-2 链接法中槽大小的界


- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123201000.png width=700>

###### a

- 证明：
  1. 一个特定的关键字散列到某一特定槽的概论为 $1/n$，不散列到某一特定槽的概率为 $1 - 1/n$，且不同元素的散列遵循独立同分布
  2. 从 $n$ 中取出 $k$ 个关键字，则共有 $\binom{n}{k}$ 中可能
  3. 由1,2 可得： $$Q_k = ({1 \over n})^k(1 - {1 \over n})^{n-k} \binom{n}{k}$$

###### b

- 证明：
  1. $P_k$ 的上界是一些槽中包含的元素数量为 $k$，由于一其有 $n$ 个槽，所以可得：
    - $$P_k \le nQ_k$$

###### c

- 证明：
  1. 斯特林近似公式为 $$n! \ge \sqrt{2\pi n}({n \over e})^n \ge ({n\over e})^n$$
  2. $$\binom{n}{k} = {n!\over k!(n-k)!} \le {n^k \over k!} \le {n^k \over (k/e)^k} = ({ne \over k})^k$$ 
  3. $$Q_k \le ({1 \over n})^k(1 - {1 \over n})^{n-k} ({ne \over k})^k \le e^k/k^k$$

###### d

- 证明：
  1. 结合 c 可得: $$\begin{aligned}Q_{k_0} \le e^{k_0}/ k_0^{k_0} < 1 / n^3 \end{aligned}$$
  2. 上式两边同时取 $lg$ 并代入 $k_0 = clgn / lglgn$ 可得：
  $${clgn\over lglgn}[lge + lglglgn - lgc - lglgn] < -3lgn$$
  $$3 < -{clge\over lglgn} - {clglglgln \over lglgn} + {clgc \over lglgn} + c$$
    - 当 $n \rightarrow +\infty$ 时，上述不等式的前三项均趋进于 0， 存在一个 $N$, 使得$n > N$ 时，取 $c = 4$ 
    即可保证上述不等式成立
  3. 当 $k = k_0$ 结合 b 可得：
    $$P_k \le nQ_k \lt 1 / n^2$$
    - 由于 $Q_k$ 随着 $k$ 的增加单调递减，所以当 $k\le k_0$ 时，上述不等式仍成立

###### e

- 证明
  1 由于 $M$ 的上界为 $n$，所以可得下式成立
    - $$E[M]\le P_r\{M > {clgn\over lglgn}\} \bullet n + P_r\{M \le {clgn\over lglgn}\}\bullet {clgn\over lglgn}$$
  2. 由于 $P_r\{M > {clgn\over lglgn}\} = 1 / n^2$, $P_r\{M < {clgn\over lglgn}\} \le 1$ 所以可得：
    - $$E[M] \le 1 / n^2 \bullet n + 1 \bullet {clgn\over lglgn}  = O(lgn / lglgn)$$

### 11-3 二次探查

- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123205246.png width=700>

###### a

- 证明 
  1. 由描述可得 $h(k, i) = h(k) + 1 + 2 + \cdots + i = h(k) + i(i+1)/2$
  2. 由 1 可证得该方案为二次探查，且 $c_1 = c_2 = 1/2$

###### b

- 证明：
  1. 命题可等价于 $\forall i_1, i_2 \in (0, 1, \cdots, m-1), h(k, i_1) \not\equiv h(k, i_2) \pmod m$
  2. 采用反证法，假设 $h(k, i_1) \equiv h(k, i_2) \pmod{m}$
  3. 由 2 可得：
    $$h(k) + i_1(i_1+1)/2 \equiv h(k) + i_2(i_2+1)/2 \pmod m$$
    $$i_1^2 + i_1 \equiv i_2^2 + i_2 \pmod{2m}$$
    $$i_1^2 + i_1 - i_2^2 + i_2 \equiv 0\pmod{2m}$$
    $$(i_1 - i_2)(i_1+i_2+1)\equiv 0\pmod{2m}$$
  4. 如果 $i_1 - i_2$ 为奇数，则上式为 $i_1 + i_2 + 1 \equiv 0 \pmod{2m}$
    - 由于 $i_1 \neq i_2$，所以可得 $i_1 + i_2 + 1 \in (0, 2m)$，这与 $i_1 + i_2 + 1 \equiv 0 \pmod{2m}$ 矛盾
  5. 如果 $i_1 - i_2$ 为偶数，则 $i_1 + i_2 + 1$ 为奇数，可得 $i_1 - i_2 \equiv 0 \pmod{2m}$
    - 结合 4 可得 $|i_1 - i_2| \lt i_1 + i_2 + 1 < n$， 则 $i_1 - i_2 \neq 0$
    - 与 $i_1 - i_2 \equiv 0 \pmod{2m}$ 矛盾

### 11.4 散列和认证

- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20200123211255.png width=700>

###### a

- 证明
  1. 设 $x_1 \neq x_2 且 x_1, x_2 \in {U}$
  2. 由二全域的定义可得：$<x_1, x_2>$ 对应的序列 $<h(x_1), h(x_2)>h$ 由 $m^2$ 种可能， $h(x_1) = h(x_2)$ 可能有 $m$ 种
  3. 由 2 得 $h(x_1) = h(x_2)$ 的概率为 $m/m^2 = 1/m$，所以可得 $\mathscr{H}$ 为全域的

###### b

- 证明
  1. $h_a(x) \in \textbf{Z}_p$，所以发生冲突的概率为 $1/p$，可证得 $\mathscr{H}$ 是全域的
  2. 取 $x^{(1)} = <0, 0, \cdots, 0>$，则对于任何的散列函数可得： $h(x^{(1)}) = 0$
  3. 则对于任意的 $x^{(2)} \neq x^{(1)}$, $<h(x^{(1)}), h(x^{(2)})> = <0,h(x^{(2)}> $，其最多只有 $m$ 种可能，不可能有 $m^2$
  种可能，所以可得 $\mathscr{H}$ 不是全域的

###### c

- 证明
  - $h_{ab}(x)^{'}, h_{ab}(y)^{'}$ 均有 $m$ 种可能，且各种可能出现的概率相同
    - 因为当 $a$ 固定时， $b$ 可在 $0, 1, \cdots, , m-1$ 间任意取值
  - 由此可得 $<h_{ab}(x)^{'}, h_{ab}(y)^{'}>$ 有 $m^2$ 种可能，且各种情况出现的概率相同，由此可得 $\mathscr{H}^{'}$ 是二全域的

###### d

- 证明

- 对手选择的散列函数必须要 $Alice$ 一致才能欺骗 $Bob$，而 $\mathscr{H}$ 中至少有 $p$ 个散列函数，则其成功欺骗的概率至多为 $1/p$