# 散列和散列表

## 散列的思想和应用

什么情况下基于关键码的能最快的找到所需的数据？  
**如果数据项连续存储，而关键码就是存储数据的地址（或者下标）**  
类比数组吧，所以这个散列表的基本思想就是：如果一种关键码不能或者不适合作为存储数据的下标，可以通过一种变换（一种计算）把他们映射为下标，这样做，就把基于关键码的检索转变为基于整数下标的直接元素访问。  
具体方法是：
- 选定一个整数的下标范围（通常以0或1开始），建立一个包含相应元素位置范围的顺序表。
- 选定一个从实际关键码集合到下述下标范围的适当映射。
   - 在需要存入关键码为key的数据时，将其存入表中第$h(key)$个位置。
   - 遇到以key为关键码检索数据时，直接去表中第$h(key)$个位置的元素。

这个h称为散列函数，也常被曾为hash哈希函数或者杂凑函数，它就是从可能的关键码集合到一个整数区间（下标区间）的映射。

散列技术：设计和性质  
如果某个字典的可能关键码集合很小，例如关键码只可能是0-19这组整数，直接用他们作为数据存储的下标就是最好的选择，再如ascii字符集只有0-127，相应字形库就应该用这组整数作为存储的下标。  
但一般情况都不是这样，可能的关键码集合都很大，例如关键码是10个字母以内的字符串，这个就不可能直接作为字典的下标，阵对一种关键码实现字典时，所用下标的集合通常都远远小于关键码集合规模 $$|KEY|>>|INDEX|$$  
通常情况下，散列函数h是从一个大集合映射到一个小集合，显然这不可能是单射，必然会出现多个不同的关键码被h映射到同一个下标的情况，这种情况叫冲突（或者碰撞）此时也称$hkey_1和heky_2为h$的同义词，  
对一个规模固定的散列表，一半而言表中元素越多，出现冲突的可能性越大。
$$负载因子\alpha = \frac{散列表中当时的实际数据项数}{散列表的基本存储区域能容纳的元素个数}$$  
如果数据项直接保存在基本存储区，那么将总有 $\alpha \le 1$ ，负载因子越大，出现冲突的可能性越大，显然，如果扩大存储区域，就可以降低负载因子，减少冲突的概率，但负载因子过小，散列表里空闲空间的比例也就越大。  
**最后总结散列表技术必须要解决的两个大问题**，
- **散列函数的设计**
- **冲突消解基址**

## 散列函数

在设计字典时，首先应该根据实际需要确定数据项的集合，选顶相应的关键码集合KEY,还要确定一个存储区间INDEX,例如从0开始的一段下标，KEY和INDEX是两个有限集合，分为为将要定义的散列函数的参数域和值域。堆任何$key\in KEY$,都有$f(key)\in INDEX$

### 用于整形关键码的若干散列方法

#### 数字分析法

对于给定的关键码集合，分析所有关键码中各位数字的出现频率，从中选出分布较好的若干数字作为散列函数的值。 

|key|h1(key)|h2(key)|
|---------|--------|--------|
|000125672|   62|6|
|000125873|   83|8|
|000125776|   76|7|
|000125472|   42|4|
|000125379|   39|3|
|000125672|   62|6|

- h1选择关键码的百位数和个位数拼接，只需要100个元素的表存储字典数据。而且不会发生冲突。
- h2选择的是百位数，但其中重现了冲突，要解决冲突。

显然只有在关键码集合以知的情况下，才能选择这种方法

#### 折叠法

将较长的关键码切分成几段，通过某种运算将他们合并，例如用加法并舍弃进位的运算，或者用二进制串计算。  
- 例如假设关键码为10位整数，这里考虑将其分为3位一段，把得到的3位整数相加并去掉进位，以得到的结果作为散列表的值。

#### 中平方法

先求出关键码的平方，然后取出中间的几位作为散列值。

## 常用散列函数

两种常用的散列函数
- 除余法 ： 适用于整数关键码
   - 关键码key为整数，用key除以某个不大于散列表长度m的整数p，以得到的余数（或者余数加l，由下标开始值确定）作为散列地址。
      - 为了存储方便，人们经常以m取为2的某个幂值，此时m可以取小于m的最大素数，（如果连续表的下标从1开始，可以用key mod p +1)，
         - 例如m取128、256、512、1024时，p可以取127、251、503、1023
   - 缺点： 
      - 相近的关键码将映射到相近的值，如果关键码的数字位数较多，可以考虑用较大的除数求余数，然后去掉低位，以排除最低位的规律性。
- 基数转换法 ： 适用于整数或字符串关键码。
   - 先考虑整数关键码，取一个正整数r，把关键码看作基数为r的数，（r进制的数），将其转化为十进制或者二进制，通常r取素数以减少规律。
      - 例如r取13，对于关键码335647，有下面的计算，$(335647)_{13}=3\times 13^5+3\times 13^4 +5\times 13^3 + 6\times 13^2 + 4\times 13^1+7=(6758172)_{10}$ ，这时候关键码的取值可能不合适，太大了，考虑用除余法、或者折叠法，或者删除几位数字等方法，将其纳入所需下标范围
   - 字符串情况，将一个字符看作一个整数（直接用字符的编码值），把一个字符串看作以某个整数为基数的“整数”，建议以素数29或31为基数，通过基数转换法把字符串转换成整数，再用整数的散列方法（例如除余法），将结果纳入散列表的下标范围。

In [3]:
def str_hash(s):
    h1=0
    for c in s:
        h1=h1*29+ord(c)
    return h1

## 冲突的内消解：开地址技术

在设计散列表时，必须确定一种冲突消解方案，从实现上可以分为2类。
- 内消解方法（在基本的存储区域内部解决问题）
- 外消解方法（在基本的存储区域之外解决问题）

对于冲突处理技术，有两方面的基本要求
- 保证当前这次存储数据项的工作能正常完成。
- 保证字典的基本存储性质：在任何时候，从任何以前存入字典后而没有删除的关键码出发，都能找到对应的数据项。

**开地址法和探查序列**  
基本思想是，在准备插入数据并发现冲突时，设法在基本存储区域（顺序表）里为需要插入的数据项另行安排一个位置，为此需要设计一种系统且易于计算的位置安排方式，称为探查方式。  
抽象的方法是为散列表定义一种易于计算的探查位置序列。首先定义$$D=d_0,d_1,d_2\cdots $$
这里D是一个整数的递增序列，$d_0=0$,而后定义探查序列为 $$H_i=(h(key)+d_i)\ \ \  mod\ \ \   p$$
这里p为一个不超过表长度的数，在实际插入数据项时，如果h(key)位置空闲就直接存入，这相当于使用$d_0$,否则就逐个探查一个个位置$H_i$，直到找到第一个空位把数据项存入，具体的增量序列有许多可能的设计。
- 取$D=0,1,2,3,4,\cdots$，简单的整数序列，这种方法称为线性探查。
- 设计另一种散列函数$h_2$,令$d_i=h_1(key) + h_2(key)$，称为双散列探查。

开地址法示例  
KEY={18,73,10,5,68,99,22,32,46,58,25}  
存储表长度为13，下标范围为0-12，采用简单的散列函数， $h(key)= key\ \ mod\ \ 13$  
如下的双散列探查，$h_2(key)=key\ \ mod\ \ 5+1$
![散列表的探查序列](.\字典图片\散列表的探查序列.png)  
在双散列探查的过程中，检查的位置以不同的方式跳跃，这种情况有可能减少关键码堆积的发生，但随着表中元素增多，冲突越来越严重的情况是不会改变的。

**检索和索引**  
对于给定的key  
1. 调用散列函数，求出key对应的散列地址。
2. 检查相应存储位置，如果该位置没有数据项，就说明这个散列表里不存在相应的关键码，检索操作以失败结束。
3. 否则（所检索的位置有数据），比较key与保存在所确定位置的关键码，如果两者匹配，则检索以成功结束。
4. 否则，根据散列表的探查序列找到下一个地址，并回到步骤 2

**删除操作**  
删除操作的第一步也是基于关键码找到要删除的元素，与检索操作的过程完全一样，但开地址法给删除操作带来麻烦，就是被删除的数据有可能处在其他元素的探索路径上，解决方法就是不在被删除的数据位置放入空位标志，而是存入另一个特殊标记，在执行检索操作时，将这种标记看作有元素并继续向下探查，而执行插入操作时，则把这种标记看作是空位，把新元素放在这里。

## 外消解技术

**溢出区方法**  
当发生冲突时，将相应数据和关键码一起存入溢出区，数据在溢出区顺序排列，如果冲突很少，溢出区的数就很少，这种方式就不错。

**桶散列**  
数据不存在在散列表的基本存储区，而是另外存放，在散列表里保存对数据项的引用，  
![桶散列结构的字典](.\字典图片\桶散列机构的字典.png)

## 散列表的性质

**扩大存储区，用空间交换时间**  
**负载因子和操作效率**  
- 采用内部消解技术时，负载因子在 $\alpha \le 0.7 \sim 0.75$ , 散列表的平均检索长度接近于常数。  
- 采用桶散列技术，负载因子就是桶的平均大小（采用拉链法时是链的平均长度）