# 字典（dictionary)

散列表（Hash table，也叫哈希表）是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。
比如，为了查找电话簿中某人的号码，可以创建一个按照人名首字母顺序排列的表（即建立人名 x到首字母 F(x)的一个函数关系），在首字母为W的表中查找“王”姓的电话号码，显然比直接查找就要快得多。这里使用人名作为关键字，“取首字母”是这个例子中散列函数的函数法则 F()，存放首字母的表对应散列表。关键字和函数法则理论上可以任意确定。

哈希表的实现主要需要解决两个问题，哈希函数和冲突解决。    
哈希函数    
哈希查找第一步就是使用哈希函数将键映射成索引。这种映射函数就是哈希函数。哈希函数也叫散列函数或杂凑函数，是从可能的关键码到一个整数区间里（下标）的映射。如果我们有一个保存0-M数组，那么我们就需要一个能够将任意键转换为该数组范围内的索引（0~M-1）的哈希函数。哈希函数需要易于计算并且能够均匀分布所有键。
最重要的考虑：    
尽可能把关键码映射到不同值，映射到值域中尽可能大的部分    
关键码的散列值在下标区间里均匀分布，有可能减少冲突的出现。当然，实际情况还与真实数据里不同关键码值出现的分布有关
计算比较简单（使用散列表的本意就是要提高效率）    
散列函数的基本想法就是其映射关系越乱越好，越没有规律越好。在此基本考虑下，人们提出了许多设计散列函数的方法
两种常用的散列函数    
1. 除余法，用于整数关键码的散列
2. 基数转换法，用于整数或字符串关键码的散列

除余法：关键码是整数。以关键码除以一个不大于散列表长度m 的整数p 得到的余数（或者余数加1）作为散列地址
h(key)=key mod p        
m 经常取2 的某个幂值，此时p 可以取小于m 的最大素数（如果连续表的下标从1 开始，可以用key mod p + 1）例如，当m 取128，256，512，1024 时，p 可以分别取127，251，503，1023。除余法使用最广，还常用于将其他散列函数的结果归入所需区间。采用除余法法时，如果用偶数作为除数，就会出现偶数关键码得到偶数散列值，奇数关键码得到奇数散列值的情况
如果关键码集合的数字位数较多，可考虑采用较大的除数，然后去掉最低位（或去掉最低的一个或几个二进制位），排除最低位的规律性。还可以考虑其他方法，目标是去掉规律性        

基数转换法：针对整数关键码。取一个正整数r，把关键码看作基数为r 的数，将其转换为十进制或二进制数。通常r 取一个素数。比如取r = 13。对关键码335647，可以计算出：
(335647)13 = 3 * 13**5 + 3 * 13**4 + 5 * 13**3 + 6 * 13**2 + 4 * 13 + 7 = (6758172)10
可以考虑用除余法或删除几位数字的方法将其归入所需范围非整数关键码，常用的是先设计一种方法把它转换到整数，而后再用整数散列的方法。通常最后用除余法把关键码归入所需范围。    
字符串也常作为关键码。常见方法是把一个字符看作一个整数（例如用字符的编码），把一个字符串看作以某个整数为基数的“数”，常以29 或31 为基数(某个质数)，用基数转换法把字符串转换为整数，再用整数散列法（如除余法），把结果归入散列表的下标范围


冲突解决
现实中的哈希函数不是完美的，当两个不同的输入值对应一个输出值时，就会产生“碰撞”，这个时候便需要解决冲突。
常见的冲突解决方法有开放定址法，拉链法，线性探查法等。

拉链法（链地址法）
拉链法的基本思想：数据项存在散列表的基本连续表之外，每个关键码建立一个链接表，所有关键字为同义词的数据项存在同一个链表里. 这样，所有数据项都可以统一处理（无论是否为冲突项）。
插入操作的最简单实现是把新元素插在链接表头，如果要防止出现重复关键码，就需要检查整个链表
例： h(key) = key mod 13    
关键码集合：{54, 28, 41,18, 10, 36, 25, 38, 12, 90 }    
算出的位置：    
2: 54, 28, 41    
5: 18    
10: 10, 36    
12: 25, 38, 12, 90    
把同一个散列值的数据项收集到一起：    

![image](https://raw.githubusercontent.com/baifan-wang/data_structures_and_algorithms_in_python/master/image/6-map-1.png)

线性探查法
出现冲突时设法在连续表里为要插入的数据项另安排一个位置。这时候需要设计一种系统的且易于计算的位置安排方式（称为探查方式）。常用方法是为散列表定义一个探查位置序列：
Hi = (h(key) + di) mod m
其中m 为不超过表长的数，di 为一个增量序列，设d0 = 0。插入数据项时，如果h(key) 空闲就直接存入（相当于使用d0）
否则就逐个试探位置Hi，直至找到第一个空位时把数据项存入。增量序列有许多可能取法，例如，取di = 0, 1, 2, 3, 4, …，称为线性探查设计另一散列函数h2，令di = i * h2(key)，称为双散列探查。

下图是使用h(k) = k mod 11的哈希函数的一个例子。
![image](https://raw.githubusercontent.com/baifan-wang/data_structures_and_algorithms_in_python/master/image/6-map-2.png)

使用哈希表实现的数据结构通常称为字典（dictionary）或者map。其ADT类型为：    
        M[k]: 返回键为k的值；若键不存在报错 
        M[k] = v: 将键为k的项的值设为v，若该项目不存在，则新建一个   
        del M[k]: 删除一个键值，若键不存在报错   
        len(M): 报告M所储存项目的数目   
        iter(M): 返回M中所有项目的迭代器   
        k in M: 检测M当中是否有键为k的项目   
        M.get(k, d=None): 取出M中键为k的项目，若项目不存在则返回None   
        M.setdefault(k, d): 如果M中存在键为k的项目，则返回M[k]，如无，则设置M[k]=d   
        M.pop(k, d= none):从M中弹出k，若k不存在，返回默认值d   
        M.popitem(): 随机弹出一项。空字典则报错   
        M.clear( ): 请空字典   
        M.keys( ): 以集合形式返回字典中的所有键   
        M.values( ): 以集合形式返回字典中的所有值   
        M.items( ): 以集合形式返回字典中的所有键-值对元组   
        M.update(M2): 用M2中的键值对更新M，如果M2中的键存在于M中的话   
        M == M2: 检查两个字典是否包含一样的键值对   
        M != M2: 检查两个字典是否包含不一样的键值对   
    代码实现

In [9]:
from collections import MutableMapping
from random import randrange
class HashMapBase(MutableMapping):  #基于python自带MutableMapping类自带的构建一个基础map类
#再分别使用拉链法和线性探查法来进一步实现
    class _Item:                #_Item类用于存储(key, value)键值对。
        def __init__(self, k, v):
            self._key = k
            self._value = v

        def __eq__(self, other):  #实现键的 等于，不等于，小于等比较操作
            return self._key == other._key

        def __ne__(self, other):
            return not(self == other)

        def __lt__(self, other):
            return self._key < other._key

    def __init__(self, cap = 11, p = 109345121):  #p为质数
        self._table = cap*[None]   #默认存储11项
        self._n = 0
        self._prime = p
        self._scale = 1 + randrange(p-1)
        self._shift = randrange(p)

    def _hash_function(self, k):  #哈希函数
        return (hash(k)*self._scale + self._shift) % self._prime % len(self._table)

    def __len__(sef):
        return self._n

    def __setitem__(self, k, v):
        j = self._hash_function(k)
        self._bucket_setitem(j, k, v)
        if self._n > len(self._table) //2:
            self._resize(2 * len(self._table) -1)

    def __getitem__(self, k):
        j = self._hash_function(k)
        return self._bucket_getitem(j, k)

    def __delitem__(self, k):
        j = self._hash_function(k)
        self._bucket_delitem(j, k)
        self._n -=1

    def _size(self, c):
        old = list(self.items())
        self._table = c *[None]
        self._n = 0
        for (k, v) in old:
            self[k] = v

class ProbeHashMap(HashMapBase):

    _AVAIL = object()   #用一个空的oject来作为标记。

    def _is_available(self, j):
        return self._table[j] is None or self._table[j] is ProbeHashMap._AVAIL

    def _find_slot(self, j, k): #在下标为j的表中寻找k，若找到，返回(True, 下标), 若没有，返回(False, 第一个空的下标)
        firstAVAIL = None
        while True:
            if self._is_available(j):
                if firstAVAIL is None:
                    firstAVAIL = j
                if self._table[j] is None:
                    return (False, firstAVAIL)
            elif k == self._table[j]._key:
                return (True, j)
            j = (j + 1) % len(self._table)

    def _bucket_getitem(self, j, k):
        found, s = self._find_slot(j, k)
        if not found:
            raise KeyError('Ket Error' + repr(k))
        return self._table[s]._value

    def _bucket_setitem(self, j, k, v):
        found, s =self._find_slot(j, k)
        if not found:
            self._table[s] = self._Item(k,v)
            self._n +=1
        else:
            self._table[s]._value = v

    def _bucket_delitem(self, j, k):
        found, s = self._find_slot(j, k)
        if not found:
            raise KeyError('Ket Error' + repr(k))
        self._table[s] = ProbeHashMap._AVAIL

    def __iter__(self):
        for j in range(len(self._table)):
            if not self._is_available(j):
                yield self._table[j]._key

In [10]:
c = ProbeHashMap()
c[5] = 'test'
c[5]

'test'

Python的字典（dict）是基于散列表实现的数据结构，采用内消解技术。dict 采用散列表技术实现，元素是key-value（关键码-值）对，关键码可以是任何不变对象，值可以是任何对象。
初始建立空字典或小字典，其存储区可容纳8 个元素；负载因子超过2/3 时换更大存储块，把字典已有内容重新散列到新存储块里。字典不太大时按当时字典中实际元素的4 倍分配新块；元素超过50000 时按实际元素个数的2 倍分配新块。    
此外，Python很多内部机制也基于字典实现，如全局/模块/类名字空间等。一个作用域里名字可能很多，用字典实现效率较高。    
dict的应用例子：    
词频统计    

In [None]:
def word_count(filename):
    freq = {}
    for piece in open(filename).read().lower().split():
        word = ''.join(c for c in piece if c.isalpha())
    if word:
        freq[word] = 1 + freq.get(word, 0)
    max_word = ''
    max_count = 0
    for (w, c) in freq.items():
        if c > max_count:
            max_word = w
            max_count = c
    return max_word, max_count

Python 标准函数中有一个hash函数，它可以计算参数的散列值。hash对一个对象调用或返回一个整数或抛出异常表示无定义。对数值类型有定义，保证当a == b 时两个数的hash 值相同。对内置不变组合类型有定义，包括str，tuple，frozenset。对无定义的对象调用，例如对包含可变成分的序列，hash 将抛出异常TypeError: unhashable type。调用时hash 到参数所属的类里找名为__hash__ 的方法，hash 有定义的内置类型都有自己的__hash__ 方法。类里没有__hash__ 方法即是hash 函数无定义。在自定义类里也可以定义这个方法。定义该方法使这个类的对象可以存入集合或作为字典的关键码。如果该类的对象可变，必须谨慎使用__hash__方法。

参考文献:
1. Goodrich M T, Tamassia R, Goldwasser M H. Data structures and algorithms in Python[M]. John Wiley & Sons Ltd, 2013.
2. 裘宗燕. 数据结构与算法: Python语言描述. 机械工业出版社, 2016.