In [2]:
#散列表是元素集合，其中的元素以一种便于查找的方式存储。散列表中的每个位置通常被称为槽，其中可以存储一个元素

In [3]:
#散列函数将散列表中的元素与其所属位置对应起来
#取余函数是一个很常见的散列函数，这是因为结果必须在槽编号范围内
#占用率被称作载荷因子，载荷因子=元素个数/散列表大小

# 散列函数

In [4]:
#散列函数可能会将两个元素都放入同一个槽，这种情况被称作冲突，也叫“碰撞”
#我们的目标是创建这样一个散列函数：冲突数最少，计算方便，元素均匀分布于散列表中

# 处理冲突

In [5]:
#当两个元素被分到同一个槽中时，必须通过一种系统化方法在散列表中安置第二个元素

In [6]:
#一种方法是在散列表中找到另一个空槽，用于放置引起冲突的元素。简单的做法是从起初的散列值开始，顺序遍历散列表，直到找到一个空槽
#然而，如果一个槽发生太多冲突，线性探测会填满其附近的槽，而这会影响到后续插入的元素

In [7]:
#要避免元素聚集，一种方法是扩展线性探测，不再依次顺序查找空槽，而是跳过一些槽，这样做能使引起冲突的元素分布得更均匀
#注意， “跨步”的大小要能保证表中所有的槽最终都被访问到，否则就会浪费槽资源。要保证这一点，常常建议散列表的大小为素数

# 利用散列实现字典

In [8]:
#字典是存储键–值对的数据类型。键用来查找关联的值，这个概念常常被称作映射
#散列搜索算法的时间复杂度：O(1)

In [10]:
class HashTable:
    def __init__(self):
        self.size = 11
        self.slots = [None] * self.size #包含key的列表
        self.data = [None] * self.size #包含value的列表
    
    def put(self, key, data): #往映射中加入一个新的键–值对。如果键已经存在，就用新值替换旧值
        hashvalue = self.hashfunction(key, len(self.slots)) #计算key应该分配的槽的位置

        if self.slots[hashvalue] == None: #如果对应的槽为空，将输入的key和value分别分配到两个表的同个位置上
            self.slots[hashvalue] = key
            self.data[hashvalue] = data
        else: 
            if self.slots[hashvalue] == key: #若对应槽的key与输入的key相等
                self.data[hashvalue] = data #更新对应位置的value
            else: #若不是以上情况，则给输入key重新分配位置，直到找到可用的槽，并再次判断
                nextslot = self.rehash(hashvalue, len(self.slots))
                while self.slots[nextslot] != None and self.slots[nextslot] != key:
                    nextslot = self.rehash(nextslot, len(self.slots))

                if self.slots[nextslot] == None:
                    self.slots[nextslot] = key
                    self.data[nextslot] = data
                
                else:
                    self.data[nextslot] = data
    
    def hashfunction(self, key, size): #散列函数
        return key%size
    
    def rehash(self, oldhash, size): #重新分配位置
        return (oldhash + 1)%size
    
    def get(self, key): #返回 key 对应的值。如果 key 不存在，则返回 None
        startslot = self.hashfunction(key, len(self.slots)) #进行第一次位置查找

        data = None
        stop = False
        found = False
        position = startslot
        while self.slots[position] != None and not found and not stop: #如果位置不为None且没有找到或停止
            if self.slots[position] == key: #若key等于要找的key，则找到，value等于对应位置的value
                found = True
                data = self.data[position]
            else: #否则需要使用rehash查找下个位置
                position=self.rehash(position, len(self.slots))
                if position == startslot:
                    stop = True
        return data

    def __getitem__(self, key):
        return self.get(key)

    def __setitem__(self, key, data):
        self.put(key, data)

In [11]:
H = HashTable()

In [13]:
H[54] = "cat"

In [14]:
H.data

[None, None, None, None, None, None, None, None, None, None, 'cat']