# 流程圖

![hash](https://i.imgur.com/ekTLu0G.jpg)

## 前言

我們先來想像一個情境，現在有一個名子，你不確定他是否為東吳大學的學生，所以我們要從東吳大學的學生資料庫裏面，一個一個看是否有這個人，時間複雜度是O(N)，要是資料很多筆，那鐵定是個天大的災難。所以當我們在查詢資料的時候，用上一個作業的Binary Search Tree的話，只需要時O(logN)的間複雜度，與O(N)相比實在好上太多了，但是如果有時間複雜度是O(1)就能完成查詢的話，那不就太完美了！剛好Hash Table就能這麼厲害！只要時間複雜度O(1)就好！以下就是Hash Table的概念。

# Hash Table的概念

Hash Table(雜湊表)跟List的最大差異是就是它不是線性的搜尋，Hash Table是將所有要放入的資料先用Hash Function算出一個值後，依照這個算出來的值放到相對應的位置去。我們可以想像這個對應的位置是一個一個的抽屜，例如："pig"經過Hash Function後出來的值為3，我們就把它放到3號抽屜裡。

所以當我們要搜尋是否有"pig"的時候，也是先"pig"經過Hash Function得知他放在3號抽屜，所以我們從3號抽屜中找出他就好。Hash Table的優點就是我不用從第一個資料開始看，一筆一筆的往下找，找到不知道民國幾百年，我們只要先將它經過Hash Function後就知道要去哪裡找了。

但是有一個問題就是每個抽屜裡一定有很多筆資料呀，因為經過Hash Function後"pig"和"dog"可能都放在3號抽屜裡面，那怎麼辦呢？這種狀況叫Collision(碰撞)，這時候可以搭配之前學過的Linked list，把放在同一個抽屜的資料用Linked list串起來。

# Hash Function的概念

剛剛Hash Table中有提到Hash Function，所以在這裡說明一下Hash Function是什麼。簡單來說Hash Function(雜湊函式)是一種將輸入值轉換成另一個值域的技術。我們可以想像Hash Function就是一台轉換器，輸入一個Key進去就會輸出另一個值出來，而輸出的值可以方便我們進行分配。所以Hash Function設定其實很重要，要讓盡可能讓這個Key在經過Hash Function後，在輸出的值域裡也能能夠平均分佈，盡量避免Collision(碰撞)。另外，Hash Function是單向的，具有不可逆的特性。
以下的作業就是先經由MD5加密後，變成十六進位，將十六進位轉換成十進位，再取它的餘數。

# 學習歷程

In [21]:
from Crypto.Hash import MD5

In [22]:
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

先經由MD5加密

In [48]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
def key1(key):
    h = MD5.new()
    h.update(key.encode("utf-8"))
    key1 = int(h.hexdigest(),16) 

print(key1("pig"))

None


奇怪！我是照著PPT上做的，卻失敗了，後來才知道要return。

In [56]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
def key1(key):
    h = MD5.new()
    h.update(key.encode("utf-8"))
    key1 = int(h.hexdigest(),16) 
    return key1

print(key1("pig"))

328716098820163891201703637637140404312


Hash Function取餘數找到他該去的抽屜

In [51]:
def index(key1):
    index = key1 % MyHashSet.capacity
    return index

## 新增

新增的概念就是先將Key轉換成index，如果該index中沒有東西，很簡單就直接放進去。但要是有東西的就使用Linked list，例如"pig"的index是3，而index=3裡已經有"dog"，就看"dog"的節點後有沒有其東西，有的話繼續往後找，沒有的話它的next就是"pig"。

In [75]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
def key1(key):
    h = MD5.new()
    h.update(key.encode("utf-8"))
    key1 = int(h.hexdigest(),16) 
    return key1

def add(key):
    key1 = key1(key) #加密
    index = key1 % self.capacity #Hash Function找抽屜
    if data[index] != None: #如果定的抽屜已經有東西了
        head = data[index]            
        while head.next == None: #當抽屜裡的東西甲後的節點已經沒東西了              
            head.next = ListNode(key1) #就放在東西甲後
        head = head.next 
    else:
        data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去  

In [77]:
key1("pig")
add("pig")

UnboundLocalError: local variable 'key1' referenced before assignment

In [87]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
        
    def add(self, key):
        key1 = self.key1(key) #加密
        index = key1 % self.capacity #Hash Function找抽屜
        if self.data[index] != None:#如果定的抽屜已經有東西了
            h = self.data[index]            
            while h.next == None: #當抽屜裡的東西甲後的節點已經沒東西了                
                h.next = ListNode(key1) #就放在東西甲後
            h = h.next #當抽屜裡的東西甲後的節點有東西，就繼續往後面 
        else:
            self.data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去        

In [88]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('pig')
hashSet.add('dog')

## 包含

In [104]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
        
    def add(self, key):
        key1 = self.key1(key) #加密
        index = key1 % self.capacity #Hash Function找抽屜
        if self.data[index] != None:#如果定的抽屜已經有東西了
            h = self.data[index]            
            while h.next == None: #當抽屜裡的東西甲後的節點已經沒東西了                
                h.next = ListNode(key1) #就放在東西甲後
            h = h.next #當抽屜裡的東西甲後的節點有東西，就繼續往後面 
        else:
            self.data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去
        
    def contains(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity
        if self.data[index] == None: #沒有這個東西就False
                return False
        else:
            return True #有這個東西就True

In [102]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('dog')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
rel = hashSet.contains('bird')
print(rel)

True
True
True
False


In [103]:
hashSet = MyHashSet()
hashSet.add('pig')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
rel = hashSet.contains('bird')
print(rel)

True
False
True
False


啊！錯了!好像想得太簡單了，要是這個Key真的存在的話好像沒問題，一定會是True。但是這個Key不存在的話，像是上面的cat，竟然出現True，我想cat的index和pig是一樣的，所以只單看self.data[index]是不是None是錯的。應該要看裡面的value。

In [171]:
hashSet = MyHashSet()
key1 = hashSet.key1("1")
index = key1 % hashSet.capacity
print(index)
key1 = hashSet.key1("2")
index = key1 % hashSet.capacity
print(index)
key1 = hashSet.key1("3")
index = key1 % hashSet.capacity
print(index)
key1 = hashSet.key1("9")
index = key1 % hashSet.capacity
print(index)
key1 = hashSet.key1("7")
index = key1 % hashSet.capacity
print(index)
key1 = hashSet.key1("pig")
index = key1 % hashSet.capacity
print(index)

1
2
3
4
0
2


為了確保測值多樣性(？)，我找出每個index的代表，以便等等測試用。

In [173]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
        
    def add(self, key):
        key1 = self.key1(key) #加密
        index = key1 % self.capacity #Hash Function找抽屜
        if self.data[index] != None:#如果定的抽屜已經有東西了
            h = self.data[index]            
            while h.next == None: #當抽屜裡的東西甲後的節點已經沒東西了                
                h.next = ListNode(key1) #就放在東西甲後
            h = h.next #當抽屜裡的東西甲後的節點有東西，就繼續往後面 
        else:
            self.data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去
        
    def contains(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity
        h=self.data[index]
        while h != None: #當這個index裡面有東西
            if h.val != key1: #key不等於
                h = h.next #繼續往下個節點找
            else:
                return True #找到了就True
        else:
            return False #沒找到了就False

In [174]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('9')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
rel = hashSet.contains('bird')
print(rel)
rel = hashSet.contains('1')
print(rel)
rel = hashSet.contains('2')
print(rel)
rel = hashSet.contains('3')
print(rel)
rel = hashSet.contains('9')
print(rel)
rel = hashSet.contains('7')
print(rel)

True
False
False
False
False
False
False
True
False


成功了！所以查詢這個功能就是先將Key轉換成index，若該index裡沒東西，就代表鐵定不存在。若該index裡有東西，就進到該index裡找，有兩種可能，一是該Key真的存在，另一種就是index裡有其他Key就是沒有該Key。這兩種情況都要考慮進去。

## 移除

移除的概念就是，我先搜尋這個Key的位置在哪裡，就在前一個節點的next變成None。

In [213]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
        
    def add(self, key):
        key1 = self.key1(key) #加密
        index = key1 % self.capacity #Hash Function找抽屜
        if self.data[index] != None:#如果定的抽屜已經有東西了
            h = self.data[index]            
            while h.next == None: #當抽屜裡的東西甲後的節點已經沒東西了                
                h.next = ListNode(key1) #就放在東西甲後
            h = h.next #當抽屜裡的東西甲後的節點有東西，就繼續往後面 
        else:
            self.data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去
        
    def contains(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity
        h=self.data[index]
        while h != None: #當這個index裡面有東西
            if h.val != key1: #key不等於
                h = h.next #繼續往下個節點找
            else:
                return True #找到了就True
        else:
            return False #沒找到了就False
        
    def remove(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity
        h=self.data[index]
        while h != None: #和contains一樣的概念
            if h.val != key1: 
                h = h.next 
            else:
                h = None #找到了就把它改成None
            return False
        else:
            return False 

In [211]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('9')
hashSet.add('7')
hashSet.add('2')
hashSet.add('2')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
rel = hashSet.contains('bird')
print(rel)
rel = hashSet.contains('1')
print(rel)
rel = hashSet.contains('2')
print(rel)
rel = hashSet.contains('3')
print(rel)
rel = hashSet.contains('9')
print(rel)
rel = hashSet.contains('7')
print(rel)
hashSet.remove("7")
rel = hashSet.contains("7")
print(rel)
hashSet.remove("2")
rel = hashSet.contains("2")
print(rel)

True
False
False
False
False
True
False
True
True
True
True


In [224]:
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
        
    def add(self, key):
        key1 = self.key1(key) #加密
        index = key1 % self.capacity #Hash Function找抽屜
        if self.data[index] != None:#如果定的抽屜已經有東西了
            h = self.data[index]            
            while h.next == None: #當抽屜裡的東西甲後的節點已經沒東西了                
                h.next = ListNode(key1) #就放在東西甲後
            h = h.next #當抽屜裡的東西甲後的節點有東西，就繼續往後面 
        else:
            self.data[index] = ListNode(key1) #對應的抽屜沒東西就直接放進去
        
    def contains(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity
        h=self.data[index]
        while h != None: #當這個index裡面有東西
            if h.val != key1: #key不等於
                h = h.next #繼續往下個節點找
            else:
                return True #找到了就True
        else:
            return False #沒找到了就False
        
    def remove(self, key):
        key1 = self.key1(key)
        index = key1 % self.capacity                  
        if self.data[index].val == key1:
            if self.data[index].next != True: 
                self.data[index] = None
            else:
                self.data[index] = None
                self.data[index].next = self.data[index].next.next
        else:          
            return False

In [225]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('9')
hashSet.add('7')
hashSet.add('2')
hashSet.add('2')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
rel = hashSet.contains('bird')
print(rel)
rel = hashSet.contains('9')
print(rel)
rel = hashSet.contains('7')
print(rel)
hashSet.remove("pig")
rel = hashSet.contains("pig")
print(rel)
hashSet.remove("2")
rel = hashSet.contains("2")
print(rel)


True
False
False
False
True
True
False


AttributeError: 'NoneType' object has no attribute 'val'

以下就是完整程式碼與測值

In [221]:
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None
        
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def key1(self, key):
        h = MD5.new()
        h.update(key.encode("utf-8"))
        key1 = int(h.hexdigest(),16)
        return key1
    
    def index(self, key1):
        index = key1 % self.capacity
        return index
        
    def add(self, key):
        key1 = self.key1(key)
        index = self.index(key1)
        if self.data[index] != None:
            head = self.data[index]            
            while head.next == None:               
                head.next = ListNode(key1)
            head = head.next 
        else:
            self.data[index] = ListNode(key1)    
  
    def contains(self, key):
        key1 = self.key1(key)
        index = self.index(key1)
        h=self.data[index]
        while h != None:
            if h.val != key1:
                h = h.next
            else:
                return True
        else:
            return False
        
    def remove(self, key):
        key1 = self.key1(key)
        index = self.index(key1)                   
        if self.data[index].val != key1:
            while self.data[index]:
                if self.data[index].next == key1:
                    self.data[index].next = self.data[index].next.next
                    return
                self.data[index] = self.data[index].next
            return False
        elif self.data[index].val == key1:
            if self.data[index].next != True:
                self.data[index] = None
            else:
                self.data[index] = self.data[index].next
                self.data[index] = None
        else:          
            return False

In [223]:
hashSet = MyHashSet()
hashSet.add('pig')
hashSet.add('pig')
hashSet.add('dog')
rel = hashSet.contains('pig')
print(rel)
rel = hashSet.contains('dog')
print(rel)
rel = hashSet.contains('cat')
print(rel)
hashSet.add('bird')
rel = hashSet.contains('bird')
print(rel)
hashSet.add('pig')
hashSet.add('2')
hashSet.remove("pig")
rel = hashSet.contains("pig")
print(rel)

True
True
False
True
False


參考資料

http://alrightchiu.github.io/SecondRound/hash-tableintrojian-jie.html

http://alrightchiu.github.io/SecondRound/hash-tablechaining.html

https://toyo0103.blogspot.com/2018/04/hash-table.html