### Hash Table 

雜湊表（Hash table，也叫哈希表），是根據 Key 而直接查詢在內存存儲位置的資料結構。也就是說，它通過計算一個關於鍵值的函數，將所需查詢的數據映射到表中一個位置來查詢記錄，這加快了查找速度。這個映射函數稱做雜湊函數，存放記錄的數組稱做雜湊表。
![image](https://vhanda.in/blog/images/2012/07/19/normal-hash-table.png)

##### 圖片來源：https://blog.techbridge.cc/2017/01/21/simple-hash-table-intro/

但是因為鍵的全集的元素數目大於符號表的尺寸m，當有不同的鍵被對映到同一個hash table的位置中來，這種情況叫做衝突/碰撞（collision），我們可以使用以下方式解決：

#### 1. 分離鏈結：
分離鏈結是在每一個 hash value 放置一個鏈結串列，當有 hash key 相同的值要放入時就新增進鏈結串列，是一個相對簡單的方式，但需要額外的鏈結串列空間。
#### 2. 線性探查：
是另外一種解決雜湊表，若是欲加入 Hash Table 位置已經被佔據則往下一個 index + 1 去填，若還是被佔據則考慮 index + 2，以此類推。
#### 3. 更好的雜湊表（Hash Function）：
若是能使用更好的 Hash Function 就能預先避免衝突（collision）的可能（擁有較低插入和檢索元素的時間、較低衝突的可能意味著更好的雜湊表）。

### Hash Function

Hash Function將key儲存到buckets。理想的Hash Function以類似隨機的方式將鍵映射到整數，從而即使輸入數據中存在規律性，buckets值也可以均勻分佈。

此過程可以分為兩個步驟：
1. 將鍵映射為整數。
2. 將整數映射到buckets。


以下有兩種Hash Function：
#### 1. Division Method (m有限制，但是比較快)：
要把大範圍的|U|對應到較小範圍的{0,1,...,m−1}，最直覺的做法就是利用Modulus(mod)取餘數。
<br> 假設Table大小為m，定義Hash Function為：h(Key)=Keymodm
- 優點：以Division Method實現Hash Function的優點就是非常快，只要做一次餘數(一次除法)運算即可。
- 缺點：Table大小m必須慎選。

#### 2. Multiplication Method：
由於在實際面對資料時，時常無法預先得知「Key的範圍」以及「在該範圍內Key的分佈情形」，在這個前提下，不需要避開特定m的Multiplication Method可能會比較優秀。

### Hash Table流程圖
![image](https://raw.githubusercontent.com/tiffany1020/lesson/master/Week11/hash%20%E6%B5%81%E7%A8%8B%E5%9C%96.jpg)

### 學習歷程

In [2]:
from Crypto.Hash import MD5
h=MD5.new()
print (h.hexdigest()) ##16進位

d41d8cd98f00b204e9800998ecf8427e


In [3]:
h=MD5.new()
h.update("I have a apple".encode("utf-8"))
print (h.hexdigest()) ##16進位
x=h.hexdigest()

x=int(h.hexdigest(),16) ##16轉10進位
print(x%5)

de56dbe37bac205bb04c62b67aded7d3
4


In [None]:
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity

    def add(self, key):

    def remove(self, key):

    def contains(self, key):


新增字串，可以編碼，指定放在array第幾欄，然後接linked list

#### 試試建立array並存入編碼

In [16]:
arr=[None] * 5
arr[1]='hello'
arr

[None, 'hello', None, None, None]

In [26]:
h=MD5.new()
h.update("hello".encode("utf-8"))
print (h.hexdigest()) ##16進位
x=h.hexdigest()
x=int(h.hexdigest(),16) ##16轉10進位
print(x%5)

arr=[None] * 5
arr[4]=x
print(arr)

5d41402abc4b2a76b9719d911017c592
4
[None, None, None, None, 123957004363873451094272536567338222994]


#### 將轉換成MD5 寫成function

In [30]:
def change(word):
    h=MD5.new()
    h.update(word.encode("utf-8"))
    print (h.hexdigest()) ##16進位
    x=h.hexdigest()
    x=int(h.hexdigest(),16) ##16轉10進位
    print(x%5)

change("hello")

5d41402abc4b2a76b9719d911017c592
4


### add function想法
1. 將字串或數字轉換成MD5
2. 判斷它%capacity後，要放入第幾個array
3. 若為空值，直接存入，若不是空值，以linked list方式連接

In [31]:
from Crypto.Hash import MD5
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def change(self,word):
        h=MD5.new()
        h.update(word.encode("utf-8"))
        #print (h.hexdigest()) ##16進位
        x=h.hexdigest()
        x1=int(h.hexdigest(),16) ##16轉10進位
        #print(x)
        return (x,x1%self.capacity)


    def add(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
                         
        new_node=ListNode(t)

        if self.data[index]==None:      # 如果第一個為None，直接存入
            self.data[index]=new_node
            print(self.data)
            return self.data

        else:
            current=self.data[index]     # current=第一個node
            while current.next:
                current=current.next
            current.next = new_node
            print(self.data)
            return self.data             

In [32]:
hashSet=MyHashSet()
hashSet.add("123")
hashSet.add("hi")
hashSet.add("456")
hashSet.add("hey")
hashSet.add("789")

202cb962ac59075b964b07152d234b70 3
[None, None, None, <__main__.ListNode object at 0x000001C06A99FA58>, None]
49f68a5c8493ec2c0bf489821c21fc3b 2
[None, None, <__main__.ListNode object at 0x000001C06A99F710>, <__main__.ListNode object at 0x000001C06A99FA58>, None]
250cf8b51c773f3f8dc8b4be867a9a02 4
[None, None, <__main__.ListNode object at 0x000001C06A99F710>, <__main__.ListNode object at 0x000001C06A99FA58>, <__main__.ListNode object at 0x000001C06A99FF60>]
6057f13c496ecf7fd777ceb9e79ae285 0
[<__main__.ListNode object at 0x000001C06A9A09E8>, None, <__main__.ListNode object at 0x000001C06A99F710>, <__main__.ListNode object at 0x000001C06A99FA58>, <__main__.ListNode object at 0x000001C06A99FF60>]
68053af2923e00204c3ca7c6a3150cf7 3
[<__main__.ListNode object at 0x000001C06A9A09E8>, None, <__main__.ListNode object at 0x000001C06A99F710>, <__main__.ListNode object at 0x000001C06A99FA58>, <__main__.ListNode object at 0x000001C06A99FF60>]


[<__main__.ListNode at 0x1c06a9a09e8>,
 None,
 <__main__.ListNode at 0x1c06a99f710>,
 <__main__.ListNode at 0x1c06a99fa58>,
 <__main__.ListNode at 0x1c06a99ff60>]

### contains function想法
1. 將字串或數字轉換成MD5
2. 判斷它%capacity後，在哪一個index
3. 以linked list一個一個尋訪

In [33]:
from Crypto.Hash import MD5
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def change(self,word):
        h=MD5.new()
        h.update(word.encode("utf-8"))
        #print (h.hexdigest()) ##16進位
        x=h.hexdigest()
        x1=int(h.hexdigest(),16) ##16轉10進位
        #print(x)
        return (x,x1%self.capacity)


    def add(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
                         
        new_node=ListNode(t)

        if self.data[index]==None:      # 如果第一個為None，直接存入
            self.data[index]=new_node
            print(self.data)
            return self.data

        else:
            current=self.data[index]     # current=第一個node
            while current.next:
                current=current.next
            current.next = new_node
            print(self.data)
            return self.data    
        
        
    
    def contains(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:                       
            while current.next and t != current.val:
                current=current.next
            if t !=  current.val:
                return False
            else:
                return True


In [35]:
hashSet=MyHashSet()
hashSet.add("123")
hashSet.add("hi")
hashSet.add("456")
hashSet.add("hey")
hashSet.add("789")
hashSet.contains("789")

202cb962ac59075b964b07152d234b70 3
[None, None, None, <__main__.ListNode object at 0x000001C06A9BD9E8>, None]
49f68a5c8493ec2c0bf489821c21fc3b 2
[None, None, <__main__.ListNode object at 0x000001C06A9BDBE0>, <__main__.ListNode object at 0x000001C06A9BD9E8>, None]
250cf8b51c773f3f8dc8b4be867a9a02 4
[None, None, <__main__.ListNode object at 0x000001C06A9BDBE0>, <__main__.ListNode object at 0x000001C06A9BD9E8>, <__main__.ListNode object at 0x000001C06A9BDC88>]
6057f13c496ecf7fd777ceb9e79ae285 0
[<__main__.ListNode object at 0x000001C06A9BDD30>, None, <__main__.ListNode object at 0x000001C06A9BDBE0>, <__main__.ListNode object at 0x000001C06A9BD9E8>, <__main__.ListNode object at 0x000001C06A9BDC88>]
68053af2923e00204c3ca7c6a3150cf7 3
[<__main__.ListNode object at 0x000001C06A9BDD30>, None, <__main__.ListNode object at 0x000001C06A9BDBE0>, <__main__.ListNode object at 0x000001C06A9BD9E8>, <__main__.ListNode object at 0x000001C06A9BDC88>]
68053af2923e00204c3ca7c6a3150cf7 3


True

### remove function想法
1. 將字串或數字轉換成MD5
2. 判斷它%capacity後，在哪一個index
3. 以linked list一個一個尋訪
4. 如果有找到直接刪除，如果沒有找到回傳alse

In [36]:
from Crypto.Hash import MD5
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def change(self,word):
        h=MD5.new()
        h.update(word.encode("utf-8"))
        #print (h.hexdigest()) ##16進位
        x=h.hexdigest()
        x1=int(h.hexdigest(),16) ##16轉10進位
        #print(x)
        return (x,x1%self.capacity)


    def add(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
                         
        new_node=ListNode(t)

        if self.data[index]==None:      # 如果第一個為None，直接存入
            self.data[index]=new_node
            print(self.data)
            return self.data

        else:
            current=self.data[index]     # current=第一個node
            while current.next:
                current=current.next
            current.next = new_node
            print(self.data)
            return self.data    
        
        
    
    def contains(self, key):
        t,index=MyHashSet().change(key)
        #print(t,index)     
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:   

            while current.next and t != current.val:
                current=current.next
            if t != current.val:
                return False
            else:
                return True
            
            
    def remove(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:                       
            while current.next and t != current.val:
                current=current.next
            if t !=  current.val:
                return False
            else:
                return self.remove2(t,index)
                
    def remove2(self,t,index):  
        
        current=self.data[index]
        
        if t==current.val:
            self.data[index]=current.next
            return
        
        else:
            while current.next and t != current.val:
                current=current.next
                
            if current.next and current.next.next and t == current.val:
                current.next=current.next.next
                return 
   
        
        #print(self.data)
                
            

In [37]:
hashSet=MyHashSet()
hashSet.add("123")
hashSet.add("hi")
hashSet.add("456")
hashSet.add("hey")
hashSet.add("789")
hashSet.add("sleep")

print('---')
#hashSet.contains("4")
#print('---')
hashSet.remove("789")
hashSet.contains("789")

202cb962ac59075b964b07152d234b70 3
[None, None, None, <__main__.ListNode object at 0x000001C06A9B5240>, None]
49f68a5c8493ec2c0bf489821c21fc3b 2
[None, None, <__main__.ListNode object at 0x000001C06A9B5390>, <__main__.ListNode object at 0x000001C06A9B5240>, None]
250cf8b51c773f3f8dc8b4be867a9a02 4
[None, None, <__main__.ListNode object at 0x000001C06A9B5390>, <__main__.ListNode object at 0x000001C06A9B5240>, <__main__.ListNode object at 0x000001C06A9B5358>]
6057f13c496ecf7fd777ceb9e79ae285 0
[<__main__.ListNode object at 0x000001C06A9B5DA0>, None, <__main__.ListNode object at 0x000001C06A9B5390>, <__main__.ListNode object at 0x000001C06A9B5240>, <__main__.ListNode object at 0x000001C06A9B5358>]
68053af2923e00204c3ca7c6a3150cf7 3
[<__main__.ListNode object at 0x000001C06A9B5DA0>, None, <__main__.ListNode object at 0x000001C06A9B5390>, <__main__.ListNode object at 0x000001C06A9B5240>, <__main__.ListNode object at 0x000001C06A9B5358>]
c9fab33e9458412c527c3fe8a13ee37d 3
[<__main__.ListNode

True

發現刪除每個index的第一個值都可以，但第二個值開始就無法。
<br> 發現在 __while current.next and t != current.val:__ 有誤



In [38]:
from Crypto.Hash import MD5
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def change(self,word):
        h=MD5.new()
        h.update(word.encode("utf-8"))
        #print (h.hexdigest()) ##16進位
        x=h.hexdigest()
        x1=int(h.hexdigest(),16) ##16轉10進位
        #print(x)
        return (x,x1%self.capacity)


    def add(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
                         
        new_node=ListNode(t)

        if self.data[index]==None:      # 如果第一個為None，直接存入
            self.data[index]=new_node
            print(self.data)
            return self.data

        else:
            current=self.data[index]     # current=第一個node
            while current.next:
                current=current.next
            current.next = new_node
            print(self.data)
            return self.data    
        
        
    
    def contains(self, key):
        t,index=MyHashSet().change(key)
        #print(t,index)     
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:   

            while current.next and t != current.val:
                current=current.next
            if t != current.val:
                return False
            else:
                return True
            
            
    def remove(self, key):
        t,index=MyHashSet().change(key)
        print(t,index)
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:                       
            while current.next and t != current.val:
                current=current.next
            if t !=  current.val:
                return False
            else:
                return self.remove2(t,index)
                
    def remove2(self,t,index):  
        
        current=self.data[index]
        
        if t==current.val:
            self.data[index]=current.next
            return
        
        else:
            while current.next and t != current.next.val:
                current=current.next
                
            if current.next and current.next.next and t == current.next.val:
                current.next=current.next.next
                return 

         
            

In [39]:
hashSet=MyHashSet()
hashSet.add("123")
hashSet.add("hi")
hashSet.add("456")
hashSet.add("hey")
hashSet.add("789")
hashSet.add("sleep")

print('---')
#hashSet.contains("4")
#print('---')
hashSet.remove("sleep")
hashSet.contains("sleep")

202cb962ac59075b964b07152d234b70 3
[None, None, None, <__main__.ListNode object at 0x000001C06A9A0F98>, None]
49f68a5c8493ec2c0bf489821c21fc3b 2
[None, None, <__main__.ListNode object at 0x000001C06A9B55F8>, <__main__.ListNode object at 0x000001C06A9A0F98>, None]
250cf8b51c773f3f8dc8b4be867a9a02 4
[None, None, <__main__.ListNode object at 0x000001C06A9B55F8>, <__main__.ListNode object at 0x000001C06A9A0F98>, <__main__.ListNode object at 0x000001C06A9B59B0>]
6057f13c496ecf7fd777ceb9e79ae285 0
[<__main__.ListNode object at 0x000001C06A9BD978>, None, <__main__.ListNode object at 0x000001C06A9B55F8>, <__main__.ListNode object at 0x000001C06A9A0F98>, <__main__.ListNode object at 0x000001C06A9B59B0>]
68053af2923e00204c3ca7c6a3150cf7 3
[<__main__.ListNode object at 0x000001C06A9BD978>, None, <__main__.ListNode object at 0x000001C06A9B55F8>, <__main__.ListNode object at 0x000001C06A9A0F98>, <__main__.ListNode object at 0x000001C06A9B59B0>]
c9fab33e9458412c527c3fe8a13ee37d 3
[<__main__.ListNode

True

發現當刪除值位在最後面，無法順利刪除
<br> 加入 __elif current.next and current.next.next==None and t == current.next.val:__ 條件
<br> 並加入while迴圈，使得可以刪除重複的值

In [44]:
from Crypto.Hash import MD5
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None

class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        
    def change(self,word):
        h=MD5.new()
        h.update(word.encode("utf-8"))
        #print (h.hexdigest()) ##16進位
        x=h.hexdigest()
        x1=int(h.hexdigest(),16) ##16轉10進位
        #print(x)
        return (x,x1%self.capacity)


    def add(self, key):
        t,index=MyHashSet().change(key)
        #print(t,index)
                         
        new_node=ListNode(t)

        if self.data[index]==None:      # 如果第一個為None，直接存入
            self.data[index]=new_node
            #print(self.data)
            #return self.data

        else:
            current=self.data[index]     # current=第一個node
            while current.next:
                current=current.next
            current.next = new_node
            #print(self.data)
            #return self.data    
        
        
    
    def contains(self, key):
        t,index=MyHashSet().change(key)
        #print(t,index)     
        
        current=self.data[index]
        
        if current==None:
            return False
        
        else:   

            while current.next and t != current.val:
                current=current.next
            if t != current.val:
                return False
            else:
                return True
            
            
    def remove(self, key):
        t,index=MyHashSet().change(key)
        #print(t,index)
        
        while self.contains(key)==True:
            self.remove2(t,index)
            
                
    def remove2(self,t,index):  
        
        current=self.data[index]
        
        if t==current.val:
            self.data[index]=current.next
            return
        
        else:
            while current.next and t != current.next.val:
                current=current.next
                
            if current.next and current.next.next and t == current.next.val:
                current.next=current.next.next
                return 
            elif current.next and current.next.next==None and t == current.next.val:
                current.next=None
                return
   

         
            

In [45]:
hashSet=MyHashSet()
hashSet.add("123")
hashSet.add("hi")
hashSet.add("456")
hashSet.add("hey")
hashSet.add("789")
hashSet.add("sleep")
hashSet.add("sleep")
hashSet.add("sleep")
hashSet.add("789")
print('---')
#hashSet.contains("4")
#print('---')
hashSet.remove("123")
hashSet.contains("123")


---


False

In [46]:
print(hashSet.data[3].val,hashSet.data[3].next.val,hashSet.data[3].next.next.val)

68053af2923e00204c3ca7c6a3150cf7 c9fab33e9458412c527c3fe8a13ee37d c9fab33e9458412c527c3fe8a13ee37d


In [47]:
hashSet=MyHashSet()
hashSet.add("dog")
hashSet.add("pig")
rel=hashSet.contains("pig")
print(rel)
rel=hashSet.contains("dog")
print(rel)
rel=hashSet.contains("cat")
print(rel)
hashSet.add("bird")
rel=hashSet.contains("bird")
print(rel)
hashSet.remove("pig")
rel=hashSet.contains("pig")
print(rel)

True
True
False
True
False


### 參考資料：
1. http://alrightchiu.github.io/SecondRound/hash-tableintrojian-jie.html
2. https://zh.wikipedia.org/wiki/%E5%93%88%E5%B8%8C%E8%A1%A8
3. https://www.cs.hmc.edu/~geoff/classes/hmc.cs070.200101/homework10/hashfuncs.html
4. https://blog.kdchang.cc/2016/09/23/javascript-data-structure-algorithm-dictionary-hash-table/