# [HW4] Hash Table 學習歷程

- 參考網站
    - https://www.geeksforgeeks.org/md5-hash-python/
    - https://blog.gtwang.org/programming/python-md5-sha-hash-functions-tutorial-examples/
    - https://www.hackerearth.com/zh/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/
    - https://www.geeksforgeeks.org/hashing-set-1-introduction/
---



# Hash table 原理
## Hash table
hash table 是一個資料結構，用來儲存一對 keys & value 。他使用 hash function 將 key 轉換成 array 對應的位置(index) 。而該位置就是用來儲存 value 的。
使用的 hash function 好壞是 hash table 關鍵。 在一般情況下，hash table 搜尋特定的物件的時間複雜度平均為 O(1).


![](https://upload.wikimedia.org/wikipedia/commons/thumb/7/7d/Hash_table_3_1_1_0_1_0_0_SP.svg/473px-Hash_table_3_1_1_0_1_0_0_SP.svg.png)

將特定字串轉換得到特定編號，並存到對應位置的資料結構，hash table 由下列三者組成：

- keys
  - 作為獨立的索引，通常為字串，也就是應用端輸入的東西。
- hash function
  - 通過某些算式或是方法，將 keys 轉換成能對應特定的 index 的。
  - 他的設計理念是一個key會有對應的且獨立的 bucket，但是目前大多數的設計都會有碰撞問題，也就是不同的 keys 經過轉換後會對應到一樣的 bucket。
- bucket
  - 他是一個 array ，有多個位置可以儲存資料，在裡面可以是空的可以存一筆資料，甚至也可以放其它資料結構，例如：linked-list

## hashing
hashing 他是一種在一群體中，辨識特定物件的技術，再現實生活中:
1. 在學校裡，每位學生都有特定的編號，這編號可以用來查詢他的相關資料。
2. 在圖書館裡，每本書都有一個特別編號，紀錄與該書本相關的資訊，像是類別、借還書資料 之類的...

上述兩種情況都會需要有特別編碼(unique number)。簡單來講就是他是一個將 key 轉成 index 的工作。而要如何用程式去實現呢? 我們把輸入值(str)當作 key ，然後透過 MD5 的 hexdigest() 將字串轉換成 16 進位的格式，在透過 hash function 轉換成對應的 index 。

> 最簡單的方式就是直接取餘數作為 index
```python=
hash = hashfunc(key)
index = hash % array_size
```
## Hash function
hash function 可以把不規則的資料(像是字串)轉成特定index(在有限的 array_size 下) 然後會存入 hash table。從 hash function 出來的值稱作 hash values、hash codes、hash sums 或是 simply hashes。

一個好的 hashing 機制 ，需要一個好的 hash function ，他有以下幾個特點

- easy to computing (很好計算): 他不是一個複雜的演算法，必須能夠簡單快速的轉換。

- Uniform distribution (均勻分布): 他必須均勻分布，不要只偏向某格群體(index)，這樣會影響 hash table 的效率.

- Less collisions (少碰撞):碰撞就是有兩個 key 會對應到同個 hash value(index)，這是要避免的。

> Note: 幾乎所有 hash function 都會有碰撞(Collision)問題，所以在做 hash table 時要注意如果發生碰撞要如何處理。
## Collision Handling
![](https://he-s3.s3.amazonaws.com/media/uploads/2cabd32.jpg)


因為 array（容量） 不是無限的， 所以我們要在有限的空間裡，存取特定值。也就是 在我們的 hash table 裡會有 array_size(capacity)，用來限制 array 的大小，那如果不同的字串對應同個 index 依樣怎麼辦?? 也就是同個 key 在hashing 時有衝突(Collision) ，這時就可以使用 linked-List 也就是在hash table 裡面放 linked-List，只要 index 一樣我們就可以把 value 一直往後堆疊在透過在節點裡設置對應的另一個 key 作為辨識，但是當我們的 array_size 太小就會像是 linked-List 了。

![](https://he-s3.s3.amazonaws.com/media/uploads/0e2c706.png)

- Chaining: 將 hash table 的每個位置插入 linked-List ，但是他會使用更多而外的記憶體。
- Open Addressing: 所有物件都存在 hash table 中，也就是不管有幾個物件，每個都直接指派一個 空 index 去存取(key,value)。(類似 python 裡的 dict)

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/90/HASHTB12.svg/543px-HASHTB12.svg.png)

---
## 助教的範例

In [77]:
class ListNode:
    def __init__(self, val):
        self.val = val
        self.next = None
        """
        :type val: int
        :type next: ListNode
        :rtype: None        
        """
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
        """
        :type capacity: int
        :rtype: None
        """
    def add(self, key):
        """
        :type key: str
        :rtype: None
        """
    def remove(self, key):
        """
        :type key: str
        :rtype: None
        """
    def contains(self, key):
        """
        :type key: str
        :rtype: bool(True or False)
        """

## step1: 實現加密&解密

我們這邊是使用 Crypto 這個模組實現

In [78]:
from Crypto.Hash import MD5

text = 'dog'
h = MD5.new()
h.update(text.encode("utf-8"))

print("utf-8 : ", text.encode("utf-8"))
print("十六進位: ",h.hexdigest())
print("十六進位: ",int(h.hexdigest(),16))

utf-8 :  b'dog'
十六進位:  06d80eb0c50b49a509b49f2424e8c805
十六進位:  9097202055026264535080901219663267845


### >> 測試

In [79]:
class MyHashSet:
    def encrypt(self, text):
        h = MD5.new()
        h.update(text.encode("utf-8"))
        num = int(h.hexdigest(),16)
        return num

In [80]:
obj = MyHashSet()
obj.encrypt('lo')

166030900866002996986398865666464337854

## step2: 建立Hash table 與 搜尋功能
因為之後的三個 function 都會需要去 hash table 找尋特定值，所以我需要先建立一個大家都可以使用的管道，方便後續使用。我的 search 可以依據編碼後的文字去我的資料結構裡面找尋對應的 key ，如果有的話返回節點。

我這邊使用 double linked-List，作為結構，因為這樣在之後的 remove 動作會更加方便。

In [81]:
from Crypto.Hash import MD5

class ListNode(object):
    def __init__(self, val):
        self.val = val
        self.next = None
        self.pre = None
        
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
    def encrypt(self, text):
        h = MD5.new()
        h.update(text.encode("utf-8"))
        num = int(h.hexdigest(),16)
        return num
    
    def search(self, text):
        num = self.encrypt(text)
        idx = num%self.capacity
        cur = self.data[idx]
        if cur == None:
            return False
        elif cur.val == num :
            return cur
        else:
            while cur.next is not None:
                if cur.val == num:
                    return num
                cur = cur.next
            return False
        

### >> 測試

In [82]:
obj = MyHashSet()
num = obj.encrypt('test')
obj.data[num%5] = ListNode(num)
print(num)

12707736894140473154801792860916528374


In [83]:
obj.search('test')

<__main__.ListNode at 0x1e75a05acc8>

## step3 : 新增 add

在 add 時就要把 double linked-List 的前後關係建立，也就是說只要透過我的 ListNode 和 add() 就可以將資料已 double linked-list 的形式存在 hash table 上，這樣我在 search 時可以更加自由的前後走動。

In [84]:
from Crypto.Hash import MD5

class ListNode(object):
    def __init__(self, val):
        self.val = val
        self.next = None
        self.pre = None
        
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
    def encrypt(self, text):
        h = MD5.new()
        h.update(text.encode("utf-8"))
        num = int(h.hexdigest(),16)
        return num
    
    def search(self, text):
        num = self.encrypt(text)
        idx = num%self.capacity
        cur = self.data[idx]
        if cur == None:
            return False
        elif cur.val == num:
            return cur
        else:
            while cur.next is not None:
                if cur.val == num:
                    return num
                cur = cur.next
            return False
        
    def add(self, key):
        if self.search(key) == False:
            num = self.encrypt(key)
            idx = num%self.capacity
            cur = self.data[idx]
            new = ListNode(num)
            if cur == None:
                self.data[idx] = ListNode(num)
            else:
                new.next = self.data[idx]
                self.data[idx].pre = new
                self.data[idx] = new           
        else:
            pass
        

### >> 測試

In [85]:
obj = MyHashSet()
obj.add('rr')
obj.data

[None, None, <__main__.ListNode at 0x1e75a04e948>, None, None]

In [86]:
obj.search('rr').val== obj.encrypt('rr')

True

## step4 : 新增 remove 

In [87]:
from Crypto.Hash import MD5

class ListNode(object):
    def __init__(self, val):
        self.val = val
        self.next = None
        self.pre = None
        
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
    def encrypt(self, text):
        h = MD5.new()
        h.update(text.encode("utf-8"))
        num = int(h.hexdigest(),16)
        return num
    
    def search(self, text):
        num = self.encrypt(text)
        idx = num%self.capacity
        cur = self.data[idx]
        if cur is None:
            return False
        elif cur.val == num:
            return cur
        else:
            while cur.next is not None:
                if cur.val == num:
                    return num
                cur = cur.next
            return False
        
    def add(self, key):
        if self.search(key) is  False:
            num = self.encrypt(key)
            idx = num%self.capacity
            cur = self.data[idx]
            new = ListNode(num)
            if cur is None:
                self.data[idx] = ListNode(num)
            else:
                new.next = self.data[idx]
                self.data[idx].pre = new
                self.data[idx] = new           
        else:
            pass
        
    def remove(self, key):
        num = self.encrypt(key)
        idx = num%self.capacity
        target = self.search(key)
        if target is not False:
            parent = target.pre
            child = target.next
            if parent is None:
                self.data[idx] = child
                if child is not None : child.pre = None
            else:
                parent.next = child
                child.pre = parent
        else:
            print('no target !')
            pass
        

### >> 測試

In [88]:
obj = MyHashSet()
obj.add('rr')

In [89]:
obj.search('rr').val

108078212093034487509369311540260148942

In [90]:
obj.data

[None, None, <__main__.ListNode at 0x1e75a071848>, None, None]

In [91]:
obj.remove('aa')

no target !


In [72]:
obj.remove('rr')

In [73]:
obj.search('rr')

False

In [74]:
obj.data

[None, None, None, None, None]

## step5 : 新增  contains

In [7]:
from Crypto.Hash import MD5

class ListNode(object):
    def __init__(self, val):
        self.val = val
        self.next = None
        self.pre = None
        
class MyHashSet:
    def __init__(self, capacity=5):
        self.capacity = capacity
        self.data = [None] * capacity
    
    def encrypt(self, text):
        h = MD5.new()
        h.update(text.encode("utf-8"))
        num = int(h.hexdigest(),16)
        return num
    
    def search(self, text):
        num = self.encrypt(text)
        idx = num%self.capacity
        cur = self.data[idx]
        if cur is None:
            return False
        elif cur.val == num:
            return cur
        else:
            while cur.next is not None:
                if cur.val == num:
                    return num
                cur = cur.next
            return False
        
    def add(self, key):
        if self.search(key) is  False:
            num = self.encrypt(key)
            idx = num%self.capacity
            cur = self.data[idx]
            new = ListNode(num)
            if cur is None:
                self.data[idx] = ListNode(num)
            else:
                new.next = self.data[idx]
                self.data[idx].pre = new
                self.data[idx] = new           
        else:
            print('already in hash table!')
            pass
        
    def remove(self, key):
        num = self.encrypt(key)
        idx = num%self.capacity
        target = self.search(key)
        if target is not False:
            parent = target.pre
            child = target.next
            if parent is None:
                self.data[idx] = child
                if child is not None : child.pre = None
            else:
                parent.next = child
                child.pre = parent
        else:
            print('no target !')
            pass
        
    def contains(self, key):
        target = self.search(key)
        if target is not False:
            return True
        else:
            return False

In [8]:
obj = MyHashSet()
obj.add("dog")
obj.add("pig")
rel = obj.contains("pig")
print(rel)
rel = obj.contains("dog")
print(rel)
rel = obj.contains("cat")
print(rel)
obj.add("bird")
rel = obj.contains("bird")
print(rel)
obj.remove("pig")
rel = obj.contains("pig")
print(rel)

True
True
False
True
False


In [17]:
obj = MyHashSet()
obj.add("pig")
obj.add("pig")
obj.add("pig")
print(obj.data)
rel = obj.contains("pig")
print(rel)
obj.remove("pig")
rel = obj.contains("pig")
print(rel)
obj.remove("p")
print(obj.data)

already in hash table!
already in hash table!
[None, None, <__main__.ListNode object at 0x000001518EEC4F88>, None, None]
True
False
no target !
[None, None, None, None, None]


In [22]:
obj = MyHashSet()
obj.add("pig")
obj.add("pi")
obj.add("p")
print(obj.data)
print(obj.contains("pig"))
obj.remove("pig")
print(obj.contains("pig"))
obj.remove("p")
print(obj.data)
print(obj.contains("pi"))

[None, <__main__.ListNode object at 0x0000015190E35788>, <__main__.ListNode object at 0x0000015190E35648>, None, <__main__.ListNode object at 0x0000015190E35748>]
True
False
[None, None, None, None, <__main__.ListNode object at 0x0000015190E35748>]
True
