# Hash Table

## 簡介:

### Hash Table有「雜湊法」或「散置法」之稱，此搜尋法可不需經過事先排序，直接且快速的找到鍵值所放的位址，期改善了Direct Access Table的兩項缺陷，一是鍵值一定要是非負整數，二是浪費記憶體空間，其時間複雜度為O(1)。

## 概念:

### Hash Table的目標是將存放資料的「Table」的大小降到「真正會存放進Table的資料的數量」，也就是「有用到的Key的數量」。要達成目標需引入hash function，將Key對應到符合Table大小m的範圍內，index=h(Key)，即可成為Hash Table的index。

## Collision & Overflow: Collision:

### 就是兩筆資料存進同一個Table之slot的情形，這將會使得查詢資料出現錯誤。Overflow為當table已滿時，資料放進去會產生溢位，因此如何在碰撞後處理溢位問題是重要的課題，期解決辦法為Chaining 跟Open Addressing。

## Hash Function:

### 優秀的Hash Function應具備的特徵有: 1.定義h()的定義域(domain)為整個Key的宇集合U，值域(range)應小於Table的大小m 2.盡可能讓Key在經過Hash Function後，在值域(也就是Table的index)能夠平均分佈，如此才不會有「兩筆資料存進同一個Table空格(稱為slot)」的情況。

### Division Method 是利用餘數來做分配，應只要做一次運算，所以速度較快，但需慎選定義的table大小，否則易發生碰撞問題。

In [6]:
!pip install pycryptodomex



### 功能說明:

In [17]:
from Crypto.Hash import MD5 #引入MD5套件

In [29]:
class ListNode(object):
    def __init__(self, val):
        self.val = val
        self.next = None
        
class MyHashSet:
    def __init__(self, capacity=5):      #定義table大小，這裡設成5
        self.capacity = capacity
        self.data = [None] * capacity    #利用餘數做分配slot
        
    def ckey(self, text):                #將文字放入MD5加密轉換
        h = MD5.new()
        h.update(text.encode("utf-8"))
        n = int(h.hexdigest(),16)
        return n
    
    def index(self, key):                #這裡設置一個處理餘數的defunction，將加密完的文字除以設定好的capacity
        n = self.ckey(key)
        return n % self.capacity
        
    def add(self, key):                  #add:輸入文字，並將文字放入hash_table
        if self.contains(key) is False:  #呼叫contains來尋找裡面是否有重複，有的話就pass
            
            n = self.ckey(key)           
            a = self.index(key)
            c = self.data[a]             #將放入data的值賦給 c
                                          
            if c is None:                #c的位置若沒人時，直接放入
                self.data[a] = ListNode(n) 
            else:                        #若有則利用while迴圈，讓他往下跑，直到有空間則放入
                while c:
                    if c.val == n:
                        return
                    if c.next is None:
                        c.next = ListNode(n)
                        return 
                    else:
                        c = c.next
                return
        else:
            pass
        
    def remove(self, key):              #remove:刪除特定key  
        n = self.ckey(key)
        a = self.index(key)
        c = self.data[a]
        if self.contains(key) is True: #利用contains來確定內部是否有要找的key
            if c.val == n:             #若當前值為要找的key值，則將data位置的標籤指向下一個
                self.data[a] = c.next
            while c.next:
                if c.next.val == n:
                    c.next = c.next.next
                    return
                c = c.next
            return
                      
    def contains(self, key):          #contains:找尋特定key是否存在
        n = self.ckey(key)
        a = self.index(key)
        c = self.data[a]
        while c :                    #利用while迴圈走訪，來確認key是否存在
            if c.val == n:
                return True
            c = c.next
        return False

In [32]:
hashSet = MyHashSet()
hashSet.add("dog")
hashSet.add("pig")
rel = hashSet.contains("pig")
print(rel)
rel = hashSet.contains("dog")
print(rel)
rel = hashSet.contains("pig")
print(rel)
rel = hashSet.contains("cat")
print(rel)
hashSet.add("bird")
rel = hashSet.contains("bird")
print(rel)
hashSet.remove("pig")
rel = hashSet.contains("pig")
print(rel)

True
True
True
False
True
False


### 心路歷程: 因為之前課堂上寫過linklist的題目，下課後也有多加研究，所以寫這次作業比較沒有太大的問題，MD5的加密方式一開始有點無法理解在幹嘛，後來與同學討論整個概念過後，才比較清楚整個hash table的運作方式，因之前的練習導致這次的作業算是得心應手，很開心自己還是有些進步。

#### 參考資料: http://alrightchiu.github.io/SecondRound/hash-tableintrojian-jie.html#ht (主要原理概念)
####                  https://docs.google.com/presentation/d/e/2PACX-1vT1HO9Nl475k2bR0l1x8_Tr4V5Wzx0BEqp9bpmHckvj8kTeJehhYVlOJUDVPhLQm6kjGCJ_sLMSBUw5/pub?start=false&loop=false&delayms=3000&slide=id.g790b8351ca_0_175 (MD5 使用方法)
####                  https://github.com/aaron1aaron2/my-learning-note/blob/master/HW4/hash_table_06170214.py (程式碼概念參考)