# 해시테이블

* 만약, 데이터의 키를 1차원 배열의 인덱스를 사용하면 O(1)의 시간복잡도를 가진다.
* 이는 공간으로 시간을 사는 개념이다.
  <center><img src=" https://drive.google.com/uc?id=1byyWoFLaZlzIq94XJIriGPNrnc4hJzGY" width="500" height="300" ></center>
* 단점으로 배열의 공백이 많이 생겨 메모리 낭비가 심하다.

### 해시 함수
* 해시함수를 사용하여 공백을 줄일 수 있다.(메모리 절약)
* 하지만 이 경우, 서로 다른 키들이 동일한 해시값을 가질 때 충돌현상이 일어날 수 있다.
* 가장 이상적인 해시함수는 키들을 균등하게 해시테이블의 인덱스로 변환하는 함수다.
* 널리 사용되는 해시함수는 나눗셈 함수다.
* h(key) = key % M 이고, M은 일반적으로 key개수의 3배 정도이며 소수(prime number)이다.

### 충돌 처리
* 충돌이 일어날 때 처리하는 방법
 * 개방주소방식 : 충돌이 일어날 경우, 충돌지점에서 다른 주소까지 개방해서 원소를 삽입한다.
   * Linear Probing : 충돌시, 해당 인덱스에서 빈곳을 찾아 순차적으로 이동하다가 빈곳이 나오면 입력한다. (h(key) + j) % M
   * Quad Probing : 충돌시, 해당 인덱스에서 빈곳을 찾을 때, 순차적으로 이동하는 것이 아니고 점프간격을 제곱으로 이동하여 삽입여부를 결정한다. (h(key) + j ** 2) % M
   * Random Probing :충돌시, 해당 인덱스에서 빈곳을 찾는게 아니라, 랜덤한 위치로 이동하여 삽입여부를 결정한다. 단, 탐색을 위해서 난수의 seed를 지정해야 한다. (h(key) + randint) % M<br>
  (Linear Probing의 경우 인덱스가 한쪽으로 뭉치는 현상이 발생하는데 이를 방지하고자 Quad, Random 등의 방법을 사용하지만 이 두 방법도 어느정도 뭉침현상이 일어난다.)
 * 폐쇄주소방식 : 충돌이 일어날 경우, 충돌이 일어난 주소에서 문제를 해결하는 방식이다.
   * Chaining : 충돌시, 해당 인덱스에서 LinkedList를 이용하여 해당 노드의 링크에 새로운 값을 삽입해준다.
 
### HashLinear 구현
<center><img src=" https://drive.google.com/uc?id=1tS5WyNbaFSDuJ4c_AOsO1KfKlGo9yh5E" width="500" height="300" ></center>  

In [6]:
class Hash_Linear:
    def __init__(self, m):
        self.m = m
        self.h = [None] * self.m
        
    def isfull(self):
        if None in self.h:
            return False
        else:
            return True
    
    def insert(self, key, item):
        if self.isfull() == True:
            print("Hash Full!")
        else:
            idx = key % self.m
            if self.h[idx] == None:
                self.h[idx] = [key, item]
            else:
                for j in range(1, self.m):
                    nextidx = (idx + j) % self.m
                    if self.h[nextidx] == None:
                        self.h[nextidx] = [key, item]
                        break
                
    def get(self, key):
        idx = key % self.m
        if self.h[idx][0] == key:
            return self.h[idx][1]
        else:
            for j in range(1, self.m):
                nextidx = (idx + j) % self.m
                if self.h[nextidx][0] == key:
                    return self.h[nextidx][1]
            print("item not found")
            return None
        
x = [25, 37, 18, 55, 22, 35, 50, 63, 95, 32, 1, 13, 17]
h = Hash_Linear(13)
for val in x:
    h.insert(val, 'a'+str(val))

for val in x:
    print(val, h.get(val))

h.insert(98, 'a'+str(98))
h.get(100)

25 a25
37 a37
18 a18
55 a55
22 a22
35 a35
50 a50
63 a63
95 a95
32 a32
1 a1
13 a13
17 a17
Hash Full!
item not found


* 아래는 적절한 소수 M 값을 구하는 알고리즘이다. 해시테이블의 사용률이 <font color = red>2/3</font> 정도가 바람직하다고 알려져있다.
* 그러므로 M은 키의 3배 정도로 하고 소수를 선택한다.
* 소수를 쓰는 이유는 k % M의 결과값이 M이 소수일 때, 인덱스가 나올 확률이 uniform하기 때문이다. 아래에 간단한 실험을 해보자.

In [9]:
M1 = 7 #소수
M2 = 8 #짝수
M3 = 9 #홀수

result1 = []
result2 = []
result3 = []

x = [5, 8, 13, 17, 21, 25, 29, 33]

for i in x:
    result1.append(i % M1)
    result2.append(i % M2)
    result3.append(i % M3)
print(result1)
print(result2)
print(result3)

[5, 1, 6, 3, 0, 4, 1, 5]
[5, 0, 5, 1, 5, 1, 5, 1]
[5, 8, 4, 8, 3, 7, 2, 6]


* 에라토스테네스의 체 알고리즘
<center><img src=" https://drive.google.com/uc?id=15gH9j7yKoUcCwGooSZnZvW5B6N7qVdKa" width="500" height="300" ></center>

In [16]:
#에라토스테네스의 체 알고리즘 구현
def getPrime(n):
    import numpy as np
    is_prime = np.array(list(range(n+1)))
    N_max = int(np.sqrt(n))
    for i in range(2, N_max):
        is_prime[2*i::i] = 0
    is_prime = np.setdiff1d(is_prime,np.array([0,1]))
    return is_prime

getPrime(120)

array([  2,   3,   5,   7,  11,  13,  17,  19,  23,  29,  31,  37,  41,
        43,  47,  53,  59,  61,  67,  71,  73,  79,  83,  89,  97, 101,
       103, 107, 109, 113])

### Double Hashing

* 이중 해시테이블은 두개의 해시함수를 사용한다. 첫번째 해시는 인덱스를 찾는데 사용하고 두번째 해시는 충돌시, 다음 인덱스를 만드는데 사용한다.
* h(key) = key % M 이며, 아래와 같은 방식으로 다음 위치를 찾는다.
$$ (h(key) + j*d(key)) \% M, j = 0,1,2, \cdots $$
j=0에서 충돌이 일어나지 않으면 그대로 진행하고 충돌이 일어날 경우, j가 증가하여 다음 위치를 찾는다.
* 더블해싱은 다음 위치를 지정할 때 key를 seed로 사용하므로 뭉침현상이 일어나지 않는다.
* 일반적으로 h(key) = key % M, d(key) = C - (key % C)로 계산하며 C는 M보다 약간 작은 소수이다.
<center><img src=" https://drive.google.com/uc?id=142rcrUHRJHDIV8n7kDK18Mbc2Rpimch0" width="500" height="300" ></center> 

### 구현

In [25]:
x = [25, 37, 18, 55, 22, 35, 50, 63]
class DoubleHash:
    def __init__(self, keys):
        self.keys = keys
        k = len(keys)
        self.m, self.c = self.getPrime(3 * k)
        self.h = [None] * self.m
        
    def getPrime(self, n):
        import numpy as np
        is_prime = np.array(list(range(n+1)))
        N_max = int(np.sqrt(n))
        for j in range(2, N_max):
            is_prime[2*j::j] = 0
        is_prime = np.setdiff1d(is_prime, np.array([0,1]))
        return is_prime[-1], is_prime[-2]
    
    def isfull(self):
        if None in self.h:
            return False
        else:
            return True
        
    def insert(self, key, item):
        if self.isfull() == True:
            print("Hash full!")
        else:
            idx = key % self.m
            if self.h[idx] == None:
                self.h[idx] = [key, item]
            else:
                j = 1
                while True:
                    nextidx = (idx + j * (self.c - (key % self.c))) % self.m
                    if self.h[nextidx] == None:
                        self.h[nextidx] = [key, item]
                        break
                    j += 1
                    
    def get(self, key):
        idx = key % self.m
        if self.h[idx][0] == key:
            return self.h[idx][1]
        else:
            j = 1
            while True:
                nextidx = (idx + j * (self.c - (key % self.c))) % self.m
                if self.h[nextidx] == key:
                    return self.h[nextidx][1]
                    break
                j += 1
        

h = DoubleHash(x)

for val in x:
    h.insert(val, 'a'+str(val))

print(h.m, h.c, h.h)
print(h.get(22))     
                        

23 19 [None, None, [25, 'a25'], None, [50, 'a50'], None, None, None, None, [55, 'a55'], None, None, [35, 'a35'], None, [37, 'a37'], None, None, [63, 'a63'], [18, 'a18'], None, None, None, [22, 'a22']]
a22


### Chaining 구현
* 체이닝은 아래 그림처럼 메모리에 Linked List 객체를 삽입해서 중복될 경우, 리스트를 순차탐색하는 방법을 사용한다.
<center><img src=" https://drive.google.com/uc?id=1Lh4MwcN804EIyFS_qelzdjUK9mLfmegx" width="500" height="300" ></center>  

In [26]:
class Node:
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.link = None

# LinkedList Class: Linked List에 노드를 추가(append)하고 노드를 찾는(get) 메소드가 있다.
class LinkedList:
    def __init__(self):
        self.root = Node()
    # 리스트 마지막에 노드를 삽입한다.
    def append(self, key, value):
        # 추가할 새 노드를 만든다.
        newNode = Node(key, value)
        # 현위치를 루트로 지정하고 노드를 추가한다.
        curNode = self.root
        cnt = 0
        # 현 위치가 비어 있으면 현 위치에 삽입
        if curNode.key == None:
            self.root = newNode
        # 현 위치가 비어 있지 않으면 다음 노드로 옮기는 작업을 마지막 노드가 나타날 때 까지 반복한다.
        # 마지막 노드를 만나면 마지막 노드 다음에 새 노드를 삽입한다.
        else:
            while curNode.link != None:
                cnt += 1
                curNode = curNode.link
            curNode.link = newNode
        return cnt

    def get(self, key):
        curNode = self.root
        if curNode.key == key:
            return curNode.value
        else:
            while curNode.link != None:
                curNode = curNode.link
                if curNode.key == key:
                    return curNode.value
            return None

In [34]:
class Chaining:
    def __init__(self, keys):
        self.keys = keys
        k = len(self.keys)
        self.m = self.getPrime(3 * k)
        self.h = [None] * self.m
        
    def getPrime(self, n):
        import numpy as np
        is_prime = np.array(list(range(n+1)))
        N_max = int(np.sqrt(n))
        for j in range(2, N_max):
            is_prime[2*j::j] = 0
        is_prime = np.setdiff1d(is_prime, np.array([0,1]))
        return is_prime[-1]
    
    def insert(self, key, item):
        idx = key % self.m
        if self.h[idx] == None:
            self.h[idx] = LinkedList()
            self.h[idx].append(key, item)
        else:
            print(key, "충돌")
            self.h[idx].append(key, item)
            
    def get(self, key):
        idx = key % self.m
        if self.h[idx] == None:
            print("item not found")
        else:
            return self.h[idx].get(key)
            
x = [25, 37, 18, 55, 22, 35, 50, 63]

h = Chaining(x)

for val in x:
    h.insert(val, 'a'+str(val))

y = [26, 38, 19, 56, 23, 36, 51, 64]
for val in y:
    h.insert(val, 'a'+str(val))

print(h.get(26))

64 충돌
a26


* Two-way Chaining
  * 일반적으로 Chaining 방법과 동일한데, 충돌이 일어날 경우, 해시함수를 하나 더 만들어 인덱스를 구하고 두개의 인덱스 중 리스트의 길이가 짧은 쪽으로 삽입한다.
  * 꺼낼 때에는 두 해시함수의 인덱스에 대해 각각 탐색하여 리턴한다.