<a href="https://colab.research.google.com/github/choi-yh/DataStructure/blob/master/6_1_HashTable.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* 이진탐색트리에서 최대성능은 O(log n) 이었다.
* 만약, 데이터의 키로 1차원 배열의 인덱스를 사용하면 O(1)도 가능하다.
* 이는 공간으로 시간을 사는 개념이다.
    
   <center><img src=" https://drive.google.com/uc?id=1byyWoFLaZlzIq94XJIriGPNrnc4hJzGY" width="500" height="300" ></center>
* 문제는 배열의 공백이 많아 메모리 낭비가 심하다.
* 다른 방법으로 키를 직접 쓰지 말고,  키를 특정함수(예: 나머지 함수)에 넣고 결과를 인덱스로 사용해 공백을 줄이는 방법을 사용할 수 있다.
    
   <center><img src=" https://drive.google.com/uc?id=1-o4yddRBgxUs6lyuu4hO7gZDPJ8PX84l" width="500" height="300" ></center>

* 이 경우, 메모리 낭비는 줄일 수 있지만, 서로 다른 키들이 동일한 해시값을 가질 때 충돌문제가 발생한다. 
* 가장 이상적인 해시함수는 키들을 균등하게(Uniformly) 해시테이블의 인덱스로 변환하는 함수다.
* 널리 사용되는 해시함수는 나눗셈(Division) 함수다.
나눗셈 함수는 키를 M으로 나눈 뒤, 그 나머지를 해시값으로 사용한다.
* h(key) = key % M이고, 따라서 해시테이블의 인덱스는 0에서 M-1이 됨 
* M은 일반적으로 key 개수의 3배 정도이며 소수(prime number)를 사용한다.



* 충돌 처리
    * 충돌이 일어날 경우, 처리하는 방법으로 개방주소방식과 폐쇄 주소방식이 있다.
    * 개방 주소방식과 폐쇄 주소방식의 차이는 충돌이 일어날 경우, 충돌지점에서 다른 주소까지 개방해서 원소를 삽입할 수 있는 경우가 개방주소방식이고, 폐쇄주소방식은 충돌이 일어난 주소에서 문제를 해결하는 방식이다.

#### 폐쇄주소방식
* 충돌이 일어날 경우, 다른 메모리에 저장하는 것이 아니고 그 메모리 안에서 해결하는 방법
* 대표적인 해결 방법으로 **Chaining**을 사용한다.
* Chaining은 메모리에 Linked List 객체를 삽입해서 중복될 경우, 리스트를 순차탐색하는 방법을 사용한다.

In [0]:
class Node:
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.link = None

class LinkedList:
    def __init__(self):
        self.root = Node()
        self.cnt = 0

    def append(self, key, value):
        newNode = Node(key, value)
        curNode = self.root
        if curNode.key == None:
            self.root = newNode
            self.cnt += 1
        else:
            while curNode.link != None:
                self.cnt += 1
                curNode = curNode.link
            curNode.link = newNode
        return self.cnt
    
    def get(self, key):
        cnt = 0
        curNode = self.root
        if curNode.key == key:
            return curNode.value, cnt
        else:
            while curNode.link != None:
                curNode = curNode.link
                cnt += 1
                if curNode.key == key:
                    return curNode.value, cnt
            return None

In [0]:
class ChainHash:
    def __init__(self, k):
        # 데이터 수의 3배를 기준으로 소수 리턴
        self.m = self._getPrime(3 * k)
        self.h = [None] * self.m

    def _getPrime(self, n):
        # 1 ~ n 사이의 소수를 구하고 가장 큰 두 개의 소수를 리턴한다.
        import numpy as np
        is_prime = np.array(list(range(n+1)))
        N_max = int(np.sqrt(len(is_prime) - 1)) # looping 2 to sqrt(n)

        for j in range(2, N_max + 1):
            is_prime[2*j::j] = 0
        is_prime = np.setdiff1d(is_prime, np.array([0, 1])) # Find the set difference of two arrays.
        return is_prime[-1]

    def insert(self, key, item):
        idx = key % self.m
        if self.h[idx] == None:
            self.h[idx] = LinkedList()
            self.h[idx].append(key, item)
        else:
            print(key, '충돌')
            curNode = self.h[idx].root
            while curNode.link != None:
                curNode = curNode.link
            curNode.link = Node(key, item)

    def get(self, key):
        idx = key % self.m
        xList = self.h[idx]
        return xList.get(key)

In [8]:
x = [25, 37, 18, 55, 22, 35, 50, 63]

h = ChainHash(len(x))

for val in x:
    h.insert(val, 'a'+str(val))

y = [26, 38, 19, 56, 23, 36, 51, 64]
for val in y:
    h.insert(val, 'a'+str(val))
    
for key in x:
    print(key, h.get(key))

for key in y:
    print(key, h.get(key))

64 충돌
25 ('a25', 0)
37 ('a37', 0)
18 ('a18', 0)
55 ('a55', 0)
22 ('a22', 0)
35 ('a35', 0)
50 ('a50', 0)
63 ('a63', 0)
26 ('a26', 0)
38 ('a38', 0)
19 ('a19', 0)
56 ('a56', 0)
23 ('a23', 0)
36 ('a36', 0)
51 ('a51', 0)
64 ('a64', 1)
