# 해시테이블

- O(logN) 시간보다 빠른 연산을 위해, 키와 1차원 리스트의 인덱스의 관계를 이용하여 키(항목)을 저장
- hashing: 키를 간단한 함수를 사용해 변환한 값을 리스트의 인덱스로 이용하여 항목을 저장하는 것
- hashing function: hashing에 사용되는 함수
- hashing value: hashing function이 계산한 값 (또는 해시주소)
- hashing table: 항목이 해시값에 따라 저장되는 1차원 리스트
- Collision: 서로 다른 키들이 동일한 해시값을 가질 때 충돌(Collision)이 발생했다고 한다.
- 충돌 해결 방법
 - 개방주소방식(Open Addressing): 충돌된 키들을 해시테이블 전체를 열린 공간으로 여기어 비어 있는 곳을 찾아 항목을 저장
 - 폐쇄주소방식(Closed Addressing): 해시값에 대응되는 해시테이블 원소에 반드시 키를 저장한다. 따라서 충돌이 발생산 키들을 동일한 해시주소에 저장한다.

## 해시함수

- 이상적인 해시함수는 키를 균등하게, 랜덤하게 흩어지게 해시테이블의 인섹스로 변환하는 함수
- 대표적인 예
 - 중간제곱(Mid-square)함수: 키를 제곱한 후, 적절한 크기의 중간부분을 해시값으로 사용
 - 접기(Folding)함수: 큰 자릿수를 갖는 십진수를 사용하는 경우, 몇 자리씩 일정하게 끊어서 만든 숫자들의 합을 이용해 해시값을 만듬
 - 곱셈(Multiplicative)함수: 1보다 작은 실수 δ를 키에 곱하여 얻은 숫자의 소수 부분을 테이블 크기 M과 곱한다. 이렇게 나온 값의 정수 부분을 해시값으로 사용한다.
- 키의 모든 자리의 숫자들이 함수 계산에 참여함으로써 계산 결과에서는 원래의 키에 부여된 의미나 특성을 찾아볼수 없게되고, 계산 결과에서 해시테이블의 크기에 따라 특정부분만을 해시값으로 활용한다는 공통점이 있다.
- 가장 널리 사용되는 해시함수는 나눗셈(Division)함수이다.
 - 나눗셈(Division)함수: 키를 소수(Prime) M으로 나눈 뒤, 그 나머지를 해시값으로 사용

## 개발주소방식
 - 해시테이블 전체를 열린 공간으로 가정하고 충돌된 키를 일정한 방식을 따라서 empty 원소에 저장한다.
  - 선형조사(Linear Probing)
  - 이차조사(Quadratic Probing)
  - 랜덤조사(Random Probing)
  - 이중해싱(Double Hashing)

In [7]:
# 선형조사
# 충돌이 나면 바로 다음 원소를 검사
class LiearProbing:
    def __init__(self, size):
        self.M = size            # 테이블 크기 M
        self.a = [None] * size   # 해시테이블 a
        self.d = [None] * size   # 데이터 저장용 d
        
    def hash(self, key):
        return key % self.M      # 나눗셈 해시함수
    
    def put(self, key, data):  # 삽입 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 0
        while True:
            if self.a[i] == None:  # 빈 곳 발견
                self.a[i] = key    # key는 해시테이블에
                self.d[i] = data   # data는 리스트 d에 저장
                return
            if self.a[i] == key:   # key가 이미 해시테이블에 있으므로
                self.d[i] = data   # data만 갱신
                return
            j += 1
            i = (initial_position + j) % self.M  # 다음 원소 검사를 위해
            if i == initial_position:
                break  # 다음 위치가 초기 위치와 같으면 저장 실패
                
    def get(self, key):  # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]  # 탐색 성공
            i = (initial_position + j) % self.M  # 다음 원소 검사를 위해
            j += 1
            if i == initial_position:
                return None
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print() 

In [8]:
t = LiearProbing(13)  # 해시테이블 크기 지정
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')

print('탐색 결과:')
print('50: ', t.get(50))
print('63: ', t.get(63))
print('해시테이블: ')
t.print_table()

탐색 결과:
50:  orange
63:  watermelon
해시테이블: 
0     1     2     3     4     5     6     7     8     9     10    11    12    
50    63    None  55    None  18    None  None  None  22    35    37    25    


In [13]:
# 이차조사
# 선형조사와 근본적으로 동일한 충돌 해결 방법
# 충돌 후 1차원 리스트 a 에서 선형조사보다 더 멀리 떨어진 곳에서 empty 원소를 찾는다.
# 충돌이 나면 갈수록 더 멀리 떨어진 원소를 검사
class QuadProbing:
    def __init__(self, size):
        self.M = size
        self.a = [None] * size
        self.d = [None] * size
        self.N = 0   # 저장된 항목
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):
        initial_position = self.hash(key)
        i = initial_position
        j = 0
        while True:
            if self.a[i] == None:  # 빈 곳 발견
                self.a[i] = key    # key는 해시테이블에
                self.d[i] = data   # data는 리스트 d에 저장
                self.N += 1
                return
            if self.a[i] == key:   # key가 이미 있으므로
                self.d[i] = data   # data만 갱신
                return
            j += 1
            i = (initial_position + j*j) % self.M
            if self.N > self.M:
                break
                
    def get(self, key):  # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]  # 탐색 성공
            i = (initial_position + j*j) % self.M
            j += 1
        return None  # 탐색 실패
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print() 

In [14]:
t = QuadProbing(13)
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')

print('탐색 결과:')
print('50: ', t.get(50))
print('63: ', t.get(63))
print('해시테이블: ')
t.print_table()

탐색 결과:
50:  orange
63:  watermelon
해시테이블: 
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  None  50    55    None  18    None  63    None  22    35    37    25    


In [15]:
# 랜덤조사
# 점프 시퀀스를 무작위화하여 empty 원소를 찾는 충돌 해결 방법
# python의 dict는 랜덤조사 기반으고 구현됨
import random
class RandProbing:
    
    '''
    ...
    '''
    def put(self, size): # 삽입 연산
        initial_position = self.hash(key)
        i = initial_position
        random.seed(100)   # 난수 생성 초기값
        while True:
            if self.a[i] == None:
                '''
                ...
                '''
            if self.a[i] == key:
                '''
                ...
                '''
            j = random.randint(1, 99)
            i = (initial_position + j) % self.M
            if self.N > self.M:
                break
                
    def get(self, key):
        '''
        ...
        '''
        random.seed(1000)
        while self.a[i] != None:
            '''
            ...
            '''
            i = (initial_position + random.randint(1, 99)) % self.M
        return None

- 이중해싱
 - 충돌이 나면 다른 해시함수의 해시값을 이용하여 원소를 검사
 - 빈 곳을 찾기 위한 점프 시퀀스가 일정하지 않으며, 모든 군집화 현상을 발생시키지 않는다.
 - 또한 해시 성능을 저하시키지 않는 동시에 해시테이블에 많은 키들을 저장할 수 있다는 장점이 있다.

# 폐쇄주소방식 

- 키에 대한 해시값에 대응되는 곳에만 키를 저장한다.
- 충돌이 발생한 키들은 한 위치에 모아 저장된다.
- 대표적인 방법은 **체이닝(Chaining)**

In [16]:
class Chaining:
    class Node:
        def __init__(self, key, data, link):
            self.key = key
            self.data = data
            self.next = link
            
    def __init__(self, size):
        self.M = size
        self.a = [None] * size
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):  # 삽입 연산
        i = self.hash(key)
        p = self.a[i]
        while p != None:
            if key == p.key:
                p.data = data
                return
            p = p.next
        self.a[i] = self.Node(key, data, self.a[i])
        
    def get(self, key):  # 탐색 연산
        i = self.hash(key)
        p = self.a[i]
        while p != None:
            if key == p.key:
                return p.data
            p = p.next
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('%2d' % (i), end='')
            p = self.a[i]
            while p != None:
                print('-->[', p.key, ',', p.data, ']', end='')
                p = p.next
            print()

# 기타 해싱

- 2-방향 체이닝(Two-way Chaining)
 - 2개의 해시함수를 이용하여 연결리스트의 길이가 짧은 쪽에 새 키(항목)를 저장
- 뻐꾸기해싱(Cuckoo Hashing)
 - 2개의 해시함수와 각 함수에 대응되는 해시테이블을 이용해 충돌이 발생하면 그 곳에 있는 키를 쫓아낸다.
- 재해시(Rehash)
 - 앞의 해시방법들은 원소가 적으면, 삽입에 실패하거나 해시 성능이 급격히 떨어진다.
 - 해시테이블을 확장시키고 새로운 해시함수를 사용하여 모든 키들을 새로운 해시테이블에 다시 저장하는 재해시(Rehash)가 필요
 - 적내율 a = (테이블에 저장된 키의 수 N) / (테이블 크기 M)
- 동적 해싱(Dynamic Hashing)
 - 대용량의 데이터베이스를 위한 해시방법으로 재해시를 수행하지 않고 동적으로 해시테이블의 크기를 조절
 - 확장 해싱(Extendible Hashing): 디렉터리를 주기억장치에 저장하고, 데이터는 디스크 블록 크기의 버킷 단위로 저장.
 - 선형 해싱(Linear Hashing): 디렉터리 없이 삽입할 때 버킷을 순서대로 추가하는 방식

# 해시방법의 성능 비교 및 응용

- 선형조사는 적재율 a가 너무 작으면 해시테이블에 empty 원소가 너무 많고, a 값이 1.0에 근접할수록 군집화가 심화된다.
- 개방주소방식의 해싱은 a = 0.5, 즉 M = 2N일 때 O(1) 시간 성능을 보인다.
- 체이닝은 a가 너무 작으면 대부분의 연결리스트들이 empty가 되고, a가 너무 크면 연결리스트들의 길이가 너무 길어져 해시 성능이 매우 저하된다. 일반적으로 M이 소수이고 a = 10 정도이면 O(1) 시간 성능을 보인다.

## 요약

- 해싱이란 키를 간단한 (해시)함수로 계산한 값을 1차원 리스트의 인덱스로 이용하여 항목을 저장하고, 탐색, 삽입, 삭제 연산을 평균 O(1) 시간에 지원하는 자료구조
- 해시함수는 키들을 균등하게 해시테이블의 인덱스로 변환하기 위해 의미가 부여되는 있는 키를 간단한 계산을 통해 '뒤죽박죽'만든 후 해시테이블 크기에 맞도록 해시값을 계산한다. 대표적인 해시함수는 나눗셈 함수이다.
- 충돌 해결 방법은 개방주소방식, 폐쇄주소방식이 있다.
- 개방주소방식에는 선형조사, 이차조사, 랜덤조사, 이중해싱이 있다.
- 폐쇄주소방식은 키에 대한 해시값에 대응되는 곳에만 키를 저장한다. 체이닝은 해시테이블 크기만큼의 연결리스트를 가지며, 키를 해시값에 대응되는 단순연결리스트에 저장하는 해시방식이다. 군집화 현상이 발생하지 않으며, 구현이 간결하여 실제로 가장 많이 활용되는 해시방법이다.
- 2-방향 체이닝은 체이닝과 동일하나 2개의 해시함수를 이용하여 연결리스트의 길이가 짧은 쪽에 새 키를 저장한다.
- 뻐꾸기해싱은 뻐꾸기가 다른 새의 둥지에 알을 낳고, 부화된 뻐꾸기 새끼는 다른 새의 알이나 새끼들을 둥지에서 밀어내는 습성을 모방한 해싱 방법이고, 탐색과 삭제를 O(1) 시간을 보장하는 매우 효율적인 해싱 방법
- 재해시는 삽입에 실패하거나 해시 성능이 급격히 저하되었을때, 해시테이블의 크기를 확장하고 새로운 해시함수를 사용해 모든 키들을 새로운 해시테이블에 저장하는 것을 말한다.
- 동적 해싱은 대용량의 데이터베이스를 위한 해시방법으로 재해시를 수행하지 않고 동적으로 해시테이블의 크기를 조절하는 방식이며, 대표적인 동적 해싱에는 확장 해싱과 선현 해싱이 있다.