# 해시테이블

이전장에서는 이진탐색트리의 성능을 개선한 AVL트리와 레드블랙트리에 대해서 살펴보았는데 이 자료구조들의 삽입과 삭제 연산의 수행시간은 각가 O(logN)이다. 그렇다면 이보다 더 성능이 좋은 자료구조는 없는 걸까?

### 핵심 아이디어 
O(logN)시간보다 빠르게 하기위해, 키와 1차원리스트의 인덱스 관계를 이용하여 키를 저장한다. 

<img src="./img/basic.jpg" width="500"/>

그러나 키를 1차원 리스트의 인덱스로 그대로 사용하게 되면 메모리의 낭비가 심해질 수 있다. 이러한 문제를 해결하려면 키를 적절히 변환하여 리스트의 인덱스로 사용해야 한다. 

<img src="./img/hashing.jpg" width="500"/>

- 해싱(Hashing) : 키를 간단한 함수를 사용해 변환한 값을 리스트의 인덱스로 이용하여 항목을 저장하는 것
- 해시함수(Hash function) : 해싱에 사용되는 함수
- 해시값(Hash value) or 해시주소 : 해시함수가 계산한 값 
- 해시테이블(Hash table) : 항목이 해시값에 따라 저장되는 1차원 리스트 

###  충돌(Collision)

해시함수를 통해 각각의 해시테이블에 키를 저장하게 됩니다. 하지만 아무리 우수한 해시함수를 사용하더라도 2개 이상의 항목을 해시테이블에 저장하게 되는 경우가 발생하게 됩니다. 이와 같이 서로 다른 키지만 같은 해시값을 가질 때 충돌이 발생했다고 합니다.

<img src="./img/collision.jpg" width="500"/>

이 충돌을 해결하는 방법으로는 크게 두 가지로 나눠집니다
- 개방주소방식 : 선형조사, 이중조사, 랜덤조사, 더블해싱

     해시테이블이 전체를 열린 공간으로 가정하고 충돌 된 키를 일정한 방식에 따라서 찾아낸 empty원소에 저장합니다. 
     
     
- 폐쇄주소방식 : 체이닝

    키에 대한 해시값에 대응되는 곳에만 저장합니다. 따라서 충돌이 발생한 키들은 한 위치에 모아서 저장이 됩니다.

### 해시함수

가장 이상적인 해시함수는 키들을 균등하게 해시테이블에 변환하는 함수입니다. 그저 단순히 키의 앞 부분 몇 자리, 뒤의 몇 자리 등을 해시값으로 사용하는 경우 많은 충돌을 발생시킬수가 있다.

해시함수는 키들을 균등하게 해시테이블의 인덱스로 변환하기 위해 의미가 부여되어 있는 키는 키를 간단한 계산을 통해 뒤죽박죽 섞은후  해시테이블의 크기에 맞도록 해시값을 계산해야 합니다. 여기서 아무리 균등한 결과를 보장하는 해시함수일지라도 너무 복잡한 계산을 가지게 되어 시간을 오래잡아먹게되면 해싱의 장점인 신속성을 상실하게 됩니다. 따라서 단순하면서도 신속성이 보장되며, 키를 균등하게 변환하는 함수가 바람직합니다.

### 대표적인 해시함수

- 중간제곱(Mid-square) 함수 : 키를 제곱한 후 적절한 크기의 중간부분을 해시값으로 사용
- 접기(Folding) 함수 : 큰 자릿수를 갖는 십진수를 키로 사용하는 경우, 몇 자리씩 일정하게 끊어서 만든 숫자들의 합을 이용해 해시값을 만듬. 
- 곱셈(Multiplicative) 함수 : 1보다 작은 실수 델타를 키에 곱하여 얻는 숫자의 소수 부분을 테이블 크기 M과 곱한다. 이렇게 나온 값의 정수 부분을 해시값으로 사용한다.
- 나눗셈(Division) 함수 : 키를 소수(Prime) M으로 나눈뒤, 그 나머지를 해시값으로 사용한다. 

### h(key) = key % M, 해시테이블의 인덱스는 0에서 M-1이 됩니다. 
여기서 소수를 사용하는 이유는 나눗셈 연산을 할 때 소수가 키들을 균등하게 인덱스로 변환시켜주기 때문입니다.

이러한 해시함수들의 공통점들은 키의 모든자리의 숫자들이 함수 계산에 참여함으로서 계산 결과에는 원래의 키에 부여된 의미나 특성을 찾아볼 수 없게 된다는 점을 볼수가 있습니다.