## Hash Table
- 해쉬 구조란 키에 데이터를 저장하는 구조이다. 이로 인해 키를 통해 바로 데이터를 받아올 수 있기 때문에 검색 속도가 빨라진다. 이러한 구조로 파이썬에서 딕셔너리 타입을 사용하고 있다.
- 알아둘 용어
    - 해쉬 : 임의 값을 고정 길이로 변환하는 것을 의미한다. 방대한 데이터를 고정된 값으로 바꾼다.
    - 해쉬 테이블 : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조이다.
    - 해싱 함수 : 키에 대해 산술 연살을 이용해 데이터의 위치를 찾을 수 있는 함수이다.
    - 해쉬 값(해쉬 주소) : 해싱 함수의 결과 값이다.
    - 슬롯 : 한 개의 데이터를 저장할 수 있는 공간이다.

## 1. 간단한 해쉬 예

### 1-1. hash table 만들기

In [7]:
hash_table = [i for i in range(10)]

In [8]:
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### 1-2. hash function 생성

In [9]:
def hash_func(key):
    return key % 5

### 1-3. hash table 저장

In [10]:
data1 = 'Andy'
data2 = 'Max'
data3 = 'Dave'

# ord(): 문자의 ASCII 코드 리턴
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))

65 77 68


In [11]:
def storage_data(data, value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

### 1.4 hash table에서 특정 주소의 데이터를 가져오는 함수

In [12]:
storage_data('Andy', '01055553333')
storage_data('Dave', '01055553333')
storage_data('Trump', '01055553333')

### 1.5 실제 데이터를 저장하고 읽기

In [14]:
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [16]:
get_data('Andy')

'01055553333'

## 2. 자료 구조 해쉬 테이블의 장단점과 주요 용도
- 장점
  - 데이터 저장/읽기 속도가 빠르다. (검색 속도가 빠르다.)
  - 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉬움
- 단점 
  - 일반적으로 저장공간이 좀더 많이 필요하다.
  - **여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요함**
- 주요 용도
  - 검색이 많이 필요한 경우
  - 저장, 삭제, 읽기가 빈번한 경우
  - 캐쉬 구현시 (중복 확인이 쉽기 때문)

## 3. 충돌(Collision) 해결 알고리즘 (좋은 해쉬 함수 사용하기)
> 해쉬 테이블의 가장 큰 문제는 충돌(Collision)의 경우입니다.
> 이 문제를 충돌(Collision) 또는 해쉬 충돌(Hash Collision)이라고 부릅니다.

### 3.1 Chaining 기법
- **개방 해슁 또는 Open Hashing 기법** 중 하나: 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
- 충돌이 일어나면, 링크드 리스트라는 자료 구조를 사용해서, 링크드 리스트로 데이터를 추가로 뒤에 연결시켜서 저장하는 기법

### 3.2 Linear Probing 기법
- **폐쇄 해슁 또는 Close Hashing 기법** 중 하나: 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면, 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장하는 기법
  - 저장공간 활용도를 높이기 위한 기법

### 3.3 빈번한 충돌을 개선하는 기법
- 해쉬 함수을 재정의 및 해쉬 테이블 저장공간을 확대
- 예:
```python
hash_table = list([None for i in range(16)])

def hash_function(key):
    return key % 16
```

### 참고: 해쉬 함수와 키 생성 함수
- 파이썬의 hash() 함수는 실행할 때마다, 값이 달라질 수 있음
- 유명한 해쉬 함수들이 있음: SHA(Secure Hash Algorithm, 안전한 해시 알고리즘)
  - 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로, 해쉬 함수로 유용하게 활용 가능

#### SHA-1

In [5]:
import hashlib

data = 'test'.encode() # str를 바이트화 -> 특정 문자의 고유값 출력
print(data)

b'test'


In [7]:
hash_object = hashlib.sha1() # sha-1 해쉬 함수 생성
hash_object.update(data) # 데이터 입력 및 업데이트
print(hash_object)

<sha1 _hashlib.HASH object @ 0x000002D160033090>


In [8]:
hex_dig = hash_object.hexdigest() # 해쉬 값 추출(16진수)
print (hex_dig)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


#### SHA-256

In [12]:
import hashlib

data = 'test'.encode() # str를 바이트화 -> 특정 문자의 고유값 출력
print(data)

b'test'


In [13]:
hash_object = hashlib.sha256() # sha-256 해쉬 함수 생성
hash_object.update(data) # 데이터 입력 및 업데이트
print(hash_object)

<sha256 _hashlib.HASH object @ 0x000002D160033190>


In [14]:
hex_dig = hash_object.hexdigest() # 해쉬 값 추출(16진수)
print (hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
