# 1. 해쉬 테이블(Hash Table)

* 키(key)에 데이터(value)를 저장하는 데이터 구조
* 파이썬에서는 딕셔너리(dick) 타입이 해쉬 테이블의 예
* key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름
* 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

# 2. 알아둘 용어

* 해쉬(Hash): 임의 값을 고정 길이로 변환하는 것

* 비밀번호를 암호화 할 때 Hash를 많이 쓴다.

* 해쉬 테이블(Hash Table): 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조

* 해쉬 함수(Hashing Function): key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수

* 해쉬 값(Hash value) 또는 해쉬 주소(Hash Address): key를 해싱 함수로 연산해서 해쉬값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성 있게 찾음

* 슬롯(Slot): 한 개의 데이터를 저장 할 수 있는 공간

# 3. 간단한 해쉬 예

##3-1. 슬롯 만들기

In [220]:
# 리스트 컴프리핸션(List Comprehension)

hash_table = list([0 for i in range(10)])     # 0~9 까지 i에 하나씩 수를 대입 한다.
print(hash_table)


[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### 3-2. 해쉬 함수 만들기

* 해쉬 함수는 다양하게 생성 할 수 있으며, 가장 간단한 방법으로     Division법  (나누기를 통한 나머지 값을 사용하는 기법)을 사용함

In [221]:
def hash_func(key):
  return key % 10

### 3-3. 해쉬 테이블에 저장하기

* 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [222]:
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

In [223]:
# ord(): 문자의 ASCII(아스키)코드를 반환

print(ord('a'))
print(ord(data1[0]))
print(ord(data2[0]))
print(ord(data3[0]))
print(ord(data4[0]))

97
97
98
111
109


In [224]:
print(hash_func(ord(data1[0])))
print(hash_func(ord(data2[0])))
print(hash_func(ord(data3[0])))
print(hash_func(ord(data4[0])))

7
8
1
9


In [225]:
def storage_data(data, value):      # apple, 010-1111-1111
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

In [226]:
storage_data('apple', '010-1111-1111')

In [227]:
hash_table

[0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0]

In [228]:
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')

In [229]:
hash_table

[0,
 '010-3333-3333',
 0,
 0,
 0,
 0,
 0,
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444']

### 3-4. hash() 함수를 사용해서 해싱 함수를 수정하기

In [230]:
hash('apple')

3154181233390904698

In [231]:
hash('apple')

3154181233390904698

In [232]:
hash('banana')

-2739438432561028496

In [233]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 10

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [234]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [235]:
save_data('apple', '010-1111-1111')

In [236]:
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0]

In [237]:
read_data('apple')

'010-1111-1111'

# 4. 해쉬 테이블의 장단점

* 장점
    * 데이터 저장 및 읽기 속도가 빠름(검색 속도가 빠름)
    * 해쉬는 키에 대한 데이터가 있는지 확인 쉬움

* 단점
    * 저장 공간이 많이 필요함
    * 여러키에 해당하는 주소가 동일 할 경우 충돌을 해결하기 위한 별도의 자료 구조가 필요함

# 5. 충돌 해결 알고리즘

###5-1. Linear Probing 기법

* 해쉬 테이블 저장 공간 안에서 충돌 문제를 해결하는 방법

* 충돌이 일어날 경우에 Hash Address 다음 주소부터 맨 처음 나온 빈 공간에 데이터를 저장하는 기법

* 저장 공간의 활용도를 높이기 위한 방법

In [238]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [239]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:     # 충돌일 경우
      for index in range(hash_address, len(hash_table)):
        if hash_table[index] == 0:      # 자리가 비었다면
            hash_table[index] = [index_key, value]
            return
        elif hash_table[index][0] == index_key:   # 기존의 저장된 해쉬 번호와 현재 저장 할 해쉬번호가 같은 경우
            hash_table[index][1] = value
            return

  else:     # 충돌이 아닐 경우
     hash_table[hash_address] = [index_key, value]

def read_data(data):
  pass

In [240]:
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('cherry') % 8)
print(hash('banana') % 8)
print(hash('orange') % 8)
print(hash('melon') % 8)

2
6
3
0
5
1


In [241]:
save_data('avocado', '010-1111-1111')
save_data('orange', '010-2222-2222')

In [242]:
hash_table

[0,
 0,
 0,
 0,
 0,
 [8792606251187521749, '010-2222-2222'],
 [1908279676896244862, '010-1111-1111'],
 0,
 0,
 0]