# 1. 해쉬 테이블(Hash Table)


- 키(key)에 데이터(value)를 저장하는 데이터 구조
- 파이썬에서는 딕셔너리(dict)타입이  해쉬 테이블의 예
- key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름
- 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

# 2. 알아둘 용어

- 해쉬(Hash) : 임의 값을 고정 길이로 변환하는 것
- 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
- 해쉬 함수(Hash Function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
- 해쉬 값(Hash value) 또는 해쉬 주소(Hash Address) : key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성 있게 찾음
- 슬롯(Slot) : 한 개의 데이터를 저장할 수 있는 공간

# 3. 간단한 해쉬 예

### 3-1. 슬롯 만들기

In [2]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### 3-2. 해쉬 함수 만들기
- 해쉬 함수는 다양하게 생성할 수 있으며, 가장 간단한 방법으로 Division법(나누기를 통한 나머지 값을 사용하는 기법)을 사용함

In [8]:
def hash_func(key):
  return key % 10

### 3-3. 해쉬 테이블에 저장하기
- 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [4]:
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

In [5]:
# ord() : 문자의 ASCII(아스키)코드를 반환
print(ord(data1[0]))
print(ord(data2[0]))
print(ord(data3[0]))
print(ord(data4[0]))

97
98
111
109


In [9]:
print(hash_func(ord(data1[0])))
print(hash_func(ord(data2[0])))
print(hash_func(ord(data3[0])))
print(hash_func(ord(data4[0])))

7
8
1
9


In [10]:
def storage_data(data, value):
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

In [11]:
storage_data('apple', '010-1111-1111')

In [12]:
hash_table

[0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0]

In [13]:
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')

In [14]:
hash_table

[0,
 '010-3333-3333',
 0,
 0,
 0,
 0,
 0,
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444']

### 3-4. 해쉬라는 이름의 함수를 사용해서 해쉬함수를 수정하기

In [15]:
hash('apple')

-2828983937969648919

In [16]:
hash('apple')

-2828983937969648919

In [17]:
hash('banana')

3634721296677914628

In [19]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 10

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [20]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [21]:
save_data('apple', '010-1111-1111')

In [22]:
read_data('apple')

'010-1111-1111'

# 4. 해쉬 테이블의 장단점

- 장점
  - 데이터 저장 및 읽기 속도가 빠름(검색 속도가 빠름)
  - 해쉬는 키에 대한 데이터가 있는지 확인 쉬움

- 단점
  - 저장공간이 많이 필요함
  - 여러키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요함

# 5. 충돌(Collision) 해결 알고리즘

### 5-1. Linear Probling 기법
- 폐쇄 해싱 또는 Close Hashing 기법 중 하나
- 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면 해당 hash address의 다음 address 부터 맨 처음 나오는 빈공간에 저장하는 기법
- 저장공간 활용도를 높이기 위한 방법

In [43]:
hash_table = list([0 for i in range(10)])

In [50]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        hash_table[index] = [index_key , value]
        return
      elif hash_table[index][0] == index_key:
        hash_table[index][1] = value
        return
  else:
    hash_table[hash_address] = [index_key, value]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        return None
      elif hash_table[index][0] == index_key:
        return hash_table[index][1]
  else:
    return None

In [40]:
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('cherry') % 8)
print(hash('banana') % 8)
print(hash('orange') % 8)
print(hash('melon') % 8)

1
1
2
4
6
5


In [51]:
# 같은 거 두개, 다른 거 하나 넣어보자!
hash_table = list([0 for i in range(10)])

save_data('apple', '010-1111-1111')
save_data('avocado', '010-2222-2222')
save_data('orange', '010-3333-3333')

In [56]:
hash_table

[0,
 [-2828983937969648919, '010-1111-1111'],
 [1976126650606880721, '수정됐쥬?'],
 0,
 0,
 0,
 [2697211901736542590, '010-3333-3333'],
 0,
 0,
 0]

In [55]:
read_data('avocado')

'수정됐쥬?'

In [54]:
save_data('avocado', '수정됐쥬?')