# **1. 해쉬 테이블(Hash Table)**
- 키(key)에 데이터(value)를 저장하는 데이터 구조
- 파이썬에서는 딕셔너리(dict)타입이 해쉬 테이블의 예
- key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름
- 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

# **2. 알아둘 용어**
- 해쉬(Hash) : 임의 값을 고정 길이로 변환하는 것
- 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
- 해쉬 함수(Hashing Function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
- 해쉬 값(Hash Value) 또는 해쉬 주소(Hash Address) : key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성 있게 찾음
- 슬롯(Slot) : 한 개의 데이터를 저장할 수 있는 공간

# **3. 간단한 해쉬 예**

### 3-1. 슬롯 만들기

In [None]:
# 해쉬 테이블은 사이즈를 미리 설정을 해야한다.
# 파이썬의 list 를 활용하여 구현을 해볼텐데, list 는 미리 사이즈를 정해놓을 수 없다.
# 그렇기에 전부 0을 채워넣은 list 를 하나 만들어, 사이즈를 정했다고 생각하자.
hash_table = [0 for i in range(10)]
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### 3-2. 해쉬 함수 만들기
- 해쉬 함수는 다양하게 생성할 수 있으며, 가장 간단한 방법으로 Division법(나누기를 통한 나머지 값을 사용하는 기법)을 사용함

In [None]:
def hash_func(key):
  return key % 10

### 3-3. 해쉬 테이블에 저장하기
- 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [None]:
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

In [None]:
# ord() : 문자의 ASCII(아스키)코드를 반환
print(ord(data1[0]))
print(ord(data2[0]))
print(ord(data3[0]))
print(ord(data4[0]))

97
98
111
109


In [None]:
# 정의 끝!
print(hash_func(ord(data1[0])))
print(hash_func(ord(data2[0])))
print(hash_func(ord(data3[0])))
print(hash_func(ord(data4[0])))

7
8
1
9


In [None]:
# 해쉬 테이블에 데이터를 저장할 함수 구현
# data : 딕셔너리에서 key 를 담당하는 친구
# value : 실제 저장될 값
def storage_data(data, value):
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

In [None]:
storage_data('apple', '010-1111-1111')

In [None]:
# 저장이 잘 되었는지 확인!
hash_table

[0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0]

In [None]:
# 나머지들도 해보자!
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')

In [None]:
hash_table

[0,
 '010-3333-3333',
 0,
 0,
 0,
 0,
 0,
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444']

### 3-4. hash()를 사용해서 해싱함수를 수정하기

In [None]:
hash('apple')

3050231815577742734

In [None]:
hash('apple')

3050231815577742734

In [None]:
hash('banana')

-550105854880429242

In [None]:
# 함수를 분리시켜서 해쉬테이블에서 사용할 함수들을 만들어보자.

# 해싱 함수에서 사용할 key를 구해주는 함수
def get_key(data):
  return hash(data)

# 해싱 함수
def hash_func(key):
  return key % 10

# 해쉬 테이블에 데이터 저장 함수
def save_data(data, value):
  hash_address = hash_func(get_key(data))
  hash_table[hash_address] = value

# 저장할 때 이용한 data 를 가지고 value 찾기
def read_data(data):
  hash_address = hash_func(get_key(data))
  return hash_table[hash_address]

In [None]:
hash_table = [0 for i in range(10)]
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
save_data('apple', '010-1111-1111')

In [None]:
hash_table

[0, 0, 0, 0, '010-1111-1111', 0, 0, 0, 0, 0]

In [None]:
read_data('apple')

'010-1111-1111'

# **4. 해쉬 테이블의 장단점**
- 장점
  - 데이터 저장 및 읽기 속도가 빠름(검색 속도가 빠름)
  - 해쉬는 키에 대한 데이터가 있는지 확인 쉬움
- 단점
  - 저장공간이 많이 필요함
  - 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요함

# **5. 충돌(Collision)해결 알고리즘**

### 5-1. Linear Probling 기법
- 패쇄 해싱 또는 Close Hashing 기법 중 하나
- 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면 해당 hash address의 다음 address 부터 맨 처음 나오는 빈공간에 저장하는 기법
- 저장공간 활용도를 높이기 위한 방법

In [None]:
hash_table = [0 for i in range(10)]

In [None]:
# key 생성 함수
def get_key(data):
  return hash(data)

# 해싱 함수
# Linear 기법을 사용하기 위해서 저장공간을 미리 확보!
def hash_function(key):
  return key % 8

# key 를 같이 저장할 것이다.
# 여기에서 말하는 key 는 딕셔너리의 key 가 아니라
# key 생성함수를 통해서 나온 key
def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        hash_table[index] = [index_key, value]
        return
      # 키 값이 동일할 때 값을 수정하는 부분
      elif hash_table[index][0] == index_key:
        hash_table[index][1] = value
        return
  else:
    hash_table[hash_address] = [index_key, value]

In [None]:
# 해쉬코드는 컴퓨터 환경마다 다르다!
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('mango') % 8)
print(hash('peach') % 8)
print(hash('grape') % 8)
print(hash('mandarin') % 8)
print(hash('plum') % 8)
print(hash('cherry') % 8)

6
6
5
7
5
5
3
2


In [None]:
# 테스트 해보자!
# 같은 거 2개, 다른 거 하나, 이렇게 넣어서 테스트 해보자.
save_data('grape', '포도')
save_data('apple', '사과')
save_data('mandarin', '귤')

In [None]:
hash_table

[0,
 0,
 0,
 0,
 0,
 [392909901775844429, '포도'],
 [3050231815577742734, '사과'],
 [-7658579056952759587, '귤'],
 0,
 0]

In [None]:
# 값이 수정이 잘 되는지 테스트!
save_data('mandarin', '밀감')

In [None]:
hash_table

[0,
 0,
 0,
 0,
 0,
 [392909901775844429, '포도'],
 [3050231815577742734, '사과'],
 [-7658579056952759587, '밀감'],
 0,
 0]

### 5-2. Chaining 기법
- 개방 해쉬 또는 Open hashing 기법 중 하나
- 해쉬 테이블 저장공간 외의 공간을 활용하는 방법
- 충돌이 일어나면 링크드리스트 자료구조를 사용해서 링크드리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법

In [None]:
hash_table = [0 for i in range(10)]

In [None]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 10 # 개방 해쉬라서 여유공간은 필요 없다.

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      # if 문에 들어온다는 거는, 같은 key를 찾았다.
      # 수정을 하자!
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    # 같은 주소에서 동일한 키 값이 없을 때
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]

In [None]:
# 해쉬코드는 컴퓨터 환경마다 다르다!
print(hash('apple') % 10)
print(hash('avocado') % 10)
print(hash('mango') % 10)
print(hash('peach') % 10)
print(hash('grape') % 10)
print(hash('mandarin') % 10)
print(hash('plum') % 10)
print(hash('cherry') % 10)

4
6
1
5
9
3
7
6


In [None]:
save_data('avocado', '아보카도')
save_data('cherry', '체리')
save_data('mango', '망고')

In [None]:
hash_table

[0,
 [[-5017431080116105539, '망고']],
 0,
 0,
 0,
 0,
 [[5958981751956594926, '아보카도'], [-232686687936337894, '체리']],
 0,
 0,
 0]

In [None]:
save_data('avocado', '아하보카하도')

In [None]:
hash_table

[0,
 [[-5017431080116105539, '망고']],
 0,
 0,
 0,
 0,
 [[5958981751956594926, '아하보카하도'], [-232686687936337894, '체리']],
 0,
 0,
 0]

# **6. 해쉬 함수와 키 생성 함수**


- SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)와 같은 유명한 해쉬 알고리즘도 많이 사용
- 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용할 수 있음

### 6-1. SHA-1
- 임의의 길이의 입력데이터 최대 160비트(20바이트, 16진수 40자리)의 출력데이터(해쉬값)로 바꿈
- hash() 는 환경마다 다르지만, SHA 알고리즘은 같다.

In [6]:
import hashlib

data = 'test'.encode() # test 문자열을 바이트 단위로 변환
print(data)

# 객체 생성
hash_object = hashlib.sha1()

# 진짜 객체인지 확인!
print(hash_object)

hash_object.update(data) # sha-1 객체로 data를 읽어옴.

# 16진수로 고정된 해쉬 값을 반환
hex_dig = hash_object.hexdigest()
print(hex_dig)

print(int(hex_dig, 16)) # 10진수로도 확인 가능

b'test'
<sha1 _hashlib.HASH object @ 0x7a0b1756d9b0>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


### 6-2. SHA-256
- SHA 알고리즘의 한 종류로 256비트로 구성되어 64자리 16진수를 반환
- SHA-2 계열 중 하나이며 블록체인에서 가장 많이 채택하여 사용

In [7]:
import hashlib

data = 'test'.encode() # test 문자열을 바이트 단위로 변환
print(data)

# 객체 생성
hash_object = hashlib.sha256()

# 진짜 객체인지 확인!
print(hash_object)

hash_object.update(data) # sha-1 객체로 data를 읽어옴.

# 16진수로 고정된 해쉬 값을 반환
hex_dig = hash_object.hexdigest()
print(hex_dig)

print(int(hex_dig, 16)) # 10진수로도 확인 가능

b'test'
<sha256 _hashlib.HASH object @ 0x7a0b1756c950>
9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
72155939486846849509759369733266486982821795810448245423168957390607644363272


In [8]:
len('9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08')

64

### 문제
Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성함수 sha256 해쉬 알고리즘을 사용하도록 변경해보자!

1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : sha256(data)

In [19]:
import hashlib

hash_table = [0 for i in range(8)]

def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig, 16)

def hash_function(key):
  return key % 8 # 개방 해쉬라서 여유공간은 필요 없다.

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      # if 문에 들어온다는 거는, 같은 key를 찾았다.
      # 수정을 하자!
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    # 같은 주소에서 동일한 키 값이 없을 때
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]

# 검색을 만들어볼거에요.
# data 는 키!
# 해당되는 value 를 반환!
# 해당 키가 존재하지 않는다면, None을 리턴!
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
    return None
  else :
    return None

In [20]:
save_data('avocado', '아보카도')
save_data('cherry', '체리')
save_data('mango', '망고')
save_data('watermelon', '수박')
save_data('plum', '자두')
save_data('mandarin', '귤')
save_data('apple', '사과')
save_data('dragonfruit', '용과')

In [21]:
hash_table

[[[112982323934352589425180049383729697652692462823327605015335539780563025432096,
   '아보카도']],
 [[1991494340870429572933965181128288346989137370143672561058253511752148351897,
   '자두']],
 [[14079049550523009522197534283836751518057140421577246998348307763415047954970,
   '용과']],
 [[26452929773915387181124022930352263286101059613432915788569047929437325971227,
   '사과']],
 [[47079322422595043057025504805937541588366792656978037450293233633534836720788,
   '망고'],
  [13751394747325042728683714330672087873930663326788351706746786501647511314236,
   '귤']],
 [[22451029959500023697349311161502053596486845789188983750261842906988548178525,
   '수박']],
 [[20663375971449343567437890939728808532354865817022289781333181590448322644526,
   '체리']],
 0]

In [28]:
print(read_data('orange'))
print(read_data('apple'))
print(read_data('cherry'))
print(read_data('plum'))

6분까지!

None
사과
체리
자두
