# **1. 해쉬 테이블(Hash Table)**

* 키(key)에 데이터(value)를 저장하는 데이터 구조
* 파이썬에서는 해쉬를 별도 구현할 필요가 없음
* 파이썬 딕셔너리(Dictionary)타입이 해쉬 테이블의 예
* key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빨라짐
* 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

# **2. 알아둘 용어**

* 해쉬(Hash) : 임의 값을 고정 길이로 변환하는 것
* 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
* 해쉬 함수(Hashing Function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
* 해쉬 값(Hash vlue) 또는 해쉬 주소(Hash Address) : key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성 있게 찾을 수 있음
* 슬롯(Slot) : 한 개의 데이터를 저장할 수 있는 공간

# **3. 간단한 해쉬 예**

### **3-1. hash table 만들기**

In [None]:
hash_table = list([i for i in range(10)])
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### **3-2. 해쉬 함수 만들기**
* 다양한 해쉬 함수 고안 기법이 있으며, 가장 간단한 방법인 Division법(나누기를 통한 나머지 값을 사용하는 기법)을 사용

In [None]:
 def hash_func(key):
  return key % 5

### **3-3. 해쉬 테이블에 저장하기**
* 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [None]:
data1 = 'Apple'
data2 = 'Banana'
data3 = 'Orange'
data4 = 'Melon'

## ord() : 문자의 ASCII(아스키)코드 리턴
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(ord(data1[0]), hash_func(ord(data1[0])))

65 66 79
65 0


In [None]:
# 해쉬 테이블에 값을 저장하는 방법
# data:value 와 같이 data와 value를 넣으면, 해당 data에 대한 key를 찾아서 해당 key에 대응하는 해쉬주소에 value를 저장하는 방법
def storage_data(data, value):
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

### **3-4. 해쉬 테이블에서 특정 주소의 데이터를 가져오는 함수 만들기**

In [None]:
storage_data('Apple', '010-1111-1111')
storage_data('Banana', '010-2222-2222')
storage_data('Orange', '010-3333-3333')

### **3-5. 실제 데이터를 저장하고 읽어오기**

In [None]:
def get_data(data):
  key = ord(data[0])
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [None]:
get_data('Apple')

'010-1111-1111'

In [None]:
get_data('Banana')

'010-2222-2222'

In [None]:
get_data('Orange')

'010-3333-3333'

# **4. 자료구조 해쉬 테이블의 장단점과 주요 용도**

* 장점
  * 데이터 저장/읽기 속도가 빠름(검색 속도가 빠름)
  * 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉬움
* 단점
  * 일반적으로 저장공간이 많이 필요함
  * 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요함
* 주요 용도
  * 검색이 많이 필요한 경우
  * 저장, 삭제, 읽기가 빈번한 경우
  * 캐쉬 구현시(중복 확인이 쉽기 때문)

### **문제**
리스트 변수를 활용하여 해쉬 테이블 구현하기
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [None]:
save_data('Apple', '010-1111-1111')

In [None]:
print(read_data('Apple'))

010-1111-1111


# 5. 충돌(Collision) 해결 알고리즘

> 해쉬 테이블의 가장 큰 문제는 충돌(Collision)의 경우입니다. 이 문제는 충돌 또는 해쉬 충돌이라고 부릅니다.

### **5-1. Linear Probling 기법**
* 폐쇄 해싱 또는 Close Hashing 기법 중 하나
* 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
* 충돌이 일어나면 해당 hash address의 다음 address 부터 맨 처음 나오는 빈공간에 저장하는 기법
  * 저장공간 활용도를 높이기 위한 방법

### **문제**
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)])

In [None]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        hash_table[index] = [index_key, value]
        return
      elif hash_table[index][0] == index_key:
        hash_table[index][1] == value
        return
  else:
    hash_table[hash_address] = [index_key, value]
      
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        return None
      elif hash_table[index][0] == index_key:
        return hash_table[index][1]
  else:
    return None


In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')

In [None]:
print(hash('Apple') % 8)
print(hash('Banana') % 8)
print(hash('Orange') % 8)
print(hash('Melon') % 8)
print(hash('Cherry') % 8)
print(hash('Avocado') % 8)

1
6
2
6
4
2


In [None]:
read_data('Watermelon')

In [None]:
hash_table

[0,
 [2160326535380577697, '010-1111-1111'],
 [-5801102207333940670, '010-3333-3333'],
 [-600532097978018294, '010-6666-6666'],
 [1025306136601989556, '010-5555-5555'],
 0,
 [6763372263409521638, '010-2222-2222'],
 [-7322761691021430258, '010-4444-4444']]

### **5-2 Chaining 기법**
* 개방 해쉬 또는 Open Hashing 기법 중 하나
* 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
* 충돌이 일어나면, 링크드리스트라는 자료구조를 사용해서 링크드리스트로 데이터를 추가로 뒤에 연결시켜서 저장하는 기법

In [None]:
hash_table = list([0 for i in range(8)])

In [None]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else:
    return None

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Watermelon', '010-7777-7777')

In [None]:
print(hash('Apple') % 8)
print(hash('Banana') % 8)
print(hash('Orange') % 8)
print(hash('Melon') % 8)
print(hash('Cherry') % 8)
print(hash('Avocado') % 8)
print(hash('Watermelon') % 8)

0
3
3
0
4
7
1


In [None]:
hash_table

[[[-9026859131495334576, '010-1111-1111'],
  [-7959909263300417200, '010-4444-4444']],
 [[-9163110296098727471, '010-7777-7777']],
 0,
 [[-7342030675226478301, '010-2222-2222'],
  [-5437982740024721453, '010-3333-3333']],
 [[8742169404821699180, '010-5555-5555']],
 0,
 0,
 [[-7823977036130772033, '010-6666-6666']]]

In [None]:
read_data('Watermelon')

'010-7777-7777'

# **6. 해쉬 함수와 키 생성 함수**

* 파이썬의 hash() 함수는 실행할 때마다 값이 달라질 수 있음
* 유명한 해쉬 함수들이 있음 : SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)
  * 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용 가능
  
> 데이터의 위 변조 유무 확인(정보의 무결성 확인)

### **6-1. SHA-1**

In [None]:
import hashlib

data = 'test'.encode()
print(data)
hash_object = hashlib.sha1()
print(hash_object)
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig) # 16진수
print(int(hex_dig, 16)) # 10진수

b'test'
<sha1 HASH object @ 0x7fae64e2fde0>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


* 컴퓨터 용량 단뒤
- 1bit : 0 또는 1  
- 8bit : 1byte  
- 1024byte : 1KB  
- 1024KB = 1MB  
- 1024MB = 1GB  
- 1024GB = 1TB  
- 1024TB = 1PB  

### **6-2. SHA-256**
* SHA 알고리즘의 한 종류로 256비트로 구성되어 64자리 문자열을 반환
* SHA-2 계열 중 하나이며 블록체인에서 가장 많이 채택하여 사용

In [None]:
import hashlib

data = 'test'.encode()
print(data)
hash_object = hashlib.sha256()
print(hash_object)
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hash_object.hexdigest()) # 16진수
print(int(hex_dig, 16)) # 10진수

b'test'
<sha256 HASH object @ 0x7fae64702030>
9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
72155939486846849509759369733266486982821795810448245423168957390607644363272


### **문제.**
Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수 sha256 해쉬 알고리즘을 사용하도록 변경해보자.
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : sha256(data)

In [None]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig, 16)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]


def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else:
    return None

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Watermelon', '010-7777-7777')

In [None]:
print(read_data('Melon'))

010-4444-4444
