# **1. 해쉬 테이블(Hash Table)**

* <font color = 'red'>파이썬에서는 해쉬를 별도 구현할 필요가 없음 </font>
* 파이썬의 딕셔너리(Dictionary) 타입이 해쉬 테이블의 예
* 키(Key)에 데이터(Value)를 저장하는 데이터 구조
* Key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빨라짐
* 보통 배열로 미리 Hash Table 사이즈만큼 생성 후에 사용

* 최근에는 많이 사용한다
* Hash Table로 이루어진 것이 많은 것중 하나는 블록체인(코인)이다

### **2. 알아둘 용어**


* 해쉬(Hash) : 임의 값을 고정 길이로 변환하는 것
* 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 테이터 구조
* 해쉬 함수(Hashing Function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
* 해쉬 값(Hash Value) 또는 해쉬 주소(Hash Address) : key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에서 해당 key에 대한 데이터 위치를 일관성 있게 찾을 수 있음
* 슬롯(Slot) : 한 개의 데이터를 저장할 수 있는 공간

### **3. 간단한 해쉬 예**

### **3-1. Hash Table 만들기**

In [None]:
hash_table = list([i for i in range(10)])
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### **3-2. 초간단 해쉬 함수 만들기**
* 다양한 해쉬 함수 고안 기법이 있으며, 가장 간단한 방식이 Division법(나누기를 통한 나머지 값을 사용하는 기법)

In [None]:
def hash_func(key):
  return key % 5

### **3-3. 해쉬 테이블에 저장하기**
* 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [None]:
data1 = 'Apple'
data2 = 'Banana'
data3 = 'Orange'
data4 = 'Melon'

## ord(): 문자의 ASCII(아스키)코드 리턴
print(ord(data1[0]),ord(data2[0]),ord(data3[0]))
print(ord(data1[0]), hash_func(ord(data1[0])))

65 66 79
65 0


In [None]:
# 해쉬 테이블에 값 저장 예
# data:value 와 같이 data와 value를 넣으면, 해당 data에 대한 key를 찾아서,
# 해당 key애 대응하는 해쉬주소에 value를 저장하는 예
def storage_data(data,value):
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

### 3-4. 해쉬 테이블에서 특정 주소의 데이터를 가져오는 함수 만들기

In [None]:
storage_data('Apple', '010-1111-1111')
storage_data('Banana', '010-2222-2222')
storage_data('Orange', '010-3333-3333')

### **3-5. 실제 데이터를 저장하고 읽어오기**

In [None]:
def get_data(data):
  key = ord(data[0])
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [None]:
get_data('Apple')

'010-1111-1111'

# **4. 자료구조 해쉬 테이블의 장단점과 주요 용도**
* 장점
  * 데이터 저장/읽기 속도가 빠름(검색 속도가 빠름)
  * 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉬움
* 단점
  * 일반적으로 저장공간이 많이 필요함
  * 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요함
* 주요 용도
  * 검색이 많이 필요한 경우
  * 저장, 삭제, 읽기가 빈번한 경우
  * 캐쉬 구현시(중복 확인이 쉽기 때문)


# **5. 실습**
문제. 리스트 변수를 활용해서 해쉬 테이블 구현하기
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)]) # 8칸 리스트를 생성한다. 이때 각 리스트에 0을 대입

def get_key(data): # 입력받은 key를 특정 hash 값으로 만들기
  return hash(data)

def hash_function(key):# hash값을 특정 주소에 들어갈 수 있게 0~7 중 하나로 만들기
  return key % 8

def save_data(data,value): # hash테이블에 저장하기
  hash_address = hash_function(get_key(data)) # 해쉬 주소를 구한다
  hash_table[hash_address] = value # 해당 해쉬 주소에 value넣기

def read_data(data):
  hash_address = hash_function(get_key(data)) # 해쉬 주소를 구하고
  return hash_table[hash_address] # 해당 해쉬 주소의 값을 리턴

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')

print(read_data('Apple'))
print(read_data('Banana'))

010-1111-1111
010-2222-2222


In [None]:
hash_table

['010-1111-1111', '010-2222-2222', 0, 0, 0, 0, 0, 0]

In [None]:
hash_table = list([0 for i in range(8)])

def get_key(data):
  return hash(data) # 고정된 값이다 / 고정된 길이

def hash_function(key):
  return key % 8 # 저장할 위치를 적절한 값으로 할당

def save_data(data,value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

  # key = ord(data[0]) # 첫글자로 저장공간을 나누게 된다 # 첫 글자를 아스키 코드로 변경
  # hash_address = hash_function(key) # 변환된 아스키 코드를 8로 나누어 나머지 값을 저장
  # hash_table[hash_address] = value # 나머지 값을 저장 위치로 삼아 테이블의 값을 넣는다

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

  # key = ord(data[0])
  # hash_address = hash_function(key)
  # return hash_table[hash_address] # 선택한 위치의 값을 가져온다




In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')

print(read_data('Apple'))
print(read_data('Banana'))

010-1111-1111
010-2222-2222


In [None]:
hash_table

['010-1111-1111', '010-2222-2222', 0, 0, 0, 0, 0, 0]

# **6. 충돌(Collision) 해결 알고리즘(좋은 해쉬 함수 사용하기)**

> 해쉬 테이블의 가장 큰 문제는 충돌(Collision)의 경우입니다. 이 문제는 충돌 또는 해쉬 충돌이라고 부릅니다.

### **6-1. Chaining 기법**
* 개방 해쉬 또는 Open Hashing 기법 중 하나
* 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
* 충돌이 일어나면, 링크드리스트라는 자료구조를 사용해서 링크드리스트로 데이터를 추가로 뒤에 연결시켜서 저장하는 기법


연습. 해쉬 테이블 코드에 Chaining 기법으로 충돌해결 코드를 추가하기
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)])
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data,value):
  hash_address = hash_function(get_key(data))
  if hash_table[hash_address] != 0 : # 만약 들어갈 위치에 값이 존재한다면
    for index in range(len(hash_table[hash_address])): # 해당 주소/위치에 몇개 있는 지 구하고 반복을 한다
      if hash_table[hash_address][index][0] == get_key(data): # index(= key의 hash값)가 넣어주는 값의 hash 값과 같다면 
        hash_table[hash_address][index][1] = value # value를 넣어준다 (아마도 이게 수정하는거 일수도)
        return # 반복문 마무리. 즉, 같은 hash(key)값이 있으면 반복문 종료
    hash_table[hash_address].append([get_key(data),value]) # 못찾았을때 새로 추가한다
  else:
    hash_table[hash_address] = [[get_key(data), value]] # hash_table의 값이 0일때 새로 추가한다.(key값과 value를 넣는다)
    
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
    return None
  else:
    return None

In [None]:
hash_table = list([0 for i in range(8)])

def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data,value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value]) 
  else:
    hash_table[hash_address] = [[index_key,value]]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0: #기존에 값이 있다는 뜻
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0]== index_key:
        return hash_table[hash_address][index][1]
    return None
  else:
    return None

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Watermelon', '010-7777-7777')

In [None]:
read_data('Watermelon')

'010-7777-7777'

In [None]:
hash_table

[[[8903318674360468352, '010-1111-1111']],
 [[-5791395319432430127, '010-2222-2222'],
  [8884236005580349641, '010-6666-6666']],
 [[5252569986750832274, '010-3333-3333']],
 0,
 [[3545508116387574332, '010-4444-4444'],
  [4675795183054471444, '010-7777-7777']],
 0,
 0,
 [[-6831224831415873265, '010-5555-5555']]]

### **6-2. Linear Probling 기법**

* 폐쇄 해싱 또는 Close Hashing 기법 중 하나
* 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
* 충돌이 일어나면, 해당 Hash address의 다음 address부터 맨 처음 나오는 빈 공간에 저장하는 기법
  * 저장공간 활용도를 높이기 위한 방법

연습. 위 연습의 해쉬 테이블 코드에 Linear Probling기법으로 충돌해결 코드를 추가하기
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [16]:
hash_table = list([0 for i in range(8)])

def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)): # 현재 주소부터, 끝까지
      if hash_table[index] == 0: 
        hash_table[index] = [index_key, value]
        return
      elif hash_table[index][0] == index_key: # 기존 값을 지우고 새로운 값을 넣어준다(수정)
      # key가 같을 경우 value를 수정해준다
        hash_table[index][1] = value
        return  
  else:
    hash_table[hash_address] = [index_key, value]
    
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0 :
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        return None
      elif hash_table[index][0] == index_key:
        return hash_table[index][1]
  else:
    return None

In [6]:
print(hash('apple')%8)
print(hash('animal')%8)
print(hash('banana')%8)
print(hash('orange')%8)
print(hash('melon')%8)
print(hash('cherry')%8)
print(hash('car')%8)
print(hash('watermelon')%8)


6
6
2
2
7
0
6
5


In [17]:
save_data('apple', '010-1111-1111')
save_data('animal', '010-2222-2222')
save_data('banana', '010-3333-3333')
save_data('orange', '010-4444-4444')
save_data('melon', '010-5555-5555')
save_data('cherry', '010-6666-6666')
save_data('car', '010-7777-7777')
save_data('watermelon', '010-8888-8888')

In [19]:
print(hash_table)

[[-5381233184281163152, '010-6666-6666'], 0, [7230045893748545146, '010-3333-3333'], [-8414235421907320510, '010-4444-4444'], 0, [4701781207056722461, '010-8888-8888'], [8280929392081601702, '010-1111-1111'], [-2356896748890448938, '010-2222-2222']]


### **6-3 비번한 충돌을 개선하는 기법**

* 해쉬 함수를 재정의 및 해쉬 테이블 저장공간을 확대

* 예
```python
hash_table = list([None for i in range(16)])
def hash_function(key):
return key % 16
```

# **7. 해쉬 함수와 키 생성 함수**

* 파이썬의 hash() 함수는 실행할 때마다 값이 달라질 수 있음
* 유명한 해쉬 함수들이 있음 : SHA(Secure Hash Algorithm, 안전한 해시 알고리즘)
  * 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용 가능

> 데이터의 위 변조 유무 확인(정보의 무결성 확인) , 중간에 누가 가로챘는지 확인 가능 
> 충돌 회피

특징
* 모든 글자는 정해진 길이가 같다.
* 단방향 계산
  * ab -> sha -1 로 가능하지만 되돌리지 못한다.

### **SHA-1**

In [25]:
import hashlib # SHA-1을 사용하기 위함 import

data = 'test'.encode()
print(data)

hash_object = hashlib.sha1()
print(hash_object)
hash_object.update(data)
print(hash_object.hexdigest())

hex_dig = hash_object.hexdigest() # 16진수로 표현
print(int(hex_dig,16)) # 10진수로 표현

b'test'
<sha1 HASH object @ 0x7f31ea8665d0>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


### **문제. Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수를 sha256 해쉬 알고리즘을 사용하도록 변경해보자**

1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)

In [62]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig,16)


def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0 :
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key,value]]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0 :
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
    return None
  else:
    return None

In [66]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Watermelon', '010-7777-7777')

In [67]:
read_data('Watermelon')

'010-7777-7777'

In [64]:
hash_table

[0,
 0,
 [[95063506675202283317579862718317088658287967517459529921831398794804179128906,
   '010-6666-6666'],
  [34061400545074040617299481376620140094071088267816993928200662810765188926218,
   '010-7777-7777']],
 0,
 [[54686505552357168095244013475796350245248079890584968268485070734858851579572,
   '010-3333-3333'],
  [70157166800484542134666177367164414995932089051552086839541315275789079290988,
   '010-4444-4444']],
 [[109523279008939278616047261347108977533086424742121408290417254309279824788477,
   '010-1111-1111'],
  [112838237336158553127671121634874888053588558729646496404765748106067085037509,
   '010-2222-2222']],
 0,
 [[77780328336655211595254319908198343419248042393856083971168548312521484609071,
   '010-5555-5555']]]

# **8.시간 복잡도**

* 일반적인 경우(Collision이 없는 경우)는 O(1)
* 최악의 경우(Collision이 모두 발생하는 경우)는 O(n)
> 해쉬 테이블의 경우, 일반적인 경우를 기대하고 만들기 때문에 시간 복잡도는 O(1)이라고 할 수 있음

검색에서 해쉬 테이블의 사용 예

* 16개의 <font color = 'red'>배열</font>에 데이터를 저장하고 검색할 때 O(n)
* 16개의 데이터 저장공간을 가진 <font color = 'red'>해쉬 테이블</font>에 데이터를 저장하고 검색할 때 O(1)