# **1. 해쉬 테이블(Hash Table)**

* 키(key) 에 데이터(value) 를 저장하는 데이터 구조
* 파이썬에서는 해쉬를 별도로 구현할 필요가 없다 (딕셔너리 구조)
* 파이썬 딕셔너리 타입이 해쉬 테이블의 예
* key 를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빠르다
* 보통 배열을 통해 Hash Table 을 미리 생성 후에 사용한다.

# **2. 관련 용어**

* 해쉬(Hash) : 임의의 값을 고정 길이로 변환하는 것 (암호화하는 데에 사용)
* 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
* 해쉬 함수(Hashing Function) : key 에 대한 산술 연산을 통해 데이터 위치를 찾을 수 있는 함수
* 해쉬 값(Hash Value) 또는 해쉬 주소(Hash Address) : key 를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key 에 대한 데이터 위치를 일관성 있게 찾을 수 있다
* 슬롯(Slot) : 한 개의 데이터를 저장할 수 있는 공간

# **3. 간단한 해쉬의 예**

### **3-1. 해쉬 테이블 만들기**

In [None]:
hash_table = list([i for i in range(10)]) # for i in range(10) : i 와 같음
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### **3-2. 해쉬 함수 만들기**
* 다양한 해쉬 함수 고안 기법이 있으며, 가장 간단한 방법인 Division법(나누기를 통한 나머지 값을 사용하는 기법)을 사용

In [None]:
def hash_func(key) : 
  return key % 5

### **3-3. 해쉬 테이블에 저장하기**
* 데이터에 따라 필요시 key 생성 방법의 정의가 필요하다

In [None]:
data1, data2, data3, data4 = 'Apple', 'Banana', 'Orange', 'Melon'

# ord() : 문자의 ASCII 코드를 리턴
print(ord(data1[0]), ord(data2[0]), ord(data3[0]), ord(data4[0]))
print(ord(data1[0]), hash_func(ord(data1[0])))

65 66 79 77
65 0


In [None]:
# 해쉬 테이블에 값을 저장하는 방법
# data:value 와 같이 data 와 value 를 넣으면, 해당 data 에 대한 key 를 찾아서 대응하는 해쉬 주소에 value 를 저장하는 방법을 사용한다.

def storage_data(data, value) :
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

In [None]:
storage_data(data1, '010-1111-1111')
storage_data(data2, '010-2222-2222')
storage_data(data3, '010-3333-3333')

hash_table

['010-1111-1111', '010-2222-2222', 2, 3, '010-3333-3333', 5, 6, 7, 8, 9]

### **3-4. 해쉬 테이블에서 특정 주소의 데이터를 가져오는 함수 생성**

In [None]:
def get_data(data) : 
  key = ord(data[0])
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [None]:
print(get_data(data1))
print(get_data(data2))
print(get_data(data3))

010-1111-1111
010-2222-2222
010-3333-3333


# **4. 자료구조 해쉬 테이블의 장단점과 주요 용도**

* 장점
  1. 데이터의 저장 / 읽기 속도가 빠르다.(검색 속도가 빠름)
  2. 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉽다.

* 단점
  1. 일반적으로 저장공간이 타 자료구조보다 크다 (키/데이터 구조)
  2. 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요하다.

* 주요 용도
  1. 검색이 많이 필요한 작업
  2. 저장, 삭제, 읽기가 빈번한 작업
  3. 캐쉬의 구현시 (중복 확인이 용이하기 때문)

### **문제**
리스트 변수를 활용하여 해쉬 테이블 구현하기
* 해쉬 함수 : key % 8
* 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
def get_key(data) : 
  return hash(data)

def hash_func(key) : 
  hash_address = key % 8
  return hash_address

def save_data(data, value) :
  key = get_key(data)
  hash_address = hash_func(key)
  hash_table[hash_address] = value

def read_data(data) : 
  key = get_key(data)
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [None]:
save_data('Apple', '010-1111-1111')
print(hash_table)

[0, '010-1111-1111', 0, 0, 0, 0, 0, 0]


In [None]:
print(read_data('Apple'))

010-1111-1111


# **5. 충돌(Conllision) 해결 알고리즘**

* 해쉬 테이블의 가장 큰 문제는 충돌이 발생할 경우이다. 이 문제를 '충돌' 또는 '해쉬 충돌' 이라고 부른다.

### **5-1. 해쉬 충돌의 해결 - Linear Probling 기법**
* 폐쇄 해싱 또는 Close Hashing 기법 중 하나이다.
* 해쉬 테이블의 저장공간 안에서 충돌 문제를 해결하는 기법이다.
* 충돌이 일어날 경우 해당 hash address 의 다음 address 부터 맨 처음 나오는 빈 공간에 hash address 와 value 를 저장하는 기법이다.
> 저장공간의 활용도를 높이기 위한 해결방법이다.

In [None]:
# 해쉬 함수 : key % 8, 해쉬 키 생성 : hash(data)
hash_table = list([0 for i in range(8)])

def get_key(data) : 
  return hash(data)

def hash_func(key) : 
  hash_address = key % 8
  return hash_address

def save_data(data, value) :
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] == None or hash_table[hash_address] == 0 :
    hash_table[hash_address] = [key, value]
  else : 
    for index in range(hash_address, len(hash_table)) : # 해쉬 충돌이 일어날 경우 다른 빈 칸에 데이터를 저장
      if hash_table[index] == 0 :
        hash_table[index] = [key, value]
        return
      elif hash_table[index][0] == key :
        hash_table[index][1] = value
        return

def read_data(data) : 
  key = get_key(data)
  hash_address = hash_func(key)
  
  if hash_table[hash_address] != 0 :
    for index in range(hash_address, len(hash_table)) : 
      if hash_table[index] == 0 :
        return None
      elif hash_table[index][0] == key : 
        return hash_table[index][1]
  else : 
    return None

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')

print(hash_table)

[0, [-384760603096163679, '010-1111-1111'], 0, [5230523766091417187, '010-5555-5555'], [2280309484773165564, '010-3333-3333'], [919142027070555533, '010-4444-4444'], [5274823681104427158, '010-6666-6666'], [-3639199724551433657, '010-2222-2222']]


### **5-2. 해쉬 충돌의 해결 - 체이닝 기법**
* 개방 해쉬 또는 Open Hashing 기법 중 하나로, 해쉬 테이블의 저장 공간 외의 공간을 활용하는 방법이다.
* 충돌이 발생하면, 링크드 리스트 자료구조를 통해 링크드 리스트를 통해 원래 데이터 뒤에 추가로 데이터를 연결하여 저장한다.

In [None]:
hash_table = list([0 for i in range(8)])

In [None]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value) :
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] != 0 :
    for i in range(len(hash_table[hash_address])) :
      if hash_table[hash_address][i][0] == key : 
        hash_table[hash_address][i][1] = value
        return
    hash_table[hash_address].append([key, value])
  else : 
    hash_table[hash_address] = [[key, value]]

def read_data(data) : 
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] != 0 : 
    for i in range(len(hash_table[hash_address])) : 
      if hash_table[hash_address][i][0] == key :
        return hash_table[hash_address][i][1]
  else : 
    return None

In [None]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Mango', '010-7777-7777')

print(hash_table)

[0, [[-384760603096163679, '010-1111-1111']], 0, [[5230523766091417187, '010-5555-5555']], [[2280309484773165564, '010-3333-3333']], [[919142027070555533, '010-4444-4444'], [1798400220228235061, '010-7777-7777']], [[5274823681104427158, '010-6666-6666']], [[-3639199724551433657, '010-2222-2222']]]


In [None]:
read_data('Mango')

'010-7777-7777'

# **6. 해쉬 함수와 키 생성 함수**

* 파이썬의 hash() 함수는 실행할 때마다 값이 달라질 수 있다.
* 다양한 해쉬 함수들이 있다. : SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)
* 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용할 수 있다.
> 데이터의 위 변조 유무를 확인하여 정보의 무결성을 확인한다.

### **6-1. SHA-1**

In [None]:
import hashlib # 해쉬 라이브러리를 추가

data = 'test'.encode() 
print(data)
hash_object = hashlib.sha1()
print(hash_object)
hash_object.update(data)
hex_dig = hash_object.hexdigest() # 값을 16진수로 변경
print(int(hex_dig, 16)) # 값을 10진수로 변경하여 출력

b'test'
<sha1 HASH object @ 0x7fcbc6624e70>
966482230667555116936258103322711973649032657875


### **용량의 단위**
* 1bit = 0, 1  
* 1byte = 8bit   
* 1KB = 1024byte  
* 1MB = 1024KB  
* 1GB = 1024MB  
* 1TB = 1024GB  
* 1PB = 1024TB  

### **6-2. SHA-256**

* SHA 알고리즘의 한 종류로, 256bit 로 구성되어 64자리의 문자열을 반환한다.
* SHA-2 계열 중 하나이며, 블록체인에서 가장 많이 채택하여 사용하는 알고리즘이다.

In [None]:
import hashlib

data = 'test'.encode()
print(data)

hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)
print(int(hex_dig, 16))

b'test'
9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
72155939486846849509759369733266486982821795810448245423168957390607644363272


### **문제**
* Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수 sha256 해쉬 알고리즘을 사용하도록 변경한다.
  1. 해쉬 함수 : key % 8
  2. 해쉬 키 생성 : sha256(data)

In [107]:
hash_table = list([0 for i in range(8)])

In [108]:
import hashlib

def get_key(data) : 
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  key = int(hash_object.hexdigest(), 16)
  return key

def hash_func(key) : 
  hash_address = key % 8
  return hash_address

def save_data(data, value) :
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] != 0 :
    for i in range(len(hash_table[hash_address])) :
      if hash_table[hash_address][i] != None :
        if hash_table[hash_address][i][0] == key : 
          hash_table[hash_address][i][1] = value
          return
      else : 
        hash_table[hash_address][i] = [key, value]
        return
      hash_table[hash_address].append([key, value])
  else : 
    hash_table[hash_address] = [[key, value]]

def read_data(data) : 
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] != 0 : 
    for i in range(len(hash_table[hash_address])) : 
      if hash_table[hash_address][i] != None :
        if hash_table[hash_address][i][0] == key :
          return hash_table[hash_address][i][1]
  else : 
    return None

def delete(data) : 
  key = get_key(data)
  hash_address = hash_func(key)
  if hash_table[hash_address] != 0 : 
    for i in range(len(hash_table[hash_address])) : 
      if hash_table[hash_address][i] != None :
        if hash_table[hash_address][i][0] == key :
          hash_table[hash_address][i] = None
          return
  else : 
    return None

In [109]:
save_data('Apple', '010-1111-1111')
save_data('Banana', '010-2222-2222')
save_data('Orange', '010-3333-3333')
save_data('Melon', '010-4444-4444')
save_data('Cherry', '010-5555-5555')
save_data('Avocado', '010-6666-6666')
save_data('Mango', '010-7777-7777')

print(hash_table)

[0, 0, [[95063506675202283317579862718317088658287967517459529921831398794804179128906, '010-6666-6666'], [45382983829905934640258813133425047160971461206231907967689828757035053050146, '010-7777-7777']], 0, [[54686505552357168095244013475796350245248079890584968268485070734858851579572, '010-3333-3333'], [70157166800484542134666177367164414995932089051552086839541315275789079290988, '010-4444-4444']], [[109523279008939278616047261347108977533086424742121408290417254309279824788477, '010-1111-1111'], [112838237336158553127671121634874888053588558729646496404765748106067085037509, '010-2222-2222']], 0, [[77780328336655211595254319908198343419248042393856083971168548312521484609071, '010-5555-5555']]]


In [110]:
print(delete('Avocado'))
print(hash_table)

None
[0, 0, [None, [45382983829905934640258813133425047160971461206231907967689828757035053050146, '010-7777-7777']], 0, [[54686505552357168095244013475796350245248079890584968268485070734858851579572, '010-3333-3333'], [70157166800484542134666177367164414995932089051552086839541315275789079290988, '010-4444-4444']], [[109523279008939278616047261347108977533086424742121408290417254309279824788477, '010-1111-1111'], [112838237336158553127671121634874888053588558729646496404765748106067085037509, '010-2222-2222']], 0, [[77780328336655211595254319908198343419248042393856083971168548312521484609071, '010-5555-5555']]]


In [111]:
save_data('Avocado', '010-8888-8888')
hash_table

[0,
 0,
 [[95063506675202283317579862718317088658287967517459529921831398794804179128906,
   '010-8888-8888'],
  [45382983829905934640258813133425047160971461206231907967689828757035053050146,
   '010-7777-7777']],
 0,
 [[54686505552357168095244013475796350245248079890584968268485070734858851579572,
   '010-3333-3333'],
  [70157166800484542134666177367164414995932089051552086839541315275789079290988,
   '010-4444-4444']],
 [[109523279008939278616047261347108977533086424742121408290417254309279824788477,
   '010-1111-1111'],
  [112838237336158553127671121634874888053588558729646496404765748106067085037509,
   '010-2222-2222']],
 0,
 [[77780328336655211595254319908198343419248042393856083971168548312521484609071,
   '010-5555-5555']]]