#1. 해쉬 테이블 Hash Table

* 키(key)에 데이터(value)를 저장하는 구조
* 파이썬에서는 딕셔너리(dick)타입이 해쉬 테이블의 예
* key를 통해서 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름 
* 보통 배열로 미리 Hash Table 사이즈만큼 생성 후에 사용 
* 파이썬에서는 해쉬를 별도 구현할 필요가 없음 

#2. 알아둘 용어

* 해쉬 Hash: 임의 값을 고정 길이로 변환하는 것 
* 해쉬 테이블 Hash Table: 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조 
* 해쉬 함수 Hashing Function: key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수 
* 슬롯 Slot: 한개의 데이터를 저장할 수 있는 공간 
* 노트: 해쉬 함수를 통해 데이터의 인덱스가 나옴, 그러면 키값의 데이터가 그 인덱스로 들어가서 저장; 충돌이 되면 저장이 안됨 (나중에 나옴)

#3. 간단한 해쉬 예시

###3-1. Hash Table 만들기

In [32]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


###3-2. Hashing Function  만들기
* 해쉬 함수는 다양하게 생성할 수 있으며, 가장 간단한 방법으로 Division (나누기를 통한 나머지 값을 사용하는 기법) 사용함 

In [33]:
def hash_func(key):
  return key % 5

### 3-3. 해쉬 테이블에 저장하기
* 데이터에 따라 필요시 key 생성 방법 정의가 필요함 

In [34]:
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

# ord() : 문자의 ASCII(아스키) 코드를 반환
print(ord(data1[0]), ord(data2[0]), ord(data3[0]), ord(data4[0]))

97 98 111 109


In [35]:
print(hash_func(ord(data1[0])))
print(hash_func(ord(data2[0])))
print(hash_func(ord(data3[0])))
print(hash_func(ord(data4[0])))

2
3
1
4


In [36]:
def storage_data(data, value):  # apple
  key = ord(data[0])  # 2
  hash_address = hash_func(key)  # 2
  hash_table[hash_address] = value 


In [37]:
storage_data('apple', '010-1111-1111')

In [38]:
hash_table

[0, 0, '010-1111-1111', 0, 0, 0, 0, 0, 0, 0]

In [39]:
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')

In [40]:
hash_table

[0,
 '010-3333-3333',
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444',
 0,
 0,
 0,
 0,
 0]

In [41]:
def get_data(data):
  key = ord(data[0])
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [42]:
get_data('apple')

'010-1111-1111'

In [43]:
get_data('melon')

'010-4444-4444'

###3-4. 해쉬 함수를 사용해서 해싱함수를 수정하기

In [44]:
hash('apple')

-8147667908545490339

In [45]:
hash('banana')

6072589207173706183

In [46]:
hash('apple')

-8147667908545490339

In [47]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8 

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]
   

In [48]:
hash_table = list([0 for i in range(11)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [49]:
save_data('apple', '010-1111-1111')

In [50]:
read_data('apple')

'010-1111-1111'

#4. 자료구조 해쉬 테이블의 장단점 

* 장점 
  * 데이터 저장 및 읽기 속도가 빠름 (검색 속도가 빠름)
  * 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉬움 
* 단점
  * 일반적으로 저장공간이 많이 필요함 (미리 예측해서 저장 공간을 만들어야함 like array 배열)
  * 여러키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요함 

#5. 충돌 Collision 해결 알고리즘 

###5-1. Linear Probling 기법 
* 폐쇄 해싱 또는 Close Hashing 기법 중 하나 
* 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법 
* 충돌이 일어나면 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장하는 기법 
* 저장공간 활용도를 높이기 위한 방법 

In [51]:
hash_table = list([0 for i in range(10)])

In [52]:
def get_key(data):
  return hash(data)


def hash_function(key):
  return key % 8


def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:  # 충돌; 기본값이 0이기 때문에 이미 데이터가 들어있느냐
    for index in range(hash_address, len(hash_table)):  # if hash_address가 4가 나왔다면 after hash_function, 4부터 끝까지
      if hash_table[index] == 0:
        hash_table[index] = [index_key, value]  # 키랑 같이 저장되어야하므로 
        return 
      elif hash_table[index][0] == index_key:  # 키가 일치한다면 
        hash_table[index][1] = value  # value값 업데이트
        return 
  else:  # 충돌이 아닐때 
    hash_table[hash_address] = [index_key, value]


def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:  # 넣는 이유는 for loop을 썼기 때문 
        return None
      elif hash_table[index][0] == index_key:
        return hash_table[index][1]
  else:
    return None 



In [53]:
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('cherry') % 8)
print(hash('banana') % 8)
print(hash('orange') % 8)
print(hash('melon') % 8)
print(hash('grape') % 8)

5
2
2
7
5
3
3


In [54]:
save_data('apple', '010-1111-1111')
save_data('avocado', '010-2222-2222')
save_data('cherry', '010-3333-3333')
save_data('banana', '010-4444-4444')
save_data('orange', '010-5555-5555')
save_data('melon', '010-6666-6666')
save_data('grape', '010-7777-7777')

In [55]:
hash_table

[0,
 0,
 [-7476763640514603702, '010-2222-2222'],
 [-3931034641226118302, '010-3333-3333'],
 [2289383031431811947, '010-6666-6666'],
 [-8147667908545490339, '010-1111-1111'],
 [3217730409604766589, '010-5555-5555'],
 [6072589207173706183, '010-4444-4444'],
 [-3134785077810348405, '010-7777-7777'],
 0]

In [56]:
read_data('orange')

'010-5555-5555'

###5-2. Chaining 기법 
* 개방 해쉬 또는 Open Hashing 기법 중 하나
* 해쉬 테이블 저장공간 외의 공간을 활용하는 방법 
* 충돌이 일어나면 링크드 리스트 자료구조를 사용해서 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법 

In [57]:
hash_table = list([0 for i in range(8)])

In [58]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):  # 이차원으로 형성이 되어있기 때문에 그 슬롯 안의 리스트 길이를 찾는것 
      # 같은 키 값 업데이트
      if hash_table[hash_address][index][0] == index_key:   #[4][0][0]은 슬롯의 첫번째 인덱스의 키값
        hash_table[hash_address][index][1] = value
        return
    # 같은 키 값이 아닐때 이차원의 형태로 추가 
    hash_table[hash_address].append([index_key, value])
  else: # hash_table[hash_address] == 0 ; 아예 새로운 데이터를 이차원을 만들어서 추가 
    hash_table[hash_address] = [[index_key, value]]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else:
    return None

In [59]:
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('cherry') % 8)
print(hash('banana') % 8)
print(hash('orange') % 8)
print(hash('melon') % 8)


5
2
2
7
5
3


In [60]:
save_data('apple', '010-1111-1111')
save_data('avocado', '010-2222-2222')
save_data('cherry', '010-3333-3333')
save_data('banana', '010-4444-4444')
save_data('orange', '010-5555-5555')
save_data('melon', '010-6666-6666')

In [61]:
hash_table

[0,
 0,
 [[-7476763640514603702, '010-2222-2222'],
  [-3931034641226118302, '010-3333-3333']],
 [[2289383031431811947, '010-6666-6666']],
 0,
 [[-8147667908545490339, '010-1111-1111'],
  [3217730409604766589, '010-5555-5555']],
 0,
 [[6072589207173706183, '010-4444-4444']]]

In [62]:
read_data('orange')

'010-5555-5555'

#6. 해쉬 함수와 키 생성 함수

* 파이썬의 hash() 함수는 값이 달라질 수 있음
* SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)와 같은 유명한 해쉬 알고리즘을 사용
* 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용 가능 

###6-1. SHA-1
* 임의의 길이의 입력데이터 최대 160비트(2^64) 또는 20바이트의 출력 데이터(해시값)로 바꿈

### 컴퓨터의 용량 단위
* 1bit : 0 또는 1
* 8bit : 1byte
* 1024byte = 1KB
* 1024KB = 1MB
* 1024MB = 1GB
* 1024GB = 1TB
* 1024 TB = 1PB

In [63]:
import hashlib

data = 'test'.encode() # text 문자열을 바이트 단위로 변환
print(data) #b'test'

hash_object = hashlib.sha1()  # sha1을 쓸 수 있는 객체를 만듬
print(hash_object)

hash_object.update(data) # sha-1 객체로 data를 읽어옴 
hex_dig = hash_object.hexdigest() # 16진수로 고정된 해쉬 값(20바이트)
print(hex_dig)
print(int(hex_dig, 16)) # 16진수로 고정된 해쉬값을 10진수의 고정된 해쉬값으로 변환 


b'test'
<sha1 HASH object @ 0x7f93825d2720>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


###6-2. SHA-256
* SHA 알고리즘의 한 종류로 256비트로 구성되어 64자리 문자열을 반환
* SHA-2 계열중 하나로 블록체인에서 가장 만ㅎ이 채택하여 사용 

In [64]:
import hashlib

data = 'test'.encode() 
print(data) 

hash_object = hashlib.sha256()  
print(hash_object)

hash_object.update(data)  
hex_dig = hash_object.hexdigest() 
print(hex_dig)
print(int(hex_dig, 16))  


b'test'
<sha256 HASH object @ 0x7f93825d2840>
9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
72155939486846849509759369733266486982821795810448245423168957390607644363272


###과제
Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수 sha256 해쉬 알고리즘을 사용하도록 변경해보자
1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : sha256(data) 

In [68]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig, 16)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else:
    return None

In [69]:
save_data('apple', '010-1111-1111')
save_data('avocado', '010-2222-2222')
save_data('cherry', '010-3333-3333')
save_data('banana', '010-4444-4444')
save_data('orange', '010-5555-5555')
save_data('melon', '010-6666-6666')

In [71]:
hash_table

[[[112982323934352589425180049383729697652692462823327605015335539780563025432096,
   '010-2222-2222']],
 0,
 0,
 [[26452929773915387181124022930352263286101059613432915788569047929437325971227,
   '010-1111-1111']],
 [[12347729439854570657921908745856170563904168537595263672036856469419797331348,
   '010-5555-5555']],
 0,
 [[20663375971449343567437890939728808532354865817022289781333181590448322644526,
   '010-3333-3333'],
  [81677505976092492256788526045794788656350341275302681754807117191827310239310,
   '010-4444-4444']],
 [[75635856040252375081268883667212387409410230564410600651936135151777611054631,
   '010-6666-6666']]]

In [72]:
read_data('cherry')

'010-3333-3333'