<a href="https://colab.research.google.com/github/heyoo807/TIL/blob/master/0707TIL_%ED%95%B4%EC%89%AC%ED%85%8C%EC%9D%B4%EB%B8%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **1. 해쉬 테이블(Hash Table)**
* 키(key)에 데이터(value)를 저장하는 데이터 구조
* 파이썬에서는 해쉬를 별도로 구현할 필요가 없음
* 파이썬 딕셔너리(Dictionary)타입이 해쉬 테이블의 예
* key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빨라짐
* 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

## **2. 알아둘 용어**
* 해쉬(Hash) : 임의 값을 고정 길이로 변환하는 것
* 해쉬 테이블(Hash Table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
* 해쉬 함수(Hash Function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
* 해쉬 값(Hash Value) 또는 해쉬 주소(Hash Address) : key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성있게 찾을 수 있음
* 슬롯(slot) : 한 개의 데이터를 저장할 수 있는 공간 

## **3. 간단한 해쉬 예 ***

### **3-1. hash table 만들기 ***

In [None]:
hash_table = list([i for i in range(10)])
print(hash_table)#[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### **3-2. 해쉬 함수 만들기**
* 해쉬 함수는 다양한 고안 기법이 잇으며 가장 간단한 방법인 Division법(나누기를 통한 나머지 값을 사용하는 기법)을 사용해보자 

In [None]:
def hash_func(key):
  return key % 5

### **3-3. 해쉬 테이블에 저장하기 ***
* 데이터에 따라 필요시 key 생성 방법 정의가 필요함 

In [None]:
data1 = 'orange'
data2 = 'banana'
data3 = 'apple'
data4 = 'melon'

#ord() : 문자의 ASCII(아스키)코드를 리턴
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(ord(data1[0]), hash_func(ord(data1[0])))

111 98 97
111 1


In [None]:
# 해쉬 테이블에 값을 저장하는 방법
# data : value와 같이 data와 value를 넣으면 해당 data에 대한 key를 찾아와 대응하는 해쉬주소에 value를 저장하는 방법
def storage_data(data, value):
  key = ord(data[0])
  hash_address= hash_func(key)
  hash_table[hash_address] = value

In [None]:
storage_data('apple', '010-1111-1111')
storage_data('banana', '010-2222-2222')
storage_data('melon', '010-3333-3333')

In [None]:
hash_table

[0, 1, '010-1111-1111', '010-2222-2222', '010-3333-3333', 5, 6, 7, 8, 9]

## **`문제.`**
실제 키를 전달받아 저장된 값을 읽어오는 함수를 작성해보자 

In [None]:
def get_data(data):
  key = ord(data[0])
  hash_address = hash_func(key)
  return hash_table[hash_address]

In [None]:
get_data('melon') # 010-3333-3333

'010-3333-3333'

### **`문제`**
* 리스트 변수를 활용해서 해쉬 테이블 구현하기
* 해쉬 함수 : key % 8
* 해쉬 키 생성 : hash(data)

In [None]:
hash_table = list([0 for i in range(8)])
print(hash_table) # [0, 0, 0, 0, 0, 0, 0, 0]

[0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
def get_key(data):
  return hash(data)
def hash_function(key):
  return key % 8
def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value
def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [None]:
save_data('yoohe', '010-2334-2721')

In [None]:
print(read_data('yoohe'))
print(hash_table)

010-2334-2721
[0, 0, 0, 0, '010-2334-2721', 0, 0, 0]


## **4. 자료구조 해쉬 테이블의 장단점 ***
`장점`
* 데이터 저장 및 읽는 속도가 빠름(검색 속도가 빠름)
* ✔️해쉬는 키에 대한 데이터가 있는지(중복)확인이 쉽다


`단점`
  * ✔️ 일반적으로 저장 공간이 많이 필요함
  * 여러 키에 해당하는 주소가 동일한 경우에는 충돌을 해결하기 위한 별도의 자료구조가 필요함 





## **5. 충돌(Collision) 해결 알고리즘**
* 해쉬 테이블의 가장 큰 문제는 충돌 

### **5-1. Linear Probling 기법**
* 패쇄 해싱 또는 Close Hashing 기법 중 하나
* 해쉬 테이블 저장공간안에서 충돌 문제를 해결하는 기법
* 충돌이 일어나면 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장하는 기법 
  * 저장공간 활용도를 높이기 위한 방법

`문제`

1. 해쉬 함수 : key % 8
2. 해쉬 키 생성 : hash(data)


In [None]:
hash_table = list([0 for i in range(8)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
def get_key(data):
  return hash(data)
def hash_function(key):
  return key % 8
def save_data(data, value):
  index_key = get_key(data) # 해쉬 값
  hash_address = hash_function(index_key) # 슬롯 값

  if hash_table[hash_address] != 0: # 해쉬 테이블의 hash_address번째 방에 값이 이미 있는 경우 ( 충돌 )
    for index in range(hash_address, len(hash_table)): # 충돌난 슬롯값방부터 해쉬테이블의 길이-1번째방(마지막 방)에 충돌 데이터 저장시킴(패쇄 해싱)
      if hash_table[index] == 0: # 슬롯값 충돌이 안일어나는 방일 경우 
        hash_table[index] = [index_key, value] 
        return
      elif hash_table[index][0] == index_key: # 해쉬값 충돌 ( 슬롯값 충돌 x )
       hash_table[index][1] = value # value 값 저장 (대체)
       return
  else: # hash_table[hash_address] == 0 # 충돌 x
    hash_table[hash_address] = [index_key, value]
def read_data(data):
  index_key = get_key(data) # 해쉬 값 
  hash_address = hash_function(index_key) # 슬롯 값 

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        return None
      elif hash_table[index][0] == index_key: # 해쉬 값 충돌 ( 슬롯 값 충돌 x )
        return hash_table[index][1]
  else:
    return None

      

In [None]:
save_data('apple', '010-1111-1111')
save_data('melon', '010-2222-1111')
save_data('strawberry', '010-3333-1111')
save_data('banana', '010-4444-1111')
save_data('cherry', '010-5555-1111')
save_data('avocado', '010-5535-1111')


In [None]:
print(hash('apple') % 8) # 0
print(hash('melon') % 8) # 2
print(hash('strawberry') % 8) # 0 # 충돌 # hash_table[1] 에 데이터 저장됨
print(hash('banana') % 8) # 3 
print(hash('cherry') % 8) # 4
print(hash('avocado') % 8)# 7

0
2
0
3
4
7


In [None]:
print(hash_table)

[[8114879098474639800, '010-1111-1111'], [-7186945913740097832, '010-3333-1111'], [3389589749606392754, '010-2222-1111'], [8796228039074526467, '010-4444-1111'], [1865074164882410132, '010-5555-1111'], 0, 0, [7121879683497874151, '010-5535-1111']]


In [None]:
read_data('strawberry') # 010-5535-1111 , avocado의 value로 대체 

'010-5535-1111'

In [None]:
read_data('avocado') # 010-5535-1111

'010-5535-1111'

### **5-2. Chaining 기법**
* 개방 해쉬 또는 Open hashing 기법 중 하나
* 해쉬 테이블 저장공간 외의 공간을 활용하는 방법
* 충돌이 일어나면 링크드 리스트 자료구조를 사용하여 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 방법 

In [None]:
hash_table = list([0 for i in range(8)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
def get_key(data):
  return hash(data)
def hash_function(key):
  return key % 8
def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0: # 충돌
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key: # 해쉬 값 충돌 o (슬롯 값 충돌 x)
        hash_table[hash_address][index][1] = value # value값 저장(대체)
        return
    hash_table[hash_address].append([index_key, value])
  else: # 충돌 x 
    hash_table[hash_address] = [[index_key, value]] # 충돌이 날 경우에는 해당 슬롯에 key,value를 리스트형태로 append시키기 때문에 충돌이 안나는 경우도 [[]]
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else:
    return None      


In [None]:
save_data('apple', '010-1111-1111')
save_data('melon', '010-2222-1111')
save_data('strawberry', '010-3333-1111')
save_data('banana', '010-4444-1111')
save_data('cherry', '010-5555-1111')
save_data('avocado', '010-5535-1111')


In [None]:
print(hash('apple') % 8) # 0
print(hash('melon') % 8) # 2
print(hash('strawberry') % 8) # 0 # 충돌 # hash_table[1] 에 데이터 저장됨
print(hash('banana') % 8) # 3 
print(hash('cherry') % 8) # 4
print(hash('avocado') % 8)# 7

0
2
0
3
4
7


In [None]:
hash_table

[[[8114879098474639800, '010-1111-1111'],
  [-7186945913740097832, '010-3333-1111']],
 0,
 [[3389589749606392754, '010-2222-1111']],
 [[8796228039074526467, '010-4444-1111']],
 [[1865074164882410132, '010-5555-1111']],
 0,
 0,
 [[7121879683497874151, '010-5535-1111']]]

In [None]:
read_data('strawberry')

'010-3333-1111'

## **6. 해쉬 함수와 키 생성 함수 ***
* 파이썬의 hash()함수는 실행할 때마다 값이 달라질 수 있음
* SHA(Secure Hash Algorithm , 안전한 해쉬 알고리즘)와 같은 유명한 해쉬 알고리즘이 있음
* 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용 가능 

### **6-1. SHA-1**

In [None]:
import hashlib

data = 'test'.encode()
print(data) # b'test'
hash_object = hashlib.sha1()
print(hash_object)
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)# 16진수로 고정된 해쉬값(20바이트)
print(int(hex_dig, 16)) #10진수롤 고정된 해쉬 값 

b'test'
<sha1 HASH object @ 0x7f268df5f7e0>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


✔️컴퓨터의 용량단위
* 1bit : 0또는 1
* 8bit : 1byte
* 1024byte : 1KB ( 2**13bit)
* 1024KB : 1MB (2 ** 23bit)
* 1024MB : 1GB ( 2 ** 33 bit)
* 1024GB : 1TB ( 2 ** 43bit)
* 1024TB : 1PB ( 2** 53bit)

### **6-2. SHA-256**
* SHA 알고리즘의 한 종류로 256비트로 구성되어 64자리 문자열을 반환
* SHA-2 계열 중 하나이며 블록체인에서 가장 많이 채택하여 사용

In [None]:
import hashlib
data = 'test'.encode()
print(data)
hash_object = hashlib.sha256()
print(hash_object)
hash_object.update(data)
hex_idg = hash_object.hexdigest()
print(hex_dig) # 16진수로 고정된 해쉬 값
print(int(hex_dig, 16)) # 10진수로 고정된 해쉬 값

b'test'
<sha256 HASH object @ 0x7f2682c10450>
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


`문제`

Chaining 기번을 적용한 해쉬 테이블 코드에 키 생성 함수 sha256 해쉬 알고리즘을 사용하도록 변경해보자

1. 해쉬함수 : key % 8
2. 해쉬 키 생성 : sha256(data)



In [None]:
import hashlib 

hash_table = list([0 for i in range(8)])

def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig, 16)
def hash_function(key):
  return key % 8
def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        hash_table[hash_address][index][1] = value
        return
    hash_table[hash_address].append([index_key, value])
  else:
    hash_table[hash_address] = [[index_key, value]]
def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
  else: 
     return None

In [None]:
save_data('apple', '010-1111-1111')
save_data('melon', '010-2222-1111')
save_data('strawberry', '010-3333-1111')
save_data('banana', '010-4444-1111')
save_data('cherry', '010-5555-1111')
save_data('avocado', '010-5535-1111')


In [None]:
print(hash_function(get_key('apple')))
print(hash_function(get_key('melon')))
print(hash_function(get_key('strawberry')))
print(hash_function(get_key('banana')))
print(hash_function(get_key('cherry')))
print(hash_function(get_key('avocado')))


3
7
2
6
6
0


In [None]:
hash_table

[[[112982323934352589425180049383729697652692462823327605015335539780563025432096,
   '010-5535-1111']],
 0,
 [[42721475397702198029768379268255707372727786854895682575627338675230957469594,
   '010-3333-1111']],
 [[26452929773915387181124022930352263286101059613432915788569047929437325971227,
   '010-1111-1111']],
 0,
 0,
 [[81677505976092492256788526045794788656350341275302681754807117191827310239310,
   '010-4444-1111'],
  [20663375971449343567437890939728808532354865817022289781333181590448322644526,
   '010-5555-1111']],
 [[75635856040252375081268883667212387409410230564410600651936135151777611054631,
   '010-2222-1111']]]

In [None]:
read_data('cherry')

'010-5555-1111'