<a href="https://colab.research.google.com/github/JunYoung07/Python_AI_Project/blob/main/7_HashTable.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 해쉬 테이블(Hash Table)

* 키(key)에 데이터(value)를 저장하는 데이터 구조
* 파이썬에서는 딕셔너리(dic)타입이 해쉬 테이블의 예
* key를 통해서 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름
* 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후 사용

## 1-2. 용어

* **해쉬**(Hash): 임의의 값을 고정 길이로 변환
* **해쉬 테이블**(Hash Table): 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
* **해쉬 함수**(Hashing Function): key에 대한 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
* **해쉬 값**(Hash value) 혹은 **해쉬 주소**(Hash Address): key를 해싱 함수로 연산해서 해쉬 값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성있게 찾을 수 있다.
* **슬롯**(slot): 한 개의 데이터를 저장할 수 있는 공간

## 1-3. 간단한 해쉬 구현

In [None]:
# slot 생성하기
hash_table = [0 for _ in range(10)] # value가 저장될 공간이며 미리 크기를 지정
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [None]:
# hashing function 생성
def hash_func(key): # value가 저장될 slot내의 공간 지정
    return key % 10

In [None]:
# 해쉬 테이블 저장하기
# key의 생성 방법정의
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

# ord(): 문자의 ASCII코드 반환
ord(data1[0]), ord(data2[0]), ord(data3[0]), ord(data4[0])

(97, 98, 111, 109)

In [None]:
# hashing function에 적용
hash_func(ord(data1[0])), hash_func(ord(data2[0])), hash_func(ord(data3[0])), hash_func(ord(data4[0])) 

(7, 8, 1, 9)

In [None]:
# hashing function을 통해 반환받은 값을 slot에 저장
def storage_data(data, value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

In [None]:
storage_data('apple', '010-1111-1111')
hash_table

[0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0]

In [None]:
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')
hash_table

[0,
 '010-3333-3333',
 0,
 0,
 0,
 0,
 0,
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444']

In [None]:
# hash(): data의 고윳값 반환
hash('apple')

-5936525303010759111

In [None]:
def get_key(data):
    return hash(data)

def hash_func(key):
    return key % 10

def save_data(data, value):
    hash_address = hash_func(get_key(data))
    hash_table[hash_address] = value

def read_data(data):
    hash_address = hash_func(get_key(data))
    return hash_table[hash_address]

In [None]:
hash_table = [0 for _ in range(10)]

In [None]:
save_data('apple', '010-1111-1111')
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, '010-1111-1111']

In [None]:
read_data('apple')

'010-1111-1111'

# 2. 해쉬 테이블의 장단점

* **장점**
    * 데이터 저장 및 읽기 속도가 빠름(검색 속도가 빠름)
    * 해쉬는 키에 대한 데이터가 있는 지 확인 쉬움
* **단점**
    * 저장공간이 많이 필요함(키도 저장해야 하기 때문에)
    * 여러 키에 해당하는 주소가 동일한 경우 충돌을 해결하기 위한 별도의 자료구조가 필요하다

# 3. 충돌(Collision) 해결 알고리즘

### 3-1. Linear Probling 기법
* 폐쇄 해싱 또는 Close Hashing 기법 중 하나
* 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
* 충돌이 일어나면 해당 hash address의 다음 address부터 맨 처음 나오는 빈 공간에 저장하는 기법(충분한 `slot`을 미리 확보해 두는 것이 좋다)
* 저장공간 활용도를 높이기 위한 방법

In [None]:
# Linear Probling
# set list
hash_table = [0 for _ in range(10)]

In [None]:
# 해쉬 값 얻어내기
def get_key(data):
    return hash(data)

# Hashing function
def hash_function(key):
    return key % 8

# data 저장하기
def save_data(data, value):
    pass

In [1]:
# save data 구현하기 (Linear Probling기법)
def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_address)):   
            if hash_table[index] == 0:  # data가 0인 위치까지 찾아가서 데이터 저장
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key: # index_key가 겹치는 경우 value값을 바꿔준다.
                hash_table[index][1] = value
                return
    else:
        hash_table[hash_address] = [index_key, value]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)

    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else:
        return None

### 3-2. Chaining 기법
* 개방 해쉬 또는 Open hashing기법 중 하나
* 해쉬 테이블 저장공간 이외에 공간을 활용하는 방법
* 충돌이 일어나면 링크드 리스트 자료구조를 사용해서 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법

In [2]:
hash_table = list([0 for _ in range(10)])

In [None]:
# Chaining 기법 구현하기
def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 10

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)

    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][0] == index_key:
                hash_table[hash_address][1] = value
                return  
        hash_table[hash_address].append([index_key, value])
    
    else:
        hash_table[hash_address] = [[index_key, value]]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)

    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]

    else:
        return None

# 4. 해쉬 함수와 키 생성 함수

* SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)와 같은 유명한 해쉬 알고리즘도 많이 사용
* 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용할 수 있다.
* 다시 예전의 값으로 되돌릴 수 없다.(단방향)

### 4-1. SHA-1

* 임의의 길이의 입력데이터 최대 160비트(20바이트, 16진수 40자리)의 출력데이터(해시값)로 바꿈
* 파이썬의 `hash()`함수는 환경에 따라 값이 달라질 수 있다.
* 파이썬의 SHA시리즈는 환경이 달라도 값이 같다

### ✅컴퓨터의 용량 단위
* 1bit: 0 또는 1
* 1byte: 8bit
* 1KB: 1024byte
* 1MB: 1024KB
* 1GB: 1024MB
* 1TB: 1024GB
* 1PB: 1024TB

In [4]:
import hashlib

data = 'test'.encode()  # test 문자열을 바이트 단위로 변환
print(data)
hash_object=  hashlib.sha1()
hash_object.update(data)    # sha-1객체로 data를 읽어옴
hex_dig = hash_object.hexdigest()   # 16진수의 고정된 해쉬 값 발생
print(hex_dig)
print(int(hex_dig, 16)) # 16진수를 10진수로 변환

b'test'
a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
966482230667555116936258103322711973649032657875


### 4-2. SHA-256
* SHA 알고리즘의 한 종류로 256비트로 구성되어 64자리 문자열 반환
* SHA-2 계열 중 하나이며 블록체인에서 가장 많이 채택하여 사용

In [5]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)
print(int(hex_dig, 16))

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
72155939486846849509759369733266486982821795810448245423168957390607644363272


### 문제
Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성함수 sha256을 사용해 해쉬 알고리즘을 사용하도록 변경해보자  
1. 해쉬함수: key%8
2. 해쉬 키 생성: sha256

In [7]:
# 해쉬 라이브러리 임포트
import hashlib

# slot생성
hash_table = [0 for _ in range(8)]

# 키 값 생성
def get_key(data):
    hash_object = hashlib.sha256()
    hash_object.update(data.encode())
    hex_dig = hash_object.hexdigest()
    return int(hex_dig, 16)

def hash_function(key):
    return key%8

# Chaining 기법을 활용한 해쉬 데이터 저장
def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)

    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key, value])
    
    else:
        hash_table[hash_address] = [[index_key, value]]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)

    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
    else:
        return None

In [8]:
save_data("apple", 1)   # collision
save_data("banana", 2)  # collision
save_data("melon", 3)   # collision
save_data("carot", 4)
save_data("banana", 5)
hash_table

[0,
 0,
 0,
 [[26452929773915387181124022930352263286101059613432915788569047929437325971227,
   1]],
 0,
 0,
 [[81677505976092492256788526045794788656350341275302681754807117191827310239310,
   5],
  [75550941601306549953848416383947270363531252541484026999090159208690076013822,
   4]],
 [[75635856040252375081268883667212387409410230564410600651936135151777611054631,
   3]]]