# Hash Table

키(Key)에 데이터(Value)를 저장하는 데이터 구조

key를 가지고 바로 데이터를 꺼냄

공간과 탐색 시간을 맞바꾸는 기법

# 용어
해쉬 : 임의을 값을 고정길이로 변환

해쉬테이블 : 데이터를 저장할 공간, 공간마다 해당하는 키값이 존재해 바로 접근이 가능 -> 해쉬값과 슬롯이 존재

해싱함수 : ket에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수

해쉬값 / 해쉬 주소 : key를 해싱함수로 연산하면 해쉬값을 얻는다. 

슬롯 : 한개의 데이터를 저장할 수 있는 공간


# 간단한 해쉬 테이블
- 파이썬 리스트

In [2]:
hash_table = list([0 for i in range(10)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

- 해쉬 함수 만들기

나누기를 통한 나머지 값을 사용

In [5]:
def hash_func(key):
    return key % 5

- 데이터를 테이블에 저장

In [7]:
data1 = 'Zoo'
data2 = 'Da'
data3 = 'Sa'
## ord() : 문자의 아스키 코드 리턴
print(hash_func(ord(data1[0])),hash_func(ord(data2[0])),hash_func(ord(data3[0])))

0 3 3


In [8]:
def save_data(data, value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

In [10]:
save_data('Zoo','1234')
save_data('Da','5678')
save_data('Tim','9080')

- 데이터를 가져오기

In [11]:
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [12]:
get_data('Da')

'5678'

# 해쉬 테이블의 장단점

- 검색속도가 엄청 빠르다, 중복확인이 쉽다.
- 저장공간이 좀 더 많이 필요하다, 키값이나 해쉬값이 같을때 핸들링할 방법이 필요하다... 테이블이 좀 커지면 충돌이 덜 나겠네
- 용도 : 검색이 만이 필요한 경우, 저장 / 삭제 / 읽기가 빈번, 캐쉬 구현시

리스트 변수를 활용해 해쉬테이블 구현

In [14]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)
def hash_func(key):
    return key%8
def save_data(data, value):
    hash_address = hash_func(get_key(data))
    hash_table[hash_address] = value
def read_data(data):
    hash_address = hash_func(get_key(data))
    return hash_table[hash_address]

In [17]:
save_data('Zoo','123123')
save_data('Kim','123321')

In [18]:
hash_table

[0, 0, 0, 0, 0, '123321', 0, '123123']

In [19]:
read_data('Zoo')

'123123'

## 단점

- 같은 키값을 가질때 추가적인 자료구조가 필요 -> 해쉬테이블이 좀 크면 좋지 않을까 -> 저장공간 더필요 ㅠ 

# 연습1 : 리스트 변수를 활요해서 해쉬테이블 구현해보기

In [20]:
hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)
    
def hash_function(key):
    return hash(data) % 8

def save_data(data, value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value

def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]


In [16]:
save_data('Dave','0102030200')
save_data('Andy','01033232200')

In [17]:
read_data('Dave')

'0102030200'

In [18]:
hash_table

['01033232200', 0, 0, 0, 0, '0102030200', 0, 0]

# 6 충돌해결 알고리즘

## 6.1 Chaining 기법


- 오픈 해싱 기법 
    - 해시테이블 이외에 또다른 공간을 만든다
    - 링크드 리스트를 사용하면 되겠네
    


## 연습2 Chaining으로 충돌 해결

In [33]:
hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)
    
def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key,value])
    else:
        hash_table[hash_address] = [[index_key,value]]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else :
        return None

In [34]:
save_data('DDD','12345678')
save_data('Dc', '11111111')
read_data('Dc')

'11111111'

In [35]:
hash_table

[0,
 0,
 0,
 0,
 0,
 0,
 0,
 [[2799856149074442775, '12345678'], [3774247168490877071, '11111111']]]

## 6.2 Linear Probing 기법

- 클로즈 해싱 기법
    - 해시테이블 안에서 충돌을 해결한다.
    - 저장공간의 활용도를 높일 수 있다.

# 구현

In [36]:
hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)
    
def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                hash_table[index][1] = value
                return
    else:
        hash_table[hash_address] = [index_key, value]
        
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else :
        return None

In [50]:
save_data('4', '222222')
hash_table

[0,
 [3688390076738397273, '12345678'],
 0,
 [-776406430634966589, '11111111'],
 [-7887152147326471180, '11111111'],
 [505188198949731835, '12345678'],
 [-8923223503631377994, '11111111'],
 [2799856149074442775, '12345678']]

## 빈번한 충돌을 개선하는 방법
- 해쉬함수 재정의, 공간 확대 (공간과 시간을 맞바꾸는 방법)

- 유명한 해쉬 함수들 SHA(안전한 해시 알고리즘) - 어떤 데이터도 유일한 고정값 리턴

## SHA-1

In [52]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha1()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


## SHA-256

In [53]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


SHA 256을 사용하여 체이닝 구현

In [59]:
import hashlib
hash_table = list([0 for i in range(8)])
def get_key(data):
    hash_object = hashlib.sha256()
    hash_object.update(data.encode())
    hex_dig = hash_object.hexdigest()
    return int(hex_dig,16)
    
def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key,value])
    else:
        hash_table[hash_address] = [[index_key,value]]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else :
        return None

In [60]:
print(get_key('db')%8)
print(get_key('da')%8)
print(get_key('dh')%8)

1
2
2


In [61]:
save_data('db','123')
save_data('da','233')
read_data('da')

'233'

In [62]:
hash_table

[0,
 [[56023447740326973930934189836995694929976025384421001605890631798736143110161,
   '123']],
 [[77049896039817716104633086125973601665927154587286664305423403838091909979274,
   '233']],
 0,
 0,
 0,
 0,
 0]

시간복잡도
- 충돌이 없는 경우 O(1)
- 최악의 경우 O(n)

해쉬테이블의 경우 시간복잡도는 O(1)이라고 할 수 있다