# Hash Table
- Key & Value의 구조
- ex) python : Dictionary
- 저장 & 검색에 있어서 탁월

### 용어
- Hash : 임의 값을 고정 길이로 변환
- Hash table : Key 값의 연산에 의해 직접 접근이 가능한 구조
- Hashing Function : Key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수

### Python에서는 별도로 구현 필요 X ( Dictionary 이용 )

In [11]:
# empty slot
hash_table = list([0 for i in range(10)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [12]:
# hash function
def hash_func(key):
    return key % 5 

hash_func(100), hash_func(23)

(0, 3)

In [13]:
# values
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'

In [14]:
# ord : ascii code
# A, D, T의 ascii code
ord(data1[0]), ord(data2[0]),  ord(data3[0])

(65, 68, 84)

In [15]:
ord(data1[0])%5, ord(data2[0])%5,  ord(data3[0])%5

(0, 3, 4)

In [16]:
hash_func(ord(data1[0])), hash_func(ord(data2[0])), hash_func(ord(data3[0]))

(0, 3, 4)

In [17]:
def storage_data(data,value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

In [18]:
storage_data('Lee','01087688472')
storage_data('Kim','01087688471')
storage_data('Park','01087688470')

In [19]:
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [20]:
get_data('Lee')

'01087688472'

## 장.단점
- 장점 : 빠른 검색 속도
- 단점 : 저장 공간 많이 필요 & 여러 키에 해당하는 주소가 동일할 경우 -> 별도의 자료구조 필요!
- 주요 용도 : 검색이 많이 필요한 경우 & 저장/삭제/읽기가 빈번한 경우

## 연습
1) 해쉬 함수 : key % 8

2) 해쉬 키 생성 : hash(data)

In [21]:
hash('Lee')

2948681348586733730

In [28]:
hash_table = list([0 for i in range(8)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0]

In [29]:
def get_key(data):
    return hash(data)

def hash_function(key):
    return key%8

def save_data(data,value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]

In [30]:
save_data('Dave','01020203040')
save_data('Lee','01020204525')
read_data('Dave')

'01020203040'

In [31]:
hash_table

[0, 0, '01020204525', 0, 0, 0, 0, '01020203040']

## 해쉬 충돌 알고리즘
- Hash Collision

### 1) Chaining 기법
- Open Hashing 기법 : 해쉬 테이블 저장공간 외의 공간을 활용! 
- 충돌 시, linked list 자료구조를 이용!

### 2) Linear Probing 기법
- Close hashing : 해쉬 테이블 저장공간 안에서 해결!
- 빈 공간을 찾아서, 그 곳에 데이터를 저장 ( 저장공간 활용도를 높임 )

### 연습

### 1) Chaining 기법

In [33]:
def get_key(data):
    return hash(data)

def hash_function(key):
    return key%8

def save_data(data,value):
    index_key = get_key(data) # index_key값을 hash_address와 함께 저장! 중복 방지
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0: # if 중복
        for index in range(len(hash_table[hash_address])) :
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key,value])
    else :
        hash_table[hash_address] = [[index_key,value]]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else :
        return None

In [46]:
hash_table = list([0 for i in range(8)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0]

In [47]:
save_data('Dfg','121023010')
save_data('David','121023018')

In [48]:
hash('Dfg')%8, hash('David')%8

(5, 5)

In [49]:
hash_table

[0,
 0,
 0,
 0,
 0,
 [[3909732276477110485, '121023010'], [-956496040784358299, '121023018']],
 0,
 0]

### 2) Linear Probing 기법
- 별도 공간 X, 빈 공간 찾아서!

In [50]:
def get_key(data):
    return hash(data)

def hash_function(key):
    return key%8

def save_data(data,value):
    index_key = get_key(data) # index_key값을 hash_address와 함께 저장! 중복 방지
    hash_address = hash_function(index_key)
    # [ 중복 O ]
    if hash_table[hash_address] != 0: 
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0: # 빈 공간 발견
                hash_table[index] = [index_key,value]
                return
            elif hash_table[index][0] == index_key : # 덮어쓰기 (update)
                hash_table[index][1] = value
                return
    # [ 중복 X ]
    else :
        hash_table[hash_address] = [index_key, value]
        
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address,len(hash_table)):
            if hash_table[index] == 0 :
                return None            
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]        
    else:
        return None

In [51]:
hash_table = list([0 for i in range(8)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0]

In [52]:
save_data('Dfg','121023010')
save_data('David','121023018')

In [53]:
hash('Dfg')%8, hash('David')%8

(5, 5)

In [54]:
hash_table

[0,
 0,
 0,
 0,
 0,
 [3909732276477110485, '121023010'],
 [-956496040784358299, '121023018'],
 0]

## 빈번한 충돌 개선
- slot 늘려! hash function 재정의 

In [55]:
hash_table = list([None for i in range(16)])

def hash_function(key):
    return key%16

## 추가

Python의 hash()함수는 실행할 때마다 다른 값을 가질 수 있음 -> 유명한 해쉬함수 사용
- SHA-1
- SHA-256

SHA-1

In [58]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha1()
hash_object.update(b'test')

hex_dig = hash_object.hexdigest() # 16진수로 변환
print(hex_dig)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


SHA-256

In [59]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha256()
hash_object.update(b'test')

hex_dig = hash_object.hexdigest() # 16진수로 변환
print(hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


In [60]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
    hash_object = hashlib.sha256()
    hash_object.update(data.encode())
    hex_dig = hash_object.hexdigest()    
    return int(hex_dig,16) # 16진수를 10진수로

def hash_function(key):
    return key%8

def save_data(data,value):
    index_key = get_key(data) # index_key값을 hash_address와 함께 저장! 중복 방지
    hash_address = hash_function(index_key)
    # [ 중복 O ]
    if hash_table[hash_address] != 0: 
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0: # 빈 공간 발견
                hash_table[index] = [index_key,value]
                return
            elif hash_tsable[index][0] == index_key : # 덮어쓰기 (update)
                hash_table[index][1] = value
                return
    # [ 중복 X ]
    else :
        hash_table[hash_address] = [index_key, value]
        
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address,len(hash_table)):
            if hash_table[index] == 0 :
                return None            
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]        
    else:
        return None

In [61]:
print(get_key('db')%8)
print(get_key('da')%8)
print(get_key('dh')%8)

1
2
2


In [62]:
save_data('da','32041353')
save_data('dh','32041353')
read_data('dh')

'32041353'