### HashTable Practice
 ##### 연습1: 리스트 변수를 활용해서 해쉬 테이블 구현
    1. 해쉬함수: key % 8
    2. 해쉬 키 생성: hash(data)

In [9]:
hashArray = list([0 for i in range(8)])

def getHashKey(data):
    return hash(data)

def hashFn(key):
    return key % 8

def putData(data, value):
    hashAddress = hashFn(getHashKey(data))
    hashArray[hashAddress] = value
    
def getData(data):
    hashAddress = hashFn(getHashKey(data))
    return hashArray[hashAddress]


    
    

In [24]:
putData('Wave', '01020111234')
putData('Andy', '01012311231')

hashArray

[0, '01012311231', 0, 0, 0, '01020111234', 0, 0]

In [25]:
daveKey = getHashKey('Wave')
print(daveKey)
print(daveKey % 8)
hashFn(daveKey)

5225634184296444037
5


5

In [26]:
andyKey = getHashKey('Andy')
print(andyKey)
print(andyKey % 8)
hashFn(andyKey)

-4260073676374688847
1


1

#### 충돌(Collision) 해결 알고리즘(좋은 해쉬 함수 사용하기)

##### 1. chaining 기법
- 개방해슁 또는 open hashing 기법 중 하나: 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
- 충돌이 일어나면, 링크드 리스트라는 자료 구조를 사용해서, 링크드 리스트로 데이터를 추가로 뒤에 연결시켜서 저장하는 기법



In [20]:
chaining_array = list([0 for index in range(8)])

def get_hashkey(data):
    return hash(data)

def hash_function(data):
    return data % 8

def save_hash(data, value):
    index_key = get_hashkey(data)
    hash_address = hash_function(index_key)
    if chaining_array[hash_address] != 0:
        for index in range(len(chaining_array[hash_address])):
            if chaining_array[hash_address][index][0] == index_key:
                chaining_array[hash_address][index][1] = value
                return
        chaining_array[hash_address].append([index_key, value])
    else:
        chaining_array[hash_address] = [[index_key, value]]

def read_hash(data):
    index_key = get_hashkey(data)
    hash_address = hash_function(index_key)
    if chaining_array[hash_address] != 0:
        for index in range(len(chaining_array[hash_address])):
            if chaining_array[hash_address][index][0] == index_key:
                return chaining_array[hash_address][index][1]
        return None
    else:
        return None

In [22]:
save_hash('eddy', '890927')
save_hash('eddy', '890922')
save_hash('eron', '890123')
save_hash('dd', '890111')
save_hash('data', '890122')


print(chaining_array)

print(read_hash('eddy'))
print(read_hash('dd'))

[[[-8247301982513183760, '890123']], 0, 0, 0, 0, [[-3841240208031506067, '890922']], 0, [[-1111678819682534793, '890111'], [3973008023227413903, '890122']]]
890922
890111


##### 2. linear probing 기법
- 폐쇄 해슁 또는 close hashing 기법 중 하나: 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면, 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장한는 기법

In [28]:
linear_array = list([0 for index in range(8)])

def get_key(data):
    return hash(data)

def hash_function(data):
    return data % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if linear_array[hash_address] != 0:
        for index in range(hash_address, len(linear_array)):
            if linear_array[index] == 0:
                linear_array[index] = [index_key, value]
                return
            elif linear_array[index][0] == index_key:
                linear_array[index][1] = value
                return
    else:
        linear_array[hash_address] = [index_key, value]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if linear_array[hash_address] == 0:
        return None
    elif linear_array[hash_address][0] == index_key:
        return linear_array[hash_address][1]
    else:
        for index in range(hash_address, len(linear_array)):
            if linear_array[index][0] == index_key:
                return linear_array[index][1]
        

In [30]:
save_data('eddy', '890927')
save_data('eddy', '890922')
save_data('eron', '890123')
save_data('dd', '890111')
save_data('data', '890122')


print(linear_array)

print(read_data('eddy'))
print(read_data('dd'))
print(read_data('dfasdfasd'))

[[-8247301982513183760, '890123'], 0, 0, 0, 0, [-3841240208031506067, '890922'], 0, [-1111678819682534793, '890111']]
890922
890111
None


##### 3. 빈번한 충돌을 개선하는 방법
- 해쉬함수를 재정의 및 해쉬 테이블 저장공간을 확대 -> "해쉬테이블은 공간과 시간을 맞바꾼다"

##### cf. 해쉬함수와 키 생성 함수
 - 파이썬의 hash() 함수는 실행할 때마다 값이 달라질 수 있는 문제점있다.
 - 유명한 해쉬함수(ex. SHA(Secure Hash Algorithm) 사용하여 보완 가능
   - 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로, 해쉬 함수로 유용하게 활용 가능
   
 ##### SHA-1

In [3]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha1()
hash_object.update(data)
hex_dig = hash_object.hexdigest()

print(hex_dig)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


   ##### SHA-256

In [4]:
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()

print(hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


#### 연습문제: SHA 활용한 hashtable 만들기(chaning 기법)

In [30]:
import hashlib

hash_table = list([0 for index in range(8)])

def getSHA(value):
    data = value.encode()
    hash_object = hashlib.sha256()
    hash_object.update(data)
    
    return hash_object.hexdigest()

def hash_function(key):
    return int(key, 16) % 8

def get(key):
    key_sha = getSHA(key)
    key_index = hash_function(key_sha)
    if hash_table[key_index] != 0:
        for index in range(len(hash_table[key_index])):
            if hash_table[key_index][index][0] == key_sha:
                return hash_table[key_index][index][1]
        return None
    else:
        return None

def put(key, data):
    key_sha = getSHA(key)
    key_index = hash_function(key_sha)
    if hash_table[key_index] == 0:
        hash_table[key_index] = [[key_sha, data]]
    else:
        for index in range(len(hash_table[key_index])):
            if hash_table[key_index][index][0] == key_sha:
                hash_table[key_index][index][1] = data
        hash_table[key_index].append([key_sha, data])

            
put('gil', '01011111111')
put('woo', '01022222222')
put('dd', '01033333333')
put('dh', '01044444444')
put('da', '01055555555')


print(get('woo'))
print(get('gil'))

hash_table

01022222222
01011111111


[0,
 0,
 [['3944783bc199f6d262054408115175aece74baa066e56f69f7900f4c4f261092',
   '01044444444'],
  ['aa58b21b01d6b8a99c1a5856962dbac36c758a79dc0a77c2e013ce2c39ecdc8a',
   '01055555555']],
 [['4c75ea444d4c645ae142ec0fc4159b01d5973c9d7d6c4e97602137a3791f6873',
   '01011111111'],
  ['9b7ecc6eeb83abf9ade10fe38865df4499be3568dcc507ae2ec3b44989cb0093',
   '01033333333']],
 0,
 0,
 0,
 [['b260539511e1699624d952b041c76d1853d0fe066f42decade1d08e92acb250f',
   '01022222222']]]

#### 시간 복잡도
- 일반적인 경우(collision이 없는 경우): O(1)
- 최악의 경우(collision이 모두 발생하는 경우): O(n)
=> 해쉬테이블의 경우 일반적인 경우를 기대하고 만들기 때문에, 시간복잡도는 O(1)이라고 말할 수 있다.

##### 검색에서 해쉬 테이블의 사용 예
 - 16개의 "배열"에 데이터를 저장하고, 검색할 때 O(n)
 - 16개의 데이터 저장공간을 가진 위의 "해쉬 테이블"에 데이터를 저장하고, 검색할때 O(1)