### Chaining 기법
- 개방 해슁 또는 Open Hashing 기법 중 하나 : 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
- 충돌이 일어나면, 링크드 리스트라는 자료 구조를 사용해서, 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법
    - 해쉬 함수 : key % 8
    - 해쉬 키 생성: hash(data)

In [8]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0 :         # 초기에 default 값을 0으로 지정했으므로(1 line)
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key, value])
    else:
        hash_table[hash_address] = list([index_key, value])

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hasdh_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else :
        return None
    

### Linear Probing 기법
- 폐쇄 해슁 또는 Close Hashing 기법 중 하나 : 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면, 해당 hash address의 다음 address부터 맨 처음 나오는 빈 공간에 저장하는 기법
    - 저장공간 활용도를 높이기 위한 기법

In [1]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0 :         # 초기에 default 값을 0으로 지정했으므로(1 line)
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                hash_table[index][1] = value
                return
    else :
        hash_table[hash_address] = [index_key, value]
    # chaining 기법과 달리 다음 주소의 빈 공간에 key와 함께 value값 삽입
        
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else:
        return None

### 빈번한 충돌을 개선하는 기법
- 해쉬 함수를 재정의 및 해쉬 테이블 저장공간을 확대
- 가장 일반적인 방법
- 예

In [1]:
hash_table = list([None for i in range(16)])

def hash_function(key) :
    return key % 16

### 참고 : 해쉬 함수와 키 생성 함수
- 파이썬의 hash() 함수는 실행할 때마다, 값이 달라질 수 있음
- 유명한 해쉬 함수들이 있음 : SHA(Secure Hash Algorithm, 안전한 해시 알고리즘)
    - 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로, 해쉬 함수로 유용하게 활용 가능

##### SHA-1

In [2]:
import hashlib

data = 'test'.encode()                 # string 데이터를 인코딩 한 것(byte로 바꿔준 것)
hash_object = hashlib.sha1()
hash_object.update(data)
hex_dig = hash_object.hexdigest()        # hexdigest() : 값을 16진수로 다시 추출하는 함수
print(hex_dig)


a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


##### SHA-256

In [3]:
import hashlib

data = 'test'.encode()                 # string 데이터를 인코딩 한 것(byte로 바꿔준 것)
hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()        # hexdigest() : 값을 16진수로 다시 추출하는 함수
print(hex_dig)


9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


#### 연습 2의 Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수를 SHA256 해쉬 알고리즘을 사용하도록 변경해보기

In [19]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
#    return hash(data)     기존의 값
    hash_object = hashlib.sha256()
    hash_object.update(data.encode())
    hex_dig = hash_object.hexdigest()
    return int(hex_dig, 16)    # 정수로 변환해준다. key값으로 사용하기 위해

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0 :         # 초기에 default 값을 0으로 지정했으므로(1 line)
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                hash_table[index][1] = value
                return
    else :
        hash_table[hash_address] = [index_key, value]
    # chaining 기법과 달리 다음 주소의 빈 공간에 key와 함께 value값 삽입
        
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else:
        return None

In [20]:
print(int(hex_dig, 16))

print(int(hex_dig, 16) % 8)

72155939486846849509759369733266486982821795810448245423168957390607644363272
0


In [21]:
print(get_key('db') % 8)
print(get_key('da') % 8)
print(get_key('dh') % 8)

1
2
2


In [22]:
save_data('dk', '01011112222')
save_data('da', '333333333333')
read_data('da')

'333333333333'

### 시간 복잡도
- 일반적인 경우(Collision이 없는 경우)는 O(1)
- 최악의 경우(Collision이 모두 발생하는 경우)는 O(n)
- 해쉬 테이블의 경우, 일반적인 경우를 기대하고 만들기 때문에, 시간 복잡도는 O(1) 이라고 말할 수 있음

### 검색에서 해쉬 테이블의 사용 예
- 16개의 배열에 데이터를 저장하고, 검색할 때 O(n)
- 16개의 데이터 저장공간을 가진 위의 해쉬 테이블에 데이터를 저장하고, 검색할 때 O(1)