In [2]:
# 해쉬 테이블 만들기 - 리스트를 통해 간단하게 만들어보자.
# list comprehension : 파이썬에서 제공해주는 문법으로, 리스트 내부에서 반복문을 수행시킨 후, 
# 각 반복의 결과값을 리스트에 삽입해준다.
hash_table = list([i for i in range(10)]) 
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
# 초간단 해쉬함수 만들기 - 가장 간단한 방식이 Division 법이다.(나누기를 통한 나머지 값을 사용하는 기법)
def hash_func(key):
    return key % 5 # 나머지 값을 해쉬 주소로 반환해준다.

In [5]:
# 해쉬 테이블에 데이터 저장
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'
# 각각의 데이터에 매칭되는 키 값이 존재해야 한다.
# 각 문자열의 첫번째 글자를 가져와서 그에 해당하는 아스키 코드값을 해쉬 테이블에서의 키 값으로 정한다. 
# ord() : 문자의 ASCII 코드 값을 리턴해주는 메소드
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(hash_func(ord(data1[0]))) # 데이터의 키 값을 해쉬 함수의 입력으로 활용하여 해쉬 주소를 얻어온다.

65 68 84
0


In [6]:
# 데이터를 해쉬 테이블에 저장하는 메소드 구현
def storage_data(data, value):
    key = ord(data[0]) # 키 값 추출
    hash_address = hash_func(key) # 키 값을 통해 해쉬 주소 추출
    hash_table[hash_address] = value # 해쉬 주소를 인덱스로 활용하여 리스트에 value 값 저장

In [7]:
storage_data('Andy', '01055553333')
storage_data('Dave', '01044443333')
storage_data('Trump','01022223333')

In [8]:
# 데이터 호출 함수 구현
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [9]:
print(get_data('Andy'))

01055553333


# 중요! 해쉬 테이블 내부에서 동일한 주소에 대한 처리
- 해쉬 테이블 내부에서 같은 주소에 데이터들이 중복으로 저장될 경우의 충돌을 해결하기 위해 추가적인 자료구조가 필요하다.(이걸 어떻게 해결하는지가 가장 궁금하다.)
- 보통은 해쉬 테이블의 저장공간을 크게 늘려서 최대한 해쉬 주소에 대한 중복을 피할 수 있게끔 한다고 한다.
- 그런데 나는 또 다른 자료구조가 쓰이는 상황이 더 궁금하다.

## 해쉬 테이블의 장단점과 주요 용도
- 장점
    - 데이터 저장/읽기 속도가 빠르다.(검색 속도가 빠르다.)
    - 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉽다.
- 단점
    - 일반적으로 저장공간이 좀 더 많이 필요하다.
    - 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요하다.
- 주요 용도
    - 검색이 많이 필요한 경우
    - 저장, 삭제, 읽기가 빈번한 경우
    - 캐쉬 구현시(중복 확인이 쉽기 때문) - 웹 구현 시 사용되는 캐시의 경우 화면에 뿌려지는 고정된 이미지와 같은 것들을 출력해 줄 때, 요청할 때마다 매번 다시 이미지들을 모두 가져오는 것이 아니라 이미 한번 불러와서 이미지들을 저장해둔 상태로 새로고침과 같은 요청이 왔을시, 데이터가 변경되는 부분을 제외한 것들은 다시 불러오는것이 아닌 미리 저장해둔 것들을 뿌려주는 것으로 웹 화면 출력 시간을 빠르게 해 줄 수 있는 기능을 제공해준다.(데이터에 대한 중복확인)

In [11]:
# 리스트 변수를 활용해서 해쉬 테이블 구현해보기.
# 해쉬 함수 : key % 8
# 해쉬 키 생성 (hash(data)) - hash 함수는 파이썬에서 자체 제공해주는 메소드이다.
# hash 함수는 실제로는 잘 쓰이지 않는다, 주피터 노트북을 새로 켜고 다시 실행 시킬 때마다 출력되는 값이 달라질 수 있기 때문

hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]

In [12]:
save_data('Dave', '0102030200')
save_data('Andy', '01033232200')
read_data('Dave')

'0102030200'

In [13]:
hash_table

[0, '0102030200', 0, 0, 0, 0, 0, '01033232200']

### 충돌(Collision) 해결 알고리즘(좋은 해쉬 함수 사용하기)
- 해쉬 테이블의 가장 큰 문제는 충돌(Collision) 의 경우이다. 이 문제를 충돌(Collision) 또는 해쉬 충돌(Hash Collision) 이라고 한다.
- 충돌 해결을 위한 2가지 전략
    - Chanining 기법(Open Hashing 기법 중 하나 - 충돌한 데이터의 경우 해쉬 테이블 밖에 추가적인 공간을 할당하여 저장하는 방식)
        - 충돌이 일어나면 연결 리스트를 이용해서 데이터를 추가로 뒤에 연결시켜 저장하는 방법
    - Linear Probing 기법(Closing Hashing 기법 중 하나 - 해쉬 테이블 내부에서 빈 공간을 찾아 데이터를 저장해주는 방식)
        - 충돌이 일어나면 해당 hash address 의 다음 address 부터 맨 처음 나오는 빈 공간에 저장하는 방법
        - 저장공간의 활용도를 높이기 위한 방법

In [46]:
# 1. Chaining 기법을 활용하여 충돌 문제를 해결해보자.
hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0: # 추출된 해쉬 주소에 선행 데이터가 이미 들어가 있는 경우
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        hash_table[hash_address].append([index_key, value]) 
        # index_key 가 이미 존재하지 않는다면 연결 리스트 끝에 새로운 리스트로 추가
        # 해쉬 테이블의 value 값으로 저장되는 데이터 하나하나가 리스트
        # 각 요소가 리스트로 구성된 연결 리스트를 만들어 주는것 같다.
    else:
        hash_table[hash_address] = [[index_key, value]]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else:
        return None

In [47]:
# 테스트를 위해 hash() % 8 연산 결과가 똑같은 값을 찾는다.
# key 값이 다르지만 해쉬 주소가 똑같은 값이 추출되는 경우
print("Dave : " + str(hash('Dave')))
print("Data : " + str(hash('Data')))
if hash('Dave') == hash('Data'):
    print("두 데이터의 키 값이 동일합니다.")
else:
    print("두 데이터의 키 값이 동일하지 않습니다.")
print("Dave : " + str(hash('Dave') % 8))
print("Dd : " + str(hash('Dd') % 8))
print("Data : " + str(hash('Data') % 8))

if(hash('Dave') % 8 == hash('Data') % 8):
    print("두 데이터의 해쉬 주소 값이 동일합니다.")
else:
    print("두 데이터의 해쉬 주소 값이 동일하지 않습니다.")

Dave : -8838482505318283807
Data : 5632512063662014857
두 데이터의 키 값이 동일하지 않습니다.
Dave : 1
Dd : 7
Data : 1
두 데이터의 해쉬 주소 값이 동일합니다.


In [48]:
save_data('Dave', '01033332222')
save_data('Data', '01011112222')
read_data('Data')

'01011112222'

In [49]:
print(hash_table[1][1])

[5632512063662014857, '01011112222']


In [74]:
# 2. Linear Probing 기법을 활용해 문제를 해결해보자.
hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0: # 추출된 해쉬 주소에 선행 데이터가 이미 들어가 있는 경우
        for index in range(hash_address, len(hash_table)): 
            # 충돌한 주소 위치 부터 시작하여 순서대로 비어 있는 주소값이 있는지 찾는다.
            if hash_table[index] == 0: # 비어있는 주소를 찾았을 경우 데이터 저장
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                # 해당 주소에 동알한 키 값을 가진 리스트가 존재한다면 value 값 덮어쓰기
                hash_table[index][1] = value
                return
    else:
        hash_table[hash_address] = [index_key, value]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0: 
                # 충돌이 일어난 주소를 기준으로 순차 탐색도중 중간에 비어있는 공간이 발견될 경우
                # 찾고자 하는 데이터가 존재하지 않는다는 뜻
                return None
            elif hash_table[index][0] == index_key: # 값을 발견했을 경우
                return hash_table[index][1]
    else:
        return None # 값이 존재하지 않음

In [75]:
print(hash('dk') % 8)
print(hash('dm') % 8)
print(hash('dk'))
print(hash('dm'))

0
0
4239173438244554752
4293335798156137016


In [76]:
save_data('dk', '01022223333')
save_data('dm', '01033334444')
read_data('dk')

'01022223333'

### 빈번한 충돌을 개선하는 기법
- 해쉬 함수를 재정의 및 해쉬 테이블 저장공간을 확대.

- 참고
    - 파이썬의 hash() 함수는 실행할 때마다 값이 달라질 수 있다.
    - 유명한 해쉬 함수들 : SHA(Secure Hash Algorithm, 안전한 해쉬 알고리즘)
        - 어떤 데이터도 유일하게 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용이 가능하다.

In [80]:
# SHA-1
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha1()
hash_object.update(data) # 바이트로 바꿔준다
hex_dig = hash_object.hexdigest() # 16진수로 추출
# 추출된 16진수 값은 항상 고정되어 있다.
print(hex_dig)


a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


In [81]:
# SHA - 256
import hashlib

data = 'test'.encode()
hash_object = hashlib.sha256()
hash_object.update(data) # 바이트로 바꿔준다
hex_dig = hash_object.hexdigest() # 16진수로 추출
# 추출된 16진수 값은 항상 고정되어 있다.
print(hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08
