In [2]:
# 해쉬 테이블 만들기 - 리스트를 통해 간단하게 만들어보자.
# list comprehension : 파이썬에서 제공해주는 문법으로, 리스트 내부에서 반복문을 수행시킨 후, 
# 각 반복의 결과값을 리스트에 삽입해준다.
hash_table = list([i for i in range(10)]) 
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
# 초간단 해쉬함수 만들기 - 가장 간단한 방식이 Division 법이다.(나누기를 통한 나머지 값을 사용하는 기법)
def hash_func(key):
    return key % 5 # 나머지 값을 해쉬 주소로 반환해준다.

In [5]:
# 해쉬 테이블에 데이터 저장
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'
# 각각의 데이터에 매칭되는 키 값이 존재해야 한다.
# 각 문자열의 첫번째 글자를 가져와서 그에 해당하는 아스키 코드값을 해쉬 테이블에서의 키 값으로 정한다. 
# ord() : 문자의 ASCII 코드 값을 리턴해주는 메소드
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(hash_func(ord(data1[0]))) # 데이터의 키 값을 해쉬 함수의 입력으로 활용하여 해쉬 주소를 얻어온다.

65 68 84
0


In [6]:
# 데이터를 해쉬 테이블에 저장하는 메소드 구현
def storage_data(data, value):
    key = ord(data[0]) # 키 값 추출
    hash_address = hash_func(key) # 키 값을 통해 해쉬 주소 추출
    hash_table[hash_address] = value # 해쉬 주소를 인덱스로 활용하여 리스트에 value 값 저장

In [7]:
storage_data('Andy', '01055553333')
storage_data('Dave', '01044443333')
storage_data('Trump','01022223333')

In [8]:
# 데이터 호출 함수 구현
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [9]:
print(get_data('Andy'))

01055553333


# 중요! 해쉬 테이블 내부에서 동일한 주소에 대한 처리
- 해쉬 테이블 내부에서 같은 주소에 데이터들이 중복으로 저장될 경우의 충돌을 해결하기 위해 추가적인 자료구조가 필요하다.(이걸 어떻게 해결하는지가 가장 궁금하다.)
- 보통은 해쉬 테이블의 저장공간을 크게 늘려서 최대한 해쉬 주소에 대한 중복을 피할 수 있게끔 한다고 한다.
- 그런데 나는 또 다른 자료구조가 쓰이는 상황이 더 궁금하다.

## 해쉬 테이블의 장단점과 주요 용도
- 장점
    - 데이터 저장/읽기 속도가 빠르다.(검색 속도가 빠르다.)
    - 해쉬는 키에 대한 데이터가 있는지(중복) 확인이 쉽다.
- 단점
    - 일반적으로 저장공간이 좀 더 많이 필요하다.
    - 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요하다.
- 주요 용도
    - 검색이 많이 필요한 경우
    - 저장, 삭제, 읽기가 빈번한 경우
    - 캐쉬 구현시(중복 확인이 쉽기 때문) - 웹 구현 시 사용되는 캐시의 경우 화면에 뿌려지는 고정된 이미지와 같은 것들을 출력해 줄 때, 요청할 때마다 매번 다시 이미지들을 모두 가져오는 것이 아니라 이미 한번 불러와서 이미지들을 저장해둔 상태로 새로고침과 같은 요청이 왔을시, 데이터가 변경되는 부분을 제외한 것들은 다시 불러오는것이 아닌 미리 저장해둔 것들을 뿌려주는 것으로 웹 화면 출력 시간을 빠르게 해 줄 수 있는 기능을 제공해준다.(데이터에 대한 중복확인)

In [11]:
# 리스트 변수를 활용해서 해쉬 테이블 구현해보기.
# 해쉬 함수 : key % 8
# 해쉬 키 생성 (hash(data)) - hash 함수는 파이썬에서 자체 제공해주는 메소드이다.
# hash 함수는 실제로는 잘 쓰이지 않는다, 주피터 노트북을 새로 켜고 다시 실행 시킬 때마다 출력되는 값이 달라질 수 있기 때문

hash_table = list([0 for i in range(8)])
def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]

In [12]:
save_data('Dave', '0102030200')
save_data('Andy', '01033232200')
read_data('Dave')

'0102030200'

In [13]:
hash_table

[0, '0102030200', 0, 0, 0, 0, 0, '01033232200']