### 해쉬구조
* hash table: 키(key)에 데이터(data)를 저장하는 구조
* 파이썬에선 딕셔너리 타입이 대표적인 해쉬구조

### 용어
* 해쉬: 임의 값을 고정 길이로 변환하는 것
* 해쉬 테이블: 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
* 해싱 함수: key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수
* 해쉬 값(해쉬 주소): key를 해싱 함수로 연산하여 해쉬값을 알아내고, 이를 기반으로 해쉬 테이블에서 key에 대한 데이터 위치를 일관성있게 찾을 수 있음
* 슬롯: 한개의 데이터를 저장할 수 있는 공간

In [None]:
# hash table 만들기 
hash_table = [i for i in range(10)]
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# 받은 인자를 5로 나눈 나머지를 반환
def hash_func(key):
  return key % 5

In [None]:
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'
data4 = 'Anthor'

## ord(): 문자의 아스키코드를 반환하는 함수
print(ord(data1[0]), ord(data2[1]), ord(data3[2]))
print(ord(data1[0]), hash_func(ord(data1[0])))
print(ord(data1[0]), ord(data4[0]))

65 97 117
65 0
65 65


In [None]:
def storage_data(data, value): # data와 value의 두개 인자를 받음
  key = ord(data[0]) # key에 data의 첫번째 문자 아스키코드를 저장
  hash_address = hash_func(key) # hash_address에 아스키 코드를 넣은 나머지를 저장
  hash_table[hash_address] = value # hash_table에서 hash_address번째에 해당하는 값을 value로 저장

In [None]:
## data저장 hash_table에 차례로 저장됨
storage_data('Andy', '01055553333')
storage_data('Dave', '01044443333')
storage_data('Trump', '01022223333')

In [None]:
def get_data(data): # data 인자 하나를 받는 함수
  key = ord(data[0]) # data의 첫번째 문자를 아스키코드로 저장
  hash_address = hash_func(key) # hash_address에 key를 5로 나눈 나머지를 저장
  return hash_table[hash_address] # hash_table에서 hash_address에 해당하는 value값을 반환

In [None]:
get_data('Andy')

'01055553333'

In [None]:
hash_table

['01055553333', 1, 2, '01044443333', '01022223333', 5, 6, 7, 8, 9]

연습1: 리스트 변수를 활용해서 해쉬 테이블 구현해보기
1. 해쉬 함수: key % 8
2. 해쉬 키 생성: hash(data)

In [None]:
hash_table = [0 for i in range(8)]

def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [None]:
save_data('Dave', '0102030200')
save_data('Andy', '01033232200')
read_data('Dave')

'0102030200'

In [None]:
hash_table

[0, 0, 0, '0102030200', '01033232200', 0, 0, 0]

### hash collision이 일어날 경우
* changing 기법을 사용
> 링크드 리스트 -> 데이터를 추가로 뒤에 연결함
* linear probing 기법을 사용
> 충돌이 일어나면 hash address의 다음 address부터 맨 처음 빈공간 부터 저장함 -> 저장공간의 활용도 상승

### 연습2: 연습1의 해쉬 테이블 코드에 Chaining 기법으로 충돌해결 코드를 추가해보기
1. 해쉬 함수: key % 8
2. 해쉬 키 생성: hash(data)

In [None]:
hash_table = [0 for i in range(8)]

def hash_function(key):
  return key % 8

def get_key(data):
  return hash(data)

def save_data(data, value):
  index_key = get_key(data) # index_key에 data의 key값을 저장
  hash_address = hash_function(index_key) # hash_address에 key의 8로 나눈 나머지를 저장
  if hash_table[hash_address] != 0: # hash_table의 hash_address 번째의 값이 0이 아닐경우
    for index in range(len(hash_table[hash_address])): # hash_table의 hash_address의 문자 개수만큼 반복
      if hash_table[hash_address][index][0] == index_key: # n번째 반복에 해당하는 첫번째 값 = data의 key값일 때
        hash_table[hash_address][index][0] = value # 그것을 함수에서 받은 인자인 value로 채움
        return hash_table[hash_address].append([index_key, value]) # data의 key값과 value를 hash_table에 추가
  
  else: # 0일 경우
    hash_table[hash_address] = [[index_key, value]] # hash_table의 hash_address번째에 index와 value를 추가

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(len(hash_table[hash_address])):
      if hash_table[hash_address][index][0] == index_key:
        return hash_table[hash_address][index][1]
    return None
  else:
    return None


In [None]:
print (hash('Dave') % 8)
print (hash('Dd') % 8)
print (hash('Data') % 8)

3
2
5


In [None]:
save_data('Dd', '1201023010')
save_data('Data', '3301023010')
read_data('Dd')

'1201023010'

In [None]:
hash_table

[0,
 0,
 [[4497508440914100138, '1201023010']],
 0,
 0,
 [[-7890090200130995443, '3301023010']],
 0,
 0]

연습3: 연습1의 해쉬 테이블 코드에 Linear Probling 기법으로 충돌해결 코드를 추가해보기
1. 해쉬 함수: key % 8
2. 해쉬 키 생성: hash(data)

In [None]:
hash_table = [0 for i in range(8)]

def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        hash_table[index] = [index_key, value]
        return
      elif hash_table[index][0] == index_key:
        hash_table[index][1] = value
        return
  else:
    hash_table[hash_address] = [index_key, value]

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:
    for index in range(hash_address, len(hash_table)):
      if hash_table[index] == 0:
        return None
      elif hash_table[index][0] == index_key:
        return hash_table[index][1]

  else:
    return None

In [None]:
print (hash('dk') % 8)
print (hash('da') % 8)
print (hash('dc') % 8)

2
6
0


In [None]:
save_data('dk', '01200123123')
save_data('da', '3333333333')
read_data('dc')

### 시간 복잡도
* 일반적인 경우(Collision이 없는 경우)는 O(1)
* 최악의 경우(Collision이 모두 발생하는 경우)는 O(n)
해쉬 테이블의 경우, 일반적인 경우를 기대하고 만들기 때문에, 시간 복잡도는 O(1) 이라고 말할 수 있음

### 검색에서 해쉬 테이블의 사용 예
* 16개의 배열에 데이터를 저장하고, 검색할 때 O(n)
* 16개의 데이터 저장공간을 가진 위의 해쉬 테이블에 데이터를 저장하고, 검색할 때 O(1)