# 1. 해쉬 테이블(Hash Table)

* 키(key)에 데이터(value)를 저장하는 데이터 구조
* 파이썬에서는 딕셔너리(dick) 타입이 해쉬 테이블의 예
* key를 통해 데이터를 바로 찾을 수 있으므로 검색 속도가 빠름
* 보통 배열로 미리 Hash Table 사이즈 만큼 생성 후에 사용

# 2. 알아둘 용어

* 해쉬(Hash): 임의 값을 고정 길이로 변환하는 것

* 비밀번호를 암호화 할 때 Hash를 많이 쓴다.

* 해쉬 테이블(Hash Table): 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조

* 해쉬 함수(Hashing Function): key에 대해 산술 연산을 이용해 데이터 위치를 찾을 수 있는 함수

* 해쉬 값(Hash value) 또는 해쉬 주소(Hash Address): key를 해싱 함수로 연산해서 해쉬값을 알아내고 이를 기반으로 해쉬 테이블에 해당 key에 대한 데이터 위치를 일관성 있게 찾음

* 슬롯(Slot): 한 개의 데이터를 저장 할 수 있는 공간

# 3. 간단한 해쉬 예

##3-1. 슬롯 만들기

In [340]:
# 리스트 컴프리핸션(List Comprehension)

hash_table = list([0 for i in range(10)])     # 0~9 까지 i에 하나씩 수를 대입 한다.
print(hash_table)


[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### 3-2. 해쉬 함수 만들기

* 해쉬 함수는 다양하게 생성 할 수 있으며, 가장 간단한 방법으로     Division법  (나누기를 통한 나머지 값을 사용하는 기법)을 사용함

In [341]:
def hash_func(key):
  return key % 10

### 3-3. 해쉬 테이블에 저장하기

* 데이터에 따라 필요시 key 생성 방법 정의가 필요함

In [342]:
data1 = 'apple'
data2 = 'banana'
data3 = 'orange'
data4 = 'melon'

In [343]:
# ord(): 문자의 ASCII(아스키)코드를 반환

print(ord('a'))
print(ord(data1[0]))
print(ord(data2[0]))
print(ord(data3[0]))
print(ord(data4[0]))

97
97
98
111
109


In [344]:
print(hash_func(ord(data1[0])))
print(hash_func(ord(data2[0])))
print(hash_func(ord(data3[0])))
print(hash_func(ord(data4[0])))

7
8
1
9


In [345]:
def storage_data(data, value):      # apple, 010-1111-1111
  key = ord(data[0])
  hash_address = hash_func(key)
  hash_table[hash_address] = value

In [346]:
storage_data('apple', '010-1111-1111')

In [347]:
hash_table

[0, 0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0]

In [348]:
storage_data('banana', '010-2222-2222')
storage_data('orange', '010-3333-3333')
storage_data('melon', '010-4444-4444')

In [349]:
hash_table

[0,
 '010-3333-3333',
 0,
 0,
 0,
 0,
 0,
 '010-1111-1111',
 '010-2222-2222',
 '010-4444-4444']

### 3-4. hash() 함수를 사용해서 해싱 함수를 수정하기

In [350]:
hash('apple')

-3633024550410021644

In [351]:
hash('apple')

-3633024550410021644

In [352]:
hash('banana')

-4035921872887755463

In [353]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 10

def save_data(data, value):
  hash_address = hash_function(get_key(data))
  hash_table[hash_address] = value

def read_data(data):
  hash_address = hash_function(get_key(data))
  return hash_table[hash_address]

In [354]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [355]:
save_data('apple', '010-1111-1111')

In [356]:
hash_table

[0, 0, 0, 0, 0, 0, '010-1111-1111', 0, 0, 0]

In [357]:
read_data('apple')

'010-1111-1111'

# 4. 해쉬 테이블의 장단점

* 장점
    * 데이터 저장 및 읽기 속도가 빠름(검색 속도가 빠름)
    * 해쉬는 키에 대한 데이터가 있는지 확인 쉬움

* 단점
    * 저장 공간이 많이 필요함
    * 여러키에 해당하는 주소가 동일 할 경우 충돌을 해결하기 위한 별도의 자료 구조가 필요함

# 5. 충돌 해결 알고리즘

###5-1. Linear Probing 기법

* 해쉬 테이블 저장 공간 안에서 충돌 문제를 해결하는 방법

* 충돌이 일어날 경우에 Hash Address 다음 주소부터 맨 처음 나온 빈 공간에 데이터를 저장하는 기법

* 저장 공간의 활용도를 높이기 위한 방법

In [358]:
hash_table = list([0 for i in range(10)])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [359]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 8

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)

  if hash_table[hash_address] != 0:     # 충돌일 경우
      for index in range(hash_address, len(hash_table)):
        if hash_table[index] == 0:      # 자리가 비었다면
            hash_table[index] = [index_key, value]
            return
        elif hash_table[index][0] == index_key:   # 기존의 저장된 해쉬 번호와 현재 저장 할 해쉬번호가 같은 경우
            hash_table[index][1] = value
            return

  else:     # 충돌이 아닐 경우
     hash_table[hash_address] = [index_key, value]

def read_data(data):
  pass

In [360]:
print(hash('apple') % 8)
print(hash('avocado') % 8)
print(hash('cherry') % 8)
print(hash('banana') % 8)
print(hash('orange') % 8)
print(hash('melon') % 8)

4
1
5
1
4
7


In [361]:
save_data('avocado', '010-1111-1111')
save_data('orange', '010-2222-2222')

In [362]:
hash_table

[0,
 [1113409418511765633, '010-1111-1111'],
 0,
 0,
 [-5241378500655686188, '010-2222-2222'],
 0,
 0,
 0,
 0,
 0]

### 5-2. Chaining 기법

* 해쉬 테이블 저장 공간 외의 공간을 활용하는 방법
* 충돌이 일어나면 링크드 리스트 자료 구조를 사용해서 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법법

In [363]:
hash_table = list([0 for i in range(10)])


In [364]:
def get_key(data):
  return hash(data)

def hash_function(key):
  return key % 10

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
      for index in range(len(hash_table[hash_address])):
          if hash_table[hash_address][index][0] == index_key:
              hash_table[hash_address][index][1] = value          
              return

      hash_table[hash_address].append([index_key, value])   # 리스트 형태로 업핸드드

  else:
      hash_table[hash_address] = [[index_key, value]]   # 2차원으로 2번 감싸는 것것

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
      for index in range(len(hash_table[hash_address])):
        if hash_table[hash_address][index][0] == index_key:
            return hash_table[hash_address][index][1]
            
  else :

    return None

In [365]:
print(hash('apple') % 10)
print(hash('avocado') % 10)   #
print(hash('cherry') % 10)    #
print(hash('banana') % 10)    #
print(hash('orange') % 10)    
print(hash('melon') % 10)     

6
3
5
7
2
3


In [366]:
save_data('avocado', '010-1111-1111')
save_data('cherru', '010-2222-2222')
save_data('banana', '010-3333-3333')
save_data('orange', '010-4444-4444')

In [367]:
hash_table

[0,
 0,
 [[-5241378500655686188, '010-4444-4444']],
 [[1113409418511765633, '010-1111-1111']],
 0,
 [[6561576806354199155, '010-2222-2222']],
 0,
 [[-4035921872887755463, '010-3333-3333']],
 0,
 0]

In [368]:
read_data('cherry')

# 6. 해쉬 함수와 키 생성 함수

* SHA(Secure Hash AIgorithm, 안전한 해쉬 알고리즘)와 같은 유명한 해쉬 알고리즘도 많이 사용

* 어떤 데이터도 유일한 고정된 크기의 고정값을 리턴해주므로 해쉬 함수로 유용하게 활용 할 수 있음음

# 6-1. SHA-1

* 임의의 길이의 입력 데이터 최대 160비트
(20바이트, 16진수, 40자리)의 출력 데이터(해시 값)으로 바꿈

* 파이썬의 hash()함수는 환경에 따라 값이 달라질 수 있음음

# 컴퓨터의 용량 단위

* 1bit : 0 또는 1
* 8bit : 1byte
* 1024 byte : 1KB
* 1024KB : 1MB
* 1024MB : 1GB
* 1024GB : 1TB
* 1024TB : 1PB

In [369]:
import hashlib

In [370]:
data = 'text'.encode()    # test 문자열을 바이트 단위로 변환
print(data)               # 한 글자 단위를 바이트라고 함

hash_object = hashlib.sha256()
print(hash_object)

hash_object.update(data)  # sha-1 객체로 data를 읽어옴
hex_dig = hash_object.hexdigest()   # 16진수로 고정된 해쉬 값을 발생
print(hex_dig, len(hex_dig))
print(int(hex_dig, 16))   # 16진수로 고정된 해쉬 값을 10진수의 고정된 해쉬 값으로 전환

b'text'
<sha256 _hashlib.HASH object @ 0x7f7f329ec0f0>
982d9e3eb996f559e633f4d194def3761d909f5a3b647d1a851fead67c32c9d1 64
68832153269555879243704685382415794081420120252170153643880971663484982053329


### 6-2. SHA-256

* SHA 알고리즘의 한 종류로 256 비트로 구성되어 64자리 16진수를 반환

* SHA-2 계열 중 하나이며, 블록 체인에서 가장 많이 채택하여 사용용

### 문제

Chaining 기법을 적용한 해쉬 테이블 코드에 키생성함수 sha256 해쉬 알고리즘을 사용하도록 변경해보자

1. 해쉬 함수 : Key % 10
2. 해쉬 키 생성 : sha256(data)

In [371]:
hash_table = list([0 for i in range(10)])


def get_key(data):
  hash_object = hashlib.sha256()
  hash_object.update(data.encode())
  hex_dig = hash_object.hexdigest()
  return int(hex_dig, 16)

def hash_function(key):
  return key % 10

def save_data(data, value):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
      for index in range(len(hash_table[hash_address])):
          if hash_table[hash_address][index][0] == index_key:
              hash_table[hash_address][index][1] = value          
              return

      hash_table[hash_address].append([index_key, value])   # 리스트 형태로 업핸드드

  else:
      hash_table[hash_address] = [[index_key, value]]   # 2차원으로 2번 감싸는 것것

def read_data(data):
  index_key = get_key(data)
  hash_address = hash_function(index_key)
  if hash_table[hash_address] != 0:
      for index in range(len(hash_table[hash_address])):
        if hash_table[hash_address][index][0] == index_key:
            return hash_table[hash_address][index][1]
            
  else :

    return None