<a href="https://colab.research.google.com/github/Zamoca42/TIL/blob/main/DS/Hash.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![hash](https://user-images.githubusercontent.com/96982072/200609832-ab4c2755-4b0d-489b-8f6c-f1c8d799e91a.png)


# 해싱 Hashing

- 키(Key)와 값(Value)쌍으로 이루어진 데이터 구조를 의미

- 데이터를 빠르게 저장하고 가져오는 기법 중 하나
  - 공간은 많이 사용하지만, 시간은 빠르다는 장점

- 키에 특정 연산을 적용하여 테이블의 주소를 계산

- 시간 복잡도
  - 일반적인 경우 (충돌이 없는 경우): O(1)
  - 최악의 경우 (모든 경우에 충돌이 발생하는 경우): O(n)

# 해시 테이블

- 파이썬에서는 딕셔너리(Dictionary) 타입

- (Key, Value) 쌍을 저장

- 순서 X

# 해싱 - Key

- 키를 기준으로 값을 매핑

- 고유한 값
  - 중복 X

# 해싱 - Hash Function

- 임의의 데이터(키)를 특정 값(해시값)으로 매핑시키는 함수

- 좋은 해시 함수
  - 키 값을 고르게 분포 시킴
  - 빠른 계산
  - 충돌 최소화

- 키 생성 함수
  - SHA-1
    - SHA-1은 해쉬값의 크기를 160으로 고정하는 알고리즘입니다.
    - hashlib이란 라이브러리는 SHA함수들을 가지고 있는 라이브러리입니다. 'test'라는 문자와 'hello world'라는 문자를 각각 SHA-1으로 해쉬값을 출력하면 아래와 같습니다.




In [2]:
import hashlib

data = 'test'.encode()

hash_object = hashlib.sha1()
hash_object.update(data)
hex_dig = hash_object.hexdigest()

print(hex_dig)

data2 = 'hello world'.encode()

hash_object2 = hashlib.sha1()
hash_object2.update(data2)
hex_dig2 = hash_object2.hexdigest()

print(hex_dig2)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3
2aae6c35c94fcfb415dbe95f408b9ce91ee846ed


In [3]:
# hash

class Node:
    def __init__(self, key, val):
        self.key = key
        self.val = val

class HashTable:
    def __init__(self, bucket_size=1024):
        self.buckets = [[]] * bucket_size
        self.bucket_size = bucket_size
        self._size = 0

    def put(self, key, val):
        idx = hash(key) % self.bucket_size
        for elem in self.buckets[idx]:
            if elem.key == key:
                elem.val = val
                return
        node = Node(key, val)
        self.buckets[idx].append(node)
        self._size += 1

    def get(self, key):
        idx = hash(key) % self.bucket_size
        for elem in self.buckets[idx]:
            if elem.key == key:
                return elem.val
        return None

    def contains(self, key):
        idx = hash(key) % self.bucket_size
        for elem in self.buckets[idx]:
            if elem.key == key:
                return True
        return False

    def delete(self, key):
        idx = hash(key) % self.bucket_size
        for idx, elem in enumerate(self.buckets[idx]):
            if elem.key == key:
                self.buckets[idx].remove(elem)
                self._size -= 1

    def size(self):
        return self._size


if __name__ == "__main__":
    table = HashTable()
    print('table.put("s1", "v1")')
    table.put("s1", "v1")
    print('table.put("s2", "v2")')
    table.put("s2", "v2")
    print('table.put("s3", "v3")')
    table.put("s3", "v3")
    print(f"table.size(): {table.size()}")
    print(f"table.get('s1'): {table.get('s1')}")
    print(f"table.get('s2'): {table.get('s2')}")
    print(f"table.get('s3'): {table.get('s3')}")
    print("table.put('s2', 'v4')")
    table.put("s2", "v4")
    print(f"table.get('s2'): {table.get('s2')}")
    print("table.delete('s2')")
    print(table.delete("s2"))
    print(f"table.size(): {table.size()}")
    print(f"table.get('s1'): {table.get('s1')}")
    print(f"table.get('s2'): {table.get('s2')}")
    print(f"table.get('s3'): {table.get('s3')}")

table.put("s1", "v1")
table.put("s2", "v2")
table.put("s3", "v3")
table.size(): 3
table.get('s1'): v1
table.get('s2'): v2
table.get('s3'): v3
table.put('s2', 'v4')
table.get('s2'): v4
table.delete('s2')
None
table.size(): 2
table.get('s1'): v1
table.get('s2'): None
table.get('s3'): v3


In [4]:
class HashTable:
    def __init__(self):
        self.hash_table = list([0 for i in range(8)])

    def hash_function(self, key):
        return key % 8

    def insert(self, key, value):
        hash_value = self.hash_function(hash(key))
        self.hash_table[hash_value] = value

    def read(self, key):
        hash_value = self.hash_function(hash(key))
        return self.hash_table[hash_value]

    def print(self):
        print(self.hash_table)

ht = HashTable()
ht.insert(1, 'a')
ht.print()
ht.insert('name', 'kang')
ht.print()
ht.insert(2, 'b')
ht.print()
ht.insert(3, 'c')
ht.print()
print(ht.read(2))
ht.insert(4, 'd')
ht.print()

[0, 'a', 0, 0, 0, 0, 0, 0]
[0, 'a', 0, 0, 0, 0, 'kang', 0]
[0, 'a', 'b', 0, 0, 0, 'kang', 0]
[0, 'a', 'b', 'c', 0, 0, 'kang', 0]
b
[0, 'a', 'b', 'c', 'd', 0, 'kang', 0]


# 해시 충돌 Hash Collision

- 키 값이 다른데, 해시 함수의 결과값이 동일한 경우

  ![collision](https://user-images.githubusercontent.com/96982072/200611210-03c5b418-9d7f-481e-acea-83b5707c50ca.png)







# Chaining 기법

![chaining](https://user-images.githubusercontent.com/96982072/200612768-55c50d18-75f7-41e2-884e-32a4bbe8b05b.png)

  - Open Hashing 기법 중 하나 
    - 해쉬테이블 저장공간 외에 공간을 더 추가해서 사용하는 방법입니다.
  
  - 충돌이 발생시, 링크드 리스트로 데이터를 추가로 뒤에 연결시키는 방법입니다.

  - 뒤로 연결시키는 모양이 chain과 닮음


In [None]:
class HashTable:
  def __init__(self):
      self.hash_table = list([0 for i in range(8)])

  def hash_function(self, key):
      # Custom Hash Function
      return key % 8

  def insert(self, key, value):
      gen_key = hash(key)
      hash_value = self.hash_function(gen_key)

      if self.hash_table[hash_value] != 0:
          # 해당 hash value index를 이미 사용하고 있는 경우(충돌 시)
          for i in range(len(self.hash_table[hash_value])):
              # 이미 같은 키 값이 존재하는 경우 -> value 교체
              # 이때 0은 key, 1은 value값이 존재하는 인덱스
              if self.hash_table[hash_value][i][0] == gen_key:
                  self.hash_table[hash_value][i][1] = value
                  return
          # 같은 키 값이 존재하지 않는 경우에는 [key, value]를 해당 인덱스에 삽입
          self.hash_table[hash_value].append([gen_key, value])
      else:
          # 해당 hash_value를 사용하고 있지 않는 경우
          self.hash_table[hash_value] = [[gen_key, value]]

  def read(self, key):
      gen_key = hash(key)
      hash_value = self.hash_function(gen_key)

      if self.hash_table[hash_value] != 0:
          # 해당 해쉬 값 index에 데이터가 존재할 때,
          for i in range(len(self.hash_table[hash_value])):
              if self.hash_table[hash_value][i][0] == gen_key:
                  # 키와 동일할 경우 -> 해당 value return
                  return self.hash_table[hash_value][i][1]
          # 동일한 키가 존재하지 않으면 None return
          return None
      else:
          # 해당 해쉬 값 index에 데이터가 없을 때,
          return None

  def print(self):
      print(self.hash_table)

# Open Addressing

- 충돌 발생시 다른 버킷에 데이터를 저장

- 선형 탐색
  - 해시 충돌 시 n칸을 건너뛴 다음 버킷에 저장
  - 계산 단순
  - 검색 시간이 많이 소요
  - 데이터들이 특정 위치에만 밀집

- 제곱 탐색
  - $ N^2 $ 칸(1, 4, 9, 16, ...)을 건너뛴 버킷에 데이터를 저장
  - 데이터들이 특정 위치에 밀집하는 문제를 해결
  - 하지만 처음 해시 값이 같다면 여전히

- 이중 해시
  - 해시 값에 다른 해시 함수를 한번 더 적용
  - Hashfunction1(): 최초의 해시 값을 구함
  - Hashfunction2(): 충돌 발생시 이동 폭을 구함
  - 최초 해시 값이 같더라도 이동 폭이 다르기 때문에 clustering 문제 해결 가능