# 해시테이블
- 키를 값에 매핑할 수 있는 구조인 연관 배열 추상 자료형을 구현하는 자료구조
- key-value쌍으로 저장하는 자료구조
- ex) python의 딕셔너리
- index를 이용한 방식으로 시간복잡도 O(1)으로 빠르게 데이터에 접근 가능
- 버킷(bucket)
    - 해시테이블 배열의 각 원소
    - 충돌 발생시 연결리스트를 이용해 여러개의 데이터를 저장 가능(슬롯)
    - 버킷 = 행, 슬롯 = 열

# 해시함수
- 임의 크기 데이터를 고정 크기 값으로 매핑하는 함수
- 해시함수를 이용해 인덱스를 뽑아내는 것을 해싱이라 한다.
    - 해싱은 빠르게 저장하고 검색하는 데 중요한 기법으로 최적의 검색이 필요한 분야에 많이 사용됨
- ex) key : 10 => 해시함수(10) => index : 1
- 해시함수의 종류
    - 나눗셈 방식(modulo division method)
        - 입력값을 해시테이블의 크기로 나누는 것.
        - h(x) = x mod m (x:입력값, m:테이블 크기)
    - digit folding
    - multiplication method
    - universal hashing
- 해시의 문제점 : 충돌

# 충돌
- Ex)
    - key : 10 -> 해싱 -> index : 1
    - key : 20 -> 해싱 -> index : 1
    - 인덱스 중복
- 생일문제
    - 충돌은 생각보다 쉽게 일어난다를 보여주는 문제
- 비둘기집문제
    - n개 아이템을 m개 컨테이너에 넣을 경우(n>m) 하나의 컨테이너에는 2개 이상의 아이템이 들어간다

# 충돌 해결법
- 개별 체이닝(seperate chaining) p.286
    - 동일한 버킷에 접근 시 연결리스트로 연결하는 방식
    - 테이블 확장할 필요 없음
    - 간단한 구현
    - 손쉬운 삭제
    - 데이터의 수가 많아질 경우 연결리스트가 길어지고 캐시의 효율성 감소

- 오픈 어드레싱(open addressing) p287
    - 해시테이블의 빈공간을 찾아 값을 저장하는 방식
    - 테이블 개수 이상은 저장할 수 없다.
    - 파이썬에서 사용하는 충돌 해결방법
    - 종류
        - linear probing
        - quadratic probing
        - double hashing proning
    - linear probing
        - 해당 위치에서 순차적으로 빈공간 찾기
        - 간단하면서 성능이 좋은 편

    - linear probing의 문제점
        - 해시 테이블의 이곳저곳에 데이터가 뭉치는 현상(클러스터링)
        - 클러스터가 커지면 인근 클러스터와 합쳐지고 그렇게되면 테이블의 특정영역에는 데이터가 몰려있고 특정영역에는 데이터가 없는 현상이 발생
        - 탐사시간이 길어지고 해싱 효율이 떨어짐


## 28번. 해시맵 디자인

In [None]:
import collections

# 키,값을 보관하고 연결리스트로 처리할 클래스 구현

class ListNode:
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value 
        self.next = None

# 개별 체이닝 방식

class MyHashMap:
    def __init__(self):
        # 초기화
        self.size = 1000  # 기본사이즈 = 1000
        self.table = collections.defaultdict(ListNode) # 기본자료형 선언. + defaultdict를 통해 

    def put(self, key: int, value: int)-> None:

        # 해싱한 결과값. 해시 테이블의 인덱스.
        index = key % self.size 

        # 인덱스에 노드가 없을 경우 해시테이블에 키,값 넣고 종료
        if self.table[index].value is None: 
            self.table[index] = ListNode(key, value)
            return

        # 인덱스에 노드가 있을 경우. 연결리스트로 처리
        p = self.table[index]
        while p:
            if p.key == key: # 키값이 동일할 경우 값을 업데이트. 
                p.value = value
                return
            if p.next is None: # 연결리스트가 없다면 종료
                break
            p = p.next # 연결리스트의 끝까지 이동
        p.next = ListNode(key, value) # 연결리스트에 입력값을 삽입
    
    def get(self, key:int) -> int:
        index = key % self.size
        if self.table[index].value is None:
            return -1
        
        # 노드가 존재할 때 일치하는 키 탐색
        p = self.table[index]
        while p:
            if p.key == key:
                return p.value
            p = p.next
        return -1



    def remove(self,key: int) -> None:
        index = key % self.size
        if self.table[index].value is None:
            return
        
        # 인덱스의 첫 번째 노드일 때 삭제 처리
        p = self.table[index]
        if p.key == key:
            self.table[index] = ListNode() if p.next is None else p.next
            return

        # 연결 리스트 노드 삭제
        prev = p
        while p:
            if p.key == key:
                prev.next = p.next
                return
            prev, p = p, next

    

In [None]:
hashmap = MyHashMap()

In [None]:
hashmap.put(1,1)
hashmap.put(2,2)

In [None]:
print(hashmap.get(1))
print(hashmap.get(3))

1
-1


In [None]:
hashmap.put(2,1)
hashmap.get(2)

1