## 해시
- 해시 테이블 또는 해시 맵은 키를 값에 매핑할 수 있는 구조인, 연관 배열 추상자료형(ADT)을 구현하는 자료구조
- 해시 테이블의 가장 큰 특징은 대부분의 연산이 분할 상환 분석에 따른 시간 복잡도가 $O(1)$

###  해시 함수
- 해시 함수란? 임의 크기 데이터를 고정 크기 값으로 매핑하는 데 사용할 수 있는 함수  
<img src='img/11_1.png' width='100'>  


- 입력값이 ABC, 1324BC, AF32B로 각각 3글자, 6글자, 5글자이지만, 화살표로 표시한 특정 함수를 통과하면 2바이트의 고정 크기 값으로 매핑됨
- 이처럼 해시 함수를 사용하는 것을 해싱이라 함.
- 해싱은 최적의 검색이 필요한 분야에 사용되며, 심볼 테이블 등의 자료구조를 구현하기에도 적합
- 이외에도 체크섬, 손실 압축, 무작위화 함수, 암호 등과도 관련 깊으며 때로는 혼용하기도 함  


####  성능 좋은 해시 함수들의 특징
> ○ 해시 함수 값 충돌의 최소화  
> ○ 쉽고 빠른 연산  
> ○ 해시 테이블 전체에 해시 값이 균일하게 분포  
> ○ 사용할 키의 모든 정보를 이용하여 해싱  
> ○ 해시 테이블 사용 효율이 높을 것

#### 1) 생일 문제
- 충돌이 쉽게 일어나는 것을 보여주는 예시
- 생일이 같은 2명이 존재할 확률을 얼핏 생각해보면 비둘기집 원리에 따라 366명 이상이 모여야 일어나는 일 같지만, 실제로는 23명만 모여도 50%를 넘는다.  
<img src='img/11_2.png' width='300'>

In [1]:
# 실험
import random

TRIALS = 100000     # 10만 번 실험
same_birthdays = 0  # 생일이 같은 실험의 수

# 10만번 실험 진행
for _ in range(TRIALS):
    birthdays = []
    # 23명이 모였을 때, 생일이 같을 경우 same_bithdays += 1
    for i in range(23):
        birthday = random.randint(1, 365)
        if birthday in birthdays:
            same_birthdays += 1
            break
        birthdays.append(birthday)
        
# 전체 10만 번 실험 중 생일이 같은 실험의 확률
print(f'{same_birthdays / TRIALS * 100}%')

50.79900000000001%


#### 2) 비둘기집 원리
- 비둘기집 원리란, n개 아이템을 m개 컨테이너에 넣을 때, n>m이라면 적어도 하나의 컨테이너에는 반드시 2개 이상의 아이템이 들어 있다는 원리
- 9개의 공간에 10개의 아이템을 넣을 때, 심한 경우 9번 모두 충돌해서 9개의 공간 중 1개밖에 사용하지 못할 수도 있다. 여러번 충돌한다는 것은 그만큼 추가 연산을 필요로 하므로 최소화하는 것이 좋음!

#### 3) 로드 팩터 (Load Factor)
- 로드 팩터란 해시 테이블에 저장된 데이터 개수 n을 버킷의 개수 k로 나눈 것  
<img src='img/11_3.png' width='100'>  


- 로드 팩터 비율에 따라 해시 함수를 재작성할지, 테이블의 크기를 조정할지 결정
- 이 값은 해시 함수가 키들을 잘 분산해 주는지를 말하는 효율성 측정에도 사용
- 자바 10에서는 디폴트 로드 랙터를 0.75로 정했으며, '시간과 공간 비용의 적절한 절충안'이라고 얘기함 (넘어설 경우 공간 재할당)

#### 4) 해시 함수
- 아래의 그림은 해시 함수를 통해 키가 해시 값으로 변경되는 과정을 도식화한 것
<img src='img/11_4.png' width='250'>  


- 데이터마다 최적의 해싱 알고리즘이 있으며, 여기서는 가장 단순하면서도 널리 쓰이는 정수형 해싱 기법인 모듈로(Modulo(a.k.a Mod)) 연산을 이용한 나눗셈 방식만 설명  
<img src='img/11_5.png' width='100'>


- m은 해시 테이블의 크기로, 일반적으로 2의 멱수에 가깝지 않은 소수를 택함
- x는 어떤 간단한 규칙을 통해 만들어낸 충분히 랜덤한 상태의 키의 값
- 해시 함수를 딥러닝으로 학습한 모델을 적용한 논문도 있었음

### 충돌
- 아무리 좋은 해시 함수라도 충돌은 발생함

#### 1) 개별 체이닝
- '윤아'와 '서현'을 해싱한 결과가 충돌한다고 가정한다.   
<img src='img/11_6.png' width='200'>   


- 해시 테이블의 기본 방식이기도 한 개별 체이닝은 충돌 발생 시 아래 그림과 같이 연결 리스트로 연결하는 방식
> 1. 키의 해시 값을 계산  
> 2. 해시 값을 이용해 배열의 인덱스 구함  
> 3. 같은 인덱스가 있다면 연결 리스트로 연결  

<img src='img/11_7.png' width='350'>  

- 잘 구현한 경우 대부분의 탐색은 $O(1)$이지만 최악의 경우, 즉 모든 해시 충돌이 발생했다고 가정할 경우에는 $O(n)$
- 자바 8에서는 좀 더 최적화해서, 데이터가 많아지면 레드-블랙 트리에 저장하는 형태로 병행해 사용하기도 함

#### 2) 오픈 어드레싱 (Open Addressing)
- 충돌 발생 시 탐사를 통해 빈 공간을 찾아나서는 방식
- 무한정 저장할 수 있는 체이닝 방식과 달리, 이 방식은 전체 슬롯의 개수 이상은 저장할 수 없으며, 모든 원소가 반드시 자신의 해시 값과 일치하는 주소에 저장된다는 보장이 없음

<img src='img/11_8.png' width='300'>

- 출돌이 발생할 경우, 바로 다음위치부터 순차적으로 탐사를 진행 (가장 가까운 다음 빈 위치)
- 이처럼 선형 탐사 방식은 구현이 간단하면서도, 의외로 전체적인 성능이 좋은 편
- 하지만, 한 가지 문제점은 해시 테이블에 저장되는 데이터들이 고르게 분포되지 않고 뭉치는 경향이 있다. 클러스터들이 커지게 되면 인근 클러스터들과 합쳐짐 (이러한 클러스터링 현상은 탐사 시간을 오래 걸리게 하며, 해싱 효율을 떨어뜨리는 원인이 됨)


- 일정 이상 채워지면, 그로스 팩터(Growth Factor)의 비율에 따라 더 큰 크기의 또 다른 버킷을 생성한 후 여기에 새롭게 복사하는 리해싱(Rehashing)작업이 일어남

#### 3) 언어별 해시 테이블 구현 방식
- 파이썬의 딕셔너리는 해시 테이블로 구현되어 있다. 오픈 어드레싱 방법으로!!
- why? 연결 리스트를 만들기 위한 추가 메모리 할당이 상대적으로 느린 작업이므로

<img src='img/11_9.png' width='300'>


- 선형 탐사 방식은 일반적으로 체이닝에 비해 성능이 더 좋으나, 슬롯의 80% 이상이 차게 되면 급격한 성능 저하가 일어나며 로드 팩터 1이상은 저장 불가
- 파이썬의 로드 팩터는 0.66 (루비는 0.5)

<img src='img/11_10.png' width='200'>

### 28. 해시맵 디자인  
<img src='img/11_11.png' width='450'>

#### 정답
#### 1) 개별 체이닝 방식을 이용한 해시 테이블 구현

In [2]:
class ListNode:
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.next = None

In [None]:
class MyHashMap:
    def __init__(self):
        self.size = 1000
        self.table = collections.defaultdict(ListNode) 
        
            # 각 ListNode를 담게 될 기본 자료형 defaultdict는
            # 존재하지 않는 키를 조회할 경우 자동으로 디폴르를 생성해 줌
    
    # 삽입
    def put(self, key: int, value: int) -> None:
        index = key % self.size  # 모듈로(Modulo)연산을 한 나머지를 해시 값으로
        
        # 인덱스에 노드가 없다면 삽입 후 종료
        if self.table[index].value is None:
            self.table[index] = ListNode(key, value)
            
            # 여기서 굳이 value의 존재 유무를 확인한 이유는 defaultdict가 
            # 없는 인덱스로 조회할 경우, 디폴트 객체를 생성하기 때문
        
        # 인덱스에 노드가 존재하는 경우 연결리스트로 처리
        p = self.table[index]
        while p:
            # 이미 키가 존재할 경우, 값을 업데이트하고 빠저나감
            if p.key == key:
                p.value = value
                return 
            if p.next is None: # 아무것도 안하고 루프를 나가서 next에 키-값 저장
                break
            p = p.next
        p.next = ListNode(key, value)
        
    # 조회  
    def get(self, key: int) -> int:
        index = key % self.size
        if self.table[index].value is None:
            return -1
        
        # 노드가 존재할 대 일치하는 키 탐색
        p = self.table[index]
        while p:
            if p.key == key:
                return p.value
            p = p.next
        return -1
    
    # 삭제
    def remove(self, key: int) -> None:
        index = key % self.size
        if self.table[index].vale is None:
            return
        
        # 인덱스의 첫 번째 노드일 때 삭제 처리
        p = self.table[index]
        if p.key == key:
            self.table[index] = ListNode() if p.next is None else p.next
            return 
        
        # 연결 리스트 노드 삭제
        prev = p   # 이전 노드
        while p:
            if p.key == key:
                prev.next = p.next
                return
            prev, p = p, p.next

### 29. 보석과 돌
- J는 보석이며, S는 갖고 있는 돌이다. S에는 보석이 몇 개나 있을까? (대소문자 구분)

In [4]:
J = 'aA'; S = 'aAAbbbb'  # 3

#### 시도

In [None]:
import collections

In [13]:
c = collections.Counter(S)
result = 0

for i in J:
    result += c[i]

In [14]:
result

3

#### 정답
#### 1) 해시 테이블을 이용한 풀이

In [16]:
def numJewelsInStones(J: str, S: str) -> int:
    freqs = {}
    count = 0
    
    # 돌(S)의 빈도 수 계산
    for char in S:
        if char not in freqs:
            freqs[char] = 1
        else:
            freqs[char] += 1
        
    # 보석(J)의 빈도수 합산
    for char in J:
        if char in freqs:
            count += freqs[char]
    
    return count

#### 2) defaultdict를 이용한 비교 생략

In [18]:
def numJewelsInStones(J: str, S: str) -> int:
    freqs = collections.defaultdict(int)  # 존재하지 않는 키에 대해 디폴트를 리턴
    count = 0
    
    # 비교 없이 돌(S) 빈도 수 계산
    for char in S:
        freqs[char] += 1
        
    # 비교 없이 보석(J) 빈도 수 계산
    for char in J:
        count += freqs[char]
        
    return count

#### 3) Counter로 계산 생략

In [19]:
def numJewelsInStones(J: str, S: str) -> int:
    freqs = collections.Counter(S)  # 돌(S) 빈도 수 계산
            # 존재하지 않는 키의 경우, KeyError X -> 0을 출력!!
        
    count = 0
    
    # 비교 없이 보석(J) 빈도 수 합산
    for char in J:
        count +=  freqs[char]
        
    return count

#### 4) 파이썬 다운 방식
- 해시 테이블과는 관련 X

In [20]:
def numJewelsInStones(J: str, S: str) -> int:
    return sum(s in J for s in S)

<img src='img/11_12.png' width='300'>

### 30. 중복 문자 없는 가장 긴 부분 문자열


In [21]:
s = 'abcabcbb'  # 3 (abc)
s = 'bbbbb'     # 1 (b)
s = 'pwwkew'    # 3 (wke)

#### 시도
- 이중 for문 밖에 생각이 안남

#### 정답

#### 1) 슬라이딩 윈도우와 투 포인터로 사이즈 조절
- 슬라이딩 윈도우(20장 참조)로 한 칸씩 우측으로 이동하면서 윈도우 내에 모든 문자가 중복이 없도록 투 포인터로 윈도우 사이즈 조절
- 슬라이딩 윈도우의 각 단계별로 중복 문자가 없는 윈도우 최대 길이를 순서대로 표시
- 투 포인터로 문제를 풀이하되, 2개 모두 왼쪽에서 출발  
<img src='img/11_13.png' width='250'>

In [None]:
def lengthOfLongestSubstring(s: str) -> int:
    used = {}
    max_length = start = 0
    
    for index, char in enumerate(s):
        # 이미 등장했던 문자라면 'start' 위치 갱신
        if char in used and start <= used[char]:
            start = used[char] + 1
        else:  # 최대 부분 문자열 길이 갱신
            max_length = max(max_length, index - start + 1)
            
        # 현재 문자의 위치 삽입
        used[char] = index
        
    return max_length

<img src='img/11_14.png' width='350'>

### 31. 상위 K 빈도 요소
- 등장하는 횟수가 상위 k등에 속하는 숫자 추출 (총 k개)

In [45]:
nums = [1, 1, 1, 2, 2, 3]; k=2   # [1, 2]

#### 시도

In [47]:
c = collections.Counter(nums)
topk_value = sorted(c.values(), reverse=True)[:k]
[i for i in range(len(c)) if c[i] in topk_value]

[1, 2]

#### 1) Counter를 이용한 음수 순 추출

In [48]:
def topKFrequent(nums: list, k: int) -> list:
    freqs = collections.Counter(nums)
    freqs_head = []
    
    # 힙에 음수로 삽입
    for f in freqs:
        heaps.heappush(freq_heap, (-freqs[f], f))
    
    topk = []
    # k번 만큼 추출, 최소 힙(Min Heap)이므로 가장 작음 음수 순으로 추출
    for _ in range(k):
        topk.append(heapq.heappop(freqs_heap)[1])
    
    return topk

#### 2) 파이썬다운 방식

In [58]:
def topKFrequent(nums: list, k: int) -> list:
    return list(zip(*collections.Counter(nums).most_common(k)))[0]

In [54]:
c.most_common(k)

[(1, 3), (2, 2)]

In [57]:
list(zip(*c.most_common(k)))

[(1, 2), (3, 2)]

#### cf) zip 함수
- 2개 이상의 시퀀스를 짧은 길이를 기준으로 일대일 대응하는 새로운 튜플 시퀀스를 만드는 역할

In [59]:
a = [1, 2, 3, 4, 5]
b = [2, 3, 4, 5]
c = [3, 4, 5]

In [60]:
list(zip(a, b))

[(1, 2), (2, 3), (3, 4), (4, 5)]

In [61]:
list(zip(a, b, c))

[(1, 2, 3), (2, 3, 4), (3, 4, 5)]

#### cf) 아스테리스트(*)
- \* : 언팩(Unpack), 즉 시퀀스를 풀어헤치는 연산자. 주로 튜플이나 리스트를 언패킹하는 데 사용

In [62]:
collections.Counter(nums).most_common(k)

[(1, 3), (2, 2)]

In [63]:
# 언패킹 O
list(zip(*collections.Counter(nums).most_common(k)))

[(1, 2), (3, 2)]

In [64]:
# 언패킹 X
list(zip(collections.Counter(nums).most_common(k)))

[((1, 3),), ((2, 2),)]

In [65]:
# 다른 예제
fruits = ['lemon', 'pear', 'watermelon', 'tomato']
fruits

['lemon', 'pear', 'watermelon', 'tomato']

In [67]:
print(fruits[0], fruits[1], fruits[2], fruits[3])

lemon pear watermelon tomato


In [68]:
print(*fruits)

lemon pear watermelon tomato


- 언패킹뿐만 아니라 함수의 파라미터가 되었을 때는 반대로 패킹(Packing)도 가능
- 위의 zip 함수 설명해서 파라미터를 여러 개 쓸 수 있다는 얘기 또한 내부적으로 zip 함수 정의에서 *로 패킹하고 있다는 얘기

In [69]:
def f(*params):
    print(params)

In [70]:
f('a', 'b', 'c')   # print의 기본 원리이기도 함

('a', 'b', 'c')


In [71]:
# 다른 예제
a, *b = [1, 2, 3, 4]

print(a)
print(b)

1
[2, 3, 4]


- \*\* : 키/값 페어를 언패킹

In [72]:
date_info = {'year': '2020', 'month': '01', 'day': '7'}
new_info = {**date_info, 'day': '7'}  # 새로운 값으로 업데이트도 시도
new_info

{'year': '2020', 'month': '01', 'day': '7'}