### e: 28, 29
### m: 30, 31

# 11장 해쉬테이블

해시 테이블 = 해시맵 : 연관배열 ADT를 구현하는 자료구조  
  
hashing : 해시테이블을 인덱싱하기 위해  
해시함수에 키(어떤 간단한 규칙을 통해 만들어낸 충분히 랜덤한 상태의 값)를 통과시켜  
고정크기의 특정값으로 맵핑하는 것  
해싱에는 다양한 알고리즘이 있으며, 최상의 분포를 제공하는 방법은 데이터에 따라 제각각이다.  
  
성능 좋은 해시함수의 특징  

    해시충돌 최소화
    쉽고 빠른 연산
    해시테이블 전체에 해시값 균일 분포
    사용할 키의 모든 정보를 이용해 해싱
    해시 테이블 사용효율이 높음

### 비둘기집 원리
N개의 item을 M개의 서랍에 넣을 때,  
N > M 이라면  
하나의 서랍에는 반드시 2개 이상의 item이 들어 있다

### 생일문제
1년 365일 중 생일이 겹치는 사람이 있을 확률이 50%가 넘는데 23명만 있으면 된다.  
  
57명이 있으면 99%에 달한다  
  
생일문제가 보여주는 건, 생각보다 해시충돌이 쉽게 일어날 수 있다는 것.  

In [16]:
import random

TRIALS = 100000
same_birthdays = 0

for _ in range(TRIALS):
    birthdays = []
    
    for i in range(23):
        birthday = random.randint(1, 365)
        if birthday in birthdays:
            same_birthdays += 1
            break
        birthdays.append(birthday)

print(f'{same_birthdays / TRIALS * 100}%')

50.561%


In [17]:
same_birthdays

50561

In [6]:
import random

TRIALS = 10000
same_birthdays = 0

for _ in range(TRIALS):
    birthdays = []
    
    for i in range(57):
        birthday = random.randint(1, 365)
        if birthday in birthdays:
            same_birthdays += 1
            break
        birthdays.append(birthday)

print(f'{same_birthdays / TRIALS * 100}%')

98.99799999999999%


In [7]:
same_birthdays

98998

    해시 함수에서의 충돌이란 다른 입력값에 대해 동일한 해시 값을 생성하는 것을 의미합니다. 
    해시 함수는 일반적으로 많은 가능한 입력값(예: 무한한 문자열)을 
    유한한 수의 해시 값(예: 고정된 길이의 비트 문자열)으로 매핑합니다.

    비둘기집 원리 적용: 
    해시 함수의 경우, 가능한 입력값의 수(N)가 해시 값의 수(M)보다 많다면, 
    비둘기집 원리에 따라 반드시 해시 충돌이 발생해야 합니다. 
    즉, 두 개 이상의 다른 입력값이 동일한 해시 값을 가질 수밖에 없습니다.

    생일 문제와의 관계: 
    해시 함수에서 충돌의 확률은 생일 문제와 유사하게 생각할 수 있습니다. 
    생일 문제에서는 사람의 수가 증가함에 따라 
    같은 생일을 가진 두 사람이 있을 확률이 급격히 증가합니다.

    마찬가지로, 해시 함수에 많은 수의 입력값이 주어질수록, 
    다른 입력값에 대해 동일한 해시 값을 가질 확률도 증가합니다. 
    이는 해시 함수의 충돌 확률이 입력값의 수가 증가함에 따라 
    생각보다 빠르게 증가한다는 것을 의미합니다.

### 로드팩터

load factor = n / k  
n : 해시테이블에 저장된 데이터 개수  
k : 버킷의 개수  
  
로드팩터가 증가하면 해시테이블 성능은 감소하며   
로드팩터가 특정값을 넘기면 해시테이블의 공간을 동적배열처럼 재할당해주기도 한다  

In [18]:
def hash(s, HASHSIZE):
    hashval = 0
    for char in s:
        hashval = ord(char) + 31 * hashval
    return hashval % HASHSIZE

# 사용 예시
HASHSIZE = 1024  # 예를 들어 해시 테이블 크기가 1024라고 가정
s = "your_string_here"
hash_value = hash(s, HASHSIZE)
print(hash_value)

338


# 문28 해시맵 디자인 e
https://leetcode.com/problems/design-hashmap/

In [None]:
Design a HashMap without using any built-in hash table libraries.

Implement the MyHashMap class:

MyHashMap() initializes the object with an empty map.
void put(int key, int value) inserts a (key, value) pair into the HashMap. If the key already exists in the map, update the corresponding value.
int get(int key) returns the value to which the specified key is mapped, or -1 if this map contains no mapping for the key.
void remove(key) removes the key and its corresponding value if the map contains the mapping for the key.
 

Example 1:

Input
["MyHashMap", "put", "put", "get", "get", "put", "get", "remove", "get"]
[[], [1, 1], [2, 2], [1], [3], [2, 1], [2], [2], [2]]

Output
[null, null, null, 1, -1, null, 1, null, -1]

In [None]:
class MyHashMap:

    def __init__(self):
        

    def put(self, key: int, value: int) -> None:
        

    def get(self, key: int) -> int:
        

    def remove(self, key: int) -> None:
        


# Your MyHashMap object will be instantiated and called as such:
# obj = MyHashMap()
# obj.put(key,value)
# param_2 = obj.get(key)
# obj.remove(key)

### 책 풀이

In [1]:
import collections

class MyHashMap:

    def __init__(self):

        self.size = 1000
        self.table = collections.defaultdict(ListNode)

    def put(self, key: int, value: int) -> None:

        index = key % self.size
        if self.table[index].value is None:
            self.table[index] = ListNode(key, value)
            return

        p = self.table[index]
        while p:
            if p.key == key:
                p.value = value
                return
            if p.next is None:
                break
            p = p.next
        p.next = ListNode(key, value)

    def get(self, key: int) -> int:

        index = key % self.size
        if self.table[index].value is None:
            return -1

        p = self.table[index]
        while p:
            if p.key == key:
                return p.value
            p = p.next
        return -1

    def remove(self, key: int) -> None:

        index = key % self.size
        if self.table[index].value is None:
            return

        p = self.table[index]
        if p.key == key:
            self.table[index] = ListNode() if p.next is None else p.next
            return
            
        prev = p
        while p:
            if p.key == key:
                prev.next = p.next
                return
            prev, p = p, p.next
        
class ListNode:
    
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.next = None

# Your MyHashMap object will be instantiated and called as such:
# obj = MyHashMap()
# obj.put(key,value)
# param_2 = obj.get(key)
# obj.remove(key)

In [2]:
class MyHashMap:

    def __init__(self):
        self.hmap = {}

    def put(self, key: int, value: int) -> None:
        self.hmap[key] = value

    def get(self, key: int) -> int:
        return self.hmap.get(key, -1)
        
    def remove(self, key: int) -> None:
        self.hmap.pop(key, None)

# 문29 보석과 돌 e
https://leetcode.com/problems/jewels-and-stones/

In [None]:
You're given strings jewels representing the types of stones that are jewels, 
and stones representing the stones you have. Each character in stones is a type of stone you have. 
You want to know how many of the stones you have are also jewels.

Letters are case sensitive, so "a" is considered a different type of stone from "A".

Example 1:

Input: jewels = "aA", stones = "aAAbbbb"
Output: 3

Example 2:

Input: jewels = "z", stones = "ZZ"
Output: 0

class Solution:
    def numJewelsInStones(self, jewels: str, stones: str) -> int:
        

### 내 풀이

In [42]:
from collections import Counter

def numJewelsInStones(jewels, stones):
    
    jewel = " ".join(jewels).split()
    jewel.append(jewels)
    cnt = 0
    for j in jewel:
        counter = Counter(stones)
        cnt += counter[j]
        
    return cnt

In [43]:
jewels = "aA"
stones = "aAAbbbb"
numJewelsInStones(jewels, stones)

3

### 책 풀이

In [44]:
def numJewelsInStones(jewels, stones):
    counter = Counter(stones)
    cnt = 0
    for j in jewels:
        cnt += counter[j]

    return cnt

jewels = "aA"
stones = "aAAbbbb"
numJewelsInStones(jewels, stones)

3

In [45]:
def numJewelsInStones(jewels, stones):
    cnt = 0
    for s in stones:
        if s in jewels:
            cnt += 1 

    return cnt
jewels = "aA"
stones = "aAAbbbb"
numJewelsInStones(jewels, stones)

3

# 문30 중복문자 없는 가장 긴 부분 문자열 m
https://leetcode.com/problems/longest-substring-without-repeating-characters


In [None]:
Given a string s, 
find the length of the longest substring without repeating characters.

Example 1:
Input: s = "abcabcbb"
Output: 3
Explanation: The answer is "abc", with the length of 3.

In [42]:
hash_map

{'a': 10, 'b': 7, 'c': 9, 'd': 8}

In [None]:
기간을 구하는 것       "13일 ~ 21일 (13일부터 21일까지는 총 몇 일인가?)"

구간을 구하는 것       "107p ~ 127p (107p부터 127p까지는 총 몇 p인가?)"
상한, 하한을 구하는 것  "93p 이상, 118p 이하"

뒤에서부터 세는 것     "7, 8, 9, 10 뒤에서 세번째 수는?"

앞에서부터 세는 것     "1, 2, 3, 4 앞에서 세번째 수는?"

    # 공통점
    1. 모두 기준점을 포함하여 세는 일이다.
    2. 연속적인 정수 구간이다. 1씩 증가하거나 1씩 감소한다.
    3. 기수(기간, 구간), 서수(순서) 모두 해당된다. 

    # 계산법
    1. 기준점이 맨 뒤에 있는 경우
    기준점에서 시작점을 빼고 1을 더한다.
    21-13+1 = 9일 
    127-107+1 = 21p
    10-7+1 = 8

    2. 기준점이 맨 앞에 있는 경우
    기준점에 끝점을 더하고 1을 뺀다.
    1+3-1 = 3

# 기준점을 포함하지 않고 세는 경우
"오늘은 1일이다. 기한은 오늘부터 3일 뒤다. 기한은 몇일인가?"

    오늘(기준점)을 기한에 포함하지 않는 경우 :
        1 + 3 = 4일
    
    일반적으로는 4일로 보는 게 맞는 것 같다. 
    
따라서 기준점을 포함하지 않을 땐, 기준점이 맨 앞에 있는 경우 끝점에서 기간을 빼기만 하면 기준점이 나온다.
"기한은 시작일로부터 3일 뒤다. 기한은 4일이었다. 시작인은 몇일인가?

    4 - 3 = 1

# 기준점 포함의 모호함 
"오늘은 1일이다. 기한은 오늘부터 3일 뒤다. 기한은 몇일인가?"
                
시작일이 1일이고, 시작일 1일을 포함해 계산하는 것과 포함하지 않고 계산하는 것에 차이가 있다.

포함하지 않고 계산 : 1 + 3 = 4일

포함하고 계산 : 1 + 3 - 1 = 3일 

일상언어에서 "부터" 라는 말은 "시작일을 포함"을 의미할 수 도 있고  "시작일을 포함하지 않음"을 의미할 수도 있는 것 같다.

시작일을 포함한다고 해석하는 경우에도 기한이 4일이 될 수 있다.

만약 1일 오후 1시에 저 말을 했다면
오늘을 포함했을 때 3일 뒤는 

2일 오후 1시, 
3일 오후 1시 
4일 오후 1시를 의미하는 것인가? 
이는 "오늘은 1일이다. 기한은 지금 시각 오후 1시부터 3일 뒤다. 1일은 24시간으로 한다. 기한은 몇일인가?" 라고 말했어야 더 정확해 보인다.
그리고 이 해석은 기한을 시간단위로 해석한 것처럼 보인다.

아니면 
1일은 23:59:59 까지를 의미하고, 따라서
오늘을 포함했을 때 3일 뒤는
1일 23:59:59
2일 23:59:59
3일 23:59:59를 의미하는 것인가?
이 해석은 기한을 일자 단위로 해석한 것처럼 보인다.
그리고 이렇게 의미하고자 했다면 
"오늘은 1일이다. 기한은 오늘 포함 3일 뒤다. 1일은 당일 23:59:59까지를 의미한다. 기한은 몇일인가?" 라고 말했어야 더 정확해 보인다.

시작일을 포함하지 않았을 때 3일 뒤는
2일 23:59:59
3일 23:59:59
4일 23:59:59를 의미하는 것인가? 그러면 "오늘부터" 가 아니라 
"오늘은 1일이다. 기한은 '오늘 이후' 3일 뒤다. 1일은 24시간으로 한다. 기한은 몇일인가?" 라고 말했어야 더 정확한 것이 아닐까?

일상언어에서는  "오늘은 1일이다. 기한은 오늘부터 3일 뒤다. 기한은 몇일인가?" 라고 말했을 땐
위 3가지 경우로 해석하고 이해하는 게 모두 가능하다.

    오늘(기준점)을 기한에 포함하는 경우 :
        1 + 3 = 4일 
        1 + 3 - 1 = 3일
        둘다 가능
        
    오늘(기준점)을 기한에 포함하지 않는 경우 :
        1 + 3 = 4일 

In [None]:
s = "abcabcbbdca"
#    0123456789
hash_map = {}
left = 0
window = 0
# left는 윈도우의 시작, idx는 윈도우의 끝을 나타낸다.

for idx, char in enumerate(s):
    
    if char in hash_map and left <= hash_map[char]: # 중복된 문자를 만나고, 해당 중복문자의 위치(index)가 
                                                    # 윈도우 시작점(left)보다 크거나 같으면 
                                             # 다시 말해 중복된 문자를 만났을 때, 
                                             # 해당 문자의 직전 등장 위치 hash_map[char]가 윈도우 범위 안에 있는 경우에만
                                             # 윈도우 시작점 위치를 중복된 문자 위치 바깥으로 옮겨줘야 하므로
                                             # 바꿔 말해 이전에 나왔던 문자(중복된 문자)더라도 윈도우 시작점보다 작으면
                                             # i.e. 윈도우 왼쪽 바깥에 있으면, left를 그대로 두고 
                                             # 해당 문자 인덱스를 윈도우 끝으로 만들어줘야 하므로 hash_map[char] = idx 
                                    # left <= hash_map[char] 이 조건이 없으면 중복문자가 윈도우 범위 왼쪽 바깥에 있는 경우를
                                    # 제외하지 않게 돼서 left 값이 풀려버려 윈도우 범위가 왼쪽으로 다시 확장하게 된다.
                                
        left = hash_map[char] + 1     # left 포인터를 해당 중복문자가 바로 직전 등장한 위치(인덱스) 오른쪽에 둔다.
                                      # 해당문자가 바로 직전 등장한 위치가, 윈도우 시작점보다 왼쪽에 있으면, 윈도우 시작점을 갱신하지 않는다.


    hash_map[char] = idx   # 문자열의 문자를 순서대로 딕셔너리의 키로 집어 넣고, 해당 위치(인덱스)를 밸류로 입력한다.
                           # 즉 딕셔너리에는 문자열의 각 문자가 마지막으로 등장한 위치가 저장된다.

    window = max(window, idx - left + 1) # window 업데이트

![image](./window.png)

# 문31 상위 K 빈도 요소
https://leetcode.com/problems/top-k-frequent-elements/

In [None]:
Given an integer array nums and an integer k, 
return the k most frequent elements. You may return the answer in any order.


Example 1:

Input: nums = [1,1,1,2,2,3], k = 2
Output: [1,2]

Example 2:

Input: nums = [1], k = 1
Output: [1]


Constraints:

1 <= nums.length <= 105
-104 <= nums[i] <= 104
k is in the range [1, the number of unique elements in the array].
It is guaranteed that the answer is unique.
 

Follow up: Your algorithm's time complexity must be better than O(n log n), where n is the array's size.

class Solution:
    def topKFrequent(self, nums: List[int], k: int) -> List[int]:
        