# 해시
## Key-value 쌍으로 데이터를 빠르게 찾아보기

- 알기 쉬운 비유: 책의 목차, 사전
    - 우리가 사전에서 단어를 찾을 때, A부터 Z까지 순서대로 하나씩 찾지 않고 특정 위치에 있음을 알고 빠르게 찾을 수 있게 만들어놨다.
    - 해시 알고리즘은 데이터를 특정 위치에 바로 저장하거나 찾을 수 있게 도와주는 '주소 생성기'라고 생각하면 된다.

- 해시의 정의: 해시 알고리즘은 어떤 입력값(문자열, 숫자 등)을 고정된 크기의 고유한 숫자(해시값)로 변환하는 함수입니다.
    - 이 해시값을 통해 빠르게 저장하고 검색 가능하다.

- 일반적으로 데이터를 찾기 위해 하나하나 순회하면 시간이 오래 걸리는데, 해시를 사용하면 바로 해당 위치로 점프해서 꺼내올 수 있어 검색 속도가 매우 빠르다

    - 일반 리스트 탐색: O(n)
    - 해시를 이용한 검색: O(1) (평균적으로)



## dict

- 파이썬의 딕셔너리는 해시 테이블 기반으로 `answer={}` 와 같이 딕셔너리를 선언한 후, `answer[i]` 형태로 값을 저장하고 불러오는 구조 자체가 내부적으로 해시를 사용하고 있는 구조
- 내부적으로 hash(key) 값을 이용해 빠르게 key-value 저장 및 조회
- 동작 원리:
    - 키를 해싱 → 해시값(주소) 계산
    - 해당 위치에 값을 저장 또는 검색
    - 즉, 딕셔너리의 핵심 원리는 해시입니다.

- 딕셔너리 정의

In [76]:
mydict={}
print("보통 중괄호를 사용하여 정의함 \n>", mydict)
print(type(mydict))

보통 중괄호를 사용하여 정의함 
> {}
<class 'dict'>


- `dict[key]=value` 와 같은 형태로 딕셔너리 추가

In [77]:
mydict['S']=3
mydict['B']=5
mydict['J']=6
mydict['O']=9
print(mydict)

{'S': 3, 'B': 5, 'J': 6, 'O': 9}


- value가 숫자인 경우, 해시 기반으로 값을 찾아 해당 값에 +1 해줄 수 있다.

In [78]:
mydict['S']+=1
mydict

{'S': 4, 'B': 5, 'J': 6, 'O': 9}

- 동일한 key가 여러 번 나오면 마지막 값이 덮어씀

In [79]:
mydict['O']=0
mydict

{'S': 4, 'B': 5, 'J': 6, 'O': 0}

- Key로 Value 얻기

In [89]:
mydict.get('S')

4

In [90]:
mydict['S']

4

- 해당 Key가 딕셔너리 안에 있는지 조사하기

In [91]:
'B' in mydict

True

In [92]:
'A' in mydict

False

- 딕셔너리 요소 삭제하기

In [120]:
del mydict['S']
mydict

{'B': 5, 'J': 6, 'O': 0}

- Key 리스트 만들기

In [121]:
print("mydict.keys() \n>", end=" ")
print(mydict.keys())

print('\n')

print("list(mydict.keys()) \n>", end=" ")
print(list(mydict.keys()))

mydict.keys() 
> dict_keys(['B', 'J', 'O'])


list(mydict.keys()) 
> ['B', 'J', 'O']


- Value 리스트 만들기

In [122]:
print("mydict.values() \n>", end=" ")
print(mydict.values())

print('\n')

print("list(mydict.values()) \n>", end=" ")
print(list(mydict.values()))

mydict.values() 
> dict_values([5, 6, 0])


list(mydict.values()) 
> [5, 6, 0]


- Key, Value 쌍 얻기

In [123]:
print("mydict \n>", end=" ")
print(mydict)

print('\n')

print("mydict.items() \n>", end=" ")
print(mydict.items())

mydict 
> {'B': 5, 'J': 6, 'O': 0}


mydict.items() 
> dict_items([('B', 5), ('J', 6), ('O', 0)])


In [124]:
for key_, value_ in mydict.items():
    print(key_, value_)

B 5
J 6
O 0


- 딕셔너리 정렬하기

In [None]:
mydict['A']=4

In [None]:
print("원본 \n>", mydict, end="\n\n")

print("key 기준 오름차순 정렬")
d1=sorted(mydict.items())
print(d1, end="\n\n")

print("key 기준 내림차순 정렬")
d2=sorted(mydict.items(), reverse=True)
print(d2, end="\n\n")

print("value 기준 오름차순 정렬")
d4=sorted(mydict.items(), key=lambda x:x[1])
print(d4, end="\n\n")

print("value 기준 내림차순 정렬")
d4=sorted(mydict.items(), key=lambda x:x[1], reverse=True)
print(d4, end="\n\n")

원본 
> {'B': 5, 'J': 6, 'O': 0, 'A': 4}

key 기준 오름차순 정렬
[('A', 4), ('B', 5), ('J', 6), ('O', 0)]

key 기준 내림차순 정렬
[('O', 0), ('J', 6), ('B', 5), ('A', 4)]

key 기준 내림차순 정렬
[('A', 4), ('B', 5), ('J', 6), ('O', 0)]

value 기준 오름차순 정렬
[('O', 0), ('A', 4), ('B', 5), ('J', 6)]

value 기준 내림차순 정렬
[('J', 6), ('B', 5), ('A', 4), ('O', 0)]



### dict, set 모두 내부적으로 hash() 사용

- set은 고유값을 저장할 때 주로 사용

In [70]:
print(hash("apple"))     # 문자열의 해시값 출력
print(hash((1, 2, 3)))   # 튜플도 해시 가능
print(hash([1, 2, 3]))   # 리스트는 에러! => 해시 불가 (mutable)

9075822220438183291
529344067295497451


TypeError: unhashable type: 'list'

## collections.Counter
- 리스트 요소 개수 세기에 최적화된 클래스 (해시 기반)
- 요소를 key로 해서 등장 횟수를 저장 (hash(key) 사용)

In [74]:
from collections import Counter

names = ['S', 'B', 'J', 'O', 'S', 'O']
count = Counter(names)
print(count)  # Counter({'S': 2, 'O': 2, 'B': 1, 'J': 1})

Counter({'S': 2, 'O': 2, 'B': 1, 'J': 1})


## collections.defaultdict

- 없는 키 접근 시 default value, hash(key)로 관리
- 자동 초기화

In [135]:
from collections import defaultdict

d = defaultdict(int)
for ch in 'hello':
    d[ch] += 1

print(d)  # {'h':1, 'e':1, 'l':2, 'o':1}

defaultdict(<class 'int'>, {'h': 1, 'e': 1, 'l': 2, 'o': 1})


# 문제

1. 완주하지 못한 선수 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/42576?language=python3)]

2. 폰켓몬 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/1845?language=python3)]

3. 전화번호 목록 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/42577?language=python3)]

4. 의상 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/42578)]

5. 베스트앨범 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/42579)]

## 1. 완주하지 못한 선수 [[링크](https://school.programmers.co.kr/learn/courses/30/lessons/42576?language=python3)]


- 수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다.

- participant: 마라톤에 참여한 선수들의 이름이 담긴 배열 
- completion: 완주한 선수들의 이름이 담긴 배열
- return: 완주하지 못한 선수의 이름


- 제한사항:
    - 마라톤 경기에 참여한 선수의 수는 1명 이상 100,000명 이하입니다.
    - completion의 길이는 participant의 길이보다 1 작습니다.
    - 참가자의 이름은 1개 이상 20개 이하의 알파벳 소문자로 이루어져 있습니다.
    - 참가자 중에는 동명이인이 있을 수 있습니다.

In [186]:
def test_case(solution):
    # 테스트 케이스
    case1_pred=solution(["leo", "kiki", "eden"], ["eden", "kiki"])
    case1_true="leo"

    case2_pred=solution(["marina", "josipa", "nikola", "vinko", "filipa"], ["josipa", "filipa", "marina", "nikola"])
    case2_true="vinko"

    case3_pred=solution(["mislav", "stanko", "mislav", "ana"], ["stanko", "ana", "mislav"])
    case3_true="mislav"

    # 채점 결과
    isanswer = [case1_pred==case1_true, case2_pred==case2_true, case3_pred==case3_true]
    print(len(isanswer), "개 중에", isanswer.count(True),"개 성공")

#### 방법 1: 정렬해서 비교

In [187]:
def solution1(participant, completion):
    participant.sort()
    completion.sort()
    for i in range(len(completion)):
        if participant[i] != completion[i]:
            return participant[i]
    return participant[-1]

# 테스트 케이스
test_case(solution1)

3 개 중에 3 개 성공


```
정확성  테스트
테스트 1 〉	통과 (0.01ms, 9.25MB)
테스트 2 〉	통과 (0.01ms, 9.25MB)
테스트 3 〉	통과 (0.21ms, 9.3MB)
테스트 4 〉	통과 (0.53ms, 9.4MB)
테스트 5 〉	통과 (0.55ms, 9.36MB)
테스트 6 〉	통과 (0.00ms, 9.26MB)
테스트 7 〉	통과 (0.00ms, 9.26MB)
효율성  테스트
테스트 1 〉	통과 (33.16ms, 17MB)
테스트 2 〉	통과 (55.98ms, 21.2MB)
테스트 3 〉	통과 (72.97ms, 23.9MB)
테스트 4 〉	통과 (73.73ms, 25.3MB)
테스트 5 〉	통과 (79.98ms, 25.3MB)
채점 결과
정확성: 58.3
효율성: 41.7
합계: 100.0 / 100.0
```

#### 방법 2: Counter 차집합

In [188]:
from collections import Counter

def solution2(participant, completion):
    return list((Counter(participant) - Counter(completion)).keys())[0]

# 테스트 케이스
test_case(solution2)

3 개 중에 3 개 성공


```
정확성  테스트
테스트 1 〉	통과 (0.04ms, 9.26MB)
테스트 2 〉	통과 (0.05ms, 9.25MB)
테스트 3 〉	통과 (0.34ms, 9.3MB)
테스트 4 〉	통과 (0.74ms, 9.46MB)
테스트 5 〉	통과 (0.75ms, 9.41MB)
테스트 6 〉	통과 (0.04ms, 9.24MB)
테스트 7 〉	통과 (0.05ms, 9.22MB)
효율성  테스트
테스트 1 〉	통과 (29.93ms, 23.5MB)
테스트 2 〉	통과 (44.26ms, 26.8MB)
테스트 3 〉	통과 (68.62ms, 29.3MB)
테스트 4 〉	통과 (94.17ms, 38.1MB)
테스트 5 〉	통과 (63.97ms, 38.1MB)
채점 결과
정확성: 58.3
효율성: 41.7
합계: 100.0 / 100.0
```

#### 방법 3: 해시값 누적 방식

In [189]:
def solution3(participant, completion):
    answer = ''
    temp = 0
    dic = {}
    for part in participant:
        dic[hash(part)] = part
        temp += int(hash(part))
    for com in completion:
        temp -= hash(com)
    answer = dic[temp]

    return answer

# 테스트 케이스
test_case(solution3)

3 개 중에 3 개 성공


```
정확성  테스트
테스트 1 〉	통과 (0.01ms, 9.26MB)
테스트 2 〉	통과 (0.02ms, 9.26MB)
테스트 3 〉	통과 (0.26ms, 9.27MB)
테스트 4 〉	통과 (0.53ms, 9.43MB)
테스트 5 〉	통과 (0.48ms, 9.47MB)
테스트 6 〉	통과 (0.00ms, 9.33MB)
테스트 7 〉	통과 (0.01ms, 9.32MB)
효율성  테스트
테스트 1 〉	통과 (24.23ms, 22.9MB)
테스트 2 〉	통과 (36.56ms, 27.4MB)
테스트 3 〉	통과 (42.30ms, 30.5MB)
테스트 4 〉	통과 (52.03ms, 36.7MB)
테스트 5 〉	통과 (49.21ms, 37MB)
채점 결과
정확성: 58.3
효율성: 41.7
합계: 100.0 / 100.0
```

#### 방법 4: 해시값 누적 + 다시 탐색

In [171]:
def solution4(participant, completion):
    hash_loser=sum([hash(a) for a in participant])-sum([hash(a) for a in completion])
    for a in participant:
        if hash(a)==hash_loser:
            return a
        
test_case(solution4)

3 개 중에 3 개 성공


```
정확성  테스트
테스트 1 〉	통과 (0.01ms, 9.09MB)
테스트 2 〉	통과 (0.01ms, 9.03MB)
테스트 3 〉	통과 (0.17ms, 9.16MB)
테스트 4 〉	통과 (0.50ms, 9.28MB)
테스트 5 〉	통과 (0.48ms, 9.35MB)
테스트 6 〉	통과 (0.00ms, 9.18MB)
테스트 7 〉	통과 (0.00ms, 9.23MB)
효율성  테스트
테스트 1 〉	통과 (15.00ms, 18.7MB)
테스트 2 〉	통과 (23.92ms, 23.4MB)
테스트 3 〉	통과 (34.93ms, 27.2MB)
테스트 4 〉	통과 (30.77ms, 28.7MB)
테스트 5 〉	통과 (28.11ms, 28.6MB)
채점 결과
정확성: 58.3
효율성: 41.7
합계: 100.0 / 100.0
```

#### 풀이 방법 4가지 비교

- 비교 요약

| 항목            | `solution1`(정렬 비교)               | `solution2`(Counter 이용)                           | `solution3`(해시값 합 + dict)                              | `solution4`(해시값 합만)     |
| ------------- | --------------------------- | --------------------------- | --------------------------- | --------------------------- |
| 💡 핵심 아이디어    | participant, completion 정렬 후 순서대로 비교 | `Counter(participant) - Counter(completion)` 후 key 추출 | 모든 이름의 `hash()` 값을 더한 후 완주자의 `hash()`를 빼고 남은 값을 `dict`로 매핑 | 해시값만 더하고 남은 해시값과 이름 비교      |
| 🧠 해시 사용 여부   | ❌ 사용 안 함                             | ✅ `Counter` = 내부적으로 `dict` (해시 사용)                    | ✅ 직접 `hash()` 사용 + `dict` 저장                               | ✅ `hash()`만 사용 (dict 없음)    |
| ⏱ 시간 복잡도      | O(n log n)                           | O(n)                                                  | O(n)                                                       | O(n)                        |
| 💾 공간 복잡도     | O(1)                                 | O(n)                                                  | O(n)                                                       | O(1)                        |
| 👥 동명이인 처리    | ✅ 가능                                 | ✅ 완벽히 처리                                              | ❌ `dict[hash(name)]` 덮어씌움                                  | ❌ `hash(name)` 비교만으로는 구분 불가 |
| 🔐 안정성 (충돌 등) | ✅ 매우 높음                              | ✅ 높음 (안정적, 검증됨)                                       | ❌ 낮음 (해시 충돌/덮어쓰기 위험)                                       | ❌ 낮음 (충돌 시 잘못된 이름 선택)       |
| 🧠 코드 직관성     | ✅ 명확함                                | ✅ 한 줄 풀이 가능, 직관적                                      | ❌ 해시값과 dict로 인한 추상화                                        | ✅ 짧지만 논리 불명확함               |
| ⭐ 추천도 (실전 기준) | ⭐⭐⭐⭐                                 | ⭐⭐⭐⭐⭐                                                 | ⭐⭐                                                         | ⭐⭐                          |


- Python의 hash()는 실행마다 값이 달라지고, 해시 충돌 가능성도 존재하므로 실무/대회에선 solution3, solution4는 피하는 게 안전함

| 항목          | `solution3`                       | `solution4`                                     |
| ----------- | --------------------------------- | ----------------------------------------------- |
| 🔧 구조       | `hash(name)` → dict에 저장           | `hash(name)`만 저장                                |
| 📦 이름 저장    | `dic[hash(name)] = name` 으로 이름 저장 | 이름은 저장 안 함                                      |
| 🔄 결과 찾기 방식 | `dic[temp]` 로 바로 이름 반환            | participant 전체 순회하며 `hash(name)==hash_loser` 찾음 |
| ⚠️ 해시 충돌 시  | 위험 (충돌 시 덮어씀)                     | 위험 (동일 hash가 여러 이름일 경우)                         |
| 🧠 해시 활용 정도 | 해시값 → 키로 사용 + 더하기                 | 해시값만 더하고 단순 비교                                  |
| 💡 장점       | 이름 조회 빠름 (dict lookup)            | 코드 간단함, dict 안 씀                                |
| 🔻 단점       | 해시 충돌 시 이름 덮어씌움                   | 해시 충돌 시 `hash(name)==hash_loser` 여러 개 가능        |