# 해시


**해시(hash)**: 다양한 길이를 가진 데이터를 고정된 길이를 가진 데이터로 매핑 한 값
 

In [11]:
print(hash('a'))
print(hash('abcde'))
print(hash('a.'))

7814203811720198619
-834559912292454750
-2134216309647183947


In [12]:
import hashlib
data = 'abcde'.encode()
hash_object = hashlib.sha256()     # 어떤 해시 알고리즘 쓸건지 지정
hash_object.update(data)           # 어떤 값 해싱할 것인지 지정
hex_dig = hash_object.hexdigest()  # 16진수로 해시값을 리턴
print(hex_dig)

36bbe50ed96841d10443bcb670d6554f0a34b761be67ec9c4a8ad2c0c44ca42c


- 컴파일러가 사용하는 심볼 테이블, 데이터 베이스, 보안 등 다양한 분야에서 활용된다.

### 자료구조

**해시 테이블**: 키(key)에 데이터(value)를 저장하는 데이터 구조 

**해시 함수**: 키를 입력으로 받아 연산을 통해 해시 테이블에서 데이터의 위치를 찾을 수 있는 함수

**슬롯(slot)**: 한 개의 데이터를 저장할 수 있는 공간 

<img width="400" alt="해시" src="https://user-images.githubusercontent.com/93698409/179423314-260f77f9-538d-4a4a-9d33-f985ee30dc4f.png">


In [42]:
# 리스트 데이터 초기화
hash_table = list([0 for i in range(8)])
print(hash_table)

# 해시 함수에 키를 넣으면 해시값을 리턴해준다
def hash_func(string):
    return hash(string) % 8

# 값을 넣을 때
hash_table[hash_func('Dave')] = '010-1234-5678'
print(hash_table[hash_func('Dave')])
print(hash_table)

[0, 0, 0, 0, 0, 0, 0, 0]
010-1234-5678
[0, 0, 0, '010-1234-5678', 0, 0, 0, 0]


**용도**: 
- 검색이 많이 필요한 경우
- 저장, 삭제, 읽기가 빈번한 경우 
- 캐시 구현

**장점**:
- 데이터 저장/읽는 속도가 빠르다
- key에 대한 데이터가 있는지 중복 확인이 쉬움

**단점**:
- 저장공간이 많이 사용된다
- 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요함

**충돌 해결 방안**
1. **Chaining 기법**: 해시 테이블의 하나의 위치가 여러 개의 항목을 저장할 수 있도록 해시테이블의 구조를 변경 

<img width="758" alt="chain" src="https://user-images.githubusercontent.com/93698409/179424589-16b873be-5e70-44a7-9084-051e3955e75c.png">

- C++, 자바, 고 등에서 사용
- 문제점: 모든 해시 충돌이 발생했다고 가정할 경우에 O(n)이 된다


2. **Open Addressing 기법 (개방 주소법)**: 충돌이 일어난 항목을 해시 테이블의 다른 위치에 저장

<img width="500" alt="open" src="https://user-images.githubusercontent.com/93698409/179424599-3f9b1503-3e46-4117-b640-e816e58ecdd0.png">

- 루비, 파이썬 등에서 사용
- 문제점: 해시 테이블에 저장되는 데이터들이 고르게 분포되지 않고 뭉치는 경향이 있다(클러스터링 - 탐색 시간을 오래 걸리게 하며 전체적으로 해싱 효율을 떨어뜨리는 원인이 된다)

3. 해시 함수 재정의 및 해시 테이블 저장공간을 확대 

### 파이썬에서의 해시 

**딕셔너리**: 내부적으로 해시로 구현되어 있다

dict = {
    'key1': 'value1',
    'key2': 'value2'
}
- 충돌 시 오픈 어드레싱 방식을 사용하여 해결한다
- 연결 리스트를 만들기 위해서는 추가 메모리 할당이 필요하고, 추가 메모리 할당은 상대적으로 느린 작업이기 때문에 택하지 않았다고 한다 

**사용하면 좋을 때**

1. **리스트 사용하지 못할 때**: 리스트는 숫자 인덱스를 사용하여 원소에 접근하는데 인덱스 값을 숫자가 아닌 다른 값(문자열)로 사용하려고 할 때


2. **빠른 접근/탐색이 필요할 때**: 딕셔너리 함수의 시간 복잡도는 대부분 O(1)이다


3. **집계가 필요할 때**: 원소의 개수를 세는 문제로 자주 출제, 해시와 collections 모듈의 Counter 클래스를 사용하면 빠르게 문제를 풀 수 있음


**시간복잡도**

<img width="711" alt="시간복잡도" src="https://user-images.githubusercontent.com/93698409/179431403-a6e65d2c-19ec-4652-b3e1-fa7b7be7fac4.png">

 
**함수**
<img width="700" alt="functions" src="https://user-images.githubusercontent.com/93698409/179433895-5d2f924c-d835-4b27-b453-e331e684f6a5.png">

**예제**

https://leetcode.com/problems/two-sum/

리스트 사용: $O(n^2)$의 시간 복잡도

In [35]:
nums = [3,2,4]
target = 6

for i in range(1, len(nums)): # O(n)
    for j in range(i): # O(n)
        if nums[i] + nums[j] == target:
            print(j, i)

1 2


딕셔너리 사용: $O(n)$의 시간 복잡도

In [34]:
nums = [3,2,4]
target = 6

dif = {}

for i in range(len(nums)): # O(n) 
    difference = target - nums[i]
    if nums[i] in dif.keys(): # O(1) 
        index = dif[nums[i]]
        print(index, i)
    else:
        dif[difference] = i

    #dif[3] = 0, dif[2] = 1, dif[4] = 2 

1 2


https://leetcode.com/problems/contains-duplicate/

In [24]:
chars = ['a','b','c','a']
isDuplicate = False
dict = {}

for c in chars:
    if c in dict:
        isDuplicate = True
    else:
        dict[c] = 1
        

print(isDuplicate)

True


**collections.defaultdict 사용**

In [28]:
dict = {}
dict['a']

KeyError: 'a'

In [43]:
from collections import defaultdict

dict = defaultdict(int)
print(dict['a']) # 키가 없더라도 에러가 나지 않는다 
print(dict)

0
defaultdict(<class 'int'>, {'a': 0})


In [41]:
from collections import defaultdict

chars = ['a','b','c','a']
isDuplicate = False
dict = defaultdict(int)

for c in chars:
    dict[c] += 1 # 딕셔너리에 키가 없어도 에러가 나지 않고 값이 추가된다
    if dict[c] > 1:
        isDuplicate = True
        

print(isDuplicate)

True


**collections.Counter 사용**

In [25]:
from collections import Counter

chars = ['a','b','c','a']
isDuplicate = False
counter = Counter(nums)

print(counter)

for key, value in counter.items():
    if value > 1:
        isDuplicate = True

print(isDuplicate)

Counter({'a': 2, 'b': 1, 'c': 1})
True


**hash값 이용**

In [27]:
chars1 = ['a','b','c','a']
chars2 = ['a','b','c']
dict = {}
hash_sum = 0

for c1 in chars1:
    dict[hash(c1)] = c1
    hash_sum += hash(c1)
    
for c2 in chars2:
    hash_sum -= hash(c2)

print(dict[hash_sum])
    

a


**풀어야 할 문제**

https://school.programmers.co.kr/learn/courses/30/lessons/42577
https://school.programmers.co.kr/learn/courses/30/lessons/42578