# 해시 테이블

## 개념
- 해시 테이블: 키와 값의 대응으로 이루어진 표(테이블)와 같은 형태의 자료구조
    - 빠른 속도를 가지고 있음. 삽입, 검색, 삭제의 연산 복잡도는 O(1)
    - 다만, 공간 복잡도가 큰 문제와 해시 충돌 문제 존재
- 버킷: 해시 테이블에서 키-값 쌍이 저장되는 공간
  - ![](https://i.sstatic.net/0yjYd.png)

## 해시 함수
- 해시 함수: 임의의 길이를 지닌 데이터를 고정된 길이의 데이터로 변환하는 단방향 함수
- 사용 예시
    - 데이터 무결성 검증: 파일이 전송 중에 변경되지 않았는지 확인
        - 파일 다운로드 시 해시 값 비교
        - 디지털 포렌식에서 증거물의 무결성 검증을 통해, 증거물이 변조되지 않았음을 확인
            - ![](https://sleuthkit.org/autopsy/docs/user-docs/4.22.0/data_source_integrity_failed_artifact.png)
    - 비밀번호 저장: 비밀번호를 해시 값으로 저장하여 보안 강화

In [13]:
import hashlib

# 해시 충돌이 일어날 수 있으므로, 해당 알고리즘은 사용하지 않는 것이 좋음
md5 = hashlib.md5(b"Hello, World!").hexdigest()
print(md5)

# 해시 충돌이 일어날 수 있으므로, 해당 알고리즘은 사용하지 않는 것이 좋음
sha1 = hashlib.sha1(b"Hello, World!").hexdigest()
print(sha1)

sha256 = hashlib.sha256(b"Hello, World!").hexdigest()
print(sha256)

sha512 = hashlib.sha512(b"Hello, World!").hexdigest()
print(sha512)

65a8e27d8879283831b664bd8b7f0ad4
0a0a9f2a6772942557ab5355d76af442f8f65e01
dffd6021bb2bd5b0af676290809ec3a53191dd81c7f70a4b28688a362182986f
374d794a95cdcfd8b35993185fef9ba368f160d8daf432d08ba9f1ed1e5abe6cc69291e0fa2fe0006a52570ef18c19def4e617c33ce52ef0a6e5fbe318cb0387


- 해시 충돌: 서로 다른 입력이 동일한 해시 값을 생성하는 현상
    - ![](https://csnote.net/assets/img/ds/hashcollision.png)

In [14]:
import hashlib

def calculate_sha1(file_path):
    sha1 = hashlib.sha1()
    with open(file_path, 'rb') as file:
        while chunk := file.read(8192):
            sha1.update(chunk)
    return sha1.hexdigest()

file_path1 = 'pdf/shattered-1.pdf'
sha1_hash1 = calculate_sha1(file_path1)
print(f"The SHA-1 hash of shattered-1: {sha1_hash1}")

file_path2 = 'pdf/shattered-2.pdf'
sha1_hash2 = calculate_sha1(file_path2)
print(f"The SHA-1 hash of shattered-2: {sha1_hash2}")

The SHA-1 hash of shattered-1: 38762cf7f55934b34d179ae6a4c80cadccbb7f0a
The SHA-1 hash of shattered-2: 38762cf7f55934b34d179ae6a4c80cadccbb7f0a


- 해시 충돌의 해결 방법
    - 체이닝: 충돌이 발생한 데이터를 연결 리스트로 저장하는 방식.
    - 개방 주소법: 충돌이 발생한 데이터를 해시 테이블의 다른 빈 공간에 저장하는 방식.
        - 선형 조사법: 충돌이 발생할 경우 해시 테이블의 다음 빈 공간을 찾는 방식
            - 군집화: 해시 충돌이 빈번하게 발생하여, 데이터가 특정 구역에 집중되는 현상, 선형 조사법에서 주로 발생
        - 이차 조사법: 충돌이 발생할 경우 일정한 간격으로 떨어진 빈 공간을 찾는 방식
    - 이중 해싱: 두 개의 해시 함수를 사용하여 충돌을 해결하는 방식
    - ![](https://velog.velcdn.com/images/redoyp/post/9fb7291a-aadb-40f3-9b0d-f50a6a93242b/image.png)

## 참고 자료
- https://csnote.net/
- https://stackoverflow.com/questions/21260861/hashtable-and-the-bucket-array
- https://velog.io/@redoyp/%ED%95%B4%EC%8B%9C-%ED%85%8C%EC%9D%B4%EB%B8%94Hash-Table-2