## 08 해시
### 08-1 해시의 개념

- 해시 함수를 사용해서 변환한 값을 인덱스로 삼아 키와 값을 저장해서 빠른 데이터 탐색을 제공하는 자료구조
- 보통은 인덱스를 활용해 탐색을 빠르게 만들지만, 해시는 키(Key)를 활용해 데이터 탐색을 빠르게 한다

- 해시의 특징
    1. 단방향으로 동작 : 키를 통해 값을 찾을 수 있지만, 값을 통해 키를 찾을 수 없다.
    2. 찾고자 하는 값을 O(1)에서 바로 찾을 수 있다
    (키 자체가 해시함수에 의해 값이 있는 인덱스가 되므로 값을 찾기위한 탐색 과정이 필요 없다)
    3. 값을 인덱스로 활용하려면 적절한 변환 과정을 거쳐야 한다.

- 해시 테이블 : 키와 대응한 "값"이 저장된 공간
- 해시 테이블의 각 데이터를 "버킷(bucket)"이라고 부른다
- 해시가 활용되는 실제 사례
    - 비밀번호 관리 : 해싱한 비밀번호를 저장
    - 데이터베이스 인덱싱 : DB에 저장된 데이터를 효율적으로 검색할때 해시 활용
    - 블록체인 : 각 블록은 이전 블록의 해시값을 포함하고 있으며, 이를 통해 데이터 무결성 확인 가능

### 08-2 해시 함수

- 파이썬에서는 딕셔너리를 활용해 해시를 쉽게 사용할 수 있음.

- 해시 함수를 구현할 때 고려할 내용
    1. 해시 함수가 변환한 값은 인덱스로 활용해야 하므로 해시 테이블의 크기를 넘으면 안된다.
    ex) 해시 테이블의 크기가 N일 경우 해시 함수의 결과는 0~(N-1) 사이의 값을 내야함
    2. 해시 함수가 변환한 값의 충돌은 최대한 적게 발생해야 한다.
    충돌이란: 두 키에 대해 해싱 함수를 적용한 결과가 동일한 것을 의미 
    

- 자주 사용하는 해시 함수
    1. 나눗셈법 : 가장 떠올리기 쉬운 단순한 해시 함수
        - 키를 소수로 나눈 나머지를 인덱스로 활용, 나머지를 취하는 연산을 모듈러 연산이라고 함, 연산자는 "%"
            - h(x) = x mod k : x 는 키, k는 소수
        - 키를 소수로 나누는 이유 : 다른 수를 사용할 때보다 충돌이 적기 때문

    2. 곱셈법 : 모듈러 연산을 활용하지만 소수는 활용하지 않는다
        - h(x) = (((x*A) mod 1) * m) : m은 최대 버킷의 개수, A는 황금비
        - 황금비는 무한소수 : 0.6183
        - 순서 : 
            1. 키에 황금비(0.6183) 곱한다
            2. 1단계에서 구한 값의 모듈러 1을 취한다 (정수부분은 버리고 소수부분만 취한다. 0.xxx)
            3. 2단계에서 구한 값을 실제 해시 테이블에 매핑 (테이블 크기가 m이면 2단계에서 구한 수에 m곱한 후 정수 부분을 취하는 연산 수행)
        
        - 곱셈법은 황금비를 사용하므로 나눗셈법처럼 소수가 필요 없다는 장점이 존재

- 문자열 해싱 (키의 자료형이 문자열일때 사용할 수 있는 해시 함수)
    - 문자열의 문자를 숫자로 변환하고, 숫자들을 다항식의 값으로 변환해서 해싱. (공식 김 p226참조)
    - 매치표 : a=1, b=2, c=3 ... z=26




    


### 08-3 충돌 처리

- 하나의 버킷에 2개의 값을 넣을 수 없으므로 해시 테이블 관리 시 반드시 충돌 처리를 해야함

1. 체이닝으로 처리하기
    - 해시 테이블에 데이터를 저장할 때 해싱한 값이 같은 경우 충돌을 해결하는 간단한 방법
    - linked list(데이터 요소들을 연결하여 구성한 선형 데이터 구조)
    - 단점
        - 해시 테이블 공간 활용성 떨어짐
        - 링크드리스트 자체의 한계 때문에 검색 성능이 떨어짐

2. 개방 주소법으로 처리하기
    : 빈 버킷을 찾아 충돌값을 삽입하는 방법, 해시 테이블을 최대한 활용하므로 체이닝보다 메모리 더 효율적으로 사용

    - 선형 탐사 방식 : 충돌 발생 시 다른 빈 버킷을 찾을 때까지 일정한 간격으로 이동 (보통 간격은 1)
        - 수식 : h(k, i) = (h(k)+i) mod m , m은 수용할 수 있는 최대 버킷

    - 단점 : 충돌 발생 시 1칸씩 이동하며 해시 테이블 빈 곳에 값을 넣으면 해시 충돌이 발생한 값끼리 모이는 영역 발생
    - 이를 "클러스터" 형성 이라고 함, 이런 군집이 발생하면 해시값은 겹칠 활률이 더 올라감 

3. 이중 해싱 방식
    : 말 그대로 해시 함수를 2개 사용, 때에 따라 함수를 N개로 늘리기도 함

    - 수식 : h(k, i) = (h1(k)+i * h2(k)) mod m, m은 제곱수 이거나 소수
    - 선형탐사와 비슷한 방식으로 데이터의 위치를 정하지만, 
    - 클러스터를 줄이기 위해 m을 제곱수로 하거나 소수로 지정, 
    - 주어지는 키마다 점프하는 위치를 해시 함수로 다르게 해서 클러스터 형성을 최대한 피하기 위함 
