In [None]:
# 해시 탐색법

# 선형 탐색이나 이진 탐색의 전제 조건은 어떤 데이터가 어떤 요소(index)에 있는지
# 전혀 모르는 상태에서 검색을 시작한다는 것이다.
# 그러나 해시 탐색법은 데이터의 '내용'과 저장한 곳의 '요소'를 미리 저장할 떄
# 연계를 해서 극히(***) 짧은 시간 안에 탐색할 수 있도록 고안된 알고리즘이다.

# 24인 데이터는 첨자 24에 넣어두고 36데이터는 첨자 36에 넣어두는 것이다.
# 단지 2개의 데이터를 보관하는데 최소한 37개의 요소의 배열이 필요하다.
# 낭비가 심해진다.

해시 탐색법의 특징은 나중에 데이터를 쉽게 찾도록 보관하는 단계에서 사전준비를
해두는 것이 특징이다.

11 15 23 26

가장 알기 쉬운 방법은 데이터를 데이터의 숫자와 같은 방에 넣어두는 것이다.
하지만 메모리의 불필요한 누수가 커진다.
따라서,

먼저 방을 7개를 준비한다. index 0 ~ index 6

0 1 2 3 4 5 6

11 15 23 26
11 % 7(index의 수) = 4
15 % 7                = 1
23 % 7                = 2
26 % 7                = 5

0   1   2   3   4   5   6
  15  23       11 26
    
제대로 흩어진 상태가 되었다, 각각의 데이터를 나머지 값과 같은 번호의 방에 넣어 둔다.

데이터를 넣은 방의 번호를 계산한 식은

    해시값 -> 방번호 = 데이터 % 7(방의 개수) <- 해시함수
    
# 해시 탐색법으로 데이터 찾는 방법

11이라는 데이터를 찾아보자. 찾을때도 저장할 때 사용한 해시 함수를 다시 사용한다.
저장할 때의 계산식은 '데이터 값 % 7' 이고 해시값은 4이며 인덱스 번호를 나타낸다.

따라서 해시 탐색법을 사용하면 단 한번의 계산으로 찾고자 하는 공을 찾을 수 있다.
검색 시간을 놀라울 정도로 단축시킬 수 있다는 큰 장점이 있다.

# 해시 함수로 데이터를 보관하는 알고리즘
- 해시 함수는 데이터의 저장소 첨자를 계산한다.
- 저장소의 첨자가 겹치는 것을 '충돌'이라고 한다.
- 충돌이 발생하면 옆의 빈 요소에 데이터를 보관한다.

1. 배열은 2개 준비한다.

- 첫 번째 배열은 데이터의 개수만큼 준비한다. (임시배열) arrayD
0  1   2   3  4  5  6
12 25 36 20 30 8 42

- 두 번째 배열은 11개를 준비하여 0으로 초기화한다. (실제 저장될 배열) arrayH
0   1   2   3   4   5   6   7   8   9   10
0   0   0   0   0   0   0   0   0   0   0

arrayD 첫 번째 요소부터 순차적으로 해시값을 계산하여 arrayH로 저장한다.
지금은 요소수가 11개이므로 11로 나눈 나머지를 계싼하여 저장한다.

해시값 = arrayD데이터 % 11

첫 번째 arrayD[0] = 12 를 해시함수에 넣어 계산하면 해시값은 1이 된다.

0   1   2   3   4   5   6   7   8   9   10
0  12   0   0   0   0   0   0   0   0   0

이미 다른 데이터가 할당되어 있는지 확인하여 비어있으면 대입한다.
왜 확인이 필요하느냐는 다음에 자세히 나오지만 요소가 많으면 해시 값이
즉 나머지 값이 우연히 일치하는 경우가 많아 이미 데이터가 저장되어 있을
가능성이 높다.

요소가 비어 있는지 확인 하려면 0이 있는지 확인하면 된다.

0   1   2   3   4   5   6   7   8   9   10
0  12   0  25   0   0   0   0   0   0   0

addD[2]의 데이터 36의 해시값은 3이다. 이미 데이터 25가 존재한다..
해시 탐색범에서는 이러한 해시값이 이미 존재하는 것을 '충돌'synonym 이라고 한다.

이러한 충돌이 발생하는 경우 즉 arrH[k] = 0이 아닌 No의 경우 처리를 생각해야한다.
해결책은 간단하다. 바로 옆의 요소가 비어 있으면 거기에 넣으면 된다.

츙돌이 너무 자주 일어나면 추가 작업이 필요하다.
해시탐색법의 장점이 무색해진다.
충돌이 일어나지 않게 하려면 데이터가 많이 흩어지도록 해야한다.

요소가 많아질수록 충돌의 가능성은 적어지지만 메모리의 사용량이 늘어나
알고리즘이 효율성이 떨어지게된다.

탐색 처리의 속도를 유지하는 것과 가능한 메모리를 적게 사용하는 요소의 수는
일반적으로 저장 데이터 수의 1.5배에서 2배라고 알려져 있다.
