# ****탐색 알고리즘(Search Algorithm)이란?****

탐색 알고리즘은 **주어진 데이터 집합에서 특정 항목을 찾아내는 프로세스를 설명하는 용어**입니다. 이때 데이터의 크기와 구성에 따라 다양한 탐색 알고리즘이 사용됩니다. 이러한 탐색 알고리즘은 웹 검색, 데이터베이스 검색, 파일 시스템 탐색, 게임 AI 등 다양한 분야에서 활용됩니다.

주요한 세 가지 탐색 알고리즘은 다음과 같습니다.

1. **선형 탐색 알고리즘(Linear Search Algorithm)**
    - 선형 탐색은 데이터 집합을 처음부터 끝까지 순차적으로 탐색하는 방법입니다.
    - 순차적으로 비교하여 찾고자 하는 항목을 발견할 때까지 계속 탐색합니다.
    - 데이터가 정렬되어 있지 않거나 작은 규모의 데이터에서 효과적입니다.
    - 시간 복잡도는 최악의 경우 O(n)입니다.
2. **이진 탐색 알고리즘(Binary Search Algorithm)**
    - 이진 탐색은 정렬된 데이터 집합에서 특정 항목을 찾는 방법입니다.
    - 중간 항목과 찾고자 하는 항목을 비교하여 탐색 범위를 반으로 줄여가며 탐색합니다.
    - 데이터가 정렬되어 있어야 하고, 큰 규모의 데이터에서 효과적입니다.
    - 시간 복잡도는 최악의 경우 O(log n)입니다.
3. **해시 탐색 알고리즘(Hash Search Algorithm)**
    - 해시 탐색은 해시 함수를 사용하여 키와 값을 연결하는 데이터 구조를 활용하는 방법입니다.
    - 키를 해시 함수에 적용하여 값의 위치를 찾습니다.
    - 데이터가 해시 테이블에 해시 충돌이 적게 발생하도록 구성되어야 합니다.
    - 평균적으로 상수 시간 O(1)에 탐색이 가능하지만, 최악의 경우 해시 충돌이 많이 발생하여 성능이 저하될 수 있습니다.

탐색 알고리즘은 데이터의 크기, 정렬 여부, 탐색 빈도 등을 고려하여 적절한 알고리즘을 선택해야 합니다. 탐색 알고리즘의 선택은 실행 시간, 메모리 사용량, 정확성 등을 고려하여 최적화되어야 합니다.



# ****선형 탐색 알고리즘(Linear Search Algorithm)****

## **선형 탐색 알고리즘이란?**

**선형 탐색 알고리즘(Linear Search Algorithm)** 은 리스트나 배열에서 원하는 값을 찾기 위해 처음부터 끝까지 순차적으로 탐색하는 방식을 말합니다. 이 알고리즘은 정렬되지 않은 데이터에 대해서도 사용할 수 있습니다.

**선형 탐색 알고리즘의 동작 방식**은 다음과 같습니다.

<center>

<img width="374" alt="" src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/a9f34056-312e-4639-b257-5283293d2b48">

</center>

1. 리스트의 첫 번째 요소부터 시작합니다.
2. 현재 요소와 목표 값이 같은 지 비교합니다.
3. 현재 요소와 목표 값이 일치하는 경우, 해당 요소의 인덱스를 반환합니다.
4. 현재 요소와 목표 값이 일치하지 않는 경우, 다음 요소로 이동합니다.
5. 리스트의 끝까지 탐색하면서 일치하는 요소를 찾을 때까지 위 과정을 반복합니다.
6. 리스트를 모두 탐색한 경우, 목표 값이 리스트에 존재하지 않음을 나타내는 특정 값을 반환합니다.

## **선형 탐색 알고리즘의 시간 복잡도**

선형 탐색 알고리즘의 최악의 경우 시간 복잡도는 O(n)입니다. 여기서 n은 리스트의 크기를 의미합니다. 선형 탐색은 리스트의 모든 요소를 순차적으로 비교하기 때문에, **평균적으로 n/2번의 비교를 수행**하게 됩니다.

## **선형 탐색 알고리즘의 장점**

- **간단한 구현**: 선형 탐색은 매우 간단한 탐색 알고리즘 중 하나입니다. 배열이나 리스트를 처음부터 끝까지 순차적으로 탐색하는 방식이기 때문에 쉽게 구현할 수 있습니다.
- **정렬되지 않은 데이터에도 적용 가능**: 데이터가 정렬되어 있지 않아도 선형 탐색을 이용할 수 있습니다. 데이터가 정렬되어 있지 않거나 정렬할 수 없는 상황에서도 유용합니다.
- **작은 데이터셋에서 효과적**: 데이터셋이 작을 때 선형 탐색은 매우 효율적입니다. 데이터의 크기가 작을 경우 다른 복잡한 탐색 알고리즘을 구현하거나 사용하는 것보다 선형 탐색이 더 효과적일 수 있습니다.

## **선형 탐색 알고리즘의 단점**

- **비효율적인 탐색**: 선형 탐색은 처음부터 끝까지 순차적으로 탐색하기 때문에, 데이터의 크기가 큰 경우 비효율적일 수 있습니다. 데이터셋의 크기가 커지면 탐색 시간도 그에 비례하여 증가하므로, 이는 성능 저하를 초래할 수 있습니다.
- **정렬된 데이터에서의 비효율성**: 선형 탐색은 데이터가 정렬되어 있는 경우에도 순차적으로 탐색해야 하므로, 이 경우에는 이진 탐색 등의 다른 알고리즘이 더 효율적일 수 있습니다.
- **탐색 실패에 대한 지연**: 선형 탐색은 목표 값이 없는 경우에도 전체 리스트를 순차적으로 탐색해야 합니다. 따라서 탐색 실패를 판단하는 데에도 비용이 발생합니다.

## **선형 탐색 알고리즘의 활용**

선형 탐색 알고리즘은 주어진 리스트나 배열이 정렬되어 있지 않거나, 특정한 조건이 없는 경우에 유용하게 사용될 수 있습니다.

다음은 선형 탐색 알고리즘의 활용 사례입니다.

- **정렬되지 않은 리스트 탐색**: 선형 탐색은 정렬되지 않은 리스트에서 값을 찾는데 유용합니다. 리스트를 처음부터 끝까지 순차적으로 탐색하여 원하는 값을 찾을 수 있습니다. 예를 들어, 사용자의 이름 목록이 주어졌을 때 특정 사용자를 찾기 위해 선형 탐색 알고리즘을 사용할 수 있습니다.
- **일치하는 값 찾기:** 선형 탐색은 리스트에서 특정 값을 찾는 데 사용될 수 있습니다. 원하는 값과 일치하는 첫 번째 요소를 찾을 때까지 리스트를 탐색합니다. 예를 들어, 특정 숫자가 포함된 정수 리스트에서 첫 번째로 나타나는 숫자를 찾는 경우 선형 탐색을 활용할 수 있습니다.
- **조건에 맞는 요소 탐색:** 선형 탐색은 특정 조건을 만족하는 요소를 찾는 데 사용될 수 있습니다. 각 요소를 순차적으로 비교하면서 조건을 검사하고, 조건을 만족하는 첫 번째 요소를 반환합니다. 예를 들어, 나이가 18세 이상인 사람을 찾는 경우, 선형 탐색을 사용하여 리스트에서 조건을 만족하는 첫 번째 사람을 찾을 수 있습니다.

선형 탐색은 간단하고 직관적인 알고리즘으로서, 데이터의 크기가 작거나 탐색할 데이터의 순서가 중요하지 않을 때 유용합니다. 그러나 큰 데이터셋이나 정렬된 데이터에서 효율적인 탐색을 위해서는 다른 알고리즘, 예를 들어 이진 탐색을 고려해야 합니다.



# **선형 탐색 알고리즘(Linear Search Algorithm)의 구현**

## **선형 탐색 알고리즘 원리**

1. 리스트의 첫 번째 요소부터 시작합니다.
2. 각 요소가 찾고자 하는 값인지 확인합니다.
3. 찾는 값이 발견되면 그 위치를 반환합니다.
4. 리스트의 끝까지 도달하면 값이 없다고 반환합니다.

선형 탐색은 주어진 배열에서 원하는 값을 찾기 위해 배열을 처음부터 끝까지 순차적으로 탐색하는 방법입니다.

## **선형 탐색 알고리즘 구현**

In [None]:
def linear_search(arr, target):
    for i in range(len(arr)):
        # 배열의 요소와 타겟 값이 일치하는 경우 해당 인덱스를 반환
        if arr[i] == target:
            return i
    # 타겟 값을 찾지 못한 경우 -1을 반환
    return -1

# 예제 데이터
data = [5, 2, 9, 1, 7, 3]
target = 7

# 선형 탐색 수행
index = linear_search(data, target)

# 결과 출력
if index != -1:
    print(f"타겟 {target}을(를) 찾았습니다! 인덱스: {index}")
else:
    print(f"타겟 {target}을(를) 찾지 못했습니다.")

선형 탐색 알고리즘은 다음과 같은 단계로 동작합니다.

1. **`linear_search`** 함수는 입력으로 배열 **`arr`**과 찾고자 하는 값인 **`target`**을 받습니다.
2. 함수 내부에서는 for 반복문을 사용하여 배열의 인덱스를 **`0`**부터 **`len(arr)-1`**까지 반복하면서 값을 비교합니다.
3. 현재 인덱스의 값이 타겟 값과 일치하는지 확인합니다. 일치하는 경우 해당 인덱스를 반환하고 함수를 종료합니다.
4. 반복문을 모두 순회하고도 타겟 값을 찾지 못한 경우, **`-1`**을 반환하여 타겟 값이 배열에 존재하지 않음을 나타냅니다.
5. **`main`** 함수에서는 예제 데이터인 **`data`** 리스트와 찾고자 하는 타겟 값인 `target`을 설정합니다.
6. **`linear_search`** 함수를 호출하여 선형 탐색을 수행하고, 반환된 인덱스 값을 **`index`** 변수에 저장합니다.
7. **`index`**가 **`-1`**이 아닌 경우, 타겟 값이 배열에서 찾아졌음을 출력합니다.
8. **`index`**가 **`-1`**인 경우, 타겟 값이 배열에 존재하지 않음을 출력합니다.

위 예제 코드에서는 **`data`** 리스트에서 타겟 값인 **`7`**을 찾는 예제를 보여줍니다. 타겟 값 **`7`**은 리스트의 4번째 인덱스에 위치해 있으므로, **`“타겟 7을(를) 찾았습니다! 인덱스: 4”`**라는 메시지가 출력됩니다.



# **이진 탐색 알고리즘((Binary Search Algorithm)**

## **이진 탐색 알고리즘이란?**

**이진 탐색 알고리즘(Binary Search Algorithm)**은 **정렬된 데이터에서 특정 값을 찾는 과정에서 절반씩 범위를 나눠가며 분할 정복 기법을 적용하는 알고리즘**입니다. 이 알고리즘은 탐색 범위를 반으로 줄여가면서 원하는 값을 찾아내는 특징을 가지고 있습니다.

아래는 이진 탐색 알고리즘의 동작 방식입니다.

1. 정렬된 배열의 가장 중간 인덱스를 지정합니다.
2. 찾으려고 하는 값이 지정한 중간 인덱스의 값이라면 탐색을 종료합니다. 아니라면 3단계로 갑니다.
3. 찾으려고 하는 값이 중간 인덱스의 값보다 큰 값인지, 작은 값인지 확인합니다.
4. 값이 있는 부분과 값이 없는 부분으로 분리합니다.
5. 값이 있는 부분에서 다시 1단계부터 반복합니다.

<br/>

이진 탐색 알고리즘의 동작 방식을 이용해 주어진 배열에서 **`182`**라는 숫자를 찾는다면 몇 번의 탐색 과정이 필요할까요?

<center>
<img src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/1d463894-1878-4bbc-b9cf-f58f9e56d1e7">

[그림] 이진 탐색 알고리즘 방식을 이용

</center>

<br/>

- 찾으려는 182가 중간 인덱스 67보다 크기 때문에 67보다 큰 부분을 새로운 범위로 설정하여 다시 찾습니다. (탐색 1번)
- 찾으려는 182가 1 단계의 큰 부분의 중간 인덱스 127보다 크기 때문에 127보다 큰 부분을 새로운 범위로 설정하여 다시 찾습니다. (탐색 2번)
- 찾으려는 182가 2 단계의 큰 부분의 중간 인덱스 182와 같으므로 탐색을 종료합니다. (탐색 3번)

이진 탐색 알고리즘 방식을 사용하여 특정한 값을 탐색할 시, 위의 예시에서는 **3번의 탐색**을 하면 된다는 걸 알 수 있습니다.

<br/>


만약, 같은 값을 선형 탐색 알고리즘 방식으로 찾아본다면 몇 번의 탐색 과정이 필요할까요?

<center>
<img src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/aaedd086-7a26-49e1-945e-54b6c6c4b42e">

[그림] 선형 탐색 알고리즘 방식을 이용

</center>

<br/>

선형 탐색 알고리즘으로 탐색하게 된다면 정렬된 배열의 처음부터 끝까지 찾고자 하는 값이 있는지 순서대로 확인해야 합니다.

그러므로 선형 탐색 알고리즘으로 탐색할 시 **11번 탐색**해야 한다는 것을 알 수 있습니다.

<br/>

위의 예시에서 미루어 짐작할 수 있듯, 이진 탐색 알고리즘은 선형 탐색 알고리즘에 비해 효율적임을 알 수 있습니다.

## **이진 탐색 알고리즘의 장점**

이진 탐색 알고리즘은 탐색을 반복할 때마다 탐색 범위가 절반으로 줄어들어 효율적입니다. 또한 데이터 양이 많을수록 더 높은 효율을 보입니다.

이는 반대로 데이터의 양이 적고, 보다 앞쪽에 위치한 데이터를 탐색할 때는 선형 탐색 알고리즘이 빠른 구간이 존재함을 알 수 있습니다.

아래는 데이터의 양이 적고, 보다 앞쪽에 위치한 데이터를 탐색할 때 선형 탐색 알고리즘이 좀 더 빠름을 보여주는 예시입니다.

- **이진 탐색 알고리즘(Binary Search Algorithm)**

<img src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/0546867c-a6b8-44ef-adc8-28c973a15b5f">

- **선형 탐색 알고리즘(Linear Search Algorithm)**

<img src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/be18566b-39d6-4f9e-a86d-b03b30ef57e4">

## **이진 탐색 알고리즘의 한계**

이진 탐색 알고리즘은 효율적이지만 몇 가지 제약조건이 있습니다.

- **배열, 리스트와 같은 자료 구조에서만 구현**할 수 있습니다.
- **정렬된 데이터에만 사용**할 수 있습니다.
    - 규모가 작은 배열이라도 정렬이 되어 있지 않다면 이진 탐색을 사용해도 효율이 높지 않습니다.
    - 또한, 정렬에 필요한 추가 리소스를 고려해야 합니다.

💡 시간 복잡도: 이진 탐색 알고리즘은 탐색 범위를 반으로 줄여가므로, 최악의 경우 시간 복잡도는 **O(log n)**입니다. 여기서 `n`은 리스트의 크기를 의미합니다. 이진 탐색은 리스트가 정렬되어 있어야 하므로, 만약 정렬해야 한다면 정렬하는 데에 드는 추가적인 시간이 필요합니다.



## **이진 탐색 알고리즘의 활용**

이진 탐색 알고리즘은 주로 데이터를 찾을 때 사용하는 방법입니다. 주로 아래의 경우에 효과적으로 활용 될 수 있습니다.

- 정렬된 배열에서 요소 값을 더 효율적으로 검색할 때 사용합니다.
- 데이터의 양이 많으면 많을수록 효율이 높기 때문에, 정렬된 데이터의 양이 많을 때 사용합니다.

<br/>

즉, 이진 탐색 알고리즘은 대용량 데이터 검색에 주로 사용됩니다.

- **사전 검색**
    - 단어를 사전에서 찾을 때 사용합니다.
- **도서관 도서 검색**
    - 도서관에서 도서 코드를 사용하여 도서를 검색할 때 사용합니다.
- **대규모 시스템의 리소스 파악**
    - 시스템 부하 테스트에서 예상 부하를 처리하는 데 필요한 CPU 양을 파악할 때 사용합니다.
- **반도체 테스트 프로그램**
    - 디지털 및 아날로그 수준을 측정하는 데 이진 탐색 알고리즘을 사용합니다.

## **이진 탐색 알고리즘과 이진 탐색 트리(BST)와 차이점**

이진 탐색 알고리즘과 이진 탐색 트리를 혼동할 수 있습니다. 이름이 비슷하기 때문입니다. 그러나 **이진 탐색 트리(Binary Search Tree)는 이진 탐색 알고리즘과 다릅니다.**

이름에서 유추할 수 있듯이, “트리”는 자료구조를 의미하고 “알고리즘”은 문제 해결 방법을 나타냅니다. 이진 탐색 트리는 각 노드가 두 개의 하위 트리를 가지는 이진 트리 기반의 자료구조입니다.

이진 탐색 트리의 기본적인 규칙은 다음과 같습니다.

- 부모 노드는 왼쪽 자식 노드보다 큰 값을 갖습니다.
- 부모 노드는 오른쪽 자식 노드보다 작은 값을 갖습니다.

<br/>

아래 그림을 참고하여, 주어진 데이터가 이진 탐색 트리로 구성되는 과정을 이해해 봅시다.

<img src="https://github.com/codestates-seb/seb39_main_019/assets/75019459/18f46aab-8e54-4b4e-aff7-b1124f87c248">



## **이진 탐색 알고리즘의 구현**

위의 이진 탐색에서 이진 탐색 알고리즘의 원리에 대해 학습했습니다. 다시 한 번 정리해보겠습니다.

1. **리스트 중간의 요소 확인:** 정렬된 리스트의 중앙값을 확인하여 찾고자 하는 값과 비교합니다.
2. **값 찾기:** 중앙값이 찾고자 하는 값이라면 위치를 반환합니다.
3. **왼쪽 또는 오른쪽 탐색:** 중앙값이 찾고자 하는 값보다 크면 왼쪽 부분을, 작으면 오른쪽 부분을 탐색합니다.
4. **반복:** 위 과정을 원하는 값을 찾거나, 탐색 범위가 없을 때까지 반복합니다.

이 동작 방식을 이제 코드로 구현해보겠습니다.

In [None]:
def binary_search(arr, target):
    left = 0
    right = len(arr) - 1
    count = 0

    while left <= right:
        mid = left + (right - left) // 2
        count += 1

        if arr[mid] == target:  # 중간 요소와 타겟 값이 일치하는 경우
            return count
        elif arr[mid] < target:  # 중간 요소보다 타겟 값이 큰 경우
            left = mid + 1  # 왼쪽 범위를 중간 요소 다음부터 오른쪽으로 이동
        else:  # 중간 요소보다 타겟 값이 작은 경우
            right = mid - 1  # 오른쪽 범위를 중간 요소 이전까지로 이동

    return -1  # 타겟 값을 찾지 못한 경우

numbers = [3, 5, 11, 18, 29, 31, 41, 43, 49, 52, 65, 67, 71, 76, 78, 84, 88, 91, 94, 97]
target = 65

count = binary_search(numbers, target)

if count != -1:
    print(f"찾는 값까지의 검색 횟수: {count}")
else:
    print("값을 찾지 못했습니다.")

위의 코드는 주어진 정렬된 배열에서 이진 탐색을 수행하여 특정 값의 인덱스까지의 검색 횟수를 반환하는 함수와 이를 활용하는 **`main`** 함수로 구성되어 있습니다.

이진 탐색은 배열을 반으로 나누어 탐색 범위를 좁혀가며 찾고자 하는 값을 빠르게 찾는 알고리즘입니다. 이 코드는 배열에서 특정 값의 위치를 찾을 때까지 이진 탐색을 수행하고, 그 과정에서의 검색 횟수를 반환하는 것을 목표로 합니다.

코드의 동작 과정은 다음과 같습니다.

1. 초기화 단계: 주어진 배열 **`arr`**의 가장 왼쪽 인덱스를 **`left`**에 할당합니다. 이 값은 **`0`**입니다.
    
    주어진 배열 **`arr`**의 가장 오른쪽 인덱스를 **`right`**에 할당합니다. 이 값은 배열의 크기 **`size`**에서 **`1`**을 뺀 값입니다.
    
    검색 횟수를 기록할 변수인 **`count`**를 **`0`**으로 초기화합니다.
    
2. 이진 탐색 수행: **`left`**의 값이 **`right`**의 값보다 작거나 같아질 때까지 다음 단계를 반복합니다.
    
    **`left`**와 **`right`**의 중간 지점을 나타내는 인덱스를 **`mid`**로 계산합니다. (**`mid = left + (right - left) / 2`**)
    
    **`count`**를 **`1`** 증가시킵니다. 이는 중간 값을 비교한 횟수를 의미합니다.
    
    중간 값 **`arr[mid]`**와 찾으려는 값 **`target`**을 비교합니다.
    
    만약 **`arr[mid]`**가 **`target`**과 동일하다면, **`count`**를 반환하고 탐색을 종료합니다. 이는 찾는 값까지의 검색 횟수를 의미합니다.
    
    만약 **`arr[mid]`**가 **`target`**보다 작다면, **`left`**를 **`mid + 1`**로 업데이트하여 오른쪽 부분 배열을 탐색합니다.
    
    만약 **`arr[mid]`**가 **`target`**보다 크다면, **`right`**를 **`mid - 1`**로 업데이트하여 왼쪽 부분 배열을 탐색합니다.
    
3. 탐색 결과 반환: 이진 탐색이 반복문을 종료한 후에도 찾는 값이 발견되지 않았다면, **`target`**이 배열에 존재하지 않는 것입니다. 이 경우 **`-1`**을 반환합니다.


# **해시 탐색 알고리즘(Hash Search Algorithm)**

## **해시 탐색 알고리즘이란?**

**해시 탐색 알고리즘**은 데이터를 저장하고 검색하는 과정에서 해시 함수를 활용하는 방법입니다. 각각의 데이터는 해시 함수를 통해 고유한 해시 코드, 즉 해시 값으로 변환되어, 이 값은 해시 테이블에 데이터를 저장하거나 검색하는 데에 사용되는 인덱스로 활용됩니다.

해시 탐색 알고리즘은 다음과 같이 동작합니다:

1. 해시 함수를 사용하여 각 데이터를 고유한 해시 코드로 변환합니다.
2. 이 해시 코드를 인덱스로 활용하여 데이터를 해시 테이블에 저장합니다.
3. 데이터를 검색할 때도 같은 해시 함수를 사용하여 해당 데이터의 해시 코드를 생성합니다.
4. 생성된 해시 코드는 해시 테이블에서 데이터를 검색하는 데에 사용되는 인덱스로 활용됩니다.
5. 만약 해시 충돌이 발생한다면, 특정 충돌 해결 방법을 사용하여 이를 해결합니다.

## **해시 충돌(Collision)이란?**

**해시 충돌**이란 두 개 이상의 데이터가 해시 함수를 통해 같은 해시 값으로 매핑되는 현상을 의미합니다.

> 해시 함수는 간단한 모듈로 연산을 사용하여 정수를 해시 값으로 매핑합니다. 해시 함수는 입력 값의 일부를 사용하여 해시 값을 계산합니다.
>

**예시**:

- 데이터 A를 해시 함수에 입력하면 해시 값 2를 반환합니다.
- 데이터 B를 해시 함수에 입력하면 역시 해시 값 2를 반환합니다.
- 데이터 C를 해시 함수에 입력하면 해시 값 10을 반환합니다.
- 데이터 D를 해시 함수에 입력하면 또다시 해시 값 2를 반환합니다.

**결과**: 데이터 A, B 및 D는 모두 같은 해시 값 2로 매핑되었으며, 이러한 현상을 해시 충돌이라고 합니다.

## **해시 충돌 해결 방법**

데이터가 동일한 해시 코드를 가질 경우 발생하는 충돌을 효과적으로 해결하기 위해 다음과 같은 보조 알고리즘이 사용됩니다.

### **1. 개방 연결법(Open Addressing)**

**개방 연결법**은 **해시 충돌**이 발생할 경우, 다른 **색인(index)** 에 해당 데이터를 저장하는 방법입니다. 가장 대표적인 세 가지 방법을 소개하겠습니다:

1. **선형 조사(Linear Probing)**
    - 중복된 색인으로부터 일정한 숫자만큼 이동하여 빈 저장소(버킷)를 찾아 데이터(value)를 저장하는 방법입니다.
2. **이차 조사(Quadratic Probing)**
    - 중복된 색인으로부터 이동할 숫자를 제곱으로 사용하는 방식입니다. 첫 번째 충돌 발생 시 1(1^2)만큼 이동하고, 두 번째는 4(2^2)만큼, 세 번째는 9(3^2)만큼, 네 번째는 16(4^2)만큼 이동하여 빈 저장소를 찾는 방법입니다.
3. **이중 해싱 조사(Double Hasing Probing)**
    - 첫 번째 해시 함수에서 충돌이 발생하면, 미리 지정해 둔 다른 해시 함수를 사용하여 새로운 주소를 할당하는 방법입니다. 이 방법은 다른 방법에 비해 많은 연산이 필요합니다.

### **2. 분리 연결법(Separate Chaining)**

**분리 연결법**이란 동일한 **색인**을 가진 데이터를 **연결리스트(linked list)**, **레드-블랙 트리(Red-Black tree)** 등의 자료구조를 이용해 저장하는 방법입니다.

<center>

![image (31)](https://github.com/codestates-seb/seb39_main_019/assets/75019459/6923a19c-5d87-4b6d-98d0-8098361efeb0)

[그림] 분리 연결법 추상화

</center>

<br/>

위의 그림처럼 저장소의 동일한 버킷에 연결 리스트나 트리 등의 자료구조를 사용하여 충돌이 발생한 데이터를 저장하는 방식입니다.

이 방법의 장점은 간단한 구현과 데이터의 쉬운 삭제가 가능하다는 점입니다. 하지만 동일한 버킷에 연결되는 데이터가 많아지면 검색 효율성이 감소하는 단점이 있습니다.

### **3. 저장소 확장(Resize)**

해시 충돌이 발생하면 저장소의 크기를 늘려 성능 손실을 줄이는 방법도 있습니다. 예를 들어, Java의 HashMap 자료구조는 매치된 key-value 데이터 개수가 일정 이상이 되면(저장소의 75% 이상 사용) 저장소의 크기를 두 배로 늘립니다. 이렇게 해서 해시 충돌로 인한 성능 감소를 어느 정도 해결할 수 있습니다.

## **해시 탐색 알고리즘의 장점**

- **빠른 데이터 접근**: 해시 함수를 이용해 생성된 해시 코드를 인덱스로 사용하여 데이터에 빠르게 접근할 수 있습니다. 해시 함수의 계산 복잡도가 상수 시간에 가까우므로 데이터의 크기에 상관없이 일관된 성능을 제공합니다.
- **효율적인 검색**: 해시 코드를 기반으로 해시 테이블에서 데이터를 빠르게 검색할 수 있습니다. 이를 통해 데이터의 검색 속도를 크게 향상시킬 수 있습니다.
- **공간 활용 최적화**: 해시 탐색 알고리즘을 이용하면 데이터를 해시 테이블에 저장하면서, 중복 데이터를 처리하는 등의 방법을 통해 공간을 효율적으로 활용할 수 있습니다.

## **해시 탐색 알고리즘의 활용**

- **데이터베이스 관리 시스템:** 데이터베이스에서 데이터를 검색하고 인덱싱하는 데에 해시 탐색 알고리즘이 활용됩니다. 해시 인덱스를 사용하여 데이터의 검색 속도를 향상시킬 수 있습니다.
- **캐시 구현:** 캐시는 데이터에 대한 빠른 액세스를 위해 사용되는 임시 저장소입니다. 해시 탐색 알고리즘은 캐시 메모리에 저장된 데이터를 빠르게 검색하고 업데이트하는데 사용됩니다.
- **검색 엔진:** 검색 엔진은 대량의 데이터에서 효율적인 검색을 제공해야 합니다. 해시 탐색 알고리즘은 인덱싱과 검색 과정에서 사용되어 빠른 검색 속도와 정확성을 제공합니다.
- **데이터 인덱싱:** 해시 탐색 알고리즘은 데이터베이스나 파일 시스템 등에서 데이터를 인덱싱하는데 사용됩니다. 해시 값을 기반으로 데이터에 대한 빠른 액세스를 가능하게 합니다.

---

# **해시 탐색 알고리즘의 구현**

## **해시 탐색 알고리즘 원리**

1. **키와 값 쌍 저장:** 키는 해시 함수를 통해 고유한 해시 값으로 변환되며, 이 값을 인덱스로 사용하여 값을 저장합니다.
2. **데이터 검색:** 키를 해시 함수에 전달하여 해시 값을 얻고, 이를 인덱스로 사용하여 값을 빠르게 검색합니다.
3. **충돌 처리:** 서로 다른 키가 동일한 해시 값을 가질 경우(해시 충돌), 이를 처리하기 위한 기법을 사용합니다. 대표적인 방법으로 개방 연결법(Open Addressing)과 분리 연결법(Separate Chaining)이 있습니다.

## 해시 탐색 알고리즘 구현

In [None]:
class HashNode:
    def __init__(self, key, value):
        self.key = key  # 키 값
        self.value = value  # 데이터 값

class HashTable:
    def __init__(self, size):
        self.array = [None] * size  # 요소 배열

def init_hash_table(hash_table):
    for i in range(len(hash_table.array)):
        hash_table.array[i] = None  # 모든 요소를 None으로 초기화

def hash_function(key, size):
    return key % size  # 키 값을 해시 테이블 크기로 나눈 나머지를 반환

def insert(hash_table, key, value):
    index = hash_function(key, len(hash_table.array))  # 해시 테이블 인덱스 계산

    # 새로운 노드 생성 및 값 설정
    new_node = HashNode(key, value)

    hash_table.array[index] = new_node  # 해시 테이블에 노드 추가

def search(hash_table, key):
    index = hash_function(key, len(hash_table.array))  # 해시 테이블 인덱스 계산

    if hash_table.array[index] is not None and hash_table.array[index].key == key:
        return hash_table.array[index].value  # 키 값과 일치하는 데이터 값 반환
    else:
        return -1  # 데이터를 찾지 못한 경우 -1 반환

hash_table = HashTable(100)
init_hash_table(hash_table)  # 해시 테이블 초기화

# 해시 테이블에 데이터 추가
insert(hash_table, 3, 30)
insert(hash_table, 5, 50)
insert(hash_table, 11, 110)
insert(hash_table, 18, 180)
insert(hash_table, 29, 290)
insert(hash_table, 31, 310)
insert(hash_table, 41, 410)
insert(hash_table, 43, 430)
insert(hash_table, 49, 490)
insert(hash_table, 52, 520)
insert(hash_table, 65, 650)
insert(hash_table, 67, 670)
insert(hash_table, 71, 710)
insert(hash_table, 76, 760)
insert(hash_table, 78, 780)
insert(hash_table, 84, 840)
insert(hash_table, 88, 880)
insert(hash_table, 91, 910)
insert(hash_table, 94, 940)
insert(hash_table, 97, 970)

target = 65  # 탐색할 키 값
value = search(hash_table, target)  # 탐색 결과 값

# 탐색 결과 출력
if value != -1:
    print("찾은 값의 값:", value)
else:
    print("값을 찾지 못했습니다.")

해시 탐색은 해시 테이블을 사용하여 관리하는 데이터를 탐색하는 알고리즘입니다. 해시 탐색에서 활용하는 해시 테이블은 특정 값을 저장하고 검색하기 위한 자료구조입니다. 위 코드는 해시 테이블을 구현한 예제입니다. 동작 과정은 다음과 같습니다:

1. 해시 테이블 객체 생성
    - 코드에서는 **`HashTable`** 클래스를 이용하여 해시 테이블 객체를 생성합니다. 이 객체는 특정 크기의 배열을 가지고 있습니다.
2. 해시 테이블 초기화
    - **`initHashTable`** 함수를 호출하여 해시 테이블을 초기화합니다. 초기화 과정에서 해시 테이블의 모든 요소는 **`null`**로 설정됩니다.
3. **`hashFunction`** 함수는 주어진 키 값과 해시 테이블의 크기를 사용하여 요소를 해시하는 역할을 합니다.

  동작 과정은 다음과 같습니다.

  1. 함수는 **`key`**와 **`size`**라는 두 개의 매개변수를 받습니다. **`key`**는 해시할 값이고, **`size`**는 해시 테이블의 크기입니다.
  2. **`key`**를 **`size`**로 나눈 나머지 값을 계산합니다. 이 값은 해시 테이블 배열의 인덱스가 됩니다.
  3. 계산된 나머지 값을 반환합니다. 이 값은 요소가 해시 테이블 배열에서 저장될 위치를 결정하는 인덱스입니다.
    
    해시 함수는 **`key`**와 **`size`**를 활용하여 일정한 범위 내에서 고르게 분포된 인덱스를 생성합니다. 이를 통해 요소들이 해시 테이블 배열에 균일하게 분산되어 저장됩니다. 따라서 **`hashFunction`** 함수는 해시 테이블에서 효과적인 검색을 위한 키-값 매핑을 제공합니다.
    
4. 요소 삽입
    - **`insert`** 함수를 호출하여 해시 테이블에 새로운 요소를 삽입합니다. 각 요소는 **`key`**와 **`value`**를 가지고 있습니다.
    - 삽입된 요소는 해시 함수를 통해 배열 내의 적절한 위치에 저장됩니다.
5. 요소 검색
    - **`search`** 함수를 호출하여 해시 테이블에서 특정 키 값을 가진 요소를 검색합니다.
    - 검색 과정에서는 해시 함수를 사용하여 검색 대상 요소의 인덱스를 계산하고, 해당 인덱스에 위치한 요소를 가져옵니다.
6. 검색 결과 출력
    - 검색한 요소가 존재하고 키 값이 일치하는 경우, 해당 요소의 값을 출력합니다.
    - 검색한 요소를 찾지 못한 경우, **`“값을 찾지 못했습니다.”`**라는 메시지를 출력합니다.

예제 코드는 해시 테이블을 초기화하고 요소를 삽입하며, 특정 키 값을 가진 요소를 검색하여 결과를 출력하는 기능을 수행합니다. 프로그램 실행 결과는 콘솔에 출력됩니다.



# ****선형 탐색, 이진 탐색, 해시 탐색 알고리즘 비교****

## **각 알고리즘의 특징과 장단점 비교**

### **1. 선형 탐색 알고리즘(Linear Search Algorithm)**

**특징**

- 배열의 첫 번째 요소부터 마지막 요소까지 순차적으로 탐색합니다.
- 정렬되지 않은 데이터에서도 사용 가능합니다.

**장단점**

- **장점:** 구현이 간단하고 정렬되지 않은 데이터에서도 사용할 수 있습니다.
- **단점:** 데이터가 많을수록 검색 시간이 길어집니다. 시간 복잡도는 O(n)입니다.

### **2. 이진 탐색 알고리즘(Binary Search Algorithm)**

**특징**

- 정렬된 데이터에서만 사용 가능하며, 중간 값과 타겟 값을 비교하며 탐색 범위를 줄여나갑니다.

**장단점**

- **장점:** 탐색 속도가 빠르며, 시간 복잡도는 O(log n)입니다.
- **단점:** 데이터가 정렬되어 있어야만 사용할 수 있습니다.

### **3. 해시 탐색 알고리즘(Hashing Serch Algorithm)**

**특징**

- 키와 값을 해시 테이블에 저장하고, 해시 함수를 사용하여 빠르게 검색합니다.

**장단점**

- **장점:** 일반적으로 O(1)의 빠른 검색 속도를 제공합니다.
- **단점:** 충돌 처리와 메모리 관리가 필요합니다.

## **문제에 따라서 적절하게 선택하는 방법**

그렇다면 어떻게 문제마다 알고리즘을 적절하게 선택하여 사용할 수 있을까요?

### **정렬되지 않은 데이터인 경우: 선형 탐색 알고리즘(Linear Search Algorithm)**

- 정렬되지 않은 데이터에서 원하는 값을 찾을 때, 선형 탐색은 매우 단순하고 효과적인 방법입니다. 데이터를 처음부터 끝까지 순차적으로 확인하여 원하는 값을 찾습니다.
- 문제에서 탐색해야 하는 범위(반복해야 하는 요소의 갯수)에서 선형 탐색을 통해 순회하는 요소가 최악의 경우 1억개 미만인 경우에는 선형 탐색을 고려해도 괜찮습니다.

### **정렬된 데이터이며 빠른 검색이 필요한 경우: 이진 탐색 알고리즘(Binary Search Algorithm)**

- 정렬된 데이터에서 원하는 값을 빠르게 찾으려면 이진 탐색을 사용하는 것이 좋습니다. 이진 탐색은 중간 값과 타겟 값을 비교하여 탐색 범위를 절반으로 줄여나갑니다.
- 문제에서 탐색해야 하는 범위(반복해야 하는 요소의 갯수)에서 선형 탐색을 통해 순회하는 요소가 최악의 경우 1억개 이상인 경우에는 선형 탐색이 아닌, 이진 탐색을 고려해야 합니다.

### **키-값 쌍으로 빠르게 검색할 경우: 해시 탐색 알고리즘(Hashing Serch Algorithm)**

- 키와 값을 빠르게 연결하여 검색할 때 해시 탐색이 유용합니다. 해시 함수를 사용하여 키를 해시 테이블에 저장하면, 평균적으로 O(1)의 시간 복잡도로 값을 검색할 수 있습니다.