# 09. 이진 탐색 (Binary Search)

## 9.1 이진 탐색(Binary Search)이란?

- 탐색할 자료를 둘로 나누어 해당 데이터가 있을 만한 곳을 탐색하는 방법

<br>

## 9.2 이진 탐색의 이해

### 9.2.1 문제

<img src="https://www.fun-coding.org/00_Images/binarysearch.png" />

<br>

### 9.2.2 순차 탐색과 비교하여 이해

<img src="https://www.mathwarehouse.com/programming/images/binary-vs-linear-search/binary-and-linear-search-animations.gif">

* [저작자] by penjee.com [이미지 출처](https://blog.penjee.com/binary-vs-linear-search-animated-gifs)

<br>

## 9.3 분할 정복 알고리즘과 이진 탐색

### 9.3.1 분할 정복 알고리즘 (Divide and Conquer)

- Divide
  - 문제를 하나 또는 둘 이상으로 나눈다.
  
  
- Conquer
  - 나눠진 문제가 충분히 작고, 해결이 가능하다면 해결하고, 그렇지 않다면 다시 나눈다.

<br>

### 9.3.2 이진 탐색

- Divide
  - 리스트를 두 개의 서브 리스트로 나눈다.  
  
  
- Conquer
  - 검색할 숫자(`search`) > 중간값 $\rightarrow$ 뒷 부분의 서브 리스트에서 검색할 숫자를 찾는다.
  - 검색할 숫자(`search`) < 중간값 $\rightarrow$ 앞 부분의 서브 리스트에서 검색할 숫자를 찾는다.

<br>

## 9.4 이진 탐색 구현 방법

- 이진 탐색은 데이터가 정렬되어 있는 상태에서 진행
- 데이터가 `[2, 3, 8, 12, 20]`로 주어졌다고 하자.
- `binary_search(data_list, find_data)` 함수 정의
  - `find_data` : 찾는 숫자
  - `data_list` : 데이터 리스트
- `data_list`의 중간값을 `find_data`와 비교
  - `find_data < data_list의 중간값`  
  $\rightarrow$ 맨 앞부터 `data_list`의 중간까지에서 다시 `find_data` 찾기
  - `find_data > data_list의 중간값`  
  $\rightarrow$ `data_list`의 중간부터 맨 끝까지에서 다시 `find_data` 찾기
  - 그렇지 않다면 `data_list`의 중간값이 `find_data`이므로 `return data_list 중간 위치`

<br>

## 9.5 이진 탐색 알고리즘 구현

In [1]:
def binary_search(data, search):
    print(data)
    if len(data) == 1 and search == data[0]:
        return True
    if len(data) == 1 and search != data[0]:
        return False
    if len(data) == 0:
        return False
    
    medium = len(data) // 2
    if search == data[medium]:
        return True
    else:
        if search > data[medium]:
            return binary_search(data[medium+1:], search)
        else:
            return binary_search(data[:medium], search)

In [2]:
import random

data_list = random.sample(range(100), 10)
data_list

[64, 24, 88, 13, 44, 34, 28, 9, 0, 20]

In [3]:
data_list.sort()
data_list

[0, 9, 13, 20, 24, 28, 34, 44, 64, 88]

In [4]:
binary_search(data_list, 66)

[0, 9, 13, 20, 24, 28, 34, 44, 64, 88]
[34, 44, 64, 88]
[88]


False

In [6]:
binary_search(data_list, 34)

[0, 9, 13, 20, 24, 28, 34, 44, 64, 88]
[34, 44, 64, 88]
[34, 44]
[34]


True

<br>

## 9.6 알고리즘 분석

- `n`개의 리스트를 매 번 `2`로 나누어 `1`이 될 때까지 비교 연산을 `k`회 진행
  - $n \times {1 \over 2} \times {1 \over 2} \times \cdots = 1$
  - $n \times \left( {1 \over 2} \right)^k = 1$
  - $n = 2^k$
  - $log_2 n = log_2 2^k$
  - $log_2 n = k$  
  
  
- 빅 오 표기법으로는 $k+1$이 결국 최종 시간 복잡도이다. (`1`이 되었을 때도 비교 연산을 한 번 수행)
- 결국 $O(log_2 n + 1)$
- `2`, `1`, 상수는 삭제되므로 $O(log n)$

<br>

## 9.7 프로그래밍 연습

- 다음 10,000개의 데이터를 삽입 정렬, 퀵 정렬로 정렬하는 함수를 각각 만듬
- 각각의 정렬 시간을 출력
- **10,000개의 데이터로 수행할 경우, 퀵 정렬에서 재귀 제한 횟수에 걸려 2,500으로 줄임**

<br>

### 9.7.1 데이터 생성

In [31]:
import random

data_list = random.sample(range(100000), 2500)

<br>

### 9.7.2 삽입 정렬

In [32]:
def insertion_sort(data):
    for index in range(len(data) - 1):
        for index2 in range(index + 1, 0, -1):
            if data[index2] < data[index2 - 1]:
                data[index2], data[index2 - 1] = data[index2 - 1], data[index2]
            else:
                break
    return data

In [33]:
import  datetime

start_time = datetime.datetime.now()
sorted_data_list = insertion_sort(data_list)
end_time = datetime.datetime.now()

print(end_time - start_time)

0:00:00.552810


<br>

### 9.7.3 퀵 정렬

In [34]:
def quick_sort(data):
    if len(data) <= 1:
        return data
    pivot = data[0]
    left = [item for item in data[1:] if item < pivot]
    right = [item for item in data[1:] if item > pivot]
    return quick_sort(left) + [pivot] + quick_sort(right)

In [35]:
import  datetime

start_time = datetime.datetime.now()
sorted_data_list = quick_sort(data_list)
end_time = datetime.datetime.now()

print(end_time - start_time)

0:00:00.402661
