# 이진 탐색
- 데이터가 정렬이 되어있다는 가정하에 데이터를 순차적으로 탐색하는 것이 아니라 데이터를 절반으로 나누어 가면서 탐색하는 방법
- 매번 탐색마다 데이터의 절반씩을 날려버리므로 탐색 속도가 증가한다.(매 탐색 이후마다 그때 데이터의 절반을 고려하지 않게된다.)

# 분할 정복 알고리즘과 이진 탐색
- 분할 정복 알고리즘(Divide and Conquer)
    - Divide: 문제를 하나 또는 둘 이상으로 나눈다.
    - Conquer: 나눠진 문제가 충분히 작고, 해결이 가능하다면 해결하고, 그렇지 않다면 다시 나눈다.
- 이진 탐색
    - Divide: 리스트를 두 개의 서브 리스트로 나눈다.
    - Conquer
        - 검색할 숫자 (search) > 중간값 이면, 뒷 부분의 서브 리스트에서 검색할 숫자를 찾는다.
        - 검색할 숫자 (search) < 중간값 이면, 앞 부분의 서브 리스트에서 검색할 숫자를 찾는다.

# 알고리즘 구현

In [63]:
def binary_search(data, search):
    # print(data)
    if len(data) == 1 and search == data[0]:
        return True
    if len(data) == 1 and search != data[0]:
        return False
    if len(data) == 0:
        return False
    
    medium = len(data) // 2
    if search == data[medium]:
        return True
    else:
        if search > data[medium]:
            return binary_search(data[medium+1:], search)
        else:
            return binary_search(data[:medium], search)

In [4]:
import random
data_list = random.sample(range(100), 10)
data_list

[68, 86, 61, 2, 93, 12, 78, 29, 60, 90]

In [5]:
data_list.sort()

In [17]:
binary_search(data_list, 2)

[2, 12, 29, 60, 61, 68, 78, 86, 90, 93]
[2, 12, 29, 60, 61]
[2, 12]
[2]


True

# 알고리즘 분석
- n개의 리스트를 매번 2로 나누어 1이 될 때까지 비교연산을 k회 진행
    - $ n * {1 \over 2} * {1 \over 2 } * \cdots = 1 $
    - $ n * {1 \over 2}^k = 1$
    - $ n = 2^k , log_{2}n = log_{2}2^{k}$
    - $ log_{2}n = k $
- 빅 오 표기법으로는 k + 1 이 결국 최종 시간 복잡도임(1이 되었을 때도, 비교연산을 한번 수행)
    - 결국 $O(log_{2}n+1)$ 이고, $O(logn)$ 이 시간 복잡도가 된다.

# 순차 탐색(Sequential Search)이란 ?
- 탐색은 여러 데이터 중에서 원하는 데이터를 찾아내는 것을 의미
- 데이터가 담겨있는 리스트를 앞에서부터 하나씩 비교해서 원하는 데이터를 찾는 방법

In [18]:
import random
data = random.sample(range(100), 10)


In [22]:
def sequential(data_list, search_data):
    for index in range(len(data_list)):
        if data_list[index] == search_data:
            return index
    return -1

In [26]:
data

[47, 36, 94, 37, 86, 17, 71, 24, 14, 52]

In [27]:
sequential(data, 14)

8

# 알고리즘 분석
- 최악의 경우 리스트의 길이가 n일 때, n번 비교해야 함
    - $O(n)$

# 시간 차이 측정

In [77]:
data = random.sample(range(10 ** 8), 10 ** 7)

In [78]:
%%timeit
binary_search(data, -1)

199 ms ± 8.85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [79]:
%%timeit
sequential(data, -1)

619 ms ± 11.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
