<a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>


###### Ch. 10 검색(Searching)

**검색**<sub>searching</sub>

* 대표 검색 알고리즘
    * **순차 검색**<sub>sequential search</sub> : 배열이 정렬되어 있지 않거나, 연결 리스트와 같이 입력이 동적으로 할당되는 경우 흔히 사용한다.    
      
    * **이진 검색**<sub>binary search</sub> : 배열이 정렬되어 있는 경우 최선의 선택이다. 
    * 해시 테이블 : 보조 메모리 공간을 사용하지만, 키를 이용하면 $O(1)$에 원하는 값을 검색할 수 있다. 

# 10.1 정렬되지 않은 배열

## 순차 검색<sub>sequential search</sub>

* Linear search 이라고 불리기도 한다. 

|Case|complexity|
|:-:|:-|
|Worst-case|$O(n)$|
|Best-case|$O(1)$|
|Average|$O(\frac {n} {2})$|
|if not in list,<br>Worst,Best,Average|all $O(n)$|
|Worst-case <br>space complexity|$O(1)$<br>iterative|


정렬되어 있지 않은 경우

In [1]:
def sequential_search(seq, n):
    for item in seq:
        if item == n:
            return True
        
    return False

In [2]:
seq = [1, 5, 6, 8, 3]
sequential_search(seq, 5)

True

In [3]:
sequential_search(seq, 7)

False

정렬되어 있는 경우

In [4]:
def ordered_sequential_search(seq, n):
    item = 0
    for item in seq:
        if item > n:
            return False
        if item == n:
            return True
        
    return False

In [5]:
seq = [1, 5, 6, 8, 3]
ordered_sequential_search(seq, 5)

True

In [6]:
ordered_sequential_search(seq, 7)

False

## 빠른 선택과 순서통계량

* 순서통계량<sub>order statistic</sub>이란?
> 최솟값, 최댓값, 중앙값, k번째 큰수

* 시간 복잡도:

$$O(n) = O(n) + O(\frac {n} {2}) + O(\frac {n} {4}) + \cdots $$

각 반복에서 하나만 보면 되기 때문에 worst 는 $O(n)$이다.

In [7]:
import random
def quick_select_cache(seq, k):
    len_seq = len(seq)
    if len_seq < 2:
        return seq[0]
    
    # 피벗을 무작위로 선택
    # pivot = random.choice(seq)
    
    # 피벗을 가운데위치한 값으로 선택
    ipivot = len_seq // 2
    pivot = seq[ipivot]
    
    smallerList = [x for i, x in enumerate(seq) if x <= pivot and i != ipivot]
    largerList  = [x for i, x in enumerate(seq) if x > pivot and i != ipivot]
    
    m = len(smallerList)
    if k == m :
        return pivot
    elif k < m:
        return quick_select_cache(smallerList, k)
    
    else: 
        return quick_select_cache(largerList, k-m-1)
    
def swap(seq, x, y):
    seq[x], seq[y] = seq[y], seq[x]
    
def quick_select(seq, k, left=None, right=None):
    left = left or 0
    right = right or len(seq) - 1
    ipivot = random.randint(left, right)
    pivot = seq[ipivot]
    
    # 피벗을 정렬 범위 밖으로 이동한다. 
    swap(seq, ipivot, right)
    swapIndex, i = left, left
    while i < right:
        if pivot < seq[i]:
            swap(seq, i, swapIndex)
            swapIndex += 1
        i += 1
        
    # 피벗 위치를 확정한다. 
    swap(seq, right, swapIndex)
    
    # 피벗 위치를 확인한다. 
    
    rank = len(seq) - swapIndex
    if k == rank:
        return seq[swapIndex]
    elif k < rank:
        return quick_select(seq, k, swapIndex+1, right)
    else:
        return quick_select(seq, k, left, swapIndex-1)
    
    

In [8]:
seq = [3, 7, 2, 1, 4, 6, 5, 10, 9, 11]
k = len(seq) // 2
print(sorted(seq))
print(quick_select_cache(seq, k-1))

# 아래 함수는 원본을 수정하므로 깊은 복사 실행
import copy
seq_copy = copy.deepcopy(seq)
print(quick_select(seq_copy, k))

# 중앙값(median) 출력을 위해서 넘파이를 사용함
import numpy
print(numpy.median(seq))

[1, 2, 3, 4, 5, 6, 7, 9, 10, 11]
5
5
5.5


일반적으로, 배열의 중앙에 있는 값보다 '큰' 값으로 중앙값을 정의 할 수 있다. 이러한 정의는 가장 가까운 이웃<sub>nearest neighbor</sub> 또는 최단 경로<sub>shortest path</sub> 을 찾는 등의 문제를 풀 때 중요하다. 

# 10.2 정렬된 배열

## 이진 검색<sub>binary search</sub>

이진 검색은 정렬된 배열 내에서 지정된 입력값의 위치(키)를 찾는다.  이진 검색은 알고리즘의 각 단계에서 입력값과 배열 중간 요소를 비교한다. 입력값과 중간요소가 일치한다면, 배열의 위치가 반환된다. 입력값이 중간 요소보다 작으면, 중간 요소의 왼쪽 하위 배열에서 검색 과정을 반복한다. 입력값이 중간 요소보다 큰 경우 중간 요소의 오른쪽 하위 배열에서 검색 과정을 반복한다. 이진 검색의 시간 복잡도는 $O(\log n)$이다.

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/8/83/Binary_Search_Depiction.svg/330px-Binary_Search_Depiction.svg.png' width='500'/>

7을 찾아 가는 과정<br>

출처 : https://en.wikipedia.org/wiki/Binary_search_algorithm

|Case|complexity|
|:-:|:-|
|Worst-case|$O(\log n)$|
|Best-case|$O(1)$|
|Average|$O(\log {n})$|
|Worst-case <br>space complexity|$O(1)$|


구현

In [9]:
#재귀 함수

def binary_search_rec(seq, target, low, high):
    if low > high:
        return None
    
    mid = (low + high) // 2
    if target == seq[mid]:
        return mid
    
    elif target < seq[mid]:
        return binary_search_rec(seq, target, low, mid-1)
    
    else: 
        return binary_search_rec(seq, target, mid+1, high)   

In [10]:
# 반복문
def binary_search_iter(seq, target):
    high, low = len(seq), 0
    while low < high:
        mid = (high + low) // 2
        if target == seq[mid]:
            return mid
        
        elif target < seq[mid]:
            high = mid
        
        else: 
            low = mid + 1
            
    return None

In [11]:
# 정렬되어있는 곳에서만 사용 가능하다. 
seq = [1, 2, 5, 6, 7, 10, 12, 12, 14, 15]
target = 6

binary_search_rec(seq, target, 0, len(seq))

3

In [12]:
binary_search_iter(seq, target)

3

## bisect 모듈

* 파이썬의 내장 `bisect` 모듈로 이진 검색을 할수 있다.


In [13]:
from bisect import bisect
l = [0, 3, 4, 5]
bisect(l, 5)

4

In [14]:
bisect(l, 1)

1

In [15]:
bisect(l, -1)

0

In [16]:
bisect([],1)

0

# 연습문제

## 행렬 검색
* 각 행과 열이 정렬되어 있는 행렬에서 한 항목을 검색한다고 해보자. 즉, 모든 행은 왼쪽에서 오른쪽으로, 모든 열은 위에서 아래로 정렬(오름차순)되어 있다. 다음 코드의 시간 복잡도는 선형으로 $O(m+n)$ 이다.

In [17]:
def find_elem_matrix_bool(m1, value):
    found = False
    row = 0 
    col = len(m1[0]) - 1
    while row < len(m1) and col >= 0:
        if m1[row][col] == value:
            found = True
            break
        elif m1[row][col] > value:
            col -= 1
            
        else:
            row += 1
            
    return found

In [18]:
m1 = [[1, 2, 8, 9], [2, 4, 8, 12], [4, 7, 10, 13], [6, 8, 11, 15]]

find_elem_matrix_bool(m1, 8)

True

In [19]:
find_elem_matrix_bool(m1, 3)

False

In [20]:
find_elem_matrix_bool(m1, 0)

False

* 모든 행이 오름 차순으로 정렬되어 있는 배열.

* 이 행렬에서 어떤 숫자를 무차별(브루트 포스)로 검색한다면 시간복잡도는 $O(mn)$ 이다.

* 하지만 이 행렬은 모든 행이 정렬되어 있기 때문에 1차원 배열로 볼수도 있다. 즉 $O(log mn)$의 이진 검색 알고리즘을 사용할수 있다. 

In [21]:
def searching_in_a_matrix(m1, value):
    rows = len(m1)
    cols = len(m1[0])
    lo = 0 
    hi = rows*cols
    
    while lo<hi:
        mid = (lo + hi) // 2
        row = mid // cols
        col = mid % cols
        v = m1[row][col]
        if v == value:
            return True
        
        elif v > value:
            hi = mid
        else:
            lo = mid+1
    return False

In [22]:
a = [[1, 3, 5], [7, 9, 11], [13, 15, 17]]
import numpy as np
b = np.arange(1, 17).reshape(4, -1)
b

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [23]:
searching_in_a_matrix(a, 13)

True

In [24]:
searching_in_a_matrix(b, 13)

True

In [25]:
searching_in_a_matrix(a, 18)

False

In [26]:
searching_in_a_matrix(b, 18)

False

## 단봉형 배열

* 배열 요소들의 산포도를 그렸을 때 값이 증가 했다가 다시 감소하는 곡선인 경우: 
* **단봉형**<sub>unimodal</sub>
<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/f/fb/Normal_distribution_pdf.svg/330px-Normal_distribution_pdf.svg.png' width='300' />

* 참조:**양봉형**<sub>bimodal</sub>  
<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/e/e2/Bimodal.png/330px-Bimodal.png' width='300' />
이진 검색을 사용하여 최댓 값을 찾아 보자

In [28]:
def find_max_unimodal_array(A):
    if len(A) <=2:
        return None
    
    left = 0 
    right = len(A)-1
    while right > left + 1:
        mid = (left + right) // 2
        if A[mid] > A[mid-1] and A[mid] > A[mid+1]:
            return A[mid]
        
        elif A[mid] > A[mid-1] and A[mid] < A[mid+1]:
            left = mid
            
        else:
            right = mid
            
    
    return None
    

In [31]:
seq = [1, 2, 5, 6, 7, 10, 12, 9, 8, 7, 6]
find_max_unimodal_array(seq)==max(seq)

True

## 제곱근 계산하기

이진 검색을 사용하여 제곱근을 구할 수도 있다. 

In [48]:
def find_sqrt_bin_search(n, error=0.000001):
    lower = n < 1 and n or 1
    upper = n < 1 and 1 or n
    mid = lower + (upper - lower) / 2.0
    square = mid * mid
    while abs(square - n) > error:
        if square < n :
            lower = mid
        else:
            upper = mid
        mid = lower + (upper - lower) / 2.0
        square = mid * mid
        
    return mid
            

In [49]:
find_sqrt_bin_search(2)

1.4142136573791504

In [50]:
find_sqrt_bin_search(9)

3.0

In [51]:
find_sqrt_bin_search(2229)

47.212286529131234

## 빈도 계산하기

이전 검색을 활용하여 정렬된 리스트에 요소 k가 나타나는 회수를 구해보자.

In [54]:
def binary_search_iter(seq, target):
    high, low = len(seq), 0
    while low < high:
        mid = (high + low) // 2
        if target == seq[mid]:
            return mid
        
        elif target < seq[mid]:
            high = mid
        
        else: 
            low = mid + 1
            
    return None

In [56]:
def find_time_occurrence_list(seq, k):
    index_some_k = binary_search_iter(seq, k)
    count = 1
    sizet = len(seq)
    for i in range(index_some_k+1, sizet):
        if seq[i] == k:
            count += 1
        else:
            break
            
    for i in range(index_some_k-1, -1, -1):
        if seq[i] == k:
            count += 1
        else:
            break
            
    return count
        

In [58]:
seq = [1, 2, 2, 2, 2, 2, 4, 4, 6, 7, 7, 7, 7, 7, 8, 9]
find_time_occurrence_list(seq, 2)

5

## 교집합 구하기

In [59]:
def binary_search_iter(seq, target):
    high, low = len(seq), 0
    while low < high:
        mid = (high + low) // 2
        if target == seq[mid]:
            return mid
        
        elif target < seq[mid]:
            high = mid
        
        else: 
            low = mid + 1
            
    return None

파이썬의 set 사용

In [60]:
def intersection_two_arrays_sets(seq1, seq2):
    set1 = set(seq1)
    set2 = set(seq2)
    return set1.intersection(set2)

병합 정렬 사용

In [104]:
def intersection_two_arrays_ms(seq1_, seq2_):
    import copy
    seq1, seq2 = copy.deepcopy(seq1_), copy.deepcopy(seq2_)
    res=[]
    while seq1 and seq2:
        if seq1[-1] == seq2[-1]:
            res.append(seq1.pop())
            seq2.pop()
            
        elif seq1[-1] > seq2[-1]:
            seq1.pop()
            
        else:
            seq2.pop()
            
    res.reverse()
    return res
    

이진 검색 사용

In [105]:
def intersection_two_arrays_bs(seq1, seq2):

    if len(seq1) > len(seq2):
        seq, key = seq1, seq2
    else:
        seq, key = seq2, seq1
        
    intersec = []
    for item in key:
        if binary_search_iter(seq, item):
            intersec.append(item)
    return intersec

In [106]:
seq1 = [1, 2, 3, 4, 5, 6, 7, 9]
seq2 = [2, 4, 6, 8]

In [107]:
intersection_two_arrays_sets(seq1, seq2)

{2, 4, 6}

In [108]:
intersection_two_arrays_ms(seq1, seq2)

[2, 4, 6]

In [109]:
intersection_two_arrays_bs(seq1, seq2)

[2, 4, 6]

**Reference**

* <a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>

<br>

* [파이썬 자료구조와 알고리즘, 미아 스타인](https://github.com/AstinCHOI/Python-and-Algorithms-and-Data-Structures)
