# Chapter 10 검색

## 10.1 정렬되지 않은 배열

### 10.1.1 순차 검색
리스트 항목에서의 순차 검색 시 최선 O(1), 평균 O(n/2), 최악 O(n)

In [1]:
def sequential_search(seq, n):
    for item in seq:
        if item == n:
            return True
    return False

def test_sequential_search():
    seq = [1, 5, 6, 8, 3]
    n1 = 5
    n2 = 7
    assert(sequential_search(seq, n1) is True)
    assert(sequential_search(seq, n2) is False)
    print("테스트 통과!")

if __name__=="__main__":
    test_sequential_search()
    

테스트 통과!


정렬된 리스트에 대하여

In [2]:
def ordered_sequential_search(seq, n):
    item = 0
    for item in seq:
        if item > n:
            return False
        if item == n:
            return True
    return False

def test_ordered_sequential_search():
    seq = [1, 2, 4, 5, 6, 8, 10]
    n1 = 10
    n2 = 7
    assert(ordered_sequential_search(seq, n1) is True)
    assert(ordered_sequential_search(seq, n2) is False)
    print("테스트 통과!")

if __name__ == "__main__":
    test_ordered_sequential_search()

테스트 통과!


### 10.1.2 빠른 선택과 순서통계량
k번째로 작은 항목 찾기</br>
일반적으로 배열의 중앙에 있는 값보다 '큰' 값으로 중앙값을 정의할 수 있다. 이러한 정의는 가장 가까운 이웃 또는 최단 경로를 찾는 등의 문제를 풀 때 중요

In [5]:
import random

def quick_select_cache(seq, k):
    len_seq = len(seq)
    if len_seq < 2:
        return seq[0]

    # 피벗을 무작위로 선택할 수 있다.
    # pivot = random.choice(seq)
    ipivot = len_seq // 2
    pivot = seq[ipivot]

    smallerList = [x for i, x in enumerate(seq) if x <= pivot and i != ipivot] # <- 왜 enumerate로 변환?
    largerList = [x for i, x in enumerate(seq) if x > pivot and i != ipivot]  # <- 여긴 != 필요없지않나

    m = len(smallerList)
    if k == m:
        return pivot
    elif k < m:
        return quick_select_cache(smallerList, k)
    else:
        return quick_select_cache(largerList, k-m-1)  # -1은 피봇
    
def swap(seq, x, y):
    seq[x], seq[y] = seq[y], seq[x]

def quick_select(seq, k, left=None, right=None):
    left = left or 0
    right = right or len(seq) - 1
    ipivot = random.randint(left, right)
    pivot = seq[ipivot]

    # 피봇을 정렬 범위 밖으로 이동한다.
    swap(seq, ipivot, right)
    swapIndex, i = left, left
    while i < right:
        if pivot < seq[i]:
            swap(seq, i, swapIndex)
            swapIndex += 1
        i += 1

    # 피봇 위치를 확정한다.
    swap(seq, right, swapIndex)

    # 피봇 위치를 확인한다.
    rank = len(seq) - swapIndex
    if k == rank:
        return seq[swapIndex]
    elif k < rank:
        return quick_select(seq, k, swapIndex+1, right) # right에 큰 값들이 있으니까
    else:
        return quick_select(seq, k, left, swapIndex-1)

if __name__ == "__main__":
    seq = [3, 7, 2, 1, 4, 6, 5, 10, 9, 11]
    k = len(seq) // 2
    print(sorted(seq))
    print(quick_select_cache(seq, k-1))

    # 아래 함수는 원본을 수정하므로 깊은 복사 실행
    import copy
    seq_copy = copy.deepcopy(seq)
    print(quick_select(seq_copy, k))

    # 중앙값(median) 출력을 위해서 넘파이를 사용함
    import numpy
    print(numpy.median(seq))



[1, 2, 3, 4, 5, 6, 7, 9, 10, 11]
5
5
5.5


## 10.2 정렬된 배열

### 10.2.1 이진 검색
이진 검색은 정렬된 배열 내에서 지정된 입력값의 위치(키)를 찾는다.
이진 검색의 시간 복잡도는 O(log n)

In [8]:
# 재귀함수
def binary_search_rec(seq, target, low, high):
    if low > high:
        return None
    mid = (low + high) // 2
    if target == seq[mid]:
        return mid
    elif target < seq[mid]:
        return binary_search_rec(seq, target, low, mid-1)
    else:
        return binary_search_rec(seq, target, mid+1, high)
    
# 반복문
def binary_search_iter(seq, target):
    high, low = len(seq), 0
    while low < high:
        mid = (high + low) // 2
        if target == seq[mid]:
            return mid
        elif target < seq[mid]:
            high = mid
        else:
            low = mid + 1
    return None

def test_binary_search():
    seq = [1, 2, 5, 6, 7, 10, 12, 12, 14, 15]
    target = 6
    assert(binary_search_iter(seq, target) == 3)
    assert(binary_search_rec(seq, target, 0, len(seq)) == 3)
    print("테스트 통과!")

if __name__ == "__main__":
    test_binary_search()

테스트 통과!


### 10.2.2 bisect 모듈
정렬된 배열에서 특정한 워소를 찾을 때 O(log n)

In [14]:
from bisect import bisect   # bisect_left나 bisect_right도 알아볼것
l = [0, 3, 4, 5]
bisect(l, 5) # 결과값 4

# 빈 리스트 혹은 값이 없는 예외의 경우
bisect(l, -1)
bisect(l,1)   # ???
bisect(l, 7)
bisect([], 1)

0

## 연습문제

### 10.3.1 행렬 검색
모든 행은 왼->오, 열은 위->아래로 정렬되어 있음.(오름차순)

In [None]:
def find_elem_matrix_bool(m1, value):
    found = False
    row = 0
    col = len(m1[0]) - 1
    while row < len(m1) and col >= 0:
        if m1[row][col] == value:           # ***** 가장 큰 동시에 가장 작은 값 *****
            found = True
            break
        elif m1[row][col] > value:
            col -= 1
        else:
            row += 1
    return found

def test_find_elem_matrix_bool():
    m1 = [[1, 2, 8, 9], [2, 4, 9, 12], [4, 7, 10, 13], [6, 8, 11, 15]]
    assert(find_elem_matrix_bool(m1, 8) is True)
    assert(find_elem_matrix_bool(m1, 3) is False)
    m2 = [[0]]
    assert(find_elem_matrix_bool(m2, 0) is True)
    print("테스트 통과!")

모든 행이 오름차순

In [16]:
def searching_in_a_matrix(m1, value):
    rows = len(m1)
    cols = len(m1[0])
    lo = 0
    hi = rows*cols
    while lo < hi:
        mid = (lo + hi) // 2
        row = mid // cols
        col = mid % cols
        v = m1[row][col]
        if v == value:
            return True
        elif v > value:
            hi = mid
        else:
            lo = mid+1
    return False

def test_searching_in_a_matrix():
    a = [[1, 3, 5], [7, 9, 11], [13, 15, 17]]
    import numpy as np
    b = np.array([(1, 2), (3, 4)])
    assert(searching_in_a_matrix(a, 13) is True)
    assert(searching_in_a_matrix(a, 14) is False)
    assert(searching_in_a_matrix(b, 3) is True)
    assert(searching_in_a_matrix(b, 5) is False)
    print("테스트 통과!")

if __name__ == "__main__":
    test_searching_in_a_matrix()

테스트 통과!


### 10.3.2 단봉형 배열
배열 요소들의 산포도를 그렸을 때 값이 증가했다가 다시 감소하는 곡선인 경우 단봉형이라고함. 단봉형 배열에서 이진 검색으로 최댓값 찾기

In [18]:
def find_max_unimodal_array(A):     # unimodal <- 단봉형
    if len(A) <= 2:
        return None
    left = 0
    right = len(A) - 1
    while right > left +1:
        mid = (left + right) // 2
        if A[mid] > A[mid-1] and A[mid] > A[mid+1]:
            return A[mid]
        elif A[mid] > A[mid-1] and A[mid] < A[mid+1] :
            left = mid
        else:
            right = mid
    return None

def test_find_max_unimodal_array():
    seq = [1, 2, 5, 6, 7, 10, 12, 9, 8, 7, 6]
    assert(find_max_unimodal_array(seq) == max(seq))
    print("테스트 통과!")

if __name__ == "__main__":
    test_find_max_unimodal_array()

테스트 통과!


### 10.3.3 제곱근 계산하기

In [19]:
def find_sqrt_bin_search(n, error=0.001):
    lower = n < 1 and n or 1
    upper = n < 1 and 1 or n
    mid = lower + (upper - lower) / 2.0
    square = mid * mid
    while abs(square - n) > error:
        if square < n:
            lower = mid      # 작으니까 작은 값을 키우기
        else:
            upper = mid      # 크니까 큰 값을 줄이기
        mid = lower + (upper - lower) / 2.0
        square = mid * mid
    return mid

if __name__ == "__main__":
    a = 2
    b = 9
    import math
    print(math.sqrt(a))
    print(find_sqrt_bin_search(a))
    print(math.sqrt(b))
    print(find_sqrt_bin_search(b))

1.4142135623730951
1.4140625
3.0
3.0


In [23]:
# 백준 13706

def find_sqrt_bin_search(n, error=0.001):
    lower = n < 1 and n or 1
    upper = n < 1 and 1 or n
    mid = lower + (upper - lower) / 2.0
    square = mid * mid
    while abs(square - n) > error:
        if square < n:
            lower = mid      # 작으니까 작은 값을 키우기
        else:
            upper = mid      # 크니까 큰 값을 줄이기
        mid = lower + (upper - lower) / 2.0
        square = mid * mid
    return mid

N = int(input())
num = find_sqrt_bin_search(N)
print(round(num))

226576
476


### 10.3.4 빈도 계산하기
binary_search.py를 사용해서 정렬된 리스트에서 요소 k가 나타나는 횟수 구하기

In [30]:
# from binary_search import binary_search_iter

def find_time_occurrence_list(seq, k):
    index_some_k = binary_search_iter(seq, k)
    count = 1
    sizet = len(seq)
    for i in range(index_some_k+1, sizet):
        if seq[i] == k:
            count += 1
        else:
            break
    for i in range(index_some_k-1, -1, -1):
        if seq[i] == k:
            count += 1
        else:
            break
    return count

def test_find_time_occurrence_list():
    seq = [1, 2, 2, 2, 2, 2, 2, 5, 6, 6, 7, 8, 9]
    k = 2
    assert(find_time_occurrence_list(seq, k) == 6)
    print("테스트 통과!")

if __name__ == "__main__":
    test_find_time_occurrence_list()



테스트 통과!


### 10.3.5 교집합 구하기
세 가지 방법으로 두 리스트의 교집합 구하기.
1. 셋, 순서 x
2. 병합 정렬
3. 이진 검색, 배열 중 하나가 다른 배열보다 월등히 클때 적합

In [35]:
# from binary_search import binary_search_iter

# 파이썬 set 사용
def intersection_two_arrays_sets(seq1, seq2):
    set1 = set(seq1)
    set2 = set(seq2)
    return set1.intersection(set2)

# 병합 정렬 사용
def intersection_two_arrays_ms(seq1, seq2):      # <-- 정렬된 seq에 대해서 사용하는 건가?
    res = []
    while seq1 and seq2:
        if seq1[-1] == seq2[-1]:
            res.append(seq1.pop())
            seq2.pop()
        elif seq1[-1] > seq2[-1]:
            seq1.pop()
        else:
            seq2.pop()
    res.reverse()
    return res

# 이진 검색 사용
def intersection_two_arrays_bs(seq1, seq2):
    if len(seq1) > len(seq2):
        seq, key = seq1, seq2
    else:
        seq, key = seq2, seq1
    intersec = []
    for item in key:
        if binary_search_iter(seq, item):
            intersec.append(item)
    return intersec

def test_intersection_two_arrays():
    seq1 = [1, 2, 3, 5, 7, 8]
    seq2 = [3, 5, 6]
    assert(set(intersection_two_arrays_sets(seq1, seq2)) == set([3, 5]))
    assert(intersection_two_arrays_bs(seq1, seq2) == [3, 5])
    assert(intersection_two_arrays_ms(seq1, seq2) == [3, 5])
    print("테스트 통과!")

if __name__ == "__main__":
    test_intersection_two_arrays()

테스트 통과!
