# 검색 알고리즘 
- 데이터의 집합에서 원하는 값을 가진 원소를 찾는 방법

### 선형 검색
- 무작위로 늘어놓은 데이터를 데이터 집합에서 검색을 수행하는 방법 
- 가장 기본적인 검색 방법

In [1]:
from typing import Any, Sequence

In [None]:
def seq_search(_list : Sequence, key : Any) -> int:
    # _list 배열에서 key 데이터가 어느 위치에 존재하는가? 존재하지 않는다면 -1을 되돌려준다.
    # while구문을 이용 -> _list의 길이가 가변 
    i = 0
    # 무한 반복 -> i의 값이 _list의 길이와 같다면 반복을 종료 -> _list의 길이의 +1만큼 반복 실행행
    while True: # 무한 반복
        if i == len(_list):
            # i의 값이 _list 원소의 개수가 같아졌을때 -> key값이 _list에 존재하지 않는 경우
            # return -> 되돌려준다(함수를 종료)
            return -1
        if _list[i] == key:
            # 검색에 성공
            return i
        i += 1

In [4]:
test_data = [10, 20, 30, 40]
# input()함수 -> 입력한 데이터를 str의 형태로 되돌려주는 함수 
test_key = int(input("test_data에서 찾으려는 값을 입력하시오"))

idx = seq_search(test_data, test_key)

if idx == -1:
    print("검색하려는 데이터가 존재하지 않습니다.")
else:
    print(f"검색 값은 {test_key}이고 위치는 {idx}입니다.")


검색하려는 데이터가 존재하지 않습니다.


In [None]:
def seq_search2(_list : Sequence, key : Any) -> int:
    # _list의 길이만큼 반복 실행 : 길이가 4라면 4번 반복
    for i in range(0, len(_list)):
        if _list[i] == key:
            return i
    return -1


In [6]:
test_data = [10, 20, 30, 40]
# input()함수 -> 입력한 데이터를 str의 형태로 되돌려주는 함수 
test_key = int(input("test_data에서 찾으려는 값을 입력하시오"))

idx = seq_search2(test_data, test_key)

if idx == -1:
    print("검색하려는 데이터가 존재하지 않습니다.")
else:
    print(f"검색 값은 {test_key}이고 위치는 {idx}입니다.")

검색 값은 30이고 위치는 2입니다.


# 보초법
- 검색하려는 배열에 마지막에 key값을 추가 -> 이 값을 보초값(sentinel)
- 보초값까지 스캔을 하면 검색을 종료 

In [7]:
# 얕은 복사 / 깊은 복사 
# 데이터프레임.copy()  -> 
# df1 = df //  df2 = df.copy()  -> df1은 df가 변경되면 df1도 같이 변경이 되지만 df2는 변경되지 않는다. 

# list에서도 copy() 함수가 존재 -> 얕은 복사 (데이터가 같이 변경)
# 깉은 복사를 하기 위해서는 copy 라이브러리를 호출
import copy

original = [ [1,2], [3,4] ]

# 얕은 복사 
copy_data = original.copy()

# 깉은 복사 
deep_copy_data = copy.deepcopy(original)

print(original)
print(copy_data)
print(deep_copy_data)

[[1, 2], [3, 4]]
[[1, 2], [3, 4]]
[[1, 2], [3, 4]]


In [10]:
# original를 변경 
original[0][0] = 100
# copy_data를 변경
copy_data[1][1] = 999
# deep_copy_data를 변경
deep_copy_data[0][1] = 0

print(original)
print(copy_data)
print(deep_copy_data)

[[100, 2], [3, 999]]
[[100, 2], [3, 999]]
[[1, 0], [3, 4]]


In [None]:
from typing import Sequence, Any
from copy import deepcopy

def seq_search3(_list : Sequence, key: Any) -> int:
    # _list에는 [10, 20, 30, 40] 대입
    # key가 60이라 가정
    # 원본 데이터를 변경하지 않기 위해서 깊은 복사
    a = deepcopy(_list)
    # a는 [10, 20, 30, 40] 깊은 복사
    # 보초값을 대입 
    a.append(key)
    # a는 [10, 20, 30, 40, 60]

    # 반복문에서 사용하는 조건식이 줄어들었기 때문에 cpu의 효율을 늘릴수 있다
    # python과 같은 인터프리터 언어에서는 성능이 좋지 않다.

    i = 0 
    while True:
        # i 가 0일때 -> if a[0] == 60 조건식은 거짓 -> 반복 유지
        # i 가 1일때 -> if a[1] == 60 조건식은 거짓 -> 반복 유지  
        # ....
        # i 가 4일때 -> if a[4] == 60 조건식은 참 -> 반복이 종료
        if a[i] == key:
            break
        i += 1
    # if else 구문 한줄로 표기 -> "참인경우결과" if  조건식 else "거짓인경우결과"
    # i는 4 len(_list)는 4 -> 조건식이 참 -> -1을 되돌려준다.
    return -1 if i == len(_list) else i

In [12]:
test_data = [10, 20, 30, 40]
# input()함수 -> 입력한 데이터를 str의 형태로 되돌려주는 함수 
test_key = int(input("test_data에서 찾으려는 값을 입력하시오"))

idx = seq_search3(test_data, test_key)

if idx == -1:
    print("검색하려는 데이터가 존재하지 않습니다.")
else:
    print(f"검색 값은 {test_key}이고 위치는 {idx}입니다.")

검색 값은 30이고 위치는 2입니다.


In [None]:
# 보초법이 python 에서의 효율이 좋은가?
import timeit 

setup = """

from typing import Sequence, Any
from copy import deepcopy

def seq_search(_list : Sequence, key : Any) -> int:
    i = 0
    while True: # 무한 반복
        if i == len(_list):
            return -1
        if _list[i] == key:
            return i
        i += 1

def seq_search3(_list : Sequence, key: Any) -> int:
    a = deepcopy(_list)
    a.append(key)


    i = 0 
    while True:
        if a[i] == key:
            break
        i += 1
    return -1 if i == len(_list) else i

a = list(range(10000))
key = 9999

"""

# 테스트를 돌려서 실행 시간을 확인 
normal_time = timeit.timeit("seq_search(a, key)", setup=setup, number=1000)
sentinel_time = timeit.timeit('seq_search3(a, key)', setup=setup, number=1000)

print(f"일반 검색 : {normal_time}")
print(f"보초 검색 : {sentinel_time}")

# 보초 검색이 효율적이지 않은 이유
# deepcopy() 함수와 append()함수를 이용하면서 성능이 떨어지게 된다. 

일반 검색 : 9.830325599992648
보초 검색 : 27.496187500015367


# 이진 검색
- 배열의 원소가 오름차순 정렬이거나 내림차순 정렬로 이루어진 경우 선형 검색보다 빠르게 검색이 가능
- 배열에서 중앙의 원소를 기준으로 검색 대상의 범위를 변경하여 검색

In [22]:
from typing import Sequence, Any

# 반복횟수를 확인
# 전역 변수 counter 생성 
counter = 0

def bin_search(_list : Sequence, key : Any) -> int:
    # 검색범위 처음 인덱스 
    pl = 0
    # 검색범위의 마지막 인덱스
    pr = len(_list) - 1
    # 전역 변수 counter를 사용하겠다. 지정
    global counter

    print('   |', end='')
    for i in range(len(_list)):
        print(f"{i : 4}", end='')
    print()
    print('---+' + (4 * len(_list) + 2) * '-')

    while True:
        # 반복 실행이 될때마다 counter를 1씩 증가
        counter += 1
        # 중앙 원소의 인덱스 
        pc = (pl + pr) // 2
        print('   |', end='')

        if pl != pc :
            print( (pl * 4 + 1) * ' ' + '<-' + ((pc-pl) * 4) * ' ' + '+', end='' )
        else:
            print( (pc * 4 + 1) * ' ' + '<+', end = '' )
        if pc != pr:
            print( ((pr - pc) * 4 - 2) * ' ' + '->')
        else:
            print('->')
        print(f'{pc:3}|', end='')
        for i in range(len(_list)):
            print(f"{_list[i] : 4}", end= '')
        print('\n    |')

        # 조건식 중앙원소의 값과 key값이 같은 경우 
        if _list[pc] == key:
            # 검색이 성공하는 경우우
            return pc
        # 중앙 원소보다 key가 크다면 
        elif _list[pc] < key:
            # 검색의 범위를 뒤쪽의 절반으로 좁혀준다. 
            pl = pc + 1
        # 중앙 원소보다 key가 작다면
        else:
            # 검색의 범위를 앞쪽의 절반으로 좁혀준다. 
            pr = pc - 1
        # 검색이 실패하는 경우
        if pl > pr:
            break
    return -1

In [25]:
counter = 0
test_data = list(range(1, 22, 2))
key = int(input('검색하려는 값을 입력하시오'))

idx = bin_search(test_data, key)

if idx == -1:
    print("검색하려는 값이 존재하지 않습니다.")
else:
    print(f"검색하려는 값 {key}는 test_data에 인덱스 {idx}에 존재")

print(f"총 반복 횟수는 {counter} 이다")

   |   0   1   2   3   4   5   6   7   8   9  10
---+----------------------------------------------
   | <-                    +                  ->
  5|   1   3   5   7   9  11  13  15  17  19  21
    |
   |                         <-        +      ->
  8|   1   3   5   7   9  11  13  15  17  19  21
    |
검색하려는 값 17는 test_data에 인덱스 8에 존재
총 반복 횟수는 2 이다
