# 선형검색
직선 모양으로 늘어선 배열에서 검색하는 경우에 원하는 키값을 가진 원소를 찾을 때까지 맨 앞부터 스캔하여 순서대로 검색하는 알고리즘

- 선형 검색의 종료 조건 1 : 검색하는 인덱스가 배열 전체의 길이와 같다면 스캔 종료
- 선형 검색의 종료 조건 2 : 검색 대상의 항목이 키와 같다면 스캔 종료

In [1]:
# while 문으로 작성한 선형 검색 알고리즘

from typing import Any, Sequence

def seq_search(a: Sequence, key: Any) -> int:
    """시퀀스 a에서 key와 같은 원소를 선형 검색(while문)"""
    i = 0
    
    while True:
        if i == len(a):
            return -1 # 검색을 실패하여 -1를 반환
        if a[i] == key:
            return i # 검색을 성공하여 현재 검사한 배열의 인덱스를 반환
        i += 1
        
if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: ')) # num값을 입력받음
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    for i in range(num):
        x[i] = int(input(f'x[{i}]: '))
        
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 키 ky를 입력받음
    
    idx = seq_search(x,ky) # ky와 값이 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 7
x[0]: 6
x[1]: 4
x[2]: 3
x[3]: 2
x[4]: 1
x[5]: 2
x[6]: 8
검색할 값을 입력하세요.: 2
검색값은 x[3]에 있습니다.


***** 임의의 배열을 생성할 때, 미리 그 원소수를 설정해주는 것이 어떠한 장점이 있는가?  
x = [] 와의 차이점

In [3]:
# for 문으로 작성한 선형 검색 알고리즘

from typing import Any, Sequence

def seq_search(a: Sequence, key: Any) -> int:
    """시퀀스 a에서 key와 값이 같은 원소를 선형 검색(for문)"""
    for i in range(len(a)):
        if a[i] == key:
            return i # 검색 성공(인덱스를 반환)
        return -1 # 검색 실패(-1를 반환)
    
if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: ')) # num값을 입력받음
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    for i in range(num):
        x[i] = int(input(f'x[{i}]: '))
        
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 키 ky를 입력받음
    
    idx = seq_search(x,ky) # ky와 값이 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 7
x[0]: 6
x[1]: 4
x[2]: 3
x[3]: 2
x[4]: 1
x[5]: 2
x[6]: 8
검색할 값을 입력하세요.: 2
검색값을 갖는 원소가 존재하지 않습니다.


- 원소의 값이 정렬되지 않은 배열에서 검색할 때 사용하는 유일한 방법이 선형 검색이다.
- 같은 값을 갖는 key가 여러개라면 스캔 과정에서 맨 처음 발견한 원소를 반환한다.

- 앞서 작성한 seq_search() 함수는 임의의 자료형에 대해서 검색이 가능하다.

In [6]:
# seq_search() 함수를 사용하여 실수 검색하기
from ssearch_while import seq_search

print('실수를 검색합니다.')
print('주의: "End"를 입력하면 종료합니다.')

number = 0
x = [] # 빈 리스트 x를 생성

while True:
    s = input(f'x[{number}]: ')
    if s == 'End':
        break
    x.append(float(s)) # 배열의 맨 끝에 원소를 추가
    number += 1
    
ky = float(input('검색할 값을 입력하세요.: ')) # 검색할 키 ky를 입력받기

idx = seq_search(x, ky) # ky와 값이 같은 원소를 x에서 검색
if idx == -1:
    print('검색값을 갖는 원소가 존재하지 않습니다.')
else:
    print(f'검색값은 x[{idx}]에 있습니다.')

실수를 검색합니다.
주의: "End"를 입력하면 종료합니다.
x[0]: 12.7
x[1]: 3.14
x[2]: 6.4
x[3]: 7.2
x[4]: End
검색할 값을 입력하세요.: 6.4
검색값은 x[2]에 있습니다.


In [7]:
# seq_search() 함수를 사용하여 특정 인덱스 검색하기

from ssearch_while import seq_search

t = (4, 7, 5.6, 2, 3.14, 1)
s = 'string'
a = ['DTS', 'AAC', 'FLAC']

print(f'{t}에서 5.6의 인덱스는 {seq_search(t,5.6)}입니다.')
print(f'{s}에서 "n"의 인덱스는 {seq_search(s,"n")}입니다.')
print(f'{a}에서 "DTS"의 인덱스는 {seq_search(a,"DTS")}입니다.')

(4, 7, 5.6, 2, 3.14, 1)에서 5.6의 인덱스는 2입니다.
string에서 "n"의 인덱스는 4입니다.
['DTS', 'AAC', 'FLAC']에서 "DTS"의 인덱스는 0입니다.


## 보초법  
선형 검색은 반복시마다 두가지 조건을 사용하게 되며, 이때 발생하는 비용(cost)를 무시할 수 없다. 이런 비용을 절반으로 줄이는 방법이 보초법이다.

- 검색할 값과 같은 값을 원래 데이터의 마지막에 추가하여, 검색 실패시에 대한 if문을 작성하지 않아도 된다. 단 한번의 if문 만으로 원하는 검색 결과를 얻을 수 있다.
- 배열의 마지막에 검색하고자 하는 키값을 저장한다. 이 값을 보초(sentinel)이라고 한다.

In [1]:
# 선형 검색 알고리즘을 보초법으로 수정

from typing import Sequence, Any
import copy

def seq_search(seq: Sequence, key: Any) -> int:
    """시퀀스 seq에서 key와 일치하는 원소를 선형 검색(보초법)"""
    a = copy.deepcopy(seq) # seq를 복사
    a.append(key) # 보초 key를 추가
    
    i = 0
    while True:
        if a[i] == key:
            break
        i += 1
    return -1 if i == len(seq) else i

if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: ')) # num값을 입력
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    for i in range(num):
        x[i] = int(input(f'x[{i}]: ')) 
        
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 ky를 입력받기
    
    idx = seq_search(x, ky) # 키 ky값과 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 7
x[0]: 6
x[1]: 4
x[2]: 3
x[3]: 2
x[4]: 1
x[5]: 2
x[6]: 8
검색할 값을 입력하세요.: 2
검색값은 x[3]에 있습니다.


- 8~9행에서 배열 seq를 a로 복사하고 a의 마지막에 보초인 key르 추가한다. 그러면 원래의 배열 맨 끝에 보초가 추가된 새로운 배열이 만들어 진다.
- 기존의 선형 탐색과 비교해 보면 매 루프마다 두번의 if문을 통해 비용이 많이 사용되는데, 보초법에서는 1번의 선형 검색 조건이 사라지게 되어 판단하기 위한 횟수가 절반으로 줄어들게 된다. if문의 판단 횟수는 기존보다 1회 늘어난다.

# 이진 검색(binary search)
이진 검색을 사용하려면 배열의 데이터가 정렬(sort)되어 있어야 한다. 이진 검색은 선형 검색보다 빠르게 검색할 수 있다는 장점이 있다.

- 이진 탐색에는 세개의 포인터가 존재한다.  
1) pl은 가장 왼쪽 값을 의미하는 포인터로 0번째 값으로 초기화 된다.  
2) pr은 가장 오른쪽 값을 의미하는 포인터로 n-1번째 값으로 초기화 된다.  
3) pc는 pl과 pr의 중앙에 존재하는 값으로 (n-1)//2로 초기화 된다.  
  
  
- 이진 검색에서 범위를 좁히는 과정은 다음과 같다.  
1) 해당 값이 key보다 작다면 중앙(pc)에서 오른쪽으로 한 칸 이동하여 새로운 왼쪽 끝 pl로 설정하고, 검색 범위를 뒤쪽 절반으로 좁힌다.  
2) 해당 값이 key보다 크다면 중앙(pc)에서 왼쪽으로 한 칸 이동하여 새로운 오른쪽 끝 pr로 설정하고, 검색 범위를 앞쪽 절반으로 좁힌다.  
  
  
- 이진 검색의 종료조건은 다음과 같다.  
1) 해당 값이 key와 일치하는 경우  
2) 검색 범위가 더 이상 없는 경우

In [3]:
# 이진 검색 알고리즘

from typing import Any, Sequence

def bin_search(a: Sequence, key: Any) -> int:
    """시퀀스 a에서 key와 일치하는 원소를 이진 검색"""
    pl = 0 # 검색 범위 맨 앞의 원소의 인덱스
    pr = len(a) - 1 # 검색 범위 맨 뒤의 원소의 인덱스
    
    while True:
        pc = (pl + pr) // 2 # 중앙 원소의 인덱스
        if a[pc] == key:
            return pc # 검색 성공
        elif a[pc] < key:
            pl = pc + 1 # 검색 범위를 뒤쪽 절반으로 좁힘
        else:
            pr = pc - 1 # 검색 범위를 앞쪽 절반으로 좁힘
        if pl > pr:
            break
    return -1 # 검색 실패

if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: '))
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    print('배열 데이터를 오름차순으로 입력하세요.')
    
    x[0] = int(input('x[0]: '))
    
    for i in range(1, num):
        while True:
            x[i] = int(input(f'x[{i}]: '))
            if x[i] >= x[i-1]: # 바로 직전에 입력한 원소값보다 큰 값을 입력
                break
                
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 키값 ky를 입력
    
    idx = bin_search(x, ky) # ky값과 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 7
배열 데이터를 오름차순으로 입력하세요.
x[0]: 1
x[1]: 2
x[2]: 3
x[3]: 5
x[4]: 7
x[5]: 8
x[6]: 9
검색할 값을 입력하세요.: 5
검색값은 x[3]에 있습니다.


- 이 알고리즘은 반복시 마다 절반씩 감소하기 때문에 검색이 필요한 평균 횟수는 log(n)번 입니다. 검색에 실패할 경우에는 log(n)+1번이고, 성공할 경우에는 log(n)-1번 이다.

## 복잡도(complexity)
알고리즘의 성능을 객관적으로 평가하는 기준을 복잡도라고 한다. 일반적으로 두개의 복잡도가 존재한다.

- 시간 복잡도 : 실행하는 데 필요한 시간을 평가
- 공간 복잡도 : 메모리와 파일 공간이 얼마나 필요한지를 평가

- 코드 실행 중 단 한번만 실행되는 경우 복잡도 O(1)로 나타낸다. O는 order의 첫 글자로 복잡도를 의미한다.
- O(n)은 n의 값에 비례하여 계산이 길어지게 된다. 읽을 시에는 'n의 오더'와 같은 방식으로 읽는다.

- 여러가지 계산으로 이루어진 알고리즘의 복잡도는 차원이 더 높은 쪽의 복잡도를 우선으로 하게 된다. 전체 복잡도는 차원이 가장 높은 복잡도를 선택하게 된다.

  
- 이진 탐색의 시간 복잡도는 O(log(n))이 된다.

#### index() 함수로 검색하기
리스트 혹은 튜플에서 검색은 각 클래스의 index() 함수로 수행할 수 있다. 인수 i와 j는 생략할 수 있다.  
obj.index(x,i,j)  

- 리스트 또는 튜플 obj[i:j]내에 x가 포함되어 있다면 그 중에 가장 작은 인덱스를 반환하고, 존재하지 않는다면 예외처리를 통해 ValueError를 내보낸다.

In [2]:
# 이진 검색 알고리즘의 실행 과정을 출력

from typing import Any, Sequence

def bin_search(a: Sequence, key: Any) -> int:
    """시퀀스 a에서 key와 일치하는 원소를 이진 검색(실행 과정을 출력)"""
    pl = 0 # 검색 범위 맨 앞 원소의 인덱스
    pr = len(a) - 1 # 검색 범위 맨 뒤 원소의 인덱스
    
    print('  |', end='')
    for i in range(len(a)):
        print(f'{i : 4}, end='')
    print()
    print('---+' + (4 * len(a) + 2) * '-')
              
    while True:
        pc = (pl + pr) // 2 # 중앙 원소의 인덱스
              
        print('  |', end='')
        if pl != pc: # pl 원소 위에 <-를 출력
              print((pl * 4 + 1) * ' ' + '<-' + ((pc - pl) * 4) * ' ' + '+', end='')
        else:
              print((pl * 4 + 1) * ' ' + '<+', end='')
        if pc != pr: # pr 원소 위에 ->를 출력
              print(((pr - pc) * 4 - 2) * ' ' + '->')
        else:
              print('->')
        print(f'{pc:3}|', end='')
        for i in range(len(a)):
              print(f'{a[i]:4}', end='')
        print('＼n  |')
              
        if a[pc] == key:
            return pc # 검색 성공
        elif a[pc] < key:
            pl = pc + 1 # 검색 범위를 뒤쪽 절반으로 좁힘
        else:
            pr = pc - 1 # 검색 범위를 앞쪽 절반으로 좁힘
        if pl > pr:
            break
    return -1 # 검색 실패

if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: '))
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    print('배열 데이터를 오름차순으로 입력하세요.')
    
    x[0] = int(input('x[0]: '))
    
    for i in range(1, num):
        while True:
            x[i] = int(input(f'x[{i}]: '))
            if x[i] >= x[i-1]: # 바로 직전에 입력한 원소값보다 큰 값을 입력
                break
                
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 키값 ky를 입력
    
    idx = bin_search(x, ky) # ky값과 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

SyntaxError: EOL while scanning string literal (<ipython-input-2-50a5775b72ae>, line 12)

In [None]:
# 이진 검색 알고리즘의 실행 과정을 출력

from typing import Any, Sequence

def bin_search(a: Sequence, key: Any) -> int:
    """시퀀스 a에서 key와 일치하는 원소를 이진 검색(실행 과정을 출력)"""
    pl = 0 # 검색 범위 맨 앞 원소의 인덱스
    pr = len(a) - 1 # 검색 범위 맨 뒤 원소의 인덱스
    
    print('  |', end='')
    for i in range(len(a)):
        print(f'{i : 4}', end='')
    print()
    print('---+' + (4 * len(a) + 2) * '-')
              
    while True:
        pc = (pl + pr) // 2 # 중앙 원소의 인덱스
              
        print('  |', end='')
        if pl != pc: # pl 원소 위에 <-를 출력
              print((pl * 4 + 1) * ' ' + '<-' + ((pc - pl) * 4) * ' ' + '+', end='')
        else:
              print((pl * 4 + 1) * ' ' + '<+', end='')
        if pc != pr: # pr 원소 위에 ->를 출력
              print(((pr - pc) * 4 - 2) * ' ' + '->')
        else:
              print('->')
        print(f'{pc:3}|', end='')
        for i in range(len(a)):
              print(f'{a[i]:4}', end='')
        print('＼n  |')
              
        if a[pc] == key:
            return pc # 검색 성공
        elif a[pc] < key:
            pl = pc + 1 # 검색 범위를 뒤쪽 절반으로 좁힘
        else:
            pr = pc - 1 # 검색 범위를 앞쪽 절반으로 좁힘
        if pl > pr:
            break
    return -1 # 검색 실패

if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: '))
    x = [None] * num # 원소 수가 num인 배열을 생성
    
    print('배열 데이터를 오름차순으로 입력하세요.')
    
    x[0] = int(input('x[0]: '))
    
    for i in range(1, num):
        while True:
            x[i] = int(input(f'x[{i}]: '))
            if x[i] >= x[i-1]: # 바로 직전에 입력한 원소값보다 큰 값을 입력
                break
                
    ky = int(input('검색할 값을 입력하세요.: ')) # 검색할 키값 ky를 입력
    
    idx = bin_search(x, ky) # ky값과 같은 원소를 x에서 검색
    
    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')