## 검색 알고리즘
데이터 집합에서 원하는 값을 가진 원소를 찾아내는 검색 알고리즘   
검색의 종류 : 배열 검색, 연결리스트 검색, 이진 트리 검색

## 선형 검색 linear search
무작위로 늘어 놓은 데이터 집합에서 검색을 수행한다. 
직선 모양으로 늘어선 배열에서 검색하는 경우에 원하는 키값을 가진 원소를 찾을 때까지 맨 앞부터 스캔하여 순서대로 검색하는 알고리즘

In [2]:
# 선형 검색 알고리즘 
from typing import Any, Sequence

def seq_search(a: Sequence, key: Any) -> int:
    i=0
   
    # (1)
    """
    while True:
        if i == len(a):
            return -1
        if a[i] == key:
            return i
        i += 1    
    """
    # (2) 
    for i in range(len(a)):
        if a[i] == key:
            return i
    return i

In [6]:
# 테스트 
if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: '))
    x = [None] * num

    for i in range(num):
        x[i] = int(input(f'x[{i}]: '))

    ky = int(input('검색할 값을 입력하세요. '))

    idx = seq_search(x, ky)

    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 5
x[0]: 2
x[1]: 33
x[2]: 4
x[3]: 56
x[4]: 5
검색할 값을 입력하세요. 56
검색값은 x[3]에 있습니다.


- 보초법 : 계속 반복하면 종료 조건을 검사하는 비용을 무시할 수 없다. 이 비용을 반으로 줄이는 방법으로 검색하고자 하는 키값을 배열의 맨 끝에 저장한다. 

In [5]:
import copy

def seq_search(seq: Sequence, key: Any) -> int:
    a = copy.deepcopy(seq)
    a.append(key)

    i = 0
    while True:
        if a[i] == key:
            break
        i += 1
    return -1 if i == len(seq) else i

## 이진 검색 Binary Search
일정한 규칙으로 늘어놓은 데이터 집합에서 아주 빠른 검색을 수행한다.   
값을 찾아내는 시간 복잡도가 $O(logn)$이라는 점에서 대표적인 로그 시간 알고리즘.  
이진 트리 탐색 (Binary Searcy Tree) 와도 유사한 점이 많지만 이진 탐색 트리가 정렬된 구조를 저장하고 탐색하는 자료구조라면,  
이진 검색은 정렬된 배열에서 값을 찾아내는 알고리즘 자체를 지칭한다.   

In [7]:
from typing import Any, Sequence

def bin_search(a:Sequence, key:Any) -> int:
    pl = 0
    pr = len(a) - 1

    print('  |', end='')
    for i in range(len(a)):
        print(f'{i : 4}', end='')
    print()
    print('---+' + (4 * len(a)+2)*'-')

    while True:
        pc = (pl + pr) // 2

        print('  |', end='')
        if pl != pc:
            print((pl*4 + 1)*' '+'<-'+((pc-pl)*4)*' '+'+', end='')
        else:
            print((pc*4+1)*' '+'<+', end='')
        if pc != pr:
            print(((pr-pc)*4-2)*' '+'->')
        else:
            print('->')
        print(f'{pc:3}|', end='')

        for i in range(len(a)):
            print(f'{a[i]:4}', end='')
        print('\n   |')

        if a[pc] == key:
            return pc
        elif a[pc] < key:
            pl = pc + 1
        else:
            pr = pc - 1
        if pl > pr:
            break
    return -1

In [8]:
if __name__ == '__main__':
    num = int(input('원소 수를 입력하세요.: '))
    x = [None] * num

    print('배열 데이터를 오름차순으로 입력하세요.')

    x[0] = int(input('x[0]: '))

    for i in range(1, num):
        while True:
            x[i] = int(input(f'x[{i}]:'))
            if x[i] >= x[i - 1]:
                break
    ky = int(input('검색할 값을 입력하세요.: '))

    idx = bin_search(x, ky)

    if idx == -1:
        print('검색값을 갖는 원소가 존재하지 않습니다.')
    else:
        print(f'검색값은 x[{idx}]에 있습니다.')

원소 수를 입력하세요.: 9
배열 데이터를 오름차순으로 입력하세요.
x[0]: 34
x[1]:56
x[2]:78
x[3]:90
x[4]:98
x[5]:122
x[6]:234
x[7]:567
x[8]:678
검색할 값을 입력하세요.: 900
  |   0   1   2   3   4   5   6   7   8
---+--------------------------------------
  | <-                +              ->
  4|  34  56  78  90  98 122 234 567 678
   |
  |                     <-    +      ->
  6|  34  56  78  90  98 122 234 567 678
   |
  |                             <+  ->
  7|  34  56  78  90  98 122 234 567 678
   |
  |                                 <+->
  8|  34  56  78  90  98 122 234 567 678
   |
검색값을 갖는 원소가 존재하지 않습니다.


## 해시법 Hasing  

'데이터를 저장할 위치 = 인덱스'를 간단한 연산으로 구하는 것  
추가.삭제가 자주 일어나는 데이터 집합에서 아주 빠른 검색을 수행한다. 

저장할 버킷이 중복되는 현상인 충돌 collision이 발생하는 경우 아래의 방법으로 대처할 수 있다. 

- 체인법 : 같은 해시값 데이터를 연결 리스트로 연결하는 방법
- 오픈 주소법 : 데이터를 위한 해시값이 충돌할 때 재해시하는 방법 

### 체인법  

Node 클래스 만들기
- key : 키(임의의 자료형)
- value : 값(임의의 자료형)
- next : 뒤쪽 노드를 참조(Node형)

ChainedHash 해시 클래스 만들기
- capacity : 해시 테이블의 크기(배열 table의 원소 수)를 나타냄   
- table : 해시 테이블을 저장하는 list형 배열을 나타냄

키로 원소를 검색하는 search() 함수
1. 해시합수를 사용하여 키를 해시값으로 변환
2. 해시값을 인덱스로 하는 버킷에 주목
3. 버킷이 참조하는 연결 리스트를 맨 앞부터 차례로 스캔한다. 키와 같은 값이 발견되면 검색에 성공하고, 원소의 맨 끝까지 스캔해서 발견되지 않으면 검색에 실패한다. 

원소를 추가하는 add() 함수
1. 해시 함수를 사용하여 키를 해시값으로 변환
2. 해시값을 인덱스로 하는 버킷에 주목
3. 버킷이 참조하는 연결 리스트를 맨 앞부터 차례로 선형 검색을 한다. 키와 같은 값이 발견되면 키가 이미 등록된 경우이므로 추가에 실패한다. 원소의 맨 끝까지 별견되지 않으면 해시값이 리스트의 맨 앞 노드를 추가

원소를 삭제하는 remove() 함수
1. 해시 함수를 사용하여 키를 해시값으로 변환
2. 해시값을 인덱스로 하는 버킷에 주목
3. 버킷이 참조하는 연결 리스트를 맨 앞부터 차례로 선형 검색을 한다.키와 같은 값이 발견되면 그 노드를 리스트에서 삭제한다. 그렇지 않으면 삭제에 실패한다. 

원소를 출력하는 dump() 함수
모든 원소를 덤프하는 것 즉, 해시 테이블의 내용을 한꺼번에 통째로 출력

In [8]:
# 노드 클래스 만들기
from __future__ import annotations
from typing import Any, Type
import hashlib

# 해시를 구성하는 노드
class Node:
    
    # 초기화
    def __init__(self, key: Any, value: Any, next: Node) -> None:
        self.key = key # 키(임의의 자료형)
        self.value = value # 값(임의의 자료형)
        self.next = next # 뒤쪽 노드를 참조(Node형)

In [16]:
# 체인법으로 해시 클래스 구현
class ChainedHash:
    
    # 초기화
    def __init__(self, capacity:int) -> None:
        self.capacity = capacity 
        self.table = [None] * self.capacity 
    
    # 인수 key에 대응하는 해시값 구하는 함수 
    def hash_value(self, key: Any) -> int:
        if isinstance(key, int):
            return key % self.capacity
        return(int(hashlib.sha256(str(key).encode()).hexdigest(),16)%self.capacity)
        # sha256 : RSA의 FIPS알고리즘을 바탕으로 바이트(byte)문자열의 해시값을 구하는 해시알고리즘 생성자
        # encode() : hashlib.sha256에는 바이트 문자열의 인수를 전달해야하기 때문에 key를 str로 변환한뒤 encode()를 통해 바이트 문자열 생성
        # hexdigest() : sha256 알고리즘에서 해시값을 16진수 문자열 꺼내기
        # int() : hexdigest() 함수로 꺼낸 문자열을 16진수 문자열을 int 형으로 변환 
    
    def search(self, key: Any) -> Any:
        hash = self.hash_value(key) # 검색하는 키의 해시값
        p = self.table[hash] # 노드를 주목

        while p is not None:
            if p.key == key:
                return p.value # 검색 성공
            p = p.next # 뒤쪽 노드를 주목

        return None

    def add(self, key: Any, value: Any) -> bool:
        hash = self.hash_value(key) # 추가하는 key의 해시값
        p = self.table[hash] # 노드를 주목
        
        while p is not None:
            if p.key == key:
                return False # 추가 실패
            p = p.next # 뒤쪽 노드를 주목 
            
        temp = Node(key, value, self.table[hash]) 
        self.table[hash] = temp # 노드를 추가
        return True # 추가 성공
    
    def remove(self, key: Any) -> bool:
        hash = self.hash_value(key) # 삭제할 key의 해시값
        p = self.table[hash] # 노드를 
        pp = None
        
        while p is not None:
            if p.key == key:
                if pp is None:
                    self.table[hash] = p.next
                else:
                    pp.next = p.next
                return True
            pp = p
            p = p.next
        return False
    
    def dump(self) -> None: # 원소를 출력하는 함수 
        for i in range(self.capacity):
            p = self.table[i]
            print(i, end='')
            while p is not None:
                print(f' -> {p.key}({p.value})', end='')
                p = p.next
            print()


파이썬은 버전 3.4부터 다른 언어들 처럼 enum(enumeration, 이넘) 타입을 지원하고 있다.   
enum은 일반적으로 서로 관련이 있는 여러 개의 **상수의 집합을 정의**할 때 사용한다.  
enum 클래스를 사용하면 인스턴스의 종류를 제한할 수 있기 때문에 견고한 프로그램을 작성하는데 도움이 된다.  

### ChainedHash 클래스를 실제 사용하는 프로그램  

In [19]:
# 체인법을 구현하는 해시 클래스 ChainedHash의 사용
from enum import Enum
#from chained_hash import ChainedHash

Menu = Enum('Menu',['추가','삭제','검색','덤프','종료']) # 메뉴를 선언

def select_menu() -> Menu:
    s = [f'({m.value}){m.name}' for m in Menu]
    while True:
        print(*s, sep=' ', end='')
        n = int(input(': '))
        if 1 <= n <= len(Menu):
            return Menu(n)

hash = ChainedHash(13)

while True:
    menu = select_menu()
    
    if menu == Menu.추가:
        key = int(input('추가할 키를 입력하세요.:'))
        val = input('추가할 값을 입력하세요.:')
        if not hash.add(key, val):
             print('추가를 실패했습니다.!')
    
    elif menu == Menu.삭제:
        key = int(input('삭제할 키를 입력하세요.:'))
        if not hash.remove(key):
            print('삭제를 실패했습니다.!')
            
    elif menu == Menu.검색:
        key = int(input('검색할 키를 입력하세요.:'))
        t = hash.search(key)
        if t is not None:
            print(f'검색할 키를 갖는 값은 {t}입니다')
        else:
            print('검색할 데이터가 없습니다.')
    
    elif menu == Menu.덤프:
        hash.dump()
        
    else:
        break

(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:1
추가할 값을 입력하세요.:수연
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:5
추가할 값을 입력하세요.:동혁
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:10
추가할 값을 입력하세요.:예지
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:12
추가할 값을 입력하세요.:지녕
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:14
추가할 값을 입력하세요.:민서
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 3
검색할 키를 입력하세요.:5
검색할 키를 갖는 값은 동혁입니다
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 4
0
1 -> 14(민서) -> 1(수연)
2
3
4
5 -> 5(동혁)
6
7
8
9
10 -> 10(예지)
11
12 -> 12(지녕)
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 5


### 오픈 주소법
오픈 주소법은 충돌이 발생했을 때 재해시(rehashing)을 수행하여 빈 버킷을 찾는 방법을 말하며 닫힌 해시법이라고 한다.    
오픈 주소법은 빈  버킷이 나올 때까지 재해시를 반복하므로 선형 탐사법이라고 한다.   
재해시를 위한 해시 함수는 자유롭게 정할 수 있다.  

In [4]:
# 오픈 주소법으로 해시 함수 구현하기

from __future__ import annotations
from typing import Any, Type
from enum import Enum
import hashlib

# 버킷의 속성
class Status(Enum):
    OCCUPIED = 0 # 데이터를 저장
    EMPTY = 1 # 비어 있음
    DELETED = 2 # 삭제 완료
    
class Bucket:
    """해시를 구성하는 버킷"""
    def __init__(self, key: Any = None, value: Any = None, 
                stat: Status = Status.EMPTY) -> None:
        """초기화"""
        self.key = key # 키
        self.value = value # 값
        self.stat = stat # 속성
        
    def set(self, key: Any, value: Any, stat: Status) -> None:
        """모든 필드에 값을 설정"""
        self.key = key # 키
        self.value = value # 값
        self.stat = stat # 속성
        
    def set_status(self, stat:Status) -> None:
        """속성을 설정"""
        self.stat = stat
        
class OpenHash:
    """오픈 주소법으로 구현하는 해시 클래스"""
    def __init__(self, capacity: int) -> None:
        """초기화"""
        self.capacity = capacity # 해시 테이블의 크기를 지정
        self.table = [Bucket()] * self.capacity  # 해시 테이블
        
    def hash_value(self, key:Any) -> int:
        """해시값을 구함"""
        if isinstance(key, int):
            return key % self.capacity
        
    def rehash_value(self, key: Any) -> int:
        """재해시값을 구함"""
        return(self.hash_value(key)+1) % self.capacity
    
    def search_node(self, key: Any) -> Any:
        """키가 key인 버킷을 검색"""
        hash = self.hash_value(key)
        p = self.table[hash]
        
        for i in range(self.capacity):
            if p.stat == Status.EMPTY:
                break
            elif p.stat == Status.OCCUPIED and p.key == key:
                return p
            hash = self.rehash_value(hash)
            p = self.table[hash]
            
        return None
    
    def search(self, key: Any) -> bool:
        """키가 key인 원소를 검색하여 값을 반환"""
        p = self.search_node(key)
        if p is not None:
            return p.value
        else:
            return None
        
    def add(self, key:Any, value:Any) -> bool:
        """키가 key이고 값이 value인 원소를 추가"""
        if self.search(key) is not None:
            return False # 이미 등록된 키
        
        hash = self.hash_value(key) # 추가하는 키의 해시값
        p = self.table[hash] # 버킷을 주목
        for i in range(self.capacity):
            if p.stat == Status.EMPTY or p.stat == Status.DELETED:
                self.table[hash] = Bucket(key, value, Status.OCCUPIED)
                return True
            hash = self.rehash_value(hash) # 재해시
            p = self.table[hash]
        return False
    
    def remove(self, key:Any) -> int:
        """키가 key인 원소를 삭제"""
        p = self.search_node(key)
        if p is None:
            return False
        p.set_status(Status.DELETED)
        return True
    
    def dump(self) -> None:
        """해시 테이블을 덤프"""
        for i in range(self.capacity):
            print(f'{1:2} ', end='')
            if self.table[i].stat == Status.OCCUPIED:
                print(f'{self.table[i].key} ({self.table[i].value})')
            elif self.table[i].stat == Status.EMPTY:
                print('--미등록--')
            elif self.table[i].stat == Status.DELETED:
                print('--삭제완료--')

In [7]:
# 오픈 주소법을 구현하는 해시 클래스 Openhash 사용
from enum import Enum
#from open_hash import OpenHash

Menu = Enum('Menu',['추가','삭제','검색','덤프','종료']) # 메뉴를 선언

def select_menu() -> Menu:
    """메뉴 선택"""
    s = [f'({m.value}){m.name}' for m in Menu]
    while True:
        print(*s, sep=' ', end='')
        n = int(input(': '))
        if 1 <= n <= len(Menu):
            return Menu(n)
        
hash = OpenHash(13) # 크기가 13인 해시 테이블 생성     
 
while True:
    menu = select_menu()
    
    if menu == Menu.추가:
        key = int(input('추가할 키를 입력하세요.:'))
        val = input('추가할 값을 입력하세요.:')
        if not hash.add(key, val):
             print('추가를 실패했습니다.!')
    
    elif menu == Menu.삭제:
        key = int(input('삭제할 키를 입력하세요.:'))
        if not hash.remove(key):
            print('삭제를 실패했습니다.!')
            
    elif menu == Menu.검색:
        key = int(input('검색할 키를 입력하세요.:'))
        t = hash.search(key)
        if t is not None:
            print(f'검색할 키를 갖는 값은 {t}입니다')
        else:
            print('검색할 데이터가 없습니다.')
    
    elif menu == Menu.덤프:
        hash.dump()
        
    else:
        break

(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:1
추가할 값을 입력하세요.:수연
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:5
추가할 값을 입력하세요.:동혁
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:10
추가할 값을 입력하세요.:예지
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:12
추가할 값을 입력하세요.:진경
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 1
추가할 키를 입력하세요.:14
추가할 값을 입력하세요.:민서
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 3
검색할 키를 입력하세요.:5
검색할 키를 갖는 값은 동혁입니다
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 4
 1 --미등록--
 1 1 (수연)
 1 14 (민서)
 1 --미등록--
 1 --미등록--
 1 5 (동혁)
 1 --미등록--
 1 --미등록--
 1 --미등록--
 1 --미등록--
 1 10 (예지)
 1 --미등록--
 1 12 (진경)
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 2
삭제할 키를 입력하세요.:14
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 4
 1 --미등록--
 1 1 (수연)
 1 --삭제완료--
 1 --미등록--
 1 --미등록--
 1 5 (동혁)
 1 --미등록--
 1 --미등록--
 1 --미등록--
 1 --미등록--
 1 10 (예지)
 1 --미등록--
 1 12 (진경)
(1)추가 (2)삭제 (3)검색 (4)덤프 (5)종료: 5
