검색과 더불어 데이터의 추가 삭제도 효율적으로 수행 할 수 있음

정렬된 배열에서 원소 추가하기 


배열 a [5, 6, 14, 20, 29, 34, 37, 51, 69, 75 , -, -, -]

- x[5]와 x[6] 사이에 값이 추가 되도록 이진 검색법으로 검사
- x[6] 이후 모든 원소 한 칸식 뒤로 이동
- x[6]에 35 대입

해시법(hashing)

- 데이터를 저장할 위치 = 인덱스 를 간단한 연산으로 구하는 것

배열 a   [5, 6, 14, 20, 29, 34, 37, 51, 69, 75 , -, -, -]

해시값 a [5, 6, 1,   7,  3,  8, 11, 12,  4, 10]

위 배열의 키(원소값)를 원소 개수인 13으로 나눈 나머지 = 해시값

해시값을 인덱스로 하여 원소를 새로 저장한 배열 = 해시 테이블

키를 해시값으로 변환하는 과정 = 해시 함수(hash function) = 나머지 구하는 연산 또는 그 연산을 응용할 때 주로 사용. 

해시테이블에서 만들어진 원소 = 버킷(bucket) 

해시 충돌 

- 저장할 버킷이 중복되는 현상 = 충돌(collision) 

충돌 대처

1. 체인법: 해시값이 같은 원소를 연결 리스트로 관리
2. 오픈 주소법: 빈 버킷을 찾을 때까지 해시 반복 

체인법(chaining)

- 해시값이 같은 데이터를 체인 모양 연결 리스트로 연결하는 방법 = 오픈 해시법

해시값이 같은 데이터 저장하기 

- 체이법에서는 해시값이 같은 데이터를 연결 리스트에 의해 체인 모양으로 연결
- 배열의 각 버킷(해시 테이블) 에 저장하는 것은 인덱스를 해시값으로 하는 연결 리스트의 앞쪽 노드(head node) 참조하는 것

     - 예: 69, 17 해시값이 4(13으로 나눌때)면 이들 연결하는 연결 리스트 앞쪽 노드를 참조해 table[4] 에 저장
     - 데이터 하나도 없는 버킷의 값을 None 

In [1]:
# 체인법으로 해시 함수 구현하기
# Do it! 실습 3-5 [A]
from __future__ import annotations
from typing import Any, Type
import hashlib

class Node:
    """해시를 구성하는 노드"""

    def __init__(self, key: Any, value: Any, next: Node) -> None:
        """초기화"""
        self.key   = key    # 키
        self.value = value  # 값
        self.next  = next   # 뒤쪽 노드를 참조

# Do it! 실습 3-5 [B]
class ChainedHash:
    """체인법을 해시 클래스 구현"""

    def __init__(self, capacity: int) -> None:
        """초기화"""
        self.capacity = capacity             # 해시 테이블의 크기를 지정
        self.table = [None] * self.capacity  # 해시 테이블(리스트)을 선언

    def hash_value(self, key: Any) -> int:
        """해시값을 구함"""
        if isinstance(key, int):
            return key % self.capacity
        return(int(hashlib.sha256(str(key).encode()).hexdigest(), 16) % self.capacity)

# Do it! 실습 3-5[C]
    def search(self, key: Any) -> Any:
        """키가 key인 원소를 검색하여 값을 반환"""
        hash = self.hash_value(key)  # 검색하는 키의 해시값
        p = self.table[hash]         # 노드를 노드

        while p is not None:
            if p.key == key:
                 return p.value  # 검색 성공
            p = p.next           # 뒤쪽 노드를 주목

        return None              # 검색 실패

    def add(self, key: Any, value: Any) -> bool:
        """키가 key이고 값이 value인 원소를 삽입"""
        hash = self.hash_value(key)  # 삽입하는 키의 해시값
        p = self.table[hash]         # 주목하는 노드

        while p is not None:
            if p.key == key:
                return False         # 삽입 실패
            p = p.next               # 뒤쪽 노드에 주목

        temp = Node(key, value, self.table[hash])
        self.table[hash] = temp      # 노드를 삽입
        return True                  # 삽입 성공

# Do it! 실습 3-5[D]
    def remove(self, key: Any) -> bool:
        """키가 key인 원소를 삭제"""
        hash = self.hash_value(key)  # 삭제할 키의 해시값
        p = self.table[hash]         # 주목하고 있는 노드
        pp = None                    # 바로 앞 주목 노드

        while p is not None:
            if p.key == key:  # key를 발견하면 아래를 실행
                if pp is None:
                    self.table[hash] = p.next
                else:
                    pp.next = p.next
                return True  # key 삭제 성공
            pp = p
            p = p.next       # 뒤쪽 노드에 주목
        return False         # 삭제 실패(key가 존재하지 않음)

    def dump(self) -> None:
        """해시 테이블을 덤프"""
        for i in range(self.capacity):
            p = self.table[i]
            print(i, end='')
            while p is not None:
                print(f'  → {p.key} ({p.value})', end='')  # 해시 테이블에 있는 키와 값을 출력
                p = p.next
            print()

__ init __ () 함수로 초기화 하기 

- 빈 해시 테이블 생성. 매개변수 capacity 에 전달 받는 것은 테이블 크기.
- 원소수가 capacity인 list형 배열 table 생성하고 모든 원소를 None 으로 함

- 해시 테이블 각 버킷은 맨 앞부터 table[0], table[1],... table[capacity - 1] 순 접근

hash_value() 해시 함수 만들기 

- hash_value() 함수는 인수 key 에 대응하는 해시값을 구함


해시와 해시함수 알아보기 

- 해시(hash): 긁어 모음, 뒤죽박죽, 가늘게 썬 고기 음식. 
    - 충돌이 X : 해시 함수로 인덱스를 찾는 것만으로 검색, 추가, 삭제 대부분 완료 -> 시간복잡도 O(1) -> 해시테이블 크게 만들면 되지만 메모리 낭비
        - 시간과 공간의 트레이드-오프(trade off - 상충관계) 문제 발생
- 해시 테이블의 크기는 소수 선호

- 해시값
   - key가 int형인 경우: key를 해시 크기 capacity로 나눈 나머지를 해시값

   - key가 int형이 아닌 경우: 문자열, 리스트, 클래스형 등. 그 값으로 바로 나눌 수 없음. 표준라이브러리로 형변환해야 해시값 얻을 수 있음. 

       - sha256 알고리즘: hashlib 모듈에서 제공. 바이트 문자열의 해시값을 구하는 해시 알고리즘 생성자.
       - encode() 함수: key를 str형 문자열로 변환한 뒤 그 문자열을 encode() 함수에 전달해 바이트 문자열 생성
       - hexdigest()함수: 해시값을 16진수 문자열로 꺼냄
       - int() 함수: hexidigest() 함수로 꺼낸 문자열을 16진수 문자열로 하는 int형 변환

키로 원소를 검색하는 search() 함수 

- 해시 함수 사용하여 키를 해시값으로 변환 
- 해시값을 인덱스로 하는 버킷에 주목 
- 버킷이 참조하는 연결 리스트를 맨 앞 부터 차례로 스캔. 키과 같은 값이 발견되면 검색 성공. 원소 끝까지 스캔해서 발견되지 않으면 실패.

원소를 추가하는 add() 함수 

- 키가 key 이고 값이 value 인 원소 추가 

1. 해시 함수를 사용하여 키를 해시값으로 변환
2. 해시값을 인덱스로 하는 버킷에 주목
3. 버킷이 참조하는 연결리스트를 맨 앞부터 차례로 선형 검색. 키와 같은 값이 발견되면 키가 이미 등록된 경우이므로 추가에 실패. 
   원소 매 끝까지 발견되지 않으면 해시값이 리스트 맨 앞에 노드를 추가 

원소를 삭제하는 remove() 함수 

- 키가 key인 원소 삭제

1. 해시 함수 사용하여 키를 해시값으로 변환
2. 해시값을 인덱스로 하는 버킷에 주목
3. 버킷이 참조하는 연결 리스트를 맨 앞부터 차례로 선형 검색. 키와 같은 값이 발견되면 그 노드를 리스트에서 삭제. 

원소를 출력하는 dump() 함수 

- 모든 원소를 덤프 하는 것. 해시 테이블의 내용을 한꺼번에 통째로 출력. 
- 해시 테이블 모든 원소인 table[0]  ~ table[capacity - 1] 까지 뒤쪽 노드를 찾아가면서 각 노드의 키와 값을 출력 작업 반복 

In [2]:
# [Do it! 실습 3-6] 체인법을 구현하는 해시 클래스 ChainedHash의 사용

from enum import Enum
from chained_hash import ChainedHash

Menu = Enum('Menu', ['추가', '삭제', '검색', '덤프', '종료'])  # 메뉴를 선언

def select_menu() -> Menu:
    """메뉴 선택"""
    s = [f'({m.value}){m.name}' for m in Menu]
    while True:
        print(*s, sep = '   ', end='')
        n = int(input(': '))
        if 1 <=  n <=  len(Menu):
            return Menu(n)

hash = ChainedHash(13)     # 크기가 13인 해시 테이블을 생성

while True:
    menu = select_menu()   # 메뉴 선택

    if menu == Menu.추가:  # 추가
        key = int(input('추가할 키를 입력하세요.: '))
        val = input('추가할 값을 입력하세요.: ')
        if not hash.add(key, val):
            print('추가를 실패했습니다!')

    elif menu == Menu.삭제:  # 삭제
        key = int(input('삭제할 키를 입력하세요.: '))
        if not hash.remove(key):
            print('삭제를 실패했습니다!')

    elif menu == Menu.검색:  # 검색
        key = int(input('검색할 키를 입력하세요.: '))
        t = hash.search(key)
        if t is not None:
            print(f'검색한 키를 갖는 값은 {t}입니다.')
        else:
            print('검색할 데이터가 없습니다.')

    elif menu == Menu.덤프:  # 덤프
        hash.dump()

    else:  # 종료
        break

(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료검색한 키를 갖는 값은 동혁입니다.
(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료0
1  → 14 (민서)  → 1 (수연)
2
3
4
5  → 5 (동혁)
6
7
8
9
10  → 10 (예지)
11
12  → 12 (원준)
(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료삭제를 실패했습니다!
(1)추가   (2)삭제   (3)검색   (4)덤프   (5)종료

오픈 주소법

- 충돌이 발생했을 때 재해시를 수행하여 빈 버킷을 찾는 방법. 닫힌 해시법

원소 추가하기 

 - 18추가 - 충돌 - 재해시 (키에 1을 더하고 13으로 나눈 나머지 사용) 
 - 재해시를 위한 식 (18 + 1) % 13 = 6
 - table[6] 인 버킷도 값이 채워짐 - 재해시 
 - (19 + 1) % 13 = 7
 - table[7] 인 버킷에 18 추가 
 - 빈 버킷이 나올 때까지 재해시 반복하므로 선형 탐사법이라고도 함


원소 삭제하기 

 - table[5] 버킷 삭제? - 해시값 같은 18 검색할 때 해시값 5인 데이터는 존재하지 않는다고 착각하여 검색 실패

원소 검색하기 

 - 17을 검색. 해시값 4. - 속성 비어있음 = 검색실패 판단 할 수도. 

In [3]:
# Do it! 실습 3-7 오픈 주소법으로 해시함수 구현하기

from __future__ import annotations
from typing import Any, Type
from enum import Enum
import hashlib

# 버킷의 속성
class Status(Enum):
    OCCUPIED = 0  # 데이터를 저장
    EMPTY = 1     # 비어 있음
    DELETED = 2   # 삭제 완료

class Bucket:
    """해시를 구성하는 버킷"""

    def __init__(self, key: Any = None, value: Any = None,
                       stat: Status = Status.EMPTY) -> None:
        """초기화"""
        self.key = key      # 키
        self.value = value  # 값
        self.stat = stat    # 속성

    def set(self, key: Any, value: Any, stat: Status) -> None:
        """모든 필드에 값을 설정"""
        self.key = key      # 키
        self.value = value  # 값
        self.stat = stat    # 속성

    def set_status(self, stat: Status) -> None:
        """속성을 설정"""
        self.stat = stat

class OpenHash:
    """오픈 주소법을 구현하는 해시 클래스"""

    def __init__(self, capacity: int) -> None:
        """초기화"""
        self.capacity = capacity                 # 해시 테이블의 크기를 지정
        self.table = [Bucket()] * self.capacity  # 해시 테이블

    def hash_value(self, key: Any) -> int:
        """해시값을 구함"""
        if isinstance(key, int):
            return key % self.capacity
        return(int(hashlib.md5(str(key).encode()).hexdigest(), 16)
                % self.capacity)

    def rehash_value(self, key: Any) -> int:
        """재해시값을 구함"""
        return(self.hash_value(key) + 1) % self.capacity

    def search_node(self, key: Any) -> Any:
        """키가 key인 버킷을 검색"""
        hash = self.hash_value(key)  # 검색하는 키의 해시값
        p = self.table[hash]         # 버킷을 주목

        for i in range(self.capacity):
            if p.stat == Status.EMPTY:
                break
            elif p.stat == Status.OCCUPIED and p.key == key:
                return p
            hash = self.rehash_value(hash)  # 재해시
            p = self.table[hash]
        return None

    def search(self, key: Any) -> Any:
        """키가 key인 갖는 원소를 검색하여 값을 반환"""
        p = self.search_node(key)
        if p is not None:
            return p.value  # 검색 성공
        else:
            return None     # 검색 실패

    def add(self, key: Any, value: Any) -> bool:
        """키가 key이고 값이 value인 요소를 추가"""
        if self.search(key) is not None:
            return False             # 이미 등록된 키

        hash = self.hash_value(key)  # 추가하는 키의 해시값
        p = self.table[hash]         # 버킷을 주목
        for i in range(self.capacity):
            if p.stat == Status.EMPTY or p.stat == Status.DELETED:
                self.table[hash] = Bucket(key, value, Status.OCCUPIED)
                return True
            hash = self.rehash_value(hash)  # 재해시
            p = self.table[hash]
        return False                        # 해시 테이블이 가득 참

    def remove(self, key: Any) -> int:
        """키가 key인 갖는 요소를 삭제"""
        p = self.search_node(key)  # 버킷을 주목
        if p is None:
            return False           # 이 키는 등록되어 있지 않음
        p.set_status(Status.DELETED)
        return True

    def dump(self) -> None:
        """해시 테이블을 덤프"""
        for i in range(self.capacity):
            print(f'{i:2} ', end='')
            if self.table[i].stat == Status.OCCUPIED:
                print(f'{self.table[i].key} ({self.table[i].value})')
            elif self.table[i].stat == Status.EMPTY:
                print('-- 미등록 --')
            elif self.table[i] .stat == Status.DELETED:
                print('-- 삭제 완료 --')

In [4]:
# [Do it! 실습 3-8] 오픈 주소법을 구현하는 해시 클래스 OpenHash 사용

from enum import Enum
from open_hash import OpenHash

Menu = Enum('Menu', ['추가', '삭제', '검색', '덤프', '종료'])

def select_menu() -> Menu:
    """메뉴 선택"""
    s = [f'({m.value}){m.name}' for m in Menu]
    while True:
        print(*s, sep = '  ', end='')
        n = int(input(': '))
        if 1 <=  n <= len(Menu):
            return Menu(n)

hash = OpenHash(13)  # 크기가 13인 해시 테이블 생성

while True:
    menu = select_menu()  # 메뉴 선택

    if menu == Menu.추가:  # 추가
        key = int(input('추가할 키를 입력하세요.: '))
        val = input('추가할 값을 입력하세요.: ')
        if not hash.add(key, val):
            print('추가를 실패했습니다!')

    elif menu == Menu.삭제:  # 삭제
        key = int(input('삭제할 키를 입력하세요.: '))
        if not hash.remove(key):
            print('삭제를 실패했습니다!')

    elif menu == Menu.검색:  # 검색
        key = int(input('검색할 키를 입력하세요.: '))
        t = hash.search(key)
        if t is not None:
            print(f'검색한 키를 갖는 값은 {t}입니다.')
        else:
            print('검색할 데이터가 없습니다.')

    elif menu == Menu.덤프:  # 덤프
        hash.dump()

    else:  # 종료
        break

(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료검색한 키를 갖는 값은 동혁입니다.
(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료 0 -- 미등록 --
 1 1 (수연)
 2 14 (민서)
 3 -- 미등록 --
 4 -- 미등록 --
 5 5 (동혁)
 6 -- 미등록 --
 7 -- 미등록 --
 8 -- 미등록 --
 9 -- 미등록 --
10 10 (예지)
11 -- 미등록 --
12 12 (원준)
(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료 0 -- 미등록 --
 1 1 (수연)
 2 -- 삭제 완료 --
 3 -- 미등록 --
 4 -- 미등록 --
 5 5 (동혁)
 6 -- 미등록 --
 7 -- 미등록 --
 8 -- 미등록 --
 9 -- 미등록 --
10 10 (예지)
11 -- 미등록 --
12 12 (원준)
(1)추가  (2)삭제  (3)검색  (4)덤프  (5)종료