## 07. 정렬과 탐색

### 정렬이란?
- 탐색: 많은 자료 중에서 무언가를 찾는 작업
- 정렬: 데이터를 순서대로 재배열 하는 것
 - : 레코드들을 키의 순서로 재배열하는 것
- 비교할 수 있는 모든 속성들은 정렬의 기준이 될 수 있음
 - 오름차순과 내림차순
 - 정렬되어 있지 않은 자료에 대해서는 탐색의 효율이 크게 떨어짐
- 레코드: 정렬시켜야 될 대상
 - 레코드는 여러 개의 필드로 이루어짐
- 정렬 키: 정렬이 기준이 되는 필드

- 정렬 장소에 따른 분류
 - 내부 정렬: 모든 데이터가 메인 메모리에 올라와 있는 정렬
 - 외부 정렬: 외부 기억 장치에 대부분의 데이터가 있고 일부만 메모리에 올려 정렬하는 방법

- 구현 복잡도와 알고리즘 효율성에 따른 분류
 - 단순하지만 비효율적인 방법: 삽입 정렬, 선택 정렬, 버블 정렬 등
 - 복잡하지만 효율적인 방법: 퀵 정렬, 힙 정렬, 병합 정렬, 기수 정렬 등
 
- 안정성에 따른 분류
 - :입력 데이터에 동일한 킷값을 갖는 레코드가 여러 개 존재할 경우, 정렬 후에도 이들의 상대적인 위치가 바뀌지 않는 것
 - EX: 삽입 정렬, 버블 정렬, 병합 정렬

### 간단한 정렬 알고리즘
#### 선택 정렬
- 리스트에서 가장 작은 숫자를 선택해서 앞쪽으로 옮기는 방법을 사용
- 오른쪽 리스트에서 가장 작은 숫자를 선택하여 왼쪽 리스트의 맨 뒤로 이동하는 작업을 반복하는 것
- 선택 정렬은 입력 배열 이외에 추가적인 배열을 사용하지 않음(= 제자리 정렬)
- 시간 복잡도가 O(n^2)로 효율적인 알고리즘이 아니며, 안정성을 만족하지 않음
- 알고리즘이 간단하고, 입력 자료의 구성과 상관없이 자료 이동 횟수가 결정된다는 장점

#### 삽입 정렬
- 삽입 정렬의 복잡도는 입력 자료의 구성에 따라서 달라짐
 - 내부 루프가 모든 항목에서 한 번 만에 빠져나올 것이기 때문에 입력 자료가 이미 정렬되어 있는 경우가 가장 빠름
 - 정렬되어 있는 경우의 시간 복잡도: O(n)
 - 입력 자료가 역으로 정렬된 경우 삽입 정렬의 시간 복잡도는 O(n^2)
- 많은 레코드들의 이동을 포함하므로 레코드의 크기가 크고 양이 많은 경우 효율적이지 않음
- 알고리즘이 간단하므로 레코드의 수가 적을 경우(대부분의 래코드가 이미 정렬되어 있는 경우) 효과적

#### 버블 정렬
- 버블 정렬
 - 인접한 2개의 레코드를 비교하여 크기가 순서대로가 아니면 서로 교환하는 비교-교환 과저을 리스트의 왼쪽 끝에서 시작하여 오른쪽 끝까지 진행
 - 비교-교환 과정이 완료되면 가장 큰 레코드가 리스트의 오른쪽 끝으로 이동되며 더 이상 교환이 일어나지 않을 때까지 계속
- 입력 자료가 역순으로 정렬되어 있는 최악의 경우 시간 복잡도는 O(n^2)
- 입력 자료가 이미 정렬 되어 있는 최선의 경우는 한 번의 스캔 만에 알고리즘이 종료됨
- 매우 단순하지만 효율적이지 않으며, 입력 데이터가 어느 정도 정렬되어 있는 경우에 효과적으로 사용될 수 있음 

In [4]:
def selection_sort(A) :
    n = len(A)
    for i in range(n-1) :
        least = i;
        for j in range(i+1, n) :
            if (A[j]<A[least]) :
                least = j
        A[i], A[least] = A[least], A[i]
        printStep(A, i + 1);

def printStep(arr, val) :
    print("  Step %2d = " % val, end='')
    print(arr)

In [5]:
data = [7, 4, 9, 6, 3, 8, 7, 5]
print("Original  :", data)
selection_sort(data)
print("Selection :", data)

Original  : [7, 4, 9, 6, 3, 8, 7, 5]
  Step  1 = [3, 4, 9, 6, 7, 8, 7, 5]
  Step  2 = [3, 4, 9, 6, 7, 8, 7, 5]
  Step  3 = [3, 4, 5, 6, 7, 8, 7, 9]
  Step  4 = [3, 4, 5, 6, 7, 8, 7, 9]
  Step  5 = [3, 4, 5, 6, 7, 8, 7, 9]
  Step  6 = [3, 4, 5, 6, 7, 7, 8, 9]
  Step  7 = [3, 4, 5, 6, 7, 7, 8, 9]
Selection : [3, 4, 5, 6, 7, 7, 8, 9]


In [6]:
def insertion_sort(A) :
    n = len(A)
    for i in range(1, n) :
        key = A[i]
        j = i-1
        while j>=0 and A[j] > key :
            A[j + 1] = A[j]
            j -= 1
        A[j + 1] = key
        printStep(A, i)

In [7]:
data = [6, 3, 5, 7, 4, 8, 7, 9]
print("Original  :", data)
insertion_sort(data)
print("Selection :", data)

Original  : [6, 3, 5, 7, 4, 8, 7, 9]
  Step  1 = [3, 6, 5, 7, 4, 8, 7, 9]
  Step  2 = [3, 5, 6, 7, 4, 8, 7, 9]
  Step  3 = [3, 5, 6, 7, 4, 8, 7, 9]
  Step  4 = [3, 4, 5, 6, 7, 8, 7, 9]
  Step  5 = [3, 4, 5, 6, 7, 8, 7, 9]
  Step  6 = [3, 4, 5, 6, 7, 7, 8, 9]
  Step  7 = [3, 4, 5, 6, 7, 7, 8, 9]
Selection : [3, 4, 5, 6, 7, 7, 8, 9]


In [9]:
def bubble_sort(A) :
    n = len(A)
    for i in range(n-1, 0, -1) :
        bChanged = False
        for j in range (i) :
            if (A[j]>A[j+1]) :
                A[j], A[j+1] = A[j+1], A[j] 
                bChanged = True

        if not bChanged: break;
        printStep(A, n - i);

In [13]:
data = [ 7, 4, 9, 6, 3, 8, 7, 5]
print("Original  :", data)
bubble_sort(data)
print("Selection :", data)

Original  : [7, 4, 9, 6, 3, 8, 7, 5]
  Step  1 = [4, 7, 6, 3, 8, 7, 5, 9]
  Step  2 = [4, 6, 3, 7, 7, 5, 8, 9]
  Step  3 = [4, 3, 6, 7, 5, 7, 8, 9]
  Step  4 = [3, 4, 6, 5, 7, 7, 8, 9]
  Step  5 = [3, 4, 5, 6, 7, 7, 8, 9]
Selection : [3, 4, 5, 6, 7, 7, 8, 9]


### 정렬의 응용: 집합 다시보기
- 집합은 원소의 중복을 허용하지 않으며 원소들 사이에 순서가 없다는 면에서 리스트와 다름
- 집합의 원소들이 정렬되어 있으면 집합의 비교나 합집합, 차집합, 교집합 등을 훨씬 효율적으로 구현할 수 있음
- 삽입 연산: insert
 - 리스트를 정렬된 상태로 유지해야하기 때문에 삽입의 경우 반드시 삽입할 위치를 먼저 알아야 함
 - 리스트의 정렬 여부와 상관없이 삭제 연산은 바뀌는 것이 없음
- 비교 연산: __eq__
 - 집합의 원소의 개수가 모두 n이라고 가정하면, n의 제곱에 비례하는 비교가 필요하기 때문에 O(n^2) 알고리즘
 - 배열이 정렬되어 있다면 한 집합의 원소의 개수만큼만 반복하면 같은 집합인지를 검사할 수 있기 때문에 시간 복잡도는 O(n)
- 합집합 연산: union
 - 원소들이 크기순으로 저렬되어 있으면 스캔만으로 합집합을 구할 수 있음
  - 두 집합의 원소의 개수 합에 비례하는 비교가 필요하기 때문에 두 집합의 크기를 n이라고 한다면 시간 복잡도는 O(n)

In [15]:
def insert(self, elem) :                
        if elem in self.items : return      
        for idx in range(len(self.items)) : 
            if elem < self.items[idx] :     
                self.items.insert(idx, elem)
                return
        self.items.append(elem)         

def __eq__( self, setB ):       
        if self.size() != setB.size() :
            return False
        for idx in range(len(self.items)): 
            if self.items[idx] != setB.items[idx] :
                return False
        return True
    
def union( self, setB ):        
        newSet = Set()
        a = 0
        b = 0
        while a < len( self.items ) and b < len( setB.items ) :
            valueA = self.items[a]
            valueB = setB.items[b]
            if valueA < valueB :
                newSet.items.append( valueA )
                a += 1
            elif valueA > valueB:
                newSet.items.append( valueB )
                b += 1
            else : 
                newSet.items.append( valueA )
                a += 1
                b += 1
        while a < len( self.items ):
             newSet.items.append( self.items[a] )
             a += 1
        while b < len( setB.items) :
             newSet.items.append( setB.items[b] )
             b += 1
        return newSet

### 탐색과 맵 구조
- 탐색: 레코드의 집합에서 원하는 레코드를 찾는 집합
 - :테이블에서 원하는 탐색키를 가진 레코드를 찾는 작업
 - 테이블: 레코드들의 집합
 - 탐색키: 레코드들이 가지고 있는 서로를 구별하여 인식할 수 있는 키
- 테이블을 구성하는 방법에 따라 효율이 달라짐
- 맵 또는 딕셔너리: 자료를 저장하고 탐색키를 이용해 원하는 자료를 빠르게 찾을 수 있도록 하는 탐색을 위한 자료구조
- 맵: 엔트리라고 불리는 키를 가진 레코드들의 집합
 - :키-값의 쌍으로 이루어진 엔트리의 집합
 - 키: 영어 단어나 사람의 이름과 같은 레코드를 구분할 수 있는 키
 - 값: 영어 단어의 의미나 어떤 사람의 주소와 같은 탐색키와 관련된 값
- 맵에서는 유일한 탐색키를 사용하기도 하고, 동일한 탐색키를 허용하기도 함
- 맵을 효율적으로 구현하기 위한 방법
 - 엔트리들을 리스트에 저장하는 것(가장 간단한 방법)
 - 이진탐색트릴르 사용하는 것
 - 해싱(맵을 구현하는 가장 좋은 방법)
- Map ADT
 - search(key):, insert(entry):, delete(key):

### 간단한 탐색 알고리즘
#### 순차 탐색
- 정렬되지 않은 테이블에서도 원하는 레코드를 찾을 수 있는 가장 단순하고 직관적인 방법
- 테이블의 각 레코드를 처음부터 하나씩 순서대로 검사하여 원하는 레코드를 찾음
- 순차 탐색의 시간 복잡도: O(n)
- 간단하고 구현하기 쉽지만 비효율적

#### 이진 탐색
- 테이블의 중앙에 있는 값을 조사하여 찾는 항목이 왼쪽에 있는지 오른쪽에 있는지를 판단 
- 이진탐색 알고리즘은 순환 구조 또는 반복 구조로 구현할 수 있음(효율성을 위해 반복 구조가 더 유리)
- 이진 탐색의 시간 복잡도: O(log2n)
- 매우 효율적인 탐색 방법이지만 탐색하기 전에 반드시 배열이 정렬되어 있어야 한다는 전제조건이 존재
- 데이터의 삽입이나 삭제가 빈번한 응용에는 적합하지 않음

#### 보간 탐색
- :이진탐색의 일종으로 우리가 사전에서 단어를 찾을 때와 같이 탐색키가 존재할 위치를 예측하여 탐색하는 방법
- 탐색 값과 위치는 비례한다는 가정에서 탐색 위치를 결정할 때 찾고자 하는 킷값이 있는 곳에 근접하도록 가중치를 주는 방법
- 이진탐색과 같은 O(log2n)의 시간 복잡도를 갖지만 많은 데이터가 비교적 균등하게 분포되어 있는 자료의 경우 훨씬 효율적인 방법

In [None]:
def sequential_search(A, key, low, high) :
    for i in range(low, high+1) :
        if A[i].key == key :  
            return i 
    return None 

In [None]:
def binary_search(A, key, low, high) :
    if (low <= high) :       
        middle = (low + high) // 2       
        if key == A[middle].key :  
            return middle
        elif (key<A[middle].key) :      
            return binary_search(A, key, low, middle - 1)
        else :
            return binary_search(A, key, middle + 1, high)
    return None        

In [None]:
def binary_search_iter(A, key, low, high) :
    while (low <= high) :       
        middle = (low + high) // 2
        if key == A[middle].key:   
            return middle
        elif (key > A[middle].key):
            low = middle + 1
        else:
            high = middle - 1
    return None        

### 고급 탐색 구조: 해싱
- 이전 탐색 방법들이 탐색키와 각 레코드의 킷값을 비교하여 원하는 항목을 찾았지만 해싱은 완전히 다른 방법을 사용
 - 비교하는 것이 아니라 킷값에 산술적인 연산을 적용하여 레코드가 저장되어야 할 위치를 직접 계산
 - 탐색은 테이블에 있는 레코드를 하나씩 비교하는 것이 아니라 탐색키로부터 레코드가 있어야 할 위치를 계산하고, 그 위치에 레코드가 있는지를 확인
- 해시 함수: 해싱에서 킷값으로부터 레코드가 저장될 위치를 계산하는 함수
- 해시 테이블: 해시 함수에 의해 계산된 위치에 레코드를 저장한 테이블
- 해싱과 오버플로
 - 해시 테이블은 M개의 버킷으로 이루어지는 테이블로, 하나의 버킷은 여러 개의 슬롯을 가지며 하나의 슬롯에는 하나의 레코드가 저장됨
 - 킷값 key가 입력되면 해시 함수로 연산한 결과가 해시 주소가 되며, 이를 인덱스로 사용하여 항목에 접근
 - 충돌: 버킷이 충분하지 않은 경우 서로 다른 키가 해시함수에 의해 같은 주소로 계산되는 상황
 - 동의어: 충돌을 일으키는 키들
 - 오버플로 : 충돌이 슬롯 수보다 더 많이 발생하는 것
- 이상적인 해싱은 충돌이 일어나지 않는 경우로, 해시 테이블의 크기를 충분히 크게하면 가능하지만 메모리가 지나치게 많이 필요
- 테이블의 크기를 줄이고, 해시 함수를 이용해 주소를 계산하는 실제의 해싱에서는 충돌과 오버플로가 빈번하게 발생하기 때문에 시간 복잡도의 이상적인 경우의 O(1)보다 떨어짐

#### 선형 조사에 의한 오버플로 처리
- 선형 조사법: 해싱 함수로 계산된 버킷에 빈 슬롯이 없으면 그 다음 버킷에서 빈 슬롯이 있는지 찾는 방법
 - 조사: 비어 있는 공간을 찾는 것
- 해시 테이블의 k번째 위치인 ht[k]에서 충돌이 발생했다면 다음 위치인 ht[k+1]부터 순서대로 이버있는지를 살피고(조사), 빈 공간이 있으면 저장
- 군집화; 한번 충돌이 발생한 위치에서 항목들이 집중되는 현상
- 선형 조사법은 간단하지만 간단하지만 오버플로가 자주 발생하면 군집화 현상에 따라 탐색의 효율이 크게 저하될 수 있음
- 삽입 연산과 탐색 연산
 - 탐색은 삽입과 비슷한 과정을 거침
 - 탐색키가 입력되면 해시주소를 계산하고, 해당 주소에 같은 키의 레코드가 있다면 탐색은 성공
- 삭제 연산
 - 선형 조사법에서 항목이 삭제되면 탐색이 불가능해질 수 있음
 - 문제 해결을 위해 빈 버킷을 한 번도 사용하지 않은 것과, 사용되었다가 삭제되어 현재 비어있는 버킷으로 분류하며 탐색과정은 한 번도 사용이 안 된 버킷을 만나야만이 중단되도록 함
- 이차 조사법
 - 군집화 문제를 완화시키기 위한 방법
 - 군집화 현상을 완화시킬 수 있지만, 2차 집중 문제를 일으킬 수 있음
 - 동일한 위치로 사상되는 여러 탐색키들이 같은 순서에 의하여 빈 버킷을 조사하기 때문이며 이중 해싱법으로 해결 가능
- 이중 해시법
 - 충돌이 발생해 저장할 다음 위치를 결정할 때, 원해 해시 함수와 다른 별개의 해시 함수를 이용하는 방법(= 재해싱)
 - 해시 함수 값이 같더라도 탐색키가 다르면 서로 다른 조사 순서를 갖도록 하여 2차 집중을 완화할 수 있음
 
#### 체이닝(chaining)에 의한 오버플로 처리
- :하나의 버킷에 여러 개의 레크드를 저장할 수 있도록 하는 방법
 - 버킷은 보통 연결 리스트로 구현
- 체이닝을 연결 리스트로 구현한다면 삽입하는 노드를 맨 끝이 아니라 맨 앞에 추가하는 것이 훨씬 효율적
 - 파이썬 리스트를 이용한다면 append() 연산을 이용해 리스트의 맨 뒤에 추가하는 것이 더 효율적
- 체이닝에서 항목을 탐색하거나 삽입하고자 하면 킷값의 버킷에 해당하는 연결 리스트에서 독립적으로 탐색이나 삽입이 이루어짐
- 해싱 테이블을 연결 리스트로 구성하므로 필요한 만큼의 메모리만 사용하게 되어 공간적 사용 효율이 매우 우수 
- 오버플로가 발생할 경우 해당 버킷에 할당된 연결 리스트만 처리하게 되므로 수행 시간면에서 효율적

#### 해시 함수
- 좋은 해시 함수는 충돌이 적고, 주소가 테이블에서 고르게 분포되며, 계산이 빨라야 함
- 제산 함수: 나머지 연산 %을 이용하는 것(가장 일반적이 방법)
- 폴딩 함수
 - 탐색키가 해시 테이블의 크기보다 더 큰 정수일 경우에 사용
 - 폴딩: 탐색키를 몇 개의 부분으로 나누어 이를 더하거나 비트별 XOR와 같은 부울 연산을 이용한는 것
 - 폴딩 함수에서 탐색키를 나누고 더하는 방법에는 이동 폴딩과 경계 폴딩이 대표적
 - 이동 폴딩: 탐색키를 여러 부분으로 나눈 값들을 더함
 - 경계 폴딩: 이웃한 부분을 거꾸로 더해 해시 주소를 얻음
- 중간 제곱 함수: 탐색키를 제곱한 다음, 중간의 몇 비트를 취해서 해시 주소를 생성하는 방법
- 비트 추출 방법
 - 해시 테이블의 크기가 M = 2^k일 때 탐색키를 이진수로 간주하여 임의의 위치의 k개의 비트를 해시 주소로 사용하는 것
 - 간단하지만 탐색키의 일부 정보만을 사용하므로 해시 주소의 집중 현상이 일어날 가능성이 많음
- 숫자 분석 방법
 - :키의 각 위치에 있는 숫자 중에서 편중되지 않는 수들을 해시 테이블의 크기에 적합한 만큼 조합하여 해시 주소로 사용하는 방법
 - 숫자로 구성된 키에서 각 위치마다 수의 특징을 미리 알고 있을 때 유용
- 탐색키가 문자열인 경우
 - 보통 각 문자에 정수를 대응시켜 바꾸게 됨
 - 문자열안의 모든 문자를 골고루 사용하는 것이 좋음
 
#### 탐색 방법들의 성능 비교
- 해싱의 시간 복잡도: O(1)
 - 충돌이 전혀 일어나지 않는 상황에서만 가능
 - 실제 해싱의 탐색 연산은 O(1)보다 느림
- 적재 밀도 또는 적재 비율: 해싱의 성능을 분석하기 위해 해시 테이블이 얼마나 채워져 있는지를 나타내는 것
  - a = 저장된 항목의 개수 / 해싱테이블의 버킷의 개수 = n / M
  - a가 0이면 해시 테이블은 비어있으며, a의 최댓값은 충돌 해결 방법에 따라 달라짐
  - 선형 조사법에서 테이블이 가득차면 모든 버킷에 하나의 항목이 저장되므로 1
  - 체인법에서는 저장할 수 있는 항목의 수가 해시 테이블의 크기를 넘어설 수 있기 때문에 a는 최댓값을 가지지 않음
- 다양한 탐색 방법의 성능 비교
 - 가장 단순한 순차 탐색은 탐색 시간이 가장 많이 걸림
 - 테이블의 정렬이 필요한 이진 탐색은 효율적이지만 레코드의 삽이보가 삭제에 대한 처리가 복잡
 - 이진탐색트리는 탐색의 시간 복잡도는 같지만 삽입이나 삭제가 쉬움
 - 이상적인 경우 해싱이 가장 효율적인 방법이나 순서가 없기 때문에 정렬된 배열이나 이진탐색트리와 같이 어떤 항목의 이전 항목이나 다음 항목을 쉽게 찾을 수 없음
 - 해싱의 경우 해시 테이블의 크기를 결정하는 것이 불명확하며 최악의 경우, 모든 키가 하나의 버킷으로 집중되면 시간 복잡도는 O(n)이 됨

### 맵의 응용: 나의 단어장
- 맵을 구현할 수 있는 여러가지 방법
 - 리스트를 이용해 순차탐색 맵을 구현하는 방법
 - 리스트를 정렬해서 이진탐색 맵을 구현하는 방법
 - 선형조사법으로 해시 맵을 구현하는 방법
 - 체이닝으로 해시 맵을 구현하는 방법
- 맵은 엔트리의 집합이므로 엔트리 클래스가 필요하여 엔트리에는 키와 값이 필요

#### 리스트를 이용한 순차탐색 맵
- 삽입연산의 시간 복잡도: O(1)
 - 리스트가 정렬되어 있지 않기 때문에 어느 곳에나 넣을 수 있지만 리스트의 맨 뒤에 넣는 것이 가장 효율적
- 순차탐색 함수 sequential_search()의 시간 복잡도: O(n)
- 삭제 연산의 시간 복잡도: O(n)
 - 리스트에서 pop(i)의 시간 복잡도가 O(n)이기 때문
- 이진탐색 맵의 경우 삽입 연산의 시간 복잡도: O(n)
- 탐색 연산에서 binary_search()함수의 시간 복잡도: O(log2n)

#### 체이닝을 이용한 해시 맵
- 해싱에서는 테이블의 크기가 먼저 결정되어 있어야 함
- 삽입 연산의 시간 복잡도: O(1)
 - 주소를 먼저 계산하고, 새로운 노드를 해당 연결 리스트의 맨 앞에 추가하는 방법을 사용
- 탐색 연산의 시간 복잡도
 - 해시 주소를 먼저 게산하고, 해당 주소의 연결 리스트에서 모든 노드에 대해 찾는 키를 가진 노트가 있는지를 검사
 - 시간 복잡도는 리스트에 연결된 레코드의 수에 비례함
 - 하나의 주소에 속한 레코드가 항상 k개 이하로 유지될 수 있다면 시간 복잡도는 O(k)(= O(1)
- 삭제 연산에서는 단순연결리스트를 사용하기 때문에 삭제할 노드의 선행노드를 알아야 함

#### 파이썬의 딕셔너리를 이용한 구현
- 파이썬 딕셔너리의 코드
 - d['data'] = '자료' => 기존 엔트리의 변경이 아니라 새로운 엔트리의 삽입 문장
 - d.get('game') => 킷값이 'game'인 엔트리가 있으면 True 없으면 False
 - d['data'] => 킷값이 'data'인 엔트리의 값(value)을 반환
 - d.pop('game') => 킷값이 'game'인 엔트리를 맵에서 삭제

In [1]:
class Entry:
    def __init__( self, key, value ):
        self.key = key
        self.value = value

    def __str__( self ):
        return str("%s:%s"%(self.key, self.value) )

class SequentialMap:
    def __init__( self ):
        self.table = []    
        
    def size( self ): return len(self.table)
    def display(self, msg):
        print(msg)
        for entry in self.table :
            print("  ", entry)

    def insert(self, key, value) :
        self.table.append(Entry(key, value))

    def search(self, key) :             
        pos = sequential_search(self.table, key, 0, self.size()-1)
        if pos is not None : return self.table[pos]
        else : return None

    def delete(self, key) :
        for i in range(self.size()):
            if self.table[i].key == key :
                self.table.pop(i)
                return

In [None]:
map = SequentialMap()
map.insert('data', '자료')
map.insert('structure', '구조')
map.insert('sequential search', '선형 탐색')
map.insert('game', '게임')
map.insert('binary search', '이진 탐색')
map.display("나의 단어장: ")

print("탐색:game --> ", map.search('game'))
print("탐색:over --> ", map.search('over'))
print("탐색:data --> ", map.search('data'))

map.delete('game')
map.display("나의 단어장: ")

In [20]:
class Node:
    def __init__( self, data, link=None ):
        self.data = data
        self.link = link

class HashChainMap:
    def __init__( self, M ):
        self.table = [None]*M
        self.M = M

    def hashFn(self, key) :
        sum = 0
        for c in key :
            sum = sum +  ord(c)
        return sum % self.M

    def insert(self, key, value) :
        idx = self.hashFn(key)
        self.table[idx] = Node(Entry(key,value), self.table[idx])

    def search(self, key) :
        idx = self.hashFn(key)
        node = self.table[idx]
        while node is not None:
            if node.data.key == key :
                return node.data
            node = node.link
        return None

    def delete(self, key) :
        idx = self.hashFn(key)
        node = self.table[idx]
        before = None
        while node is not None:         
            if node.data.key == key :   
                if before == None :     
                    self.table[idx] = node.link
                else :                  
                    before.link = node.link
                return
            before = node
            node = node.link

    def display(self, msg):
        print(msg)
        for idx in range(len(self.table)) :
            node = self.table[idx]
            if node is not None :
                print("[%2d] -> "%idx, end='')
                while node is not None:
                    print(node.data, end=' -> ')
                    node = node.link
                print()

In [21]:
d = {}
d['data'] =  '자료'
d['structure'] = '구조'
d['sequential search'] = '선형 탐색'
d['game'] = '게임'
d['binary search'] = '이진 탐색'
print("나의 단어장:")
print(d)

if d.get('game') : print("탐색:game --> ", d['game'])
if d.get('over') : print("탐색:over --> ", d['over'])
if d.get('data') : print("탐색:data --> ", d['data'])

d.pop('game')
print("나의 단어장:")
print(d)

나의 단어장:
{'data': '자료', 'structure': '구조', 'sequential search': '선형 탐색', 'game': '게임', 'binary search': '이진 탐색'}
탐색:game -->  게임
탐색:data -->  자료
나의 단어장:
{'data': '자료', 'structure': '구조', 'sequential search': '선형 탐색', 'binary search': '이진 탐색'}
