# 정렬과 탐색

## 7.1 정렬이란?
탐색(seraching): 많은 자료 중에서 무언가를 찾는 작업  
정렬(sorting): 데이터를 순서대로 재배열 하는 것  
<br>
정렬 장소에 따른 분류
- 내부 정렬: 모든 데이터가 메인 메모리에 올라와 있는 정렬을 의미
- 외부 정렬: 외부 기억 장치에 대부분의 데이터가 있고 일부만 메모리에 올려 정렬하는 방법

구현 복잡도와 알고리즘 효율성에 따른 분류
- 단순하지만 비효율적인 방법: 삽입정렬, 선택정렬, 버블 정렬 등
- 복잡하지만 효율적인 방법: 퀵 정렬, 힙 정렬, 병합정렬, 기수 정렬 등

안정성에 따른 분류
- 안정성이란 입력 데이터에 동일한 킷값을 갖는 레코드가 여러 개 존재할 경우, 정렬 후에도 이들의 상대적인 위치가 바뀌지 않는 것을 말한다.
- 삽입정렬, 버블정렬, 병합정렬

## 7.2 간단한 정렬 알고리즘

### 선택 정렬(selection sort)
선택 정렬: 리스트에서 가장 작은 숫자를 선택해서 앞쪽으로 옮기는 방법을 사용  
<br>
![image](https://user-images.githubusercontent.com/68596881/106868351-040d8800-6712-11eb-8c07-f6bd6cb54300.png)

In [2]:
def printStep(arr, val):
    print("  Step %2d = "%val, end = '')
    print(arr)

In [3]:
def selection_sort(A):
    n = len(A)
    for i in range(n-1):
        least = i
        for j in range(i+1, n):
            if A[j] < A[least]:
                least = j #최소항목 갱신
        A[i], A[least] = A[least], A[i] #배열 항목 교환
        printStep(A, i+1) #중간 과정 출력용

In [4]:
data = [5,3,8,4,9,1,6,2,7]
print('Original :', data)
selection_sort(data)
print('Selection :', data)

Original : [5, 3, 8, 4, 9, 1, 6, 2, 7]
  Step  1 = [1, 3, 8, 4, 9, 5, 6, 2, 7]
  Step  2 = [1, 2, 8, 4, 9, 5, 6, 3, 7]
  Step  3 = [1, 2, 3, 4, 9, 5, 6, 8, 7]
  Step  4 = [1, 2, 3, 4, 9, 5, 6, 8, 7]
  Step  5 = [1, 2, 3, 4, 5, 9, 6, 8, 7]
  Step  6 = [1, 2, 3, 4, 5, 6, 9, 8, 7]
  Step  7 = [1, 2, 3, 4, 5, 6, 7, 8, 9]
  Step  8 = [1, 2, 3, 4, 5, 6, 7, 8, 9]
Selection : [1, 2, 3, 4, 5, 6, 7, 8, 9]


시간 복잡도
- 외부 루프는 n-1번 반복, 내부루프는 0에서 n-2까지 변하는 i에 대해여 (n-1)-i번 반복
- 따라서 (n-1) + (n-2) + ... + 1 = $O(n^2)$

### 삽입 정렬(insertion sort)

삽입 정렬: 정렬이 안 된 부분의 숫자를 하나씩 정렬된 부분의 적절한 위치를 찾아 끼워 넣는 과정을 반복한다.  
<br>
![image](https://user-images.githubusercontent.com/68596881/106868393-12f43a80-6712-11eb-83ce-1ffdd820d476.png)

In [5]:
def insertion_sort(A):
    n = len(A)
    for i in range(1,n):
        key = A[i] # key는 정렬된 부분에 삽입할 원소
        j = i-1
        while j>= 0 and A[j] > key: # key보다 큰 원소들을 뒤로 한 칸씩 이동
            A[j+1] = A[j]
            j -=1
        A[j+1] = key # key 보다 큰 정렬된 원소들 앞으로 삽입 
        printStep(A, i)

In [6]:
data = [5,3,8,4,9,1,6,2,7]
print('Original :', data)
insertion_sort(data)
print('Insertion :', data)

Original : [5, 3, 8, 4, 9, 1, 6, 2, 7]
  Step  1 = [3, 5, 8, 4, 9, 1, 6, 2, 7]
  Step  2 = [3, 5, 8, 4, 9, 1, 6, 2, 7]
  Step  3 = [3, 4, 5, 8, 9, 1, 6, 2, 7]
  Step  4 = [3, 4, 5, 8, 9, 1, 6, 2, 7]
  Step  5 = [1, 3, 4, 5, 8, 9, 6, 2, 7]
  Step  6 = [1, 3, 4, 5, 6, 8, 9, 2, 7]
  Step  7 = [1, 2, 3, 4, 5, 6, 8, 9, 7]
  Step  8 = [1, 2, 3, 4, 5, 6, 7, 8, 9]
Insertion : [1, 2, 3, 4, 5, 6, 7, 8, 9]


시간 복잡도
- 복잡도는 입력 자료의 구성에 따라서 달라진다.
- 입력 자료가 이미 정렬되어 있는 경우 $O(n)$
- 입력 자료가 역으로 정렬된 경우 $O(n^2)$
- 대부분의 레코다가 이미 정려되어 있는 경우 효율적

### 버블 정렬(bubble sort)

버블 정렬: 인접한 2개의 레코드를 비교하여 크기가 순서대로가 아니면 서로 교환하는 방법을 사용. 이러한 비교-교환 과정은 리스트의 왼쪽 끝에서 시작하여 오른쪽 끝까지 진행  
<br>
![image](https://user-images.githubusercontent.com/68596881/106868444-20a9c000-6712-11eb-9a11-6f8c385424a4.png)

In [7]:
def bubble_sort(A):
    n = len(A)
    for i in range(n-1, 0, -1):
        bChanged = False
        for j in range(i):
            if (A[j] > A[j+1]):
                A[j], A[j+1] = A[j+1], A[j] # 교환
                bChanged = True
        
        if not bChanged: # 교환이 없으면 종료
            break
        printStep(A, n-i)

In [8]:
data = [5,3,8,4,9,1,6,2,7]
print('Original :', data)
bubble_sort(data)
print('Bubble :', data)

Original : [5, 3, 8, 4, 9, 1, 6, 2, 7]
  Step  1 = [3, 5, 4, 8, 1, 6, 2, 7, 9]
  Step  2 = [3, 4, 5, 1, 6, 2, 7, 8, 9]
  Step  3 = [3, 4, 1, 5, 2, 6, 7, 8, 9]
  Step  4 = [3, 1, 4, 2, 5, 6, 7, 8, 9]
  Step  5 = [1, 3, 2, 4, 5, 6, 7, 8, 9]
  Step  6 = [1, 2, 3, 4, 5, 6, 7, 8, 9]
Bubble : [1, 2, 3, 4, 5, 6, 7, 8, 9]


시간 복잡도
- 최악의 경우: 입력 자료가 역순으로 정렬되어 있는 경우
- 최선의 경우: 입력 자료가 이미 정렬이 되어 있는 경우
- $O(n^2)$

## 7.3 정렬 응용: 집합 다시보기

집합의 원소들을 항상 정렬된 순으로 지정하면 집합의 비교, 합집합, 차집합, 교집합 등을 훨씬 효율적으로 구현할 수 있다.

## 7.4 탐색과 맵 구조

탐색: 테이블에서 원하는 탐색키를 가진 레코드를 찾는 작업  
맵(map) 또는 딕셔너리(dictionary): 자료를 저장하고 탐색키를 이용해 원하는 자료를 빠르게 찾을 수 있도록 하는 탐색을 위한 자료구조

맵의 추상자료형
- 데이터: 키를 가진 레코드(엔트리)의 집합
- 연산
    - search(key): 탐색키 key를 가진 레코드를 찾아 반환한다.
    - insert(entry): 주어진 entry를 맵에 삽입한다.
    - delete(key): 탐색키 key를 가진 레코드를 찾아 삭제한다.

## 7.5 간단한 탐색 알고리즘
### 순차 탐색(sequential search)
순차 탐색: 테이블의 각 레코드를 처음부터 하나씩 순서대로 검사하여 원하는 레코드를 찾는다.

![image](https://user-images.githubusercontent.com/68596881/106868485-2d2e1880-6712-11eb-833b-64498ea57bda.png)

In [9]:
def sequential_search(A, key, low, high): # key:탐색키, low~high: 탐색 범위
    for i in range(low, high+1):
        if A[i].key == key:
            return i
    return None

시간 복잡도
 - 찾는 항목이 맨 뒤에 있거나, 리스트에 없는 키를 찾는 경우 n번 비교 -> $O(n)$

이 방법은 간단하고 구현하기 쉽지만 효율적이지는 않다. 하지만 테이블이 정렬되어 있지 않다면 순차 탐색 이외에 다른 대안이 없다.

### 이진 탐색(binary search)
테이블이 킷값을 기준으로 정려되어 있다면 보다 개선된 탐색이 가능한다.  
이진 탐색: 테이블의 중앙에 있는 값을 조사하여 찾은 항목이 왼쪽에 있는지 오른쪽에 있는지를 판단한다.  
<br>
![image](https://user-images.githubusercontent.com/68596881/106868531-37e8ad80-6712-11eb-9263-4623ec4ac848.png)

In [10]:
#순환 구조
def binary_search(A, key, low, high):
    if (low <= high):
        middle = (low+high) // 2
        if key == A[middle].key: #탐색 성공
            return middle
        elif key<A[middle].key:
            return binary_search(A, key, low, middle-1)
        else:
            return binary_search(A, key, low+1, high)
    return None #탐색 실패

#반복 구조
def binary_search_iter(A, key, low, high):
    while low <= high:
        middle = (low+high) // 2
        if key == A[middle].key:
            return middle
        elif key < A[middle].key:
            high = middle - 1
        else:
            low = middle + 1
    return None

효율성을 위해서는 반복 구조가 더 유리하다.

시간 복잡도
- 이진 탐색은 각 단계에서 탐색 범위가 반으로 줄어든다.
- 탐색 범위가 1이 될 때의 탐색 횟수를 k라 하면, $\frac{n}{2^k} = 1$
- $k = log_{2}n$이므로 이진 탐색의 시간 복잡도는 $O(log_{2}n)$

이진 탐색은 매우 효율적인 탐색 방법이지만 탐색하기 전에 반드시 배열이 정렬되어 있어야 한다는 전제조건이 있다. 따라서 이진 탐색은 데이터의 삽입이나 삭제가 빈번한 응용에는 적합하지 않다.

### 보간 탐색(interpolation search)
보간 탐색: 탐색 값과 위치는 비례한다는 가정에서 탐색 위치를 결정할 때 찾고자 하는 킷값이 있는 곳에 근접하도록 가중치를 주는 방법  
이진 탐색 함수에서 middle = int(low + (high-low)*(key - A[low].key) / (A[high].key - A[low].key))로 수정하면 된다.

![image](https://user-images.githubusercontent.com/68596881/106868554-40d97f00-6712-11eb-8b7d-144b6d28d372.png)

## 7.6 고급 탐색 구조: 해싱

해싱이란?
- 킷값에 산술적인 연산을 적용하여 레코드가 저장되어야 할 위치를 직접 계산하는 것
- 따라서 탐색은 테이블에 있는 레코드를 하나씩 비교하는 것이 아니라 탐색키로부터 레코드가 있어야 할 위치를 계산하고, 그 위치에 레코드가 있는지를 확인만 하면 된다.

해시 함수(hash function): 해싱에서 킷값으로부터 레코드가 저장될 위치를 계산하는 함수  
해시 테이블(hash table): 해시 함수에 의해 계산된 위치에 레코드를 저장한 테이블

### 해싱과 오버플로

해시 테이블은 M개의 버킷(bucket)으로 이루어지는 테이블이고, 하나의 버킷은 여러 개의 슬롯(slot)을 가지는데, 하나의 슬롯에는 하나의 레코드가 저장된다.  
충돌(collision): 버킷이 충분하지 않으면 경우에 따라 서로 다른 키가 해시함수에 의해 같은 주소로 계산되는 상황  
동의어(synonym): 충돌을 일으키는 키들

![image](https://user-images.githubusercontent.com/68596881/106988944-57d0ad80-67b4-11eb-9b7e-c6d2cba3a59d.png)

충돌이 발생할때 버킷에 여러 개의 슬롯이 있다면 서로 다른 슬롯에 저장하면 된다.  
충돌이 슬롯 수보다 많이 발생하는 상황을 오버플로(overflow)라 하는데, 해당 버킷에 더 이상 항목을 저장할 수 없게 된다.

### 선형 조사에 의한 오버플로 처리

선형 조사법: 해싱 함수로 계산된 버킷에 빈 슬로이 없으면 그 다음 버킷에서 빈 슬롯이 있는지를 찾는 방법  
<br>
삽입 연산
- 해시 테이블의 k번째 위치인 ht[k]에서 충돌이 발생했다면 다음 위치인 ht[k+1]부터 순서대로 비어 있는지를 살피고, 빈 공간이 있으면 저장한다.
- 이 과정은 비어있는 공간이 나올 때까지 계속된다.
- 만약 테이블의 끝에 도달하면 다시 테이블의 처음으로 간다.
- 조사 과정에서 처음 충돌이 발생한 곳으로 다시 돌아왔다면 테이블이 가득 찬 상태이다.

선형 조사법은 간단하지만 오버플로가 자주 발생하면 군집화 현상에 따라 탐색의 효율이 크게 저하될 수 있다.

탐색 연산
- 해당 주소에 같은 키의 레코드가 있으면 탐색은 성공
- 해당 주소에 같은 키의 레코드가 없으면 삽입과 같은 방법으로 계속 다음 버킷을 검사
- 이 과정은 해당 키의 레코드를 찾거나, 레코드가 없는 버킷을 만나거나 모든 버킷을 다 검사할 때 까지 진행된다.

![image](https://user-images.githubusercontent.com/68596881/106988966-67e88d00-67b4-11eb-845d-60c600665592.png)

삭제 연산
- 선형 조사법에서 항목이 삭제되면 탐색이 불가능해질 수 있다.
- 빈 버킷을 두 가지로 분류해야 한다.
- 한 번도 사용하지 않은 것과, 사용되었다가 삭제되어 현재 비어있는 버킷으로 나누어야 한다.

![image](https://user-images.githubusercontent.com/68596881/106988979-733bb880-67b4-11eb-9bb9-f9c5bb0bba0a.png)

이차 조사법(quadratic probing): 군집화 문제를 완화시키기 위한 방법으로 충돌이 발생하면 다음에 조사할 위치를 다음 식에 의해 결정하는 방법
$$(h(k)+i*i)\%M \;for \, i = 0,1,...,M-1$$

이중 해싱법(double hashing): 재해싱이라고도 불리는 이 방법은 충돌이 발생해 저장할 다음 위치를 결정할 때, 원래 해시 함수와 다른 별개의 해시 함수를 이용하는 방법이다.

### 체이닝에 의한 오버플로 처리
체이닝(chaining)은 하나의 버킷에 여러 개의 레코드를 저장할 수 있도록 하는 방법으로, 버킷은 보통 연결 리스트로 구현한다.  
<br>

예시| 체이닝을 이용해 크기가 7인 해시 테이블에 h(k) = k%7의 해시 함수를 이용하여 8,1,9,6,13 을 삽입하는 과정
1. 8 저장: h(8) = 8%7 = 1 -> 저장
2. 1 저장: h(1) = 1%7 = 1 -> 충돌 -> 새로운 노드 생성 및 저장
3. 9 저장: h(9) = 9%7 = 2 -> 저장
4. 6 저장: h(6) = 6%7 = 6 -> 저장
5. 13 저장: h(13) = 13%7 = 6 -> 충돌 -> 새로운 노드 생성 및 저장

![image](https://user-images.githubusercontent.com/68596881/106989003-8058a780-67b4-11eb-92dd-c16f5dbddbda.png)

체이닝에서 항목을 탐색하거나 삽입하고자 하면 킷값의 버킷에 해당하는 연결 리스트에서 독립적으로 탐색이나 삽입이 이루어진다.  
해시 테이블을 연결 리스트로 구성하므로 필요한 만큼의 메모리만 사용하게 되어 공간적 사용 효율이 매우 우수  
오버플로가 발생할 경우에도 해당 버킷에 할당된 연결 리스트만 처리하게 되므로 수행 시간면에서도 효율적이다.

### 해시 함수
좋은 해시 함수는 충돌이 적어야 하고, 주소가 테이블에서 고르게 분포되어야 하며, 계산이 빨라야 한다.
- 제산 함수: 나머지 연산을 이용하는 것
- 폴딩 함수: 탐색키가 해시 테이블의 크기보다 더 큰 정수일 경우 사용한다. 탐색키를 몇 개의 부분으로 나누어 이를 더하거나 비트별 XOR와 같은 부울 연산을 이용하는 것
- 중간 제곱 함수: 탐색키를 제곱한 다음, 중간의 몇 비트를 취해서 해시 주소를 생성
- 비트 추출 방법: 해시 테이블의 크기가 2의 제곱수일 때 탐색키를 이진수로 간주하여 임의의 위치의 k개의 비트를 해시 주소로 사용하는 것
- 숫자 분석 방법: 키의 각 위치에 있는 숫자 중에서 편중되지 않는 수들을 해시 테이블의 크기에 적합한 만큼 조합하여 해시 주소로 사용하는 것
- 탐색키가 문자열인 경우: 각 문자에 정수를 대응시켜 바꾼다.

### 탐색 방법들의 성능 비교
![image](https://user-images.githubusercontent.com/68596881/106989029-8f3f5a00-67b4-11eb-8278-fc2f9f804a93.png)

이상적인 경우 해싱이 가장 효율적인 방법이다.  
하지만 해싱은 순서가 없다. 따라서 정렬된 배열이나 이진탐색트리와 가팅 어떤 항목의 이전 항목이나 다음 항목을 쉽게 찾을 수 없다.  
또한 해시 테이블의 크기를 결정하는 것이 불명확하다.

## 7.7 맵의 응용: 나의 단어장

맵은 에트리의 집합이므로 엔트리 클래스가 필요하다.

In [11]:
class Entry:
    def __init__(self, key, value):
        self.key = key
        self.value = value
    
    def __str__(self):
        return str("%s:%s"%(self.key, self.value))

### 리스트를 이용한 순차탐색 맵

In [12]:
class SequentialMap:
    def __init__(self):
        self.table = []
    
    def size(self):
        return len(self.table)
    
    def display(self, msg):
        print(msg)
        for entry in self.table:
            print(" ", entry)
    
    def insert(self, key, value):
        self.table.append(Entry(key, value))
    
    def search(self, key):
        pos = sequential_search(self.table, key, 0, self.size()-1)
        if pos is not None:
            return self.table[pos]
        else:
            return None
    
    def delete(self, key):
        for i in range(self.size()):
            if self.table[i].key == key:
                self.table.pop(i)
                return

In [14]:
map = SequentialMap()
map.insert('data', '자료')
map.insert('structure', '구조')
map.insert('sequential search', '선형 탐색')
map.insert('game', '게임')
map.insert('binary search', '이진 탐색')
map.display('나의 단어장: ')

print('탐색:game --> ', map.search('game'))
print('탐색:over --> ', map.search('over'))
print('탐색:data --> ', map.search('data'))

map.delete('game')
map.display('나의 단어장: ')

나의 단어장: 
  data:자료
  structure:구조
  sequential search:선형 탐색
  game:게임
  binary search:이진 탐색
탐색:game -->  game:게임
탐색:over -->  None
탐색:data -->  data:자료
나의 단어장: 
  data:자료
  structure:구조
  sequential search:선형 탐색
  binary search:이진 탐색


### 체이닝을 이용한 해시 맵

In [15]:
class HashChainMap:
    def __init__(self, M):
        self.table = [None]*M
        self.M = M
    
    def hashFn(self, key):
        sum = 0
        for c in key:
            sum = sum + ord(c)
        return sum%self.M
    
    def insert(self, key, value):
        idx = self.hashFn(key)
        self.table[idx] = Node(Entry(key, value), self.table[idx])
        
    def search(self, key):
        idx = self.hashFn(key)
        node = self.table[idx]
        while node is not None:
            if node.data.key == key:
                return node.data
            node = node.link
        return None
    
    def delete(self, key):
        idx = self.hashFn(key)
        node = self.table[idx]
        before = None
        while node is not None:
            if node.data.key == key:
                if before == None:
                    self.table[idx] = node.link
                else:
                    before.link = node.link
                return
            before = node
            node = node.link
    
    def display(self, msg):
        print(msg)
        for idx in range(len(self.table)):
            node = self.table[idx]
            if node is not None:
                print('[%2d] -> '%idx, end = '')
                while node is not None:
                    print(node.data, end = ' -> ')
                    node = node.link
                print()

### 파이썬 딕셔너리를 이용한 구현

In [16]:
d = {}
d['data'] = '자료'
d['structure'] = '구조'
d['sequential search'] = '선형 탐색'
d['game'] = '게임'
d['binary search'] = '이진 탐색'
print('나의 단어장:')
print(d)

if d.get('game'): print('탐색:game --> ',d['game'])
if d.get('over'): print('탐색:over --> ',d['over'])
if d.get('data'): print('탐색:data --> ',d['data'])

d.pop('game')
print('나의 단어장:')
print(d)

나의 단어장:
{'data': '자료', 'structure': '구조', 'sequential search': '선형 탐색', 'game': '게임', 'binary search': '이진 탐색'}
탐색:game -->  게임
탐색:data -->  자료
나의 단어장:
{'data': '자료', 'structure': '구조', 'sequential search': '선형 탐색', 'binary search': '이진 탐색'}
