제자리 정렬은 정렬한 항목의 수에 비해 아주 작은 저장 공간을 더 사용하는 정렬 알고리즘이다. 삽입 정렬은 주어진 원소들을 옮긴 뒤 적절한 위치에 원소를 삽입하는 연산을 반복하는데 이 과정에서 항목을 담는 공간 외에 추가로 사용될 수 있는 공간은 옮겨지는 항목이 저장되는 공간과 반복문 변수 정도에 불과하다.

안정적 정렬은 데이터 요소의 상대적인 순서를 보존한다. 데이터의 두 항목의 크기가 같을 때, 정렬 전의 위치 상태를 똑같이 유지한다. 모든 비교 정렬 문제에서 키는 정렬 순서를 결정한 값을 뜻한다. 비교 정렬 알고리즘은 최악의 경우 시간복잡도가 O(n log n)보다 좋지 않다. 

# 9.1 2차 정렬

## 9.1.1 거품 정렬
거품 정렬은 인접한 두 항목을 비교하여 정렳하는 방식이다. 시간복잡도는 O(n^2)이지만 코드가 단순하다. 

In [3]:
def bublle_sort(seq):
    length = len(seq) - 1
    for num in range(length,0,-1):
        for i in range(num):
            if seq[i] > seq[i+1]:
                seq[i], seq[i+1] = seq[i+1], seq[i]
        print(seq)
    return seq

seq = [4,5,2,1,6,2,7,10,13,8]
result = bublle_sort(seq)
seq.sort()
result == seq

[4, 2, 1, 5, 2, 6, 7, 10, 8, 13]
[2, 1, 4, 2, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]


True

## 9.1.2 선택 정렬
선택 정렬은 먼저 리스트에서 가장 작거나 큰 항목을 찾아서 첫 번째 항목과 위치를 바꾼다. 그리고 나서 그다음 항목을 찾아서 두 번째 항목과 위치를 바꾼다. 이런식으로 리스트 끝에 도달할 때까지 반복한다. 리스트가 정렬되어 있어도 시간복잡도는 O(n^2)이다. 

In [5]:
def selection_sort(seq):
    length = len(seq)
    for i in range(length-1):
        min_j = i
        for j in range(i+1, length):
            if seq[min_j] > seq[j]:
                min_j = j
        seq[i], seq[min_j] = seq[min_j], seq[i]
        print(seq)
    return seq

seq = [4,5,2,1,6,2,7,10,13,8]
result = selection_sort(seq)
seq.sort()
result == seq

[1, 5, 2, 4, 6, 2, 7, 10, 13, 8]
[1, 2, 5, 4, 6, 2, 7, 10, 13, 8]
[1, 2, 2, 4, 6, 5, 7, 10, 13, 8]
[1, 2, 2, 4, 6, 5, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 8, 13, 10]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]


True

## 9.1.3 삽입 정렬
삽입 정렬은 최선의 경우 시간 복잡도는 O(n)이고 평균과 최악의 경우 O(n^2)인 간단한 정렬 알고리즘이다. 배열 맨 처음 정렬된 부분에 정렬되지 않은 다음 항목을 반복적으로 삽입하는 방식이다. 데이터 크기가 작고 리스트가 이미 정렬되어 있으면 병합 정렬이나 퀵 정렬 같은 고급 알고리즘보다 성능이 좋다. 

In [8]:
def insertion_sort(seq):
    for i in range(1,len(seq)):
        j = i
        while j > 0 and seq[j-1] > seq[j]:
            seq[j-1], seq[j] = seq[j], seq[j-1]
            j -= 1
        print(seq)
    return seq

def insertion_sort_rec(seq, i = None):
    if i is None:
        i = len(seq) - 1
    if i == 0:
        return i
    insertion_sort_rec(seq,i-1)
    j = i
    while j > 0 and seq[j-1] > seq[j]:
        seq[j-1], seq[j] = seq[j], seq[j-1]
        j -= 1
    return seq

seq = [4,5,2,1,6,2,7,10,13,8]
result1 = insertion_sort(seq)
result2 = insertion_sort_rec(seq)
seq.sort()
print(result1 == seq)
print(result2 == seq)

[4, 5, 2, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 5, 1, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
True
True


## 9.1.4 놈 정렬
놈 정렬은 앞으로 이동하여 잘못 정렬된 값을 찾은 후, 올바른 위치로 값을 교환하며 다시 뒤로 이동한다. 최선의 경우 O(n)이고 평균과 최악의 경우 O(n^2)인 정렬 알고리즘이다.

In [10]:
def gnome_sort(seq):
    i = 0
    while i < len(seq):
        if i == 0 or seq[i-1] <= seq[i]:
            i += 1
        else:
            seq[i], seq[i-1] = seq[i-1], seq[i]
            i -= 1
        print(seq)
    return seq

seq = [4,5,2,1,6,2,7,10,13,8]
result = gnome_sort(seq)
seq.sort()
print(result == seq)


[4, 5, 2, 1, 6, 2, 7, 10, 13, 8]
[4, 5, 2, 1, 6, 2, 7, 10, 13, 8]
[4, 2, 5, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 5, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 5, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 5, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 5, 1, 6, 2, 7, 10, 13, 8]
[2, 4, 1, 5, 6, 2, 7, 10, 13, 8]
[2, 1, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 6, 2, 7, 10, 13, 8]
[1, 2, 4, 5, 2, 6, 7, 10, 13, 8]
[1, 2, 4, 2, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 13, 8]
[1, 2, 2, 4, 5, 6, 7, 10, 8, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
True


# 9.2 선형정렬

## 9.2.1 카운트 정렬

카운트 정렬은 작은 범위의 정수를 정렬할 때 유용하며, 숫자의 발생 횟수를 계산하는 누적 카운트를 사용한다. 누적 카운트를 갱신하여 순서대로 숫자를 직접 배치하는 방식이다. 각 숫자 간의 간격이 크다면, 로그 선형 제한이 걸리며 비효율적이게 된다. 간격이 크지 않다면 시간복잡도는 O(n+k)가 된다.

In [20]:
from collections import defaultdict

def count_sort_dict(a):
    b,c = [], defaultdict(list)
    for x in a:
        c[x].append(x)
        print(c)
    for k in range(min(c), max(c)+1):
        b.extend(c[k])
        print(b)
    return b

seq = [4,5,2,1,6,2,7,10,13,8]
result = count_sort_dict(seq)
seq.sort()
print(result == seq)

defaultdict(<class 'list'>, {4: [4]})
defaultdict(<class 'list'>, {4: [4], 5: [5]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2], 1: [1]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2], 1: [1], 6: [6]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2, 2], 1: [1], 6: [6]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2, 2], 1: [1], 6: [6], 7: [7]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2, 2], 1: [1], 6: [6], 7: [7], 10: [10]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2, 2], 1: [1], 6: [6], 7: [7], 10: [10], 13: [13]})
defaultdict(<class 'list'>, {4: [4], 5: [5], 2: [2, 2], 1: [1], 6: [6], 7: [7], 10: [10], 13: [13], 8: [8]})
[1]
[1, 2, 2]
[1, 2, 2]
[1, 2, 2, 4]
[1, 2, 2, 4, 5]
[1, 2, 2, 4, 5, 6]
[1, 2, 2, 4, 5, 6, 7]
[1, 2, 2, 4, 5, 6, 7, 8]
[1, 2, 2, 4, 5, 6, 7, 8]
[1, 2, 2, 4, 5, 6, 7, 8, 10]
[1, 2, 2, 4, 5, 6, 7, 8, 10]
[1, 2, 2, 4, 5, 6, 7, 8, 10]
[1, 2, 2, 4, 5, 6, 7, 8, 10, 13]
True


# 9.3 로그 선형 정렬

## 9.3.1 sort()와 sorted()

sort()는 원본 리스트를 정렬된 상태로 변환하는 기능을 가지고 있다. sorted()는 원본의 변경 없이 정렬된 새로운 리스트를 반환한다. 이들은 매우 효율적인 팀소트 알고리즘으로 구현되어 있다.

sorted() 함수는 선택적 인수가 있어 다양한 활용이 가능하다. (reverse, key 등을 가지고 있다) 

## 9.3.2 병합 정렬
병합 정렬은 리스틀 반으로 나누어 정렬되지 않은 리스트를 만들어서, 이 두 리스트의 크기가 1이 될 때까지 계속 리스트를 반으로 나누어 병합 정렬 알고리즘을 호출하여 리스트를 정렬하고 병합한다. 안정적이고 대규모 데이터에 대해서 속도가 빠르다. 배열은 제자리에서 정렬되지 않기 때문에 메모리가 많이 필요하고 공간복잡도는 O(n)이다. 연결 리스트의 경우 별도의 저장 공간이 필요하지 않아 제자리 정렬이 가능하고, 공간복잡도는 O(logn)이다. 병합 정렬은 어떤 경우에서든 시간복잡도는 O(n log n)이다.


In [23]:
# pop()을 이용해서 구현, 두 배열이 정렬되어 있는 경우 
def merge(left, right):
    if not left or not right:
        return left or right # 아무것도 병합하지 않는다.
    result = []
    while left and right:
        if left[-1] >= right[-1]:
            result.append(left.pop())
        else:
            result.append(right.pop())
    result.reverse()
    return (left or right) + result

l1 = [1,2,3,4,5,6,7]
l2 = [2,4,5,8]
merge(l1,l2)

# 제자리 정렬을 구현하는 경우, 한 배열의 끝에 0이 채워져 있고 다른 배열에는 첫 배열에서 끝에 0이 채워진 크기만큼의 요소가 있다.
# (두 배열이 정렬되어 있다)

[1, 2, 2, 3, 4, 4, 5, 5, 6, 7, 8]

In [27]:
def merge_sort(seq):
    # pop()을 이용한 정렬
    if len(seq) < 2:
        return seq
    mid = len(seq) // 2
    left, right = seq[:mid], seq[mid:]
    if len(left) > 1:
        left = merge_sort(left)
    if len(right) > 1:
        right = merge_sort(right)
    
    res = []
    while left and right:
        if left[-1] >= right[-1]:
            res.append(left.pop())
        else:
            res.append(right.pop)
    res.reverse()
    return (left or right) + res

def merge_sort_sep(seq):
    # 두 함수로 나누어서 구현한다. 한 함수에서는 배열을 나누고, 또 다른 함수에서는 배열을 병합한다. 
    if len(seq) < 2:
        return seq
    mid = len(seq) // 2
    left = merge.sort_sep(seq[:mid])
    right = merge.sort_sep(seq[mid:])
    return merge(left,right)

def merge(left,right):
    if not left or not right:
        return left or right
    result = []
    i, j = 0, 0
    while i < len(left) and j < len(right):
        if left[i] <= right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
    if left[i:]:
        result.extend(left[i:])
    if right[j:]:
        result.extend(right[i:])
    return result

def merge_2n(left,right):
    # 각 두 배열은 정렬된 상태다. 시간 복잡도는 O(2n)이다.
    if not left or not right:
        return left or right
    result = []
    while left and right:
        if left[-1] >= right[:-1]:
            result.append(left.pop())
        else:
            result.append(right.pop())
    result.reverse()
    return (left or right) + result

def merge_two_arrays_inplace(l1,l2):
    # 제자리 정렬로 구현
    if not l1 or not l2:
        return l1 or l2
    p2 = len(l2) - 1
    p1 = len(l1) -len(l2) - 1
    p12 = len(l1) - 1
    while p2 >= 0 and p1 >= 0:
        item_to_be_merged = l2[p2]
        item_bigger_array = l1[p1]
        if item_to_be_merged < item_bigger_array:
            l1[p12] = item_bigger_array
            p1 -= 1
        else:
            l1[p12] = item_to_be_merged
            p2 -= 1
        p12 -= 1
    return l1

def merge_files(list_files):
    # 파일 병합
    result = []
    final = []
    for filename in list_files:
        aux = []
        with open(filename, 'r') as file:
            for line in file:
                aux.append(int(line))
        result.append(aux)
    final.extend(result.pop())
    for l in result:
        final = merge(l,final)
    return final



## 9.3.3 퀵 정렬
퀵 정렬은 피벗 값을 잘 선택하는 것이 핵심이다. 리스트에서 기준이 되는 하나의 요소를 고르는 것을 피벗이라 한다. 피벗 앞에는 피벗보다 작은 값이 오고, 피벗 뒤에는 피벗보다 큰 값이 오도록 피벗을 기준으로 리스트를 두개로 나눈다. 
분할 과정에서 n-1 요소의 영역을 생성하는 경우 (피벗이 최솟값 또는 최댓값), 최악의 경우 시간복잡도는 O(n^2)이 된다. 최선의 경우는 두 개의 n/2 크기 리스트를 생성하게 되고, 이 최선의 경우와 평균 시간복잡도는 O(n log n)이다. 

In [33]:
def quick_sort_cache(seq):
    # 한 함수로 구현하는 경우
    if len(seq) < 2:
        return seq
    ipivot = len(seq) // 2 # 피벗 인덱스 (캐시 사용)
    pivot = seq[ipivot]
    
    before = [x for i, x in enumerate(seq) if x <= pivot and i != ipivot]
    after = [x for i, x in enumerate(seq) if x > pivot and i != ipivot]
    return quick_sort_cache(before) + [pivot] + quick_sort_cache(after)

def partition_devided(seq):
    # 1의 퀵 정렬을 두 함수로 나누어 구현한다. (캐시 사용)
    pivot, seq = seq[0], seq[1:]
    before = []
    after = []
    before = [x for x in seq if x <= pivot]
    after = [x for x in seq if x > pivot]
    return before, pivot, after

def quick_sort_cache_devided(seq):
    if len(seq) < 2:
        return seq
    before, pivot, after = partition_devided(seq)
    return quick_sort_cache_devided(before) + [pivot] + quick_sort_cache_devided(after)

def partition(seq, start, end):
    # 두 함수로 나누어서 구현한다.(캐시 사용 x)
    pivot = seq[start]
    left = start + 1
    right = end 
    done = False
    while not done:
        while left <= right and seq[left] <= pivot:
            left += 1
        while left <= right and pivot < seq[right]:
            right -= 1
        if right < left:
            done = True
        else:
            seq[left], seq[right] = seq[right], seq[left]
    seq[start], seq[right] = seq[right], seq[start]
    return right

def quick_sort(seq, start, end):
    if start < end:
        pivot = partition(seq, start, end)
        quick_sort(seq, start, pivot -1)
        quick_sort(seq,pivot +1 , end)
    return seq

seq = [3,5,2,6,8,1,0,3,5,6,2]
a = quick_sort_cache(seq)
b = quick_sort_cache_devided(seq)
c = quick_sort(seq, 0 ,len(seq) - 1)
print(sorted(seq) == a)
print(sorted(seq) == b)
print(sorted(seq) == c)

True
True
True


## 9.3.4 힙 정렬
힙 정렬은 정렬되지 않은 영역이 힙이라는 점을 제외하면 선택 정렬과 비슷하다. 힙 정렬은 가장 큰(또는 작은) 요소를 n번 찾을 때, 로그 선형의 시간복잡도를 가진다.

힙에서 루트가 아닌 다른 모든 노드는 부모 노드의 값보다 작은(또는 큰) 값을 갖는다. 따라서 가장 작은(또는 가장 큰) 요소는 루트에 저장되고, 루트의 하위 트리에는 루트보다 더 큰(또는 작은) 값들이 포함된다. 힙의 삽입 시간복잡도는 O(1)이다. 힙 순서를 확인하는 데 드는 시간복잡도는 O(logn)이고, 힙을 순회하는 시간복잡도는 O(n)이다. 

In [35]:
import heapq

def heap_sort1(seq):
    h = []
    for value in seq:
        heapq.heappush(h, value)
    return [heapq.heappop(h) for i in range(len(h))]

seq = [3,5,2,6,8,1,0,3,5,6,2]
a = heap_sort1(seq)
print(sorted(seq) == a)

True


# 9.5 연습문제
## 9.5.1 가장 큰 항목 k 찾기 

In [52]:
import random

def swap(seq, x, y):
    seq[x], seq[y] = seq[y], seq[x]
    
def quick_select(seq, k, left = None, right = None):
    left = left or 0
    right = right or len(seq) - 1
    ipivot = random.randint(left,right)
    pivot = seq[ipivot]
    
    # 피벗을 정렬 범위 밖으로 이동한다.
    swap(seq, ipivot, right)
    swapIndex, i = left, left
    while i < right:
        if seq[i] < pivot:
            swap(seq, i, swapIndex)
            swapIndex += 1
        i += 1
    # 피벗 위치를 확정한다.    
    swap(seq, right, swapIndex)
    
    # 피벗 위치를 확인한다. 
    rank = len(seq) - swapIndex
    if k == rank:
        return seq[swapIndex]
    elif k < rank:
        return quick_select(seq, k , left = swapIndex + 1, right = right)
    else:
        return quick_select(seq, k , left = left, right = swapIndex -1 )
    
def find_k_largest_seq_quickselect(seq,k):
    kth_largest = quick_select(seq, k)
    result = []
    for item in seq:
        if item >= kth_largest:
            result.append(item)
    return result

if __name__ == '__main__':
    seq = [3,10,4,5,1,8,9,11,5]
    k = 3
    print(find_k_largest_seq_quickselect(seq,k))

[9, 10, 11]
