<h2>로그 선형 정렬</h2>
<h3>sort()와 sorted()</h3>
sort() 메서드는 원본 리스트를 정렬된 상태로 변환<br>
sorted() 함수는 원본의 변경없이 정렬된 새로운 리스트를 반환<br>
이들은 매우 효율적인 팀소트 알고리즘으로 구현<br><br>

sorted()함수는 선택적 인수가 있어 다양한 활용이 가능(정렬 결과를 반전하는 reverse=True, 문자열 길이 기준으로 정렬하는 key=len, 대소문자 구분없이 정렬하는 key=str.lower등) 또한, 사용자가 정의한 함수를 사용하여 정렬할 수도 있음

<h3>병합 정렬</h3>
병합 정렬은 리스트를 반으로 나누어 정렬되지 않은 리스트를 만듦<br>
정렬되지 않은 두 리스트의 크기가 1이 될 때까지, 계속 리스트를 반으로 나누어 병합 정렬 알고리즘을 호출하여 리스트를 정렬하고 병합<br>
병합 정렬은 안정적일 뿐만 아니라 대규모 데이터에 대해서도 속도가 빠름<br>
배열의 경우 제자리에서 정렬되지 않기 때문에, 다른 알고리즘보다 훨씬 더 많은 메모리가 필요하며, 공간복잡도는 O(n)<br>
연결 리스트의 경우 별도의 저장 공간이 필요하지 않으므로 제자리 정렬이 가능하며, 공간복잡도는 O(log n)<br>
병합 정렬의 최악, 최선, 평균 시간복잡도는 모두 O(log n)<br><br>

데이터가 너무 커서 메모리에 넣지 못할 때, 병합 정렬은 좋은 선택<br>
하위 데이터 집합은 메모리에서 정렬할 수 있을 만큼 작아질 때까지 별도의 파일로 디스크에 쓸 수 있음<br>
병합은 각 파일에서 한 번에 하나의 요소들을 읽고, 순서대로 최종파일에 기록

In [1]:
#병합 정렬을 구현하는 방법은 여러가지
#시간복잡도: 최악/최선/평균일 때 모두 O(n log n)
#공간복잡도: 배열인 경우 O(n)이며, 일반적으로 제자리 정렬이 아님
#배열이 큰 경우 효율적
#병합 정렬의 병합 함수를 사용하여, 두 배열을 병합
#두 파일인 경우에도 병합 가능

#pop()메서드를 사용하여 다음과 같이 구현(각 두 배열은 정렬되어 있음)
def merge(left, right):
    if not left or not right:
        return left or right #아무것도 병합하지 않음
    result= []
    while left and right:
        if left[-1]>= right[-1]:
            result.append(left.pop())
        else:
            result.append(right.pop())
    result.reverse()
    return (left or right)+result

l1= [1, 2, 3, 4, 5, 6, 7]
l2= [2, 4, 5, 8]
print(merge(l1, l2))



[1, 2, 2, 3, 4, 4, 5, 5, 6, 7, 8]


In [2]:
def merge_sort(seq):
    #pop()을 이용한 병합 정렬
    if len(seq)<2:
        return seq
    mid= len(seq)//2
    left, right= seq[:mid], seq[mid:]
    if len(left)>1:
        left= merge_sort(left)
    if len(right)>1:
        right= merge_sort(right)
        
    res= []
    while left and right:
        if left[-1]>=right[-1]:
            res.append(left.pop())
        else:
            res.append(right.pop())
    res.reverse()
    return(left or right)+ res

In [3]:
def merge_sort_sep(seq):
    #두 함수로 나누어서 구현
    #한 함수에서는 배열을 나누고, 또 다른 함수에서는 배열을 병합
    if len(seq)<2:
        return seq
    mid= len(seq)//2
    left= merge_sort_sep(seq[:mid])
    right= merge_sort_sep(seq[mid:])
    return merge(left, right)

def merge(left, right):
    if not left or not right:
        return left or right
    result= []
    i, j= 0, 0
    while i<len(left) and j<len(right):
        if left[i]<= right[j]:
            result.append(left[i])
            i+= 1
        else:
            result.append(right[j])
            j+= 1
    if left[i:]:
        result.extend(left[i:])
    if right[j:]:
        result.extend(right[j:])
    #print(result)
    return result

In [4]:
def merge_2n(left, right):
    #각 두 배열은 정렬된 상태
    #시간복잡도는 O(2n)
    if not left or not right:
        return left or right
    result= []
    while left and right:
        if left[-1]>= right[-1]:
            result.append(left.pop())
        else:
            result.append(right.pop())
    result.reverse()
    return (left or right)+result

In [5]:
def merge_two_arrays_inplace(l1, l2):
    #제자리 정렬로 구현
    #제자리 정렬로 구현하는 경우, 한 배열의 끝에 0이 채워져 있고,
    #다른 배열에는 첫 배열에서 끝에 0이 채워진 크기만큼의 요소가 있다
    #각 두 배열은 정렬되어 있음
    if not l1 or not l2:
        return l1 or l2
    p2= len(l2)-1
    p1= len(l1)- len(l2)-1
    p12= len(l1)-1
    while p2>=0 and p1>=0:
        item_to_be_merged= l2[p2]
        item_bigger_array= l1[p1]
        if item_to_be_merged<item_bigger_array:
            l1[p12]= item_bigger_array
            p1-= 1
        else:
            l1[p12]= item_to_be_merged
            p2-= 1
        p12-= 1
    return l1


In [6]:
def merge_files(list_files):
    #파일을 병합
    result= []
    final= []
    for filename in list_files:
        aux= []
        with open(filename, 'r') as file:
            for line in file:
                aux.append(int(line))
        result.append(aux)
    final.extend(result.pop())
    for l in result:
        final= merge(l, final)
    return final

def test_merge_sort():
    seq= [3, 5, 2, 6, 8, 1, 0, 3, 5, 6, 2]
    seq_sorted= sorted(seq)
    assert(merge_sort(seq)== seq_sorted)#1
    assert(merge_sort_sep(seq)== seq_sorted)#2
    
    l1= [1, 2, 3, 4, 5, 6, 7]
    l2= [2, 4, 5, 8]
    l_sorted= [1, 2, 2, 3, 4, 4, 5, 5, 6, 7, 8]
    assert(merge_2n(l1, l2)== l_sorted) #3
    
    l1=[1, 2, 3, 4, 5, 6, 7, 0, 0, 0, 0]
    l2= [2, 4, 5, 8]
    l_sorted= [1, 2, 2, 3, 4, 4, 5, 5, 6, 7, 8]
    assert(merge_two_arrays_inplace(l1, l2)== l_sorted)#4
    print('테스트 통과!')
    
if __name__== '__main__':
    test_merge_sort()
    

테스트 통과!


![](IMG/sort5.jpg)

<h3>퀵 정렬</h3>
퀵 정렬은 피벗 값을 잘 선택하는 것이 성능의 핵심<br>
리스트에서 기준이 되는 하나의 요소를 고르는데 이를 피벗이라고 함<br>
피벗 앞에는 피벗보다 작은 값이 오고, 피벗 뒤에는 피벗보다 큰 값이 오도록 피벗을 기준으로 리스트를 둘로 나눔<br>
리스트의 중앙값을 피벗으로 선택하는 것은 이미 정렬된 리스트에서 가장 적합한 선택이고, 정렬되지 않은 리스트 대부분에서도 다른 선택보다 나쁘지 않음<br><br>

분할 과정에서 n-1요소의 영역을 생성하는 경우(피벗이 최솟값 또는 최댓값일때), 최악의 경우 시간복잡도는 O(n** 2)<br>
최선의 경우 두 개의 n/2 크기 리스트를 생성하게 되고, 이 최선의 경우와 평균 시간복잡도는 O(n log n)<br>
퀵 정렬 알고리즘은 안정적이지 않음<br><br>


In [7]:
def quick_sort_cache(seq):
    #1)한 함수로 구현(캐시 사용)
    if len(seq)<2:
        return seq
    ipivot= len(seq)//2 #피벗 인덱스
    pivot= seq[ipivot] #피벗

    before= [x for i, x in enumerate(seq) if x<= pivot and i!=ipivot]
    after= [x for i, x in enumerate(seq) if x>pivot and i!=ipivot]
    return quick_sort_cache(before)+[pivot]+quick_sort_cache(after)

In [8]:
def partition_devided(seq):
    #2) 1)의 퀵 정렬을 두 함수로 나누어 구현(캐시 사용)
    pivot, seq= seq[0], seq[1:]
    before= []
    after= []
    before= [x for x in seq if x <=pivot]
    after= [x for x in seq if x>pivot]
    return before, pivot, after

def quick_sort_cache_devided(seq):
    if len(seq)<2:
        return seq
    before, pivot, after= partition_devided(seq)
    return quick_sort_cache_devided(before)+[pivot]+quick_sort_cache_devided(after)




In [9]:
def partition(seq, start, end):
    #3) 두 함수로 나누어서 구현(캐시 사용 안함)
    pivot= seq[start] #피벗은 첫번째 숫자
    
    #left에서부터 피벗보다 큰값을 선택하여 right부터 시작된 피벗보다 작거나 같은 값을 계속 바꿔줌
    #계속 찾아주다가 left와 right의 위치가 엇갈리면 작은 데이터와 피벗값의 위치를 바꿔주면서
    #피벗값을 기준으로 왼쪽은 피벗값보다 작은 데이터가 되고 오른쪽은 피벗값보다 큰 데이터가 됨
    left= start+1 
    right= end
    done= False
    while not done:
        while left<= right and seq[left]<=pivot:
            left+= 1
        while left<= right and pivot<seq[right]:
            right-= 1
        if right<left:
            done= True
        else:
            seq[left], seq[right]= seq[right], seq[left]
    seq[start], seq[right]= seq[right], seq[start]
    #print(right, seq)
    return right

def quick_sort(seq, start, end):
    if start<end: #원소가 1개일때는 수행 중단
        pivot= partition(seq, start, end) 
        quick_sort(seq, start, pivot-1) # 피벗 앞의 리스트 반복
        quick_sort(seq, pivot+1, end) #피벗 뒤의 리스트 반복
    return seq

def test_quick_sort():
    seq= [3, 5, 2, 6, 8, 1, 0, 3, 5, 6, 2]
    assert(quick_sort_cache(seq)== sorted(seq))
    assert(quick_sort_cache_devided(seq)== sorted(seq))
    assert(quick_sort(seq, 0, len(seq)-1)== sorted(seq))
    print('테스트 통과!')
    
if __name__== '__main__':
    test_quick_sort()

테스트 통과!


앞의 코드에서 1),2)번 방식의 경우 분할 과정을 트리로 나타낼 수 있음<br>
그림은 2)번 방식

![](IMG/sort6.jpg)

<h3>힙 정렬</h3>
힙 정렬은 정렬되지 않은 영역이 힙이라는 점을 제외하면 선택 정렬과 비슷<br>
힙 정렬은 가장 큰(또는 작은) 요소를 n번 찾을 때, 로그 선형의 시간복잡도를 가짐<br><br>

힙에서 루트가 아닌 다른 모든 노드는 부모 노드의 값보다 작은(또는 큰) 값을 가짐<br>
따라서 가장 작은(또는 큰) 요소는 로트에 저장되고, 루트의 하위 트리에는 루트보다 더 큰(또는 작은) 값들이 포함됨<br>
힙의 삽입 시간복잡도는 O(1)<br>
힙 순서를 확인하는 데 드는 시간복잡도는  O(log n)이고, 힙을 순회하는 시간복잡도는 O(n)<br>
힙 정렬은 파이썬의 내장 heapq모듈을 사용하여 모든 값을 힙에 푸시한다음, 한 번에 하나씩 가장 작은 값을 꺼내어 구현할 수 있음

In [2]:
import heapq

def heap_sort1(seq):
    h= []
    for value in seq:
        heapq.heappush(h, value)
    return [heapq.heappop(h) for i in range(len(h))]

def test_heap_sort1():
    seq= [3, 5, 2, 6, 8, 1, 0, 3, 5, 6, 2]
    assert(heap_sort1(seq) == sorted(seq))
    print('테스트 통과!')
    
if __name__== '__main__':
    test_heap_sort1()

테스트 통과!


In [8]:
#heap 정렬 구현2
def heap_sort3(seq):
    for start in range((len(seq)-2)//2, -1, -1): #자식노드가 있을만한 노드부터 시작
        siftdown(seq, start, len(seq)-1)
    for end in range(len(seq)-1, 0, -1):  #제일 큰 숫자가 제일 뒤에 오게 정렬
        seq[end], seq[0]= seq[0], seq[end]
        siftdown(seq, 0, end-1)
    return seq

def siftdown(seq, start, end):
    root= start
    while True:
        child= root*2+1
        if child>end: #자식노드가 없을 시 종료
            break
        if child+1<=end and seq[child]<seq[child+1]: #자식 노드중 큰 값 찾기
            child+= 1
        if seq[root]< seq[child]: #자식노드가 부모노드보다 크면 교체
            seq[root], seq[child]= seq[child], seq[root]
            root= child
        else:
            break

def test_heap_sort():
    seq= [3, 5, 2, 6, 8, 1, 0, 3, 5, 6, 2]
    assert(heap_sort3(seq)== sorted(seq))
    print('테스트 통과!')
    
if __name__== '__main__':
    test_heap_sort()

테스트 통과!
