# 11.1 병합 정렬 알고리즘(Merge Sort Algorithm)

- 병합 정렬 알고리즘은 이미 정렬되어 있는 데이터들을 하나로 합쳐서 정렬하는 방법

- 파일에 정렬되어 있는 데이터들을 하나로 합쳐서 정렬하는 경우에도 종종 사용되는 정렬 알고리즘

병합 정렬 알고리즘의 특징

- 이미 정렬되어 있는 데이터의 그룹 혹은 묶음들을 하나로 합칠 때 사용하는 방법

```

|1|4|2|           |5|7|3|        |6|8|

 v v   v
|1|2|3|4|5|6|7|8|

```

- 위의 그림과 같이 3개의 서로 다른 데이터 그룹을 하나로 합치는 병합 정렬 알고리즘은 3-way 병합 정렬 알고리즘이라 함

- 보통의 경우 자주 사용되는 것은 2개의 데이터 그룹을 하나로 합치는 2-way 병합 정렬 알고리즘

```

|1|4|2|5|7|3|6|8|


```

- 병합 정렬 알고리즘은 위의 그림과 같이 정렬되지 않은 데이터들을 정렬하기 위해서 그룹으로 묶음

- 하나의 데이터 리스트를 여러 개로 쪼갬




2-way방식으로 2개씩 그룹으로 묶음
```

|1|4|  |2|5|  |7|3|  |6|8|


```



- 위와 같이 병합 정렬 알고리즘에서 병합을 하기 위한 데이터를 런(RUN)이라고 표현

- 일단 2개씩 데이터들이 묶이고 나면 본격적으로 그 그룹 내에서 정렬이 시작

- 현재는 하나의 런 안에 데이터가 2개 밖에 없으므로 2개의 값을 비교해서 크기 순서대로 정렬

```

|1|4|  |2|5|  |7|3|  |6|8|


               V V     
|1|4|  |2|5|  |3|7|  |6|8|


```
- 데이터 3과 7의 위치가 변경

- 2개의 런을 묶어서 하나의 런으로 합치는 정렬

- 이부분이 병합 정렬 알고리즘의 핵심

- 2개의 런을 묶어서 정렬을 하게 되면 다음과 같은 결과가 됨

```


 v     v    v     v     
|1|2|4|5|  |3|6|7|8|



```

- 이 다음 부터는 모든 데이터가 하나의 런으로 합쳐질 때까지 반복하게 됨

In [1]:
from math import log10
from random import randint

def merge_sort(mylist):
    
    if len(mylist) <= 1: return mylist
    
    half = len(mylist) // 2
    left_list = merge_sort(mylist[:half])
    right_list = merge_sort(mylist[half:])
    merged_list = []
    
    while len(left_list) > 0 and len(right_list) > 0:
        if left_list[0] > right_list[0]:
            merged_list.append(right_list[0])
            right_list.pop(0)
        else:
            merged_list.append(left_list[0])
            left_list.pop(0)
    
    if len(left_list) > 0: merged_list += left_list
    if len(right_list) > 0:merged_list += right_list
    return merged_list

if __name__ == "__main__":
    data = []
    input_n = input("정렬할 데이터의 수 : ")
    data = [randint(1, 99999) for x in range(int(input_n))]
    
    print("정렬 전")
    print(data)
    
    sorted_data = merge_sort(data)
    
    print("정렬 후")
    print(sorted_data)

정렬할 데이터의 수 : 100
정렬 전
[94174, 82341, 70535, 81547, 17943, 81676, 92968, 81081, 94508, 10935, 5524, 71992, 6215, 50848, 71134, 97562, 49930, 18442, 68710, 73517, 99053, 33066, 64106, 6332, 24565, 74837, 57220, 23280, 65808, 10321, 2211, 19338, 54725, 97913, 66391, 83533, 60329, 52110, 7563, 19209, 87836, 4233, 59152, 22716, 52014, 46435, 60742, 58904, 56038, 61723, 25975, 33109, 69046, 9452, 41694, 4989, 60946, 43931, 44759, 46022, 6372, 4120, 85107, 49090, 38579, 9189, 45963, 33486, 71948, 59562, 6983, 32898, 64704, 73408, 33787, 28777, 6619, 40970, 14493, 27170, 56112, 64355, 80216, 90654, 6111, 67138, 84112, 60340, 53114, 58846, 37029, 79235, 68928, 93723, 67713, 15217, 18101, 88928, 86080, 36751]
정렬 후
[2211, 4120, 4233, 4989, 5524, 6111, 6215, 6332, 6372, 6619, 6983, 7563, 9189, 9452, 10321, 10935, 14493, 15217, 17943, 18101, 18442, 19209, 19338, 22716, 23280, 24565, 25975, 27170, 28777, 32898, 33066, 33109, 33486, 33787, 36751, 37029, 38579, 40970, 41694, 43931, 44759, 45963, 46022

- 병합 정렬 알고리즘은 이미 앞의 알고리즘 설명에서 다룬대로 데이터들을 런으로 쪼개어 정렬한 후에 병합하는 방식

- 퀵 정렬 알고리즘과 비슷하게 재귀 호출을 사용하면 간단해짐

- 최소한의 데이터를 갖는 런이 될 때 까지 재귀 호출이 됨

### 11.1.2 병합 정렬 알고리즘의 분석

- 수치적으로만 보면 퀵 정렬 알고리즘과 비슷

- 모두 데이터를 분할한 후에 재귀 호출을 사용하고 있기 때문

- 데이터를 분할하는데 걸리는 시간은 log2 N 이 됨

- 분할한 후에 2개의 데이터 그룹을 하나로 합치는데 O(N)의 시간이 걸림

- 결국 병합 정렬의 성능을 O 표기법으로 표시하면 O(N * log2 N)이 됨

### 시간의 효율성

- 병합 정렬 할고리즘은 O 표기법에 의하면 O(NlogN)의 실행 시간을 갖음

- 다른 정렬 알고리즘들이 O(N^2)의 실행 시간을 갖는데 비해서 보면 상당히 빠른 정렬 알고리즘

- 최악의 경우와 같이 이미 정렬이 되어 있는 상태에서는 성능이 저하 됨

- 퀵 정렬 알고리즘이 최악의 경우에 O(N^2)의 성능을 갖는 것에 비하면 좀더 나은 정렬 알고리즘

### 공간의 효율성

- 원래의 데이터 공간 외에 별도의 데이터 공간이 필요하다는 점
- 데이터들을 연결 리스트로 만든 후에 병합 정렬 알고리즘을 사용하는 방법도 있음



### 코드의 효율성

- 재귀 호출을 사용
- 코드의 길이가 짧아지고 컴팩트하다는 장점이 있는 반면
  디버깅이 어렵고 이해하기 어려워짐

---

---

# 11.2 힙 정렬 알고리즘(Heap Sort Algorithm)

일반 사용자들이 선호하지 않지만 

운영체제나 네트워크 등 시스템 내부에서 가장 많이 사용 되는 알고리즘

## 힙 정렬 알고리즘

- 우선순위 큐(Priority Queue)를 이용하여 우선순위에 따라 정렬을 하는 알고리즘


### 우선순위 큐
```
                 v  가장 큰 값
|4|6|3|8|7|1|5|2|9|

```

- 위 그림에서 우선순위 큐는 가장 앞쪽에 있는 데이터가 가장 큰 값을 갖는 데이터가 되어야 함

- 그 외에 다른 데이터들은 어떻게 정렬이 되어 있던지 별 상관 없음

- 우선순위 큐가 힙 정렬 알고리즘과 어떤 관계가 있는가 하면 

  힙 정렬 알고리즘은 트리 구조로 구성되며 
  
  루트 노드가 가장 큰 값을 갖게 됨
  
```

 |3|7|2|9|6|1|4|5|8|
 

           |9|
              
         
      |8|         |4|


  |7|    |6|    |1|   |2|
  
  
|3|  |5|

```

- 정렬되어 있지 않은 데이터들을 힙으로 구성하여 정렬한 모습

- 일차원 리스트로 주어진 데이터들을 힙으로 만드는 방법에 대해서 그림을 통해 알아보자

첫 번째 과정

```
 v
|3|7|2|9|6|1|4|5|8|

       
       |3|

```

첫 번째 데이터 3을 힙에 추가

아직 힙이 구성되어 있지 않은 상태이므로 위의 그림과 같이 덜렁 3하나만 존재하게 됨



그 다음은 두 번째 데이터인 7을 삽입
7을 삽입하면 다음 그림과 같이 됨

```
 v v
|3|7|2|9|6|1|4|5|8|

       
               |7|

           |3|


```



- 데이터 7을 삽입하게 되면 먼저 기존에 저장되어 있는 데이터 3의 자식노드로 삽입

- 그런데 7이 3보다 크기 때문에 위 그림의 오른쪽과 같이 7과 3의 위치를 바꾸게 됨

세 번째 데이터 2를 삽입

```
 v v v
|3|7|2|9|6|1|4|5|8|

       
               |7|

           |3|        |2|


```

데이터 2를 삽입하면 루트 노드인 7의 오른쪽 자식 노드로 삽입

2가 7보다 작으므로 힙의 규칙에 적합하므로 재구성 작업은 필요 없음

다음은 9의 삽입


```
 v v v v
|3|7|2|9|6|1|4|5|8|

       
               |9|

           |7|        |2|

       |3|

```

데이터 9를 삽입하면 3의 왼쪽 자식 노드로 삽입되는데 

9는 자신의 부모 노드인 3보다 크기가 크므로

2개의 자리를 서로 바꿈

위의 부모 노드인 7보다 9가 더 크므로 다시 자리를 바꾸면 위 그림과 같은 결과



다음은 데이터 6의 삽입

```
 v v v v v
|3|7|2|9|6|1|4|5|8|

       
               |9|

           |7|        |2|

       |3|    |6|

```

데이터 6을 삽입하게 되면 7의 오른쪽 자식 노드로 삽입

부모 노드인 7보다 새로 추가된 6의 크기가 작으므로 힙의 재구성이 필요 없게 됨


다음 데이터 1 삽입

```
 v v v v v v
|3|7|2|9|6|1|4|5|8|

       
                   |9|

           |7|            |2|

       |3|    |6|    |1|

```

데이터 1의 경우도 6과 마찬가지로 2의 왼쪽 자식 노드로 삽입

부모 노드인 2보다 작으므로 재구성은 필요 없음


다음 데이터 4 삽입

```
 v v v v v v v
|3|7|2|9|6|1|4|5|8|

       
                   |9|

           |7|            |4|

       |3|    |6|    |1|       |2|

```

데이터 4가 삽입 되면 2의 자식노드로 삽입되지만

4가 부모 노드인 2보다 값이 크므로 서로 자리를 바꾸어야 함



다음 데이터 5 삽입

```
 v v v v v v v v
|3|7|2|9|6|1|4|5|8|

       
                   |9|

           |7|            |4|

       |5|    |6|    |1|       |2|

     |3|
       
```

데이터 5가 삽입되면 3의 왼쪽 자식 노드로 삽입되는데

부모 노드인 3보다 5가 더 크므로 서로 자리를 바꿈


다음 데이터 8 삽입

```
 v v v v v v v v v
|3|7|2|9|6|1|4|5|8|

       
                   |9|

           |8|            |4|

       |7|    |6|    |1|       |2|

     |3|  |5|
       
```

마지막 데이터인 8이 삽입되면 5의 오른쪽 자식 노드로 들어가게 되고

8이 5보다 크므로 5와 자리를 바꾸며 그 위의 부모노드인 7보다 크므로 다시 7과 자리를 바꿈

In [2]:
# 힙 정렬 알고리즘의 전체 코드 UPHEAP이기 때문에 정렬은 내림차순으로 됨
import random
from math import log10

def left_node(idx=None):
    return ((idx+1) << 1) - 1

def right_node(idx=None):
    return (idx+1) << 1

def up_heap(mylist=None, idx=None, heap_size=None):
    l_node = left_node(idx)
    r_node = right_node(idx)
    
    if l_node <= heap_size and mylist[l_node] > mylist[idx]:
        largest = l_node
    else:
        largest = idx
        
    if r_node <= heap_size and mylist[r_node] > mylist[largest]:
        largest = r_node
        
    if largest != idx:
        mylist[idx], mylist[largest] = mylist[largest], mylist[idx]
        up_heap(mylist, largest, heap_size)
        
        
def build_heap(mylist=None):
    heap_size = len(mylist) - 1
    
    for i in reversed(range(len(mylist)// 2)):
        up_heap(mylist, i, heap_size)
        
        
def heap_sort(heap=None):
    tmp_arry = list()
    
    for i in range(len(heap)):
        tmp_arry.append(heap.pop(0))
        up_heap(heap, 0, len(heap) - 1)
    
    return tmp_arry

if __name__ == "__main__":
    data = []
    input_n = input("정렬할 데이터의 수:")
    data = [random.randint(1, 99999) for x in range(int(input_n))]
    
    
    print("정렬 전")
    print(data)
    
    build_heap(data)
    
    sorted_data = heap_sort(data)
    
    print("정렬 후")
    print(sorted_data)

정렬할 데이터의 수:100
정렬 전
[31983, 96955, 72490, 27727, 38913, 14214, 97815, 73818, 848, 81277, 52588, 81182, 77946, 18425, 37645, 26113, 55338, 34808, 41183, 96297, 5057, 75308, 25114, 57611, 11912, 74904, 14208, 66538, 31264, 51464, 33363, 38432, 19918, 22545, 80541, 79648, 43031, 42017, 71777, 99509, 29065, 52778, 17620, 83847, 56758, 99022, 11887, 73658, 37582, 34072, 58945, 56439, 97669, 14821, 13828, 55356, 10799, 28456, 22911, 75572, 92619, 49084, 27765, 95638, 35143, 61812, 80979, 50675, 27593, 26216, 44631, 72612, 38819, 43950, 92354, 2382, 69122, 734, 72674, 51735, 98652, 33066, 31398, 71791, 6660, 77259, 69331, 83181, 8161, 67366, 31290, 93823, 23492, 97413, 54545, 12255, 43169, 93332, 59854, 76099]
정렬 후
[99509, 99022, 98652, 97815, 97669, 95638, 92619, 96297, 97413, 93332, 92354, 80979, 77946, 75572, 83847, 81277, 80541, 79648, 77259, 81182, 96955, 76099, 74904, 73818, 72674, 66538, 55356, 72490, 55338, 61812, 71777, 72612, 83181, 71791, 73658, 93823, 69122, 67366, 58945, 69331, 5

### 힙 정렬 알고리즘의 분석

- 힙 정렬 알고리즘은 트리 구조를 사용하기 때문에 결국은 이진 트리의 성능과 거의 동일

- 힙에서 사용하는 트리의 깊이가 D라고 했을 때 힙에서 사용하는 데이터 N은 다음과 같은 식

- 2D-1 <= N < 2D - 1

- 따라서 힙에서 사용하는 트리의 깊이인 D는 log2N + 1이 됨

- 힙 정렬 알고리즘은 최선, 일반, 최악의 경우에 따라 거의 차이가 없음


- 안정된 정렬 알고리즘이라고 볼 수 있지만 
  정렬을 할 때마다 힙 내부에서 노드들을 반복적으로 이동하므로 
  실제 성능은 퀵 정렬 알고리즘에 비해서 떨어진다고 볼수 있음
  
  
  

### 시간의 효율성

- 힙 정렬 알고리즘은 O(N * log2N)의 성능을 갖고 있음

- 따라서 퀵 정렬과 비슷한 성능을 보여주지만 아무래도
  힙을 다시 재구성하는 과정이 실행되기 때문에 실제 성능은 퀵 알고리즘보다 떨어지게 됨

### 공간의 효율성

- 힙 정렬 알고리즘은 트리 구조를 사용할 수 있다는 점과 
  리스트를 사용해서도 구현이 가능하다는 점에서 공간 효율성은 뛰어나다고 볼 수 있음

### 코드의 효율성

- 힙 정렬 알고리즘의 코드는 
  퀵 정렬이나 병합 정렬 알고리즘처럼 재귀 호출을 사용하는 것도 아니고
  단 순히 트리 구조만 알고 있다면 쉽게 이해할 수 있을 만큼 단순
  
  따라서 다른 알고리즘들에 비해 코드의 효율성은 좋다고 볼 수 있음