---
<font color='Blue' size="4">
F37.204 컴퓨팅 핵심: 컴퓨터로 생각하기(Core Computing: Thinking with Computers)</font>

---


# Chapter 9. 정렬 알고리즘



:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 파이썬의 정렬 기능을 알아본다.
  - 정렬 알고리즘으로 버블정렬, 선택정렬, 삽입정렬의 동작 방법을 이해하고 구현해보자.

- 기대효과
  - 알고리즘의 효율성을 고려하여 프로세스를 디자인해볼 수 있다.

:::

## 정렬

정렬(sorting)은 순서가 없는 데이터들을 특정 기준에 따라 재배열하는 것을 의미한다. 예를 들어, 이름을 가나다 순으로 정렬하거나 학생들을 키 순으로 정렬하거나 책을 제목, 저자명 등을 기준으로 오름차순이나 내림차순으로 정렬 할 수 있다.


## 파이썬에서의 정렬함수
- 파이썬에서도 정렬을 위한 함수가 존재한다.
```
datalist.sort(key=..., reverse=True/False)
sorted(datalist, key=..., reverse=True/False)
```
- datalist.sort()는 원본데이터의 아이템들을 정렬하여 datalist에 적용한다. 반환값은 없다.
- sorted(datalist)는 원본데이터의 정렬된 결과를 반환하나 원본데이터에 적용하지는 않는다.

- 랜덤데이터를 만들어보고 정렬해보자.

In [None]:
import random

n=10
data = [random.randint(0,100) for i in range(n)]
print(data)
print(len(data))

### sort()함수

- data.sort()는 변수 data의 아이템들을 오름차순으로 정렬하여 data에 바로 적용시킨다.
- sort()함수는 반환이 없으므로 print(data.sort())와 같이 하면 None이 출력된다.

In [None]:
print(data)
data.sort()
print('Sorted list:', data)

In [None]:
vowels = ['e', 'a', 'u', 'o', 'i']
vowels.sort()
print('Sorted list:', vowels)

- 내림차순으로 정렬하려면 reverse옵션을 True로 설정하면 된다.

In [None]:
data.sort(reverse=True)
print(data)

### sorted()함수

- sorted(data)함수는 괄호안의 data를 정렬하여 반환한다.
- 그러나 data에 정렬결과를 적용시키지 않으므로 주로 원본 데이터를 변경하지 않기를 원할 때 사용한다.

In [None]:
print(sorted(data))

- 마찬가지로 내림차순으로 정렬하려면 reverse옵션을 True로 설정하면 된다.

In [None]:
sorted(data, reverse=True )

- 파이썬 sort()와 sorted() 모두 key를 사용하여 정렬 기준을 명시해줄 수 있다.
- 아래의 코드에서 key=len으로 주면 len()함수가 전달되어 단어의 길이순으로 정렬하라는 의미이다. 이때 괄호없이 함수명만 적어준다.

In [None]:
vowels = ['err', 'aetn', 'u', 'oo', 'iiiii']
vowels.sort(key=len)
print('Sorted list:', vowels)

- 기준으로 사용할 사용자 정의 함수를 만들어서 적용할 수도 있다.
- 아래의 코드에서는 튜플의 인덱스 1의 값을 반환하는 함수 takeSecond()를 정의하고, 반환값을 기준으로 정렬하였다.

In [None]:
random = [(2, 2), (3, 4), (4, 1), (1, 3)]

def takeSecond(elem):
    return elem[1]

random.sort(key=takeSecond)

print('Sorted list:', random)

- 딕셔너리의 값을 기준으로 삼아 정렬할 수도 있다.
- get_name()함수는 딕셔너리의 키와 매핑하는 value를 반환한다.

In [None]:
employees = [
  {'Name': 'Alan Turing', 'age': 25, 'salary': 10000},
  {'Name': 'Sharon Lin', 'age': 30, 'salary': 8000},
  {'Name': 'John Hopkins', 'age': 18, 'salary': 1000},
  {'Name': 'Mikhail Tal', 'age': 40, 'salary': 15000},
]

In [None]:
employees[0].get('Name')

- employee.get('Name')은 이름을 반환한다. 즉 이름을 오름차순으로 정렬한다.

In [None]:
def get_name(employee):
    return employee.get('Name')

employees.sort(key=get_name)
employees

- get_name()과 같은 함수를 정의하는 대신 lambda 키워드를 사용하여 익명함수를 정의하여 사용할 수 있다.

In [None]:
employees.sort(key=lambda x: x.get('Name'))
employees

😄 변수 employees 데이터에서 나이를 기준으로 오름차순으로 정렬하여 출력하시오.


😄 변수 employees 데이터에서 연봉이 높은순부터 낮은순으로(내림차순) 정렬하여 출력하시오.

## 버블정렬


### 버블정렬 알고리즘
- **버블정렬**(Bubble Sort)은 인접한 2개의 원소(a, b)를 비교하여 크기가 순서대로 되어 있지 않으면 자리를 바꾸는 일을 정렬될때 까지 반복하는 정렬 방법이다. 오름차순으로 정렬할 때에는
a<b, 내림차순으로 정렬할 때에는 a>b이면 정렬된 것으로 판단한다.
위 알고리즘을 배열에 아무 변화가 없을 때까지 반복한다.

### 버블정렬 예제
- 버블정렬을 그림으로 따라가보자.
- Step 0
  - 데이터가 5, 2, 4, 6, 1, 3의 순서로 있고 오름차순으로 정렬한다고 가정하자.
- Step 1
  - 첫 번째 수인 5와 두 번째 수인 2를 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 두 번째 수인 5와 세 번째 수인 4를 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 세번째 수인 5와 네 번째 수인 6을 비교하는데 뒷 수가 크므로 자리 교환은 없다.
  - 네 번째 수인 6과 다섯 번째 수인 1을 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 다 섯번째 수인 6과 여섯 번째 수인 3을 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 버블정렬 첫 번째 스텝을 밟고 나면 가장 큰 수인 6이 가장 뒤로 간다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/sort1.png" height=300 style="width:600px;"></div>

- Step 2
  - 스텝 1의 결과인 2, 4, 5, 1, 3을 기준으로 시작한다. **이때 6은 스텝 1에 의해서 이미 정렬되어 있으므로 범위에 포함되지 않는다.**
  - 첫 번째 수인 2와 두 번째 수인 4를 비교하여 뒷 수가 크므로 자리 교환은 없다.
  - 두 번째 수인 4와 세 번째 수인 5를 비교하여 뒷 수가 크므로 자리 교환은 없다.
  - 세번째 수인 5와 네 번째 수인 1을 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 네 번째 수인 5과 다섯 번째 수인 3을 비교하여 뒷 수가 작으므로 자리를 교환한다.
  - 버블정렬 두 번째 스텝을 밟고 나면 두 번째로 큰 수가 오른쪽에서 둘째 자리에 위치하게 된다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/sort2.png" height=300 style="width:600px;"></div>

- 이러한 스텝과정을 길이가 $n$인 리스트에 대해 $n-1$ 번 적용하면 최종적으로 오름차순으로 정렬된다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/sort3.png" height=300 style="width:600px;"></div>

<div align="center"><img src="https://haesunbyun.github.io/common/images/sort4.png" height=300 style="width:600px;"></div>

<div align="center"><img src="https://haesunbyun.github.io/common/images/sort5.png" height=300 style="width:600px;"></div>

### 버블정렬 visualization
- 다음은 버블정렬을 그래픽으로 보이고 있는 그림이다.보고 있으면 은근히 빠져든다.^^ (위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/5/54/Sorting_bubblesort_anim.gif" height=300 style="width:600px;"></div>




- 다음은 2차원 랜덤 점들을 버블정렬로 정렬하고 있는 그림이다.(위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/3/37/Bubble_sort_animation.gif" height=300 style="width:600px;"></div>




### 버블정렬 구현
- 버블정렬 알고리즘을 구현해보자.
- 정렬을 위한 데이터 20개를 0부터 100 사이의 임의의 숫자로 만들어 변수 data에 저장하자.

In [None]:
import random

def randomData20():
  data=[]
  for i in range(20):
    data.append( random.randint(0,100) )
  return data

data=randomData20()
print(data)

[62, 5, 49, 50, 73, 36, 47, 11, 20, 88, 59, 17, 6, 35, 49, 98, 75, 49, 83, 38]


In [None]:
def mybubbleSort(data):

  length = len(data)-1
  # 전체 step은 n-1번 반복, n은 데이터 갯수
  for i in range(length):
    for j in range(length-i): #한 step마다 비교 횟수가 1씩 감소
      if data[j] > data[j+1]: #인접한 두 원소를 비교
        data[j], data[j+1] = data[j+1], data[j] #자리바꿈

data=randomData20()
print(f'Before: {data}')
mybubbleSort(data)
print(f'After: {data}')

버블 정렬에서 비교 횟수는 1부터 $n-1$까지의 합이다.  

|Step|비교 횟수|
|:-----:|:-----:|
|$1$|$n-1$|
|$2$|$n-2$|
|$3$|$n-3$|
|$\cdots$|$\cdots$|
|$n$$ - $$1$|$1$|

따라서, 최악의 경우 총 비교 횟수는

$ = (n-1)+(n-2)+\cdots+1$

$ = \frac{n(n-1)}{2} $

$ = O(n^2)\in \frac{n^2}{2} - \frac{n}{2}$

### 버블정렬의 시간측정

- $n$의 수가 100개, 1,000개, 10,000개, 100,000개일 때의 버블정렬 시간을 측정해보자.
- 테스트해 본 결과 100개나 1,000개 데이터는 1초도 안걸린다. 10,000개 데이터는 10초 정도 걸린다. 그럼 100,000개는?  10배가 아니라 100배가 늘어나고, 1,000초(약 16분 40초) 거린다. 버블 정렬의 시간복잡도는 $ O(n^2) $이므로 50억번의 비교가 이루어진다.

```python
import random

def randomData():
  n=int(input())
  data=[]
  for i in range(n):
    data.append( random.randint(0,10000) )
  return data
```

In [None]:
import random

def randomData():
  n=int(input())
  data=[]
  for i in range(n):
    data.append( random.randint(0,10000) )
  return data

In [None]:
import timeit
def start():
    global startTime
    startTime = timeit.default_timer()

def stop():
    stopTime = timeit.default_timer()
    print ('Time:', stopTime - startTime)

```python
data=randomData()
start()
mybubbleSort(data)
stop()
print(data[:10])
```

- 사실 데이터 100,000개는 그다지 큰 숫자가 아니다.
- 그래서 버블정렬은 프로그래밍을 처음 배우는 사람들에게 교육용으로 설명하는 알고리즘일 뿐, 100,000개의 데이터를 정렬하는 것만으로 오랜 시간이 걸리는 이러한 알고리즘을 실제 코딩하는데 사용하면 **절대** 안된다.
- 이게 바로 알고리즘을 잘 만들어야 하는 이유이다.

- 그렇다면 파이썬의 sort()함수는 데이터 100,000개를 정렬하는데 몇 초나 걸릴까? 1,000,000개가 0.3초,  10,000,000개는 3초 정도 걸린다.
- 일억 개의 데이터가 메모리에 올라갈지는 모르겠으나 메모리에 올라갈 정도까지는 데이터의 크기에 상관없이 아주 작은 시간이 걸린다.
- 참고로 파이썬은 팀소트 알고리즘으로 구현되어 있다. 팀소트 알고리즘은 삽입정렬과 병합정렬 사이를 전환하는 적응형 알고리즘으로 파이썬 프로그래밍에 사용하기 위해 2002년에 팀 피터스가 구현했다.
https://ko.wikipedia.org/wiki/팀소트


```
data=randomData()
start()
data.sort()
stop()
```

## 선택정렬


### 선택정렬 알고리즘

- 선택정렬은 말 그대로 최솟값 혹은 최댓값을 선택하여 정렬하는 알고리즘이다. 최솟값을 선택하면 오름차순 정렬이 이루어지고, 최댓값을 선택하면 내림차순 정렬이 이루어진다.

- 여기에서는 최소값을 선택하는 정렬 방법으로 순서를 설명한다.
1. 정렬되지 않은 숫자 중에 가장 작은 숫자를 선택한다.
2. 선택한 숫자를 정렬되지 않은 가장 앞의 숫자와 자리를 교환한다.
3. 모든 숫자를 옮길 때까지 1,2번 과정을 반복한다.

### 선택정렬 예제
- 선택정렬을 그림으로 따라가보자.
- Step 0
  - 데이터가 5, 2, 4, 6, 1, 3의 순서로 있고 최솟값을 선택하여 오름차순으로 정렬한다고 가정하자.


- Step 1
  - 주어진 데이터에서 최솟값은 1이다. 1을 정렬되지 않은 가장 앞에 있는 숫자(현재는 정렬된 숫자가 없음)인 5와 자리를 교환한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort6.png" height=300 style="width:600px;"></div>

- Step 2
  - 정렬되지 않은 숫자 중에서 최솟값은 2이다. 2를 정렬되지 않은 가장 앞에 있는 숫자 2와 자리를 교환한다.(같아서 그대로이다.)
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort7.png" height=300 style="width:600px;"></div>

- Step 3
  - 정렬되지 않은 숫자 중에서 최솟값은 3이다. 3를 정렬되지 않은 가장 앞에 있는 숫자 4와 자리를 교환한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort8.png" height=300 style="width:600px;"></div>

- Step 4
  - 정렬되지 않은 숫자 중에서 최솟값은 4이다. 4를 정렬되지 않은 가장 앞에 있는 숫자 6과 자리를 교환한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort9.png" height=300 style="width:600px;"></div>

- Step 5
  - 정렬되지 않은 숫자 중에서 최솟값은 5이다. 5를 정렬되지 않은 가장 앞에 있는 숫자 5과 자리를 교환한다.(같아서 그대로이다.)
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort10.png" height=300 style="width:600px;"></div>

### 선택정렬 visualization
- 다음은 선택정렬을 그래픽으로 보이고 있는 그림이다. 이것도 보고 있으면 은근히 빠져든다.^^ (위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/3/3e/Sorting_selection_sort_anim.gif" height=300 style="width:600px;"></div>




- 다음은 2차원 랜덤 점들을 선택정렬로 정렬하고 있는 그림이다.(위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/b/b0/Selection_sort_animation.gif" height=300 style="width:600px;"></div>



### 선택정렬 구현
- 선택정렬 알고리즘을 구현해보자.
- 정렬을 위한 데이터 20개를 0부터 100 사이의 임의의 숫자로 만들어 변수 data에 저장하자.

In [None]:
def mySelectionSort(data):
    length = len(data)-1
    for i in range(length): # 전체 step은 n-1번 반복
      idxMin=i              # 초기 최솟값
      for j in range(i+1,length+1): # 한 step마다 비교 횟수가 1씩 감소
        if data[idxMin] > data[j]:
          idxMin = j                # 최소값이면 그때의 인덱스를 저장

      data[i],data[idxMin]=data[idxMin], data[i] #자리바꿈

data=randomData20()
print(f'Before: {data}')
mySelectionSort(data)
print(f'After: {data}')

- 선택 정렬에서의 최선, 평균, 최악의 경우 소요되는 비교 횟수는  
$ = \frac{n(n-1)}{2} $
$ = O(n^2)$으로 버블정렬과 동일하다.

- 즉, 선택정렬 알고리즘은 $n$회 반복되며 각 반복에서는 최소값을 찾는다. 최솟값을 찾는데 $O(n)$이고, $O(n)$ 작업을 $n$번 수행하므로 시간복잡도는 $O(n^2)$이다.

- 그러나 선택 정렬에서는 자리를 바꾸는 횟수가 $n-1$번 발생한다. 이로인해 선택정렬이 버블정렬보다 조금 더 빠르다.

## 삽입정렬

### 삽입정렬 알고리즘
- 삽입정렬은 Key와 정렬된 리스트가 주어졌을 때, key를 정렬된 리스트의 알맞은 위치에 삽입하는 정렬 방법이다.
- A[1..n]이 주어진 리스트라고 하면
  - A[1]은 정렬되어 있다고 가정한다.
  - 첫 번째는 A[2]을 정렬된 배열 A[1]의 알맞는 위치에 삽입한다.
  - 두 번째는 A[3]을 정렬된 배열 A[1..2]의 알맞는 위치에 삽입한다.
  - 세 번째는 A[4]를 정렬된 배열 A[1..3]의 알맞는 위치에 삽입한다. $\cdots$
  - N-1번째는 A[n]을 정렬된 배열 A[1..n-1]의 알맞는 위치에 삽입한다.

### 삽입정렬 예제
- 삽입정렬을 그림으로 따라가보자.


- Step 1
  - 데이터가 5, 2, 4, 6, 1, 3의 순서로 있고 5는 정렬되어 있다고 가정한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort11.png" height=300 style="width:600px;"></div>

- Step 2
  - 두 번째 수 2를 key로 정하고 정렬된 범위 [5]의 숫자와 key 2보다 작은 숫자가 나올때까지 차례대로 비교한다. 숫자 5와 비교하여 2가 더 작고 범위의 앞쪽 끝이므로 5 앞에 삽입한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort12.png" height=300 style="width:600px;"></div>

- Step 3
  - 세 번째 값 4를 key로 정한다. 정렬된 범위 [2,5]의 왼쪽부터 오른쪽으로 4보다 작은 숫자가 나올때까지 비교한다. 4보다 작은 숫자가 나오면 그 다음 자리에 삽입한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort13.png" height=300 style="width:600px;"></div>

- Step 4
  - key가 되는 숫자 6을 정렬된 범위 [2,4,5]에 있는 숫자와 비교한다. 5는 6보다 작으므로 5 다음 자리에 삽입한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort14.png" height=300 style="width:600px;"></div>

- Step 5
  - key가 되는 숫자 1을 정렬된 범위 [2,4,5,6]에 있는 숫자를 차례대로 비교한다. 1은 가장 작은 수이므로 범위의 끝까지 가 맨 앞에 삽입된다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort15.png" height=300 style="width:600px;"></div>

- Step 6
  - key가 되는 숫자 3을 정렬된 범위 [1,2,4,5,6]에 있는 숫자를 차례대로 6>3, 5>3, 4>3 비교하다가 2는 3보다 작으므로 2 다음 자리에 삽입한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/sort16.png" height=300 style="width:600px;"></div>

### 삽입정렬 visualization
- 다음은 삽입정렬을 그래픽으로 보이고 있는 그림이다. (위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/4/42/Insertion_sort.gif" height=300 style="width:600px;"></div>




- 다음은 2차원 랜덤 점들을 삽입정렬로 정렬하고 있는 그림이다.(위키피디아 제공)
<div align="center"><img src="https://upload.wikimedia.org/wikipedia/commons/2/25/Insertion_sort_animation.gif" height=300 style="width:600px;"></div>



### 삽입정렬 구현
- 삽입정렬 알고리즘을 구현해보자.


In [None]:
def myinsertionSort(data):
  #TODO
  length = len(data)
  for i in range(1, length): # 전체 step은 n-1번 반복
    j = i - 1                # 정렬된 범위의 끝 인덱스
    key = data[i]            # 정렬되지 않은 범위의 시작 데이터
    # (정렬된 범위의 끝 데이터가 key보다 크고) and
    # (정렬된 범위의 끝 인덱스가 0보다 크거나 같으면)
    while (data[j] > key) and (j >= 0):
      data[j+1] = data[j] # data[j]를 data[j+1]자리에 저장. 즉, 뒤로 밀어 저장
      j = j - 1
    data[j+1] = key        # key를 삽입

data=randomData20()
print(f'Before: {data}')
myinsertionSort(data)
print(f'After: {data}')

- 삽입정렬에서는 n개의 데이터가 있을 때, 최악의 경우는 $ 1 + 2 + 3 + \cdots + (n-1)$$ = \frac{n(n-1)}{2} $번 비교하므로 시간복잡도는 $ O(n^2)$이다.

## 버블 vs. 선택 vs. 삽입

```
data=randomData()
start()
mybubbleSort(data)
stop()
start()
mySelectionSort(data)
stop()
start()
myinsertionSort(data)
stop()


- 세 알고리즘을 실행시켰을 때 실제 실행시간은 약간 다를지라도 세 알고리즘의 시간복잡도는 모두 $ O(n^2)$이다.
- 이를 $ O(n^2)$ 클래스에 속한다고 말한다.

## 마무리
- 버블정렬은 인접한 2개의 원소(a, b)를 비교하여 크기가 순서대로 되어 있지 않으면 자리를 바꾸는 일을 정렬될때 까지 반복하는 정렬 방법이다.
- 선택정렬은 말 그대로 최솟값 혹은 최댓값을 선택하여 정렬하는 알고리즘이다. 최솟값을 선택하면 오름차순 정렬이 이루어지고, 최댓값을 선택하면 내림차순 정렬이 이루어진다.
- 삽입정렬은 Key와 정렬된 리스트가 주어졌을 때, key를 정렬된 리스트의 알맞은 위치에 삽입하는 정렬 방법이다.
- 세 알고리즘 모두다 시간복잡도는 $ O(n^2)$이다.

---
<font color='Grey' size="4">
F37.204 컴퓨팅 핵심: 컴퓨터로 생각하기(Core Computing: Thinking with Computers)</font>

---
서울대학교 학부대학<br>
교수 변해선