# Chapter 6 - 정렬
## 1. 기준에 따라 데이터를 정렬
### 정렬 알고리즘 개요
- 정렬(Sorting)이란 데이터를 특정한 기준에 따라서 순서대로 나열하는 것.

### 선택 정렬
- 선택 정렬: 데이터가 무작위로 여러 개 있을 때, 이 중에서 가장 작은 데이터를 선택해 맨 앞에 있는 데이터와 바꾸고, 그다음 작은 데이터를 선택해 앞에서 두 번째 데이터와 바꾸는 과정을 반복
- 선택 정렬은 가장 원시적인 방법으로 매번 '가장 작은 것을 선택'한다는 의미

In [3]:
# 6-1.py 선택 정렬 소스코드
array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

for i in range(len(array)):
    min_index = i # 가장 작은 원소의 인덱스
    for j in range(i + 1, len(array)):
        if array[min_index] > array[j]:
            min_index = j
    array[i], array[min_index] = array[min_index], array[i] # 스와프
    
print(array)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


- 스와프란 특정한 리스트가 주어졌을 때 두 변수의 위치를 변경하는 작업을 의미.
- 파이썬을 제외한 다른 대부분의 프로그래밍 언어에서는 명시적으로 임시 저장용 변수를 만들어 두 원소의 값을 변경해야 함.

In [4]:
# 0 인덱스와 1 인덱스의 원소 교체하기
array = [3, 5]
array[0], array[1] = array[1], array[0]

print(array)

[5, 3]


#### 선택 정렬의 시간 복잡도
- 선택 정렬은 N - 1번 만큼 가장 작은 수를 찾아서 맨 앞으로 보내야 함.
- 또한 매번 가장 작은 수를 찾기 위해서 비교 연산이 필요함
- 연산 횟수: $$N + (N - 1) - (N - 2) + \cdots + 2 \approx \frac{N \times (N + 1)}{2} \approx \frac{(N^{2} + N)}{2} \approx O(N^{2})$$
- 직관적으로 이해하자면, 소스코드 상으로 간단한 형태의 2중 반복문이 사용되었기 때문
- 선택 정렬을 이용하는 경우 데이터의 개수가 10000개 이상이면 정렬 속도가 급격히 느려지는 것을 확인할 수 있음.

### 삽입 정렬
- 삽입 정렬: 데이터를 하나씩 확인하며, 각 데이터를 적절한 위치에 삽입
- 삽입 정렬은 선택 정렬에 비해 구현 난이도가 높은 편이지만 선택 정렬에 비해 실행 시간 측면에서 더 효율적인 알고리즘으로 잘 알려짐
- 정렬이 이루어진 원소는 항상 오름차순을 유지하고 있음

In [23]:
array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

for i in range(1, len(array)):
    for j in range(i, 0, - 1): # 인덱스 i부터 1까지 감소하며 반복하는 문법
        if array[j] < array[j - 1]: # 한 칸씩 왼쪽으로 이동
            array[j], array[j - 1] = array[j - 1], array[j]
        else: # 자기보다 작은 데이터를 만나면 그 위치에서 멈춤
            break
            
print(array)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


- 삽입 정렬의 시간 복잡도는 $O(N^{2})$. 반복문이 2번 중첩되어 사용되었음.
- 삽입 정렬은 현재 리스트의 데이터가 거의 정렬되어 있는 상태라면 매우 빠르게 동작. 최선의 경우 $O(N)$.

### 퀵 정렬
- 퀵 정렬: 기준 데이터를 설정하고 그 기준보다 큰 데이터와 작은 데이터의 위치를 바꿈
- 퀵 정렬은 앞에서 소개된 정렬 알고리즘 보다 많이 사용되는 알고리즘.
- 퀵 정렬은 기준을 설정한 다음 큰 수와 작은 수를 교환한 후 리스트를 반으로 나누는 방식으로 동작.
- 피벗(Pivot): 큰 숫자와 작은 숫자를 교환할 때, 교환하기 위한 '기준'
- 퀵 정렬을 수행하기 전에는 피벗을 어떻게 설정할 것인지 미리 명시해야 함.
- 호어 분할(Hoare Partition) 방식에서는 리스트에서 첫 번째 데이터를 피벗으로 정함.
- 피벗을 설정한 뒤에는 왼쪽에서부터 피벗보다 큰 데이터를 찾고, 오른쪽에서부터 피벗보다 작은 데이터를 찾음.
- 그다음 큰 데이터와 작은 데이터의 위치를 서로 교환.
- 이 과정을 반복
- '재귀 함수'와 동작 원리가 같음.
- 재귀 함수 형태로 작성했을 때 구현이 매우 간결해짐.
    - 퀵 정렬이 끝나는 조건은 현재 리스트의 데이터 개수가 1개인 경우

In [3]:
# 6-4.py 퀵 정렬 소스코드
array = [5, 7, 9, 0 , 3, 1, 6, 2, 4, 8]

def quick_sort(array, start, end):
    if start >= end: # 원소가 1개인 경우 종료
        return
    pivot = start # 피벗은 첫 번째 원소
    left = start + 1
    right = end
    while left <= right:
        # 피벗보다 큰 데이터를 찾을 때까지 반복
        while left <= end and array[left] <= array[pivot]:
            left += 1
        # 피벗보다 작은 데이터를 찾을 때까지 반복
        while right > start and array[right] >= array[pivot]:
            right -= 1
        if left > right: # 엇갈렸다면 작은 데이터와 피벗을 교체
            array[right], array[pivot] = array[pivot], array[right]
        else: # 엇갈리지 않았다면 작은 데이터와 큰 데이터를 교체
            array[left], array[right] = array[right], array[left]
        # 분할 이후 왼쪽 부분과 오른쪽 부분에서 각각 정렬 수행
        quick_sort(array, start, right - 1)
        quick_sort(array, right + 1, end)

quick_sort(array, 0, len(array) - 1)
print(array)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [4]:
# 6-5.py 파이썬의 장점을 살린 퀵 정렬 소스코드
array = [5, 7, 9, 0, 3, 1, 6, 2, 4, 8]

def quick_sort(array):
    # 리스트가 하나 이하의 원소만을 담고 있다면 종료
    if len(array) <= 1:
        return array
    
    pivot = array[0] # 피벗은 첫 번째 원소
    tail = array[1:] # 피벗을 제외한 리스트
    
    left_side = [x for x in tail if x <= pivot] # 분할된 왼쪽 부분
    right_side = [x for x in tail if x > pivot] # 분할된 오른쪽 부분
    
    # 분할 이후 왼쪽 부분과 오른쪽 부분에서 각각 정렬을 수행하고, 전체 리스트를 반환
    return quick_sort(left_side) + [pivot] + quick_sort(right_side)

print(quick_sort(array))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


#### 퀵 정렬의 시간 복잡도
- 퀵 정렬의 평균 시간 복잡도는 $O(NlogN)$
- 최악의 경우 시간 복잡도는 $O(N^{2})$
- 리스트의 가장 왼쪽 데이터를 피벗으로 삼을 때, '이미 데이터가 정렬되어 있는 경우'에는 매우 느리게 동작 (삽입 정렬과는 반대)

### 계수 정렬
- 계수 정렬(Court Sort): 특정한 조건이 부합할 때만 사용할 수 있지만 매우 빠른 정렬 알고리즘.
- 모든 데이터가 양의 정수인 상황에서 데이터의 개수가 N, 데이터 중 최댓값이 K일 때, 계수 정렬은 최악의 경우에도 수행 시간 $O(N + K)$를 보장.
- 계수 정렬은 '데이터의 크기 범위가 제한되어 정수 형태롤 표현할 수 있을 때'만 사용 가능
- 일반적으로 가장 큰 데이터와 가장 작은 데이터의 차이가 1,000,000을 넘지 않을 때 효과적으로 사용 가능
- 가장 큰 데이터와 가장 작은 데이터의 차이가 너무 크면 계수 정렬을 사용할 수 없음
    - 계수 정렬을 이용할 때는 '모든 범위를 담을 수 있는 크기의 리스트(배열)를 선언'해야 하기 때문
- 계수 정렬은 일반적으로 별도의 리스트를 선언하고 그 안에 정렬에 대한 정보를 담는다는 특징이 있음.
- 먼저 가장 큰 데이터와 가장 작은 데이터의 범위가 모두 담길 수 있도록 하나의 리스트를 생성
- 처음에는 리스트의 모든 데이터가 0이 되도록 초기화
- 그다음 데이터를 하나씩 확인하며 데이터의 값과 동일한 인덱스의 데이터를 1씩 증가시키면 완료

In [5]:
# 6-6.py 계수 정렬 소스코드
# 모든 원소의 값이 0보다 크거나 같다고 가정
array = [7, 5, 9, 0, 3, 1, 6, 2, 9, 1, 4, 8, 0, 5, 2]
# 모든 범위를 포함하는 리스트 선언(모든 값은 0으로 초기화)
count = [0] * (max(array) + 1)

for i in range(len(array)):
    count[array[i]] += 1 # 각 데이터에 해당하는 인덱스의 값 증가
    
for i in range(len(count)): # 리스트에 기록된 정렬 정보 확인
    for j in range(count[i]):
        print(i, end=' ') # 띄어쓰기를 구분으로 등장한 횟수만큼 인덱스 출력

0 0 1 1 2 2 3 4 5 5 6 7 8 9 9 

#### 계수 정렬의 시간 복잡도
- 모든 데이터가 양의 정수인 상황에서 데이터의 개수를 N, 데이터 중 최대값의 크기를 K라고 할 때, 계수 정렬의 시간 복잡도는 $O(N + K)$.
    - 계수 정렬은 앞에서부터 데이터를 하나씩 확인하면서 리스트에서 적절한 인덱스의 값을 1씩 증가시킬 뿐만 아니라, 추후에 리스트의 각 인덱스에 해당하는 값들을 확인할 때 데이터 중 최댓값의 크기만큼 반복을 수행해야 하기 때문.

#### 계수 정렬의 공간 복잡도
- 계수 정렬은 때에 따라서 심각한 비효율성을 초래할 수 있음.
    - 예) 데이터가 0과 999,999 단 2개만 존재할 때
- 따라서 항상 사용할 수 있는 정렬 알고리즘은 아니며, 동일한 값을 가지는 데이터가 여러 개 등장할 때 적합.
- 반면에 퀵 정렬은 일반적인 경우에서 평균적으로 빠르게 동작하기 때문에 데이터의 특성을 파악하기 어렵다면 퀵 정렬을 이용하는 것이 유리
- $\therefore$ 계수 정렬은 데이터의 크기가 한정되어 있고, 데이터의 크기가 많이 중복되어 있을수록 유리하면 항상 사용할 수는 없음.
- 일반적인 코딩 테스트의 시스템 환경에서는 메모리 공간상의 제약과 입출력 시간 문제로 인하여 입력되는 데이터의 개수를 1,000만 개 이상으로 설정할 수 없는 경우가 많기 때문에, 정렬 문제에서의 데이터 개수는 1,000만 개 미만으로 출제될 것.
- 계수 정렬의 공갑 복잡도는 $O(N + K)$

### 파이썬의 정렬 라이브러리
- 파이썬은 기본 정렬 라이브러리인 `sorted()` 함수를 제공.
- `sorted()`는 퀵 정렬과 동작 방식이 비슷한 병합 정렬을 기반으로 만들어짐.
- 병합 정렬은 일반적으로 퀵 정렬보다 느리지만 최악의 경우에도 시간 복잡도 $O(NlogN)$을 보장.

In [6]:
# 6-7.py sorted 소스코드
array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

result = sorted(array)
print(result)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


- 리스트 객체의 내장 함수인 `sort()`를 이용하여 별도의 정렬된 리스트를 반환하지 않고 내부 원소를 바로 정렬

In [7]:
# 6-8.py sort 소스코드
array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

array.sort()
print(array)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


- `sorted()`나 `sort()`를 이용할 때에는 `key` 매개변수를 입력으로 받을 수 있음.
- `key` 값으로는 하나의 함수가 들어가야 하며 이는 정렬 기준이 됨.

In [8]:
# 6-9.py 정렬 라이브러리에서 key를 활용한 소스코드
array = [('바나나', 2), ('사과', 5), ('당근', 3)]

def setting(data):
    return data[1]

result = sorted(array, key=setting)
print(result)

[('바나나', 2), ('당근', 3), ('사과', 5)]


#### 정렬 라이브러리의 시간 복잡도
- 정렬 라이브러리는 항상 최악의 경우에도 시간 복잡도 $O(NlogN)$을 보장
- 정렬 라이브러리는 이미 잘 작성된 함수이므로 우리가 직접 퀵 정렬을 구현할 때보다 더욱더 효과적
    - 정렬 라이브러리는 정확히는 병합 정렬과 삽입 정렬의 아이더어를 더한 하이브리드 방식의 정렬 알고리즘을 사용
- 파이썬에서 정렬 알고리즘이 사용되는 일반적인 3가지 문제 유형:
    - 정렬 라이브러리로 풀 수 있는 문제: 단순히 정렬 기법을 알고 있는지 물어보는 문제. 기본 정렬 라이브러리의 사용 방법을 숙지하고 있으면 쉽게 풀 수 있음
    - 정렬 알고리즘의 원리에 대해서 물어보는 문제: 선택 정렬, 삽입 정렬, 퀵 정렬 등의 원리를 알고 있어야 문제를 풀 수 있음
    - 더 빠른 정렬이 필요한 문제: 퀵 정렬 기반의 정렬 기법으로는 풀 수 없으면 계수 정렬 등의 다른 정렬 알고리즘을 이용하거나 문제에서 기존에 알려진 알고리즘의 구조적인 개선을 거쳐야 풀 수 있음.