### 정렬 Sort

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8e/Merge_sort_animation.gif/220px-Merge_sort_animation.gif" width=400>

- 여러 데이터를 작은 값부터 큰 순으로 또는 큰 값부터 작은 순으로 정리하는 것
    - 오름차순(Ascending sort)
    - 내림차순(Descending sort)

<!-- 표 만들때 :--(왼쪽정렬) --:(오른쪽정렬) :--:(중앙정렬)-->
|종류|평균|최선|최악
|:--:|:--:|:--:|:--:|
|선택정렬|$O(n^2)$|$O(n^2)$|$O(n^2)$|
|삽입정렬|$O(n^2)$|$O(n^2)$|$O(n^2)$|
|버블정렬|$O(n^2)$|$O(n)$|$O(n^2)$|
|퀵정렬|$O(n log n)$|$O(n log n)$|$O(n^2)$|
|합병정렬|$O(n log n)$|$O(n log n)$|$O(n log n)$|
|힙정렬|$O(n log n)$|$O(n log n)$|$O(n log n)$|
|쉘정렬|$O(n^{1.25})$|$O(n^{1.25})$|$O(n^{1.25})$|
|기수정렬|$O(dn)$|$O(dn)$|$O(dn)$|

#### 선택정렬

- 여러 데이터 중 가장 작은 값을 뽑는 과정을 반복하여 정렬하는 방식

In [3]:
def findMinIdx(arr):
    minIdx = 0  # 맨 처음 값을 최소라고 가정
    for i in range(1, len(arr)):
        if arr[minIdx] > arr[i]:
            minIdx = i

    return minIdx

In [4]:
testArr = [55, 88, 22, 33, 77]
minPos = findMinIdx(testArr)

print(f'최소값 인덱스 : {minPos}')
print(f'최소값 : {testArr[minPos]}')


최소값 인덱스 : 2
최소값 : 22


In [9]:
## 변수 선언
before = [188, 162, 168, 120, 50, 150, 177, 105]
after = []

# 메인 코드
print(f'정렬 전 -> {before}')

for _ in range(len(before)):    # 8번
    minPos = findMinIdx(before)
    after.append(before[minPos])
    del(before[minPos])

print(f'정렬 후 -> {after}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 데이터 교환에서 가장 중요한 swap
- 변수가 두 개 있을때 하나의 값을 다른 곳으로 할당하려면 임시변수가 필요

    ```python
    def swap(x, y):
        temp = x
        x = y
        y = temp

    ```

#### 변수 하나로 선택정렬

In [2]:
def sortSelection(arr):
    count = 0
    n = len(arr)
    for i in range(0, n-1):
        minIdx = i
        for j in range(i+1, n):
            if arr[minIdx] > arr[j]:
                minIdx = j
                count += 1

        temp = arr[i]
        arr[i] = arr[minIdx]
        arr[minIdx] = temp

        print(f'정렬 중 -> {arr}')
        count += 1

    print(f'중복처리 횟수 = {count}')
    return arr

dataArr = [188, 162, 168, 120, 50, 150, 177, 105]

print(f'정렬 전 -> {dataArr}')
dataArr = sortSelection(dataArr)
print(f'정렬 후 -> {dataArr}')


정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 -> [50, 162, 168, 120, 188, 150, 177, 105]
정렬 중 -> [50, 105, 168, 120, 188, 150, 177, 162]
정렬 중 -> [50, 105, 120, 168, 188, 150, 177, 162]
정렬 중 -> [50, 105, 120, 150, 188, 168, 177, 162]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
중복처리 횟수 = 16
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 삽입 정렬
- 기존 데이터 중에 자신의 위치를 찾아 데이터를 삽입하는 정렬 방식

- 삽입될 위치를 찾는 함수

In [12]:
def findIdxToInsert(arr, data):
    foundIdx = -1   # 배열의 인덱스 앞(인덱스 0보다 앞을 의미)
    for i in range(0, len(arr)):
        if arr[i] > data:
            foundIdx = i
            break
    
    if foundIdx == -1:  # 큰 값을 못찾음. 제일 마지막 위치
        return len(arr)
    else:
        return foundIdx

In [13]:
testArr = []
print(f'삽입위치 인덱스 : {findIdxToInsert(testArr, 55)}')

삽입위치 인덱스 : 0


In [14]:
testArr = [33, 77, 88]
print(f'삽입위치 인덱스 : {findIdxToInsert(testArr, 55)}')

삽입위치 인덱스 : 1


In [15]:
testArr = [33, 55, 77, 88]
print(f'삽입위치 인덱스 : {findIdxToInsert(testArr, 55)}')

삽입위치 인덱스 : 2


In [16]:
testArr = [33, 55, 77, 88]
print(f'삽입위치 인덱스 : {findIdxToInsert(testArr, 100)}')

삽입위치 인덱스 : 4


- 삽입정렬 구현

In [17]:
# 변수
before = [188, 162, 168, 120, 50, 150, 177, 105]
after  = []

# 메인 코드
print(f'정렬 전 -> {before}')
for i in range(len(before)):
    data = before[i]
    insPos = findIdxToInsert(after, data)
    after.insert(insPos, data)
    print(f'정렬 중 -> {after}')

print(f'정렬 후 -> {after}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 -> [188]
정렬 중 -> [162, 188]
정렬 중 -> [162, 168, 188]
정렬 중 -> [120, 162, 168, 188]
정렬 중 -> [50, 120, 162, 168, 188]
정렬 중 -> [50, 120, 150, 162, 168, 188]
정렬 중 -> [50, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


- 변수 하나로 삽입정렬

In [3]:
def sortInsertion(arr):
    count = 0
    n = len(arr)
    for end in range(1, n): # end -> 1.....n-1
        for cur in range(end, 0, -1):   # cur -> 거꾸로
            if arr[cur - 1] > arr[cur]:
                # temp = arr[cur]
                # arr[cur] = arr[cur - 1]
                # arr[cur - 1] = temp

                # temp 변수 만들지 않고 바로 변경할 수 있는 로직(파이썬에 존재)
                arr[cur - 1], arr[cur] = arr[cur], arr[cur - 1]
                count += 1
        print(f'정렬 중 -> {arr}')
        count += 1

    print(f'총 처리 횟수 => {count}')
    return arr

dataArr = [188, 162, 168, 120, 50, 150, 177, 105]

# 메인 코드
print(f'정렬 전 -> {dataArr}')
dataArr = sortInsertion(dataArr)
print(f'정렬 후 -> {dataArr}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 -> [162, 188, 168, 120, 50, 150, 177, 105]
정렬 중 -> [162, 168, 188, 120, 50, 150, 177, 105]
정렬 중 -> [120, 162, 168, 188, 50, 150, 177, 105]
정렬 중 -> [50, 120, 162, 168, 188, 150, 177, 105]
정렬 중 -> [50, 120, 150, 162, 168, 188, 177, 105]
정렬 중 -> [50, 120, 150, 162, 168, 177, 188, 105]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
총 처리 횟수 => 26
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 버블 정렬

- 앞뒤 데이터를 비교해서 큰 값을 뒤로 보내면서 정렬하는 방식
- 거품처럼 생겨서 버블 정렬 

In [24]:
import random

In [7]:
# 함수 정의
def sortBubble(arr):
    count = 0
    n = len(arr)
    for end in range(n-1, 0, -1):   # 거꾸로
        for cur in range(0, end):
            if arr[cur] > arr[cur + 1]:
                arr[cur], arr[cur + 1] = arr[cur + 1], arr[cur] # swap 기능을 포함
                count += 1

        print(f' 정렬 중 -> {arr}')
        count += 1

    print(f'총 처리 횟수 => {count}')
    return arr

# dataArr = [188, 162, 168, 120, 50, 150, 177, 105]
dataArr = [50, 105, 120, 188, 150, 162, 168, 177]

# dataArr = [random.randint(50, 190) for _ in range(random.randint(8, 20))]

print(f'## 정렬 전 ## -> {dataArr}')
dataArr = sortBubble(dataArr)
print(f'## 정렬 후 ## -> {dataArr}')

## 정렬 전 ## -> [50, 105, 120, 188, 150, 162, 168, 177]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
 정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
총 처리 횟수 => 11
## 정렬 후 ## -> [50, 105, 120, 150, 162, 168, 177, 188]


##### 버블 정렬 중
- 데이터가 거의 정렬이 되어 있는 상태고, 한 두개의 데이터만 제자리에 없는 경우 개선방법
- 한 사이클을 마쳤을 때 모두 정렬이 되면 더이상 반복문을 처리하지 않고 탈출

In [6]:
# 버블정렬 개선함수
def sortBubbleA(arr):
    count = 0
    n = len(arr)

    for end in range(n-1, 0, -1):
        changeYn = False
        for cur in range(0, end):
            if arr[cur] > arr[cur + 1]:
                arr[cur], arr[cur + 1] = arr[cur + 1], arr[cur]
                changeYn = True # 값이 바뀌었다
                count += 1

        print(f'정렬 중 -> {arr}')
        count += 1

        if not changeYn:
            break

    print(f'총 처리 횟수 => {count}')
    return arr

dataArr = [50, 105, 120, 188, 150, 162, 168, 177]

print(f'## 정렬 전 ## -> {dataArr}')
dataArr = sortBubbleA(dataArr)
print(f'## 정렬 후 ## -> {dataArr}')

## 정렬 전 ## -> [50, 105, 120, 188, 150, 162, 168, 177]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
총 처리 횟수 => 6
## 정렬 후 ## -> [50, 105, 120, 150, 162, 168, 177, 188]


- 다른 정렬은 데이터가 거의 정렬이 다 되어있어도 횟수만큼 동작 - $O(n^2)$
- 버블 정렬은 데이터가 거의 정렬되어 있으면 반복횟수를 줄일 수 있음 - $O(n)$

#### 퀵 정렬
- 전체 데이터에서 기준값을 잡고, 기준값보다 작은 값은 왼쪽 그룹으로, 큰 값은 오른쪽 그룹으로 나누는 작업을 반복해서 정렬

In [13]:
# 함수 정의
count = 0

def sortQuick(arr):
    global count
    n = len(arr)

    if n <= 1:  # 정렬할 리스트 갯수가 1개 이하면
        return arr
    
    pivot = arr[n // 2] # 중간값을 기준값으로 설정
    leftArr, rightArr = [], []

    for num in arr:
        # if num < pivot: # 기준값보다 작으면 왼쪽그룹
        #     leftArr.append(num)
        #     count += 1
        # elif num == pivot:  # 무한반복 탈출 코드. 이게 없으면 계속 오른쪽 그룹으로 추가되면서 RecurssionError 발생(데이터가 계속 늘어나기때문)
        #     continue
        # else:   # 오른쪽 그룹으로
        #     rightArr.append(num)
        #     count += 1

        # 또는
        if num < pivot: # 기준값보다 작으면 왼쪽그룹
            leftArr.append(num)
            count += 1
        elif num > pivot:  # 오른쪽 그룹으로
            rightArr.append(num)
            count += 1
    
    return sortQuick(leftArr) + [pivot] + sortQuick(rightArr)   # 재귀호출

# 변수
dataArr = [188, 162, 168, 120, 50, 150, 177, 105]
print(dataArr[len(dataArr) // 2])

# 메인코드
print(f'정렬 전 -> {dataArr}')
dataArr = sortQuick(dataArr)
print(f'정렬 후 -> {dataArr}')
print(f'처리 횟수 : {count}')

50
정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]
처리 횟수 : 19


- 중복값을 고려한 퀵 정렬

In [14]:
def sortQuickD(arr):
    n = len(arr)

    if n <= 1: return arr

    pivot = arr[n // 2]
    leftArr, midArr, rightArr = [], [], []

    for num in arr:
        if num < pivot:
            leftArr.append(num)
        elif num > pivot:
            rightArr.append(num)
        else:
            midArr.append(num)
    
    return sortQuickD(leftArr) + midArr + sortQuickD(rightArr)

# 변수
dataArr = [120, 120, 188, 150, 168, 50, 50, 162, 105, 120, 177, 50]

print(f'정렬 전 -> {dataArr}')
dataArr = sortQuickD(dataArr)
print(f'정렬 후 -> {dataArr}')

정렬 전 -> [120, 120, 188, 150, 168, 50, 50, 162, 105, 120, 177, 50]
정렬 후 -> [50, 50, 50, 105, 120, 120, 120, 150, 162, 168, 177, 188]


- 퀵정렬 일반 구현

In [19]:
count = 0

def sortQuickN(arr, start, end):
    global count
    if end <= start: return   # 재귀호출 종료 조건
        
    low = start; high = end # 시작점

    pivot = arr[(low + high) // 2]  # 리스트의 중간값을 기준값으로 할당
    while low <= high:
        while arr[low] < pivot:
            low += 1
        while arr[high] > pivot:
            high -= 1
        if low <= high:
            arr[low], arr[high] = arr[high], arr[low]
            low, high = low + 1, high - 1
            count += 1
            print(f'정렬 중 -> {arr}')

    # mid = low   # 모든 정렬을 한바퀴 돌면 low는 리스트 중간쯤 가있다

    sortQuickN(arr, start, low - 1) # 왼쪽 그룹 다시 정렬(재귀호출)
    sortQuickN(arr, low, end)   # 오른쪽 그룹 다시 정렬(재귀호출)

# 변수
dataArr = [188, 150, 168, 162, 105, 120, 177, 50]

# 메인
print(f'정렬 전 -> {dataArr}')
sortQuickN(dataArr, 0, len(dataArr)-1)
print(f'정렬 후 -> {dataArr}')
print(f'총 처리 횟수 : {count}')

정렬 전 -> [188, 150, 168, 162, 105, 120, 177, 50]
정렬 중 -> [50, 150, 168, 162, 105, 120, 177, 188]
정렬 중 -> [50, 150, 120, 162, 105, 168, 177, 188]
정렬 중 -> [50, 150, 120, 105, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 150, 162, 168, 177, 188]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]
총 처리 횟수 : 9


##### 퀵정렬
- 최악의 경우 $O(n^2)$이나, 평균적으로 $O(n log n)$ 연산수 갖는다
- 만약 n이 1,000,000(백만)개일 경우
    - 선택정렬, 삽입정렬 평균적으로 1,000,000,000,000(1조)번 처리해야함
    - 퀵정렬은 약 20,000,000(2천만) 처리 - 1/50000로 처리량 축소

#### 정렬 응용 예시
- 이진 탐색(Binary search)[이진 트리 사용] 검색 알고리즘에서 활용
- 데이터 분석 : 최소값, 최대값, 중앙값, 분위수 계산 시 사용
- 데이터베이스 SQL문 : ORDER BY 사용시 내림차순, 오름차순 시 사용
- 파일 정리, 로그 정리
- 그래픽 이미지 처리 : 이미지 픽셀 밝기 순 정렬, 히스토그램 생성
- 네트워크 패킷 처리
- AI 머신러닝: KNN 정렬 사용
- 쇼핑몰 : 가격별(저렴한 순, 비싼 순) 정렬