### 정렬(Sort)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8e/Merge_sort_animation.gif/220px-Merge_sort_animation.gif" width="400">

- 여러 데이터를 작은 값부터 큰 값으로 또는 큰 값부터 작은 값으로 순서에 맞게 정리하는 것
    - 오름차순(Ascending sort)
    - 내림차순(Descending sort)

<!-- 표만들때 :--(왼쪽정렬) --:(오른쪽정렬) :--:(중앙정렬)-->
|종류|평균|최선|최악|
|:--|:--:|--:|:--|
|선택정렬|$O(n^2)$|$O(n^2)$|$O(n^2)$|
|삽입|$O(n^2)$|$O(n^2)$|$O(n^2)$|
|버블|$O(n^2)$|$O(n)$|$O(n^2)$|
|합병|$O(n log n)$|$O(n log n)$|$O(n log n)$|
|퀵|$O(n log n)$|$O(n log n)$|$O(n^2)$|
|힙|$O(n log n)$|$O(n log n)$|$O(n log n)$|
|쉘|$O(n^{1.25})$|$O(n^{1.25})$|$O(n^{1.25})$|
|기수|$O(dn)$|$O(dn)$|$O(dn)$|

#### 선택정렬

- 여러 데이터 중 가장 작은 값을 뽑는 과정을 반복하여 정렬

In [None]:
def findMindIdx(ary):
    minIdx = 0 # 배열의 첫 번째값(0번째) 최솟값이라고 가정
    for i in range(1, len(ary)): # 배열의 두 번째 (1번째)부터 마지막까지 반복
        if ary[minIdx] > ary[i]: # 배열의 i번째 값과 현재 최솟값 비교 -> 배열의 i번째 값 < 현재 최솟값 => i를 현재 최솟갑 위치로 지정
            minIdx = i 

    return minIdx # 찾아낸 배열의 최솟값 위치 반환

In [3]:
testAry = [55, 88, 22, 33, 77]
minPos = findMindIdx(testAry)

print(f'최소값 인덱스 : {minPos}')
print(f'최소값 : {testAry[minPos]}')

최소값 인덱스 : 2
최소값 : 22


In [None]:
## 변수 선언
#[('아빠', 188), ('할머니', 162), ..., ('동생', 105)]
before = [188, 162, 168, 120, 50, 150, 177, 105]
after = []

## 메인 코드
print(f'정렬 전 -> {before}')

for _ in range(len(before)): # 8번 (배열의 전체 개수만큼 반복)
    minPos = findMindIdx(before) # before에서 최솟값 위치 찾고
    after.append(before[minPos]) # after의 맨 뒤에 추가
    del(before[minPos]) # after에 넣은 값을 before 에서 제거

print(f'정렬 후 -> {after}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 데이터 교환에서 가장 중요한 swap
- 변수가 두 개 있을때 하나의 값을 다른 곳으로 할당할려면 임시 변수가 필요

    ```python
    def swap(x, y):
        temp = x
        x = y
        y = temp
    ```

#### 변수 하나로 선택정렬

In [None]:
def sortSelection(ary):
    n = len(ary) # 배열의 길이 받기
    for i in range(0, n-1):
        minIdx = i # 맨 앞 데이터를 최솟값 위치로 지정
        for j in range(i+1, n): # 각 사이클의 두 번째 값부터 최솟값과 비교
            if ary[minIdx] > ary[j]:
                minIdx = j

        tmp = ary[i] # 첫 번째 값과 찾은 최솟값 교환
        ary[i] = ary[minIdx]
        ary[minIdx] = tmp

        print(f'정렬 중 => {ary}')
    
    return ary

dataAry = [188, 162, 168, 120, 50, 150, 177, 105]

print(f'정렬 전 -> {dataAry}')
dataAry = sortSelection(dataAry)
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 => [50, 162, 168, 120, 188, 150, 177, 105]
정렬 중 => [50, 105, 168, 120, 188, 150, 177, 162]
정렬 중 => [50, 105, 120, 168, 188, 150, 177, 162]
정렬 중 => [50, 105, 120, 150, 188, 168, 177, 162]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 삽입 정렬
- 기존 데이터 중에 자신의 위치를 찾아 데이터를 삽입하는 정렬 방식

- 삽입될 위치를 찾는 함수

In [None]:
def findInsertIdx(ary, data): # ary - 정렬된 배열 / data - 삽입할 데이터
    findIdx = -1 # 초깃값-> 없는 위치로 (배열의 인덱스 0보다 앞)
    for i in range(0, len(ary)):
        if ary[i] > data: # 데이터보다 작으면 앞에 삽입
            findIdx = i
            break
    
    if findIdx == -1: # 큰 값을 못 찾음 -> 제일 마지막 위치
        return len(ary)
    else:
        return findIdx


In [22]:
testAry = []
print(f'삽입할 위치 -> {findInsertIdx(testAry, 55)}')

삽입할 위치 -> 0


In [16]:
testAry = [33, 77, 88]
print(f'삽입할 위치 -> {findInsertIdx(testAry, 55)}')

삽입할 위치 -> 1


In [17]:
testAry =  [33, 55, 77, 88]
print(f'삽입할 위치 -> {findInsertIdx(testAry, 100)}')

삽입할 위치 -> 4


- 삽입 정렬 구현

In [18]:
# 변수
before = [188, 162, 168, 120, 50, 150, 177, 105]
after = []

# 메인코드
print(f'정렬 전 -> {before}')
for i in range(len(before)):
    data = before[i]
    insPos = findInsertIdx(after, data)
    after.insert(insPos, data)
    print(f'정렬 중 => {after}')

print(f'정렬 후 -> {after}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 => [188]
정렬 중 => [162, 188]
정렬 중 => [162, 168, 188]
정렬 중 => [120, 162, 168, 188]
정렬 중 => [50, 120, 162, 168, 188]
정렬 중 => [50, 120, 150, 162, 168, 188]
정렬 중 => [50, 120, 150, 162, 168, 177, 188]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


- 변수 하나로 삽입 정렬

In [4]:
def sortInsertion(ary):
    n = len(ary)
    for end in range(1, n): # end -> 1.... n-1
        for cur in range(end, 0, -1): # cur -> 거꾸로
            if ary[cur - 1] > ary[cur]:
                # tmp = ary[cur]
                # ary[cur] = ary[cur - 1]
                # ary[cur - 1] = tmp
                # tmp 변수 만들지 않고 바로 변경 가능할 로직(파이썬에 존재)
                ary[cur - 1], ary[cur] = ary[cur], ary[cur - 1]

        print(f'정렬 중 => {ary}')
    
    return ary

dataAry = [188, 162, 168, 120, 50, 150, 177, 105]

# 메인코드
print(f'정렬 전 -> {dataAry}')
dataAry = sortInsertion(dataAry)
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
정렬 중 => [162, 188, 168, 120, 50, 150, 177, 105]
정렬 중 => [162, 168, 188, 120, 50, 150, 177, 105]
정렬 중 => [120, 162, 168, 188, 50, 150, 177, 105]
정렬 중 => [50, 120, 162, 168, 188, 150, 177, 105]
정렬 중 => [50, 120, 150, 162, 168, 188, 177, 105]
정렬 중 => [50, 120, 150, 162, 168, 177, 188, 105]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
총 처리 횟수 : 26
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


#### 버블 정렬

- 앞 뒤 데이터를 비교해서 큰 값을 뒤로 보내면서 정렬하는 방식 (뒤에서부터 고정됨)
- 정렬하는 모양이 거품처럼 생김

In [6]:
import random

In [7]:
# 함수 정의
def sortBubble(ary):
    n = len(ary)
    for end in range(n-1, 0, -1):
        for cur in range(0, end):
            if (ary[cur] > ary[cur+1]):
                ary[cur], ary[cur+1] = ary[cur+1], ary[cur]
        
        print(f'정렬 중 => {ary}')
    
    return ary

# dataAry = [188, 162, 168, 120, 50, 150, 177, 105]
dataAry = [random.randint(50, 190) for _ in range(random.randint(8, 20))]
# dataAry = [50, 105, 120, 188, 150, 162, 168, 177]


print(f'정렬 전 -> {dataAry}')
dataAry = sortBubble(dataAry)
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [167, 56, 93, 90, 92, 102, 128, 94, 180, 112, 146, 188, 175, 139, 71, 103, 78, 166]
정렬 중 => [56, 93, 90, 92, 102, 128, 94, 167, 112, 146, 180, 175, 139, 71, 103, 78, 166, 188]
정렬 중 => [56, 90, 92, 93, 102, 94, 128, 112, 146, 167, 175, 139, 71, 103, 78, 166, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 112, 128, 146, 167, 139, 71, 103, 78, 166, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 112, 128, 146, 139, 71, 103, 78, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 112, 128, 139, 71, 103, 78, 146, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 112, 128, 71, 103, 78, 139, 146, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 112, 71, 103, 78, 128, 139, 146, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 102, 71, 103, 78, 112, 128, 139, 146, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 94, 71, 102, 78, 103, 112, 128, 139, 146, 166, 167, 175, 180, 188]
정렬 중 => [56, 90, 92, 93, 71, 94, 78, 102, 103, 112, 128, 139, 146, 166, 167, 175

##### 버블 정렬 중
- 데이터가 거의 정렬이 되고, 한 두 개의 데이터가 튀었을 때 개선 방법
- 한 사이클을 마쳤을 때 모두 정렬이 되면 더 이상 반복문을 처리하지 않고 빠져나감

In [None]:
## 버블소트 개선함수
def sortBubbleA(ary):
    n = len(ary)

    for end in range(n-1, 0, -1):
        changYN = False
        # print(f'# 사이클 -> {ary}')
        for cur in range(0, end):
            if ary[cur] > ary[cur + 1]:
                ary[cur], ary[cur+1] = ary[cur+1], ary[cur]
                changYN = True

        print(f'정렬 중 => {ary}')

        if not changYN:
            break
    return ary

# 전역 변수
dataAry = [50, 105, 120, 188, 150, 162, 168, 177]

print(f'정렬 전 -> {dataAry}')
dataAry = sortBubbleA(dataAry)
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [50, 105, 120, 188, 150, 162, 168, 177]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 중 => [50, 105, 120, 150, 162, 168, 177, 188]
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


- 다른 정렬은 데이터가 거의 정렬이 다 되어 있어도 횟수만큼 동작 $O(n^2)$
- 버블 정렬은 데이터가 거의 정렬되어있으면 반복획수를 줄일 수 있음 $O(n)$

#### 퀵 정렬
- 전체 데이터에서 기준값을 잡고, 기준값보다 작은 값은 왼쪽 그룹으로, 큰 값은 오른쪽 그룹으로 나누어 작업을 반복해서 정렬

In [15]:
# 함수정의
count = 0

def sortQuick(ary):
    global count

    n = len(ary)
    if n <= 1: # 정렬할 리스트 개수가 1개 이하면
        return ary
    
    pivot = ary[n // 2] # 중간값을 기준값으로 설정
    leftAry, rightAry = [], []

    for num in ary:
        if num < pivot: # 기준값보다 작으면 왼쪽 그룹
            leftAry.append(num)
            count += 1
        elif num > pivot: # 오른쪽 그룹으로
            rightAry.append(num)
            count += 1

    return sortQuick(leftAry) + [pivot] + sortQuick(rightAry) # 재귀호출

# 변수
dataAry = [188, 150, 168, 162, 105, 120, 177, 50]

# 메인코드
print(f'정렬 전 -> {dataAry}')
dataAry = sortQuick(dataAry)
print(f'처리 횟수 {count}')
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [188, 162, 168, 120, 50, 150, 177, 105]
처리 횟수 19
정렬 후 -> [50, 105, 120, 150, 162, 168, 177, 188]


- 중복값을 고려한 퀵 정렬

In [17]:
def sortQuickD(ary):
    n = len(ary)
    if n <= 1: 
        return ary
    pivot = ary[n // 2]
    leftAry, midAry, rightAry = [], [], []

    for num in ary:
        if num < pivot:
            leftAry.append(num)
        elif num > pivot:
            rightAry.append(num)
        else:
            midAry.append(num)
    
    return sortQuickD(leftAry) + midAry + sortQuickD(rightAry)

# 변수
dataAry =[120, 120, 188, 150, 168, 50, 50, 162, 105, 120, 177, 50]

print(f'정렬 전 -> {dataAry}')
dataAry = sortQuickD(dataAry)
print(f'정렬 후 -> {dataAry}')


정렬 전 -> [120, 120, 188, 150, 168, 50, 50, 162, 105, 120, 177, 50]
정렬 후 -> [50, 50, 50, 105, 120, 120, 120, 150, 162, 168, 177, 188]


- 퀵정렬 일반 구현

In [23]:
count = 0
def sortQuickN(ary, start, end):
    global count
    if end <= start: return # 재귀호출 종료 조건
    
    # 시작점
    low = start
    high = end 

    pivot = ary[(low + high) // 2] # 리스트 중간값을 기준값으로
    while low <= high:
        while ary[low] < pivot:
            low += 1
        while ary[high] > pivot:
            high -= 1
        if low <= high:
            ary[low], ary[high] = ary[high], ary[low] # swap
            low, high = low + 1, high - 1
            count += 1
            print(f'정렬 중 -> {ary}')

    mid = low # 모든 정렬을 한바퀴 돌면 low는 리스트 중간쯤 가있음

    sortQuickN(ary, start, mid -1) # 왼쪽 그룹 다시 정렬 (재귀호출)
    sortQuickN(ary, mid, end) # 오른쪽 그룹 다시 정렬 (재귀호출)

# def quickSort(ary):
#     sortQuickN(ary, 0, len(ary)-1)

# 변수
dataAry = [188, 140, 168, 162, 105, 120, 177, 50]

# 메인
print(f'정렬 전 -> {dataAry}')
sortQuickN(dataAry, 0, len(dataAry)-1)
print(f'총 처리 횟수 => {count}')
print(f'정렬 후 -> {dataAry}')

정렬 전 -> [188, 140, 168, 162, 105, 120, 177, 50]
정렬 중 -> [50, 140, 168, 162, 105, 120, 177, 188]
정렬 중 -> [50, 140, 120, 162, 105, 168, 177, 188]
정렬 중 -> [50, 140, 120, 105, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
정렬 중 -> [50, 105, 120, 140, 162, 168, 177, 188]
총 처리 횟수 => 9
정렬 후 -> [50, 105, 120, 140, 162, 168, 177, 188]


##### 퀵정렬
- 최악의 경우는 $O(n^2)$ 이나, 평균적으로 $O(n log n)$ 연산수 가짐
- 만약 n이 100만개 일 경우
    - 선택 정렬, 삽입 정렬 1,000,000,000(1조) 번 처리해야 함
    - 퀵정렬은 약 2,000만 번 처리 (1/5로 처리양 축소)

#### 정렬 응용 예
- 이진 탐색(Binary search)[이진 트리 사용] - 검색 알고리즘에서 활용
- 데이터 분석 : 최소값, 최대값, 중앙값, 분위수 계산시 사용
- 데이터베이스 SQL문 : ORDER BY 사용시 내림차순, 오른차순 사용
- 파일 정리, 로그 정리
- 그래픽 이미지 처리 : 이미지 픽셀 밝기 순 정렬, 히스토그램 생성
- 네트워크 패킷 처리
- 인공지능 머신러닝 : KNN 정렬 사용
- 쇼핑몰 : 가격별(저렴한 순, 비싼 순) 정렬