# 문28) 도수정렬이란? 구현방법

Counting Sort / Distribution counting sort  

원소의 대소관계를 비교하지 않고   

    (버블, 단순선택, 단순삽입, 셸, 퀵, 병합 정렬모두 원소의 대소관계 비교 작업을 한다)  

배열의 원소들의 도수분포표와 누적도수분포표를 만들어서 정렬을 한다.

도수 정렬을 하려면

    1. 배열의 길이를 알아야 하고
    2. 배열 원소의 최소값과 최대값을 알아야 한다
    
### 구현원리

1. 배열a의 원소값을 frequency distribution table을 만든다.
    1) 배열a의 최대값-최소값을 크기로 하는 배열(frequency distribution table)f_table을 만든다
    2) f_table의 각 인덱스는, a의 각 원소값에 해당한다.
    3) 따라서 f_table의 각 원소는, 배열a를 오름차순으로 정렬했을 때, a의 원소가 몇개 있는지를 나타낸다.
    
2. Cumulative frequency distribution table 을 만든다.

3. 배열 a와 table을 가지고, a를 오름차순 정렬한 배열b를 만든다.

    a의 원소로 f_table를 인덱싱했을때 나오는 값은, a를 오름차순 정렬했을 때, 해당 a의 원소가 몇번째에 위치하는지의 값과 같아진다.
    만약 해당 a의 원소가 a에 중복출현 하는 경우에는, a를 오름차순 정렬하면서 해당 a의 원소를 오름차순으로 중복나열했을 때 
    가장 마지막 번째 해당 a의 원소가 a에서 몇번째로 위치하는지의 값과 같다.
        f_table의 각 원소는 
        자신의 인덱스에 이르기까지 그앞에 몇개의 a원소들이 있었는지를 누적한 값에 
        자신의 인덱스에 해당하는 값이 출현한 횟수를 더한 값이기 때문이다.
            
            예를 들어
            a = [5, 7, 0, 2, 4, 10, 3, 1, 3]  
            f_table = [1, 2, 3, 5, 6, 7, 7, 8, 8, 8, 9] 에서

            f[3] 인 5 는 
            a[8] 인 3 
            a를 오름차순 정렬했을 때
            0,1,2,3까지의 값 사이에 배열 a의 원소가 5개 있다는 걸 의미한다.
            즉 배열 a 원소 3이, a를 오름차순 정렬했을시 5번째에 위치 한다는 걸 의미한다.
    
    따라서 이런 a에 원소값이 중복되어 있는 경우를 고려해서
    f_table[a[i]]를 인덱스로 했을 때 그값을 a[i]로 하기 전에
    f_table[a[i]]에서 -1을 해주면, for문을 돌면서 똑같은 a의 원소가 또 나올때, 이전의 위치 앞에 중복된 원소값을 넣을 수 있게 된다.
    
    이때 i를 배열 a의 마지막 원소의 인덱스부터 거꾸로 뽑는다.
    이렇게 안하면
    원래 배열 a에서 어떤 원소값이 중복 출현했을 때, 해당 중복원소값들의 출현순서가
    a를 오름차순 정렬했을 때 거꾸로 뒤집어지게 된다. 즉 불안정정렬이 된다.

In [9]:
from typing import MutableSequence

def fsort(a: MutableSequence) -> None:
    
    n = len(a)                          # 정렬할 배열 a
    f_table = [0] * (max(a)-min(a)+1)   # frequency distribution table 
    b = [0] * n                         # 작업용 배열 b
              
    for i in a:                         # [1단계] frequency distribution table 만들기
        f_table[i] += 1                  
   
    for i in range(1, len(f_table)):    # [2단계] cumulative frequency distribution table 만들기
        f_table[i] += f_table[i - 1] 
        
    for i in range(n - 1, -1, -1):      # [3단계]  배열 a와 table을 가지고, a를 오름차순 정렬한 배열b를 만든다
        f_table[a[i]] -= 1              # 배열a의 맨 끝에서부터 a의 원소값을 f의 인덱스로 하여 해당 위치의 값을 -1
        b[f_table[a[i]]] = a[i]         # 해당 위치의 값을 b의 인덱스로 하여, 
                                        # b의 원소가 배열a의 맨 끝에서부터 a의 원소값을 참조하도록 만든다   
        
    for i in range(n):              
        a[i] = b[i]                     # [4단계] a를 b에 참조시킨다.

    return a

In [10]:
a = [5, 7, 0, 2, 4, 10, 3, 1, 3]
fsort(a)

[0, 1, 2, 3, 3, 4, 5, 7, 10]

In [None]:
def counting_sort(data):
    count = {}
    result = []
    
    for num in data:
        count[num] = count.get(num, 0) + 1
        
    print(count)
    
    for num in range(min(data), max(data) + 1):
        while num in count and count[num] != 0:
            result.append(num)
            count[num] -= 1
    
    return result

lst = [170, 45, 75, 90, 802, 24, 2, 66]
counting_sort(lst)

In [None]:
두 정렬 함수, `fsort`와 `counting_sort`, 모두 카운팅 정렬 알고리즘을 구현하고 있습니다. 카운팅 정렬은 비교 기반 정렬 알고리즘과 다르게, 배열 내의 각 요소가 몇 번 등장하는지 세어서 정렬을 수행하는 방식입니다. 이 방식은 정수나 다른 작은 범위의 값을 가진 데이터에 효과적입니다. 각 함수의 구현을 비교해보겠습니다.

### `fsort` 함수
- **자료형**: `MutableSequence`를 인자로 받아, 그 자체를 수정합니다.
- **동작 과정**:
  1. 입력 배열 `a`의 각 요소의 빈도수를 세어 `f_table`이라는 빈도 분포 테이블에 기록합니다.
  2. `f_table`을 누적 빈도 분포 테이블로 변환합니다.
  3. 배열 `a`를 뒤에서부터 순회하면서 `f_table`을 참조하여 작업용 배열 `b`에 정렬된 데이터를 저장합니다.
  4. 최종적으로 배열 `a`를 업데이트하여 정렬을 완료합니다.
- **특징**: 이 함수는 추가 메모리를 사용하며, 원본 배열을 직접 수정합니다. `f_table`의 인덱스는 입력 배열 `a`의 값에서 최소값을 뺀 값으로 조정하여 메모리 사용을 최적화합니다.

### `counting_sort` 함수
- **자료형**: 일반적인 파이썬 리스트를 인자로 받아, 새로운 리스트에 정렬 결과를 저장합니다.
- **동작 과정**:
  1. 입력 데이터의 각 요소의 빈도수를 세어 `count`라는 딕셔너리에 기록합니다.
  2. 최소값에서 최대값까지의 범위를 순회하면서, `count` 딕셔너리를 참조해 해당 값이 존재하면 결과 리스트에 추가합니다.
- **특징**: 이 함수는 원본 데이터를 수정하지 않고, 정렬된 결과를 새로운 리스트로 반환합니다. `count` 딕셔너리를 사용하여 빈도수를 관리하기 때문에, 입력 데이터의 범위가 넓어도 메모리 사용량에 큰 영향을 주지 않습니다.

### 비교
- **메모리 사용**: `fsort`는 입력 배열의 최솟값과 최댓값 사이의 범위에 대한 배열을 생성하여 메모리를 사용하는 반면, `counting_sort`는 입력 데이터의 실제 값에 대한 빈도수를 저장하는 딕셔너리를 사용합니다. 이는 `counting_sort`가 더 다양한 값의 범위에 효율적으로 대응할 수 있음을 의미합니다.
- **원본 데이터의 수정**: `fsort`는 원본 배열을 직접 수정하는 in-place 정렬 방식을 사용하는 반면, `counting_sort`는 정렬된 결과를 새로운 리스트에 저장하여 반환합니다.
- **유연성과 활용성**: `counting_sort`는 딕셔너리를 사용하여 데이터의 빈도수를 관리하기 때문에, 비교적 유연하며 다양한 종류의 데이터에 적용할 수 있습니다. 반면, `fsort`는 정수 또는 작은 범위의 값에 대해 더 최적화되어 있습니다.

두 함수 모두 카운팅 정렬의 기본 원리를 활용하지만, 구현의 세부 사항과 메모리 사용 방식, 그리고 원본

 데이터에 대한 처리 방식에서 차이를 보입니다.