### <center>2018 Winter CS101.09</center>

# <center>排序算法</center>

##### <center>by tanzhuxiaqiu@huawei.com</center>

## 作业-05

- 3/19 19:00PM
- 简单讲解

## 回顾

1. 算法的时间复杂度，最坏时间、最好时间和平均时间
2. 时间复杂度的系数，常数和低阶
3. 内存消耗和稳定性

### 排序算法的分析要点

1. 排序数据的状态对算法影响很大，所以要熟悉排序算法的最坏、最好和平均时间复杂度；
2. 排序的数据规模有时候不大，所以需要更精细的把系数、常数和低阶等因素考虑进来；
3. 排序在内存中是否原地(in-place)完成，整个过程是否稳定(待排序的序列中值相等的元素在经过排序之后位置是否变化）。

## 今日议程

1. 冒泡排序、插入排序和选择排序
2. 归并排序和快速排序
3. 桶排序、计数排序和基数排序

## 冒泡排序(Bubble Sort)

1. 比较相邻的元素。如果第一个比第二个大，就交换他们两个。
2. 对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。
3. 针对所有的元素重复以上的步骤，除了最后一个。
4. 持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

![](img/9-1.gif)

### 冒泡排序的时间和空间复杂度


| | |
|---|---|
| Worst-case performance | $O(n^{2})$ comparisons, $O(n^{2})$ swaps |
| Best-case performance	| $O(n)$ comparisons, $O(1)$ swaps |
| Average performance | $O(n^{2})$ comparisons, $O(n^{2})$ swaps |
| Worst-case space complexity | $O(n)$ total, $O(1)$ auxiliary |

- 冒泡只涉及交换操作，是一个原地排序算法
- 冒泡排序只有两个元素不相等时才发生交换，所以是稳定的排序

In [None]:
def bubble_sort(data, sim=False):
    def swap(i, j):
        data[i], data[j] = data[j], data[i]

    iteration = 0
    if sim:
        print("== Bubble Sort ===")
        print("iteration", iteration, ":", *data)

    swapped = True
    p = -1
    while swapped:
        swapped = False
        p += 1
        for i in range(1, len(data) - p):
            if data[i - 1] > data[i]:
                swap(i - 1, i)
                swapped = True
                if sim:
                    iteration += 1
                    print("iteration", iteration, ":", *data)

    return data

In [None]:
import random
data = list(range(1, 10))
random.shuffle(data)
data

In [None]:
bubble_sort(data, True)

## 插入排序(Insertion Sort)

1. 从第一个元素开始，该元素可以认为已经被排序
2. 取出下一个元素，在已经排序的元素序列中从后向前扫描
3. 如果该元素（已排序）大于新元素，将该元素移到下一位置
4. 重复步骤3，直到找到已排序的元素小于或者等于新元素的位置
5. 将新元素插入到该位置后
6. 重复步骤2~5

![](img/9-2.gif)

### 插入排序的时间和空间复杂度

| | |
|---|---|
| Worst-case performance | $O(n^{2})$ comparisons, $O(n^{2})$ swaps |
| Best-case performance	| $O(n)$ comparisons, $O(1)$ swaps |
| Average performance | $O(n^{2})$ comparisons, $O(n^{2})$ swaps |
| Worst-case space complexity | $O(n)$ total, $O(1)$ auxiliary |

- 插入排序不需要额外的空间，是一个原地排序算法
- 插入排序对于相同两个元素可以将后出现的元素插入到前出现元素的后面，从而保证相对位置不变，所以是稳定的排序
- 数组插入一个元素的平均时间复杂度是O(n)，所以插入排序的平时间复杂度是$O(n^2)$

In [None]:
def insertion_sort(data, sim=False):
    iteration = 0
    if sim:
        print("== Insertion Sort ===")
        print("iteration", iteration, ":", *data)

    for i in range(len(data)):
        cur = data[i]
        pos = i

        while pos > 0 and data[pos - 1] > cur:
            data[pos] = data[pos - 1]
            pos = pos - 1
        data[pos] = cur

        if sim:
            iteration += 1
            print("iteration", iteration, ":", *data)

    return data


In [None]:
random.shuffle(data)
data

In [None]:
insertion_sort(data, True)

## 选择排序(Selection Sort)

1. 在未排序序列中找到最小（大）元素，存放到排序序列的起始位置
2. 再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾
3. 以此类推，直到所有元素均排序完毕

![](img/9-3.gif)

### 选择排序的时间和空间复杂度

| | |
|---|---|
| Worst-case performance | $O(n^{2})$ comparisons, $O(n)$ swaps |
| Best-case performance	| $O(n^2)$ comparisons, $O(n)$ swaps |
| Average performance | $O(n^{2})$ comparisons, $O(n)$ swaps |
| Worst-case space complexity | $O(n)$ total, $O(1)$ auxiliary |

- 选择排序是一个原地排序算法
- 选择排序是不稳定的排序
- 最好、最坏和平均时间复杂度都是$O(n^2)$

In [None]:
def selection_sort(data, sim=False):
    iteration = 0
    if sim:
        print("=== Selection Sort ===")
        print("iteration", iteration, ":", *data)

    for i in range(len(data)):
        minPos = i

        for j in range(i + 1, len(data)):
            if data[j] < data[minPos]:
                minPos = j

        data[minPos], data[i] = data[i], data[minPos]

        if sim:
            iteration += 1
            print("iteration", iteration, ":", *data)

    return data

In [None]:

random.shuffle(data)
selection_sort(data, True)

### 三种排序总结

- 时间复杂度都是$O(n^2)$，空间复杂度都是$O(1)$，但现实中使用会选择插入排序
- 实现的代码都很简单
- 适合小规模的数据排序(<1k)的场景

## 归并排序(Merge Sort)

#### 分治(Divide and Conquer)思想

- 分割：递归地把当前序列平均分割成两半
- 集成：在保持元素顺序的同时将上一步得到的子序列集成到一起（归并）

#### 递归法(Top-down):

1. 申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列
2. 设定两个指针，最初位置分别为两个已经排序序列的起始位置
3. 比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置
4. 重复步骤3直到某一指针到达序列尾
5. 将另一序列剩下的所有元素直接复制到合并序列尾

![](img/9-4.gif)

####  递归公式

>merge_sort(p…r) = merge(merge_sort(p, q), merge_sort(q+1, r))  
>终止条件：p >= r 

### 归并排序的时间和空间复杂度

| | |
|---|---|
| Worst-case performance | $O(n log n)$ |
| Best-case performance	| $O(n log n)$ |
| Average performance | $O(n log n)$ |
| Worst-case space complexity | $O(n)$ total with $O(n)$ auxiliary, $O(1)$ auxiliary with linked lists |

- 归并排序在归并时不改变相等元素的次序，所以归并是一个稳定的排序算法
- 最好、最坏和平均时间复杂度都是$O(n log n)$
- 如果是用类似数组结构进行归并，每次合并操作都需要申请额外的内存空间，但在合并完成之后，临时的空间会被回收，所以实际上额外的空间不会超过n，所以空间复杂度是$O(n)$

In [None]:
def merge_sort(data, sim=False):

    if len(data) <= 1:
        return data

    mid = len(data) // 2

    left, right = merge_sort(data[:mid]), merge_sort(data[mid:])
    return merge(left, right, data.copy(), sim)


def merge(left, right, merged, sim):

    left_cur, right_cur = 0, 0

    while left_cur < len(left) and right_cur < len(right):
        if left[left_cur] <= right[right_cur]:
            merged[left_cur + right_cur] = left[left_cur]
            left_cur += 1
        else:
            merged[left_cur + right_cur] = right[right_cur]
            right_cur += 1

    for left_cur in range(left_cur, len(left)):
        merged[left_cur + right_cur] = left[left_cur]

    for right_cur in range(right_cur, len(right)):
        merged[left_cur + right_cur] = right[right_cur]
    
    if sim:
        print(*merged)
    return merged


In [None]:
random.shuffle(data)
data

In [None]:
merge_sort(data, True)

## 快速排序(Quick Sort)

1. 从数列中挑出一个元素，称为“基准”（pivot）
2. 重新排序数列，所有比基准值小的元素摆放在基准前面，所有比基准值大的元素摆在基准后面（相同的数可以到任何一边）。在这个分割结束之后，该基准就处于数列的中间位置。这个称为分割（partition）操作
3. 递归地把小于基准值元素的子数列和大于基准值元素的子数列排序

![](img/9-5.gif)

####  递归公式

>quick_sort(p...r) = quick_sort(p...q-1) + quick_sort(q+1...r)  
>终止条件：p >= r 

### 快速排序的时间和空间复杂度

| | |
|---|---|
| Worst-case performance | $O(n^2)$ |
| Best-case performance	| $O(n log n)$ |
| Average performance | $O(n log n)$ |
| Worst-case space complexity | $O(n)$ auxiliary (naive) $O(log n)$ auxiliary (Sedgewick 1978) |

- 快速排序是一个原地排序算法
- 快速排序是不稳定的排序
- 一般来说时间复杂度是$O(n log n)$，极端情况下会退化成$O(n^2)$

In [None]:
def quick_sort(data, sim=False):
    iteration = 0
    if sim:
        print("== Quick Sort ===")
        print("iteration", iteration, ":", *data)
    data, _ = quick_sort_recur(data, 0, len(data) - 1, iteration, sim)
    return data


def quick_sort_recur(data, first, last, iteration, sim):
    if first < last:
        pos = partition(data, first, last)
        if sim:
            iteration += 1
            print("iteration", iteration, ":", *data)

        _, iteration = quick_sort_recur(data, first, pos - 1, iteration, sim)
        _, iteration = quick_sort_recur(data, pos + 1, last, iteration, sim)

    return data, iteration


def partition(data, first, last):
    pos = first
    for cur in range(first, last):
        if data[cur] < data[last]:  # last is the pivot
            data[cur], data[pos] = data[pos], data[cur]
            pos += 1
    data[pos], data[last] = data[last], data[pos]
    return pos

In [None]:
random.shuffle(data)
quick_sort(data, True)

### 思考题

> 如果想在O(n) 时间复杂度内从n个数中找出第k大的元素，可以用上面介绍的排序方法实现吗？应该用哪种排序方法？

## 线性排序(Linear Sort)

- 时间复杂度可以优化到O(n)
- 基于非比较的排序，尽量让元素间的不进行比较
- 只适用于一些特殊的场景，有前提条件(数据本身的特性）

## 桶排序(Bucket Sort)

> 思考：如何按年龄给100万用户排序？

- 将要排序的数据分到不同的“桶”中
- 对每个“桶”中的元素单独进行排序
- 最后把每个“桶”中的元素依次取出

![](img/9-6.png)

![](img/9-7.png)

### 桶排序的时间和空间复杂度

| | |
|---|---|
| Worst-case performance | $O(n^2)$ |
| Best-case performance	| $O(n+k)$ |
| Average performance | $O(n + {\frac {n^2} {k}} + k)$, where k is the number of buckets. |
| space complexity | $k O(n)$ |

- 桶排序不是一个原地排序算法(?)，常常用于大规模数据的外排序
- 桶排序的稳定性取决于桶内选择的排序算法
- 一般来说时间复杂度是$O(n + k)$，分好的桶要求有大小顺序，且分部比较均匀

In [None]:
def bucket_sort(data):

    bucket_num = len(data)
    buckets = [[] for _ in range(bucket_num)]

    for v in data:
        index = v * bucket_num // (max(data) + 1)
        buckets[index].append(v)

    sorted_data = []
    for i in range(bucket_num):
        sorted_data.extend(sorted(buckets[i]))
    return sorted_data

In [None]:
data = [random.randrange(1, 10000, 1) for _ in range(100)]
print(data)

In [None]:
print(bucket_sort(data))

## 计数排序(Counting Sort)

> 思考：如何根据高考成绩对某年的考生进行排序？

- 可以看成是通排序的一种特殊形式，划分桶时以排序数列中的最大值为基础来划分桶的个数
- 计数排序适合桶数量k不太大的场景，如果k远远大于排序的数n，则不适合用计数排序
- 计数排序适合非负整数的排序，如果是其它类型需要先转换成非负整数

![](img/9-8.gif)

![](img/9-9.png)

![](img/9-10.gif)

### 计数排序的时间和空间复杂度

| | |
|---|----|
| Worst-case performance | $O(n+k)$ |
| Best-case performance	| $O(n+k)$ |
| Average performance | $O(n+k)$ |
| space complexity | $ O(n+k)$ |

- 计数排序不是一个原地排序算法
- 计数排序是稳定的排序算法（因为无需做桶内排序）
- 时间和空间复杂度是$O(n + k)$

In [None]:
def counting_sort(data):
    k = max(data)
    temp = [0] * (k + 1)  # arr contain the number i appear counts in data

    for i in range(len(data)):
        temp[data[i]] = temp[data[i]] + 1

    for i in range(1, k + 1):
        temp[i] = temp[i - 1] + temp[i]

    sorted_data = data.copy()
    # for i in range(len(data) - 1, -1, -1):
    for i in range(len(data)):
        sorted_data[temp[data[i]] - 1] = data[i]
        temp[data[i]] -= 1

    return sorted_data

In [None]:
data = [random.randrange(0, 10, 1) for _ in range(100)]
print(data)

In [None]:
print(counting_sort(data))

## 基数排序(Radix Sort)

> 思考：如何按手机号给100万用户排序？

- 把带排序的数分割成独立的“位”来进行排序
- 用稳定的排序方法进行比较，如果数“位”的范围不大最好用线性排序(桶排序或计数排序)的方法

![](img/9-11.png)

### 计数排序的时间和空间复杂度

| | |
|---|----|
| Worst-case performance | $O(nk)$ |
| Best-case performance	| $O(nk)$ |
| Average performance | $O(nk)$ |
| space complexity | $ O(n+k)$ |

- 计数排序是否稳定，是否是原地排序都取决于“位”比较时采用哪种排序算法
- 如果“位”排序时采用线性排序，时间复杂度可以优化到$O(k n)$

In [None]:
def radix_sort(data, simulation=False):
    position = 1
    max_number = max(data)

    iteration = 0
    if simulation:
        print("=== Radix Sort ===")
        print("iteration", iteration, ":", *data)

    while position < max_number:
        queue_list = [list() for _ in range(10)]

        for num in data:
            digit_number = num // position % 10
            queue_list[digit_number].append(num)

        index = 0
        for numbers in queue_list:
            for num in numbers:
                data[index] = num
                index += 1

        if simulation:
            iteration = iteration + 1
            print("iteration", iteration, ":", *data)

        position *= 10
    return data

In [None]:
data = [random.randrange(10**4, 10**5, 1) for _ in range(10)]
radix_sort(data, True)

## 总结

- 了解每个排序算法的优缺点，熟记它们的时间和空间复杂度
- 使用排序算法时需要结合实际的场景，不能生搬硬套
- 多了解编程语言的排序算法库，不要重复发明“轮子”

# Any Questions?