# 排序算法

## 插入排序

插入排序是一类排序算法的总称，其中心思想是将一个元素插入已经排序完成的序列中，达到总体的有序。

* ### 直接插入排序

直接插入排序就是单纯地将一个元素插入到一个有序序列中。

In [5]:
def insertSort(lst):
    for i in range(1, len(lst)):
        num = lst[i]
        j = i - 1
        while j >=0 and num <= lst[j]:
            lst[j + 1] = lst[j]
            j -= 1
        lst[j + 1] = num
a = [4,0,2,3,1]
insertSort(a)
print(a)

[0, 1, 2, 3, 4]


这种排序算法的思想就是：从待排序数组的第一个元素开始向后扫描，对于每一个元素均扫描其前面的所有元素。例如对于索引为`1`的元素，算法会扫描前面的第`0`个元素，并比较其大小，视排序算法为升序还是降序来决定是否要交换其位置，这样经过第一轮排序之后数组的前两个元素就变得有序了。接着再扫描索引为`2`的元素，并依次比较它和前面两个元素的大小，通过交换位置的方式使前三个元素都变得有序，以此类推，直到整个序列变得有序。

## 交换排序

* ### 冒泡排序

这种是最基本的排序方法，非常简单：

In [7]:
def popSort(lst):
    while True:
        flag = True
        for i in range(0, len(lst) - 1):
            if lst[i] < lst[i + 1]:
                tmp = lst[i]
                lst[i] = lst[i + 1]
                lst[i + 1] = tmp
                flag = False
        if flag:
            break
a = [4,0,2,3,1]
popSort(a)
a

[4, 3, 2, 1, 0]

* ### 快速排序

这是一种非常重要的排序算法，它的中心思想就是在无序的序列中找到一个值，然后通过一系列交换措施将比这个值大的序列元素放到该值的一侧，比这个值小的元素放到该值的另一侧，然后再把这个值两侧的子序列分别进行相同的处理，直到总的序列排序完成。通常情况下，其遵循这样的操作流程：

1. 分别定义两个指针`low`和`high`指向序列的头部和尾部，并且将`low`指针指向的元素定义为分界点的值`tag`。

2. 首先将`high`向前移动，直到找到第一个比`tag`小的元素（根据是升序排序还是降序排序而异）然后把这个位置的值赋给`low`指针指向的元素。

3. 然后再将`low`指针向后移动，直到找到第一个比`tag`大的元素，然后将这个值赋给`high`指针指向的元素。

4. 一直重复`2`和`3`步骤，直到`low`和`high`指针在某一个元素上相遇，则把这个元素的值变为`tag`。随后以这个值为分界点将原序列分成两个子序列再运行步骤`1`，直到新的子序列长度为一或者`low`和`high`指针重合。

In [6]:
def quickSort(lst, low, high):
    if low >= high:
        return
    tmp = lst[low]
    i = low
    j = high
    while i < j:
        while lst[j] >= tmp and i != j:
            j -= 1
        if i != j:
            lst[i] = lst[j]
        while a[i] <= tmp and i != j:
            i += 1
        if i != j:
            lst[j] = lst[i]
        if i == j:
            lst[i] = tmp
            break
    quickSort(lst, low, i - 1)
    quickSort(lst, i + 1, high)
a = ['a','D','g','T','s','p']
quickSort(a, 0, len(a) - 1)
a

['D', 'T', 'a', 'g', 'p', 's']

## 选择排序

这种排序方式的思想很简单，将一个长度为`n`的序列划分为`n`趟排序，第`i`趟排序时要找到其后$n-i-1（i=1,2,3,...,n-1）$个元素中最小（或最大）的那个将其和第`i`个元素交换，当指针`i`扫描到序列末尾时排序就结束了。

* ### 简单选择排序

这种排序算法就是选择排序算法思想的直接实现：

In [8]:
def selectSort(lst):
    for i in range(0, len(lst) - 1):
        min = i
        for j in range(i + 1, len(lst)):
            if lst[j] < lst[min]:
                min = j
        if i != min:
            tmp = lst[min]
            lst[min] = lst[i]
            lst[i] = tmp
a = [4,0,1,6,4]
selectSort(a)
a

[0, 1, 4, 4, 6]

* ### 堆排序

堆排序是一种树形排序方法，它的特点是将`L[1...n]`视为一棵完全二叉树的顺序存储结构，利用完全二叉树中双亲节点和孩子节点之间的内在联系，在当前区中选择关键字最大（最小）的元素。首先要对“堆”进行定义：

* $L(i) \leq L(2i)$且$L(i) \leq L(2i+1)$

或

* $L(i) \geq L(2i)$且$L(i) \geq L(2i+1)$

堆排序的关键是构造初始堆，对初始序列建堆，就是一个反复筛选的过程。n个节点的完全二叉树，最后一个节点是第$\frac{n}{2}$个节点的孩子。对第$\frac{n}{2}$个节点为根的子树筛选（要使根节点的关键字值大于其两个孩子的关键字值），使该子树成为堆。之后向前依次对各节点为树根的子树进行相同的操作。反复利用上述方法直到整个序列变成堆。下面是大根堆的构建方法：

In [51]:
def heapSort(lst):
    return_mat = []
    while True:
        buildMaxHeap(lst)
        return_mat.append(lst[0])
        lst = lst[1:]
        if len(lst) == 0:
            break
    return return_mat
def buildMaxHeap(lst):
    for i in range(len(lst) // 2, 0, -1):
        adjustDown(lst, i)
def adjustDown(A, k):
    tmp = A[k - 1]
    i = k * 2
    while i <= len(A):
        if i < len(A) and A[i - 1] > A[i]:
            i += 1
        if tmp > A[i - 1]:
            A[k - 1] = A[i - 1]
            k = i
        else:
            break
        i *= 2
    A[k - 1] = tmp
a=[2,1,4,3,9,5,8,6,7]
buildMaxHeap(a)
print(a)
heapSort(a)

[1, 2, 4, 3, 9, 5, 8, 6, 7]


[1, 2, 3, 4, 5, 6, 7, 8, 9]

构建完成大根堆（小根堆）后，序列的最大值（最小值）就在树的根，则取出树根然后将新的序列继续生成大根堆（小根堆）得到子序列的最大（最小）值，这样就能够得到一个新的序列。

## 归并排序

* ### 二路归并算法

“归并”的含义是将两个或两个以上的有序表组合成一个新的有序表。假定待排序表含有n个记录，则可以视为n个有序的子表，每个子表长度为1，然后两两归并，得到$\frac{n}{2}$个长度为2或1的有序表；再两两归并，...如此重复，直到合成一个长度为n的有序表为止。

In [3]:
def mergeSort(lst, low, high):
    if low < high:
        mid = (low + high) // 2
        mergeSort(lst, low, mid)
        mergeSort(lst, mid + 1, high)
        merge(lst, low, mid, high)
def merge(lst, low, mid, high):
    b = []
    for i in range(low, high + 1):
        b.append(lst[i])
    i = low
    j = mid + 1
    k = low
    while i <= mid and j <= high:
        if b[i - low] < b [j - low]:
            lst[k] = b[i - low]
            i += 1
        else:
            lst[k] = b[j - low]
            j += 1
        k += 1
    while i <= mid:
        lst[k] = b[i - low]
        k += 1
        i += 1
    while j <= high:
        lst[k] = b[j - low]
        j += 1
        k += 1
a = [49,38,65,97,76,13,27]
mergeSort(a, 0, len(a) - 1)
a           

[13, 27, 38, 49, 65, 76, 97]

上面的二路归并排序需要一个辅助数组，在函数`merge`中接受三个参数`low`，`mid`以及`high`。其中，`low`和`high`将原序列划分成一个子序列，而`mid`又将子序列划分为两个部分，这两个部分分别是有序的。当进行归并排序时首先将原序列的以`low`和`high`划分的子序列进行备份，备份序列命名为`b`。然后分别定义两个指针分别指向`b`的开头和`mid - low + 1`（之所以要减去`low`是因为辅助数组`b`是从0开始索引的，但是子序列却是从`low`开始索引的，而`low`并不一定是0）位置，由于以`mid`划分的两个子序列分别是有序的，因此就可以将辅助数组两个子序列归并成一个大的有序序列存储在原序列中。程序最后的两个`while`循环是为了将辅助数组中没有扫描到的元素也添加到原序列中。

* ### 多路归并

多路归并和二路归并的算法是大同小异的，在这里就不再赘述了。

# 各种排序算法的时间及空间复杂度

各种排序算法的性质见下表：

<table cellspace="0" cellpadding="0">
    <tr>
        <td rowspan="2">算法种类</td>
        <td rowspan=1 colspan=3>时间复杂度</td>
        <td rowspan=2>空间复杂度</td>
        <td rowspan=2>是否稳定</td>
    </tr>
    <tr>
        <td rowspan=1 colspan=1>最好情况</td>
        <td rowspan=1>平均情况</td>
        <td rowspan=1>最坏情况</td>
    </tr>
    <tr>
        <td>直接插入排序</td>
        <td>$$O(n)$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(1)$$</td>
        <td>是</td>
    </tr>
    <tr>
        <td>冒泡排序</td>
        <td>$$O(n)$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(1)$$</td>
        <td>是</td>
    </tr>
    <tr>
        <td>简单选择排序</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(1)$$</td>
        <td>否</td>
    </tr>
    <tr>
        <td>希尔排序</td>
        <td>-</td>
        <td>-</td>
        <td>-</td>
        <td>$$O(1)$$</td>
        <td>否</td>
    </tr>
    <tr>
        <td>快速排序</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(n^{2})$$</td>
        <td>$$O(log_{2}n)$$</td>
        <td>否</td>
    </tr>
    <tr>
        <td>堆排序</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(1)$$</td>
        <td>否</td>
    </tr>
    <tr>
        <td>二路归并排序</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(nlog_{2}n)$$</td>
        <td>$$O(n)$$</td>
        <td>是</td>
    </tr>
    <tr>
        <td>基数排序</td>
        <td>$$O(d(n+r))$$</td>
        <td>$$O(d(n+r))$$</td>
        <td>$$O(d(n+r))$$</td>
        <td>$$O(r)$$</td>
        <td>是</td>
    </tr>
</table>