In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## 1. 排序算法

Sorting algorithm，将一串数据按照某种顺序排列的算法。

### 1.0 排序算法的稳定性

**稳定排序算法会让原本有相等键值的纪录维持相对次序**.

如: `(4, 1) (3, 1) (3, 2)`  
稳定排序: `(3, 1) (3, 2) (4, 1)`  
不稳定排序: `(3, 2) (3, 1) (4, 1)`

### 1.1 冒泡排序

Bubble sort: 重复遍历数组，依次比较两个元素，按照升序或者降序交换它们。  
下面均默认为升序排序。

#### 1.1.1 算法流程
升序为例:  
1. 比较相邻元素，如果第一个大于第二个，则交换；
2. 对每一对相邻元素进行一遍，完成后会将最大的元素放至数组末尾；
3. 重复以上过程，对上步中末尾已经放至的元素跳过；
4. 持续每次对越来越少的元素重复上面过程(每次代比较元素减一)，直到只剩一个。

#### 1.1.2 分析与实现

分析：  
1. `*1, 5*, 6, 4` -> `1, *5, 6*, 4` -> `1, 5, *4, 6*` : `1, 5, 4, '6'`
2. `*1, 5*, 4, '6'` -> `1, *5, 4*, '6'` : `1, 4, '5, 6'`
3. `*1, 4*, '5, 6'` : `1, '4, 5, 6'`

需要两层循环，第一层循环 n-1 次，循环变量 ii 从 n-1 至 1 每次少一，  
第二层循环 ii 次，循环变量 jj, 每次比较 jj 和 jj+1

In [3]:
def bubbleSort(alist: list) -> list:
    for sortNum in range(len(alist) - 1, 0, -1):
        for pos in range(sortNum):
            if alist[pos] > alist[pos + 1]:
                alist[pos], alist[pos + 1] = alist[pos + 1], alist[pos]
    return alist


testLis = [1, 4, 8, 2, 0]
bubbleSort(testLis)


[0, 1, 2, 4, 8]

#### 1.1.3 时间复杂度

需要交换次数为等差数列: $n-1, n-2, n-3, ..., 1$，总次数为 $\frac{n(n-1)}{2}$，时间复杂度 O(n^2)  
在下面优化版冒泡-短冒泡排序下，最好时间复杂度 O(n) (遍历一次发现列表已排序就终止)，最坏是 O(n^2)

#### 1.1.4 冒泡优化-短冒泡

短冒泡排序：遍历期间判断列表有没有交换，如果没有交换就停止排序算法

In [2]:
def shortBubble(alist: list) -> list:
    exchanged = True
    for sortNum in range(len(alist) - 1, 0, -1):
        exchanged = False
        for pos in range(sortNum):
            if alist[pos] > alist[pos + 1]:
                alist[pos], alist[pos + 1] = alist[pos + 1], alist[pos]
                exchanged = True
        if not exchanged:
            print('sorted list, terminate.')
            break
    return alist


testLis = [1, 4, 8, 2, 0]
shortBubble(testLis)
testLis = [1, 2, 3]
shortBubble(testLis)
testLis = [2, 1, 3]
shortBubble(testLis)

[0, 1, 2, 4, 8]

sorted list, terminate.


[1, 2, 3]

sorted list, terminate.


[1, 2, 3]

### 1.2 选择排序

Selection sort: 选择最小（或最大）与序列首位元素交换，然后重复选择与已排序序列末尾元素交换。不稳定排序

相比冒泡排序，选择排序的优点是减少了元素交换次数，其元素交换次数最差为 `n-1`

#### 1.2.1 算法流程

升序（最小元素放置首位）:
1. 遍历元素，找出最小元素
2. 最小元素与当前位置元素交换
3. 当前位置移动到下一位置，重复过程

#### 1.2.2 分析与实现

分析：  
1. `1, 5, 6, 4` 从第一个开始寻找最小值，发现为 1，已经在首位，无须交换: `'1', 5, 4, 6`
2. `'1', 5, 4, 6` 从第二个开始寻找最小值，发现为 4，与第二个元素交换: `'1', '4', 5, 6`
3. `'1', '4', 5, 6` 从第三个开始寻找最小值，发现为 5，位置正确无须交换，结束

In [5]:
def selectionSort(alist: list) -> list:
    lenLis = len(alist)
    for cur in range(lenLis - 1):
        minIndex = cur
        for pos in range(cur + 1, lenLis):
            if alist[pos] < alist[minIndex]:
                minIndex = pos
        if minIndex != cur:
            alist[cur], alist[minIndex] = alist[minIndex], alist[cur]
    return alist


testLis = [1, 4, 8, 2, 0]
selectionSort(testLis)

[0, 1, 2, 4, 8]

#### 1.2.3 时间复杂度

**O(n^2)**，**交换次数 n-1**

### 1.3 插入排序

Insertion sort: 列表前端维护一个已排序序列子序列，将其后的元素安装顺序插入已排序序列，插入前已排序序列通过移位提供空位。

相比选择排序，区别是插入排序是使用移位取代交换，通常移位仅需一次分配，仅仅需要交换 1/3 性能

#### 1.3.1 算法流程

升序（最小元素放置首位）:
1. 假设首元素已排序，保存下一位元素的值
2. 与已排序子序列末尾开始比较，小于时，已排序序列对应元素后移
3. 直到不小于子序列当前位置的值时停止移动，并将值放置其后
4. 重复过程直到元素全部排序。

#### 1.3.2 分析与实现

分析：  
1. `1, 5, 6, 4` 维护已排序子序列 1，保存 5: `'1', 5, 4, 6: bak=5`，保存的 5 不小于子序列的 1，无须移动，完成第二个元素排序: `'1, 5', 4, 6`
2. `'1, 5', 4, 6: bak=4` 保存 4，保存的 4 小于子序列的 5，5后移: `'1, 5, 5', 6` -> 保存的 4 不小于子序列的 1，停止移动，4 放至 1 后，完成第三: `'1, 4, 5', 6`
3. `'1, 4, 5', 6: bak=6` ...

In [1]:
def insertionSort(alist: list) -> list:
    for cur in range(1, len(alist)):
        currentVal = alist[cur]
        pos = cur
        while pos > 0 and currentVal < alist[pos - 1]:
            # 推荐使用 pos > 0，0 是 cur 的起始值(1) 减去 gap(1)
            alist[pos] = alist[pos - 1]  # duplicate assignment when ordered list
            pos -= 1
        alist[pos] = currentVal  # duplicate assignment when ordered list

    return alist


testLis = [1, 4, 8, 2, 0]
insertionSort(testLis)


[0, 1, 2, 4, 8]

#### 1.3.3 时间复杂度

**O(n^2)**

### 1.4 希尔排序

Shell sort: 插入排序的改进，也称缩小增量排序。通过将原始列表分解成多个小的子列表，每个子列表使用插入排序进行排序，分解的子列表在原列表中的位置有相同的增量 (gap)。非稳定排序。增量的选择方式为 n/2, n/2/2,...。如果增量恒为一，那就是插入排序。

与插入排序的区别：希尔排序缩小了移位的次数，其每次都会使列表“更有序”。

#### 1.4.1 算法流程

1. 起始增量 len/2，如果子列表长度大于一就进行插入排序
2. 增量 len/2/2，重复以上，增量为一后再进行插入排序。

#### 1.4.2 分析与实现

分析（升序）:
1. `3, 1, 6, 4, 2, 5, 7`: gap=7//2=3, 分组为: `3_1, 1_2, 6_3, 4_1, 2_2, 5_3, 7_1` --> 进行插入排序 --> `3, 1, 5, 4, 2, 6, 7`
2. `3, 1, 5, 4, 2, 6, 7`: gap=7//2//2=1，简单插入排序。

实现：

In [2]:
def gapInsertSort(alist: list, start: int = 0, gap: int = 1) -> list:
    for cur in range(start + gap, len(alist), gap):
        currentVal = alist[cur]
        pos = cur

        while pos > start and currentVal < alist[pos - gap]:
            '''推荐使用 pos > start 而不使用 pos >= gap，否则下面例子得不到预期结果，
            即 pos 小于 cur 起始值减去 gap 。
            pos > start: 仅对 start 位置之后的位置满足的排序。
            如: [4, 3, 2, 1, 5]: start = 2, gap = 1:
            pos > start: res = [4, 3, 1, 2, 5].
            '''
            alist[pos] = alist[pos - gap]
            pos -= gap
        
        alist[pos] = currentVal

    return alist
            

# gapInsertSort 测试
testGapInsert_1 = [0, 3, 5, 1, 4]
gapInsertSort(testGapInsert_1, start=0, gap=2)
testGapInsert_2 = [5, 3, 4, 1, 0]
gapInsertSort(testGapInsert_2, start=0, gap=2)

testGapInsert_3 = [0, 1, 5, 3, 4]
gapInsertSort(testGapInsert_3, start=1, gap=2)
testGapInsert_4 = [0, 3, 5, 1, 4]
gapInsertSort(testGapInsert_4, start=1, gap=2)

testGapInsert_5 = [4, 3, 2, 1, 5]
gapInsertSort(testGapInsert_5, start=2, gap=1)

[4, 3, 1, 2, 5]

In [3]:
def shellSort(alist: list) -> list:
    gap = len(alist) // 2
    while gap >= 1:
        for startPos in range(gap):
            gapInsertSort(alist, startPos, gap)
        # print('After increment of size:', gap, ', and res: ', alist)
        gap = gap // 2

    return alist


testLis = [54,26,93,17,77,31,44,55,20]
shellSort(testLis)


[17, 20, 26, 31, 44, 54, 55, 77, 93]

#### 1.4.3 时间复杂度

平均时间复杂度 $O(nlogn)$ ~ $O(n^2)$，最差 $O(n^{1.3})$，最好 $O(n^2)$。  
大多数情况其数据交换次数少与插入排序。

### 1.5 快速排序

Quick sort: 快速排序使用分而治之来获得与归并排序相同的优点，而不使用额外的存储。但是快速排序如果列表**不能均衡划分列表时性能较差**。

#### 1.5.1 算法流程

快速排序首先选择一个值，该值称为枢轴值。选择枢轴值的方法很多，此处使用列表中的第一项。枢轴值的作用是帮助拆分列表。枢轴值属于最终排序列表（通常称为拆分点）的实际位置，将用于将列表划分为快速排序的后续调用。  
分区从通过在列表中剩余项目的开始和结束处定位两个位置标记（左右标记），其收敛于分裂点。左右标记相向移动，直到**左标记处值大于枢轴值，右标记处值小于枢轴值，此时交换标记处的值（即标记处的值等于枢纽值时继续向下）**。直到左右标记交叉，此时交换右标记处与枢轴值，将左边与右边的区域再进行上述过程。

#### 1.5.2 分析与实现

分析（升序）:
1. 1 `3, 1, 6, 4, 2, 5, 7`: splitpoint=3,  
  left=1, right=7: left=1<3->left=6<3False.stop. right=7>3->right=5>3->right=2False.stop. leftPos(2)<=rightPos(4): exchange 6 and 2, --> `3, 1, 2, 4, 6, 5, 7`  
  left=2, right=6: ->left=4<3False, right=4>3->right=2>3False, found leftPos(3)>rightPos(2), stop. exchange splitpoint and right.  --> `2, 1, 3, 4, 6, 5, 7`
2. 2.1 `2, 1`: splitpoint=2,  
  left=1, right=1: left=1<2->leftpos=2.found leftPos(2)>rightPos(1), stop. right=1<2False.stop. found leftPos(2)>rightPos(1), exchange exchange splitpoint and right. --> `1, 2`
3. 2.2 `4, 6, 5, 7`: splitpoint=4,  
  left=6, right=7: left=6<4False.stop. right=7>4->right=5>4->right6>4->rightPos=0, found leftPos(1)>rightPos(0), stop. exchange exchange splitpoint and right(splitPos=rightPos=0). 
4. 2.2.1 `6, 5, 7`: splitpoint=6,  
  left=5, right=7: left=5<6->left=7<6.False.stop. right=7>6->right=5>6False.stop. found leftPos(2)>rightPos(1): exchange splitpoint and right. --> `5, 6, 7`

实现：

In [4]:
def quickSort(alist):
    quickSortImple(alist, 0, len(alist) - 1)


def quickSortImple(alist, start, end):
    if start >= end:
        return
    pivotVal = alist[start]  # pivot: 枢。存储枢纽值用于下面比较

    # 左右标记位置
    leftPos = start + 1
    rightPos = end
    # print(f'leftPos: {leftPos}, rightPos: {rightPos}', end='')  # debug

    # 循环用于寻找枢纽值正确位置--rightPos，
    # 其停止标志：leftPos > rightPos，即两个标志交叉--枢纽值正确位置已找到
    done = False
    while not done:
        # 左标记向右，进行条件：标记未交叉或标记值小于等于枢纽值
        while leftPos <= rightPos and alist[leftPos] <= pivotVal:
            leftPos += 1
        # 右标记向左，进行条件：标记未交叉或标记值大于等于枢纽值
        while leftPos <= rightPos and alist[rightPos] >= pivotVal:
            rightPos -= 1

        if leftPos > rightPos:
            # 两个标志交叉--枢纽值正确位置已找到，停止寻找
            done = True
        else:
            # 未找到枢纽值位置，说明左右标记处值应该互换，使左右标记继续进行
            alist[leftPos], alist[rightPos] = alist[rightPos], alist[leftPos]
    # 枢纽值正确位置就是右标记位置，互换这两值
    alist[rightPos], alist[start] = alist[start], alist[rightPos]
    # print(f'  pos: {rightPos}  alist: {alist}')  # debug

    # 通过迭代对枢纽值正确位置左边和右边进行排序
    # 左边排序
    quickSortImple(alist, start=start, end=rightPos - 1)
    # 右边排序
    quickSortImple(alist, start=rightPos + 1, end=end)


testLis = [3, 1, 6, 4, 2, 5, 7]
# testLis = [6, 5, 6, 6, 8, 0]
quickSort(testLis)
print(testLis)


[1, 2, 3, 4, 5, 6, 7]


#### 1.5.3 时间复杂度

排序过程中不需要额外空间，但是使用了递归调用来实现，所以空间复杂度等于递归深度 logn。  
最好情况下，如果分区总是出现在列表中间，则会再次出现 logn 分区，为了找到分割点需要针对枢纽值对 n 个项均检查一次。故总的时间复杂度是 nlogn。（logn 的底数与实际分割份数有关，此处是从枢纽值分为两份，故其底数是 2。但是在实际中不讨论底数，就同对 n^2 不讨论系数一样。）  
最坏情况下，分区总是在两端，此时时间复杂度为 n^2。

**改进**：可以通过在算法中引入随机性，使得算法对所有输入都能获得较好的期望性能。比如我们随机地选择pivot，这样上述的最坏情况就很难发生。方式是在每次排序前将枢纽值与分区某元素交换一次。

### 1.6 归并排序

Merge sort: 也是分而治之。不断地将列表拆为一半，直到列表为空或者只有一项，则按照定义进行排序。如果列表有多个项，则进行分割并对两个部分进行合并。合并是将两个较小的部分组合新列表的过程。

#### 1.6.1 算法流程




#### 1.6.2 分析与实现

分析（升序）:
1. `3, 1, 6, 4, 2, 5, 7`:.  
  分割: `3, 1, 6`, `4, 2, 5, 7` -> `3`, `1, 6`, `4, 2`, `5, 7` -> `3`, `1`, `6`, `4`, `2`, `5`, `7`
2. 合并: `3`, `1, 6`, `2, 4`, `5, 7` -> `1, 3, 6`, `2, 4, 5, 7` -> `1, 2, 3, 4, 5, 6, 7`。合并时需要两个指针，分别指向两个部分的首元素，然后比较大小，取小元素放入结果列表并后移此指针。直到两部分全部遍历（如果一个部分剩余为空，那么停止指针后移，将剩余元素直接放于结果了列表）。

实现：

In [15]:
def mergeSort(alist):
    lisLen = len(alist)
    if lisLen <= 1:
        return None
    # split
    mid = lisLen // 2
    lefthalf = alist[:mid]
    righthalf = alist[mid:]

    # recursive
    mergeSort(lefthalf)
    mergeSort(righthalf)

    # merge
    leftPos = 0
    rightPos = 0
    resPos = 0
    while leftPos < len(lefthalf) and rightPos < len(righthalf):
        if lefthalf[leftPos] < righthalf[rightPos]:
            alist[resPos] = lefthalf[leftPos]
            leftPos += 1
        else:
            alist[resPos] = righthalf[rightPos]
            rightPos += 1
        resPos += 1

    while leftPos < len(lefthalf):
        alist[resPos] = lefthalf[leftPos]
        leftPos += 1
        resPos += 1

    while rightPos < len(righthalf):
        alist[resPos] = righthalf[rightPos]
        rightPos += 1
        resPos += 1


testLis = [3, 1, 6, 4, 2, 5, 7]
# testLis = [6, 5, 6, 6, 8, 0]
mergeSort(testLis)
print(testLis)


[1, 2, 3, 4, 5, 6, 7]


#### 1.6.3 复杂度

空间复杂度: 排序过程中需要将列表不断分割并合成新子列表，此过程需要占用等长度的辅助空间，因此其空间复杂度为 O(n)  
时间复杂度: 列表需要分割 logn 次，故合并 n 个元素需要 nlogn。（但是python中列表切片时间复杂度是 O(k)，因此需要优化切片）

### 排序算法总结

| 排序方法 | 平均时间复杂度 | 最好情况 | 最坏情况 | 辅助空间 | 稳定性 |
| :--: | :--: | :--: | :--: | :--: | :--: |
| **冒泡(BubbleSort)** | $O(n^2)$ | $O(n)$ | $O(n^2)$ | $O(1)$ | 稳定 |
| **选择(SelectionSort)** | $O(n^2)$ | $O(n^2)$ | $O(n^2)$ | $O(1)$ | 不稳定 |
| **插入(InsertionSort)** | $O(n^2)$ | $O(n)$ | $O(n^2)$ | $O(1)$ | 稳定 |
| **希尔(ShellSort)** | $O(nlogn)$~$O(n^2)$ | $O(n^{1.3})$ | $O(n^2)$ | $O(1)$ | 不稳定 |
| **堆(HeapSort)** | $O(nlogn)$ | $O(nlogn)$ | $O(nlogn)$ | $O(1)$ | 不稳定 |
| **归并(MergeSort)** | $O(nlogn)$ | $O(nlogn)$ | $O(nlogn)$ | $O(n)$ | 稳定 |
| **快速(QuickSort)** | $O(nlogn)$ | $O(nlogn)$ | $O(n^2)$ | $O(logn)$~$O(n)$ | 不稳定 |

In [18]:
import unittest
import copy
# from sortAlgo import *


class testSortAlgo(unittest.TestCase):
    def setUp(self):
        self.inputList = [[3, 1, 6, 4, 2, 5, 7],
                          [5, 6, 0, 6, 6, 8, 2]]

    @staticmethod
    def verify(alist):
        index = 0
        lenLis = len(alist)
        ascendOrdered = True
        while index < lenLis - 1 and ascendOrdered:
            if alist[index] > alist[index + 1]:
                ascendOrdered = False
            index += 1
        return ascendOrdered

    def test_bubbleSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(bubbleSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])

    def test_selectionSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(selectionSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])

    def test_insertionSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(insertionSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])

    def test_shellSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(shellSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])

    def test_quickSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(quickSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])

    def test_mergeSort(self):
        inputList = copy.deepcopy(self.inputList)
        list(map(mergeSort, inputList))
        ordered = list(map(self.verify, inputList))
        self.assertEqual(ordered, [True, True])


# unittest.main()
unittest.main(argv=['ignored', '-v'], exit=False)
# for jupyter notebook/lab


test_bubbleSort (__main__.testSortAlgo) ... ok
test_insertionSort (__main__.testSortAlgo) ... ok
test_mergeSort (__main__.testSortAlgo) ... ok
test_quickSort (__main__.testSortAlgo) ... ok
test_selectionSort (__main__.testSortAlgo) ... ok
test_shellSort (__main__.testSortAlgo) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.011s

OK


<unittest.main.TestProgram at 0x7f5ff142f6a0>

In [1]:
0 and 2 or 1 or 4

1

In [2]:
b=[1,8]
a=b
b.append(66)
a
    

[1, 8, 66]