# 算法概述

## 算法分类

* **非线性时间比较类排序**： 通过比较来决定元素间的相对排序，由于时间复杂度不能突破$O(nlogn)$, 因此成为非线性时间比较类排序
* **线性时间比较类排序**：不通过比较来决定元素间的相对排序。可以突破$O(nlogn)$, 以线性时间运行

```mindmap
排序算法
- 非线性时间比较类排序
	- 交换排序
		- 冒泡排序
		- 快速排序
	- 插入排序
		- 简单插入排序
		- 希尔排序
	- 选择排序
		- 简单选择排序
		- 堆排序
	- 归并排序
		- 二路归并排序
		- 多路归并排序
- 线性时间非比较类排序
	- 基数排序
	- 桶排序
	- 计数排序

```

## 算法复杂度

| 排序方法 | 时间复杂度(平均) | 时间复杂度(最坏) | 时间复杂度(最好) | 空间复杂度 | 稳定性 |
| ------- | ------------- | -------------- | ------------- | -------- | ------ |
| 冒泡排序 | $$O(n^2)$$ | $$O(n^2)$$ | $$O(n)$$ | $$O(1)$$ |  稳定 |
| 选择排序 | $$O(n^2)$$ | $$O(n^2)$$ | $$O(n^2)$$ | $$O(1)$$ |  不稳定 |
| 插入排序 | $$O(n^2)$$ | $$O(n^2)$$ | $$O(n)$$ | $$O(1)$$ |  稳定 |
| 希尔排序 | $$O(n^{1.3})$$ | $$O(n^2)$$ | $$O(n)$$ | $$O(1)$$ |  不稳定 |
| 归并排序 | $$O(nlog_2n)$$ | $$O(nlog_2n)$$ | $$O(nlog_2n)$$ | $$O(n)$$ |  稳定 |
| 快速排序 | $$O(nlog_2n)$$ | $$O(n^2)$$ | $$O(nlog_2n)$$ | $$O(nlog_2n)$$ |  不稳定 |
| 堆排序 | $$O(nlog_2n)$$ | $$O(nlog_2n)$$ | $$O(nlog_2n)$$ | $$O(1)$$ |  不稳定 |
| 计数排序 | $$O(n+k)$$ | $$O(n+k)$$ | $$O(n+k)$$ | $$O(n+k)$$ |  稳定 |
| 桶排序 | $$O(n+k)$$ | $$O(n^2)$$ | $$O(n)$$ | $$O(n+k)$$ |  稳定 |
| 基数排序 | $$O(n*k)$$ | $$O(n*k)$$ | $$O(n*k)$$ | $$O(n+k)$$ |  稳定 |

## 相关概念
稳定： 如果a原来在b前面，而a=b， 排序后a仍然在b的前面


# 冒泡排序(Bubble sort)
核心思想： 两两比较， 将最大元素“浮”到最顶端

## 算法描述
* 比较相邻的元素， 如果第一个比第二个大， 就交换它们
* 队每一对相邻元素做统一的工作， 从第一队到结尾的最后一对， 这样在最后的元素应该会是最大的数
* 针对除最后一个之外的元素重复以上过程
* 重复1~3 知道排序完成

## 演示
![BubbleSort](./image/bubblesort.gif)

## 代码

In [1]:
def bubbleSort(arr):
    length = len(arr)
    for i in range(1, length):
        for j in range(0, length - i):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
    return arr

# 选择排序(Selection Sort)
表现最稳定的排序算法之一， 无论什么数据都是$O(n^2)$的时间复杂度，在数据规模很小时可以使用。好处是不占用额外的内存空间。

核心思想： 找到最小(大)元素，放在起始位置， 然后再从剩余的里面继续找

## 算法描述
n个记录的直接选择排序可经过n-1趟直接选择排序得到有序结果，具体算法如下:
* 起始状态: 无序区为R[1..n], 有序区为空
* 第i趟排序(i=1..n-1)开始时， 当前有序区和无序区分别为R[1..i-1]和R(i..n)。 该趟排序从当前无序区中选出关键字最小的记录R[k],将它与无序区的第1个记录R交换，使R[1..i]和R[i+1..n)分别变为记录个数增加1个的新有序区和记录个数减少1个的新无序区
* n-1趟结束， 数组有序化

## 演示
![SelectionSort](./image/selectionsort.gif)

## 代码

In [2]:
def selectionSort(arr):
    length = len(arr)
    for i in range(length - 1):
        minIndex = i
        for j in range(i+1, length):
            if arr[j] < arr[minIndex]:
                minIndex = j
        if i != minIndex:
            arr[i], arr[minIndex] = arr[minIndex], arr[i]
    return arr

# 插入排序(Insertion Sort)
采用in-place(只需要$O(1)$的额外空间)， 需要反复把已排序元素逐步向后挪位

核心思想： 构建有序序列，对未排序数据， 在已排序序列中从后向前扫描， 找到相应位置并插入

## 算法描述
一般采用in-place在数组上实现
* 从第一个元素开始， 该元素可以认为已经被排序
* 取下一个元素， 在已经排序的元素序列总从后向前扫描
* 如果该元素(已排序)大于新元素， 将该元素移到下一位置
* 重复步骤3， 知道找到已排序的元素小于或者等于新元素的位置
* 将新元素插入到该位置后
* 重复2~5

## 演示
![insertionsort](./image/insertionsort.gif)

## 代码

In [3]:
def insertionSort(arr):
    length = len(arr)
    for i in range(length):
        preIndex = i-1
        current = arr[i]
        while preIndex >= 0 and arr[preIndex] > current:
            arr[preIndex+1] = arr[preIndex]
            preIndex-=1
        arr[preIndex+1] = current
    return arr

# 希尔排序 (Shell Sort)
第一个突破$O(n^2)$的排序算法， 插入排序的改进。优先比较距离较远的元素， 又叫缩小增量排序。

既可以提前定义好间隔序列， 也可以动态的定义间隔序列

## 算法描述
先将整个带爬徐的记录序列分割成若干子序列并分别进行直接插入排序：
* 选择一个增量序列$t_1$, $t_2$, ..., $t_k$, 其中$t_i > t_k, t_k =1$
* 按增量序列个数k，对序列进行k趟排序
* 每趟排序， 根据对应的增量$t_i$, 将待排序列分割成若干长度为m的子序列，分别对各子表进行直接插入排序。仅增量因子为1时，对整个序列做为一个表来处理， 表长度即整个序列的长度

## 演示
![ShellSort](./image/shellsort.gif)

## 代码

In [4]:
import math
def shellSort(arr):
    gap = 1
    length = len(arr)
    while(gap < length / 3):
        gap = gap*3 + 1
    while gap > 0:
        for i in range(gap, length):
            temp = arr[i]
            j = i - gap
            while j>=0 and arr[j] > temp:
                arr[j+gap] = arr[j]
                j -= gap
            arr[j+gap] = temp
        gap = math.floor(gap/3)
    return arr

# 归并排序 (Merge Sort)
分治法的典型应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。 若将两个有序表合并成一个有序表，称为2-路归并。

时间复杂度稳定在$O(nlogn)$, 代价是空间复杂度

## 算法描述
* 将长度为n的输入序列分成两个长度为n/2的子序列
* 对这两个子序列分别采用归并排序
* 将两个排序好的子序列合并成一个最终的排序序列

## 演示
![MegreSort](./image/mergesort.gif)

## 代码

In [5]:
import math
def mergeSort(arr):
    length = len(arr)
    if (length < 2):
        return arr
    middle = math.floor(length / 2)
    left, right = arr[0:middle], arr[middle:]
    return merge(mergeSort(left), mergeSort(right))

def merge(left, right):
    result = []
    while left and right:
        if left[0] <= right[0]:
            result.append(left.pop(0))
        else:
            result.append(right.pop(0))
    while left:
        result.append(left.pop(0))
    while right:
        result.append(right.pop(0))
    return result

# 快速排序 (Quick Sort)
基本思想: 一趟排序将记录分隔成独立的两部分，其中一部分均比另一部分关键字小， 然后分别对两部分进行排序

## 算法描述
使用分治法把一个list分成两个sub-lists：
* 从数列中挑选一个元素，称为“基准”(pivot)
* 重新排序数列，所有元素比基准小的摆在基准前面，比基准大的摆在后面。相同的可以到任一边。在这个分区退出之后，该基准就处于数列的中间位置。 这个称为分区(partition)操作
* 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序

## 演示
![QuickSort](./image/quicksort.gif)

## 代码

In [6]:
def quickSort(arr, left=None, right=None):
    left = 0 if not isinstance(left, (int, float)) else left
    right = len(arr)-1 if not isinstance(right, (int, float)) else right
    if left < right:
        partitionIndex = partition(arr, left, right)
        quickSort(arr, left, partitionIndex -1)
        quickSort(arr, partitionIndex + 1, right)
    return arr

def partition(arr, left, right):
    pivot = left
    index = pivot + 1
    i = index
    while i <= right:
        if arr[i] < arr[pivot]:
            swap(arr, i, index)
            index += 1
        i += 1
    swap(arr, pivot, index-1)
    return index - 1

def swap(arr, i, j):
    arr[i], arr[j] = arr[j], arr[i]

# 堆排序 (Heap Sort)
堆积是一个近似完全二叉树结构，同时满足堆积的性质：子节点的键值或索引总是小于(或者大于)它的父节点

## 算法描述
* 将初始待排序关键字序列$(R_1,R_2...R_n)$构建成大顶堆，此堆为初始的无序区
* 将堆顶元素$R[1]$与最后一个元素$R[n]$交换， 此时得到新的无序区$(R_1,R_2...R_{n-1})$和新的有序区$(R_n)$,且满足$R[1,2...n-1]\leqslant R[n]$
* 由于交换后的新堆顶$R[1]$可能违反堆的性质，因此需要对当前的无序区$(R_1,R_2...R_{n-1})$重新调整为新堆，然后再次将$R[1]$与无序区最后一个元素交换，得到新的无序区$(R_1,R_2...R_{n-2})$和新的有序区$(R_{n-1},R_n)$。 不断重复此过程知道有序区的元素个数为$n-1$，则整个排序过程完成

## 演示
![HeapSort](image/heapsort.gif)

## 代码

In [7]:
import math
def buildMaxHeap(arr, arrLen):
    for i in range(math.floor(arrLen/2), -1, -1):
        heapify(arr, i, arrLen)
        
def heapify(arr, i, arrLen):
    left = 2 * i + 1
    right = 2 * i + 2
    largest = i
    if left < arrLen and arr[left] > arr[largest]:
        largest = left
    if right < arrLen and arr[right] > arr[largest]:
        largest = right
        
    if largest != i:
        swap(arr, i, largest)
        heapify(arr, largest)
        
def swap(arr, i, j):
    arr[i], arr[j] = arr[j], arr[i]
    
def heapSort(arr):
    arrLen = len(arr)
    buildmaxHeap(arr, arrLen)
    for i in range(arrLen -1, 0, -1):
        swap(arr, 0, i)
        arrLen -= 1
        heapify(arr, 0, arrLen)
    return arr

# 计数排序 (Counting Sort)
不基于比较，核心思想是将输入的数据值转换为键存储在额外开辟的数组空间中，要求输入的数据必须是有确定范围的整数 

当输入元素是$n$个$0$到$k$之间的整数时，时间复杂度是$O(n+k)$, 空间复杂度也是$O(n+k)$，速度快于任何比较排序算法。当k不是很大并且序列比较集中时，计数排序是一个很有效的排序

## 算法描述
* 找出待排序的数组中最大和最小的元素
* 统计数组中每个值为$i$的元素出现的次数，存入数组$C$的第$i$项
* 对所有的计数累加(从$C$中的第一个元素开始，每一项和前一项相加)
* 反向填充目标数组： 将每个元素i放在心元素的第$C(i)$项目, 每放一个元素就将$C(i)$减去1

## 演示
![countingsort](./image/countingsort.gif)

## 代码

In [8]:
def countingSort(arr, maxValue):
    bucketLen = maxValue + 1
    bucket = [0] * bucketLen
    sortedIndex = 0
    arrLen = len(arr)
    for i in range(arrLen):
        bucket[arr[i]] += 1
    for j in range(bucketLen):
        while bucket[j] > 0:
            arr[sortedIndex] = j
            sortedIndex+=1
            bucket[j]-=1
    return arr

# 桶排序 (Bucket Sort)
计数排序的升级，是否高效取决于映射函数的确定。

工作原理：建设输入数据服从均匀分布， 将数据分到有限数量的桶里， 每个桶分别排序(可以使用其他算法或者递归使用桶排序)

最好情况下使用线性时间$O(n)$, 取决于各个桶之间数据进行排序的时间复杂度，因为其他部分的时间复杂度均为$O(n)$。

桶划分的越小，各个桶之间的数据越少， 排序所用的时间就会越小， 但是相应的空间复杂度就会增大

## 算法描述
* 设置一个数量的数组当做空桶
* 遍历输入数据，并且把数据一个一个放到对应的桶里去
* 对每个不是空的桶进行排序
* 从不是空的桶里把排好序的数据连接起来

## 演示
![BucketSort](./image/bucketsort.png)

## 代码

In [9]:
import math
def bucketSort(arr, bucketSize = 5):
    arrLen = len(arr)
    if (arrLen == 0):
        return arr
    minValue, maxValue = arr[0], arr[0]
    for i in range(1, arrLen):
        if arr[i] < minValue:
            minValue = arr[i]  #输入数据的最小值
        elif arr[i] > maxValue:
            maxValue = arr[i]  #输入数据的最大值
    bucketCount = math.floor((maxValue - minValue) / bucketSize) + 1
    buckets = [[]] * bucketCount
    # 利用映射函数将数据分配到各个桶中
    for i in range(arrLen):
        buckets[math.floor((arr[i] - minValue) / bucketSize)].append(arr[i])
    sortedIndex = 0
    for bucket in buckets:
        insertionSort(bucket) #对每个桶进行排序， 这里使用插入排序
        for val in bucket:
            arr[sortedIndex] = val
            sortedIndex += 1
    return arr

# 基数排序 (Radix Sort)
按照低位先排序，然后收集，重复直到最高位

性能比桶排序略差，每一次关键字的桶分配都需要$O(n)$的时间复杂度，而且分配之后得到的新关键字序列又需要$O(n)$的时间复杂度。假如待排序数据可以分成d个关键字，则基数排序的时间复杂度是$O(d*2n)$，一般 $d<<n$，因此基本上是线性级别的

空间复杂度为$O(n+k)$， k为桶的数量， 一般$n>>k$

## 算法描述
* 取得数组中的最大数， 并取得位数
* ar为原始数组，从最低位开始取每个位组radix数组
* 对radix进行计数排序(利用计数排序适用于小范围数的特点)

## 演示
LSD基数排序
![radixsort](./image/radixsort.gif)

## 代码

In [10]:
def radixSort(arr, maxDigit):
    counter = []
    mode = 10
    dev = 1
    for i in range(maxDigit):
        for j in len(arr):
            bucket = int((arr[j] % mod) / dev)
            if counter[bucket] is None:
                counter[bucket] = []
            counter[bucket].append(arr[j])
        pos = 0
        for j in range(len(counter)):
            if counter[j] is not None:
                value = counter[j].pop(0)
                while value is not None:
                    arr[pos] = value
                    pos += 1
                    value =  counter[j].pop(0)
        mode *= 10
        dev *= 10
    return arr