# 排序

素材：
1. [史上最简单十大排序算法（Python实现）](https://blog.csdn.net/weixin_41571493/article/details/81875088)
2. [Python实现十大经典排序算法](https://www.jianshu.com/p/bbbab7fa77a2)
3. [Python实现十三大查找和排序算法](https://blog.csdn.net/Asher117/article/details/89500637)
4. [All Algorithms implemented in Python](https://github.com/TheAlgorithms/Python)

有空可以整理一下，对于不同的数据结构，实现他们的增删查改，并计算复杂度。怎么通过模拟来发现自己的算法复杂度是否符合要求？一般用什么python code？

## 排序的分类 与 相关概念

**是否使用额外空间**：
- 内部排序：只使用内存
- 外部排序：内存和外存同时使用

**时间复杂度**：
- 非线性时间比较类排序：通过比较来决定元素间的相对次序，由于其时间复杂度不能突破O(nlogn)，因此称为非线性时间比较类排序、
- 线性时间非比较类排序： 不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下界，以线性时间运行，因此称为线性时间非比较类排序。

**相关概念：**
- 稳定：如果a=b，排序不改变他们原始的次序
- 时间复杂度：对于排序数据的总的操作次数与n的关系
- 空间复杂度：算法执行时所需要的储存空间大小与n的关系

### 冒泡排序 Bubble Sort

> 思想：
1. 比较相邻的元素，如果第一个比第二个更大，那么交换他们两
2. 对每一对相邻的元素做同样的操作，从最开始的前两个数，到最后两个数。这样排在最后的数会是整个数列中最大的
3. 对数列重复以上操作，排除最后一个已经被排好序的数字。
4. 重复1-3，直到排序完成

冒泡排序对n个数据操作n-1轮，每一轮能找到一个最大值。

操作只对相邻两个数进行比较与交换，每一轮能把最值交换到数据的列尾，就像冒泡一样。

每一轮操作O(n)次，共O(n)轮，所以时间复杂度是O(n^2)

额外空间开销出现在交换数据的时候，需要一个过渡空间，空间复杂度是O(1)

In [7]:
import numpy as np
def BubbleSort(arr):
    n = len(arr)
    if n <= 1:
        return arr
    else:
        for i in range(n):
            for j in range(n-i-1):
                if arr[j] > arr[j+1]:
                    arr[j+1],arr[j] = arr[j],arr[j+1]
        return arr

In [8]:
def test_case(method,arr,**kwargs):
    # using default sort function to get the real sorted arr
    arr_sort = sorted(arr)
    
    # print the original arr to be sorted
    print('排序前的数列：\n',np.array(arr))
    
    # sort on the original arr
    new_arr = np.array(method(arr,**kwargs))
    print('排序后的数列：\n',new_arr)
    
    # if our method can get the same result with python default sorted method
    print('Does our method work? Answer is',np.array_equiv(arr_sort,new_arr))

In [9]:
test_case(BubbleSort,np.random.randint(0,100,10))

排序前的数列：
 [79 17 44  2 97 33 92  0 46 60]
排序后的数列：
 [ 0  2 17 33 44 46 60 79 92 97]
Does our method work? Answer is True


### 快速排序 Quick Sort

> 思想
- 从数列中挑选一个元素，称为基准(pivot)
- 重新排序数列，所有比基准值小的元素摆放在基准的前面，所有比基准值大的元素摆放在基准的后面，相同的数可以摆放到任意一边。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区(partition)操作
- 递归地把小于基准的子数列和大于基准的子数列进行排序

快速排序基于选择划分，是简单选择排序的优化。

每次划分将数据宣导基准值的两边，然后递归对于两侧的数据进行划分，类似于二分法。

算法的整体性能取决于划分的平均程度，也即基准值的选择，从而衍生出快速排序的很多优化方案，甚至可以划分成多块。

基准值如果能把数据分为平均的两块，划分数为O(logn)，每次划分遍历一遍需要O(n)，时间复杂度是O(nlogn)

额外空间需要储存基准值，O(logn)次划分需要O(logn)个，空间复杂度O(logn)

In [10]:
# 空间复杂度O(nlogn)
def QuickSort(arr):
    if len(arr) <= 1:
        return arr
    else:
        mid = arr[0]
        left = [i for i in arr[1:] if i <= mid]
        right = [i for i in arr[1:] if i > mid]
        return QuickSort(left) + [mid] + QuickSort(right)

In [11]:
test_case(QuickSort,arr = list(np.random.randint(0,1000,size = 10)))

排序前的数列：
 [941 309 621 296 328 485 818 809 950 231]
排序后的数列：
 [231 296 309 328 485 621 809 818 941 950]
Does our method work? Answer is True


In [12]:
def QuickSort2(nums,left,right):
    def partition(nums,left,right):
        # 选取一个基准值，这边默认是第一个元素，有很多种优化方式
        pivot = nums[left]
        
        """
        对于这个基准值，把小于等于基准的数挪到前方，大于等于基准的数挪到后方。
        每个while循环里面，至多只能挪动一对数。
        left < right表示终止条件，right指的是第一个小于基准的位置，
        left指的是第一个大于等于基准的位置。如果left<right，表示对于这个基准来说，
        数列已经被排好了。
        """
        while left < right: 
            while left < right and nums[right] >= pivot:
                right -= 1 # 从右边开始，第一个小于基准的数的位置
            nums[left] = nums[right] # 把这个小于基准的数，放在序列的第一位
            while left < right and nums[left] < pivot:
                left += 1 # 从左边开始，第一个大于等于基准的数的位置
            nums[right] = nums[left] # 把这个大于等于基准的数，放在序列中right的位置
        nums[left] = pivot # 把基准值放在它应该在的位置 
        return left
        
    # 对于子序列递归
    if left < right:
        pivotIndex = partition(nums, left, right)
        QuickSort2(nums, left, pivotIndex - 1)
        QuickSort2(nums, pivotIndex + 1, right)
    return nums
        

In [13]:
test_case(QuickSort2,arr = list(np.random.randint(0,1000,size = 10)),left = 0,right = 9)

排序前的数列：
 [896 491 279 271 363 539 203 106 186 219]
排序后的数列：
 [106 186 203 219 271 279 363 491 539 896]
Does our method work? Answer is True


In [14]:
def print_kwargs(**kwargs):
        print(kwargs)

print_kwargs(kwargs_1="Shark", kwargs_2=4.5, kwargs_3=True)

{'kwargs_1': 'Shark', 'kwargs_2': 4.5, 'kwargs_3': True}


In [15]:
def print_args(*args):
    print(args[0])

print_args(1,2,3)

1


### 插入排序

>思想

- 从第一个元素开始，认为该元素已经被排序好了
- 取出下一个元素，在已经排序好的元素序列中从后往前扫描
- 如果排序好的元素大于新元素，那么再继续向前比较
- 直到找到已排序的序列中，小于等于该新元素的元素位置
- 将新元素插入该位置后
- 重复步骤2-5

简单插入排操作n-1轮，每一轮将一个未排序的数字插入排好序的序列中。

插入的操作包括：比较插入的位置，数据移位腾出合适的空位

每一轮操作O(n)次，共O(n)轮，所以时间复杂度O(n^2)

空间开销出在数据移动的过渡空间，O(1)



In [16]:
def insertionSort(nums):
    for i in range(len(nums) - 1):  # 遍历 len(nums)-1 次
        curNum, preIndex = nums[i+1], i  # curNum 保存当前待插入的数
        while preIndex >= 0 and curNum < nums[preIndex]: # 将比 curNum 大的元素向后移动
            nums[preIndex + 1] = nums[preIndex]
            preIndex -= 1
        nums[preIndex + 1] = curNum  # 待插入的数的正确位置   
    return nums

In [17]:
def InsertSort(lst):
    n=len(lst)
    if n<=1:
        return lst
    for i in range(1,n):
        j=i
        target=lst[i]            #每次循环的一个待插入的数
        while j>0 and target<lst[j-1]:       #比较、后移，给target腾位置
            lst[j]=lst[j-1]
            j=j-1
        lst[j]=target            #把target插到空位


In [18]:
nums = [77,4,20,90,36,12,7,50,48]
for i in range(1,len(nums)):
    current = nums[i]
    j = i
    while(j>0 and current<nums[j-1]):
        nums[j] = nums[j-1]
        j = j -1
    nums[j] = current
    print(nums)

[4, 77, 20, 90, 36, 12, 7, 50, 48]
[4, 20, 77, 90, 36, 12, 7, 50, 48]
[4, 20, 77, 90, 36, 12, 7, 50, 48]
[4, 20, 36, 77, 90, 12, 7, 50, 48]
[4, 12, 20, 36, 77, 90, 7, 50, 48]
[4, 7, 12, 20, 36, 77, 90, 50, 48]
[4, 7, 12, 20, 36, 50, 77, 90, 48]
[4, 7, 12, 20, 36, 48, 50, 77, 90]


In [19]:
def InsertSort(arr):
    n = len(arr)
    for i in range(1,n):
        # 给第i个数字进行排序
        num_now = arr[i]
        for j in range(i-1,-1,-1):
            if num_now >= arr[j]:
                pos = j+1
                break
            else:
                pos = 0
        arr[(pos + 1):(i + 1)] = arr[(pos):i]
        arr[pos] = num_now
    return arr
            
            

In [20]:
InsertSort([0,0,0,1,1,2,-1])

[-1, 0, 0, 0, 1, 1, 2]

what will happen? if we excute:

>```
num = [1,2,3,4]
num[0:2],num[2:4] = num[2:4],num[0:2]
```

### 希尔排序
> 思想
- 选择一个递减到1的增量序列，$\mathrm T = t_1 > \cdots >t_k > \cdots >t_K$,比如5,3,1
- 对于每个$t_k$，对原序列进行K次排序
- 每次排序中，根据$t_k$的值，将序列分割成长度为m的子序列，每个子序列进行插入排序，只改变子序列的元素相对位置。当增量因子为1的时候，相当于对所有元素进行插入排序

希尔排序是插入排序的高效实现，因为能够减少插入排序的移动次数。

简单插入排序每次插入都要移动大量数据，如果能一步到位，移动效率会高一些。

如果序列是基本有序的，插入排序不必移动多次，效率会比较高。

希尔排序将序列按照不同的间隔划分成子序列，在子序列中进行插入排序。相当于先远距离移动，使得序列基本有序。然后逐步减小间隔，最后间隔为1的时候进行一次插入排序。

希尔排序对序列划分O(n)次，每次插入排序O(logn)，时间复杂度O(nlogn)

额外的空间开销是由于插入过程中，数据移动需要一个暂存，空间复杂度O(1)



In [21]:

def ShellSort(lst):
    def shellinsert(arr,d):
        n=len(arr)
        for i in range(d,n):
            j=i-d
            temp=arr[i]             #记录要出入的数
            while(j>=0 and arr[j]>temp):    #从后向前，找打比其小的数的位置
                arr[j+d]=arr[j]                 #向后挪动
                j-=d
            if j!=i-d:
                arr[j+d]=temp
    n=len(lst)
    if n<=1:
        return lst
    d=n//2
    while d>=1:
        shellinsert(lst,d)
        d=d//2
    return lst

In [22]:
def shellSort(nums):
    lens = len(nums)
    gap = 1  
    while gap < lens // 3:
        gap = gap * 3 + 1  # 动态定义间隔序列
    while gap > 0:
        for i in range(gap, lens):
            curNum, preIndex = nums[i], i - gap  # curNum 保存当前待插入的数
            while preIndex >= 0 and curNum < nums[preIndex]:
                nums[preIndex + gap] = nums[preIndex] # 将比 curNum 大的元素向后移动
                preIndex -= gap
            nums[preIndex + gap] = curNum  # 待插入的数的正确位置
        gap //= 3  # 下一个动态间隔
    return nums

In [23]:
def ShellSort(arr):
    def ShellInset(arr,d):
        """
        arr: list to be sorted
        d: T_k,the distance of each sub-list
        """
        n = len(arr)
        for i in range(n):
            now_num = arr[i]
            for j in range(i-d, -1, -d):
                if arr[j] > now_num:
                    arr[j+d] = arr[j]
                    arr[j] = now_num
                else:
                    break
        return arr
    n = len(arr)
    d = n // 2
    
    while d >= 1:
        arr = ShellInset(arr,d)
        d //= 2
    return arr
        

In [24]:
test_case(method = ShellSort, arr = np.random.randint(0,100,10))

排序前的数列：
 [46 14 31 45 89 11 22 46 13 66]
排序后的数列：
 [11 13 14 22 31 45 46 46 66 89]
Does our method work? Answer is True


### 简单选择排序
> 思想
- 初始状态，数列完全无序
- 从无序的数列中，找一个最小值放在前面的有序区域末尾
- 重复n-1次

简单选择排序对数据操作n-1轮，每一轮在未排序的数据中找到一个最小值

每轮操作O(n)次，共O(n)轮，所以时间复杂度O(n^2)

额外空间开销出现在交换数据时候，西药一个过渡空间，空间复杂度O(1)

选择排序每一轮选一个最小值出来，加入排好的序列末尾。在未排序的数据之间比大小。简单插入排序，每一轮找到新数据在排好序的数据的位置，将其插入。把新数据放在在已排序的序列中比大小。

冒泡排序中，每次发现相邻两个数据大小关系不对时，就进行数据交换，这样会带来很多数据交换的代价，因此可以减少交换次数，每次选择最大值，直接跟最后位置交换，从而减少数据交换。时间复杂度为O(n^2)。

In [25]:
nums = [77,4,20,90,36,12,7,50,48]
for i in range(len(nums)-1):
    k = 0
    for j in range(1,len(nums)-i):
        if(nums[k] < nums[j]):
            k = j
    nums[k],nums[j] = nums[j],nums[k]
    print(nums)

[77, 4, 20, 48, 36, 12, 7, 50, 90]
[50, 4, 20, 48, 36, 12, 7, 77, 90]
[7, 4, 20, 48, 36, 12, 50, 77, 90]
[7, 4, 20, 12, 36, 48, 50, 77, 90]
[7, 4, 20, 12, 36, 48, 50, 77, 90]
[7, 4, 12, 20, 36, 48, 50, 77, 90]
[7, 4, 12, 20, 36, 48, 50, 77, 90]
[4, 7, 12, 20, 36, 48, 50, 77, 90]


In [26]:
def SelectSort(arr):
    n = len(arr)
    for i in range(n):
        index_min = i
        for j in range(i+1,n):
            if arr[j] < arr[index_min]:
                index_min = j
        current_min = arr[index_min]
        arr[index_min] = arr[i]
        arr[i] = current_min
    return arr

In [27]:
test_case(SelectSort,np.random.randint(0,100,10))

排序前的数列：
 [67 76  8 80  3 48 52 51 12 98]
排序后的数列：
 [ 3  8 12 48 51 52 67 76 80 98]
Does our method work? Answer is True


### 堆排序 Heap Sort
堆排序是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子节点的键值或索引总是小于（或者大于）它的父节点。

关于堆这种数据结构，可以参见[Abdul Bari - Heap](https://www.youtube.com/watch?v=HqPJF2L5h9U)以及[Heap Sort](https://www.youtube.com/watch?v=k72DtCnY4MU)
> 思路
- 首先把原始序列构建成大顶堆
- 然后把堆顶的最大值与堆最后一个元素交换，从而得到一个大顶堆 和 最后一个排好序的最大值
- 因为交换后，堆不一定是大顶堆，所以需要排序。排序之后，把堆顶的元素与当前堆最后一个元素交换，得到一个堆还有第二大的数字
- 重复2-3步，直到堆消失

对于堆中一个元素的排序，时间复杂度是O(logn)，建堆的时候，时间复杂度是O(nlogn)。对于后续最大堆堆顶元素移出，每次都需要排序O(logn)，n个元素时间复杂度是O(nlogn)。综合而言，时间复杂度是O(nlogn)。

空间复杂度是O(1)，用于堆顶和堆末尾元素交换的时候，需要一个额外的过渡空间。


In [28]:
def  HeapSort(lst):
    def heapadjust(arr,start,end):  #将以start为根节点的堆调整为大顶堆
        temp=arr[start]
        son=2*start+1
        while son<=end:
            if son<end and arr[son]<arr[son+1]:  #找出左右孩子节点较大的
                son+=1
            if temp>=arr[son]:       #判断是否为大顶堆
                break
            arr[start]=arr[son]     #子节点上移
            start=son                     #继续向下比较
            son=2*son+1
        arr[start]=temp             #将原堆顶插入正确位置
#######
    n=len(lst)
    if n<=1:
        return lst
    #建立大顶堆
    root=n//2-1    #最后一个非叶节点（完全二叉树中）
    while(root>=0):
        heapadjust(ls,root,n-1)
        root-=1
    #掐掉堆顶后调整堆
    i=n-1
    while(i>=0):
        (lst[0],lst[i])=(lst[i],lst[0])  #将大顶堆堆顶数放到最后
        heapadjust(lst,0,i-1)    #调整剩余数组成的堆
        i-=1
    return lst

In [115]:
def HeapSort(arr):
    # build heap
    def heapbuilt(arr, size):
        for i in range(len(arr)//2)[::-1]: # 从倒数第一个非叶子结点开始建立大根堆
            adjust_node(arr, i, size)    
            
    # adjust the node in heap
    def adjust_node(arr,i,size):
        # 非叶子结点的左右两个孩子
        lchild_index = 2 * i + 1
        rchild_index = 2 * i + 2
        # 在当前结点、左孩子、右孩子中找到最大元素的索引
        largest = i 
        if lchild_index < size and arr[lchild_index] > arr[largest]: 
            largest = lchild_index 
        if rchild_index < size and arr[rchild_index] > arr[largest]: 
            largest = rchild_index
        # 如果最大元素的索引不是当前结点，把大的结点交换到上面，继续调整堆
        if largest != i: 
            arr[largest], arr[i] = arr[i], arr[largest] 
            # 第 2 个参数传入 largest 的索引是交换前大数字对应的索引
            # 交换后该索引对应的是小数字，应该把该小数字向下调整
            adjust_node(arr, largest, size)
    
    size = len(arr)
    heapbuilt(arr,size)
    for i in range(len(arr))[::-1]:
        arr[0],arr[i] = arr[i],arr[0]
        adjust_node(arr,0,i)
    return(arr)

In [154]:
test_case(HeapSort,arr = np.random.randint(0,100,10))

排序前的数列：
 [11  8 89  2 64  6 11 25 12 80]
排序后的数列：
 [ 2  6  8 11 11 12 25 64 80 89]
Does our method work? Answer is True


### 二路归并排序

归并排序，采用了分治法(Divide and Conquerr)建立在归并操作的基础上。将已有的子序列合并，得到完全有序的序列。先使得子序列有序，然后再把子序列合并成有序的序列。如果子序列的个数设定为2，那么称为2路归并排序。
> 思想
- 把长度为n的序列分成两个长度为n/2的子序列
- 对这两个字序列再使用归并排序，直到不能再分
- 把两个排序好的子序列合并成一个最终的序列

In [167]:
def mergeSort(nums):
    # 归并过程
    def merge(left, right):
        print(left,right)
        result = []  # 保存归并后的结果
        i = j = 0
        while i < len(left) and j < len(right):
            if left[i] <= right[j]:
                result.append(left[i])
                i += 1
            else:
                result.append(right[j])
                j += 1
        result = result + left[i:] + right[j:] # 剩余的元素直接添加到末尾
        return result
    # 递归过程
    if len(nums) <= 1:
        return nums
    mid = len(nums) // 2
    left = mergeSort(nums[:mid])
    right = mergeSort(nums[mid:])
    
    return merge(left, right)

In [168]:
mergeSort([3,2,45,-1,1])

[3] [2]
[-1] [1]
[45] [-1, 1]
[2, 3] [-1, 1, 45]


[-1, 1, 2, 3, 45]