# 1_基本排序算法

## 1. 选择排序 (selection sort)
每次从未排序的序列中选**最小**的放到已排序序列的后面

- 注意最小值交换的次数
- 内外循环的边界，外循环要比长度小一，内循环从外循环变量加1开始
- 外循环i表示已排序部分的末尾**索引**
- 内循环j表示未排序开始的索引

In [38]:
def swap(lyst, i, j):
    """
    function：交换i和j间的元素
    """
    lyst[i], lyst[j] = lyst[j], lyst[i]    # 直接交换，或通过中间变量来交换 

In [39]:
# 实现一：每次遇到小的就交换，有点低效
def selectSort1(lyst):
    i = 0
    while i < len(lyst) - 1:               # 注意这里循环的边界为长度减1
        j = i + 1
        while j < len(lyst):
            if lyst[j] < lyst[i]:          # 如果后面序列比第i个位置的数小则交换，一直保持当前最小在最左边
                swap(lyst, i, j) 
            j += 1
        i += 1
    print(lyst)
#     return lyst

In [40]:
# 实现二：先比较，将最小值索引记录下来，比较完再交换
def selectSort2(lyst):
    i = 0
    for i in range(len(lyst)-1):
        minIndex = i                       # 这里默认i是最小的，后面有比i位置小的要交换
        for j in range(i+1, len(lyst)):
            if lyst[j] < lyst[minIndex]:   # 注意这里与最小值比较
                minIndex = j               # 更新最小值索引 
        if minIndex != i:                  # 当内层循环遍历完找到最小值后进行交换
            swap(lyst, minIndex, i)
    print(lyst)

In [41]:
test_que = [7, 0, 1, 3, 2, 10, 5]
selectSort1(test_que)                      # 经过排序，列表内部已经变化

[0, 1, 2, 3, 5, 7, 10]


In [42]:
test_que = [7, 0, 1, 3, 2, 10, 5]
selectSort2(test_que)

[0, 1, 2, 3, 5, 7, 10]


## 2. 冒泡排序 (bubble sort)
从左到右逐渐将最大值移到最右边，或从右到左逐渐将最小值移动到最左边
- 外层循环控制待排序的序列长度
- 内循环通过交换相邻元素将极值移动到顶端

In [59]:
# 实现一：每次都比较，将最大值放在最右边
def bubbleSort1(lyst):
    n = len(lyst)
    
    while n > 1:
        i = 0
        while i < n - 1:
            j = i + 1
            if lyst[i] > lyst[j]:   # 如果当前值更大，交换前后位置，将最大值右移
                swap(lyst, i, j)
            i += 1
        n -= 1
    print(lyst)

In [60]:
test_que = [7, 0, 1, 3, 2, 10, 5]
bubbleSort1(test_que)

[0, 1, 2, 3, 5, 7, 10]


In [61]:
# 实现二：当一个循环后没有进行交换，证明当前序列已经排好序，直接返回
def bubbleSort2(lyst):
    n = len(lyst)
    while n > 1:                       # 控制待排序的序列长度
        i = 0
        swapped = False
        while i < n - 1:
            if lyst[i] > lyst[i+1]:
                swap(lyst, i, i+1)
                swapped = True
            i += 1
        if not swapped:
            break
        n -= 1
    print(lyst)

In [62]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
bubbleSort2(test_que)

[0, 1, 2, 3, 5, 7, 10]


In [47]:
# 实现三：将最小值放在最左边(有点类似选择排序)
def bubbleSort3(lyst):
    n = len(lyst)
    i = 0
    while i < n - 1:
        j = n - 1
        swapped = False
        while j > i:
            if lyst[j] < lyst[j-1]:             # 从后往前遍历
                swap(lyst, j, j-1)
                swapped = True
            j -= 1
        if not swapped:
            break
        i += 1
    print(lyst)

In [48]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
bubbleSort3(test_que)

[0, 1, 2, 3, 5, 7, 10]


## 3. 插入排序 (insertion sort)
将未排序部分的第一个插入到已排序中的合适位置
- 外循环控制未排序序列的**起始索引**
- 内循环通过交换相邻元素，出入新元素

In [125]:
def insertionSort(lyst, show=True):
    i = 1
    n = len(lyst)
    while i < n:                        # 外循环i来表示未排序的序列的起始索引号
        j = i - 1                       # j表示已排序序列的尾部索引号，这里默认起始第一个0位置元素是已排序的
        insertidx = i
        while j >= 0:
            if lyst[insertidx] < lyst[j]:       # 将待排序中元素插入到已排序序列中，通过交换即可
                swap(lyst, insertidx, j)
                insertidx = j                   # 更新插入的位置
                j -= 1                          # 待比较的索引也左移
            else:                               # 待排序元素大于已排序的最大值，直接放在最后即可
                break      
        i += 1
    if show:
        print(lyst)

In [126]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
# test_que = [0.76, 0.72, 0.92, 0.71, 0.72, 0.74, 0.62, 0.27, 0.67, 0.42]
insertionSort(test_que)

[0, 1, 2, 3, 5, 7, 10]


**总结： 选择、冒泡和插入排序最坏和平均的算法复杂度都是$O(n^2)$**

 ## 4. 快速排序 (quick sort)
 快速排序是从序列中选取一个基准值，然后将序列分成两部分左边的比基准值小，右边的比它大，然后在各自的子序列中递归的进行上述操作，直到子列表为一个数，即排序完成
 - pivot_edge表示小于基准值的子序列的最后一个位置
 - 每次递归一定要指定左右边界，并判断left要小于right，即序列存在再开始递归
 - 每次分割序列后要返回基准值的索引来为子序列的递归提供边界
 
 虽然快速排序采用分治法，将大序列分解为小序列，然后分别排序，但由于是原址操作，所以不需要手动进行合并，自然完成合并过程

In [31]:
def quickSortHelper(lyst, left, right):                      # 需要指定列表的边界，为了后面的递归
    if left < right:                                   # 子列表存在
        pivot_index = partion(lyst, left, right)       # 按基准划分，并返回基准所在索引
        quickSortHelper(lyst, left, pivot_index - 1)         # 左子列表递归
        quickSortHelper(lyst, pivot_index + 1, right)        # 右子列表递归
def partion(lyst, left, right):
    pivot_edge = left - 1                              # 默认从-1开始
    j = left
    while j <= right - 1:                              # 把最后一位作为基准
        if lyst[j] < lyst[right]:
            swap(lyst, j, pivot_edge+1)                # 将最小值交换到边界后一位，并且边界后移
            pivot_edge += 1   
        j += 1
    swap(lyst, pivot_edge+1, right)
    return pivot_edge + 1                              # 返回基准值的索引
def quickSort(lyst):
    left = 0
    right = len(lyst) - 1
    quickSortHelper(lyst, left, right)
    print(lyst)

In [32]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
quickSort(test_que)

[0, 1, 2, 3, 5, 7, 10]


## 5. 归并排序 (merge sort)
将一个元素看做最小的有序列表，然后从两个元素开始逐渐合并，递归地调用合并算法实现排序
- 手动求中点，相当于快速排序中基准值的索引，然后将序列分为两部分，分别进行递归
- 比快速排序多了个合并的递归调用
- 合并两个序列的方法是将两个序列的第一个值比较，将较小的存到原序列中 (原址排序怎么实现?)
《数据结构 (python语言描述)》中P58页归并排序减少分配内存的次数，只在递归调用开始时创建copyBuffer，减少分配和释放次数

### 5.1 每次递归重新分配内存的实现

In [33]:
def mergeSortHelper(lyst, left, right):
    if left < right:                              # 子序列存在
        middle = (left + right) // 2              # 将序列分为两部分
        mergeSortHelper(lyst, left, middle)             # 下面是左右两部分递归
        mergeSortHelper(lyst, middle+1, right)
        merge(lyst, left, middle, right)          # 关键合并操作
def merge(lyst, left, middle, right):
    n1 = middle - left + 1                        # 这里包括left，所以要加1
    n2 = right - middle                           # 不包括middle，所以不需要加1
    # ！！！每次调用需要分配和释放内存，开销较大
    left_seq  = lyst[left:middle+1].copy()        # 开辟新空间(浅层复制)，暂存左右两部分序列
    right_seq = lyst[middle+1:right+1].copy()
    left_seq.append(float('inf'))                 # 将无穷大加到子列表后面，减少比较次数，简化代码
    right_seq.append(float('inf'))
#     print(left_seq, ' | ', right_seq)
#     left_seq, right_seq = list(map(lambda x: x, [left_seq, right_seq]))    # 这句话导致序列为NoneType？？？
#     print(left_seq, ' | ', right_seq)
    i,j = 0, 0
    for k in range(left, right+1):
        if left_seq[i] < right_seq[j]:
            lyst[k] = left_seq[i]                 # 将较小的值存回原列表
            i += 1
        else:
            lyst[k] = right_seq[j]
            j += 1
def mergeSort(lyst):
    left = 0
    right = len(lyst) - 1
    mergeSortHelper(lyst, left, right)
    print(lyst)

In [34]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
mergeSort(test_que)

[0, 1, 2, 3, 5, 7, 10]


### 5.2 递归前只进行一次内存分配的实现¶

In [35]:
import array

In [573]:
def mergeSort2(lyst):
    copyBuffer = array.array('i', range(len(lyst)))            # 递归调用前只分配一次内存
    mergeSortHelper2(lyst, copyBuffer, 0, len(lyst)-1)
    print(lyst)
def mergeSortHelper2(lyst, copyBuffer, left, right):
    if left < right:
        middle = (left + right) // 2
        mergeSortHelper2(lyst, copyBuffer, left, middle)        # 左边序列递归 
        mergeSortHelper2(lyst, copyBuffer, middle+1, right)     # 右边序列递归
        merge2(lyst, copyBuffer, left, middle, right)
def merge2(lyst, copyBuffer, left, middle, right):
    i = left                                                   # 左边序列开始索引
    j = middle + 1                                             # 右边序列开始索引
    for k in range(left, right+1):
        if i > middle:                                         # 左边的序列已经遍历完
            copyBuffer[k] = lyst[j]
            j += 1
        elif j > right:                                        # 右边的序列遍历完
            copyBuffer[k] = lyst[i]
            i += 1
        elif lyst[i] < lyst[j]:                                # 左边序列的第一个值小一点
            copyBuffer[k] = lyst[i]
            i += 1
        else:                                                  # 右边序列第一个值小一点
            copyBuffer[k] = lyst[j]
            j += 1
    for tmp in range(left, right+1):                           # 将已经归并完成的序列存入原来的序列中，注意有边界
        lyst[tmp] = copyBuffer[tmp]

In [574]:
test_que = [7, 0, 1, 3, 2, 10, 5]
mergeSort2(test_que)

[0, 1, 2, 3, 5, 7, 10]


## 6. 堆排序 (heap sort)
通过构建最大(最小)堆，然后每次将堆顶的值与最后一位交换，之后再对除最后一个位置的序列递归地进行排序，因此最小堆得到递减排序，最大堆得到递增排序

### 6.1 使用数组存储堆
利最大堆进行升序排序，如果从第1位开始存储数据，第0位置作为辅助位不存数据，父结点$i$和子结点$j$有如下关系：

>左子结点：$j = 2*i$

>右子结点：$j = 2*i+1$

- 先将数据组织成最大堆，这样堆顶元素一直是最大的
- 然后将堆顶与末尾的元素进行交换，注意这时重新调整最大堆只需要从**根结点**开始即可，因为除了根结点其他父结点已经满足最大堆的条件
- 在递归函数中，如果子结点值大于父结点，需要进行交换，之后需要对交换后的子结点继续递归(将该结点看做新的父节点)

参考：[堆排序(递归实现)](https://www.runoob.com/python3/python-heap-sort.html)  [堆排序(循环实现)](https://www.jianshu.com/p/d174f1862601)

In [144]:
def heapSort(lyst):
    lyst = [None] + lyst                                  # 第0位添加辅助位
    heapSortHelper(lyst)
    print('排序结果：')
    print(lyst[1:])
def heapSortHelper(lyst):
    n = len(lyst) - 1                                  # 由于第0位置是辅助位，结点数需要减一             
    last_no_leaf = n // 2                              # 堆是完全二叉树，最后一个非叶子结点是[n/2] 
    # 将数组处理为最大堆
    for i in range(last_no_leaf, 0, -1):               # 以最后一个非叶子结点为父结点开始交换数据，然后遍历到根结点
        heapify(lyst, n, i)
    print('大顶堆建立完成：')
    print(lyst[1:])
        
    # 利用最大堆进行排序
    for j in range(n, 1, -1):                          # 遍历n个结点，进行排序
        lyst[1], lyst[j] = lyst[j], lyst[1]            # 将堆顶与最后一个位置交换
        heapify(lyst, j-1, 1)                          # 已经是最大堆，只需从根结点开始调整即可！！！

def heapify(lyst, n, i):
    """
    function：创建最大堆
    n：结点的个数
    i：起始开始交换的位置索引(可以从最后非叶子结点开始)，当前父结点
    """
    largest = i                                       # 先假定父结点最大
    l = 2 * i                                         # 左右孩子的结点序号(使用时需要判断是否存在该结点)
    r = 2 * i + 1
    if l <= n and (lyst[largest] < lyst[l]):          # 如果左孩子大，记录索引值
        largest = l
    if r <= n and (lyst[largest] < lyst[r]):          # 如果右孩子大，记录索引值
        largest = r
        
    if largest != i:
        lyst[i], lyst[largest] = lyst[largest], lyst[i]  # 最大值上浮，交换
        heapify(lyst, n, largest)

In [282]:
test_que = [7, 0, 1, 3, 2, 10, 5]
# test_que = [-2,-1, 0, 1, 3, 2, 10, 5]
heapSort(test_que)

大顶堆建立完成：
[10, 3, 7, 0, 2, 1, 5]
排序结果：
[0, 1, 2, 3, 5, 7, 10]


### 6.2 使用类实现堆
其实就是将数组包装成类的，与直接用数组一样，这里第0位使用辅助位

参考：[堆 python实现](https://zhuanlan.zhihu.com/p/29637903)

In [422]:
class Heap(object):
    def __init__(self, data=[]):
        self.data_list = [None] + data
    def size(self):
        return len(self.data_list) - 1    # 使用辅助位，所以结点个数要减一
    def left_node(self, father):          # father,child是结点对应的索引        
        return 2 * father
    def right_node(self, father):
        return 2 * father + 1
    def father_node(self, child):
        return child // 2                 # 如果数据从第1位开始存储，父结点和孩子结点有2倍关系
    def swap(self, node1, node2):         # 交换结点元素
        self.data_list[node1], self.data_list[node2] = self.data_list[node2], self.data_list[node1]
        
    def heapify(self, size, father):
        """
        func:递归地将较大的值交换到父结点
        size:堆的大小，即结点个数
        father:当前父结点
        """
        largest_node = father
        left_node = self.left_node(father)
        right_node = self.right_node(father)
        
        if left_node <= size and self.data_list[left_node] > self.data_list[largest_node]:    # 左子结点大
            largest_node = left_node
        if right_node <= size and self.data_list[right_node] > self.data_list[largest_node]:  # 右子结点大
            largest_node = right_node
        
        if largest_node != father:                        # 需要结点交换
            self.swap(largest_node, father)
            self.heapify(size, largest_node)
    def build_heap(self):
        """
        func:建立堆，这里是大顶堆
        """
        for i in range(self.size()//2, 0, -1):            # 从最后一个非叶子结点往前遍历
            self.heapify(self.size(), i)
        print('大顶堆建立完成：')
        print(self.data_list[1:])
    def insert(self, new_data):
        """
        func: 插入新元素
        new_data：表示待插入的元素
        """
        self.data_list.append(new_data)
        self.build_heap()                                      # 重新建立堆
    def get_max(self):
        """
        func:获取最大值，并将该值从堆中取出
        """
        if self.size() == 0:                                   # 没有数据
            return None
        self.swap(1, -1)                                       # 把堆顶交换到最后一个位置
        max_value = self.data_list.pop(-1)                     # 将最后一个元素取出
        return max_value
    def sort(self):
        print('当前序列：')
        print(self.data_list[1:])
        self.build_heap()                                      # 排序前一定要是最大堆
        for i in range(self.size(), 1, -1):
            self.swap(1, i)
            self.heapify(i-1, 1)                               # 只从根结点开始调整堆
        print('排序的结果：')
        print(self.data_list[1:])

In [538]:
test_que = [7, 0, 1, 3, 2, 10, 5]
bigheap = Heap(test_que)
bigheap.sort()

当前序列：
[7, 0, 1, 3, 2, 10, 5]
大顶堆建立完成：
[10, 3, 7, 0, 2, 1, 5]
排序的结果：
[0, 1, 2, 3, 5, 7, 10]


In [539]:
bigheap.build_heap()

大顶堆建立完成：
[10, 5, 7, 3, 1, 0, 2]


In [540]:
bigheap.insert(20)                                       # 插入新元素

大顶堆建立完成：
[20, 10, 7, 5, 1, 0, 2, 3]


In [541]:
bigheap.get_max()                                        # 获取最大值

20

## 7. 计数排序 (counting sort)
假设n个输入元素都在[0,k]之间，这样可以使用计数排序，时间复杂度为$O(k+n)$，这个是稳定的排序算法，对于每个元素x，统计小于它自己的个数为k，然后该元素x就可以放在k+1的位置了(假定位置从1开始算起)，这里需要两个辅助数组，一个用来存放排序结果，一个用来统计次数

这里先假设元素都是0~10之间的
- 需要新的空间来辅助排序
- 利用数字出现的次数来简化排序过程，排序是稳定的

**注意：这里实现的计数排序算法无法对负数进行排序**

参考《算法导论第三版》P109

In [563]:
def countingSort(lyst, k):
    """
    k: 数组中数的范围
    """
    sortlyst = [0 for _ in range(len(lyst))]         # 定义与原数组大小相同的0数组 (这里数组和列表代表一个意思)
    counter = [0 for _ in range(k+1)]                # 值为i的元素出现次数为counter[i]
    for i in lyst:
        if i > k:
            print('输入数据%d大于排序范围!' % i)
            return
        counter[i] += 1                              # 值为i的元素出现次数累加 
    print('每个数字出现的次数：')
    print(list(range(k+1)))
    print(counter)
    
    # 将等于或小于自己的数字出现的次数累加
    for j in range(1, k+1):
        counter[j] = counter[j] + counter[j-1]
    
    print('小于等于当前数字的次数：')
    print(list(range(k+1)))
    print(counter)
    
    for index in range(len(lyst)-1, -1, -1):         # 反向遍历原数组
        sort_pos = counter[lyst[index]] - 1          # lyst[index]数值应该的存放位置，因为从0开始存储，所以要减1
        sortlyst[sort_pos] = lyst[index]
        counter[lyst[index]] -= 1
    print('排序的结果：')
    print(sortlyst)

In [564]:
test_que = [7, 0, 1, 3, 3, 2, 10, 5]
countingSort(test_que, 10)                           # 这里数字范围0~10

每个数字出现的次数：
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[1, 1, 1, 2, 0, 1, 0, 1, 0, 0, 1]
小于等于当前数字的次数：
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[1, 2, 3, 5, 5, 6, 6, 7, 7, 7, 8]
排序的结果：
[0, 1, 2, 3, 3, 5, 7, 10]


## 8. 基数排序 (radix sort)
先按照个位数将数字进行排序，然后十位数，逐渐增加到最高位，直到将所有数排序完

>给定n个d位数，每一位数有k个可能性(一般来说为10)，则算法时间复杂度为O(d(n+k))

基数排序可以利用上面的计数排序将数字分别从低位到高位排序，直到完成

提取一个数num的某个位上数字的方法：
>(num // (10^i)) % 10 

>当i=0表示提取个位数，i=1表示提取十位数...

参考《算法导论第三版》P111

**注意：下面实现的两个排序，都无法对负数进行排序**

### 8.1 基于计数排序实现的基数排序
可以基于数字的每一位将数组按照计数排序来重排，直到按所有数字排序完成，至此实现基数排序
- 注意，这里placement的范围一定要小于等于最大值，否则10,100,1000...边界值无法参与排序

In [6]:
def radixSort(lyst):
    max_digit = max(lyst)                                 # 获取最大值
    radix = 10 
    placement = 1
    while placement <= max_digit:                         # 被除数小于最大值
        sortlyst = [0 for _ in range(len(lyst))]          # 定义与原数组大小相同的0数组 (这里数组和列表代表一个意思)
        counter = [0 for _ in range(radix)]               # 值为i的元素出现次数为counter[i]
        for i in lyst:
            tmp = (i // placement) % radix                #!!!将某个位置上的数字提取出来
            counter[tmp] += 1                             # 值为tmp的元素出现次数累加 

        # 将等于或小于自己的数字出现的次数累加
        for j in range(1, radix):
            counter[j] = counter[j] + counter[j-1]
        for index in range(len(lyst)-1, -1, -1):          # 反向遍历原数组
            tmp = (lyst[index] // placement) % radix
            sort_pos = counter[tmp] - 1                   # lyst[index]数值应该的存放位置，因为从0开始存储，所以要减1
            sortlyst[sort_pos] = lyst[index]
            counter[tmp] -= 1
        lyst = sortlyst                                   # 将排序后的数组赋值会原数组
        placement *= radix
        
    print('排序的结果：')
    print(lyst)

In [7]:
# test_que = [7, 0, 1, 3, 3, 2, 5, 6, 9, 10, 100]
test_que = [0, 21, 7, 56, 100, 125, 200, 500, 999]
test_que = [0,0,1,23,10,100]
radixSort(test_que)

排序的结果：
[0, 0, 1, 10, 23, 100]


### 8.2 基于桶子实现的基数排序
每次将当前位置的数按照顺序0~9放到不同的桶子中，合成新的数组，然后从低位到高位不断重复这个过程直到排序完成

注意：如果这里只按照**个位数**将数据分桶后，在各个桶内部使用其他排序方法进行排序，最后将所有数据合并，就与桶排序一样了，但是桶排序假设数据是在$[0,1)$上的均匀分布

参考 [github基数排序](https://github.com/TheAlgorithms/Python/blob/master/sorts/radix_sort.py)

In [12]:
def radixSort2(lyst):
    max_value = max(lyst)
    radix = 10               # 数字属于0~9，共10个数
    placement = 1
    while placement <= max_value:
        buckets = [[] for _ in range(radix)]          # 生成10个桶子，每个桶子装的数与桶子编号相同
        for i in lyst:
            tmp = (i // placement) % radix            # 提取某个位上的数字，范围0~9
            buckets[tmp].append(i)                    # 将这个数按照顺序放在桶子中
        print('当前桶子的情况：')
        print(buckets)
        
#         index = 0        
#         for bucket in buckets:
#             for data in bucket:
#                 lyst[index] = data
#                 index += 1
        # 下面的句子实现上面的双重循环
        lyst = [data for bucket in buckets for data in bucket]
        placement *= radix
    print('排序结果：')
    print(lyst)

In [13]:
test_que = [7, 0, 1, 3, 3, 2, 5, 6, 10, 12]
test_que = [0, 21, 7, 56, 100, 125, 200, 500, 999, 10]
radixSort2(test_que)

当前桶子的情况：
[[0, 100, 200, 500, 10], [21], [], [], [], [125], [56], [7], [], [999]]
当前桶子的情况：
[[0, 100, 200, 500, 7], [10], [21, 125], [], [], [56], [], [], [], [999]]
当前桶子的情况：
[[0, 7, 10, 21, 56], [100, 125], [200], [], [], [500], [], [], [], [999]]
排序结果：
[0, 7, 10, 21, 56, 100, 125, 200, 500, 999]


**总结：计数排序、基数排序只适合用在非负整数下**

## 9. 桶排序 (bucket sort)
假设数据是均匀分布，数据是由随机过程产生的，数据是均匀独立的分布在$[0,1)$之间，平均情况时间复杂度是$O(n)$

排序步骤：
> (1) 将n个数分别放在各个桶中

>(2) 将有数据的桶各自进行排序

>(3) 将各自排好序的桶数据按桶顺序拼接

桶排序操作过程：
<img src='notes/images/bucketsort.jpg'>

参考：《算法导论》 P112

In [161]:
import math
def bucketSort(lyst):
    n = len(lyst)
    buckets = [[] for _ in range(n)]             # 建立嵌套的列表，方便以(b)中的方式存储数据
    for i in range(n):
        tmp = math.floor(n * lyst[i])                 # 将原数组元素乘长度，向下取整
        buckets[tmp].append(lyst[i])
    print('分桶后的结果：')
    print(buckets)
    
    for bucket in buckets:                       # 将各个桶中数据取出来
        insertionSort(bucket, show=False)                    # 调用上面的插入排序(稳定排序)对每个子桶进行排序
    print('各个分桶排序的结果：')
    print(buckets)
    
    lyst = [data for bucket in buckets for data in bucket]      # 合并数据
    print('排序的结果：')
    print(lyst)

In [162]:
import random
test_que = [round(random.random(),2) for _ in range(10)]       # round表示取小数点后两位数
print('原数组：')
print(test_que)
bucketSort(test_que)

原数组：
[0.83, 0.15, 0.48, 0.88, 0.66, 0.0, 0.19, 0.6, 0.29, 0.09]
分桶后的结果：
[[0.0, 0.09], [0.15, 0.19], [0.29], [], [0.48], [], [0.66, 0.6], [], [0.83, 0.88], []]
各个分桶排序的结果：
[[0.0, 0.09], [0.15, 0.19], [0.29], [], [0.48], [], [0.6, 0.66], [], [0.83, 0.88], []]
排序的结果：
[0.0, 0.09, 0.15, 0.19, 0.29, 0.48, 0.6, 0.66, 0.83, 0.88]


## 10. 希尔排序 (shell sort)
希尔排序又称递减增量排序，是非稳定算法

步骤：
>(1) 首先确定增量序列，这里我们使用最简单的{1,2,4,8,...}，每次将数据划分为更多小数组，gap=N/increment为划分的组数

>(2) 然后在各个小数组中进行插入排序，插入排序用在长度较小序列时效率很高

>(3) 逐渐减少增量，同时基于增量分割的份数也会增多，直到一个元素分成一份，此时大部分数据已经有序，所以插入排序效率很高

### 10.1 子数组两个循环

In [218]:
# 实现一：使用的循环有点多，最外层循环控制增量大小，第二层循环遍历相同间隔的数据(小于等于最大索引)，最内部的两层进行插入排序
def shellSort(lyst):
    n = len(lyst)
    gap = n // 2                                    # 增量，初始为数组长度的一半
    while gap > 0:
        i = 0
        k = 0

        while i + gap * k < n:                      # 当前数组范围[i+0*gap,i+1*gap,i+2*gap,...]要保证小于n
            for j in range(1, k+1):                 # 注意这里的j属于[1,k]!!!
                insertitem = i + gap * j            # 获取当前组中间隔为gap的元素索引
                p = i + gap * (j - 1)               # 获取当前组内insertitem左边的一个索引位置         
                while p >= i:
#                     print(lyst)
                    p, insertitem = list(map(int, [p, insertitem]))     # 转换为整数
                    if lyst[insertitem] < lyst[p]:                      # 如果右边的数小，则交换
                        swap(lyst, insertitem, p)
                        insertitem = p                                  # 更新当前insertitem的位置索引，再与左边数据对比
                        p -= gap                                        # 同时更新待遇insertitem比较的索引，左移gap个位置
                    else:
                        break                     
            k += 1          
        i += 1
        gap = gap // 2                              # 增量递减为原来的一半，n/2,n/4,n/8,...,1，减到一后停止
    print(lyst)

In [219]:
test_que = [0, 1, 3, 3, 2, 5, 6, 10, 12]
test_que = [0, 21, 7, 56, 100, 125, 200, 500, 999, 10]
shellSort(test_que)

[0, 7, 10, 21, 56, 100, 125, 200, 500, 999]


### 10.2 子数组一个循环
小组内只将末尾的数放到正确位置，怎么保证最终的排序效果？？

如果是索引[0,1,2,3,4,5,6,7,8.9]，开始的gap=4，则分为4组，下面是四组的序号
>0 4 8

>1 5 9

>2 6

>3 7

根据程序第6行处理方法，在处理0 4 8索引时，0 4已经处理过了，已经是有序的了，此时只需要将索引8对应的数据插入合适的位置即可

参考：[希尔排序](https://www.jianshu.com/p/40dcc3b83ddc)

In [230]:
def shellSort2(lyst):
    gap = 1
    while gap < len(lyst) // 2 :
        gap  = gap * 2 + 1                            # 不加一也可以  
    while gap > 0:
        for i in range(gap, len(lyst)):
            tmp = lyst[i]
            j = i - gap
            
            while j >= 0 and lyst[j] > tmp:           # 只将tmp放在对应的位置上
                lyst[j+gap] = lyst[j]
                j -= gap
            lyst[j+gap] = tmp
        gap = math.floor(gap/2)
    print(lyst)

In [231]:
test_que = [0, 1, 3, 3, 2, 5, 6, 10, 12, 2]
# test_que = [0, 21, 7, 56, 100, 125, 200, 500, 999, 10]
shellSort2(test_que)

[0, 1, 2, 2, 3, 3, 5, 6, 10, 12]


## 11. 混合排序 (Timsort)

参考：[Timsort详解](https://www.jianshu.com/p/892ebd063ad9) [github timsort](https://github.com/TheAlgorithms/Python/blob/master/sorts/tim_sort.py) [Timsort——自适应、稳定、高效排序算法](https://blog.csdn.net/sinat_35678407/article/details/82974174)