# 各种排序的实现和复杂度分析
https://blog.csdn.net/yushiyi6453/article/details/76407640
### 比较
https://en.wikipedia.org/wiki/Sorting_algorithm#Bubble_sort

In [7]:
import numpy as np

In [8]:
def check(data):
    for i in range(len(data)-1):
        if data[i] > data[i+1]:
            return False
    return True

In [9]:
class Sort():
    def __init__(self):
        return
    def insertion_sort(self, data):
        """
        插排
        """
        n = len(data)
        if n <= 1:
            return data
        for i in range(1,n):
            index = i
            for j in range(i-1, -1, -1):
                if data[index] <= data[j]:        
                    data[index], data[j] = data[j], data[index]
                    index -= 1
        return data
    
    def bubble_sort(self, data):
        """
        冒泡排序
        
        """
        n = len(data)
        if n <= 1:
            return data
        for i in range(n-1):
            for j in range(n-1-i):
                if data[j] > data[j+1]:
                    data[j], data[j+1] = data[j+1], data[j]
        return data
    def selection_sort(self, data):
        """
        选择排序
        """
        n = len(data)
        if n <= 1:
            return data
        for i in range(n):
            min_val = data[i]
            min_index = i
            for j in range(i+1, n):
                if data[j]<min_index:
                    min_val = data[j]
                    min_index = j
            data[min_index], data[i] = data[i], data[min_index]
        return data
    
    def merge_sort(self, data):
        """归并排序"""
        n = len(data)
        if n <= 1:
            return data
        mid = n//2
        left = self.merge_sort(data[:mid])
        right = self.merge_sort(data[mid:])
        il, ir = 0, 0
        ll, lr = len(left), len(right)
        ans = []
        while (il<ll) and (ir<lr):
            if (left[il] <= right[ir]):
                ans.append(left[il])
                il += 1
            else:
                ans.append(right[ir])
                ir += 1
        if il == ll:
            ans = ans + list(right[ir:])
        else:
            ans = ans + list(left[il:])
        return ans    
    def heap_sort(self, data):
        """
        堆排序
        """
        n=len(data)
        def max_heapify(data, i):
            # heap维护，假设除了i其他的都已经是heap了，我们使用这个函数来让i回到正确位置
            n = len(data)
            left, right = 2*i + 1, 2*i + 2
            largest = i
            if left < n and (data[left] > data[largest]):
                largest = left
            if right < n and (data[right] > data[largest]):
                largest = right
            if largest == i:
                return
            else:
                data[i], data[largest] = data[largest], data[i]
                max_heapify(data, largest)
        def build_heap(data):
            mid = n//2
            for i in range(mid, -1, -1):
                max_heapify(data, i)
            return data
        # Build a maximum heap list
        tmp = build_heap(data)
        for i in range(n):
            tmp[n-i-1], tmp[0] = tmp[0], tmp[n-1-i]
            data[n-i-1] = tmp[n-i-1]
            tmp = tmp[:-1]
            max_heapify(tmp, 0)
        return data
    def quick_sort(self, data):
        """
        快排
        """
        def quick_sort_inside(data, left, right):
            if left >= right:
                return
            else:
                position = left - 1
                val = data[right]
                for i in range(left, right): # right is not included
                    if data[i]<val:
                        position += 1
                        data[i], data[position] = data[position], data[i]
                data[right], data[position+1] = data[position+1], data[right]
            quick_sort_inside(data, left, position)
            quick_sort_inside(data, position+2, right)
        quick_sort_inside(data, 0, len(data)-1)
        return data

In [18]:
sort_sol = Sort()
data = np.random.randint(0, 100000, 5000)

In [19]:
%%time
quick = list(sort_sol.quick_sort(data))

Wall time: 31.3 ms


In [20]:
%%time
heap = list(sort_sol.heap_sort(data))

Wall time: 93.5 ms


In [21]:
%%time
merge = sort_sol.merge_sort(data)

Wall time: 15.6 ms


In [22]:
%%time
insertion = sort_sol.insertion_sort(data)

Wall time: 2.89 s


In [23]:
%%time
bubble = sort_sol.bubble_sort(data)

Wall time: 3.03 s


In [24]:
%%time
selection = sort_sol.selection_sort(data)

Wall time: 2.91 s


In [25]:
sum(abs(np.array(heap) - np.array(bubble)))

0

### Note
在堆排序（小根堆）的时候，每次总是将最小的元素移除，然后将最后的元素放到堆顶，再让其自我调整。这样一来，有很多比较将是被浪费的，因为被拿到堆顶的那个元素几乎肯定是很大的，而靠近堆顶的元素又几乎肯定是很小的，最后一个元素能留在堆顶的可能性微乎其微，最后一个元素很有可能最终再被移动到底部。在堆排序里面有大量这种近乎无效的比较。随着数据规模的增长，比较的开销最差情况应该在（线性*对数）级别，如果数据量是原来的10倍，那么用于比较的时间开销可能是原来的10log10倍。

   堆排序的过程中，需要有效的随机存取。比较父节点和字节点的值大小的时候，虽然计算下标会很快完成，但是在大规模的数据中对数组指针寻址也需要一定的时间。而快速排序只需要将数组指针移动到相邻的区域即可。在堆排序中，会大量的随机存取数据；而在快速排序中，只会大量的顺序存取数据。随着数据规模的扩大，这方面的差距会明显增大。在这方面的时间开销来说，快速排序只会线性增长，而堆排序增加幅度很大，会远远大于线性。

  在快速排序中，每次数据移动都意味着该数据距离它正确的位置越来越近，而在堆排序中，类似将堆尾部的数据移到堆顶这样的操作只会使相应的数据远离它正确的位置，后续必然有一些操作再将其移动，即“做了好多无用功”。
