![sort.png](attachment:sort.png)



In [None]:
"""
关于时间复杂度：
  平方阶 (O(n2)) 排序 各类简单排序： 直接插入、直接选择、冒泡排序。
  线性对数阶 (O(nlog2n)) 排序：    希尔排序、 堆排序 、快速排序、归并排序；
  线性阶（O(n1+§)) 排序，§ 是介于 0 和 1 之间的常数： 计数排序、桶排序；
  线性阶 (O(n*k)) 排序 基数排序；

关于稳定性：
  排序后 2 个相等键值的顺序和排序之前它们的顺序相同
  稳定的排序算法：冒泡排序、插入排序、归并排序和基数排序。
  不是稳定的排序算法：选择排序、快速排序、希尔排序、堆排序。

名词解释：
  n：数据规模
  k：“桶”的个数
  In-place：占用常数内存，不占用额外内存
  Out-place：占用额外内存
 """

In [1]:
%%time
import numpy as np 
import matplotlib.pyplot as plt
from matplotlib import animation
from IPython.display import HTML
#%matplotlib notebook

Wall time: 927 ms


In [2]:
"""[交换排序法]
1.冒泡排序（Bubble Sort）也是一种简单直观的排序算法。它重复地走访过要排序的数列，一次比较两个元素，
如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经
排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。
  
时间复杂度： 平均时间复杂度为 Ο(n^2），最好 Ο(n），最坏 Ο(n^2））。
空间复杂度：Ο(1)。
稳定性：稳定
In-place：占用常数内存，不占用额外内存

算法步骤
  比较相邻的元素。如果第一个比第二个大，就交换他们两个。
  对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。
  针对所有的元素重复以上的步骤，除了最后一个。
  持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。
"""

def bubble_sort(arr):
    for i in range(1, len(arr)):
        for j in range(0, len(arr)-i):
            if arr[j] > arr[j+1]:
                arr[j], arr[j + 1] = arr[j + 1], arr[j]  
    return arr


numbers = np.random.randint(100000000,size=100000)
print(numbers)
%time bubble_sort(numbers)
print(numbers)

[ 3333854 39166786 94789396 ... 57415393 19081748 56339503]
Wall time: 1h 13min 2s
[     187      595      634 ... 99997156 99997281 99999059]


In [None]:
#动画演示冒泡排序法
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import animation
%matplotlib auto  

N = 15
MAX = 100
MIN = 10

y1 = np.random.randint(MIN, MAX, size=N)
y2 = np.zeros(N, dtype = np.int)
y3 = np.zeros(N, dtype = np.int) #用来覆盖y1以表现颜色变化

figsize = 9, 5
fig, ax = plt.subplots(figsize = figsize)

plt.title('Bubble Sort', fontsize=24, color='DodgerBlue')

#plt.yticks([0],[]) #现实y轴0轴，但其他刻度不显示
#plt.xticks(range(5), ('Tom','Dick','Harry','Sally','Sue'), color='blue', rotation=60)
plt.xticks([]) #x轴不显示

plt.box(False)

#bar_colors = []
#for i in range(N):
#    bar_colors.append('DarkSeaGreen')


bar1 = ax.bar(range(N), y1, color='DarkSeaGreen')

bar3 = ax.bar(range(N), y3, color='DarkGoldenrod')

bar2 = ax.bar(range(N), y2, color='DarkGoldenrod')

#ax.clear()


def init():
    #global y1, y2
    
    ax.set_ylim(-MAX, MAX)
    '''
    bars1 = ax.bar(range(N), y1, color='DarkSeaGreen')

    for x, y in zip(range(N), y1):
        if y != 0: ax.text(x+0.05,y+0.05,'%i'%y, ha='center',va='top', color='DarkSlateBlue') 
        
    bars2 = ax.bar(range(N), y2, color='DarkGoldenrod')

    for x, y in zip(range(N), y2):
        if y != 0: ax.text(x+0.05,y+0.05,'%i'%-y, ha='center',va='bottom', color='MediumVioletRed')


'''
    ax.grid(which='major', axis='y', linestyle='-', color='DarkSeaGreen') #plt.yticks([0],[])时不能发挥作用
      
    #return bar1, bar2


def bubble_sort_frames():
    
    for i in range(1, len(y1)):
        
        for j in range(0, len(y1)-i):            
               
            y3[j] = y1[j]
            y3[j+1] = y1[j+1]
            yield j
            
            if y1[j] > y1[j+1]:
                
                y2[j] = -y1[j]
                y1[j] = 0
                y3[j] = 0
                yield j
                
                y1[j] = y1[j+1]
                y3[j] = y1[j+1]
                y1[j+1] = 0 
                y3[j+1] = 0
                y2[j+1] = y2[j]
                y2[j] = 0
                yield j
                
                y1[j+1] = -y2[j+1]
                y3[j] = y1[j]
                y3[j+1] = y1[j+1]
                y2[j+1] = 0
                yield j
            
            y3[j] = 0
            y3[j+1] = 0 
            yield j


def update_bar(index):
    
    for rect ,y in zip(bar1, y1): rect.set_height(y)
        
    for rect ,y in zip(bar3, y3): rect.set_height(y)
        
    for rect ,y in zip(bar2, y2): rect.set_height(y)
    
    #return bar1, bar2


#FuncAni*(fig, func, frames=None, init_func=None, interval=200, blit=True, repeat=True, repeat_delay=None )
ani = animation.FuncAnimation(fig, func=update_bar, frames=bubble_sort_frames(), init_func=init(),
                              interval = 600,  blit=False)

plt.show()

In [2]:
"""[交换排序法]
2.快速排序(Quick Sort)是由东尼·霍尔所发展的一种排序算法。在平均状况下，排序 n 个项目要 Ο(nlogn) 次
比较。在最坏状况下则需要 Ο(n^2) 次比较，但这种状况并不常见。事实上，快速排序通常明显比其他 Ο(nlogn) 
算法更快，因为它的Ο(nlogn) 记号中隐含的常数因子很小，比复杂度稳定等于 O(nlogn) 的归并排序要小很多。
同时它的内部循环（inner loop）可以在大部分的架构上很有效率地被实现出来。

快速排序使用分治法（Divide and conquer）策略来把一个串行（list）分为两个子串行（sub-lists）。
是一种分而治之思想在排序算法上的典型应用。本质上来看，快速排序应该算是在冒泡排序基础上的递归分治法。
 
时间复杂度： 平均时间复杂度为 Ο(nlogn)，最好 Ο(nlogn)），最坏 Ο(n^2）。
空间复杂度：Ο(nlogn)。
稳定性：不稳定
In-place：占用常数内存，不占用额外内存

算法步骤
  从数列中挑出一个元素，称为 “基准”（pivot）;
  重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以
  到任一边）。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区（partition）操作；
  递归地（recursive）把小于基准值元素的子数列和大于基准值元素的子数列排序；

  递归的最底部情形，是数列的大小是零或一，也就是永远都已经被排序好了。虽然一直递归下去，但是这个算法总
  会退出，因为在每次的迭代（iteration）中，它至少会把一个元素摆到它最后的位置去。
"""

#真正的快排
def quick_sort(arr, left=None, right=None):
    
    left = 0 if not isinstance(left,(int, float)) else left
    right = len(arr)-1 if not isinstance(right,(int, float)) else right
    
    if left < right:
        partitionIndex = partition(arr, left, right)
        quick_sort_2(arr, left, partitionIndex-1)
        quick_sort_2(arr, partitionIndex+1, right)
        
    return arr

#指针从两头向中间靠拢，比从一头快，数据交换效率高
def partition(arr,left,right):
    #选定中值
    mid = arr[left]
    leftmark = left+1
    rightmark = right
    done = False
    
    while not done:
        while leftmark<=rightmark and arr[leftmark]<=mid:
            leftmark=leftmark+1
        while rightmark>=leftmark and arr[rightmark]>=mid:
            rightmark-=1
        #两标相错就结束移动
        if rightmark<leftmark:  
            done=True
        #左右两标指向的值交换，继续移动
        else:
            arr[leftmark], arr[rightmark] = arr[rightmark], arr[leftmark]
            
    arr[left], arr[rightmark] = arr[rightmark], arr[left]
    
    return rightmark

def swap(arr, i, j):
    arr[i], arr[j] = arr[j], arr[i]


#伪快排.因为数据交换效率不高。很容易溢出
#quick_sort_1 = lambda array: array if len(array) <= 1 else quick_sort_1([item for item in array[1:] if item <= array[0]]) + [array[0]] + quick_sort_1([item for item in array[1:] if item > array[0]])
quick_sort_1 = lambda array: array if len(array) <= 1 else (
    quick_sort_1([item for item in array[1:] if item <= array[0]])
    + [array[0]]
    + quick_sort_1([item for item in array[1:] if item > array[0]]) )

#用栈实现非递归的快排程序，慢
def quick_sort_2(array, l, r):
    if l >= r:
        return
    stack = []
    stack.append(l)
    stack.append(r)
    while stack:
        low = stack.pop(0)
        high = stack.pop(0)
        if high - low <= 0:
            continue
        x = array[high]
        i = low - 1
        for j in range(low, high):
            if array[j] <= x:
                i += 1
                array[i], array[j] = array[j], array[i]
        array[i + 1], array[high] = array[high], array[i + 1]
        stack.extend([low, i, i + 2, high])

        
numbers = np.random.randint(100000000,size=1000000) #百万数据量
print(numbers)
np.random.shuffle(numbers)
print(numbers)
%time numbers = quick_sort(numbers)
#%time quick_sort_1(numbers)
#%time quick_sort_2(numbers, 1, len(numbers)-1)
print(numbers)

[18089374 23935044 91232325 ... 68115646 43996787 33454721]
[68641774 74062024 39296429 ... 14580324 23339078 37825516]
Wall time: 1min 35s
[      41       57      251 ... 99999892 99999931 99999945]


In [None]:
"""[二、插入排序法]
1.插入排序(Insertion Sort)的代码实现虽然没有冒泡排序和选择排序那么简单粗暴，
但它的原理应该是最容易理解的了，因为只要打过扑克牌的人都应该能够秒懂。插入排序是
一种最简单直观的排序算法，它的工作原理是通过构建有序序列，对于未排序数据，在已排
序序列中从后向前扫描，找到相应位置并插入。

插入排序和冒泡排序一样，也有一种优化算法，叫做拆半插入 希尔排序(Shell Sort)。

平均时间复杂度：O(N^2)。
空间复杂度：O(1)。
稳定性：稳定
In-place：占用常数内存，不占用额外内存

算法步骤
  将第一待排序序列第一个元素看做一个有序序列，把第二个元素到最后一个元素当成是未排序序列。
  从头到尾依次扫描未排序序列，将扫描到的每个元素插入有序序列的适当位置。
  （如果待插入的元素与有序序列中的某个元素相等，则将待插入元素插入到相等元素的后面。）
"""
def insertion_sort(arr):
    for i in range(len(arr)):
        preIndex = i-1
        current = arr[i]
        while preIndex >= 0 and arr[preIndex] > current:
            arr[preIndex+1] = arr[preIndex]
            preIndex-=1
        arr[preIndex+1] = current
    return arr

numbers = np.random.randint(100000000,size=100000)
print(numbers)
%time insertion_sort(numbers)
print(numbers)

In [None]:
#动画演示 插入排序法
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import animation
%matplotlib auto  

N = 15
MAX = 100
MIN = 10

y1 = np.random.randint(MIN, MAX, size=N)
y3 = np.zeros(N, dtype = np.int) #用来覆盖y1以表现颜色变化
y5 = np.zeros(N, dtype = np.int) #用来覆盖y1以表现 已经排好的序列最后1位
y2 = np.zeros(N, dtype = np.int) #反向显示用于移动


figsize = 9, 5
fig, ax = plt.subplots(figsize = figsize)

plt.title('insertion Sort', fontsize=24, color='DodgerBlue')
plt.xticks([]) #x轴不显示
plt.box(False)

bar1 = ax.bar(range(N), y1, color='DarkSeaGreen') #绿
bar3 = ax.bar(range(N), y3, color='DarkGoldenrod') #黄
bar5 = ax.bar(range(N), y5, color='Crimson')  #红
bar2 = ax.bar(range(N), y2, color='DarkGoldenrod')


def init():    
    ax.set_ylim(-MAX, MAX)
    ax.grid(which='major', axis='y', linestyle='-', color='DarkSeaGreen') 
    #plt.yticks([0],[])时不能发挥作用      
    #return bar1, bar2


def insertion_sort_frames():
    
    for i in range(len(y1)):

        preIndex = i-1
        current = y1[i]
        
        y3[i] = y1[i]
        if preIndex >= 0:
            y5[preIndex] = y1[preIndex] #标记红色代表前面已经排好顺序的最后1位
        yield i
        
        while preIndex >= 0 and y1[preIndex] > current:
            if preIndex + 1 == i:
                y2[preIndex+1] = -y1[preIndex+1] 
                y1[preIndex+1] = 0
                y3[preIndex+1] = 0
                yield i
                               
            y1[preIndex+1] = y1[preIndex]
            y5[preIndex+1] = y1[preIndex] if preIndex + 1 == i else 0
            y1[preIndex] = 0
            y3[preIndex] = 0
            y5[preIndex] = 0
            y2[preIndex] = y2[preIndex+1]
            y2[preIndex+1] = 0
            if preIndex > 0 :
                y3[preIndex-1] = y1[preIndex-1]
            yield i
            
            preIndex-=1
            
        y1[preIndex+1] = current
        y3[preIndex+1] = 0
        y5[preIndex+1] = 0
        y2[preIndex+1] = 0 
        if preIndex >= 0:
            y3[preIndex] = 0 
            y5[preIndex] = 0
        yield i
    
    y3[i] = 0
    y5[i] = 0
    yield i



def update_bar(index):
    
    for rect ,y in zip(bar1, y1): rect.set_height(y)        
    for rect ,y in zip(bar3, y3): rect.set_height(y)  
    for rect ,y in zip(bar5, y5): rect.set_height(y) 
    for rect ,y in zip(bar2, y2): rect.set_height(y)    


ani = animation.FuncAnimation(fig, func=update_bar, frames=insertion_sort_frames(), init_func=init(),
                              interval = 600,  blit=False)

plt.show()

In [3]:
"""[二、插入排序法]
2.希尔排序(Shell Sort)
基本原理
希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。
希尔排序是非稳定排序算法。该方法因DL．Shell于1959年提出而得名。 
希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；
一般步长从step=len(arr)//2开始，下一步step=step//2，直至减至1时，整个文件恰被分成一组，算法便终止。

希尔排序的基本思想是：将数组列在一个表中并对列分别进行插入排序，重复这过程，
不过每次用更长的列（步长更长了，列数更少了）来进行。最后整个表就只有一列了。

将数组转换至表是为了更好地理解这算法，算法本身还是使用数组进行排序。

时间复杂度：O(N ^ 1.3　~　N ^ 2）。
空间复杂度：O(1)。
稳定性：不稳定。
In-place：占用常数内存，不占用额外内存

例如，假设有这样13个一组数[ 13 14 94 33 82 25 59 94 65 23 45 27 73]，
如果我们以步长为6开始进行排序，我们可以通过将这列表放在有6列的表中来更好地描述算法，
这样他们就应该看起来是这样(竖着的元素是步长组成)：
13 14 94 33 82 25 
59 94 65 23 45 27
73
然后我们对每列进行排序：
13 14 65 23 45 25
59 94 94 33 82 27  
73

将上述3行数字，依序接在一起时我们得到：[13 14 65 23 45 25 59 94 94 33 82 27 73]。
然后再以3=6//2 为步长进行排序：
13 14 65
23 45 25
59 94 94
33 82 27
73
每列排序之后变为：
13 14 25
23 45 27
33 82 65
59 94 94
73 


将上述5行数字，依序接在一起时我们得到：[13 14 25 23 45 27 33 82 65 59 94 94 73】。

最后以1=3//2步长进行排序（此时就是简单的插入排序了）

"""

def shell_sort(arr):
    
    step= len(arr)//2
    
    while step > 0:
        
        for i in range(step):   #分别对每一个分组进行插入排序      
            
            for j in range(i, len(arr), step):
                preIndex = j-step
                current = arr[j]
                while preIndex >= 0 and arr[preIndex] > current:
                    arr[preIndex+step] = arr[preIndex]
                    preIndex-=step
                arr[preIndex+step] = current
            
        step = step//2
        
    return arr


numbers = np.random.randint(100000000,size=1000000) #百万数据量
print(numbers)
np.random.shuffle(numbers)
print(numbers)
%time shell_sort(numbers)
print(numbers)

[88607433 49465290 81894342 ... 57847456 49643507 27058794]
[54989141 62866252 40193272 ...  5734651  7018392 27664518]
Wall time: 48 s
[     125      334      498 ... 99999596 99999810 99999842]


In [None]:
"""[三、选择排序法]
1.选择排序(Selection Sort)是一种简单直观的排序算法，无论什么数据进去都是 O(n²) 的时间复杂度。
所以用到它的时候，数据规模越小越好。唯一的好处可能就是不占用额外的内存空间了吧。

时间复杂度：O(N^2)。
空间复杂度：O(1)。
稳定性：不稳定。
In-place：占用常数内存，不占用额外内存

算法步骤
  首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置
  再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。
  重复第二步，直到所有元素均排序完毕。
"""
def selection_sort(arr):
    for i in range(len(arr) - 1):
        # 记录最小数的索引
        minIndex = i
        for j in range(i + 1, len(arr)):
            if arr[j] < arr[minIndex]: minIndex = j   #找到最小数索引赋值minIndes

        # arr[i] 和 最小数 arr[minIndex] 进行交换
        arr[i], arr[minIndex] = arr[minIndex], arr[i] 
            
    return arr

numbers = np.random.randint(100000000,size=100000)
print(numbers)
%time selection_sort(numbers)
print(numbers)

In [None]:
#动画演示 选择排序法
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import animation
%matplotlib auto  

N = 15
MAX = 100
MIN = 10

y1 = np.random.randint(MIN, MAX, size=N)
y2 = np.zeros(N, dtype = np.int)
y3 = np.zeros(N, dtype = np.int) #用来覆盖y1以表现颜色变化


figsize = 9, 5
fig, ax = plt.subplots(figsize = figsize)

plt.title('selection Sort', fontsize=24, color='DodgerBlue')
plt.xticks([]) #x轴不显示
plt.box(False)

bar1 = ax.bar(range(N), y1, color='DarkSeaGreen')
bar3 = ax.bar(range(N), y3, color='DarkGoldenrod')
bar2 = ax.bar(range(N), y2, color='Crimson')


def init():    
    ax.set_ylim(-MAX, MAX)
    ax.grid(which='major', axis='y', linestyle='-', color='DarkSeaGreen') 
    #plt.yticks([0],[])时不能发挥作用      
    #return bar1, bar2


def selection_sort_frames():
    
    for i in range(len(y1) - 1):        
        # 记录最小数的索引
        minIndex = i
        
        y3[i] = y1[i]        
        yield i
        tempMin = 0
        for j in range(i + 1, len(y1)):
            y3[j] = y1[j]            
            yield j
            
            if y1[j] < y1[minIndex]:
                if tempMin == 1:
                    y3[minIndex] = 0
                minIndex = j
                tempMin = 1                
            else:
                y3[j] = 0            
                yield j
                
        if i == minIndex:
            y3[i] = 0
            yield i
        else:
            # y1[i] 和 最小数 y1[minIndex] 进行交换    
            y2[i] = -y1[i]
            y1[i] = 0
            y3[i] = 0
            yield minIndex            
            
            y1[i] = y3[minIndex]
            y3[i] = y3[minIndex]            
            y1[minIndex] = 0
            y3[minIndex] = 0
            yield minIndex

            y2[minIndex] = y2[i]
            y2[i] = 0
            yield minIndex
                
            y1[minIndex] = -y2[minIndex]
            y3[minIndex] = y1[minIndex]
            y2[minIndex] = 0
            yield minIndex
            
            y3[i] = 0
            y3[minIndex] = 0
            yield minIndex            


def update_bar(index):
    
    for rect ,y in zip(bar1, y1): rect.set_height(y)        
    for rect ,y in zip(bar3, y3): rect.set_height(y)        
    for rect ,y in zip(bar2, y2): rect.set_height(y)    
    #return bar1, bar2


ani = animation.FuncAnimation(fig, func=update_bar, frames=selection_sort_frames(), init_func=init(),
                              interval = 600,  blit=False)

plt.show()

In [22]:
"""[三、选择排序法]
2.堆排序（Heap Sort）是指利用堆这种数据结构所设计的一种排序算法。
堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引
总是小于（或者大于）它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。
分为两种方法：
  大顶堆：每个节点的值都大于或等于其子节点的值，在堆排序算法中用于升序排列；
  小顶堆：每个节点的值都小于或等于其子节点的值，在堆排序算法中用于降序排列；

时间复杂度： 平均时间复杂度为 Ο(N*logN)，最好，最坏。
空间复杂度： Ο(1)。
稳定性：不稳定。
In-place：占用常数内存，不占用额外内存

算法步骤
  创建一个堆 H[0……n-1]；
  把堆首（最大值）和堆尾互换；
  把堆的尺寸缩小 1，并调用 shift_down(0)，目的是把新的数组顶端数据调整到相应位置；
  重复步骤 2，直到堆的尺寸为 1。
"""

def buildMaxHeap(arr):
    import math
    for i in range(math.floor(len(arr)/2),-1,-1):
        heapify(arr,i)

def heapify(arr, i):
    left = 2*i+1
    right = 2*i+2
    largest = i
    if left < arrLen and arr[left] > arr[largest]:
        largest = left
    if right < arrLen and arr[right] > arr[largest]:
        largest = right

    if largest != i:
        swap(arr, i, largest)
        heapify(arr, largest)

def swap(arr, i, j):
    arr[i], arr[j] = arr[j], arr[i]

def heap_sort(arr):
    global arrLen
    arrLen = len(arr)
    buildMaxHeap(arr)
    for i in range(len(arr)-1,0,-1):
        swap(arr,0,i)
        arrLen -=1
        heapify(arr, 0)
    return arr


numbers = np.random.randint(100000000,size=1000000) #百万数据量
print(numbers)
np.random.shuffle(numbers)
print(numbers)
%time heap_sort(numbers)
print(numbers)

[24070975 79272047 54539230 ... 18214820 11260944  5796180]
[93965521 47301542 20066147 ... 45210868 61388451 43088600]
Wall time: 39.9 s
[     134      179      265 ... 99999415 99999800 99999815]


In [28]:
"""[归并排序]
1.归并排序（Merge sort）是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个
非常典型的应用。作为一种典型的分而治之思想的算法应用，归并排序的实现由两种方法：
  自上而下的递归（所有递归的方法都可以用迭代重写，所以就有了第 2 种方法）:  自下而上的迭代
和选择排序一样，归并排序的性能不受输入数据的影响，但表现比选择排序好的多，因为
始终都是 O(nlogn) 的时间复杂度。代价是需要额外的内存空间。

算法步骤
  申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列；
  设定两个指针，最初位置分别为两个已经排序序列的起始位置；
  比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置；
  重复步骤 3 直到某一指针达到序列尾；
  将另一序列剩下的所有元素直接复制到合并序列尾。
"""
def merge_sort(arr):
    import math
    if(len(arr)<2):
        return arr
    middle = math.floor(len(arr)/2)
    left, right = arr[0:middle], arr[middle:]
    return merge(merge_sort(left), merge_sort(right))

def merge(left,right):
    result = []
    while left and right:
        if left[0] <= right[0]:
            result.append(left.pop(0));
        else:
            result.append(right.pop(0));
    while left:
        result.append(left.pop(0));
    while right:
        result.append(right.pop(0));
    return result


numbers = np.random.randint(100000000,size=1000000) #百万数据量
print(numbers)
np.random.shuffle(numbers)
print(numbers)
%time merge_sort(list(numbers))
print(numbers)

[ 3789621 42811768 67714122 ... 30387235 55723030 79124679]
[71949381 97502840 40809529 ... 44128558 35260657 41916066]
Wall time: 4min 52s
[71949381 97502840 40809529 ... 44128558 35260657 41916066]


In [None]:
"""[非比较排序]
1.计数排序(Counting Sort)的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。
作为一种线性时间复杂度的排序，计数排序要求输入的数据必须是有确定范围的整数
"""
def counting_sort(arr, maxValue):
    bucketLen = maxValue+1
    bucket = [0]*bucketLen
    sortedIndex =0
    arrLen = len(arr)
    for i in range(arrLen):
        if not bucket[arr[i]]:
            bucket[arr[i]]=0
        bucket[arr[i]]+=1
    for j in range(bucketLen):
        while bucket[j]>0:
            arr[sortedIndex] = j
            sortedIndex+=1
            bucket[j]-=1
    return arr


numbers = np.random.randint(100000000,size=1000000) #百万数据量
print(numbers)
np.random.shuffle(numbers)
print(numbers)
%time counting_sort(numbers)
print(numbers)

In [None]:
"""
9.桶(Bucket Sort)排序是计数排序的升级版。它利用了函数的映射关系，高效与否的关键就在于这个映射函数的确定。
为了使桶排序更加高效，我们需要做到这两点：
  在额外空间充足的情况下，尽量增大桶的数量
  使用的映射函数能够将输入的 N 个数据均匀的分配到 K 个桶中
  同时，对于桶中元素的排序，选择何种比较排序算法对于性能的影响至关重要。

什么时候最快: 当输入的数据可以均匀的分配到每一个桶中。
什么时候最慢: 当输入的数据被分配到了同一个桶中。
"""
def bucket_sort(s):
    """桶排序"""
    min_num = min(s)
    max_num = max(s)
    # 桶的大小
    bucket_range = (max_num-min_num) / len(s)
    # 桶数组
    count_list = [ [] for i in range(len(s) + 1)]
    # 向桶数组填数
    for i in s:
        count_list[int((i-min_num)//bucket_range)].append(i)
    s.clear()
    # 回填，这里桶内部排序直接调用了sorted
    for i in count_list:
        for j in sorted(i):
            s.append(j)


numbers = np.random.randint(100000000,size=100000)
print(numbers)
%time bucket_sort(numbers)
print(numbers)

In [None]:
"""
10.基数排序是一种非比较型整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。
由于整数也可以表达字符串（比如名字或日期）和特定格式的浮点数，所以基数排序也不是只能使用于整数。

基数排序 vs 计数排序 vs 桶排序

这三种排序算法都利用了桶的概念，但对桶的使用方法上有明显差异：
  基数排序：根据键值的每位数字来分配桶；
  计数排序：每个桶只存储单一键值；
  桶排序：每个桶存储一定范围的数值；
"""
def radix_sort(list):
    i = 0       #初始为个位排序
    n = 1       #最小的位数置为1（包含0）
    max_num = max(list) #得到带排序数组中最大数
    while max_num > 10**n: #得到最大数是几位数
        n += 1
    while i < n:
        bucket = {} #用字典构建桶
        for x in range(10):
            bucket.setdefault(x, []) #将每个桶置空
        for x in list: #对每一位进行排序
            radix =int((x / (10**i)) % 10) #得到每位的基数
            bucket[radix].append(x) #将对应的数组元素加入到相 #应位基数的桶中
        j = 0
        for k in range(10):
            if len(bucket[k]) != 0: #若桶不为空
                for y in bucket[k]: #将该桶中每个元素
                    list[j] = y #放回到数组中
                    j += 1
        i += 1
return  list


numbers = np.random.randint(100000000,size=100000)
print(numbers)
%time radix_sort(numbers)
print(numbers)

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import animation
%matplotlib auto  


fig, ax = plt.subplots()
x = np.linspace(0, 2*np.pi, 400)
y = np.sin(x)
l = ax.plot(x, y)
dot, = ax.plot([], [], 'ro')

def init():
    ax.set_xlim(0, 2*np.pi)
    ax.set_ylim(-1, 1)
    return l

def gen_dot():
    for i in np.linspace(0, 2*np.pi, 400):
        newdot = [i, np.sin(i)]
        yield newdot

def update_dot(newd):
    dot.set_data(newd[0], newd[1])
    return dot,

ani = animation.FuncAnimation(fig, update_dot, frames = gen_dot, 
                              interval = 20, init_func=init, blit=False)
#ani.save('sin_dot.gif', writer='pillow', fps=60)
plt.show()
#HTML(ani.to_jshtml())
