# 第四章 快速排序

In [1]:
# 参考链接： https://www.cnblogs.com/NEWzyz/p/8917660.html

## 一、分而治之 D&C (divide and conquer)

使用D&C解决问题的过程包括两个步骤：
- 找出简单的基线条件；
- 确定如何缩小问题的规模，使其符合基线条件。

### 练习

In [2]:
# exercise 4.1: 
def sumFunc(mylist):
    if mylist == []:
        return 0
    return mylist[0] + sumFunc(mylist[1:])

In [3]:
sumFunc([2,4,6,8,10,12,13])

55

In [4]:
# exercise 4.2: 
def countNum(mylist):
    if mylist == []:
        return 0
    return 1 + countNum(mylist[1:])

In [5]:
countNum([3,4,5])

3

In [6]:
# exercise 4.3:  Find the max number of a list
def findMax(mylist):
    # base case
    if len(mylist) == 2:
        return mylist[0] if mylist[0] > mylist[1] else mylist[1]
    
    # recursive case
    sub_max = findMax(mylist[1:])
    return mylist[0] if mylist[0] > sub_max else sub_max

In [7]:
findMax([4,2,7,6,11,43,1,90,9,20])

90

In [8]:
# exercise 4.4:
# 二分查找的基线条件是数组只包含一个元素。如果要查找的值与这个元素相同，就找到了！否则说明它不在数组中。
# 递归条件为 把数组分成两半，将其中一半丢弃，并对另一半执行二分查找。

## 二、快速排序

### 1. 原理（步骤）

- （1）选择基准值
- （2）将数组分成两个子数组：小于基准值的元素和大于基准值的元素
- （3）分别对这两个子数组进行快速排序（基于递归思路快排）

In [9]:
import numpy as np
def quickSort(mylist):
    # base case: 空数组或只有一个元素的数组是“有序”的
    if len(mylist) < 2:
        return mylist
    
    # recursive case
    # 1）基准值: 取数组的第一个元素作为基准值
    pivot = mylist[0]
    # 2）划分子数组
    less = [i for i in mylist[1:] if i <= pivot]    # 小于基准值的元素组成的子数组
    large = [j for j in mylist[1:] if j > pivot]    # 大于基准值的元素组成的子数组
    # 3）子数组进行快速排序 ---- recursive
    left = quickSort(less)
    right = quickSort(large)
    print(left + [pivot] + right)
    
    return left + [pivot] + right                   # pivot int数据，需要[]

In [10]:
quickSort([34,23,1,51,7,56,22,11,98,6,70,55])

[11, 22]
[6, 7, 11, 22]
[1, 6, 7, 11, 22]
[1, 6, 7, 11, 22, 23]
[70, 98]
[55, 56, 70, 98]
[51, 55, 56, 70, 98]
[1, 6, 7, 11, 22, 23, 34, 51, 55, 56, 70, 98]


[1, 6, 7, 11, 22, 23, 34, 51, 55, 56, 70, 98]

### 2. 快速排序的运行时间 大O表示法

- 快速排序的独特之处在于，其运行速度高度依赖于选择的基准值。


- 快速查找的最糟糕情况：O(n^2);   平均情况: O(n * log n)


- 快速查找的常量c（固定时间量）比合并查找小，因此如果它们的运行时间都为O(n * log n)，快速查找的速度将更快。

时间复杂度：

         (a) 最糟糕情况下，调用栈的栈长为O(n)
         (b) 最佳情况下，调用栈的栈长为O(log n) --- 即less和large元素接近相等，时间复杂度基本上与二分查找的一致，即O(log n)
         
- 由于在调用栈的每一层都涉及到所有的元素，因此每一层调用栈的时间复杂度为O(n)。
- 最糟糕情况： 运行时间 O(n) * O(n) = O(n^2)
- 最佳的情况： 运行时间 O(log n) * O(n) = O(n * log n)

**（1）当数据有序时，以第一个关键字为基准分为两个子序列，前一个子序列为空，此时执行效率最差。**

**（2）当数据随机分布时，以第一个关键字为基准分为两个子序列，若两个子序列的元素个数接近相等，此时执行效率最好。**
- **数据越随机分布时，快速排序性能越好；数据越接近有序，快速排序性能越差。**
- **对于无序的序列而言，最佳情况也是平均情况。只要每次都随机选择一个数组元素作为基准值，快速排序的平均运行时间就将是O(n * log n)**

## 三、小结

- D&C将问题逐步分解。使用D&C处理列表时,基线条件很可能是空数组或只包含一个元素的数组。
- 实现快速排序时,请随机地选择用作基准值的元素。快速排序的平均运行时间为O(n log n)。
- 大O表示法中的常量有时候事关重大,这就是快速排序比合并排序快的原因所在。
- 比较简单查找和二分查找时,常量几乎无关紧要,因为列表很长时, O(log n)的速度比O(n)快得多。