# 排序和查找

## 1 - 排序算法

注：以下排序算法都按从小到大排序

**如何分析一个排序算法？**

- 执行效率：
    - 最好、最坏、平均情况时间复杂度：
    - 时间复杂度的系数、常数、低阶：
    - 比较次数和交换(或移动)次数：
- 内存消耗：
    - 原位排序(Sorted in place)：特指空间复杂度为O(1)的排序算法；
- 稳定性：
    - 定义：如果待排序的序列中存在值相等的元素，经过排序后，相等元素之间原有的先后顺序不变；

### 1.1 - 选择排序 (Selection Sort)

- 将数组分为有序区间和无序区间（初始有序区间为空，无序区间为整个数组）
- 每次从无序区间选择最小的元素，并和该区间第一个元素交换位置，重复此操作直到排列完成。

In [1]:
def SelectionSort(nums):
    for i in range(len(nums) - 1):
        min_index = i
        for j in range(i + 1, len(nums)):
            if nums[min_index] > nums[j]:
                min_index = j
        nums[i], nums[min_index] = nums[min_index], nums[i]
    return nums

In [2]:
# test case
nums = [5, 8, 5, 2, 9]
SelectionSort(nums)

[2, 5, 5, 8, 9]

分析：
- 时间复杂度：
    - 最好：O(n<sup>2</sup>)
    - 最坏：O(n<sup>2</sup>)
    - 平均：O(n<sup>2</sup>)
- 原位排序算法
- 不稳定排序：每次从无序区间选择最小的元素，并和该区间第一个元素交换位置，破坏了原有的顺序。例：[5, 8, 5, 2, 9]

### 1.2 - 冒泡排序 (Bubble Sort) 

- 将待排序数组分为无序区间和有序区间（初始无序区间为整个数组，初始有序区间为空且位于无序区间后面）
- 在无序区间中，从左到右依次比较相邻两个元素，如果左侧元素大于右侧元素，则两者交换位置。这样的比较每进行一轮，就能将无序区间中最大的元素放到其末尾。这就如同冒泡一样，所以称作“冒泡算法”。

In [3]:
# solution 1
def BubbleSort_1(nums):
    for i in range(len(nums) - 1):
        exchange = False # 提前退出循环的标志
        for j in range(len(nums) - 1 - i):
            if nums[j] > nums[j + 1]:
                nums[j], nums[j+1] = nums[j+1], nums[j]
                exchange = True
        if not exchange: # 如果exchange=False，说明数组已排序完成
            break
    return nums

In [4]:
# test case
nums =  [5, 8, 5, 2, 9]
BubbleSort_1(nums)

[2, 5, 5, 8, 9]

In [5]:
# solution 2
def BubbleSort_2(arr):
    i = len(arr) - 1
    while i > 0:
        last_exchange = 0
        for j in range(i):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
                last_exchange = j
        # 经过一轮比较后，nums[:last_exchange]为有序区间，nums[last_exchange:]为无序区间
        i = last_exchange
    return arr

In [6]:
# test case
nums =  [5, 8, 5, 2, 9]
BubbleSort_2(nums)

[2, 5, 5, 8, 9]

分析：

- 原位排序算法
- 稳定排序算法：两个元素相等时不交换位置
- 时间复杂度：
    - 最好：对正序数组，O(n)
    - 最坏：对倒序数组，O(n<sup>2</sup>)
    - 平均：O(n<sup>2</sup>)

### 1.3 - 插入排序 (Insertioin Sort)
- 将待排序数组分为有序区间和无序区间，初始有序区间仅含数组的第一个元素。
- 每次取无序区间的第一个元素放入有序区间的正确位置(从后往前进行比较）。

In [7]:
# solution 1 - for loop
def InsertionSort_1(nums):
    for i in range(1, len(nums)):
        tmp = nums[i]
        j = i - 1
        for j in range(i-1, -2, -1):
            if nums[j] > tmp: # 如果该元素大于tmp，就把它往后移动一个位置
                nums[j+1] = nums[j]
            else:
                break
        nums[j + 1] = tmp # 把tmp插入正确的位置
    return nums

思考：为什么for loop在-1结束：

答：这是为了区分nums[0]的两种情况。

- 如果nums[0] > tmp，则应该把nums[0]向后移动一个位置，然后将tmp移动到nums[0]。所以应该使j=-1.
- 如果nums[0] < tmp，则j=0并退出循环，然后将tmp移动到nums[1]。所以应该使j=0.

如果 for loop在0结束，则上述两种情况都会以j=0退出循环，无法做出区分。

但如果for loop在-1结束，第一种情况以j=-1退出，第二种情况以j=0退出，刚好符合条件。(j=-1时多做的那次比较对最终顺序没有影响）

In [8]:
# test case
a = [5, 8, 1, 2, 9]
InsertionSort_1(a)

[1, 2, 5, 8, 9]

In [9]:
# solution 2 - while loop
def InsertionSort_2(nums):
    for i in range(1, len(nums)):
        tmp = nums[i]
        j = i - 1
        while j >= 0:
            if nums[j] > tmp: # 如果该元素大于tmp，就把它往后移动一个位置
                nums[j+1] = nums[j]
                j -= 1
            else:
                break
        nums[j + 1] = tmp # 把tmp插入正确的位置
    return nums

In [10]:
# test case
nums =  [5, 8, 1, 2, 4]
InsertionSort_2(nums)

[1, 2, 4, 5, 8]

**补充说明**：

for loop 和 while loop的区别
- for loop结束后，i的值为循环内允许的最小值/最大值
- while loop结束后，i的值为跳出循环的第一个值

In [11]:
n = 10
for i in range(n, -1, -1):
    continue
print(i)

0


In [12]:
i = n-1
while i >=0:
    i -= 1
    continue
print(i)

-1


总结：**插入排序**

- 原位排序算法
- 稳定排序算法
- 时间复杂度：
    - 最好：对正序数组，O(n)
    - 最坏：对倒序数组，O(n<sup>2</sup>)
    - 平均：O(n<sup>2</sup>)


### 1.4 - 希尔排序

希尔排序是插入排序的改进版，也称为**缩小增量排序**。

原理：

- 对数组按一定增量分组，对每组使用插入排序算法；
- 增量缩小为原来的一半，重复上面的操作；
- 不断缩小增量，当增量减至1时，排序完成。

希尔排序使数组先达到宏观上的有序，再达到微观上的有序，从而有效减少数据的移动次数。

In [13]:
def ShellSort(nums):
    gap = len(nums) // 2
    while gap > 0:
        for i in range(gap, len(nums)):
            tmp = nums[i]
            j = i - gap
            while j >= 0:
                if nums[j] > tmp:
                    nums[j + gap] = nums[j]
                    j -= gap
                else:
                    break
            nums[j + gap] = tmp
        gap //= 2
    return nums

In [14]:
# test case
a = [3, 1, 5, 2, 4]
ShellSort(a)

[1, 2, 3, 4, 5]

希尔排序就是在插入排序的基础上，增加了一个控制增量（gap）的外循环。

总结：**希尔排序**

- 原位排序
- 不稳定排序：虽然插入排序是稳定的，但希尔排序不稳定，因为希尔排序采用的是跳跃性插入，可能会破坏原有的顺序。例：[7, 5, 5, 8]
- 时间复杂度：可以突破O(n<sup>2</sup>)的限制


- 冒泡排序、选择排序在实际开发中应用很少
- 插入排序适用于小规模数据，其改进版希尔排序在实际应用中很常用

### 1.5 - 归并排序 (Merge Sort)

先将序列分成从中间两个部分，两边各自排序，然后将排序后的序列合并。

In [15]:
# solution 1：A和B从最后一个元素开始比较
def Merge_1(A, B):
    # A, B已经排好序
    C = [0] * (len(A) + len(B))
    i = len(C) - 1
    while A and B:
        if A[-1] < B[-1]:
            C[i] = B.pop()
        else:
            C[i] = A.pop()
        i -= 1
    if A:
        C[:i+1] = A
    if B:
        C[:i+1] = B
    return C

def MergeSort_1(nums):
    if len(nums) <= 1:
        return nums
    mid = len(nums) // 2
    left = MergeSort_1(nums[:mid])
    right = MergeSort_1(nums[mid:])
    return Merge_1(left, right)

In [16]:
# test case
a = [5, 8, 1, 2, 4]
MergeSort_1(a)

[1, 2, 4, 5, 8]

In [17]:
# solution 2：A和B从第一个元素开始比较
def Merge_2(A, B):
    C = [0] * (len(A) + len(B))
    a, b, c = 0, 0, 0
    while a < len(A) and b < len(B):
        if A[a] < B[b]:
            C[c] = A[a]
            a += 1
        else:
            C[c] = B[b]
            b += 1
        c += 1
    if a < len(A):
        C[c:] = A[a:]
    elif b < len(B):
        C[c:] = B[b:]
    return C

def MergeSort_2(nums):
    if len(nums) <= 1:
        return nums
    mid = len(nums) // 2
    left = MergeSort_2(nums[:mid])
    right = MergeSort_2(nums[mid:])
    return Merge_1(left, right)

In [18]:
# test case
a = [3, 1, 5, 2, 4]
MergeSort_2(a)

[1, 2, 3, 4, 5]

总结：**合并排序**

- 非原位排序：空间复杂度O(n)
- 稳定排序
- 时间复杂度：
    - 最好：O(nlogn)
    - 最坏：O(nlogn)
    - 平均：O(nlogn)

对于所有基于比较的排序方法，其时间复杂度都>=O(nlogn)

### 1.6 - 快速排序 (Quick Sort) 

1. 选取待排数组中任意一个数字作为分区点pivot（主元）
2. 遍历数组中的元素，把小于pivot的元素放到pivot左边，大于pivot的元素放到pivot右边
3. 对pivot两侧的区域重复步骤1和步骤2，直至分区长度为1。

In [19]:
# solution 1：选取第一个元素作为pivot
def Partition_1(nums, start, end):
    pivot = nums[start] 
    j = start # j是小于等于pivot的元素所在区间的右边界
    for i in range(start + 1, end + 1):
        if nums[i] <= pivot:
            j += 1
            nums[i], nums[j] = nums[j], nums[i]
    nums[start], nums[j] = nums[j], nums[start] # 把主元放入正确的位置
    return j
    
def QuickSort_1(nums, start, end):
    if start >= end:
        return
    m = Partition_1(nums, start, end)
    QuickSort_1(nums, start, m - 1)
    QuickSort_1(nums, m + 1, end)

In [20]:
# test case
a = [3, 1, 5, 2, 4]
QuickSort_1(a, 0, len(a)-1)
a

[1, 2, 3, 4, 5]

In [21]:
# solution 2：随机选取pivot
import random
def Partition_2(nums, start, end):
    p = random.randint(start, end)
    pivot = nums[p]
    j = start 
    nums[start], nums[p] = nums[p], nums[start]
    for i in range(start + 1, end + 1):
        if nums[i] <= pivot:
            j += 1
            if i != j:
                nums[i], nums[j] = nums[j], nums[i]
    nums[start], nums[j] = nums[j], nums[start]
    return j
    
def QuickSort_2(nums, start, end):
    if start >= end:
        return
    m = Partition_2(nums, start, end)
    QuickSort_2(nums, start, m - 1)
    QuickSort_2(nums, m + 1, end)

In [22]:
# test case
a = [3, 1, 5, 2, 4]
QuickSort_2(a, 0, len(a)-1)
a

[1, 2, 3, 4, 5]

In [23]:
# 选取最后一个元素作为主元
def Partition_3(nums, start, end):
    pivot = nums[end]
    j = start
    for i in range(start, end):
        if nums[i] <= pivot:
            if i != j:
                nums[i], nums[j] = nums[j], nums[i]
            j += 1
    nums[j], nums[end] = nums[end], nums[j]
    return j

def QuickSort_3(nums, start, end):
    if start >= end:
        return 
    m = Partition_3(nums, start, end)
    QuickSort_3(nums, start, m - 1)
    QuickSort_3(nums, m + 1, end)

In [24]:
# test case
a = [3, 1, 5, 2, 4]
QuickSort_3(a, 0, len(a)-1)
a

[1, 2, 3, 4, 5]

总结：快速排序

- 原位排序
- 不稳定排序：分区过程中涉及交换操作，相等元素的先后顺序会改变，如[6, 8, 7, 6, 3, 4,]，pivot为第一个6。
- 时间复杂度：
    - 最坏：分区极不平衡（如:有序数据+每次选择第一个元素作pivot，或者数组里的数字全部一样）O(n<sup>2</sup>)
    - 最好：分区平衡，O(nlogn)
    - 平均：绝大部分情况都是O(nlogn)
    
**快速排序优化：**

- 三数取中法：从区间的首、尾、中间分别取出一个数，选择三个数的中间值作为分区点；
- 如果要排序的区间很大，可以"五数取中"、"十数取中"等

### 1.7 - 三区快速排序（3-Way Quick Sort）

快速排序的改进版，主要针对数组里有大量相同数字的情况。

原理：
- 将数组分为三个区域：小于pivot，等于pivot，大于pivot

**有bug版**

下面这个代码有bug，但是非常不容易发现，所以放在这里供回顾，争取下次不要再犯了！

In [25]:
# 有bug！！！
def Partition3(nums, start, end):
    pivot = nums[end]
    i = start # 小于x的元素的右边界
    j = end - 1 # 大于x的元素的左边界
    p = start # 左边区域==pivot的元素的右边界
    q = end - 1 # 右边区域==pivot的元素的左边界
    
    while True:
        # 从左到右，找到第一个>=pivot的元素的位置
        while nums[i] < pivot: # 
            i += 1
        # 从右到左，找到第一个<=pivot的元素的位置
        while nums[j] > pivot: # <-- bug，如果nums[j]刚好等于pivot，那么j就不会改变了，所以必须比较下一个元素
            j -= 1
        # 如果i>=j，分区结束
        if i >= j:
            break
        
        nums[i], nums[j] = nums[j], nums[i]
        
        # 把左边区域所有==pivot的元素放到其开头
        if nums[i] == pivot:
            nums[i], nums[p] = nums[p], nums[i]
            p += 1
        # 把右边区域所有==pivot的元素放到其末尾
        if nums[j] == pivot:
            nums[j], nums[q] = nums[q], nums[j]
            q -= 1
    
    # 把pivot放到正确位置
    nums[end], nums[i] = nums[i], nums[end]
    
    # 把左边区域中等于pivot的元素放到其末尾
    j = i - 1
    k = start
    while k < p:
        nums[k], nums[j] = nums[j], nums[k]
        k += 1
        j -= 1
    
    # 把右边区域中等于pivot的元素放到其开头
    i = i + 1
    k = end - 1
    while k > q:
        nums[k], nums[i] = nums[i], nums[k]
        k -= 1
        i += 1
    
    return j, i
    
def QuickSort3(nums, start, end):
    if start >= end:
        return 
    j, i = Partition3(nums, start, end)
    QuickSort3(nums, start, j)
    QuickSort3(nums, i, end)

In [26]:
# test case
a = [1, 4, 2, 6, 9, 8, 9, 4, 7, 3, 6]
QuickSort3(a, 0, len(a)-1)
a

[1, 2, 3, 4, 4, 6, 6, 9, 7, 8, 9]

**正确版**

In [27]:
def QuickSort3(arr, left, right):
    if left >= right:
        return 
    m1, m2 = Partition3(arr, left, right)
    QuickSort3(arr, left, m1)
    QuickSort3(arr, m2, right)
    
def Partition3(arr, left, right):
    pivot = arr[right]
    p = left - 1 # 列表左侧用于暂时存放等于pivot的元素的右边界（闭区间）
    q = right # 列表右侧用于暂时存放等于pivot的元素的左边界
    i = left - 1 # 小于pivot的元素的右边界（闭区间）
    j = right # 大于pivot的元素的左边界
    
    # 划分左区域和右区域
    while True:
        # 划分左区域(<pivot)
        while arr[i + 1] < pivot:
            i += 1
        i += 1
        # 划分右区域（>pivot)
        while arr[j - 1] > pivot:
            j -= 1
        j -= 1
        if i >= j:
            break
        arr[i], arr[j] = arr[j], arr[i]
        
        # 如果左区域最右边的值等于pivot，就把它放到列表开头，暂时储存
        if arr[i] == pivot:
            p += 1
            arr[i], arr[p] = arr[p], arr[i]
        # 如果右区域最左边的值等于pivot，就把它放到列表末尾，暂时储存
        if arr[j] == pivot:
            q -= 1
            arr[j], arr[q] = arr[q], arr[j]
    
    # 把pivot放入正确的位置
    arr[i], arr[right] = arr[right], arr[i]
    
    # 将等于pivot的元素放入中间区域  
    j = i - 1 # 左区域右边界
    k = left
    while k <= p:
        arr[k], arr[j] = arr[j], arr[k]
        k += 1
        j -= 1
    
    i = i + 1 # 右区域左边界
    k = right - 1
    while k >= q:
        arr[k], arr[i] = arr[i], arr[k]
        k -= 1
        i += 1
    
    return j, i

In [28]:
# test case
a = [1, 4, 2, 6, 9, 8, 9, 4, 7, 3, 6]
QuickSort3(a, 0, len(a)-1)
a

[1, 2, 3, 4, 4, 6, 6, 7, 8, 9, 9]

分析：

- 原位排序
- 不稳定排序：分区过程中涉及交换操作，相等元素的先后顺序会改变.例，[3, 6, 9, 8, 4, 6], pivot为第二个6
- 时间复杂度：
    - 最坏：分区极不平衡（如:有序数据+每次选择第一个元素作pivot），O(n<sup>2</sup>)
    - 最好：分区平衡，O(nlogn)
    - 平均：绝大部分情况都是O(nlogn)

### 1.8 - 计数排序 (Counting Sort) 

- 假设数列为A[1...n]，里面数字变化的范围为1~m。
- 记录数字1~m的出现频次。
- 新建一个数组，把数字按记录的频次从小到大依次填进去。

In [29]:
def CountingSort(nums):
    # 找到数列的最大值(即找到数字的变化范围)
    max_num = a[0]
    for i in range(1, len(nums)):
        if a[i] > max_num:
            max_num = a[i]
    # 创建统计数组，统计数字出现的频次
    count = [0] * (max_num + 1)
    for i in range(len(nums)):
        count[nums[i]] += 1
    # 计算每种数字在sorted_nums中所属区域的右边界（开区间）
    for i in range(1, max_num + 1):
        count[i] = count[i-1] + count[i]
    # 排序
    sorted_nums = [0] * len(nums)
    for i in range(len(nums)-1, -1, -1):
        pos = count[nums[i]] - 1
        sorted_nums[pos] = nums[i]
        count[nums[i]] -= 1
    return sorted_nums

In [30]:
# test case
a = [2, 5, 7, 3, 2, 9, 1]
CountingSort(a)

[1, 2, 2, 3, 5, 7, 9]

分析：**计数排序**

假设数组长度为n，数字的最大值为m，则计数排序：

- 非原位排序：空间复杂度O(n)
- 稳定排序
- 时间复杂度：
    - 最坏：O(n+m)
    - 最好：O(n+m)
    - 平均：O(n+m)

**计数排序适用于：**

- m和n的值相近或m << n，m越小，效果越好。例如，高考分数0-750，考生共有100万个，可用计数排序对考生排名。
- 数字均为非负整数。如果为负数，需要在不改变数字相对大小的情况下将数字改变为非负整数。

### 总结
排序算法 | 原位与否 | 稳定与否 | 时间复杂度 | 最坏时间复杂度| 最好时间复杂度
:-: | :-: | :-: | :-: | :-: | :-:
选择排序 | 原位 | 不稳定 | O(n<sup>2</sup>) | O(n<sup>2</sup>)| O(n<sup>2</sup>)
冒泡排序 | 原位 | 稳定 | O(n<sup>2</sup>) | O(n<sup>2</sup>)| O(n)
插入排序 | 原位 | 稳定 | O(n<sup>2</sup>) | O(n<sup>2</sup>)| O(n)
希尔排序 | 原位 | 不稳定 | <O(n<sup>2</sup>) | / | /
归并排序 | 非原位 | 稳定 | O(nlogn) | O(nlogn) | O(nlogn)
快速排序 | 原位 | 不稳定 | O(nlogn) | O(n<sup>2</sup>) | O(nlogn)
3区快速排序 | 原位 | 不稳定 | O(nlogn) | O(n<sup>2</sup>)| O(nlogn)
计数排序 | 非原位 | 稳定 | O(n+m) | O(n+m) | O(n+m) 

## 2 - 查找算法

### 2.1 - 顺序查找/线性搜索 (Linear Search)

- 在待查找的区间中，从前往后逐个遍历，找到目标则返回对应位置，否则返回None。
- 适用于未排序的数组
- 时间复杂度：O(n)

In [31]:
# 迭代版本
def linear_search_iteration(arr, key):
    for i in range(len(arr)):
        if arr[i] == key:
            return i
    return None

In [32]:
# test case
a = [8, 5, 10, 4, 1]
print(linear_search_iteration(a, 2))
print(linear_search_iteration(a, 4))

None
3


In [33]:
# 递归版本
def linear_search_recursion(arr,low, high, key):
    if high < low:
        return None
    if arr[low] == key:
        return low
    return linear_search_recursion(arr, low+1, high, key)

In [34]:
# test case
a = [8, 5, 10, 4, 1]
print(linear_search_iteration(a, 2))
print(linear_search_iteration(a, 4))

None
3


### 2.2 - 二分查找(Binary Search)
- 将**排序数组**分为两部分，选择目标元素所在的部分；然后将这部分二分，再次选择该元素所在的部分……就这样不断二分，直到中点刚好就是目标元素。
- 时间复杂度：O(log n)

In [35]:
# 迭代版本
def binary_search_iteration(arr, key):
    low = 0
    high = len(arr)
    while low <= high:
        mid = (low + high) // 2
        if arr[mid] == key:
            return mid
        elif arr[mid] < key:
            low = mid + 1
        else:
            high = mid - 1
    return None

In [36]:
# test case
a = [3, 5, 8, 10, 12, 15, 18, 20, 20, 50, 60]
print(binary_search_iteration(a, 14))
print(binary_search_iteration(a, 15))
print(binary_search_iteration(a, 20))

None
5
8


In [37]:
# 递归版本
def binary_search_recursion(arr, low, high, key):
    if high < low:
        return None
    mid = (low + high) // 2
    if arr[mid] == key:
        return mid
    if arr[mid] < key:
        return binary_search_recursion(arr, mid+1, high, key)
    return binary_search_recursion(arr, low, mid-1, key)

In [38]:
# test case
a = [3, 5, 8, 10, 12, 15, 18, 20, 20, 50, 60]
print(binary_search_recursion(a, 0, len(a), 14))
print(binary_search_recursion(a, 0, len(a), 15))
print(binary_search_recursion(a, 0, len(a), 20))

None
5
8
