算法练习

根据&#60;Grokking Algorithms&#62; by Aditya Bhargava

算法动图网站：https://visualgo.net/en

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
import sys
import datetime as dt

# 算法简介

## 算法复杂度

大$O$表示法指出了最差情况下算法的运行时间，即算法运行时间的上限

## 二分查找

算法复杂度 $O(\log n)$，前提条件必须在已排序数组中使用

In [2]:
def binary_search(array, item):
    low = 0
    high = len(array)-1
    while low < high-1:
        mid = (low+high)//2
        if item == array[mid]:
            print('The Index of the Item is: {}'.format(mid))
            return
        elif item < array[mid]:
            high = mid
        else:
            low = mid
    print('No Such Item in the Array.')


binary_search(list(range(100)), 10)

The Index of the Item is: 10


# 选择排序

## 数据结构：数组与链表

- 数组在内存中是相连的，如果添加新元素时内存对数组预留的空间不足，则需要重新分配内存并重新安排数组。
- 链表中的元素存放在内存的任意位置，每个链表记录下个元素在内存中的位置。

- 读取：
数组$O(1)$，链表$O(n)$
- 插入：
数组$O(n)$，链表$O(1)$
- 删除：
数组$O(n)$，链表$O(1)$

## 选择排序

算法复杂度$O(n^2)$

In [3]:
# 最小值
def find_smallest(array):
    smallest_index = 0
    for i in range(len(array)):
        if array[i] < array[smallest_index]:
            smallest_index = i
    return smallest_index


# 实现选择排序
def selection_sort(array):
    sorted_list = []
    for i in range(len(array)):
        sorted_list.append(array.pop(find_smallest(array)))
    return sorted_list


selection_sort([9, 3, 0, 5, 7, 8, 1, 4, 2, 6])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# 递归

## 基线条件和递归条件

递归函数自己调用自己，为避免无限循环，每个递归函数都有两部分，基线条件(base case)和递归条件(recursive case)。
- 递归条件指函数调用自己
- 基线条件指函数不再调用自己

## 栈

栈也是一种数据结构，遵循后进先出（LIFO）原则。
栈有两种基本操作：进栈（push, 压栈）和出栈（pop）
调用栈是用来控制一系列子程序的栈，用于储存多个函数的栈称为调用栈。每调用一个程序，系统就会对这个程序分配一块内存，然后依次堆叠。当一个程序调用结束后，栈顶的内存块被弹出，从而返回到上一个程序。
在调用另一个函数时，当前函数暂停，所有变量储存在内存中。

# 快速排序

## 分治法与递归

In [4]:
# 使用递归的方式求列表元素和
def recursion_sum(array):
    if len(array) == 0:
        return 0
    else:
        return array[0]+recursion_sum(array[1:])


recursion_sum([2, 4, 6])

12

In [5]:
# 使用递归方式求列表元素数
def recursion_count(array):
    if len(array) == 0:
        return 0
    else:
        return 1+recursion_count(array[1:])


recursion_count(list(range(10)))

10

In [6]:
# 使用递归方式求列表最大元素
def recursion_max(array):
    if len(array) == 0:
        return None
    else:
        if array[0] >= recursion_max(array[1:]):
            return array[0]
        else:
            return recursion_max(array[1:])


# 使用递归方式求列表最大元素（书中答案）
def recursion_max_book(list):
    if len(list) == 2:
        return list[0] if list[0] > list[1] else list[1]
    sub_max = recursion_max_book(list[1:])
    return list[0] if list[0] > sub_max else sub_max


print(recursion_max([-11, 5, 2, 4, -8, 9, 3, 10]))
print(recursion_max_book([-11, 5, 2, 4, -8, 9, 3, 10]))

10
10


## 快速排序

算法平均复杂度$O(n\log n)$，最坏复杂度$O(n^2)$

In [7]:
# 使用分治与递归实现快速排序
def quick_sort(array):
    if len(array) < 2:
        return array
    else:
        pivot = array[0]
        small_list = []
        large_list = []
        for i in array[1:]:
            if i <= pivot:
                small_list.append(i)
            else:
                large_list.append(i)
        return quick_sort(small_list)+[pivot]+quick_sort(large_list)


# 使用分治与递归实现快速排序（书中答案）
def quick_sort_book(array):
    if len(array) < 2:
        return array
    else:
        pivot = array[0]
        # 书中使用了列表推导式简化代码
        less = [i for i in array[1:] if i <= pivot]
        greater = [i for i in array[1:] if i > pivot]
        return quick_sort_book(less)+[pivot]+quick_sort_book(greater)


print(quick_sort([-11, 5, 2, 4, -8, 9, 3, 10]))
print(quick_sort_book([-11, 5, 2, 4, -8, 9, 3, 10]))

[-11, -8, 2, 3, 4, 5, 9, 10]
[-11, -8, 2, 3, 4, 5, 9, 10]


尽管使用大$O$表示复杂度时不同算法的大$O$可能相同，但是实际上，大$O$忽略了算法所需的固定时间量（*常量*）的部分。因此，有时候常量的影响会比较大。例如简单查找的复杂度为$O(n)$，而二分查找的复杂度为$O(\log n)$，因此常量$c$的影响无关紧要，但是尽管快速排序和归并排序的平均算法复杂度均为$O(n\log n)$，由于快速排序的常量$c$较小，因此很多时候快速排序的速度更快。

计算复杂度时，可以先看平均情况下/最坏情况下，调用栈的高度$O()$，再看每层调用栈的时间$O()$，最后计算得出整体的算法时间复杂度。

# 散列表（哈希表）

散列表使用散列函数（哈希函数）将输入映射为一个数字，通过数字标定数组的索引，从而提高查找效率。
- 散列函数要满足一致性，相同的输入要能产出相同的结果。
- 如果不同的输入产出了相同的结果，则称为散列冲突，也称为哈希碰撞。显然，如果要存放10个数，分配10000个内存空间，碰撞的概率会非常低，但是造成了系统资源的浪费。
因此，理想的散列函数的基础要求是简单易于计算，同时要能够在尽量小的空间上均匀分布产出的结果，同时尽量减少散列冲突的可能。
*注意：散列冲突是无法避免的，因为输出的数量是给定的，而输入的数量是无限的，因此冲突是必然发生的。*

散列表的应用：
- 用来查找
- 防止重复（因为只能有唯一的键值）
- 用来缓存

由于散列冲突不可避免，因此需要考虑如何解决散列冲突的问题。很常见的解决方法是先根据散列函数生成数组，每个散列函数指向这个数组的头部，后续一旦出现多个键值指向同一个位置的散列冲突，则在对应的数组后创建一个链表用以追加元素。但是这带来的问题是如果链表很长，则查询效率会大幅下降。*一个好的散列函数会避免产生过长的链表。*

最差情况下，散列表的复杂度为$O(n)$，即链表（但是内存消耗更大）。

填装因子=散列表包含的元素数/位置总数
显然填充因子要小于等于1，因为一旦超过1则必然发生碰撞。理想的填充因子是0.7，一旦大于0.7则需要调整散列表的长度。