# 一、引入

目标：什么是数据结构、什么是算法? 两者什么关系？

## 1.1 算法是什么？

算法就是一系列操作步骤的集合，它能够在有限的资源（时间、指令、内存）下，解决被明确定义的问题。
* 问题被明确定义：输入是什么？输出是什么？
* 操作步骤是确定的、明确的、有限的
* 算法的结果是确定的

## 1.2 数据结构是什么？

数据结构定义了数据的组织方式，这种组织方式有多种实现方式。这种组织方式涵盖了数据内容、数据关系、数据行为。例如对于逻辑上的顺序结构，物理上有利用连续存储空间的数组、非连续空间的链表。其中前者用物理上的内存地址的先后顺序表示数据的先后顺序，后者采用指针表示元素的先后顺序，数据行为都包括了增删查改。

每种数据结构都有自己的利弊，比如链表易于删除、插入，但是由于物理空间非连续其访问速度较差。每种数据结构能够经过实践的淘汰被保存下来都有它自己的用武之地，你也可以针对自己的需求设计一种自己的数据结构。

## 1.3 数据结构+算法

两者互相依存缺一不可：数据结构是算法的基石，算法为数据结构注入灵魂；如果说数据结构是对现实世界的静态描述，那么算法就是让这个现实世界活跃起来的灵魂。好比一个厨子手拿锅、铲、调料、食材等数据，那菜谱就是他的算法。只有两者皆上等，才能做出美味的菜肴。

## 1.4 复杂度分析的定义

厨子做出菜了，怎么评价其好坏？算法复杂度分析（时间复杂度、空间复杂度）用于评估一个算法的优劣。这两个维度的评价标准也告诉我们人类是贪心的既要快又要省（时间快、占用硬件资源少）

那么给了两个解决同一问题的算法怎么评价呢？

* 将两个算法在同一台计算机上跑一下记录时间和物理资源暂用不就好了？
  
**局限性**：
* 耗费资源
* 硬件配置不一样，时间就不一样、消耗的内存也不一样。

能不能有一种在纸上就能估算出来的方法呢？有！

**定义**：算法复杂度分析描述了当问题规模的增加，算法执行所需的时间和空间的**增长系数**。

如果想要在实践中学习如何分析时间复杂度和空间复杂度我们需要先理解迭代和递归。所以我们在这一小节仅仅引入复杂度分析的定义，`第5小结了解迭代与递归`；`第6小结分析算法的时间/空间复杂度`。


## 1.5 重要工具：迭代与递归

计算机编程语言Python、Java、C等，基本都支持迭代和递归。它是是我们解决问题的重要工具，你将在各个分治、动态规划、回溯等算法中都能看到它，理解它有助于我们分析和解决问题。**算法是一种逻辑思维、程序语言是一种工具，两者是独立的，不要被语言束缚。你可以用任何一种语言实现你的逻辑思维**

### 1.5.1 迭代

迭代指一种程序控制结构，程序在满足给定的条件下重复的执行某段代码的行为，直到不满足条件为止。Python中常用的迭代控制结构有`for`、`while`循环。

In [6]:
# for循环
arr = [1,2,3,4]
for i in range(len(arr)):
    arr[i] = arr[i]**2
print(arr)

[1, 4, 9, 16]


In [9]:
# while循环
res = []
i = 0
while i<10:
    i = i+1
    i = i**2
    res.append(i)
print(res)

[1, 4, 25]


从结构上看 `while` 的自由度更高，可以灵活的设计进入和跳出循环的条件，使用的时候要灵活的选择。

### 1.5.2 递归

指程序调用自身，包括了 `递` 和 `归` 两个过程

* **递**：程序不断调用自身的过程
* **归**：到达递过程的最深处，开始逐级返回的过程

写递归程序的重点：

* **递归调用**：调用自身的代码
* **终止条件**：程序的出口，这是递转归的重要条件，如果程序一直找不到出口，那么程序会一直调用下去，直到达到调用栈的最大深度。
* **返回结果**：在归的过程中将结果逐级返回

注意递归调用是非常耗费资源的，每次调用都要保存调用函数的当前状态，以保证在调用结束后程序能够恢复当前状态继续执行（其实也是保证了归这个过程顺利执行），很多系统设置了最大的调用栈的深度。

典型的递归调用的例子是 `fibonacci数列` 第 `n` 项是第 `n-1` 和 `n-2` 项的和 即：$fib(n)=fib(n-1)+fib(n-2)$, 其中 $fib(1)=fib(2)=1$ 求当给定任意数字 n 时 $fib(n)$ 的值。

In [None]:
# 求fibonacci数列第n项的值
def fib_recur(n):
    # 程序出口
    if n==1 or n==2:
        return 1
    # 递归调用
    res = fib_recur(n-1)+fib_recur(n-2)
    # 返回结果
    return res
print(fib_recur(10))

55


理解递归调用的过程：

<img src="./recur.png" >

递归调用栈分析：

<img src="./fib.png">

我们发现递归的调用过程中存在着很多的重复计算，其实递归就是一个暴力求解的过程，它的时间、空间复杂度都很低，但是很多算法是基于它优化得来的，其中一个非常常用的优化策略就是**剪枝**，例如在上述图中我们将已经重复计算的 $fib(3) 、fib(4)$ 存储起来，用到的时候直接拿出来用，不用再重复计算，这样就提高时间复杂度，虽然空间复杂度上升了但是在可接受范围内，毕竟存储器比时间要便宜。具体代码如下：

In [25]:
def fib_table(n, table):
    if n==1 or n==2:
        return 1
    # 剪枝策略，减少重复递归计算
    elif table[n]!=-1:
        return table[n]
    res = fib_table(n-1, table)+fib_table(n-2, table)
    table[n] = res # 记录已经求得值
    return res
n = 10
table = [-1]*(n+1)
print(fib_table(n, table))
print(table)

55
[-1, -1, -1, 2, 3, 5, 8, 13, 21, 34, 55]


我们得到了斐波那契数列的递推公式，那能不能根据递推公式从 $fib(1)$ $fib(2)$ 递推得到 $fib(n)$ 呢？：

In [7]:
def fib_dp(n):
    dp_table = [0]*(n+1)
    dp_table[1], dp_table[2] = 1,1
    for i in range(3,len(dp_table)):
        dp_table[i] = dp_table[i-1]+dp_table[i-2]
    return dp_table[n]
print(fib_dp(10))

55


上面递推的过程和递归`归`的过程非常相似！！这个就是斐波那契数列的迭代版本。那还有优化的空间吗，从上述代码我们直到，求 $fib(n)$ 时，我们只用到了 $fib(n-1)$ $fib(n-2)$。所以其实只用三个值就能完成递推的过程。

In [6]:
# 双指针
def fib_doublePoint(n):
    p,q = 1,1
    for _ in range(3, n+1):
        k = p+q
        p = q
        q = k
    return k
print(fib_doublePoint(10))


55


In [33]:
# 时间测试
import time
n = 35

t1 = time.time()
res_recur = fib_recur(n)
t2 = time.time()
print(f"fib_recur | 结果：{res_recur} | 时间：{round(t2-t1,4)} sec")

table = [-1]*(n+1)
t3 = time.time()
res_tab = fib_table(n, table)
t4 = time.time()
print(f"fib_table | 结果：{res_tab} | 时间：{round(t4-t3,4)} sec")

t5 = time.time()
res_tab = fib_dp(n)
t6 = time.time()
print(f"fib_dp | 结果：{res_tab} | 时间：{round(t6-t5,4)} sec")

t7 = time.time()
res_tab = fib_doublePoint(n)
t8 = time.time()
print(f"fib_doublePoint| 结果：{res_tab} | 时间：{round(t8-t7,4)} sec")

fib_recur | 结果：9227465 | 时间：6.8539 sec
fib_table | 结果：9227465 | 时间：0.0 sec
fib_dp | 结果：9227465 | 时间：0.0005 sec
fib_doublePoint| 结果：9227465 | 时间：0.0 sec


### 1.5.3 思考
1. `递归`和`迭代`是计算机程序语言提供的用于重复计算（重复执行某个代码块）的重要工具，计算机本来就是一个善于暴力求解问题的工具。
2. 递归 `递` 这个阶段可以看作是搜索的过程，直到找到基本解（base case），也就是程序的出口；`归`这个过程是求解的过程，基于基本解递推得到最终解。
3. 对于后面将要学习的重要算法思想，比如： `回溯`、`分治`、`动态规划` 都可以通过递归实现。
4. 很多问题都可以通过递归实现暴力求解，高效的算法都是在暴力求解的基础上减少重复计算：比如回溯算法的剪枝过程。
5. 解决问题的时候一定要注意这个问题有没有： **重复子结构** 和 **最优子问题**，因为前者适合递归、后者适合动态规划
6. 总而言之，在接下来的算法之旅中我尽量从 递归暴力求解——>分析优化——>迭代求解，整个过程慢慢理解什么是算法！！！

## 1.6 时/空间复杂度分析

### 6.1 时间复杂度

时间复杂度分析统计的不是算法运行时间，而是算法运行时间随着数据量变大时的**增长趋势**

### 6.2 空间复杂度

空间复杂度（space complexity）用于衡量算法占用内存空间随着数据量变大时的**增长趋势**

# 二、数据结构

## 2.1 顺序结构

### 2.1.1 数组

### 2.1.2 链表

### 2.1.3 栈

### 2.1.4 队列

## 2.2 树形结构

### 2.2.1 二叉树

### 2.2.1 堆

## 2.3 图结构

# 三、算法

### 3.1 回溯 

本节的安排如下：

3.3.1 二叉树遍历引入回溯算法

3.3.2 回溯算法例题

3.3.3 回溯算法剪枝

3.3.4 回溯算法框架总结

3.3.5 回溯算法框架应用


#### 3.1.2 全排列 I

[D-083. 全排列 I](https://leetcode.cn/problems/VvJkup/)： 给定一个不含重复数字的整数数组 nums ，返回其 所有可能的全排列 。可以 按任意顺序 返回答案。

In [None]:
def solution(nums):
    def func(nums,state):
        if len(nums)==0: # 程序出口
            results.append(list(state))
            return
        for i,n in enumerate(nums):
            # 做出本轮选择后改变状态
            state.append(n) 
            new_nums = nums[:i]+nums[i+1:] 
            # 下一轮选择
            func(new_nums, state) 
            # 回退到做出本轮选择前的状态
            state.pop()
    results = []
    choices = nums
    state = []
    func(choices, state)
    return results
import random
nums = [random.randint(0,100) for _ in range(3)]
solution(nums)

[[66, 21, 14],
 [66, 14, 21],
 [21, 66, 14],
 [21, 14, 66],
 [14, 66, 21],
 [14, 21, 66]]

#### 3.1.2 全排列II

[全排列 II ](https://leetcode.cn/problems/7p8L0Z/): 给定一个可包含重复数字的整数集合 nums ，按任意顺序 返回它所有不重复的全排列。

In [None]:
def solution(nums):
    def func(nums,state):
        if len(nums)==0:
            results.append(list(state))
            return
        selected_nums = [] # 记录本轮已经做过的选择
        for i, n in enumerate(nums):
            if n not in selected_nums: # 剪枝：去掉重复选择
                # 做出当前选择后改变状态
                selected_nums.append(n)
                state.append(n)
                new_nums = nums[:i]+nums[i+1:]
                # 进行下一轮选择
                func(new_nums, state)
                # 回退
                state.pop()
        
    results = []
    state = []
    choices = nums
    func(choices, state)
    return results
    
print(len(solution([1,1])))

1


### 3.2 分治

基于分治实现的二分查找

In [None]:
def binary_search(arr, target, start, end):
    if start<=end:
        m = (start+end)//2
        if arr[m]==target:
            return m
        if arr[m]>target:
            return binary_search(arr, target, start, m-1)
        if arr[m]<target:
            return binary_search(arr, target, m+1, end)
nums = [1,2,3,4,5,6,7,8]
print(binary_search(nums, 7, 0, len(nums)-1))

6


### 3.3 贪心

[零钱兑换](https://leetcode.cn/problems/coin-change/description/)：给你一个整数数组 `coins` ，表示不同面额的硬币；以及一个整数 `amount` ，表示总金额。计算并返回可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回 -1 。你可以认为每种硬币的数量是无限的。

In [1]:
# 每次选择小于等于amount的最大面值的coins
def coin_change_greedy(coins, amount):
    coins = sorted(coins)
    count = 0
    i = len(coins)-1
    while i>=0 and amount>=0:
        if coins[i]>amount:
            i-=1
            continue
        amount-=coins[i]
        count+=1
    return count if amount==0 else -1

coins = [1,3,5] 
amount = 11  
# coins = [186,419,83,408]
# amount = 6249
print(coin_change_greedy(coins, amount))

3


我们已经看到了贪心算法在每一步选择当前最优的解，并不考虑对后续选择的影响，所以贪心算法通常得到的是次优解。

### 3.4 动态规划

本节安排如下：

3.4.1 问题的暴力解法

3.4.2 理解最优子结构

3.4.2 动态规划-memo

3.4.3 动态规划-table

[零钱兑换](https://leetcode.cn/problems/coin-change/description/)：给你一个整数数组 `coins` ，表示不同面额的硬币；以及一个整数 `amount` ，表示总金额。计算并返回可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回 -1 。你可以认为每种硬币的数量是无限的。

In [None]:
# 暴力搜索
def coins_change(coins, states):
    if sum(states)>=amount:
        if sum(states)==amount:
            results.append(list(states))
        return
    for c in coins: # 做出当前选择
        states.append(c) # 修改当前状态
        coins_change(coins, states) # 进行下一轮选择
        states.pop() # 回退选择前的状态尝试下一次选择

results = []
# amount = 14
# coins = [1,3,5]
coins = [186,419,83,408]
amount = 6249
states = []
coins_change(coins, states)
# print(results) 

# 找到最优解
min_length = float("inf")
for item in results:
    if len(item)<min_length:
        min_length = len(item)
print(min_length)

想一想 当 `amount=11` `coins=[1,3,5]` 最优解等于`min(solution(11-5)+1, solution(11-3)+1, solution(11-1)+1)` 所以这个问题是有最优子结构的。

In [None]:
# 利用最优子结构
def coins_change_dp(coins, amount):
    if amount == 0:
        return 0
    if amount<0:
        return -1
    result = float("inf") # 记录本轮选择的最优解
    for c in coins:# 做选择
        amount-=c # 改变当前状态
        res = coins_change_dp(coins,amount) # 进入下一轮选择（解决子问题）
        if res!=-1: # 子问题解决后，选择最优解
            result = min(res+1, result) 
        amount+=c # 回退
    return result if result!=float("inf") else -1

amount = 20
coins = [1,3,5]
# coins = [186,419,83,408]
# amount = 6249
print(coins_change_dp(coins, amount))

4


In [None]:
# 带memo的动态规划
def coins_change_dp_memo(coins, amount, memo):
    if amount == 0:
        return 0
    if amount < 0:
        return -1
    if memo[amount]!=-1:
        return memo[amount]
    result = float("inf")
    for c in coins:# 做出选择
        amount-=c # 改变状态
        num = coins_change_dp_memo(coins, amount, memo) # 解决子问题
        if num != -1: # 最优子结构
            result = min(num+1,result)
        amount+=c #回退 
    memo[amount] = result # 记录当前amount的最优结果
    return result if result!=float("inf") else -1
            
coins = [186,419,83,408]
amount = 6249
# amount = 14
# coins = [1,3,5]
memo = [-1]*(amount+1)
for c in coins:
    if c < len(memo):
        memo[c]=1
print(coins_change_dp_memo(coins, amount, memo))

20


In [5]:
# dp_table迭代
def coins_change_dp_table(coins, amount, table):
    for amt in range(1, amount+1):
        min_num = table[amt]
        for coin in coins:
            sub = amt-coin
            if sub>0:
                min_num = min(table[sub]+1, min_num)
        table[amt]=min_num


amount = 7
coins = [1,3,5] 
coins = [186,419,83,408]
amount = 6249
dp_table = [float("inf")]*(amount+1) # 初始化dp_table
for c in coins: # base case
    if c<len(dp_table):
        dp_table[c]=1
coins_change_dp_table(coins, amount, dp_table)
print(dp_table[amount])

20


[爬楼梯](https://leetcode.cn/problems/climbing-stairs/description/)：假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？

In [5]:
def climbStairs(n):
    if n==1 or n==2:
        return n
    return climbStairs(n-1)+climbStairs(n-2)

n = 4
print(climbStairs(n))

5


# 四、应用

### 1. 排序

#### 快速排序

In [None]:
import random

def quick_sort(arr): # 递归分治
    if len(arr)<=1:
        return arr
    mid = [a for a in arr if a == arr[len(arr)//2]]
    left = [a for a in arr if a<arr[len(arr)//2]]
    right = [a for a in arr if a>arr[len(arr)//2]]
    return quick_sort(left)+mid+quick_sort(right)
arr = [random.randint(0, 100) for _ in range(10)]
print(arr)
print(quick_sort(arr))

[41, 4, 69, 37, 98, 20, 91, 62, 72, 39]
[4, 20, 37, 39, 41, 62, 69, 72, 91, 98]


In [None]:
import random

def quick_sort_inplace(arr, left, right):
        if left>=right: # 数组长度为1不用排序
            return 
        idx = split(arr, left, right)
        quick_sort_inplace(arr, left, idx-1)
        quick_sort_inplace(arr, idx+1, right)

def split(arr, left, right):
    base = arr[left] # 确定基准
    i, j = left+1, left+1 # 利用快慢指针原地移动元素，保证i的左边（不包括i）都是小于base的
    while j<=right:
        if arr[j]<=base:
            arr[i], arr[j] = arr[j], arr[i]
            i+=1
        j+=1
    arr[i-1], arr[left] = arr[left], arr[i-1]   
    return i-1
arr = [random.randint(0, 100) for _ in range(10)]
print(arr)
quick_sort_inplace(arr, 0, len(arr)-1)
print(arr)

[76, 77, 61, 92, 61, 82, 41, 73, 39, 62]
[39, 41, 61, 61, 62, 73, 76, 77, 82, 92]


### 2.搜索