## 算法图解

作者：Aditya Bhargava 

译者：袁国忠

出版社：中国工信出版社 && 人民邮电出版社

版次：2017年3月第1版



###  第１章　算法简介

#### 1.1. 二分查找

- 二分查找是一种算法，其输入是一个有序的元素列表，如果要查找的元素包含在元素列表中，返回其位置，否则返回NULL.


- 二分查找的运行时间为$O(\log n) $

In [None]:
def binary_search(list_to_search, item_to_search):
    low_ind = 0
    high_ind = len(list_to_search) - 1
    while low_ind <= high_ind:
        mid_ind = (low_ind + high_ind) // 2
        mid = list_to_search[mid_ind]
        if item_to_search == mid:
            return mid_ind
        elif item_to_search < mid:
            high_ind = mid_ind
        else:
            low_ind = mid_ind
    
    return None   

In [None]:
binary_search([1, 3, 5, 7, 9], 5)

#### 1.2. 小结

- 二分查找远快于简单查找


- $ O(\log n) $ 比$ O(n) $快，即需要搜索的元素越多，前者比后者就快得越多


- 谈论算法的速度时，说的是随着输入规模的增加，其运行时间将以什么样的速度增加


- 算法运行时间并不以为秒为单位


- 算法运行时间是从其增速的角度度量


- 算法运行时间用大$O$表示法表示

### 第２章　选择排序

#### 2.1. 数组和链表

- 线性表的顺序存储结构，是指用一段**地址连续的存储单元**依次存储线性表的数据元素，数据元素具有**相同的数据类型**


- 数组array是线性表的顺序存储结构的一种实现，

> array模块的解释：

> > This module defines an object type which can efficiently 
represent an array of basic values: characters, integers, floating point
numbers.  Arrays are sequence types and behave very much like lists,
except that **the type of objects stored in them is constrained**.

> list: 其元素的数据类型无需一样, 在python中，list比array更常见

- 线性表的链式存储结构, 是指用一系列**地址随机的存储单元**依次存储线性表的数据元素，数据元素具有**相同的数据类型**


- 链表是线性表的链式存储结构的一种实现，链表的每个元素都存储了下一个元素的地址，从而使一系列随机的内存地址串在一起


- 数组与链表常见操作的运行时间

|  　　　| 数组   |　链表  |
|-------|-------|-------|
| 读取   | O(1)  | O(n)  |
|-------|-------|-------|
| 插入   | O(n)  | O(１) |
|-------|-------|-------|
| 删除   | O(n)  | O(1)  |

> - 需要指出的是，仅当能够立即访问要删除的元素时，删除操作的运行时间才为$O(1)$


> - 数组较链表用得多，是因为它支持随机访问


> - 链表是顺序访问，即需要从第一个元素开始逐个地读取元素.

#### 2.2. 选择排序

选择排序的运行时间为$O(n^2)$

In [None]:
def find_smallest(arr):
    smallest = arr[0]
    smallest_ind = 0
    for i, item in enumerate(arr):
        if item < smallest:
            smallest = item
            smallest_ind = i
    
    return smallest_ind

def selection_sort(arr):
    """ 对数组进行排序　"""
    new_arr = []
    for i in range(len(arr)):
        smallest_ind = find_smallest(arr)
        new_arr.append(arr.pop(smallest_ind))
        
    return new_arr

In [None]:
%time
selection_sort([5, 3, 6, 2, 10])

In [None]:
from array import *

In [None]:
%time
selection_sort(array("i", [5, 3, 6, 2, 10]))

### 第３章　递归

#### 3.1. 递归与循环

>　如果使用循环，程序的性能可能更高；如果使用递归，程序可能更容易理解。如何选择要看什么对你来说更重要.　-- Leigh Caldwell在[Stack Overflow](http://stackoverflow.com/a/72694/139117)

#### 3.2. 递归

- 递归函数都包含两部分：基线条件（base case）、递归条件（recursive case）


- 基线条件是指函数不再调用自己，从而避免形成无限循环.


- 递归条件是指函数调用自己


```
 def count_down(i):
    print(i)
    # 基线条件
    if i <= 1:
        return
    # 递归条件
    else:　　　　
        count_down(i - 1)
```

#### 3.2. 栈与调用栈（Call Stack）


- 栈有两种操作：入栈与出栈



- 出栈的顺序遵循“后入先出”（Last In First Out）


- 调用另一个函数时，当前函数暂停并处于未完成状态，该函数的所有变量的值都还在内存中.


- 调用栈：用于存储多个函数的变量的栈


- 所有函数调用都进人调用栈，调用栈包含了未完成的函数调用


- 使用递归函数需要注意防止栈溢出


- 使用栈虽然很方便，但是也要付出代价：存储详尽的信息可能占用大量的内存。每个函数调用都要占用一定的内存，如果栈很高，就意味着计算机存储了大量函数调用的信息。再这种情况下，有两种选择。

> - 重新编写代码，转而使用循环.

> - 使用尾递归，注意，并非所有的语言都支持尾递归.

> > 尾递归是指，在函数返回的时候，调用自身本身，并且，return语句不能包含表达式

> > - 这样，编译器或者解释器就可以把尾递归做优化，使递归本身无论调用多少次，都只占用一个栈帧，不会出现栈溢出的情况


> > - 尾递归调用时，如果做了优化，栈不会增长，因此，无论多少次调用也不会导致栈溢出


> > - 遗憾的是，大多数编程语言没有针对尾递归做优化，Python解释器也没有做优化，所以，即使把上面的fact(n)函数改成尾递归方式，也会导致栈溢出



In [None]:
def fact(n):
    if n == 1:
        return n
    else:
        return n * fact(n - 1)

In [None]:
fact(5)

In [None]:
def fact_iter(n, product=1):
    if n == 1:
        return product
    else:
        return fact_iter(n - 1, n * product)

In [None]:
fact_iter(5, 1)

### 第４章　快速排序

#### 4.1. 分而治之

- 分而治之（divide and conquer，D&C），是一种递归式解决问题的思路，**将问题逐步分解**.


- 使用D&C解决问题，其思路包括两个步骤:

> - (1) 找出基线条件，这种条件必须尽可能地简单化

> - (2) 不断地将问题分解（或者说缩小规模），直到符合基线条件


- 注意: D&C并不是直接可用于解决问题的算法，而是一种解决问题的思路


- 编写涉及数组的递归函数时，基线条件通常是数组为空或只包含一个元素


In [None]:
def sum(arr):
    total = 0
    for x in arr:
        total += x
    return total

def sum_recursive(arr):
    """ 递归式实现sum() """查找
    if len(arr) == 1:
        return arr[0]
    else:
        return arr[0] + sum(arr[1:])

In [None]:
def count_num(arr):
    """ 递归式计算列表包含的元素数 """
    if len(arr) == 1:
        return 1
    else:
        return 1 + count_num(arr[1:])

In [None]:
def max_item(arr):
    """ 递归式找出列表中最大的数字 """
    if len(arr) == 2:
        return max(arr[0], arr[1])
    else:
        return max(arr[0], max_item(arr[1:]))

In [None]:
def binary_search(arr, a):
    low_ind = 0
    high_ind = len(arr) - 1
    while low_ind <= high_ind:
        mid_ind = (low_ind + high_ind) // 2
        mid = arr[mid_ind]
        if mid == a:
            return mid_ind
        elif mid > a:
            high_ind = mid_ind
        else:
            low_ind = mid_ind
    return None        

#### 4.2. 快速排序

- 快速排序，一种常见的排序算法，使用了Ｄ&C思路


- 快速排序的工作原理:

> - 确定基准值：从数组中选择一个基准值, 这个元素被称为基准值（pivot）


> - 分区（partitioning）: 找出比基准值小的元素，比基准值大的元素，得到两个子数组：一个由所有小于基准值的数字所构成的子数组，一个由所有大于基准值的数字所构成的子数组


> - 对以上两个子数组进行快速排序


- 快速排序的性能高度依赖于你所选择的基准值


- 实现快速排序时，请随机地选择用作基准值的元素


- 快速排序的平均运行时间为$O(n\log n)$，最差运行时间为$O(n^2)$

In [None]:
def quicksort(arr):
    """ 快速排序 """
    # 基线条件: 为空或只包含一个元素的数组是“有序”的
    if len(arr) < 2:
        return arr
    else:
        pivot = arr[0]  # 递归条件
        arr_low = []
        arr_high = []
        for x in arr[1:]:
            if x < pivot:
                arr_low.append(x)
            else:
                arr_high.append(x)

        return quicksort(arr_low) + [pivot] + quicksort(arr_high)

In [None]:
quicksort([10, 5, 2, 3, 1.5])

#### 4.3. 常量（系数）有时侯事关重大

- 常量：算法所需的固定时间量


- 系数（常量）无影响：以比较二分查找和简单查找为例，当数据规模很大时，常量几乎无关紧要

假设这两种算法的运行时间包含如下系数（常量）：

|  　　　| 简单查找       |　二分查找  |
|-------|---------------|----------|
| 常量 　| 10 毫秒 *  n  | 1 秒 *  $\log n$ |

由上可能会认为，简单查找的速度要比二分查找更快. 但是，现在假设在包含40亿个元素的列表中查找，所需时间如下：

|  　　　| 简单查找                 |　二分查找          |
|-------|-------------------------|------------------|
| 常量 　| 10 毫秒 *  40亿 = 463天  | 1 秒 *  32 = 32 秒|


- 系数（常量）有时候事关重大：以比较快速排序和合并排序为例

> - [合并排序](https://www.tutorialspoint.com/data_structures_algorithms/merge_sort_algorithm.htm)的运行时间为$O(n\log n)$，不管是平均运行时间还是最差运行时间


> - 快速排序的平均运行时间为$O(n\log n)$，最差运行时间为$O(n^2)$


> - 快速排序的常量小于合并排序的常量


> - 如果它们的运行时间都是$O(n\log n)$，那么快速排序的速度更快

> > 实际上，快速排序的速度确实更快，因为相对于最差情况，它遇上平均情况的可能性要大得多



### 第５章　散列表


#### 5.1. 散列函数

- 散列函数：将输入映射到数字


- 好的散列函数需满足

> - 确定性：对于同样的输入，它映射得到的数字必须是一样的


> - 一一对应：每一个输入都应有唯一的映射值


- 散列表（hash table）:包含额外逻辑的数据结构

> 数组、链表都是直接被映射到内存，而散列表更复杂，它使用散列函来确定元素的存储位置


- 结合散列函数与数组，可创建散列表


- 散列表读取元素的速度与数组一样快，因为散列表使用数组来存储数据


- **字典**：散列表在Ｐython中的实现


#### 5.2. 散列表的应用

##### 5.2.1. 将散列表应用于查找

- 散列表可以轻松地模拟映射关系


- 散列表被用于大海捞针式的查找，如DNS解析（DNS resolution）, 将网址映射到IP地址，散列表是提供这种功能的方式之一


##### 5.2.2. 防止重复：使用散列表来检查重复，速度非常块


##### 5.2.3. 将散列表用于缓存

- 缓存的工作原理：网站将数据记住，而不再重新计算


- 缓存是一种常见的加速方式，所有大型网址都使用缓存，而缓存的数据存储在散列表中

> 缓存的页面很多，散列函数将页面URL映射到页面数据，当你访问网站时，它首先检查散列表是否存储了该页面


#### 5.3. 冲突


之前说，散列函数总是将不同的键映射到数组的不同位置. 实际上，几乎不可能编写出这样的散列函数


##### 5.3.1. 冲突（collision）: 给两个键分配的位置相同

避免该冲突的简单办法是：如果两个键映射到同一个位置，则在这个位置存储一个链表



##### 5.3.2. 散列函数很重要. 

前述的散列函数将所有的键都映射到同一个位置，而最理想的情况是，散列函数将键均匀地映射到散列表的不同位置


##### 5.3.3. 如果散列表存储的链表很长，散列表的速度将急剧下降

如果使用的散列函数很好，这些链表就不会很长


#### 5.4. 性能

##### 5.4.1. 性能比较

|  　　　| 散列表（平均情况）| 散列表（最差情况）|　数组   |　链表  |
|-------|----------------|----------------|--------|-------|
| 查找   |      O(1)      |       O(n)     | O(1)   | O(n)  |
|-------|----------------|----------------|--------|-------|
| 插入   |      O(1)      |       O(n)     | O(n)   | O(１) |
|-------|----------------|----------------|--------|-------|
| 删除   |   　　O(1)     |       O(n)     |  O(n)  | O(1)  |


- 在最差情况下，散列表所有操作的运行时间都为$O(n)$——线性时间.


- 在平均情况下，散列表兼具数组、链表的优点

　　散列表的查找（获取给定索引处的值）速度与数组一样快，而插入和删除与链表一样块
  
  
- 在使用散列表时，避开最差情况至关重要. 为此，需要避开冲突，而避开冲突，需要：

> - 较低的填装因子


> - 良好的散列函数


##### 5.4.2. 较低的填装因子

- $填装因子 = \frac{散列表包含的元素个数}{位置总数}$


- 当$填装因子>1$时，就需要再散列表中添加位置，这称为调整长度（Ｒesizing）


- 一个不错的经验规则：一旦填装因子超过0.7，就调整散列表的长度

> 调整长度的开销的确很大，因此不会频繁地进行调整. 但平均而言，即便考虑到调整长度所需的时间，散列表操作所需的时间仍为$O(1)$


##### 5.4.3. 良好的散列函数

- 良好的散列函数数组中的元素呈均匀分布


- 糟糕的散列函数让数组中的元素扎堆，导致大量的冲突


- 什么样的散列函数是良好的？这里暂不讨论. 若好奇，可研究一下SHA函数，可将它用作散列函数

### 第６章 广度优先搜索


#### 6.1. 广度优先搜索（breadth-first search, BFS）

解决**非加权图**中的最短路径问题的算法被称为广度优先搜索

> 注意：本章所指“**最短路径**”是指段数最少，即这里的图的边是未加权的


##### 6.1.1. BFS可解决两类问题

- 路径是否存在：从节点Ａ出发，有前往节点Ｂ的路径吗？


- 哪条路径最短：从节点Ａ出发，前往节点Ｂ的哪条路径最短？


#### 6.2. 队列（queue）


- 队列的工作原理与现实生活中的队列完全相同


- 队列，与栈一样，无法随机地访问队列中的元素


- 队列只支持两种操作：入队，出队


- 队列是一种先进先出（First In First Out, FIFO）的数据结构

#### 6.3. 实现BFS

- 创建一个字典，实现图


- 创建一个队列，表示搜索队列


- 创建一个列表，记录已经检查过的节点，防止多次检查同一个节点，可能造成无限循环

In [None]:
from collections import deque

# step 1: 利用散列表，实现图
# 键表示节点，用列表表示值，表示该节点所能到达的邻居
graph = {}
graph["you"] = ["alice", "bob", "claire"]
graph["bob"] = ["anuj", "peggy"]
graph["alice"] = ["peggy"]
graph["claire"] = ["thom", "johnny"]
graph["anuj"] = []
graph["peggy"] = []
graph["thom"] = []
graph["johnny"] = []

# step ２: 编写函数person_is_seller，判断一个人是否是芒果销售商
def person_is_seller(name):
    return name[-1] == "m"

# step ３: 编写BFS搜索函数
def bfs_search(graph, name):
    search_queue = deque()  # 创建一个双端队列，用于存储要检查的人
    search_queue += graph[name]  # 将name的邻居加入到这个搜索队列中
    searched = []  # 这个数组用记录已经检查过的人
    while search_queue:
        person = search_queue.popleft()
        # 仅当这个人未检查过时才检查
        if person in searched:
            continue
        if person_is_seller(person):
            print("%s is a mango seller!" % person)
            return True
        else:
            search_queue += graph[person]
            searched.append(person)  # 将这个人标记为检查过
    
    return False

In [None]:
bfs_search(graph, "you")

### 第７章　狄克斯特拉算法

#### 7.1. 狄克斯特拉算法（Ｄijkstra's algorithm）

计算**加权有向无环图**中的最短路径，狄克斯特拉算法包括５个步骤：

- 在**未处理**的节点中，找出“最便宜”的节点，即在最短时间（最小开销）内到达的节点


- 更新该节点的邻居的开销：对于该节点的邻居，检查是否存在前往它们的最短路径，如果有，则更新其开销


- 将该节点标记为已处理


- 重复以上过程，直到对图中所有节点都这样做了


- 计算最终路径


#### 7.2. 如有负权边，就无法使用狄克斯特拉算法

- 这是因为狄克斯特拉算法这样假设：对于处理过的节点，没有前往该节点的更短路径，而这种假设只有在没有负权边时才成立


- 在包含负权边的图中，要找最短路径，可使用贝尔曼-福德算法（Bellman-Ford algorithm）


#### 7.3. 狄克斯特拉算法实现

- 创建三个散列表，graph，costs，parents

In [None]:
# step 1: 创建(二维)字典graph，表示有向加权图
graph = {}

graph["Music"] = {}
graph["Music"]["Vinyl Records"] = 5
graph["Music"]["Posters"] = 0

graph["Vinyl Records"] = {}
graph["Vinyl Records"]["Guitar"] = 15
graph["Vinyl Records"]["Shelf Drums"] = 20

graph["Posters"] = {}
graph["Posters"]["Guitar"] = 30
graph["Posters"]["Shelf Drums"] = 35

graph["Guitar"] = {}
graph["Guitar"]["Piano"] = 20

graph["Shelf Drums"] = {}
graph["Shelf Drums"]["Piano"] = 10

graph["Piano"] = {}  # 终点没有任何邻居


# step 2: 创建字典costs，用于存储节点的开销
# 节点的开销是指从起点出发到该节点需要多长时间
costs = {}
costs["Vinyl Records"] = 5
costs["Posters"] = 0
costs["Guitar"] = float("inf")
costs["Shelf Drums"] = float("inf")
costs["Piano"] = float("inf")

# step 3: 创建字典parents，用于存储节点的父节点
parents = {}
parents["Vinyl Records"] = "Music"
parents["Posters"] = "Music"
parents["Guitar"] = None
parents["Shelf Drums"] = None
parents["Piano"] = None

In [None]:
def find_lowest_cost(costs, processed):
    """ 在未处理的节点中，找到开销最小的节点 """
    
    lowest_cost = float("inf")
    lowest_cost_node = None
    for node, cost in costs.items():
        if lowest_cost > cost and node not in processed:
            lowest_cost = cost
            lowest_cost_node = node
    
    return lowest_cost_node

def dijkstra_search(graph, costs, parents):
    """ 应用Ｄijkstra algorithm，找出最短路径 """
    
    # 创建列表，用于记录已经处理过的节点
    processed = []
    # 在未处理的节点中找出开销最小的节点
    node = find_lowest_cost(costs, processed)
    # while循环在找不到要处理的节点后结束
    while node is not None:
        cost = costs[node]
        neighbors = graph[node]
        # 遍历当前接节点的所有邻居
        for n in neighbors.keys():
            new_cost = cost + neighbors[n]
            # 如果经当前节点前往该邻居的开销更小
            if costs[n] > new_cost:
                # 更新该邻居的开销
                costs[n] = new_cost
                # 更新该邻居的父节点
                parents[n] = node
        
        # 将当前节点标记为已处理
        processed.append(node)
        # 找出接下来要处理的节点，并循环
        node = find_lowest_cost(costs, processed)

In [None]:
# 找出从“Music”到“Ｐiano”的最短路径
dijkstra_search(graph, costs, parents)

node_path = []
node_path.append("Piano")
node = parents["Piano"]
while node != "Music":
    node_path.insert(0, node)
    node = parents[node]

node_path.insert(0, "Music")
print("lowest_cost_path: ", node_path)
print("lowest_cost: ", costs["Piano"])

### 第8章 贪婪算法

#### 8.1. 教室调度问题

- 贪婪算法：每步都采取最优的做法，即每步都选择局部最优解，**企图**(即不一定是全局最优解)以这种方式获得全局最优解


#### 8.2. 背包问题

- 贪婪算法并非在任何情况下都有效，但它易于实现


- **在有些情况下，完美是优秀的敌人**。有的时候，你只需找到一个能够大致解决问题的算法，此时贪婪算法正好可以派上用场，因为它们易于实现，得到的结果又与正确结果相当接近


#### 8.3. 集合覆盖问题

##### 8.3.1. 近似算法

- 近似算法（approximation algorithm）：在获得精确解需要的时间太长时，可使用近似算法

- 判断近似算法优劣的标准如下：

> - 速度有多块


> - 得到的近似解与最优解的接近程度

##### 8.3.2. 利用近似算法解决集合覆盖问题

> 问题：假设你办了一档广播节目，要让全美50个州的听众都可以收听到. 在每个广播台播出都需支付费用，现在需选择一部分广播台播出，保证花费最小，因此力图在尽可能少的广播台播出.

> 每个广播台都覆盖特定的区域，不同广播台的覆盖区域可能重叠.

> 如何选择覆盖全美50个州的最小广播台集合呢？

- 常规做法

> - (1) 列出每个可能的广播台集合，可能的子集有$2^n$个


> - (2) 在这些集合中，选出覆盖全美50个州的最小集合

> **问题是**计算每个可能的广播台集合需要很长的时间，由于可能的子集有$2^n$个，因此运行时间为$O(2^n)$. 
当广播台的数目很大时，运行时间呈指数增长.


- 使用贪婪算法——这是一种近似算法

> - (1) 选出这样一个广播台，即它覆盖了最多的未覆盖州. 即便这个广播台覆盖了一些已覆盖的州，也没有关系


> - (2) 重复第一步，直到覆盖了所有的州

> 运行时间为 $O(n^2)$



In [None]:
# 出于简化考虑，这里假设要覆盖的州没有那么多，广播台也没有那么多
# 创建一个集合，用于表示要覆盖的州
states_need = set(["mt", "wa", "or", "id", "nv", "ut", "ca", "az"])


# 创建字典，用于表示可供选择的广播台清单
stations = {}
stations["kone"] = set(["id", "nv", "ut"])
stations["ktwo"] = set(["wa", "id", "mt"])
stations["kthree"] = set(["or", "nv", "ca"])
stations["kfour"] = set(["nv", "ut"])
stations["kfive"] = set(["ca", "az"])

# 创建集合，用于存储最终选择的广播台
final_stations = set()

while states_need:
    best_station = None
    states_covered = set()
    # 选出一个广播台，覆盖最多的未覆盖的州
    for station, states in stations.items():
        # covered表示当前广播台覆盖的未被覆盖的州集合
        covered = states_need & states
        if len(covered) > len(states_covered):
            best_station = station
            states_covered = states
    
    states_need -= states_covered
    final_stations.add(best_station)

print(final_stations)

#### 8.4. NP完全问题

- 旅行商问题：旅行商需要前往5个不同的城市，需要找出前往这5个城市的最短路径


- 旅行商问题与集合覆盖问题存在共同之处：需要计算所有解，并从中选出最小/最短的那个. 这两个问题都属于NP完全问题


- NP完全问题的简单定义：以艰难著称的问题，如旅行商问题、集合覆盖问题


- ** 面临NP完全问题，最佳的做法是使用近似算法 **


##### 8.4.1. 如何识别NP完全问题

> - NP完全问题无处不在，如果能够判断出要解决的问题是NP完全问题，那么就不用考虑寻找完美的解决方案，而是使用近似算法即可


- 元素较少时，算法的运行速度很快，但是随着元素数量的增加，速度会变得非常慢


- 涉及”所有组合“的问题通常是NP完全问题


- 不能将问题分成小问题，必须考虑各种可能的情况. 这可能是NP完全问题


- 如果问题涉及序列（如旅行商问题中的城市序列）且难以解决，它可能是NP完全问题


- 如果问题涉及集合（如集合覆盖问题中的广播台集合）且难以解决，它可能是NP完全问题


- 如果问题可转换为旅行商问题或集合覆盖问题，那它肯定是NP完全问题

### 第9章 动态规划


#### 9.1. 背包问题

假设你是一个小偷，背着一个可装4磅东西的背包. 可盗窃的商品有如下: 

|          |  音响　　　| 笔记本电脑  |　 吉他   |
|----------|----------|-----------|----------|
|    价值   | 3000美元 |  2000美元  | 1500美元 |
|----------|----------|-----------|----------|
|    重量   |    4磅   |    3磅    |    1磅   |

为了让盗窃的商品价值最高，你选择哪些商品?


- 动态规划算法：**先解决子问题，再逐步解决大问题**


- 每一步动态规划算法都从一个网格开始，背包问题的网格如下：

|  　　　        | 1磅       | 2磅      |　3磅       |　4磅     |
|---------------|-----------|---------|-----------|----------|
|吉他（G）        | \$1500 G | \$1500 G | \$1500 G | \$1500 G |
|----------------|----------|---------|-----------|----------|
| 音响（S）       | \$1500 G | \$1500 G | \$1500 G | \$3000 S |
|----------------|----------|----------|----------|----------|
| 笔记本电脑（L） | \$1500 G | \$1500 G | \$2000 L | \$3500 L+G |


> - 逐行填充网格，在“吉他”行中的每一个单元格，都需要做一个简单的决定：偷不偷吉他？

> > 目标是找出一个价值最高的商品集合，在“吉他”行中，每一个单元格表示的是在当前的最大价值

##### 9.1.1. 改变各行的排列顺序

各行的排列顺序对最终结果无影响


##### 9.1.2. 是否可以逐列填充网格

在该问题中，可以逐列填充网格，没有任何影响. 但对于其他问题，可能有影响.


##### 9.1.3. 增加一件更小的商品将如何

若增加一件更小的商品，比如项链（重0.5磅，价值1000美元），则考虑的重量粒度更细，必须调整网格，列的最小粒度为0.5磅


##### 9.1.4. 可以偷商品的一部分吗

> 假设你在杂货店行窃，可偷成袋的扁豆和大米，但如果整袋装不下，可以打开包装，再将背包倒满. 在这种情况下，不再是偷或不偷，还包括是否偷商品的一部分.

- **动态规划无法处理这种情形**. 使用动态规划，要么考虑拿走整件商品，要么考虑不拿，而无法判断该不该拿走商品的一部分。


- 使用**贪婪算法**可轻松地处理上述情况：首先尽可能多地拿走价值最高的商品，如果拿光了，再尽可能多地拿走价值次高的商品，以此类推.


##### 9.1.5. 旅游行程最优化

假设你要去英国伦敦度假，需要决定，在2天内，游览哪些景点


##### 9.1.6. 处理相互依赖的情况

假设你还想去法国巴黎，因此又在清单里添加了几项:

|          |     |   |
|----------|-------|---|
| 埃菲尔铁塔 | 1.5天 | 8 |
|----------|-------|---|
| 卢浮宫    | 1.5天 | 9 |
|----------|-------|---|
| 巴黎圣母院 | 1.5天 | 7 |

去这些地方游览需要很长时间，因为先得从伦敦前往巴黎，这需要半天时间. 如果这3个地方都去，是不是需要4.5天. 不是，只需3.5天.


将埃菲尔铁塔加入“背包”后，卢浮宫将变得更“便宜”：只要1天，而不是1.5天. 如何使用动态规划对这种情况进行建模？


无法建模. 动态规划功能强大，它能够解决子问题，并使用这些答案来解决大问题，但**仅当每个子问题都是离散的（相互独立的），即不依赖于其他子问题时，动态规划才管用.**

##### 9.1.7. 计算最终解时涉及两个以上的子背包吗

为获得前述背包问题的最优解，可能需要偷两件以上的商品. 但根据动态规划算法的设计，**最多只需合并两个子背包，即不涉及两个以上的子背包. 不过，这些子背包可能又包含子背包**.


##### 9.1.8. 最优解可能导致背包没装满吗

完全可能。假设你还可以偷一颗钻石.

这颗钻石重达3.5磅，价值100万美元. 当然只偷这颗钻石，当这样做时，余下的容量只有0.5磅，别的什么也装不下.



### 9.2. 最长公共子串

如fish与fosh的最长公共子序列是sh

#### 9.2.1. 设计动态规划解决方案的通用小贴士


- 每种动态规划解决方案都涉及网格


- 每个单元格中的值通常是要优化的值. 在前述的背包问题中，单元格的值为商品的价值.


- 每个单元格都是一个子问题，因此应考虑如何将问题分成子问题，这有助于找出网格的坐标轴


- 注意：没有放之四海而皆准的计算动态规划解决方案的公式


#### 9.2.2. 绘制网格

用于解决问题的网格是什么样的呢？需要回答以下问题

- 单元格中的值是什么？


- 如何将这个问题划分为子问题？


- 网格的坐标轴是什么？


#### 9.2.3. 费曼算法（Feynman algorithm）

(1) 将问题写下来

(2) 好好思考

(3) 将答案写下来


##### 9.2.4. 最长公共子序列

如fish与fosh的最长公共子序列是fsh


##### 9.2.5. 动态规划的实际应用

- 根据最长公共序列来确定DNA链的相似性


- git diff指出两个文件的差异


- 编辑距离（levenshtein distance）算法，其指出两个字符串的相似程度，该算法的用途很多，从拼写检查到判断用户上传的资料是否是盗版


- Microsoft Word等具有断字功能的应用程序，它使用动规划，确定在什么地方断字以确保行长一致.

### 第10章 K最近邻算法

K最近邻算法，K-nearest neighbours, KNN

#### 10.1. 橙子还是柚子


#### 10.2. 创建推荐系统


##### 10.2.1. 特征抽取

如何确定两位用户的相似程序？

用户注册时，被要求指出对各种电影的喜欢程度。如此，对于每位用户，都将获得一组数字：

|          |  用户1 | 用户2 | 用户3 |
|----------|-------|-------|------|
|  喜剧片   |    3  |  4    |  2   |
|----------|-------|-------|------|
|  动作片   |    4  |    3  |  5   |
|----------|-------|-------|------|
|  生活片   |    4  |    5  |  1   |
|----------|-------|-------|------|
|  恐怖片   |    1  |    1  |  3   |
|----------|-------|-------|------|
|  爱情片   |    4  |    5  |  1   |


- 欧式距离相似度公式：用距离来衡量两位用户的相似度


- 余弦相似度公式：用角度来衡量两位用户的相似度


##### 10.2.2. 回归与分类

使用KNN可以做两项基本工作：分类与回归

- 分类：即编组


- 回归：即预测结果（如一个数字）


##### 10.2.3. 挑选合适的特征

创建电影推荐系统，所谓合适的特征，就是

- 与要推荐的电影紧密相关的特征


- 不偏不倚的特征（例如，如果只让用户给戏剧片打分，就无法判断他们是否喜欢动作片）


在挑选合适的特征方面，没有统一的法则，必须考虑到各种需要考虑的因素.