# 第四章：快速排序    
## 4.1分而治之  
1. 找到基线条件  
2. 利用自相似等性质，不断将问题缩小规模  
例子：划分正方形网格，二分查找  

## 4.2快速排序
1. 选择基准值
2. 将数组分成两个子数组：小于基准值的元素和大于基准值的元素
3. 对这两个子数组进行快速排序


In [1]:
def quicksort(array):
    if len(array) < 2:
        return array
    else:
        pivot = array[0]
        less = [i for i in array[1:] if i <= pivot]
        greater = [i for i in array[1:] if i > pivot]
        return quicksort(less) + [pivot] +quicksort(greater)
print(quicksort([10,5,2,3]))

[2, 3, 5, 10]


##  4.3大O表示法   
### 快速排序：O(nlogn)  
二分查找：O(logn)   
### 运行时间 = c * n   
c 为运行一次的常量 ， n 为复杂度   
当n 不同时，比较n   ;   当n相同时，比较c   
### 最好情况，最坏情况，平均情况   
O(nlogn),O(n^2),O(nlogn)


# 第五章 散列表
快速对应
## 5.1散列函数
将数据映射到数字
用途：创建散列表
1. 创建空数组
2. 数据映射到数字，在空数组中该数字索引处存储取值

输入 ——> 数字（索引） ——> 元组中取值

python中的散列表：字典

In [2]:
book = dict()
book["apple"] = 0.67
book["molk"] = 1.49
book['avocado'] = 1.49
print(book)
print(book['avocado'])

{'apple': 0.67, 'molk': 1.49, 'avocado': 1.49}
1.49


## 5.2应用案例
### 将散列表用于查找
例子：DNS解析
adit.io ——> 173.255.248.55

In [3]:
phone_book = {}
phone_book['jenny'] = 8675309
phone_book['emergency'] = 911
print(phone_book['jenny'])

8675309


### 防止重复
例子：投票，确认某人是否投过票
dict.get(key)
存储在列表中：慢
存储在散列表中：快

In [4]:
voted = {}
def check_voter(name):
    if voted.get(name):
        print('kivk them out!')
    else:
        voted[name] = True
        print('let them vote!')

### 将散列表用作缓存
网站缓存，使用户可以更快看到网页

In [5]:
cache = {}

def get_page(url):
    if cache.get(url):
        return cache[url]
    else:
        data = get_data_from_server(url)
        cache[url] = data
        return data

## 5.3冲突   
散列函数：将不同的键映射到数组的不同位置   
几乎不肯能找到这样的散列函数   
例子：散列函数按字母表分配数组的位置，当出现相同首字母时，会冲突，所以需要在此位置存储一个列表。
#### 结论：
1. 散列函数很重要，理想情况下散列函数将键均匀地映射到散列表的不同位置
2. 散列表存储的列表很长，速度会急剧下降

## 5.4性能
平均时间：O(1)常量时间   
最糟情况：O(n)   
线性查找：O(n)   
二分查找：O(logn)      

避免冲突：   
1. 较低的填装因子   
2. 2.良好的散列函数    

### 5.4.1填装因子
散列表包含的元素数/位置总数   
填装因子低，列表少，查找速度快。   
若填装因子较大，需要在散列表中添加位置，称为‘调整长度’    
一个不错的经验规则是：一旦填装因子大于0.7，就调整散列表的长度。   
### 5.4.2良好的散列函数
SHA函数

## 5.5 小结
1. 你可以结合散列函数和数组来创建散列表。
2. 冲突很糟糕，你应使用可以最大限度减少冲突的散列函数。
3. 散列表的查找、插入和删除速度都非常快。
4. 散列表适合用于模拟映射关系。
5. 一旦填装因子超过0.7，就该调整散列表的长度。
6. 散列表可用于缓存数据（例如，在Web服务器上）。
7. 散列表非常适合用于防止重复




# 第六章 广度优先搜索
## 6.1 图简介
节点+边
## 6.2 图是什么
## 6.3 广度优先搜索
1. 从节点A出发，有前往节点B的路径吗
2. 从节点A出发，前往节点B的那条路径最短
### 6.3.1查找最短路径
先在一度关系中查找，再在二度关系中查找
### 6.3.2队列
队列有顺序，只能按顺序访问队列中元素
#### 队列：先进先出
#### 栈：后进先出
## 6.4实现图
散列表表示关系，用键和值表示连接关系。   
添加顺序不重要   
注意：有向图：关系单向
无向图：可以看成双向的有向图
## 6.5 实现算法
1. 创建一个队列，存储要检查的人
2. 队列中弹出一个人
3. 检查这个人
4. 如果是，成功，如果不是，将这个人的所有邻居加入队列
5. 回到2
6. 如果队列为空，说明没有

In [6]:
#表示图
graph = {}
graph['you'] = ['alice','bob','claire']
graph['bob'] = ['anuj','peggy']
graph['alice'] = ['peggy']
graph['claire'] = ['thom','jonny']
graph['anuj'] = []
graph['peggy'] = []
graph['thom'] = []
graph['jonny'] = []
#创建队列
from collections import deque
search_queue = deque()
search_queue += graph['you']
#搜索
def person_is_seller(name):
    return name[-1] == 'm'
while search_queue:
    person = search_queue.popleft()
    if person_is_seller(person):
        print(person,'is a mango seller!')
    else:
        search_queue += graph[person]

thom is a mango seller!


为了不使程序陷入无限循环    
检查一个人之前，要确认之前没检查过他，可以使用一个列表来记录检查过的人  

In [7]:
graph = {}
graph['you'] = ['alice','bob','claire']
graph['bob'] = ['anuj','peggy']
graph['alice'] = ['peggy']
graph['claire'] = ['thom','jonny']
graph['anuj'] = []
graph['peggy'] = []
graph['thom'] = []
graph['jonny'] = []

search_queue = deque()
search_queue += graph['you']


def search(name):
    search_queue = deque()
    search_queue += graph[name]
    searched = []
    while search_queue:
        person = search_queue.popleft()
        if person not in searched:
            if person_is_seller(person):
                print(person,'is a mango seller!')
                return True
            else:
                search_queue += graph[person]
                searched.append(person)
    return False

search('you')


thom is a mango seller!


True

### 运行时间
搜索：沿着每条边前行    O(边数)
队列：包含要检查的每个人    O（人数）

#### 广度优先搜索的运行时间：O(V+E)

## 6.6 小结
1. 广度优先搜索找出可行且最短路径
2. 使用图来建立模型，再使用广度优先搜索来解决问题
3. 区分无向图和有向图
4. 队列：先进先出
5. 栈：后进先出
6. 搜索列表必须是队列
7. 对于检查过的人，不要再去检查，否则可能导致无限循环




# 第七章 狄克斯特拉算法
加权图：每条边赋一个数值    
图中的环    
## 7.1 使用狄克斯特拉算法
1. 找出最便宜的节点，即可在最短时间内到达的节点
2. 更新该节点的邻居的开销
3. 重复这个过程，直到对图中的每个节点都做了
4. 计算最终路径

## 7.2 术语
加权图，非加权图  
#### 算法只适用于有向无环图

## 7.3 换钢琴
让某种度量指标最小
## 7.4 负权边
如果有负权边，不能使永狄克斯特拉算法。
可以使用贝尔曼-福德算法
## 7.5 实现



In [8]:
graph = {}
graph['start'] = {}
graph['start']['a'] = 6
graph['start']['b'] = 2
graph['a'] = {}
graph['a']['fin'] = 1
graph['b'] = {}
graph['b']['a'] = 3
graph['b']['fin'] = 5
graph['fin'] = {}
infinity = float('inf')
costs = {}
costs['a'] = 6
costs['b'] = 2
costs['fin'] = infinity
parents = {}
parents['a'] = 'start'
parents['b'] = 'start'
parents['fin'] = None
processed = []

def find_lowest_cost_node(costs):
    lowest_cost = float('inf')
    lowest_cost_node = None
    for node in costs:
        cost = costs[node]
        if cost < lowest_cost and node not in processed:
            lowest_cost = cost
            lowest_cost_node = node
    return lowest_cost_node

node = find_lowest_cost_node(costs)
while node != 'None':
    cost = costs[node]
    neighbors = graph[node]
    for n in neighbors.keys():
        new_cost = cost + neighbors[n]
        if costs[n] > new_cost:
            costs[n] = new_cost
            parents[n] = node
            processed.append(node)
            node = find_lowest_cost_node(costs)
print(costs['fin'])






KeyboardInterrupt: 

# 第8章 贪婪算法
处理没有快速算法的问题：NP完全问题
## 8.1 教室调度问题
每步都采用最优的算法，局部最优解
## 8.2 背包问题
得到一个大致解决问题的算法，与正确结果接近
## 8.3 集合覆盖问题
近似算法：
1. 选出一个广播台，覆盖最多的未覆盖州
2. 重复第一步，直到覆盖所有州



In [None]:
#传入一个列表，被转化成集合
states_needed = set(['mt','wa','or','id','nv','ut','ca','az'])
#用散列表来表示清单
stations = {}
stations['kone'] = set(['id','nv','ut'])
stations['ktwo'] = set(['wa','id','mt'])
stations['kthree'] = set(['or','nv','ca'])
stations['kfour'] = set(['nv','ut'])
stations['kfive'] = set(['ca','az'])
final_stations = set()
while states_needed:
    best_station = None
    states_covered = set()
    for station,states_for_station in stations.items():
        covered = states_needed & states_for_station
        if len(covered) > len(states_covered):
            best_station = station
            states_covered = covered
    states_needed -= states_covered
    final_stations.add(best_station)

print(final_stations)
        




{'kthree', 'kfive', 'ktwo', 'kone'}


## 8.4 NP完全问题
### 8.4.1 旅行商问题详解
旅行商前往五个不同城市，最短路径   
考虑往返路程不同，不固定起终点  
1. 2个城市：2
2. 3个城市：6
3. 4个城市：4*6
4. n个城市：n!

需要计算所有解，并从中选出最小/最短的那个：NP完全问题

### 8.4.2 如何识别NP完全问题
1. 元素较少时算法的运行速度非常快，但随着元素数量的增加，速度会变得非常慢
2. 涉及所有组合的问题
3. 不能将问题分为小问题，必须考虑各种可能的情况
4. 涉及序列且难以解决
5. 涉及集合且难以解决
6. 问题可转换为集合覆盖问题或旅行商问题

## 8.5 小结
1. 贪婪算法寻找局部最优解
2. NP完全问题，无快速解决算法
3. 贪婪算法是不错的近似算法




# 第九章 动态规划
## 9.1 背包问题
### 9.1.1 简单算法
枚举，O(2^n)
### 9.1.2 动态规划
画网格，从小到大解决问题
## 9.2 背包问题FAQ
### 9.2.1再增加一件商品
### 9.2.2行的排列顺序发生变化
没有变化
### 9.2.3可以逐列而不是逐行填充网格吗？
### 9.2.4增加一件更小的商品如何
### 9.2 5可以偷商品的一部分吗
### 9.2.6 旅游行程最优化
### 9.2.7 处理相互依赖的情况
要求每个子问题离散
### 9.2.8 会涉及两个以上的子背包吗
### 9.2.9 最优解可能导致背包没装满吗？





## 9.3 最长公共子串
1. 动态规划可在给定约束条件下找到最优解
2. 问题可分解为彼此独立且离散的子问题时，可使用动态规划

#### 设计动态规划解决方案
1. 每种动态规划都涉及网格
2. 单元中的值通常是你要优化的值
3. 每个单元格都是一个子问题，应考虑如何将问题分为子问题，这有助于找到坐标轴

### 9.3.1 绘制网格
问题：
1. 单元格中的值
2. 如何将这个问题划分为子问题
3. 网格的坐标轴
### 9.3.2填充网格
#### Feynman algorithm
1. 把问题写下来
2. 好好思考
3. 将答案写下来

### 9.3.3揭晓答案
查找单词
if word_a[i] == word_b[j]:
    cell[i][j] = cell[i-1][j-1] + 1
else:
    cell[i][j] = 0

答案为网格中的最大数字
### 9.3.4 最长公共子序列
if word_a[i] == word_b[j]:
    cell[i][j] = cell[i-1][j-1] + 1
else:
    xell[i][j] = max(cell[i-1][j], cell[i][j-1])

## 9.4 小结
1. 需要在给定约束条件下优化某种指标时，动态规划很有用
2. 问题可分解为离散子问题
3. 涉及网格
4. 单元格中的值是你要优化的值
5. 每个单元格都是一个子问题，需要考虑如何将问题分解为子问题
6. 没有普遍的计算动态规划的公式

# 第10章 K最近邻算法
## 10.1 橙子还是柚子
判断：找最近邻的几个邻居
## 10.2 创建推荐系统
找到相邻用户，推荐相邻用户喜欢的内容
### 10.2.1特征抽取
抽取特征，根据特征绘图，计算两点距离
### 10.2.2 回归
1. 分类就是编组
2. 回归就是预测结果

度量距离有时使用余弦相似度
### 10.2.3 挑选合适的特征
1. 要与推荐的电影紧密相连的特征
2. 不偏不倚的特征

## 10.3机器学习简介
### 10.3.1 OCR
### 10.3.2 创建垃圾邮件过滤器
Naive Bayes classifier
### 10.3.3 预测股票市场
## 10.4 小结
1. KNN 用于分类和回归，需要考虑最近的邻居
2. 分类就是编组
3. 回归就是预测结果
4. 特征抽取意味着将物品转换为一系列可以比较的数字
5. 挑选合适的特征



# 第11章 接下来如何做
## 11.1树
将新用户插入数组，并重新排序  
二叉查找树 binary search tree  
查找：  
平均时间：O(log n)  
最糟情况：O(n)  
插入/删除：O(log n) ——> 比列表要快  

缺点：不能随机访问  
平衡的数性能好
## 11.2 反向索引
将单词映射到它的界面，常用于创建搜索引擎
## 11.3 傅里叶变换
## 11.4 并行算法
使用多个内核
## 11.5 MapReduce
分布式算法
### 11.5.2 map
arr1 = [1,2,3,4,5]
arr2 = map(lambda x: 2*x,arr1)
### 11.4.3 reduce
reduce(lambda x,y: x+y, arr1)

## 11.6布隆过滤器和HyperLogLog
### 11.6.1 布隆过滤器
概率型数据结构，可能错报，不可能误报
### 11.6.2 HyperLogLog
概率型算法
## 11.7 SHA算法
### 11.7.1 比较文件
secure hash algorithm 安全散列算法
由SHA生成散列值进行比较
### 11.7.2 检查密码
算法具有单向性，可以根据字符串计算散列值，但无法根据散列值推断原始字符串
### 11.8 局部敏感的散列算法
Simhash  检查两项内容的相似程度
## 11.9 Diffie-Hellman密钥交换
1. 双方无需知道加密算法，不必会面协商
2. 破解加密算法很难

## 11.10 线性规划