<a href="https://colab.research.google.com/github/lizliu2015/algo-basics/blob/main/Algo_Template.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **算法模板**




---



# 二分法Binary Search

## 使用条件
1. 排序数组(30-40%是二分)
2. 当面试官要求你找一个比O(n) 更小的时间复杂度算法的时候(99%)
3. 找到数组中的一个分割位置，使得左半部分满足某个条件，右半部分不满足(100%)
4. 找到一个最大/最小的值使得某个条件被满足(90%)

## 复杂度
5. 时间复杂度：O(logn)
6. 空间复杂度：O(1)

In [None]:
def binary_search(self, nums, target):

# corner case 处理
# 这里等价于nums is None or len(nums) == 0

 if not nums:

 return -1

start, end = 0, len(nums) - 1

 # 用start + 1 < end 而不是start < end 的目的是为了避免死循环
 # 在first position of target 的情况下不会出现死循环
 # 但是在last position of target 的情况下会出现死循环
 # 样例：nums=[1，1] target = 1
 # 为了统一模板，我们就都采用start + 1 < end，就保证不会出现死循环
 while start + 1 < end:
 # python 没有overflow 的问题，直接// 2 就可以了
 # java 和C++ 最好写成mid = start + (end - start) / 2
# 防止在start = 2^31 - 1, end = 2^31 - 1 的情况下出现加法overflow
 mid = (start + end) // 2
 # > , =, < 的逻辑先分开写，然后在看看= 的情况是否能合并到其他分支里
if nums[mid] < target:
 start = mid
 elif nums[mid] == target:
 end = mid
 else:
 end = mid

 # 因为上面的循环退出条件是start + 1 < end
 # 因此这里循环结束的时候，start 和end 的关系是相邻关系（1 和2，3 和4 这种）
 # 因此需要再单独判断start 和end 这两个数谁是我们要的答案
 # 如果是找first position of target 就先看start，否则就先看end
 if nums[start] == target:
 return start
 if nums[end] == target:
 return end


# 双指针Two Pointers
## 使用条件
1. 滑动窗口(90%)
2. 时间复杂度要求O(n) (80%是双指针)
3. 要求原地操作，只可以使用交换，不能使用额外空间(80%)
4. 有子数组subarray /子字符串substring 的关键词(50%)
5. 有回文Palindrome 关键词(50%)

## 复杂度
-  时间复杂度：O(n)
 - 时间复杂度与最内层循环主体的执行次数有关
 - 与有多少重循环无关

- 空间复杂度：O(1)
 - 只需要分配两个指针的额外内存


# 并查集Union Find

使用条件
- 需要查询图的连通状况的问题
- 需要支持快速合并两个集合的问题

复杂度
- 时间复杂度union O(1), find O(1)
- 空间复杂度O(n)


In [None]:
class UnionFind:

def __init__(self):
 # 初始化父指针，集合大小，集合数量
 self.father = {}
 self.size_of_set = {}
 self.num_of_set = 0

 def add(self, x):
 # 点如果已经出现，操作无效
  if x in self.father:
    return
 # 初始化点的父亲为空对象None
 # 初始化该点所在集合大小为1
 # 集合数量增加1
  self.father[x] = None
  self.num_of_set += 1
  self.size_of_set[x] = 1

def merge(self, x, y):
 # 找到两个节点的根
  root_x, root_y = self.find(x), self.find(y)
 # 如果根不是同一个则连接

 if root_x != root_y:
 # 将一个点的根变成新的根
 # 集合数量减少1
 # 计算新的根所在集合大小
    self.father[root_x] = root_y
    self.num_of_set -= 1
    self.size_of_set[root_y] += self.size_of_set[root_x]

def find(self, x): # 返回x的祖宗结点 + 路径压缩
# 指针root 指向被查找的点x
# 不断找到root 的父亲
# 直到root 指向x 的根节点
  root = x
  while self.father[root] != None:
    root = self.father[root]

# 将路径上所有点指向根节点root（路径压缩）
  while x != root:
 # 暂存x 原本的父亲
 # 将x 指向根节点
 # x 指针上移至x 的父节点
    original_father = self.father[x]
    self.father[x] = root
    x = original_father
 return root

 def is_connected(self, x, y):
 # 两个节点连通等价于两个节点的根相同
  return self.find(x) == self.find(y)
 
 def get_num_of_set(self):
 # 获得集合数量
  return self.num_of_set
 def get_size_of_set(self, x):
 # 获得某个点所在集合大小
  return self.size_of_set[self.find(x)]

# 二叉树分治Binary Tree Divide & Conquer

使用条件
- 二叉树相关的问题(99%)
- 可以一分为二去分别处理之后再合并结果(100%)
- 数组相关的问题(10%)

复杂度
- 时间复杂度O(n)
- 空间复杂度O(n) (含递归调用的栈空间最大耗费)

In [None]:
def divide_conquer(root):

 # 递归出口
 # 一般处理node == null 就够了
 # 大部分情况不需要处理node == leaf
if root is None:
 return ...
 # 处理左子树
 left_result = divide_conquer(node.left)
 # 处理右子树
 right_result = divide_conquer(node.right)
 # 合并答案

 result = merge left_result and right_result to get merged result

 return result

# 二叉搜索树非递归BST Iterator

使用条件
- 用非递归的方式（Non-recursion / Iteration）实现二叉树的中序遍历
- 常用于BST 但不仅仅可以用于BST

复杂度
- 时间复杂度O(n)
- 空间复杂度O(n)

In [None]:
def inorder_traversal(root):
  if root is None:
    return []
 # 创建一个dummy node，右指针指向root
 # 并放到stack 里，此时stack 的栈顶dummy
 # 是iterator 的当前位置
dummy = TreeNode(0)
dummy.right = root
stack = [dummy]
inorder = []
 # 每次将iterator 挪到下一个点
 # 也就是调整stack 使得栈顶到下一个点
while stack:
  node = stack.pop()
  if node.right:
    node = node.right
    while node:
      stack.append(node)
      node = node.left
  if stack:
    inorder.append(stack[-1])
 return inorder

# 宽度优先搜索BFS
additional ： kruskal 算法 https://blog.csdn.net/luomingjun12315/article/details/47700237

使用条件
- 拓扑排序(100%)
- 出现连通块的关键词(100%)
- 分层遍历(100%)
- 简单图最短路径(100%)
- 给定一个变换规则，从初始状态变到终止状态最少几步(100%)

复杂度
- 时间复杂度：O(n + m)
 - n 是点数, m 是边数
- 空间复杂度：O(n)

In [None]:
def bfs(start_node):
 # BFS 必须要用队列queue，别用栈stack！
 # distance(dict) 有两个作用，一个是记录一个点是否被丢进过队列了，避免重复访问
 # 另外一个是记录start_node 到其他所有节点的最短距离
 # 如果只求连通性的话，可以换成set 就行
 # node 做key 的时候比较的是内存地址
  queue = collections.deque([start_node])
  distance = {start_node: 0}
 # while 队列不空，不停的从队列里拿出一个点，拓展邻居节点放到队列中
  while queue: 
    node = queue.popleft()
 # 如果有明确的终点可以在这里加终点的判断
    if node 是终点:
      break or return something
    for neighbor in node.get_neighbors():
      if neighor in distnace:
        continue
      queue.append(neighbor)
      distance[neighbor] = distance[node] + 1

 # 如果需要返回所有点离起点的距离，就return hashmap
  return distance
 # 如果需要返回所有连通的节点, 就return HashMap 里的所有点
  return distance.keys()
 # 如果需要返回离终点的最短距离
  return distance[end_node]


## 拓扑排序 Topological Order

In [None]:
# topological order
def get_indegrees(nodes):
  counter = {node: 0 for node in nodes}
  for node in nodes:
    for neighbor in node.get_neighbors():
      counter[neighbor] += 1
  return counter

def topological_sort(nodes):
 # 统计入度
  indegrees = get_indegrees(nodes)
 # 所有入度为0 的点都放到队列里
  queue = collections.deque([
                            node
                            for node in nodes
                            if indegrees[node] == 0
 ])

 # 用BFS 算法一个个把点从图里挖出来
  topo_order = []
  while queue:
    node = queue.popleft()
    topo_order.append(node)
    for neighbor in node.get_neighbors():
      indegrees[neighbor] -= 1
      if indegrees[neighbor] == 0:
        queue.append(neighbor)
 
 # 判断是否有循环依赖
  if len(topo_order) != len(nodes):
    return 有循环依赖(环),没有拓扑序
  return topo_order

## 最小生成树 Minimun Spanning Tree

# 深度优先搜索DFS
使用条件
- 找满足某个条件的所有方案(99%)
- 二叉树Binary Tree 的问题(90%)
- 组合问题(95%)
 - 问题模型：求出所有满足条件的“组合”
 - 判断条件：组合中的元素是顺序无关的
- 排列问题(95%)
 - 问题模型：求出所有满足条件的“排列”
 - 判断条件：组合中的元素是顺序“相关”的。

不要用DFS 的场景
- 连通块问题（一定要用BFS，否则StackOverflow）
- 拓扑排序（一定要用BFS，否则StackOverflow）
- 一切BFS 可以解决的问题

复杂度
- 时间复杂度：O(方案个数* 构造每个方案的时间)
 - 树的遍历： O(n)
 - 排列问题： O(n! * n)
 - 组合问题： O(2^n * n)

In [None]:
def dfs(参数列表):
 if 递归出口:
 记录答案
 return
 for 所有的拆解可能性:
 修改所有的参数
 dfs(参数列表)
 还原所有被修改过的参数
 return something 如果需要的话，很多时候不需要return 值除了分治的写法

# 堆Heap

使用条件
- 找最大值或者最小值(60%)
- 找第k 大(pop k 次复杂度O(nlogk))(50%)
- 要求logN 时间对数据进行操作(40%)

堆不能解决的问题
- 查询比某个数大的最小值/最接近的值（平衡排序二叉树Balanced BST 才可以解决）
- 找某段区间的最大值最小值（线段树SegmentTree 可以解决）
- O(n)找第k 大(使用快排中的partition 操作)

In [None]:
from heapq import heappush, heappop
# by default the heapq package use minheap

# heapq.heapify(m) 数组转化为堆
# heapq.heappush(m,item) 堆中添加元素 
# heapq.heappop(m) 删除堆顶
# heapq.heapreplace(m, item) 删除堆顶，并添加元素
# heapq.nlargest (n, m) 查找堆中最大的n个元素
# heapq.nsmallest(n, m) 查询堆中最小的n个元素

class Heap:
def __init__(self):
  self.minheap = []
  self.deleted_set = set()

# add value to the heap
# can be a single number, or a tuple where the first value is a number
def push(self, index, val):
  heappush(self.minheap, (val, index))

# deletions are done by marking an element as deleted, rather than erasing it entirely. 
# Deleted locations are treated as empty when inserting and as occupied during a search.
def _lazy_deletion(self):
  while self.minheap and self.minheap[0][1] in self.deleted_set:
    heappop(self.minheap)

def top(self):
  self._lazy_deletion()
  return self.minheap[0]

def pop(self):
  self._lazy_deletion()   
  heappop(self.minheap)

def delete(self, index):
  self.deleted_set.add(index)

def is_empty(self):
  return not bool(self.minheap)

# 动态规划Dynamic Programming

使用条件

- 使用场景：
 - 求方案总数(90%)
 - 求最值(80%)
 - 求可行性(80%)

- 不适用的场景：
 - 找所有具体的方案（准确率99%）
 - 输入数据无序(除了背包问题外，准确率60%~70%)
 - 暴力算法已经是多项式时间复杂度（准确率80%）

- 动态规划四要素(对比递归的四要素)：
 - 状态(State) -- 递归的定义
 - 方程(Function) -- 递归的拆解
 - 初始化(Initialization) -- 递归的出口
 - 答案(Answer) -- 递归的调用

- 几种常见的动态规划：
 - 背包型
 - 接龙型
 - 区间型
 - 匹配型
 - 划分型 

复杂度

时间复杂度:
  - O(状态总数* 每个状态的处理耗费)
  - 等于O(状态总数* 决策数)

空间复杂度：
  - O(状态总数) (不使用滚动数组优化)
  - O(状态总数/ n)(使用滚动数组优化, n 是被滚动掉的那一个维度)

领扣例题
• LintCode563.背包问题V(背包型)
• LintCode76.最长上升子序列(接龙型)
• LintCode 476.石子归并V(区间型)
• LintCode 192. 通配符匹配(匹配型)
• LintCode107.单词拆分(划分型)


## 背包型
  - 给出n 个物品及其大小,问是否能挑选出一些物品装满大小为m 的背包
  - 题目中通常有“和”与“差”的概念，数值会被放到状态中
  - 通常是二维的状态数组，前i 个组成和为j 状态数组的大小需要开(n + 1) * (m + 1)

## 01 背包



In [None]:
# 状态state

dp[i][j] 表示前i 个数里挑若干个数是否能组成和为j

# 方程function

dp[i][j] = dp[i - 1][j] or dp[i - 1][j - A[i - 1]] 如果j >= A[i - 1]

dp[i][j] = dp[i - 1][j] 如果j < A[i - 1]

第i 个数的下标是i - 1，所以用的是A[i - 1] 而不是A[i]

# 初始化initialization

dp[0][0] = true

dp[0][1...m] = false

# 答案answer

使得dp[n][v], 0 s <= v <= m 为true 的最大v


## 多重背包



In [None]:
# 状态state

dp[i][j] 表示前i 个物品挑出一些放到j 的背包里的最大价值和

# 方程function

dp[i][j] = max(dp[i - 1][j - count * A[i - 1]] + count * V[i - 1])

其中0 <= count <= j / A[i - 1]

# 初始化initialization

dp[0][0..m] = 0

# 答案answer

dp[n][m]

## 区间型
   -  题目中有subarray / substring 的信息
   - 大区间依赖小区间


In [None]:
# 状态state

dp[i][j] 表示数组/字符串中i,j 这一段区间的最优值/可行性/方案总数

# 方程function

dp[i][j] = max/min/sum/or(dp[i,j 之内更小的若干区间])




## 匹配型
  - 通常给出两个字符串
   - 两个字符串的匹配值依赖于两个字符串前缀的匹配值
   - 字符串长度为n,m 则需要开(n + 1) x (m + 1) 的状态数组
   - 要初始化dp[i][0] 与dp[0][i]
   - 通常都可以用滚动数组进行空间优化

In [None]:
# 状态state

dp[i][j] 表示第一个字符串的前i 个字符与第二个字符串的前j 个字符怎么样怎么样
(max/min/sum/or)

##  划分型
  - 是前缀型动态规划的一种, 有前缀的思想
  - 如果指定了要划分为几个部分：

▪ dp[i][j] 表示前i 个数/字符划分为j 个部分的最优值/方案数/可行性

  - 如果没有指定划分为几个部分:

▪ dp[i] 表示前i 个数/字符划分为若干个部分的最优值/方案数/可行性




In [None]:
# 状态state

指定了要划分为几个部分:dp[i][j] 表示前i 个数/字符划分为j 个部分的最优值/方案数/可行性
没有指定划分为几个部分: dp[i] 表示前i 个数/字符划分为若干个部分的最优值/方案数/可行性

##  接龙型
  - 通常会给一个接龙规则，问你最长的龙有多长
  - 状态表示通常为: dp[i] 表示以坐标为i 的元素结尾的最长龙的长度
  - 方程通常是: dp[i] = max{dp[j] + 1}, j 的后面可以接上i
  - LIS 的二分做法选择性的掌握，但并不是所有的接龙型DP 都可以用二分来优化



In [None]:
# 状态state

状态表示通常为: dp[i] 表示以坐标为i 的元素结尾的最长龙的长度

# 方程function

dp[i] = max{dp[j] + 1}, j 的后面可以接上i