# algorithm-java

In [11]:
from gvanim import Animation
from gvanim.jupyter import interactive

# 基础

## 基础编程模型

## 数据抽象

## 背包, 队列和栈

## 算法分析

## 案例: union-find算法

问题: 动态连通性
- 输入: 一列整数对p q表示p和q是相连的(一种等价关系)
- 处理:
  - 如果已知的整数对不能说明p和q是相连的, 输出p q
  - 如果已知的整数对说明p和q是相连的, 忽略p q, 继续处理下一对整数.

网络术语:
- 触点: 对象
- 连接: 整数对
- 连通分量: 等价类

方法:
- `void union(int p, int q)`
- `int find(int p)`
- `boolean connected(int p, int q)`

quick-find算法:
- 保证id[p] == id[q]时p和q是连通的
- 在`union`中调整: 连接到根节点
- `find`快, `union`要扫描`id`故慢

quick-union算法:
- 为提高`union`的速度: 每个触点对应的`id[]`元素是同一分量中另一个触点的名称
- `find`慢: 线性 - 平方级

加权quick-union算法:
- `union`时总是选择将小树连接到大树

路径压缩的加权quick-union算法: 近常数时间分摊
- 在检查节点的同时(`find`)将它们直接连接到根节点

In [38]:
# com.spike.algorithm.example.uf.IUFTest#quickFind
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=22), Output()), _dom_classes=('widget-interact',…

In [39]:
# com.spike.algorithm.example.uf.IUFTest#quickUnion
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=34), Output()), _dom_classes=('widget-interact',…

In [None]:
# com.spike.algorithm.example.uf.IUFTest#weightedQuickUnion
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=31), Output()), _dom_classes=('widget-interact',…

In [None]:
# com.spike.algorithm.example.uf.IUFTest#uf
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=29), Output()), _dom_classes=('widget-interact',…

# 排序

## 初级排序算法
- 游戏规则
- 选择排序
- 插入排序
- 希尔排序

## 归并排序

## 快速排序

## 优先队列

TODO

## 应用

# 查找

## 符号表

## 二叉查找树

## 平衡查找树

## 散列表

## 应用

# 图

用例:
- 地图: 十字路口, 公路
- 网页信息: 超链接跳转
- 电路: 元器件和导线, 检查短路, 导线是否交叉
- 任务调度: 工序和限制条件
- 商业交易: 买卖交易
- 配对: 学生申请加入机构
- 计算机网络: 站点, 线路, 交换设备
- 软件: 方法调用关系的静态分析, 动态分析
- 社交网络: 关系

## 无向图

一些术语:
- **无向图**: 图是由一组顶点和一组能够将两个顶点相连的边组成的. 
  - 自环(self-loop): 一条连接一个顶点和其自身的边.
  - 平行边(parallel): 连接同一对顶点的两条边.
- 顶点相邻(adjacent): 当两个顶点通过一条边相连时. 称这条边依附于这两个顶点.
- 顶点的度数(degree): 依附于该顶点的边的总数.
- 子图(subgraph): 由图中所有边的一个子集以及这些边依附的所有顶点组成的图.
- **路径(path)**: 由边顺序联接的一系列顶点;
  - **简单路径**: 没有重复顶点的路径;
- **环(cycle)**: 至少含有一条边, 起点和终点相同的路径;
  - **简单环**: (除起点和终点必须相同外)不含有重复顶点和边的环;
- **路径或环的长度(length)**: 其中所包含的边数;
- **连通图(connected)**: 图中任意一个顶点都存在一条路径到达另一个任意顶点.
  - 不连通的图由若干个连通的部分(connected components)组成, 这些部分是极大连通的子图. 
- **树**: 无环连通图
  - **连通图的生成树**: 含有图中所有顶点且是一颗树的子图.
- 图的密度(density): 已经连接的顶点对占所有可能被连接的顶点对的比例.
  - 稀疏图, 稠密图
- 二分图(bipartite graph): 一种将所有订单分为两部分的图, 其中图的每条边所连接的两个顶点都分别属于不同的部分.

图与树的关系: 当且仅当含有V个顶点的图G满足下述条件之一时, 是一棵树:
- (1) G有V-1条边, 不含有环;
- (2) G有V-1条边, 连通的;
- (3) G连通的, 但删除任意一条边后不再连通;
- (4) G无环, 但添加任意一条边后有环;
- (5) G中的任意一对顶点之间仅存在一条简单路径.



图的表示方法:
- 邻接矩阵
- 边的数组
- 邻接表数组: 非稠密图的标准表示

- 表示图的数据类型
- 深度优先搜索DFS: 沿着图的边, 从一个顶点到另一个顶点
  - `int[] marked`: 节点是否访问过
- 寻找路径: 单点路径问题
  - `edgeTo`: 父节点链
  - 例: 社交网络中两个人间隔的度数
- 广度优先搜索BFS: 单点最短路径
  - 要找到从s到v的最短路径, 从s开始, 在所有由一条边就可以到达的顶点中寻找v, 如果找不到继续在与s距离两条边的所有顶点中查找v, 如此一直执行.
  - `int[] marked`: 节点是否访问过
  - 队列`Queue`
- 连通分量
  - DFS
  - 连通分量编号
  - 对比DFS与union-find算法
    - union-find算法: 一种动态算法, 在任何时候都能用接近常数的时间检查两个节点是否连通, 甚至是在添加一条边时. 适用于只需要判断连通性或是需要完成有大量连通性查询和插入操作混合等类似的任务.
    - DFS: 适用于实现图的抽象数据类型.
      - 检测环 `CycleDetection`
      - 双色问题 `TwoColorable`: 是否是二分图
- 符号图
  - 符号表: 符号-索引
  - `String[] keys`: 索引-符号

In [None]:
# com.spike.algorithm.graph.GraphTest#create
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=26), Output()), _dom_classes=('widget-interact',…

In [None]:
# com.spike.algorithm.graph.search.IGraphSearchTest#dfs
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=7), Output()), _dom_classes=('widget-interact',)…

In [None]:
# com.spike.algorithm.graph.search.IGraphSearchTest#bfs
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=7), Output()), _dom_classes=('widget-interact',)…

In [21]:
# com.spike.algorithm.graph.cc.ConnectedComponentsTest#cc
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=10), Output()), _dom_classes=('widget-interact',…

In [23]:
# com.spike.algorithm.graph.search.SymbolGraphTest#create
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=0), Output()), _dom_classes=('widget-interact',)…

## 有向图

一些术语:
- 有向边: 由第一个顶点指出并指向第二个顶点: v -> w
- 有向图中两个顶点的关系:
  - 没有边相邻
  - 存在v->w
  - 存在w->v,
  - 存在v->w和w->v.
- 有向路径
- 有向环
- 有向路径/环的长度
- 可达(reachable): 当存在从v到w的有向路径时, 称顶点w能够由顶点v达到. 

- 有向图的数据类型: `Digraph`
- 可达性: `DirectedDFS`
  - 单点可达性
  - 多点可达性
  - 标记-清除的垃圾收集
  - 有向图的寻路
    - 单点有向路径
    - 单点最短有向路径
- 环, 有向无环图
  - 调度问题: 优先级限制
    - 拓扑排序: 给定有向图, 将所有顶点排序, 使得所有有向边均从排在前面的元素指向排在后面的元素, 或者说明无法做到这一点.
  - 有向无环图(DAG): 不含有向环的有向图.
    - 有向环检测 `DirectedCycleDetection`
      - 递归调用栈`boolean[] onStack`
    - 当且仅当有向图是无环图时, 它才能够进行拓扑排序.
    - 有向图中基于DFS的顶点排序: `DepthFirstOrder`
      - 前序pre: 在递归调用之前讲顶点加入队列
      - 后序post: 在递归调用之后将顶点加入队列
      - 逆后序reversePost: 在递归调用之后将顶点压入栈 - 拓扑排序 `TopologicalSort`
- 强连通性
  - 两个顶点是强连通的(stronly connected): 如果两个顶点是互相可达的.
  - 有向图是强连通的: 图中任意两个顶点都是强连通的.
  - 强连通分量 `StrongConnectedComponents`
    - 计算有向图DG的逆图的逆后续
    - 以计算出的顺序在DG上执行DFS
    - 在同一个dfs递归调用中可达的顶点术语同一个强连通分量.
  - 定点对的可达性
    - 有向图G的传递闭包`TransitiveClosure`: 由相同的一组顶点组成的另一个有向图, 在该图中存在一条从v指向w的边 当且仅当 在G中w是从v可达的.

In [24]:
# com.spike.algorithm.graph.DigraphTest#create
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=0), Output()), _dom_classes=('widget-interact',)…

In [None]:
# com.spike.algorithm.graph.search.IGraphSearchTest#ddfs
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=6), Output()), _dom_classes=('widget-interact',)…

## 最小生成树

一些术语:
- 加权图: 一种为每条边关联一个权值或是成本的图模型.
- 图的生成树(spanning tree): 它的一颗含有其所有顶点的无环连通子图
- 加权图的最小生成树(MST): 它的一颗权值(树中所有边的权值之和)最小的生成树 

一些约定:
- 只考虑连通图
- 边的权重不一定表示距离
- 边的权重可能是0或者负数
- 所有边的权重各不相同: 如果存在相同的权重, 最小生成树不一定唯一.

树的性质:
- 用一条边连接树中任意两个顶点都会产生一个新的环.
- 从树中删去一条边, 将会得到两颗独立的树.

原理:
- 图的切分(cut): 一个划分(partition), 将图的所有顶点为两个非空且不重叠的集合.
- 横切边(crossing edge): 一条连接两个属于不同集合的顶点的边.
- 切分定理: 在加权图中, 给定任意切分, 它的横切边中权重最小者必然属于图的MST.

In [None]:
- 加权无向图的数据类型 `EdgeWeightedGraph`

Prim算法
- 概述: 每一步为一颗生长中的树添加一条边
- 开始时这颗树只有一个顶点, 之后向它添加V-1条边
- 每次总是将下一条连接树中的顶点与不在树中的顶点, 且权重最小的边加入树中
  - 由树中顶点所定义的切分中的一条横切边

Kruskal算法
- 概述: 按边的权重从小到大处理边, 将边加入MST中, 加入的边不会与已加入的边构成环, 直到树中有V-1条边为止.

In [35]:
# com.spike.algorithm.graph.mst.IMSTTest#lazyPrim
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=8), Output()), _dom_classes=('widget-interact',)…

In [36]:
# com.spike.algorithm.graph.mst.IMSTTest#kruskal
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=8), Output()), _dom_classes=('widget-interact',)…

## 最短路径

术语:
- 最短路径: 在加权有向图中, 从顶点s到顶点t的最短路径是所有从s到t的路径中的权重最小者.
- 最短路径树SPT: 从顶点s到所有可达顶点的最短路径 

最短路径的性质
- 路径是有向的
- 权重不一定等于距离
- 并不是所有顶点都是可达的: 假设图是强连通的
- 负权重回事问题更复杂
- 最短路径一般是简单的
- 最短路径不一定是唯一的
- 可能存在平行边和自环: 忽略

加权有向图的数据类型
- `DirectedEdge`, `WeightedDigraph`
- `ISP`: 最短路径
  - 最短路径树中的边: `edgeTo[v]` 树中连接v和它的父节点的边(从起点s到v的最短路径上的最后一条边)
  - 到达起点的距离: `distTo[v]` 从起点s到v的已知最短路径的长度
- 边的松弛: v->w, 检查从s到w的最短路径是否是先从s到v, 然后再由v到w
  - 比较: `distTo[w]`和`distTo[v] + e.weight()`
    - `<=`时: v->w这条边失效
- 顶点的松弛: 顶点的输出边的松弛


最短路径算法的理论基础
- 最短路径的最优性条件: 判断路径是否是最短路径的全局条件 与 在放松一条边是所检测的局部条件 是等价的.
  - 必要条件, 充分条件
- 通用最短路径算法: 暂考虑非负权重
  - 将distTo[s]初始化为0, 其它dist[]初始化为无穷大
  - 放松图中的任意边, 知道不存在有效边为止.

Dijkstra算法
- 解决边权重非负的加权有向图的单起点最短路径问题
- 与Prim算法每次添加的边都是离树最近的非树顶点相比, Dijkstra算法每次添加的都是离起点s最近的非树顶点.

无环加权有向图中

一般加权有向图中

In [None]:
# com.spike.algorithm.graph.EdgeWeightedDigraphTest#create
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 400)

interactive(children=(IntSlider(value=0, description='n', max=0), Output()), _dom_classes=('widget-interact',)…

In [57]:
# com.spike.algorithm.graph.sp.ISPTest#dijkstra
ga = Animation()

actions = []
with open('gvanim.txt', 'r') as f:
  actions = [s for s in f.readlines()]

ga.parse(actions)

interactive(ga, 500)

interactive(children=(IntSlider(value=0, description='n', max=8), Output()), _dom_classes=('widget-interact',)…

# 字符串

## 字符串排序

## 单词查找树

## 子字符串查找

## 正则表达式

## 数据压缩

# 背景

Context:
- 事件驱动模拟
- B树
- 后缀数组
- 网络流算法
- 问题规约
- 不可解性

# 动态规划