# 数据结构之图
## 第三章 图的应用

## 1. 应用1：最小生成树

### 1.1 最小生成树简介

　　通过前面的学习，对于含有 n 个顶点的**连通图**来说可能包含有多种**生成树**，例如图 1 所示：
 
![Image Name](https://cdn.kesci.com/upload/image/qw871z99py.png?imageView2/0/w/640/h/640)

　　图 1 中的连通图和它相对应的生成树，可以用于解决实际生活中的问题：假设A、B、C 和 D 为 4 座城市，为了方便生产生活，要为这 4 座城市建立通信。对于 4 个城市来讲，本着节约经费的原则，只需要建立 3 个通信线路即可，就如图 1（b）中的任意一种方式。

　　在具体选择采用（b）中哪一种方式时，需要综合考虑城市之间间隔的距离，建设通信线路的难度等各种因素，将这些因素综合起来用一个数值表示，当作这条线路的**权值**。
	
![Image Name](https://cdn.kesci.com/upload/image/qw873qmhyy.png?imageView2/0/w/640/h/640)

　　假设通过综合分析，城市之间的权值如图 2（a）所示，对于（b）的方案中，选择权值总和为 7 的两种方案最节约经费。

　　这就是本节要讨论的最小生成树的问题，**简单得理解就是给定一个带有权值的连通图（连通网），如何从众多的生成树中筛选出权值总和最小的生成树**，即为该图的**最小生成树**。

　　给定一个连通网，求最小生成树的方法有：**普里姆（Prim）算法**和**克鲁斯卡尔（Kruskal）算法**。
	

### 1.2 普里姆算法(Prim算法)求最小生成树

　　普里姆算法在找最小生成树时，将顶点分为两类，一类是在查找的过程中已经包含在树中的（假设为 A 类），剩下的是另一类（假设为 B 类）。
	
　　对于给定的连通网，起始状态全部顶点都归为 B 类。在找最小生成树时，选定任意一个顶点作为起始点，并将之从 B 类移至 A 类；然后找出 B 类中到 A 类中的顶点之间权值最小的顶点，将之从 B 类移至 A 类，如此重复，直到 B 类中没有顶点为止。所走过的顶点和边就是该连通图的最小生成树。
	
　　例如，通过普里姆算法查找图 2（a）的最小生成树的步骤为：
	
　　假如从顶点A出发，顶点 B、C、D 到顶点 A 的权值分别为 2、4、2，所以，对于顶点 A 来说，顶点 B 和顶点 D 到 A 的权值最小，假设先找到的顶点 B：
	
![Image Name](https://cdn.kesci.com/upload/image/qw87kgznbn.png?imageView2/0/w/320/h/320)

　　继续分析顶点 C 和 D，顶点 C 到 B 的权值为 3，到 A 的权值为 4；顶点 D 到 A 的权值为 2，到 B 的权值为无穷大（**如果之间没有直接通路，设定权值为无穷大**）。所以顶点 D 到 A 的权值最小：
	
![Image Name](https://cdn.kesci.com/upload/image/qw87lwt3gv.png?imageView2/0/w/320/h/320)

　　最后，只剩下顶点 C，到 A 的权值为 4，到 B 的权值和到 D 的权值一样大，为 3。所以该连通图有两个最小生成树：

![Image Name](https://cdn.kesci.com/upload/image/qw87mqlek8.png?imageView2/0/w/480/h/480)

　　普里姆算法的运行效率只与连通网中包含的顶点数相关，而和网所含的边数无关。所以普里姆算法适合于解决边稠密的网，该算法运行的**时间复杂度**为：O(n2)。

　　如果连通网中所含边的绸密度不高，则建议使用克鲁斯卡尔算法求最小生成树（下节详细介绍）。

### 任务五

　　采用Prime算法实现图的最小生成树，需要用Python编程完成，详细要求见大作业要求文档！

### 1.3 克鲁斯卡尔算法(Kruskal算法)求最小生成树

　　上一节介绍了求最小生成树之**普里姆算法**。该算法从顶点的角度为出发点，时间复杂度为O(n2)，**更适合与解决边的绸密度更高的连通网**。
	
　　本节所介绍的**克鲁斯卡尔算法**，从边的角度求网的最小生成树，时间复杂度为O(eloge)。和普里姆算法恰恰相反，**更适合于求边稀疏的网的最小生成树**。
	
　　对于任意一个连通网的最小生成树来说，在要求总的权值最小的情况下，最直接的想法就是将连通网中的所有边按照权值大小进行升序排序，从小到大依次选择。
　　
　　
　　由于最小生成树本身是一棵生成树，所以需要时刻满足以下两点：
	
　（1）生成树中任意顶点之间有且仅有一条通路，也就是说，生成树中不能存在回路；
	
　（2）对于具有 n 个顶点的连通网，其生成树中只能有 n-1 条边，这 n-1 条边连通着 n 个	顶点。
	
　　**【注：连接 n 个顶点在不产生回路的情况下，只需要 n-1 条边。】**

　　所以克鲁斯卡尔算法的具体思路是：将所有边按照权值的大小进行升序排序，然后从小到大一一判断，条件为：如果这个边不会与之前选择的所有边组成回路，就可以作为最小生成树的一部分；反之，舍去。直到具有 n 个顶点的连通网筛选出来 n-1 条边为止。筛选出来的边和所有的顶点构成此连通网的最小生成树。
	
　　**判断是否会产生回路的方法为**：在初始状态下给每个顶点赋予不同的标记，对于遍历过程的每条边，其都有两个顶点，判断这两个顶点的标记是否一致，如果一致，说明它们本身就处在一棵树中，如果继续连接就会产生回路；如果不一致，说明它们之间还没有任何关系，可以连接。
	
　　假设遍历到一条由顶点 A 和 B 构成的边，而顶点 A 和顶点 B 标记不同，此时不仅需要将顶点 A 的标记更新为顶点 B 的标记，还需要更改所有和顶点 A 标记相同的顶点的标记，全部改为顶点 B 的标记。

![Image Name](https://cdn.kesci.com/upload/image/qw880ufjf2.png?imageView2/0/w/320/h/320)

　　例如，使用克鲁斯卡尔算法找图 1 的最小生成树的过程为：

　　首先，在初始状态下，对各顶点赋予不同的标记（用颜色区别），如下图所示：
	
![Image Name](https://cdn.kesci.com/upload/image/qw88293zug.png?imageView2/0/w/320/h/320)

　　对所有边按照权值的大小进行排序，按照从小到大的顺序进行判断，首先是（1，3），由于顶点 1 和顶点 3 标记不同，所以可以构成生成树的一部分，遍历所有顶点，将与顶点 3 标记相同的全部更改为顶点 1 的标记，如（2）所示：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8a1hibig.png?imageView2/0/w/320/h/320)
	
　　其次是（4，6）边，两顶点标记不同，所以可以构成生成树的一部分，更新所有顶点的标记为：

![Image Name](https://cdn.kesci.com/upload/image/qw8a3zfb9u.png?imageView2/0/w/320/h/320)

　　其次是（2，5）边，两顶点标记不同，可以构成生成树的一部分，更新所有顶点的标记为：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8a60vzcl.png?imageView2/0/w/320/h/320)

　　然后最小的是（3，6）边，两者标记不同，可以连接，遍历所有顶点，将与顶点 6 标记相同的所有顶点的标记更改为顶点 1 的标记：

![Image Name](https://cdn.kesci.com/upload/image/qw8a7hd6ax.png?imageView2/0/w/320/h/320)	

　　继续选择权值最小的边，此时会发现，权值为 5 的边有 3 个，其中（1，4）和（3，4）各自两顶点的标记一样，如果连接会产生回路，所以舍去，而（2，3）标记不一样，可以选择，将所有与顶点 2 标记相同的顶点的标记全部改为同顶点 3 相同的标记：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8a8qd5c.png?imageView2/0/w/320/h/320)

　　当选取的边的数量相比与顶点的数量小 1 时，说明最小生成树已经生成。所以最终采用克鲁斯卡尔算法得到的最小生成树为（6）所示。

## 2. 应用2：最短路径

### 2.1 最短路径简介

　　如今出行已经不需要再为找不着路而担心了，车上有车载导航，手机中有导航App。只需要确定起点和终点，导航会自动规划出可行的距离最短的道路。这是最短路径在人们实际生活中最典型的应用。

　　在一个网（**有权图**）中，求一个顶点到另一个顶点的最短路径的计算方式有两种：**迪杰斯特拉（Dijkstra算法）**和**弗洛伊德（Floyd）算法**。**迪杰斯特拉算法计算的是有向网中的某个顶点到其余所有顶点的最短路径；弗洛伊德算法计算的是任意两顶点之间的最短路径。**
	
　　最短路径算法既适用于有向网，也同样适用于无向网。本节将围绕有向网讲解迪杰斯特拉算法的具体实现。


### 2.2 迪杰斯特拉（Dijkstra算法）

　　迪杰斯特拉算法计算的是从网中一个顶点到其它顶点之间的最短路径问题。
	
![Image Name](https://cdn.kesci.com/upload/image/qw8aotqh10.png?imageView2/0/w/480/h/480)

　　如图 1 所示是一个有向网，在计算 V0 到其它所有顶点之间的最小路径时，迪杰斯特拉算法的计算方式为：
	
　　从 V0 出发，由于可以直接到达 V2 和 V5 ，而其它顶点和 V0 之间没有弧的存在，所以之间的距离设定为无穷大，可以得到下面这个表格：

![Image Name](https://cdn.kesci.com/upload/image/qw8aqyjkuj.png?imageView2/0/w/320/h/320)

　　从表格中可以看到，V0 到 V2 的距离最近，所以迪杰斯特拉算法设定 V0-V2 为 V0 到 V2 之间的最短路径，最短路径的权值和为 10。
	
　　已经判断 V0-V2 是最短路径，所以以 V2 为起始点，判断 V2 到除了 V0 以外的其余各点之间的距离，如果对应的权值比前一张表格中记录的数值小，就说明网中有一条更短的路径，直接更新表格；反之表格中的数据不变。可以得到下面这个表格：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8as3vg9d.png?imageView2/0/w/320/h/320)

　　例如，表格中 V0 到 V3 的距离，发现当通过 V2 到达 V3 的距离比之前的 ∞ 要小，所以更新表格。
	
　　更新之后，发现 V0-V4 的距离最近，设定 V0 到 V4 的最短路径的值为 30。之后从 V4 出发，判断到未确定最短路径的其它顶点的距离，继续更新表格：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8ate4gxd.png?imageView2/0/w/320/h/320)

　　更新后确定从 V0 到 V3 的最短路径为 V0-V4-V3，权值为 50。然后从 V3 出发，继续判断：
	
![Image Name](https://cdn.kesci.com/upload/image/qw8avrfxn.png?imageView2/0/w/320/h/320)

　　对于 V5 来说，通过 V0-V4-V3-V5 的路径要比之前的权值 90 还要小，所以更新表格，更新后可以看到，V0-V5 的距离此时最短，可以确定 V0 到 V5 的最短路径为 60。
	
　　最后确定 V0-V1 的最短路径，由于从 V0 无法到达 V1 ，最终设定 V0 到 V1 的最短路径为∞（**无穷大**）。
	
　　在确定了 V0 与其他所有顶点的最短路径后，迪杰斯特拉算法才算结束。
	
　【注：事例中借用了图 1 的有向网对迪杰斯特拉算法进行了讲解，实际上无向网中的最短路径问题也可以使用迪杰斯特拉算法解决，解决过程和上述过程完全一致。】

### 2.3 Dijkstra总结

　　迪杰斯特拉算法解决的是从网中的一个顶点到所有其它顶点之间的最短路径，算法整体的时间复杂度为O(n2)。但是如果需要求任意两顶点之间的最短路径，使用迪杰斯特拉算法虽然最终虽然也能解决问题，但是大材小用，相比之下使用弗洛伊德算法解决此类问题会更合适。


### 任务六

　　采用迪杰斯特拉算法实现图的最短路径，需要用Python编程完成，详细要求见大作业要求文档！

### 2.4 弗洛伊德算法（Floyd算法）

　　通过前一节对迪杰斯特拉算法的学习，主要解决从网（带权图）中某一顶点计算到其它顶点之间的最短路径问题。如果求有向网中每一对顶点之间的最短路径，使用迪杰斯特拉算法的解决思路是：以每一个顶点为源点，执行迪杰斯特拉算法。这样可以求得每一对顶点之间的最短路径。
	
　　本节介绍另外一种解决算法：**弗洛伊德算法**，该算法相比于使用迪杰斯特拉算法在解决此问题上的时间复杂度虽然相同，都为O(n3)，但是弗洛伊德算法的实现形式更简单。
　
　
　　弗洛伊德的核心思想是：对于网中的任意两个顶点（例如顶点 A 到顶点 B）来说，之间的最短路径不外乎有 2 种情况：
	
　（1）直接从顶点 A 到顶点 B 的弧的权值为顶点 A 到顶点 B 的最短路径；
 
　（2）从顶点 A 开始，经过若干个顶点，最终达到顶点 B，期间经过的弧的权值和为顶点 A 到顶点 B 的最短路径。
　
　
　　所以，弗洛伊德算法的核心为：对于从顶点 A 到顶点 B 的最短路径，拿出网中所有的顶点进行如下判断：Dis（A，K）+ Dis（K，B）< Dis（A，B）。其中，K 表示网中所有的顶点；Dis（A，B） 表示顶点 A 到顶点 B 的距离。
	
　　也就是说，拿出所有的顶点 K，判断经过顶点 K 是否存在一条可行路径比直达的路径的权值小，如果式子成立，说明确实存在一条权值更小的路径，此时只需要更新记录的权值和即可。
	
　　任意的两个顶点全部做以上的判断，最终遍历完成后记录的最终的权值即为对应顶点之间的最短路径。
	

![Image Name](https://cdn.kesci.com/upload/image/qwh2zbsiol.png?imageView2/0/w/480/h/480)

　　例如，在使用弗洛伊德算法计算图 1 中的任意两个顶点之间的最短路径时，具体实施步骤为：
	
　　首先，记录顶点之间初始的权值，如下表所示：
	
![Image Name](https://cdn.kesci.com/upload/image/qwh337jhls.png?imageView2/0/w/480/h/480)

　　依次遍历所有的顶点，假设从 V0 开始，将 V0 作为中间点，看每对顶点之间的距离值是否会更小。最终 V0 对于每对顶点之间的距离没有任何改善。
	
　【注：对于 V0 来说，由于该顶点只有出度，没有入度，所以没有作为中间点的可能。同理，V1也没有可能。】

　　将 V2 作为每对顶点的中间点，有影响的为 （V0，V3） 和 （V1，V3）：

　【例如，（V0，V3）权值为无穷大，而（V0，V2）+（V2，V3）= 60，比之前的值小，相比而言后者的路径更短；同理 （V1，V3）也是如此。】
 
　　更新的表格为：
 
![Image Name](https://cdn.kesci.com/upload/image/qwh3908r9m.png?imageView2/0/w/480/h/480)

　　以 V3 作为中间顶点遍历各队顶点，更新后的表格为：

![Image Name](https://cdn.kesci.com/upload/image/qwh3ahuyb5.png?imageView2/0/w/480/h/480)

　　以 V4 作为中间顶点遍历各队顶点，更新后的表格为：
	
![Image Name](https://cdn.kesci.com/upload/image/qwh3bppkc1.png?imageView2/0/w/480/h/480)

　　而对于顶点 V5 来说，和顶点 V0 和 V1 相类似，所不同的是，V5 只有入度，没有出度，所以对各队顶点的距离不会产生影响。最终采用弗洛伊德算法求得的各个顶点之间的最短路径如上图所示。
 

### 任务七

　　采用弗洛伊德算法实现图的最短路径，需要用Python编程完成，详细要求见大作业要求文档！

## 3. 应用3：拓扑排序

　　拓扑排序指的是将有向无环图（又称“DAG”图）中的顶点按照图中指定的先后顺序进行排序。

![Image Name](https://cdn.kesci.com/upload/image/qwh3rtq9r8.png?imageView2/0/w/640/h/320)

　　例如，图 1 中的两个图都是有向无环图，都可以使用拓扑排序对图中的顶点进行排序，两个图形的区别是：左图中的 V2 和 V3 之间没有明确的前后顺序；而右图中任意两个顶点之间都有前后顺序。

　　所以，左图中顶点之间的关系被称为“**偏序**”关系；右图中顶点之间的关系被称为”**全序**“关系。
	
　　在有向无环图中，弧的方向代表着顶点之间的先后次序，例如从 V1 指向 V2 的弧表示在进行排序时 V1 在前， V2 在后。

　【注：全序是偏序的一种特殊情况。对于任意一个有向无环图来说，通过拓扑排序得到的序列首先一定是偏序，如果任意两个顶点都具有前后顺序，那么此序列是全序。】

### 3.1 拓扑排序的方法

　　对有向无环图进行拓扑排序，只需要遵循两个原则：
 
　　（1）在图中选择一个没有前驱的顶点 V；
 
　　（2）从图中删除顶点 V 和所有以该顶点为尾的弧。


　　例如，在对图 1 中的左图进行拓扑排序时的步骤如图 2 所示：

![Image Name](https://cdn.kesci.com/upload/image/qwh3z1an9c.png?imageView2/0/w/480/h/480)

　　有向无环图如果顶点本身具有某种实际意义，例如用有向无环图表示大学期间所学习的全部课程，每个顶点都表示一门课程，有向边表示课程学习的先后次序，例如要先学《程序设计基础》和《离散数学》，然后才能学习《数据结构》。**所以用来表示某种活动间的优先关系的有向图简称为“AOV网”。**

　　进行拓扑排序时，首先找到没有前驱的顶点 V1，如图 2（1）所示；在删除顶点 V1 及以 V1 作为起点的弧后，继续查找没有前驱的顶点，此时， V2 和 V3 都符合条件，可以随机选择一个，例如图 2（2） 所示，选择 V2 ，然后继续重复以上的操作，直至最后找不到没有前驱的顶点。

　　所以，针对图 2 来说，拓扑排序最后得到的序列有两种：
　　　　V1 -> V2 -> V3 -> V4
　　　　V1 -> V3 -> V2 -> V4
		
　【注：如果顶点之间只是具有偏序关系，那么拓扑排序的结果肯定不唯一；如果顶点之间是全序关系，那么拓扑排序得到的序列唯一。】

### 3.2 拓扑排序实现思路

　　在编写程序解决拓扑排序的问题时，大致思路为：首先通过邻接表将 AOV 网进行存储，由于拓扑排序的整个过程中，都是以顶点的入度为依据进行排序，所以需要根据建立的邻接表统计出各顶点的入度。

　　在得到各顶点的入度后，首先找到入度为 0 的顶点作为拓扑排序的起始点，然后查找以该顶点为起始点的所有顶点，如果入度为 1，说明如果删除前一个顶点后，该顶点的入度为 0，为拓扑排序的下一个对象。


### 任务八

　　实现图的拓扑排序，需要用Python编程完成，详细要求见大作业要求文档！

## 4. 应用4：关键路径

### 4.1 什么是AOE网

　　AOE 网是在 AOV 网的基础上，其中每一个边都具有各自的权值，是一个有向无环网。其中权值表示活动持续的时间。

![Image Name](https://cdn.kesci.com/upload/image/qwh482mx2d.png?imageView2/0/w/480/h/480)

　　如图 1 所示就是一个 AOE 网，例如 a1=6 表示完成 a1 活动完成需要 6 天；AOE 网中每个顶点表示在它之前的活动已经完成，可以开始后边的活动，例如 V5 表示 a4 和 a5 活动已经完成，a7 和 a8 可以开始。
	
　　使用 AOE 网可以帮助解决这样的问题：如**果将 AOE 网看做整个项目，那么完成整个项目至少需要多少时间**？

　【起始点是入度为 0 的点，称为“源点”；结束点是出度为 0 的点，称为“汇点”。这条最长的路径，被称为”**关键路径**“。】
 
　　为了求出一个给定 AOE 网的关键路径，需要知道以下 4 个统计数据：
　　（1）对于 AOE 网中的顶点有两个时间：最早发生时间（用 Ve(j) 表示）和最晚发生时间（用 Vl(j) 表示）；
　　（2）对于边来说，也有两个时间：最早开始时间（用 e(i) 表示）和最晚开始时间（ l(i) 表示）；

　　<1>**Ve(j)**：对于 AOE 网中的任意一个顶点来说，从源点到该点的最长路径代表着该顶点的最早发生时间，通常用 Ve(j) 表示。
	
　【例如，图 1 中从 V1 到 V5 有两条路径，V1 作为源点开始后，a1 和 a2 同时开始活动，但由于 a1 和 a2 活动的时间长度不同，最终 V1-V3-V5 的这条路径率先完成。但是并不是说 V5 之后的活动就可以开始，而是需要等待 V1-V2-V5 这条路径也完成之后才能开始。所以对于 V5 来讲，Ve(5) = 7。】

　　<2>**Vl(j)**：表示在不推迟整个工期的前提下，事件 Vk 允许的最晚发生时间。
	
　【例如，图 1 中，在得知整个工期完成的时间是 18 天的前提下，V7 最晚要在第 16 天的时候开始，因为 a10 活动至少需要 2 天时间才能完成，如果在 V7 事件在推迟，就会拖延整个工期。所以，对于 V7 来说，它的 Vl(7)=16。】

　　<3>**e(i)**：表示活动 ai 的最早开始时间，如果活动 ai 是由弧 <Vk,Vj> 表示的，那么活动 ai 的最早开始的时间就等于时间 Vk 的最早发生时间，也就是说：e[i] = ve[k]。
　　
　【e(i)很好理解，拿图 1 中 a4 来说，如果 a4 想要开始活动，那么首先前提就是 V2 事件开始。所以 e[4]=ve[2]。】

　　<4>**l(i)**：表示活动 ai 的最晚开始时间，如果活动 ai 是由弧 <Vk,Vj> 表示，ai 的最晚开始时间的设定要保证 Vj 的最晚发生时间不拖后。所以，l[i]=Vl[j]-len<Vk,Vj>。

　　在得知以上四种统计数据后，就可以直接求得 AOE 网中关键路径上的所有的关键活动，方法是：**对于所有的边来说，如果它的最早开始时间等于最晚开始时间，称这条边所代表的活动为关键活动。由关键活动构成的路径为关键路径**。

### 4.2 AOE网求关键路径实现过程

　　对图 1 中的 AOE 图求关键路径，首先完成 Ve(j)、Vl(j)、e(i)、l(i) 4 种统计信息的准备工作。
	
　　Ve(j)，求出从源点到各顶点的最长路径长度为（长度最大的）：

![Image Name](https://cdn.kesci.com/upload/image/qwh6hdm1ag.png?imageView2/0/w/480/h/320)

　　Vl(j)，求出各顶点的最晚发生时间（从后往前推，多种情况下选择最小的）：

![Image Name](https://cdn.kesci.com/upload/image/qwh6ifsmxy.png?imageView2/0/w/480/h/320)

　　l(i),求各边中ai活动的最晚开始时间（多种情况下，选择最小的）：

![Image Name](https://cdn.kesci.com/upload/image/qwh6jjp8xc.png?imageView2/0/w/480/h/320)

　　通过对比 l(i) 和 e(i) ，其中 a1 、 a4 、 a7 、 a8 、 a10 、 a11 的值都各自相同，所以，在图 1 中的 AOE 网中有两条关键路径：

![Image Name](https://cdn.kesci.com/upload/image/qwh6kw2pbr.png?imageView2/0/w/640/h/480)