# 第7章 图
图是一种抽象的数学结构,研究抽象对象之间的一类二元关系及其拓扑性质.数学领域里有一种称为"图论"的研究分支,专门研究这种拓扑结构.

在计算机的数据结构领域和课程里,图被看作一类复杂数据结构,可以用于表示具有各种复杂联系的数据集合.图结构在实际中应用非常广泛.

## 7.1 概念,性质和实现
### 7.1.1 定义和图示
一个图是一个二元组$G=(V,E)$,其中:
- V是非空有穷的顶点集合(也可以有空图的概念,但实际意义不大)
- E是顶点偶对(称为边)的集合,$E\subset{V*V}$
- V中的顶点也称为图G的顶点,E中的边也称为图G的边

顶点是图中的基本个体,可以表示任何讨论中需要关心的实体.

图分为有向图和无向图两类.有向图中的边有方向,是顶点的有序对;无向图中的边没有方向,是顶点的无序对.

有向图里的有向边将用尖括号形式表示,例如$<v_i,v_j>$表示从顶点的$v_i$到顶点$v_j$的有向边,其中$v_i$称为这条边的始点,$v_j$是该边的终点.无向图中的无向边用圆括号表示.

如果在图G中有边$<v_i,v_j> \in E$(对于无向图,有$(v_i,v_j) \in E$),则称顶点$v_i$为$v_j$的邻接顶点或邻接点(无向图里的邻接关系是双向的),也称这条边为与顶点$v_i$象关联的边,或者$v_i$的邻接边.边集合E表示顶点之间的邻接关系.

在下面讨论中,对于所关注的图有两个限制:①这里不考虑顶点到自身的边,也就是说,若$<v_i,v_j>$或$(v_i,v_j)$是图G的边,则要求$v_i \ne v_j$;②同一对顶点之间没有重复出现的边,若$<v_i,v_j>$或$(v_i,v_j)$是图G的边,那么它就是这两个顶点之间唯一的边.

### 7.1.3 图的一些概念和性质
一些基本概念和性质

**完全图**:任意两个顶点之间都有边的图(有向图或无向图)称为__完全图__.显然:
- n个顶点的无向完全图有$n\times{(n-1)/2}$条边
- n个顶点的有向完全图有$n\times{(n-1)}$条边

应该注意一个重要事实:$|E|\le |V|_2$,即$|E|=O(|V|_2)$.也就是说,对于不同的图,其中边的条数可能达到顶点个数的平方,但也可能很少.这个事实在考虑与图相关的算法的时间和空间复杂度时经常用到.

**度**(顶点的度):一个顶点的度就是与它邻接的边的条数.对于有向图,顶点的度还分为__入度__和**出度**,分别表示以该定点为始点或终点的边的条数.

__性质 7.1__ (顶点数,变数和顶点度数的关系)无论对于有向图还是无向图,顶点数n,边数e和顶点度数满足下面关系:$$e = \frac{1}{2}\sum_i{D(v_i)}$$其中$D(v_i)$表示顶点$v_i$的度数,这里要求对所有顶点的度数求和.
#### 路径和相关性质
下面时一些与路径相关的概念:
- 路径的**长度**就是该路径上边的条数.
- 回路(环)指起点和终点相同的路径.
- 如果一个环路除起点和终点外的其他顶点均不相同,则称为__简单回路__.
- 简单路径是内部不包含回路的路径.也就是说,该路径上的顶点除起点和终点可能相同外,其他顶点均不相同.因此,简单回路也是简单路径.

注意,从一个顶点到另一个顶点可能存在路径,也可能不存在路径.如果存在路径,则可能有一条或多条路径,不同的路径的长度也可能不同.特别的,如果从$v_i$到$v_j$存在非简单的路径(既包含环路的路径),那么从$v_i$到$v_j$就有无穷多条不同的路径,其中一些路径之间的不同就在于在环路上绕圈的次数不同.

**有根图**:如果在有向图G里存在一个顶点v,从顶点v到图G中其他每个顶点均有路径,则称G为有根图,称顶点v为图G的一个根.

#### 连通图
连通:如果在无向图G中存在从$v_i$到$v_j$的路径,则说从$v_i$到$v_j$连通,或者说从$v_i$可达$v_j$.为简化讨论,下面将始终默认任一顶点与其自身连通,可达其自身.对有向图,连通性也可以类似定义,但这里的连通性可以不是双向的.

连通无向图:如果无向图中任意两个顶点之间都连通,则称为连通无向图.

强连通有向图:如果对有向图中任意两个顶点$v_i$和$v_j$,从$v_i$到$v_j$连通并且从$v_j$到$v_i$也连通,则称为强连通有向图.

显然,完全无向图都是连通图,完全有向图都是强连通有向图.但是反过来不对,存在非完全的连通无向图和强连通有向图.

__性质 7.2__(最小连通无向图的边数)包含n个顶点的最小连通无向图G恰有n-1条边.

**最小连通图**,即其为连通图,但去掉其中任意一条边将不再是连通图.

__性质7.3__(最小有根图的边数) 包含n个顶点的最小有根图(即去掉任一条边将不再是有根图)恰好包含n-1条边.
#### 子图,连通子图
子图,连通子图(强连通子图),极大连通子图(连通分量)

无向图G的所有连通分量形成了图G的一个划分,每个连通分量包含图G的一集顶点和它们之间的所有边,不同连通分量的顶点集合互不相交,而这些顶点集和边集的并就是原来的G.

有向图G的一个极大强连通子图称为它的一个强连通分量.但请注意,图G的强连通分量只形成其顶点的一个划分,所有强连通分量的并未必等于图G,可能少一些连接不同连通分量的有向边.

#### 带权图和网络
如果图G中的每条边都被赋予一个权值,则称G为一个带权图(可以是带权有向图或者带权无向图).边的权值可用于实际应用中与顶点之间的关联有关的某些信息.带权的连通无向图也称为网络.
### 7.1.3 图抽象数据类型
|ADT Graph|# 一个图抽象数据类型|
|---|---|
|Graph(self)|# 图构造操作,创建一个新图|
|is_empty(self)|# 判断是否为一个空图|
|vertex_num(self)|# 获得这个图中的顶点个数|
|edge_num(self)|# 获得这个图中边的条数|
|vertices(self)|# 获得这个图中的顶点集合|
|edges(self)|# 获得这个图中的边集合|
|add_vertex(self, vertex)|# 将顶点vertex加入这个图|
|add_edge(self, v1, v2)|# 将从v1到v2的边加入这个图|
|get_edge(self, v1, v2)|# 获得v1到v2边的有关信息,没有时返回特殊值|
|out_edges(self,v)|# 取得从v出发的所有边|
|degree(self, v)|# 检查v的度|
创建图可以是创建一个空的图,或是基于有关图中顶点的一批数据,创建一个只包含这些顶点但是没有边的图,或者基于顶点和边的数据创建一个新图.可以根据具体情况考虑,为图的构造函数引进其他必要的参数.

上面的抽象数据类型只是作为例子,在实际中要根据应用的需求考虑操作集合.定义操作时还需考虑是无向图还是有向图.例如,对有向图,顶点的度应该分为出度和入度,邻接边也需要区分是出边还是入边.实际中一般只是用出度和出边.

除了上面的操作外,还需考虑遍历图中所有顶点或者所有边的操作.这里的遍历与树的遍历有许多差异,最重要有两点:
- 图中可能有回路,到同一顶点可能有多条路径(树结构里没有这些情况).因此,在遍历中需要避免再次进入已经遍历过的部分.
- 图有可能不连通,或者这个图不是有根图,即使是有根图,算法也可能没有从图中的根开始遍历.因此,要完成对一个图中所有顶点(或者边)的遍历,遍历完途中可达的那部分(在无向图里是一个连通分量,在有向图里是一个或几个强连通分量),并不一定是整个图遍历的结束,还需要考虑从初始顶点不可达的部分.

### 7.1.4 图的表示和实现
图的结构比较复杂,在其表示中需要表示顶点及顶点间的边.一个图可能有任意多个顶点(但有穷),图中任一两个顶点之间都可能存在边.顶点就是一个集合,每个顶点可能保存一些由实际应用确定的信息,在这里不是重点.在抽象的讨论中,主要关注的是边与顶点的邻接关系和顶点间的邻接关系,这些是图表示的关键.

#### 邻接矩阵
图的最基本表示方法是邻接矩阵表示法,邻接矩阵是表示图中顶点间邻接关系的方阵.对于n个顶点的图G=(V,E),其邻接矩阵是一个$n\times n$方阵,图中每个顶点(按顺序)对应于矩阵里的一行和一列,矩阵元素表示图中的邻接关系.

易见,无向图的邻接矩阵都是对称矩阵,因为其邻接关系是对称的.有向图就不一定是这样.另外,由于没考虑顶点到自身的边,上面矩阵的对角线元素都是0.如果希望用矩阵表示图中的连通关系,就应该令矩阵的对角线元素为1,因为默认各顶点到自身连通.此外,邻接矩阵中的标号i的一行和一列都对应与顶点i,行对应于它的出边,列对应于它的入边,行/列中非零元的个数对应于顶点i的出度/入度.

用邻接矩阵表示带权图时,出现了两个新问题:首先是无边情况的表示,可以根据情况选择0或$\infty$;还要就是对角线元素的表示问题,也可以根据情况选择0或者$\infty$,其选择可以与无边情况相同或者不同.如果图中的权表示从顶点到顶点的一种代价,无边时的代价无穷大,而顶点到自身的代价时0.

为符合Python语言的习惯,在下面讨论中,矩阵的行列下标从0开始编号.
#### 邻接矩阵表示法的缺点
图的邻接矩阵经常是比较稀疏的,其中有信息的元素比例不大,大量元素是表示无边的值.对实际应用中很大的图,这种情况更加明显.在实际应用中,很多图都是这种情况,其中的边数与顶点数乘线性关系,而不是平方关系.为了降低图表示的空间代价(在一些情况下也提高计算的效率),人们提出了许多其他技术,它们都可看作邻接矩阵的压缩版,如:
- 邻接表表示法;
- 邻接多重表表示法;
- 图的十字链表表示法;等等.

#### 图的邻接表表示法
所谓邻接表,就是为图中每个顶点关联一个边表,其中记录这个顶点的所有邻接边.这样,一个顶点的表,其中每个顶点又关联一个边表,就构成了图的一种表示.具体实现可以采用链接表或者连续表.采用某种具体形式的顶点表和边表,就形成了一种特殊的邻接表表示

顶点是图中最基本的成分,通常有标识,也可以顺序编号,以便可以通过编号随机访问.而边是图中的附属部件,经常需要访问一个顶点的各条边.另一方面,图中的顶点通常不变化,而边的增减情况较多.由于这些情况,实际中人们经常用一个顺序表表示图中的顶点,每个顶点关联一个表示其邻接边表的链表.

## 7.2 图结构的Python实现
在Python中实现图数据结构,可以有许多方法,下面是几个例子:
- 用以list为元素的list(两层的表)或者tuple的tuple(两层的tuple结构)作为邻接矩阵的直接实现来表示图结构.如前面所言,这种表示方法结构简单,使用也很方便,容易判断顶点的邻接关系.但存储代价较大,不适合很大的图.
- 定义一种字典(dict对象),以顶点的下标序对(i,j)作为关键码,实现从顶点对到邻接关系的映射(例如,值为1表示有边,None表示无边).这种实现的检索效率很高(平均为O(1)时间),采用适当的技术,可以做到图的空间开销与图中边数成正比,适合表示稀疏矩阵(邻接矩阵经常是这样).但Python的字典本身比较复杂,而且基于顺序存储技术实现,是否适合大型图需要试验
- 用Python内置的bytearray字节向量类型或者标准库的array类型.bytearray是内置类型,与str类似,但未可变类型.bytearray对象的元素是二进制字节,可以用于表示变的存在与否,存储效率较高.array是标准库里定义的数值汇集类型,其对象的元素可以是整数或浮点数等基本类型的值,可用于表示带权图.
- 自定义类型实现邻接表表示,其中具体数据的组织可以考虑上述各种技术


In [1]:
inf = float("inf") # 在Python中定义无穷大,
inf

inf

### 7.2.1 邻接矩阵实现
首先考虑基于邻接矩阵技术定义一个实现图的类,其中矩阵元素可以是1或者权值,表示有边,或者用一个特殊值表示"无关联".

为满足不同应用的需要,这里为用户提供一种选择,在构造图对象时可以通过参数为无关联的情况提供一个特殊值.构造函数的参数unconn服务于这个目的,默认值为0.

图构造函数的主要参数是mat,表示初始的邻接矩阵.这里要求它是一个二维的表参数,提供图的基本架构,主要是确定图的顶点个数.构造函数将基于给定的矩阵参数建立一个图,做出参数矩阵的一个拷贝.在构造这个拷贝之前,函数先确认参数合法,检查给定矩阵是否为方阵.二维表的拷贝通过一个生成式完成,其中的切片操作mat[i][:]构造一行的拷贝.

In [2]:
class GraphError(Exception):
    pass

class Graph:           # 基本图类,采用邻接矩阵表示
    def __init__(self, mat, unconn=0):
        vnum = len(mat)
        for x in mat:
            if len(x) != vnum:      # 检查是否为方阵
                raise ValueError("Argument for 'Graph'.")
        self._mat = [mat[i][:] for i in range(vnum)]  # 做拷贝
        self._unconn = unconn
        self._vnum = vnum
    def vertex_num(self): # vertex:顶点
        return self._vnum
    def _invalid(self, v):   # invalid:无效的
        return 0 > v or v >= self._vnum
    def add_vertex(self):
        raise GraphError("Adj-Matrix does not support 'add_vertex'.")
    def add_edge(self, vi, vj, val=1):
        if self._invalid(vi) or self._invalid(vj):
            raise GraphError(str(vi) + 'or' + str(vj) + "is not a valid vertex.")
        self._mat[vi][vj] = val
    def get_edge(self, vi, vj):
        if self._invalid(vi) or self._invalid(vj):
            raise GraphError(str(vi) + 'or' + str(vj) + "is not a valid vertex.")
        return self._mat[vi][vj]
    """
    许多图算法需要逐个处理一个顶点的各条出边.下面定义一个方法返回相应出边的表,它调用一个
    内部的静态函数完成工作.采用下面实现方式,每次对具体顶点的调用将构造一个新表,如果用完
    就丢掉,下次还需要重新做.为避免这种代价,可以设法记录已经构造的表.
    """
    def out_edges(self, vl):
        if self._invalid(vi):
            raise GraphError(str(vi) + "is not a valid vertex.")
        return self._out_edges(self._mat[vi], self._unconn)
    @staticmethod
    def _out_edges(row, unconn):
        edges = []
        for i in range(len(row)):
            if row[i] != unconn:
                edges.append((i, row[i]))
        return edges
    def __str__(self):
        return "[\n" + ",\n".join(map(str, self._mat)) + "\n]"\
                + "\nUnconnected: " + str(self._unconn)

### 7.2.2 压缩的邻接矩阵(邻接表)实现
邻接矩阵的缺点是空间占用与顶点数的平方成正比,可能打来很大的浪费.另外,邻接矩阵不容易增加顶点,不太适合以逐步扩充的方式构造图对象.

现在考虑一种"压缩的"表达形式,也就是邻接表技术,把这个类命名为GraphAL(表示邻接表图类).在GraphAL类的对象里,每个顶点v的所有邻接边用一个(不一定等长的)list对象表示(也可以用链接表),元素形式为$(v^,,w)$,其中$v^,$是边的重点,w是边的信息(权).一个GraphAL对象的主要部分就是这种list的list,每个元素对应一个顶点.

首先可以看到,采用这种设计很容易给已有的图添加顶点.为此只需要在外层表中增加一个表示新顶点的项,对应的边表设为空表,通过随后的操作加入新边.也就是说,这种表示能更好地支持以逐步扩充的方式构造大型图对象.

GraphAL类的定义继承Graph类,提供同样接口,内部使用同一套数据域.由于内部表示采用完全不同的形式,类中的主要方式都需要重新定义,少数方法可以继承.实际上,完全可以不采用继承Graph的方式定义这个类.但那样做需要拷贝几个重要的方法,采用继承还是有益的.

In [4]:
class GraphAL(Graph):
    def __init__(self, mat=[], unconn=0):
        vnum = len(mat)
        for x in mat:
            if len(x) != vnum:      # 检查是否为方阵
                raise ValueError("Argument for 'GraphAL'.")
        self._mat = [Graph._out_edges(mat[i], unconn) for i in range(vnum)]
        self._vnum = vnum
        self._unconn = unconn
    def add_vertex(self):          # 增加新顶点时安排一个新编号
        self._mat.append([])
        self._vnum += 1
        return self._vnum - 1
    def add_edge(self, vi, vj, val=1):
        if self._vnum == 0:
            raise GraphError("Cannot add edge to empty graph.")
        if self._invalid(vi) or self._invalid(vj):
            raise GraphError(str(vi) + 'or' + str(vj) + "is not valid vertex.")
        row = self._mat[vi]
        i = 0
        while i < len(row):
            if row[i][0] == vj:       # 修改mat[vi][vj]的值
                self._mat[vi][i] = (vj, val)
                return
            if row[i][0] > vj:       # 原来没有到vj的边,退出循环后加入边
                break
            i += 1
        self._mat[vi].insert(i, (vj, val))
    def get_edge(self, vi, vj):
        if self._invalid(vi) or self._invalid(vj):
            raise GraphError(str(vi) + 'or' + str(vj) +
                            "is not a valid vertex.")
        for i, val in self._mat[vi]:
            if i == vj:
                return val
        return self._unconn
    def out_edges(self, vi):
        if self._invalid(vi):
            raise GraphError(str(vi) +
                            "is not a valid vertex.")
        return self._mat[vi]

加入新顶点的方法很简单,加入新边的方法很复杂.采用这一复杂设计的原因时看到了一种现象:从邻接矩阵构造出的边表中隐藏着一种顺序,即在边表里的出边按各顶点在邻接矩阵里的下标顺序排列.加入新边的操作应该保持这种顺序,保证这种图对象的操作有确定的顺序.如果简单地把新边加在边表最后,图操作地顺序就没有保证了.显然,采用这种设计,也使插入操作地效率等比域边表地长度.但考虑到图地构造(和扩充)只做一次,在这里多用一点时间,通常不会成为问题.

边表的设计本身也是可以考虑的问题.采用顺序表(如这里用list)和顺序检索方式的插入/访问,如果顶点出度很小,操作效率不是问题.如果顶点的出度有可能很大,也可以考虑采用二分检索技术,或者为每个顶点关联一个表示边表的字典,记录从邻接顶点到边值的关联,以支持快速插入和访问.
### 7.2.3 小结
上面定义了两个表示图的类,其内部实现不同但是接口相同.这样,从这两个类的对象出发,能调用的方法完全一样,支持同样的使用方式.

但也应该看到,由于两个类采用的数据表示不同,各种操作的实现方法不同,操作的时间和空间效率也不同.例如,从一个顶点出发访问其所有出边,对于Graph对象,操作效率正比于图中结点个数,对GraphAL对象则正比于顶点的出边数.另外,要确定两个顶点之间是否有边,对于Graph对象使常量时间操作,而对GraphAL对象就需要扫描一个顶点的出边表.

由于上面两个类的对象支持同一套方法,如果基于这套方法定义函数,实现重要的图算法,有关定义将能适用于这两种不同的图实现

最后,上面两个类主要表示了边的信息,其中的顶点只是一个编号.如果在实际图中的顶点还有更多的关联信息,例如名字和其他相关数据,就需要扩充上面的类.例如,可以考虑在图对象里增加一个顶点表或顶点字典.

## 7.3 基本图算法
很多实际问题可以抽象为图和图上的计算问题,例如:
- 互联网和移动电话网的路由(几乎每个人每天都在用)
- 集成电路(和印制电路板)的设计和布线
- 运输和物流中的各种规划安排问题
- 工程项目的计划安排
- 许多社会问题计算,如金融监管(例如关联交易检查)

一旦从应用中抽象出一个图,应用问题可能就变成图上的一个算法问题.
### 7.3.1 图的遍历
图的遍历,也称为图的周游,就是按某种方式系统地访问图中每个顶点而且仅访问一次的过程.状态空间中的状态和相邻关系就形成了一个图,图的遍历对应于一此穷尽的状态空间搜索.

一般的图未必使连通图.

深度优先遍历(Depth-First Search)和宽度优先遍历(Breadth-First Search)
#### 深度优先遍历的非递归算法
需要用一个栈作为辅助数据结构.前面提到的一个问题必须考虑,就是防止多次遍历同一顶点.在下面算法中,采用一个内部的表对象记录访问历史,对应每个顶点有一个表元素.当一个顶点被访问时,将该顶点下标对应的表元素设置为1.初始时这个表的所有元素取0值.

In [7]:
def DFS_graph(graph, v0):
    vnum = graph.vertex_num()
    visited = [0] * vnum      # visited记录已访问顶点
    visited[v0] = 1
    DFS_seq = [v0]            # DFS_seq记录遍历序列
    st = SStack()
    st.push((0, graph.out_edges(v0)))    # 入栈(i,edges),说明
    while not st.is_empty():             # 下次应访问边edges[i]
        i, edges = st.pop()
        if i < len(edges):
            v, e = edges[i]
            st.push((i+1, edges))        # 下次回来将访问edges[i+1]
            if not visited[v]:           # v未访问,访问并记录其可达顶点
                DFS_seq.append(v)
                visited[v] = 1
                st.push((0 ,graph.out_edges[v]))
                # 下面访问的边组
    return DFS_seq

### 7.3.2 生成树
如果图G是连通无向图或者强连通有向图(实际上只要求是有根有向图),从无向图G中任一顶点$v_0$出发,或者从有根有向图的根$v_0$出发,到图中其他各个顶点都存在路径.

**性质 7.4**(图中的路径于路径上的边数) 如果图G有n个顶点,必然可找到G中的一个包含n-1条边的边集合,这个集合里包含了从$v_0$到其他所有顶点的路径.

图G中满足上述性质的n-1条边(加上G所有顶点)形成了图G的一个子图T.由于T包含n个顶点且只有n-1条边,因此它不可能包含任何回路,形成了一棵树(有向或无向的树,以$v_0$未根结点).

对于无向图G,满足上述性质的子图T是G的一个最小连通子图(去掉其中任意一条边后将不再连通).由于图T是树形结构,因此称T为G的一棵生成树.

对于强连通有向图(或有根有向图)G,满足上述性质的子图T是G的一个最小的有根子图(以$v_0$为根).T也称为G的一棵生成树.

如果一个图有生成树,其生成树也可能不唯一.

__性质 7.5__(生成树的边数) n个顶点的连通图G的生成树包含恰好n-1条边.无向图G的生成树就是G的一个最小连通子图,是一个无环图.有向图的生成树中所有的边都位于从根到其他顶点的(有方向)路径上.

一般而言,一个无向图G可能非连通.但由于任何无向图都可以划分为一组连通分量,因此每个无向图都存在生成树林.

**性质 7.5**(图的生成树林的边数) 包含n个顶点,m个连通分量的无向图G的生成树林恰好包含n-m条边.

#### 遍历和生成树
从连通无向图或强连通有向图中任一顶点出发遍历,或从有根有向图的根顶点出发遍历,都可以访问到所有顶点.在遍历中经过的边加上原图的所有顶点,就构成该图的一棵生成树.通过遍历构造生成树的过程可以按深度优先方式或宽度优先方式进行,在遍历中记录访问的所有顶点和经过的边,就得到原图的深度优先生成树(简称DFS生成树),或者宽度优先生成树(BFS生成树).
#### 构造DFS生成树(BFS生成树类似)
如何构造并给出所需的DFS生成树.生成树的顶点就是原图的顶点,现在的关键是设法表示生成树上的边.
#### 构造DFS生成树:递归算法

In [2]:
def DFS_span_forest(graph):
    vnum = graph.vertex_num()
    span_forest = [None] * vnum
    
    def dfs(graph, v):          # 递归遍历函数,在递归中记录经由边
        nonlocal span_forest    # span_forest是nonlocal变量
        for u, w in graph.out_edges(v):
            if span_forest[u] is None:
                span_forest[u] = (u, w)
                dfs(graph, u)
    for v in range(vnum):
        if span_forest[v] is None:
            span_forest[v] = (v, 0)
            dfs(graph, v)
    return span_forest

## 7.4 最小生成树
带权连通无向图(网络)上的最小生成树问题以及求最小生成树的两个算法
### 7.4.1 最小生成树问题
假定G是一个网络,其中的边带有给定的权值,自然也可以做出它的生成树.现将G的一棵生成树中各条边的权值之和成为该生成树的权.

网络G可能存在多棵不同的生成树,不同生成树的权值也可能不同,其中权值最小的生成树成为G的最小生成树(Minimum Spanning Tree,MST).显然,任何一个网络都必然有最小生成树,但其最小生成树也可能不唯一.

最小生成树有许多实际应用.例如,将网络顶点看作城市,边看作连接城市的通信网,边的权看作连接城市的通信线路的成本,根据最小生成树建立的通信网就是这些城市之间成本最低的通信网.

可类似的考虑各种网络问题,如成本最低的城市间(或村庄间)的公路网,输电网或者有线电视网;城市的输水管网,暖气管线,配送中心与线路网络规划;集成电路或印制电路版的地线,供电线路等.

在表示这类应用的带权图中,各结点到其自身的权值应该取为0,到其他结点有边时有具体权值,无边时权值取无穷的inf
### 7.4.2 Kruskal算法
如何判断两个顶点在当时的T里属于不同的连通分量.一种显然但很麻烦的做法时在T中检查这条边的两个端点,看它们之间是否已有路径.

另一种有效方法是为每个连通分量确定一个代表元,如果两个顶点的代表元相同,它们就相互连通,属于同一个连通分量.
#### 算法的Python实现

In [3]:
def Kruskal(graph):
    vnum = graph.vertex_num
    reps = [i for i in range(vnum)]
    mst, edges = [], []
    for vi in range(vnum):                     # 所有边加入表edges
        for v, w in graph.out_edges(vi):
            edges.append((w, vi, v))
    edges.sort()                               # 边按权值排序,O(nlogn)时间
    for w, vi, vi in edges:
        if reps[vi] != reps[vj]:               # 两端点属于不同连通分量
            mst.append((vi, vj), w)            # 记录这条边
            if len(mst) == vnum - 1:           # |v| - 1 条边,构造完成
                break
            rep, orep = reps[vi], reps[vj]
            for i in range(vnum):              # 合并连通分量,统一代表元
                if reps[i] == orep:
                    reps[i] = rep
    return mst

从本质上说,Kruskal算法是一种抽象想法,可称为一个抽象算法(或称为算法模式).实现该算法时,可以采用不同的具体辅助数据结构和不同实现方法.不同实现可能具有不同的时间和空间复杂度
### 7.4.2 Prim算法
从一个顶点出发,逐步扩充包含该顶点的部分生成树T.
#### MST性质及其证明
最小生成树有一个重要的MST性质,叙述如下:

设$G=(V,E)$是一个网络,U是V的任一真子集,设$e=(u,v)\in E$且$u\in U,v\in{V-U}$(也就是说,e的一个端点在U里,另一个不在),而且e在G中所有一个端点在U而另一个端点在V-U的边中权值最小,那么G必有一棵包括边e的最小生成树

#### Prim算法的基本想法
从一个顶点出发,利用MST性质选择最短连接边,扩充已连接的顶点集并加入所选的边,直至结点集合里包含了图中的所有顶点;或最终确定这个图不是连通图.
#### Prim算法的实现

In [1]:
def Prim(graph):
    vnum = graph.vertex_num()
    mst = [None] * vnum
    cands = PrioQueue([(0, 0, 0)])      # 记录候选边(w, vi, vj)
    count = 0
    while count < vnum and not cands.is_empty():
        w, u, v = cands.dequeue()       # 取当时的最短边
        if mst[v]:
            continue                    # 邻接顶点v已在mst,继续
        mst[v] = ((u, v), w)            # 记录新的MST边和顶点
        count += 1
        for vi, w in graph.out_edges(v):    # 考虑v的邻接顶点vi
            if not mst[vi]:                 # 如果vi不在mst则这条边是候选边
                candas.enqueue((w, v, vi))
    return mst

### \*7.4.4 Prim算法的改进
前面Prim算法实现的一个缺点是可能把没价值的边存入队列cands,使得计算的空间复杂度达到O(|E|),实际上只需要记录连接顶点集合U和集合V-U的边.

为了保证算法的效率,所有数据结构必须有效支持下面操作:
- 获得连接边中的最短边.显然可以采用堆结构,复杂度为O(log|v|)
- 向U中加入新顶点,可能发现到V-U中顶点的更短连接边.为此需要从结点出发找到与之对应的堆元素,修改其权值并恢复堆结构.

解决这个问题的关键是设法高效地修改堆元素地权值并恢复堆结构.为了改进Prim算法的实现,需要一种类似优先队列的结构,它能支持(其中的元素个数为n):
- O(n)时间建堆,O(logn)时间取最小元操作getmin(堆支持这些).
- 从某种index(在这里考虑的是顶点标号)出发的O(1)的weight(index)操作,得到与index对应的权值;以及从index和新的权值出发,O(logn)时间的减权值操作dec_weight(index, w)

称这种结构为可减权堆,设其定义类名为DecPrioHeap,支持:
- 初始建堆DecPrioHeap(list),其中list中的项形式为(w,index,other).建立起来的这个类的对象decheap是以list的项为元素,以w为权的小顶堆.这个操作就是一般的建堆操作,按常规方式实现,但需要考虑下面操作的需要.
- decheap.getmin()弹出堆中最小元并恢复堆,O(logn)复杂度
- decheap.weight(ind)得到ind为index的元素的权值,O(1)时间复杂度
- decheap.dec_weight(ind,w,other)在w小于decheap里具有ind的元素的权值时,将该元素改为(w,ind,other)并恢复堆的结构,要求复杂度为O(logn).
- decheap.is_empty()在decheap为空时返回True,O(1)操作.
### 7.4.5 最小生成树问题
## 7.5 最短路径
带权有向图或带权无向图(网络)上的路径问题.
### 7.5.1 最短路径问题
带权有向图或带权无向图(网络)中的每条边都附有一个权值,通常用于表示实际应用中顶点之间联系的某种度量,表示其关联的紧密程度,例如长度,成本,代价等.这种权值一般具有可加性,可以看作一种抽象的"距离".

**定义**(路径长度和顶点距离)在网络或带权有向图里:
- 从顶点$v$到$v^,$的一条路径上各条边的长度之和成为该路径的长度
- 从$v$到$v^,$到所有路径中长度最短的路径就是$v$到$v^,$的最短路径,最短路径的长度称为从$v$到$v^,$的距离,记为$dis(v,v^,)$.

进一步考虑,最短路径问题还可以分为单源点最短路径,即从一个顶点出发到图中其余各顶点的最短路径问题;以及所有顶点之间的最短路径问题.
### 7.5.2 求解单源点最短路径的Dijkstra算法
#### 基本想法
Dijkstra算法的限制是要求图中所有边的权不小于0.Dijkstra算法的基本想法和工作过程与Prim算法有些类似,利用了另一个与MST性质类似的性质.

假设现在要找图G中从顶点$v_0$到其他顶点的最短路径.在Dijkstra算法的执行过程中,也把图中的顶点分为两个集合:当时已知最短路径的顶点集合U,以及尚不知道最短路径的顶点集合V-U.在算法的执行过程中逐步扩充已知最短路径的顶点集合,每步从顶点集合V-U中找出一个顶点(它是当时已经能确定最短路径的顶点)加入U.反复执行这样的步骤,直至找到从顶点$v_0$到其他所有顶点的最短路径.该算法能同时给出这些最短路径及其长度(距离).

剩下的问题就是如何找到适当的顶点扩充集合U,也就是说,如何在集合V-U里找到下一个能确定最短路径的顶点?这一操作依赖下面的一个性质.

如果上述想法能工作,在算法运行中的每一步,总是有些顶点在U中,另一些不在U中.为统一考虑所有顶点,针对程序执行中的每个时刻,为图中所有顶点定义一种与初始点$v_0$相关的统一度量,称为已知最短路径长度(或已知距离)$cdis(v_0,v)$:
$$
cdis(v_0,v) = \left\{ \begin{array}{ll}
dis(v_0,v), & \textrm{如果$v\in U$}\\
min\{dis(v_0,u)+w(u,v)|u\in U \bigwedge w(u,v)\ne \infty\}, & \textrm{如果存在这样的u}\\
\infty & \textrm{其他}
\end{array} \right.
$$
其中w(u,v)表示从u到v的边上的权.请特别注意中间一条,其意思是,如果已知从$v_0$到u的距离(由于$u\in U$,其最短路径已知),而且存在从u到v的边,那么从$v_0$到v的当前已知距离,就是在所有经由满足上述条件的u的间接路径中最短的那一条路径的长度.显然,随着已知距离的顶点不断增加(随着U不断增长),有可能发现经由另一顶点的其他间接路径,因此可能使这种"当前已知距离"变小.特别的,有些顶点原来不知道间接路径,后来发现了到它的间接路径.

**性质7.7**(已知的和实际的最短路径)