# 六、 图

## 图的概述

图 **graph** 定义为 G=(V,E)，其中集合 V 中的元素称作顶点 **vertex**，集合 E 中的元素分别对应于 V 中的某一对顶点 (u, v)，表示它们之间的某种关系，称为边 **edge**。

若边 (u,v) 所对应的顶点 u 和 v 的次序无所谓，则称为无向边 **undirected edge**，例如同学关系; 否则为有向边 **directed edge**，例如企业与银行间的借贷关系。

有向边 (u,v) 中的 u 称为边的起点 **origin** 或尾顶点 **tail**，而 v 为终点 **destination** 或头顶点 **head**。

由无向边组成的图为无向图 **undirected graph, undigraph**，由有向边组成的为有向图 **directed graph, digraph**，混合组成的为混合图 **mixed graph**。

![graph_3_forms.png](img/c6_graph/graph_3_forms.png)

有向图更通用，因为无向边可以等价转化成两条有向边。故重点研究有向图。

## 度

边 e=(u,v) 中，称 u 和 v 彼此邻接 **adjacent**，互为邻居; 而顶点都与边 e 彼此关联 **incident**。无向图中，与顶点 v 关联的边数为 v 的度数 **degree, deg(v)**。而有向边中，边 e 称为 u 的出边 **outgoing edge** 和 v 的入边 **incoming edge**。v 的出边总数称为其出席 **out-degree, outdeg(v)**，入边总数称为其入度 **in-degree, indeg(v)**。

## 简单图

联接于同一顶点之间的边，称为自环 **self-loop**。不含任何自环的图称为简单图 **simple graph**，为主要研究对象。

## 通路与环路

+ 通路或路径 **path** 就是由 m+1 个顶点和 m 条边交替而成的一个序列，边的总数 m 称为通路的长度。
+ 一条通路中，如果没有重复的顶点，称为简单通路 **simple path**。
+ 起点和终点相同的通路称为环路 **cycle**。
+ 不含任何环路的有向图称为有向无环图 **directed acyclic graph, DAG**。
+ 除起止点节，再没有其它重复顶点的环路称为简单环路 **simple cycle**。
+ 经过图中各边一次且恰好一次的环路称为欧拉环路 **Eulerian tour**，其长度为图中边的总数。
+ 经过图中各顶点一次且恰好一次的环路，称为哈密尔顿环路 **Hamilton tour**。
+ 各边带权重 **weight** 的图为带权图 **weighted graph** 或带权网络 **weighted network**。

![cycle_instances.png](img/c6_graph/cycle_instances.png)

## 复杂度

应以顶点数与边数的总和 (n+e) 来度量。

无论有多少顶点，边数都有可能为 0。考虑最多有多少边的情况：

+ 当为无向图时，每一对顶点贡献一条边，n 个顶点时，第一个顶点可与其后 n-1 个顶点可联边，第二个顶点可与其后 n-2 个顶点联边，...，总数为 $(n-1)+(n-2)+\cdots+1 = n(n-1)/2$。
+ 当为有向图时，每一对顶点贡献两条边，总数为 n(n-1)。

因此，边数 $e=O(n^2)$。


# 邻接矩阵 adjacency matrix

![adjacency_matrix.png](img/c6_graph/adjacency_matrix.png)

n 个顶点的图用 `A[n][n]` 方阵表示，其中的每个单元描述顶点间的邻接关系，例如无权图用 1, 0 表示有无连接，有权图描述权重。


## 时间性能

对应于向量的 "循秩访问“，图 ADT 中的所有静态操作接口及边的动态操作（插入和删除）都为 O(1)，但代价空间冗余（无向图中 `E[i][j]` 和 `E[j][i]` 的值相等）。

顶点的插入和删除 O(n)。

## 空间性能

边集向量 `E[][]` 为 $O(n^2)$，而无向图的邻接矩阵必为对称阵，近一半冗余。


# 邻接表 adjacency list

邻接矩阵法的 $O(n^2)$ 空间性能待改进，特别在平面图（没有跳线的图）之类的稀疏图（sparse graph) 中，边数渐进地不超过 O(n)，仅与顶点总数大致相当。

![adjacency_list.png](img/c6_graph/adjacency_list.png)

## 复杂度

邻接表所含列表数等于顶点总数 n,每条边在其中仅存一次（有向图）或两次（无向图），故空间总量为 O(n+e)，与图规模相当。

但时间性能降低，例如  `exits(v, u)` 需在 v 对应的邻接表中顺序查找，O(n)。

顶点的插入为 O(1),而非 O(n)，顶点删除为 O(e)。

邻接表访问将同一顶点的所有关关联起来，有益于批量访问（这是图遍历等算法的典型处理流程和模式）。

# 图的遍历

**对所有顶点和边访问一次且仅一次**，是将图的非线性结构转化为半线性结构（遍历树）的过程。

经遍历而确定的边类型中，最重要的一类即所谓的树边，它们与所有顶点共同构成了原图的一棵支撑树（森林），称为**遍历树 traversal tree**。

图中顶点之间可能存在多条通路，故为避免对顶点的重复访问，在遍历中常要动态地设置各顶点不同的状态，并随着遍历的进程不断转换，直到最后的访问完毕。

图的遍历更加强调对于特定状态顶点的甄别与查找，故也称为 **图搜索 graph search**。

深度优先、广度优先、最佳优先等典型图搜索都能在线性时间内完成，即 O(n+e)，已是最优了。

以下复杂度分析都以邻接表实现为基础。


## 广度优先搜索

图搜索的每一步迭代，通常都是选取某个已访问顶点的邻居。同一顶点的所有连接顶点之间的优先级，在多数遍历中都不讲究，因此实质的差异都体现在，当有多个顶点已被访问过后，应优先从谁的邻居中选取下一个顶点。

**广告优先搜索 breath-first search, BFS** 策略：**越早被访问到的顶点，其邻居越优先被选用**。

过程为先访问图顶点 s，再依次访问 s 所有尚未访问到的邻居;再按后者被访问的先后次序，逐个访问它们的邻居，如此不断。在所有已访问到的顶点中，仍有邻居尚未访问者，构成所谓的 **波峰集 frontier**，于是 BFS 等效为： **反复从波峰集中找到最早被访问到的顶点 v，若其邻居均已访问到，则将其逐出波峰集; 否则随意选出一个尚未访问的邻居，并将其加入到波峰集中**。

类似树的层次遍历，波峰集中顶点的深度始终相差不超过 1。

每次迭代都有一个顶点被访问，故至多迭代 O(n)。因不会遗漏每个刚被访问顶点的任何邻居，故对于无向图必能覆盖 s 所属的 **连通分量 connected component**，对于有向图必能覆盖以 s  为起点的 **可达分量 reachable component**。

```cpp
template <typename Tv, typename Te> //广度优先搜索 BFS 算法（全图）
void Graph<Tv, Te>::bfs(int s) { //assert: 0 <= s < n
    //初始化
    reset();
    int clock = 0;
    int v = s; 

    do //逐一检查所有顶点
        if (UNDISCOVERED == status(v) ) //一旦遇到尚未发现的顶点
            BFS(v, clock); //即从该顶点出发启动一次 BFS
    while ( s != (v=(++v%n)) ); //按序号检查，故不漏不重
}

template <typename Tv, typename Te> //广度优先搜索 BFS 算法（单个连通域）
void Graph<Tv, Te>::BFS(int v, int& clock) { //assert: 0 <= v < n
    Queue<int> Q; //引入辅助队列

    status(v) = DISCOVERED; Q.enqueue(v); //初始化起点

    while(!Q.empty()) {
        int v = Q.dequeue();
        dTime(v) == ++clock; //取出队首顶点 v
        for (int u=firstNbr(v); -1<u; u=nextNbr(v, u)) //枚举 v 的所有邻居 u
            if (UNDISCOVERED == status(u)) { //若 u 尚未被发现，则
                status(u) == DISCOVERED; Q.enqueue(u); //发现该顶点
                type(v, u) = TREE; parent(u) = v; //引入树边拓展支撑树
            } else { //若 u 已被发现，或者甚至已访问完成，则
                type(v, u) = CROSS; //将 (v, u) 归类于跨边
            }

        status(v) = VISITED; //至此，当前顶点访问完毕
    }
}
```

`BFS(s, clock)` 完成顶点 s 的连通或可达域的遍历，并标记出一棵遍历树 **BFS tree**。

`bfs()` 后，将标记出一个 BFS 树的一个森林， **BFS forest**。

![BFS_instance.png](img/c6_graph/BFS_instance.png)


### BFS 复杂度

空间复杂度： 顶点辅助队列 O(n) + 顶点状态 O(n) + 边状态 O(e) = O(n+e)。

时间复杂度： 复位 O(n+e)，bsf() 枚举 O(n)，BFS() 中遍历每条边和每个顶点 O(n+e)，故部类为 O(n+e)。

### BFS 应用

基于 BFS 搜索，可有效解决连通域分解，最短路径问题。


## 深度优先搜索 


**深度优先搜索 depth-first search, DFS** 策略： **优先选取最后一个被访问到的顶点的邻居**。

各顶点被访问到的次序，类似于树的先序遍历; 而各顶点被访问完毕的次序，则类似于树的后序遍历，从内到外一个个环遍历。

![BFS_search.png](img/c6_graph/BFS_search.png)


```cpp
template <typename Tv, typename Te> //深度优先搜索 DFS 算法（全图）
void Graph<Tv, Te>::dfs(int s) { //assert: 0 <= s < n
    //初始化
    reset();
    int clock = 0;
    int v = s; 

    do //逐一检查所有顶点
        if (UNDISCOVERED == status(v) ) //一旦遇到尚未发现的顶点
            DFS(v, clock); //即从该顶点出发启动一次 DFS
    while ( s != (v=(++v%n)) ); //按序号检查，故不漏不重
}

template <typename Tv, typename Te> //深度优先搜索 DFS 算法（单个连通域）
void Graph<Tv, Te>::DFS(int v, int& clock) { //assert: 0 <= v < n
    dTime(v) = ++clock; //发现时间
    status(v) = DISCOVERED; //发现当前顶点 v

    for (int u=firstNbr(v); -1<u; u=nextNbr(v, u)) //枚举 v 的所有邻居 u
        switch( status(u) ) { //并视其状态分别处理
            case UNDISCOVERED: //u 尚未发现，意味着支撑树可在此拓展
                type(v, u) = TREE;
                parent(u) = v;
                DFS(u, clock);
                break;
            case DISCOVERED: //u 已被发现但尚未访问完毕，此处有一个有向环路，应属被后代指向的祖先                            
                type(v, u) = BACKWARD;
                break;
            default: //u 已访问完毕(VISITED, 有向图)，则视承袭关系分为前向边或跨边，
                     // 比对活跃期，判定在 DFS 树中 v 是否为 u 祖先，若是，则边 (v,u) 是前向边，否则
                     // 二者必然来自相互独立的两个分支，边 (v,u) 应归类为跨边 CROSS
                type(v, u) = ( dTime(v) < dTime(u) ) ? FORWARD : CROSS;
                break;
        }

    status(v) = VISITED; //至此，当前顶点 v 方告访问完毕
    fTime(v) = ++clock; // 完毕时间
}
```

这里为每个顶点 v 都记录了被发现的时刻 dTime 和访问完毕的时刻 fTime，对应的区间 [dTime(v), fTime(v)] 称为 v 的活跃期 **active duration**。 实际上，任意顶点 v 和 u 间是否存在祖先/后代关系，完全取决于二者的活跃期是否相互包含。

![DFS_parent_child.png](img/c6_graph/DFS_parent_child.png)

### 复杂度

空间上：各顶点的时间标签和状态标记，以边各边的分类标记，为 O(n)+O(e)=O(n+e)

时间复杂度为 O(n+e)。

### 应用

深度优先搜索是最重要的图遍历算法，是一个算法框架。

## 拓扑排序 topological sorting

将有向图中的所有顶点按“相容”原则排成一个线性序列。

![topological_sorting.png](img/c6_graph/topological_sorting.png)

+ 上图中，顶点 A 和 B 互换后依然是一个拓扑排序，故同一有向图的拓扑排序未必唯一。
+ 在 (b) 中引入从 F 到 B 的边，构成一个有向环路，则不可能得到一个 “相容” 的线性序列，故拓扑排序未必存在。
+ 但是有向无环图一定存在拓扑排序，反之，拓扑排序必然对应一个有向无环图。


### 算法 1

![topo_sort1.png](img/c6_graph/topo_sort1.png)

从图 G 中找出入度为 0 的某个顶点 m，将其放入辅助栈中，并将 m 及其边从 G 中删除，之后剩下的图 G‘ 也是一个有向无环图，也有拓扑排序。从递归来看，一旦得到了 G’ 的拓扑排序，只需将 m 作为最小顶点插入，即可得图 G 的拓扑排序。


### 算法 2 基于 DFS

在深度优先搜索过程中，首先因访问完成而转换到 VISITED 状态的顶点 m，必然是出度为 0 的顶点，该顶点在此后的搜索过程中也不再起任何作用，于是下一转换至 VISITED 状态的顶点也可等效地理解为是从图中剔除 m （及其边）之后的出度为 0 者，在拓扑排序中，该顶点应为顶点 m 的前驱。DFS 搜索过程中各顶点被标记为 VISITED 的次序，恰好（逆序）给出了原图的一个拓扑排序。此外，DFS 搜索中一旦发现有边为 BACKWARD，则表示有环路，从而可立即终止算法并报告 “因非 DAG 而无法拓扑排序。

```cpp
template <typename Tv, typename Te> //基于 DFS 的拓扑排序算法
Stack<Tv>* Graph<Tv, Te>::tSort_DFS(int s) { //assert: 0 <= s < n
    reset();
    int clock = 0;
    int v = s;
    Stack<Tv>* S = new Stack<Tv>; //用栈记录排序顶点

    do {
        if (UNDISCOVERED == status(v))
            if (!TSort_DFS(v, clock, S)) { // clock 并非必需
                while (!S->empty()) //任一连通域（亦即整图）非 DAG，则不必继续计算，直接返回
                    S->pop();
                break;
            }
    } while (s != (v=(++v % n)));

    return S; //若输入为 DAG，则 S 内各顶点自顶向底排序; 否则（不存在拓扑排序），为空
}

template <typename Tv, typename Te> //基于 DFS 的拓扑排序算法（单趟）
bool Graph<Tv, Te>::TSort_DFS(int v, int& clock, Stack<Tv>* S) { //assert: 0 <= v < n
    dTime = ++clock;
    status(v) = DISCOVERED; //发现顶点 v
    for (int u=firstNbr(v); -1 < u; u = nextNbr(v, u)) //枚举 v 所有邻居 u
        switch(status(u)) { //并视 u 的状态分别处理
            case UNDISCOVERED:
                parent(u) = v;
                status(v, u) = TREE;
                if (!TSort_DFS(u, clock, S)) //从顶点 u 处出发深入搜索
                    return false; //若 u 及其后代不能拓扑排序（则全图也如此）
                break;
            case DISCOVERED:
                status(v, u) = BACKWARD; //一旦发现后向边（非 DAG），则
                return false; //不必深入
            default: //VISITED (digraphs only)
                status(v, u) = (dTime(v) < dTime(u)) ? FORWARD : CROSS;
                break;
        }

    status(v) = VISITED;
    S->push(vertex(v)); //顶点被标记为 VISITED; 并入栈
    return true; //v 及后代可拓扑排序
}
```

复杂度都为 O(n+e)。


## 双连通域分解

![bi-connected-component.png](img/c6_graph/bi-connected-component.png)

无向图中，若删除顶点 v 后所包含的连通域增多，则 v  称为切割节点 **cut vertex** 或 关节点 **articulation vertex**。如上面 6.13 中的关节点。关节点在网络系统中对应于网关，因此很重要。

不含任何关节点的图称作双连通图。

任一无向图都可视作由若干个极大的双连通子图组合而成，这样的每一个子图都称作原图的一个双连通域 **bi-connected component**。

### 双连通域分解算法

关节点删除后，图中的双连通域会增加。

+ 叶节点： 在 DFS 树中，叶节点绝不可能是原图中的关节点，此类顶点的删除即不影响 DFS 树的连通性，也不影响原图的连通性。
+ 根节点： 若 DFS 树的根节点有至少两个分支，则必为一个关节点。
+ 内部节点： 如下图中，若节点 C 的移除导致其某一真子树（如 D 为根的树）与其真祖先之间无法连通，则 C 必为关节点。反之，若 C 的所有真子树都能与 C 的某一真祖先连通，则 C 就不可能为关节点。在无向图的 DFS 树中， C 的真子树只能通过 **backward** 边与 C 的真祖先连通。因此，只要在 DFS 搜索中记录并更新各顶点 v 所能（经由 backward 边）连通的最高祖先(highest connected ancestor, HAC)，即可及时认定关节点。

![inner_articulation_vertex.png](img/c6_graph/inner_articulation_vertex.png)

```cpp
template <typename Tv, typename Te>
void Graph<Tv, Te>::bcc(int s) { //基于 DFS 的 BCC 分解算法
    reset();
    int clock = 0;
    int v = s;
    Stack<int> S; //栈 S 用于记录已访问的顶点

    do 
        if (UNDISCOVERED == status(v)) { //一旦找到有未发现的顶点（新连通分量）
            BCC( v, clock, S); //即从该顶点出发启动一次 BCC
            S.pop(); //遍历返回后，弹出栈中最后一个顶点---当前连通域的起点
        }
    while ( s != (v=(++v % n)) );
}

#define hca(x) (fTime(x)) //利用此处闲置的 fTime[] 充当 hca[]

template <typename Tv, typename Te>
void Graph<Tv, Te>::BCC(int v, int& clock, Stack<int>& S) {
    hca(v) = dTime(v) = ++clock;
    status(v) = DISCOVERED;
    S.push(v); // v 被发现并入栈
    for (int u = firstNbr(v); -1 < u; u = nextNbr(v, u)) //枚举 v  的所有邻居 u
        switch( status(u) ) { //并视 u 的状态分别处理
            case UNDISCOVERED:
                parent(u) = v;
                type(v, u) = TREE;
                BCC(u, clock, S); //从顶点 u 处深入

                if (hca(u) < dTime(v)) //遍历返回后，若发现 u（通过后向边）可指向 v 的真祖先
                    hca(v) = min(hca(v), hca(u)); //则 v 亦必如此
                else { //否则，以 v 为关节点（u 以下即是一个 BCC，且其中顶点此时正集中于栈 S 的顶部）
                    while ( v != S.pop() ) //依次弹出当前 BCC 中的节点，亦可根据实际需求转存至其它结构
                        /*pass*/;
                    S.push(v); //最后一个顶点（关节点）重新入栈---总计至多两次
                }
                break;
            case DISCOVERED:
                type(v, u) = BACKWARD; //标记(v, u), 并按照 “越小越高” 的准则
                if (u != parent(v))
                    hca(v) = min(hca(v), dTime(u)); //更新 hca[v]
                break;
            default: //VISITED（有向图）
                type(v, u) = (dTime(v) < dTime(u)) ? FORWARD:CROSS;
                break;
        }
    status(v) = VISITED; //对 v 的访问结束
}

#undef hca
```

这里只增加了规模为 O(n) 的辅助栈，故整体空间复杂度 O(n+e)。时间上，当每次找到关节点  v 时，发会重复入栈，但此时对应地至少有另一顶点出栈且不再入栈，故整体上关节点的入栈操作累计不会超过 2n 次，整体为 O(n+e)。









