## 摘要

业务量工程(Traffic Engineering)能够通过为业务选择合理的网络路由来达到充分利用网络资源、提高网络性能、满足 Qos 需求等目的。在 SDN 网络中,集中式的 SDN 控制器能够在全局拓扑上进行业务量工程,提高业务量工程的优化效果。然而,由于互联网应用的快速增加,短时间内会有大量业务到达 SDN 网络,同时,SDN 网络的规模也相应增大,这要求 SDN 控制器能在短时间内在大网络拓扑上为大量业务计算路由,业务量工程的计算面临着时间上的挑战。所以,为了缩短 SDN 控制器的计算时间,本文利用 GPU 的强大并行计算能力来加速业务量工程算法。

针对 SDN IP 网络,本文首先将业务量工程问题建模成一个带链路容量约束的 MILP 模型。为了求解这个模型,本文提出了两种并行算法 GA-PTEA(Genetic Algorithm Based Parallel Traffic Engineering Algorithm)和 LR-PTEA(Lagrange Relaxing Based Parallel Traffic Engineering Algorithm)。其中,GA-PTEA 将原来的业务量工程模型简化为基于备选路径的业务量工程模型,利用并行的遗传算法来求解业务量工程问题,并行加速比可达到 20 倍以上。LR-PTEA 则采用了拉格朗日松弛的方法,首先通过松弛链路容量约束,将业务量工程问题分解为一批业务的最短路径计算问题,然后设计了基于 GPU 的并行算法来加速最短路的计算。LR-PTEA 使用次梯度下降方法来求解拉格朗日对偶问题,为了加快次梯度算法的收敛速度,LR-PTEA 采用了高效的次梯度步长更新方法,同时,LR-PTEA 在求解对偶问题的过程中采用了快速的路径调整策略来获得对原问题目标函数的可行解。本文的实验发现基于 GPU 的 LR-PTEA 并行算法可以在短时间内得到业务量工程问题的优化解,与串行算法 LR-STEA(Lagrange Relaxing Based Serial Traffic Engineering Algorithm) 相比,加速比可达到 10 倍以上。

在 SDN 弹性光网络中,首先,为了简化频谱分配问题,本文采用分层图模型将弹性光网络中的频谱分配问题转化为路由选择问题。其次,为了优化弹性光网络中业务的路由代价,减小资源使用,降低阻塞率,本文提出了 TESAA(Traffic Engineering and Spectrum Allocate Algrithm)优化算法。最后,为了缩短 SDN 控制器的计算时间,我们对 TESAA 进行并行加速,分别针对无权图和带权图设计了基于 GPU 的并行路由算法。实验发现 TESAA 可以大大减小路由的代价、节省网络资源和有效降低业务的阻塞率,基于 GPU 的并行算法 PTESAA(Parallel TESAA)与串行算法 STESAA(Serial TESAA)相比,加速比可达到 6 倍。

关键词: GPU,业务量工程,SDN,弹性光网络,RSA

#### **ABSTRACT**

Traffic engineering refers to the process of optimizing the network utilization, minimizing network costs, improving network performance, and meeting QoS requirements by selecting reasonable network routes for the services. However, due to the rapid increase of Internet applications, there will be a large number of services reaching the SDN network at the same time, the size of the SDN network will also increase accordingly. This makes SDN controllor needs to calculate a large-scale routing in a short time. To solve the problem of large-scale routing calculation in traffic engineering, we use GPU-based parallel algorithms to accelerate the traffic engineering algorithm.

For SDN IP networks, this paper first proposes a traffic engineering model with link capacity constraints. The utility function in the model is to minimize the routing cost. In order to solve this model, two parallel algorithms GA-PTEA (Genetic algorithm based parallel traffic engineering algorithm) and LR-PTEA (Lagrange relaxing based parallel traffic engineering algorithm) are proposed Among them, GA-PTEA adopts a traffic engineering model based on alternative paths, and uses parallel genetic algorithms to solve the traffic engineering problems, The parallel acceleration ratio can reach more than 20 times. LR-PTEA uses a Lagrange relaxation-based traffic engineering model. First, the traffic engineering problem is decomposed into a batch of shortest path problems by relaxing the link capacity constraints, then the path calculation tasks are dispatched to GPU and executed concurrently on GPU.To improve the convergence speed,LR-PTEA uses efficient methods to adjust the calculated paths for a part of traffic demands and set the step size of subgradient algorithm for solving the Lagrangian dual problem in each iteration. The experiment in this paper found that LR-PTEA can get the optimized solution of the traffic engineering problem in a short time. The experiment also found that the speedup of GPU-based LR-PTEA can reach up to 6 times.

For the SDN elastic optical network, this paper first uses the layered graph model to transform the spectrum allocation problem into a routing problem. In order to optimize the routing cost of services in the elastic optical network, reduce the network resource usage, and reduce the blocking rate, this paper proposes a TESAA (traffic engineering and spectrum allocation algrithm)framework.we use GPU to accelerated the calculation of TESAA.In the case of unweighted graphs, this paper proposes a parallel BFS algorithm

#### ABSTRACT

to accelerate the TESAA framework. In the case of weighted graphs, this paper proposes a shortest path dynamic programming model with hops constraint, we designed a parallel dynamic programming algorithm to accelerate the caculation of TESAA. in our experiments, we found that TESAA can greatly reduce the cost of routing and effectively reduce the blocking rate of services, the seepdup of GPU-based parallel algorithm PTE-SAA(parallel TESAA) can reach up to 5 times.

Keywords: GPU, Traffic Engineering, SDN, EON, RSA

# 目 录

| -章  | 绪 论                                                                     | . 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|-----|-------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1.1 | 研究背景与意义                                                                 | . 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
| 1.2 | 国内外研究现状                                                                 | .2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 1.2.1 SDN IP 网络下业务量工程算法的研究现状                                            | .2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 1.2.2 SDN 弹性光网络下业务量工程算法的研究现状                                            | .3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
| 1.3 | 论文内容及结构安排                                                               | .4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
| 二章  | GPU 硬件结构与 CUDA 编程模式                                                     | .6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
| 2.1 | CPU 与 GPU                                                               | .6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 2.1.1 CPU 与 GPU 区别                                                      | .6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 2.1.2 CPU+GPU 异构计算模型                                                    | .7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
| 2.2 | GPU 硬件架构                                                                | .7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 2.2.1 流处理器                                                              | .8                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 2.2.2 线程束 (Wrap)                                                        | .9                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|     | 2.2.3 存储结构1                                                             | 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.2.4 流多处理器细节                                                           | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.2.5 执行模型                                                              | l 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
| 2.3 | CUDA 编程模式 1                                                             | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.3.1 CUDA 软件线程组织                                                       | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.3.2 kernel 函数                                                         | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.3.3 CUDA 线程同步                                                         | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 2.3.4 CUDA 流并行1                                                         | 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
| 2.4 | 本章总结1                                                                   | 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
| E章  | SDN IP 网络下的并行业务量工程算法研究1                                                 | 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
| 3.1 | 引言1                                                                     | 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
| 3.2 | 网络模型和问题建模1                                                              | 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 3.2.1 网络模型1                                                             | 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 3.2.2 问题建模1                                                             | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
| 3.3 | 基于遗传算法的业务量工程算法1                                                         | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 3.3.1 备选路模型1                                                            | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 3.3.2 遗传算法设计                                                            | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|     | 1.1<br>1.2<br>1.3<br>二章<br>2.1<br>2.2<br>2.3<br>2.4<br>三章<br>3.1<br>3.2 | - 章 绪 论 1.1 研究背景与意义 1.2 国内外研究现状 1.2.1 SDN IP 网络下业务量工程算法的研究现状 1.2.2 SDN 弹性光网络下业务量工程算法的研究现状 1.3 论文内容及结构安排 1.3 论文内容及结构安排 2.1 CPU 与 GPU 反DA 编程模式 2.1 CPU 与 GPU 区别 2.1.1 CPU 与 GPU 区别 2.1.2 CPU+GPU 异构计算模型 2.2 GPU 硬件架构 2.2.1 流处理器 2.2.2 线程束 (Wrap) 2.2.3 存储结构 2.2.4 流多处理器细节 2.2.4 流多处理器细节 2.2.5 执行模型 1 2.3 CUDA 编程模式 2.3.1 CUDA 软件线程组织 2.3.2 kernel 函数 2.3.3 CUDA 线程同步 2.3.4 CUDA 流并行 2.4 本章总结 1 □ SDN IP 网络下的并行业务量工程算法研究 1 3.1 引言 1.2 网络模型和问题建模 1.3.2.1 网络模型 3.2.2 问题建模 1.3.3.1 备选路模型 1.3.3.2 遗传算法的业务量工程算法 1.3.3.3.3 选路模型 1.3.3.3 遗传算法的业务量工程算法 1.3.3.3 遗传算法的业务量工程算法 1.3.3.3 遗传算法设计 |

|     |       | 3.3.2.1 | 染色体结构           | 18 |
|-----|-------|---------|-----------------|----|
|     |       | 3.3.2.2 | 初始可行解的生成        | 19 |
|     |       | 3.3.2.3 | 评价与排序           | 20 |
|     |       | 3.3.2.4 | 交叉              | 20 |
|     |       | 3.3.2.5 | 变异              | 20 |
|     |       | 3.3.2.6 | 终止条件            | 21 |
|     | 3.3.3 | 基于 GI   | PU 的并行遗传算法设计    | 21 |
|     |       | 3.3.3.1 | 并行评价算法设计        | 21 |
|     |       | 3.3.3.2 | 并行排序,变异与交叉      | 24 |
| 3.4 | 基于    | 立格朗日    | 的优化算法设计         | 25 |
|     | 3.4.1 | 基于拉林    | 格朗日松弛的模型        | 25 |
|     | 3.4.2 | 基于 GI   | PU 的并行路由计算      | 27 |
|     | 3.4.3 | 链路权     | 重更新             | 31 |
|     |       | 3.4.3.1 | 权重更新步长          | 31 |
|     |       | 3.4.3.2 | 随机更新策略          | 33 |
|     | 3.4.4 | 路径调整    | 整               | 34 |
|     | 3.4.5 | 终止条件    | 件               | 36 |
| 3.5 | 仿真等   | 实验分析    | :               | 36 |
|     | 3.5.1 | 仿真介绍    | 绍               | 36 |
|     | 3.5.2 | 目标函数    | 数比较             | 38 |
|     | 3.5.3 | 算法时间    | 间比较             | 38 |
|     | 3.5.4 | 算法收益    | 敛性              | 39 |
| 3.6 | 本章    | 总结      |                 | 42 |
| 第四章 |       |         | 网络下的并行业务量工程算法研究 |    |
| 4.1 | 引言.   |         |                 | 44 |
| 4.2 | 分层图   | 图模型     |                 | 45 |
| 4.3 | 分层图   | 图模型下    | 的业务量工程算法        | 46 |
| 4.4 | 无权    | 图情况下    | 的 GPU 算法设计      | 48 |
|     | 4.4.1 | 相同速     | 率业务的并行          | 49 |
|     | 4.4.2 | 不同速     | 率间业务的并行         | 49 |
|     | 4.4.3 | GPU上    | 的 kernel 设计     | 50 |
| 4.5 | 带权国   | 图情况下    | 的 GPU 算法设计      | 52 |
|     | 4.5.1 | 带跳数图    | 限制的最短路算法        | 52 |

|    |     | 4.5.2 | 相同速率业务的动态规划算法并行    | 54 |
|----|-----|-------|--------------------|----|
|    |     | 4.5.3 | 不同速率间业务的并行         | 55 |
|    |     | 4.5.4 | GPU 上的 kernel 设计   | 55 |
|    | 4.6 | 实验值   | 方真分析               | 57 |
|    |     | 4.6.1 | 对比算法               | 57 |
|    |     | 4.6.2 | 实验设置               | 57 |
|    |     | 4.6.3 | 无权图下的仿真结果          | 58 |
|    |     |       | 4.6.3.1 路由跳数优化结果分析 | 58 |
|    |     |       | 4.6.3.2 时间分析       | 59 |
|    |     |       | 4.6.3.3 阻塞率分析      | 61 |
|    |     | 4.6.4 | 带权图下的仿真结果          | 61 |
|    |     |       | 4.6.4.1 路由代价优化结果分析 | 61 |
|    |     |       | 4.6.4.2 时间分析       | 66 |
|    |     |       | 4.6.4.3 阻塞率分析      | 66 |
|    | 4.7 | 本章点   | 总结                 | 67 |
| 第三 | 五章  | 全文总   | 总结与展望              | 68 |
|    | 5.1 | 全文总   | 总结                 | 68 |
|    | 5.2 | 后续二   | 工作展望               | 68 |
| 致  | 谢   |       |                    | 70 |
| 参  | 考文權 | 献     |                    | 71 |

## 第一章 绪 论

#### 1.1 研究背景与意义

在网络中,为了充分利用网络资源、提高网络性能,我们需要为业务选择合适的网络路由,这被称为业务量工程(Traffic Engineering,TE,又被称为路由优化 Routing Optimization,RO)问题。业务量工程问题的传统解决方法主要有以下两种<sup>[1]</sup>。第一,根据业务的流量模式来调整网络的权重以实现业务量工程。第二,在 IP 网络中通过 MPLS 来实现业务量工程。

软件定义网络 (Software Defined Network, SDN) 是一种创新的网络架构,与传统网络不同,SDN 网络架构中引入了集中式的控制器,将网络的控制平面和数据平面分离开来<sup>[2] [3]</sup>。SDN 网络中的控制器负责对网络进行控制和调度,同时控制器通过向上提供编程接口,使得网络控制规则可以根据不同的需求进行设计,使得网络的控制设计更加灵活,网络管理人员可以更方便的更新各种网络应用和服务,而无需关心底层的数据平面管理。在 SDN 底层数据平面中,各种网络设备被抽象简化,数据流通过匹配控制器下发在设备中的流表规则来进行快速转发。和传统网络相比,SDN 架构大大简化了网络设备的复杂功能,减小了网络成本。SDN 架构中的控制器可以获得全网络的拓扑信息,同时,SDN 控制器能够通过下发流表规则来对网络流进行细粒度的调度,所以在 SDN 架构下可以很容易地实现基于全局网络的业务量工程。微软 <sup>[4]</sup> 和谷歌 <sup>[5]</sup> 的实验结果证明,在 SDN 网络架构的数据中心网络中,业务量工程能够在网络吞吐量和链路利用率上达到接近最优化性能的表现。

然而,SDN 网络下的业务量工程为 SDN 控制器带来了较大的计算压力,原因有以下三点:第一,随着网络应用的快速增加,在 SDN 网络中短时间内可能会有大量业务到达控制器 <sup>[6]</sup>,所以控制平面必须短时间内为大量业务计算路由;第二,为了适应大量业务的加入,网络规模也快速增大 <sup>[7] [8]</sup>;第三,SDN 技术使网络能够几乎满负荷运行 <sup>[9]</sup>,这意味着一旦网络流量发生重大变化或者网络链路出现故障,SDN 控制器需要在短时间内重新计算出路由。因此,在大网络下对大量业务进行快速和高效的业务量工程成为了一个重要却困难的问题。

为了缩短 SDN 网络下业务量工程的计算时间,设计高效的并行算法是一种常见的解决思路。另外,由于业务量工程中大量业务之间的路由计算是相互独立的,这也为并行业务量工程算法的设计提供了可能性。同时,现今出现的商业服务器具有多核 CPU 和强大的 GPU,为并行算法提供了一种低成本、高性能的计算环

境,尤其是 GPU,他具有大量的计算单元,现今的 GPU 能够同时调度和执行上千个线程,具有强大的并行计算能力。

GPGPU(General Purpose Programming on GPU) 是指利用 GPU 进行通用计算 (而不仅仅是图形学计算) 的算法设计思想,为了简化 GPU 的通用程序设计模式,2007 年,Nvidia 发布了一种新的 GPU 编程模型 CUDA( Compute Unified Device Architecture) [10]。与传统的 GPU 通用计算开发模式相比,CUDA 编程更简单,功能更强大,应用领域更广泛[11]。随着 GPU 硬件计算能力的不断提高和 CUDA 通用计算模型的流行,利用 GPU 来加速并行算法成为一个研究热点。结合 SDN 网络中业务量工程的可并行性质和 GPU 强大的通用并行计算能力,来设计高效的基于 GPU 的并行业务量工程算法能够有效降低业务量工程的计算时间,具有很重要的研究意义。

#### 1.2 国内外研究现状

## 1.2.1 SDN IP 网络下业务量工程算法的研究现状

过去十年间,随着 IP 网络中网络流量的迅速增加,业务量工程算法得到了大量的研究,论文 [12-14] 对业务量工程的研究进行了详尽的综述。大部分情况下业务量工程问题是一个 NP 难问题 [15,16],大量启发式算法 [12-14] 被提出来解决这类业务量工程问题。然而,这些算法基本上都是串行算法,在大网络和大业务量的情况下,这些算法需要运行几分钟甚至是几个小时 [16-18]。由于执行时间较长,这些业务量工程算法仅作为离线工具使用 [19]。为了减少计算时间,多篇论文 [20,21] 研究了分布式的业务量工程算法,在分布式的业务量工程模型中,假设每个业务有一系列的备选路径,业务将总流量分配到各个路径上,各个路径上所承载的流量根据路径上的链路容量情况实时进行调整。但是,分布式的业务量工程算法依赖于精确实时的网络状态信息,而且在实际实现中收敛较慢。

另一方面,过去十年,GPU 的计算能力得到了大幅度的提高,GPU 通用计算模型得到大力发展<sup>[10,22]</sup>,GPU 的理论计算能力提高速度大大高于 CPU 的计算能力提高速度<sup>[22]</sup>。因此,许多基于 GPU 的并行算法被提出来求解一些整数规划问题,比如说旅行商问题<sup>[23]</sup>,路线规划问题<sup>[24]</sup>,最短路问题<sup>[25,26]</sup>,最小生成树问题<sup>[27]</sup>,现存的研究<sup>[23–27]</sup> 表明基于 GPU 的并行算法可以比基于 CPU 的算法快十倍以上。

现今,对并行业务量工程算法的研究较少,文献 [18,28] 对业务量工程问题提出了并行的算法,在论文 [18] 中,作者为 $\alpha$ 公平的业务量工程问题提出了一种很适合在 FPGA 和 GPU 上实现并行的算法,为了达到 $\alpha$ 公平的目标,论文 [18] 假设

一个业务需求需要被分到多条路径上,但是这个假设在实际中很难实现,这是因为,第一,如果业务流是细粒度的流(TCP/UDP),把业务分到不同的路径将导致网络数据包的乱序传递。第二,SDN 网络需要使用更多的流表规则来将聚合的流分离成细粒度的流,但是 SDN 交换机上的流表匹配资源 TCAM(Ternary Content Addressable Memory) 是有限的。第三,在 SDN 网络中仅仅通过添加一系列流表规则来细粒度地分割流量是很难实现的。在论文 [28] 中提出一种基于 GPU 的遗传算法来解决业务量工程问题,其代价函数是最大链路利用率(MLU,Max Link Utilization),但是大量基于实际拓扑的实验表明,在网络利用率没有达到拥塞程度的时候,链路利用率效用函数,特别是最大链路利用率,不是对业务量工程效果的较好评价函数 [29]。反之,在网络链路发生拥塞的情况下,仅仅优化链路利用率,无法给出一个满足容量约束的可行解。

#### 1.2.2 SDN 弹性光网络下业务量工程算法的研究现状

随着视频流、云计算服务和移动应用的普及,互联网的流量不断增加<sup>[30]</sup>,业务量的持续增长给互联网的传输带来了巨大的挑战。为了满足日益增长的流量需求,波分复用(WDM)系统已部署在骨干网络,其每个通道带宽高达 40 GB/s 或100 Gb/s。然而,传统的 WDM 光网络严格遵循 ITU-T 的固定单位间距(通常为50GHz 或100 千兆赫)<sup>[31]</sup>,这样会导致低效的频谱利用率,比如,一个较大的波长可能会被分配给一个低速率的业务,即使这个业务根本就不能占满整个波长。很明显,传统 WDM 光网络的不灵活和粗粒度的带宽控制会导致显著的频谱浪费,限制了提高其网络容量的潜力。

为了应对 WDM 网络的低敏捷性和频谱浪费问题,近年来,弹性光网络 (Elastic Optical Network,EON) 的架构被提出 [32],在 EON 架构中,存在细粒度的带宽间隙 (比如,12.5GHZ),他比 WDM 网络所遵循的 ITU-T 带宽间隙粒度(50GHZ 或者 100GHZ)要小很多,而且,这些带宽间隙可以根据需要被组合在一起以提供更宽的通道,以灵活地适应各种速率的业务,提高频谱利用率。为了在 EON 网络中加入业务,控制平面必须在网络中找到一条路径,同时,还需要为业务在此路径上的链路上分配足够的频谱带宽,以创建一个合适的端到端光路连接,这被称为路由和频谱分配(Routing and Spectrum Allocation,RSA)问题。

RSA 问题可以进一步分为静态 RSA 问题和动态 RSA 问题。静态的 RSA 问题 出现在网络规划阶段,其中流量需求是已知的,这样可以离线计算出最优解。动态 RSA 问题是指在实时情况下的业务路由选择和波长分配的优化问题,在动态 RSA 问题中,业务随机的到达和离开光网络,使得网络中的频谱资源不断变化,RSA

问题变得更加困难。

论文 $^{[33]}$ 对动态RSA问题进行了研究,作者提出了三种算法,第一种是基于 K 最短路径的动态RSA算法,算法为每个业务求得前K 条最短路径,并检查这些路径上的频谱资源是否足够,选择一条频谱足够的路径作为业务的路由,但是由于 K 最短路径是预先静态计算出来的,所以算法在网络状态动态变化的情况下表现很差。第二种算法被称为MSP(Modified Shortest Path),MSP 是基于 Dijkstra 算法的,他在 Dijkstra 最短路算法的计算过程中加入了对链路频谱的检查,从而得到满足频谱约束的路径,但是 MSP 算法的优化结果很糟糕。第三种算法被称为 SPV (Spectrum Constraint Path Search),SPV 算法可以为业务寻找到满足频谱约束的最短路径,但是 SPV 算法的计算复杂度为一个指数函数,复杂度过高。

弹性光网络下的业务量工程问题等价于解决大量业务的 RSA 问题,也就是说弹性光网络下的业务量工程不仅要优化业务的路由代价,还要把业务安排到满足频谱约束的路径上,这使得弹性光网络下的业务量工程问题比 IP 网络中的业务量工程问题更加复杂。论文<sup>[34]</sup> 中提出一种分层图模型来解决 WDM 网络中的路由和波长分配问题,这种分层图模型也可以很容易地推广到 EON 网络中,这种分层图模型将频谱分配问题转化为路由选择问题,使得频谱分配和业务量工程问题统一起来。但是分层图模型会引入大量的辅助网络拓扑,我们需要在不同的拓扑上计算路由,这使得业务量工程的计算量大大增加。不过,幸运的是,这些辅助网络拓扑之间的路由计算是相互独立的,我们可以使用并行算法来加速这些路由的计算。

## 1.3 论文内容及结构安排

本文各个章节的内容如下:

第一章简要介绍了 SDN 网络下的基于 GPU 的并行业务量工程算法的研究现状和意义。

第二章简略介绍了 GPU 的相关基础原理,包括 GPU 架构和 CUDA 编程模型,以帮助理解第三、四章的 GPU 程序设计思路。

第三章首先将业务量工程问题建模成一个带链路容量约束的 MILP 模型。为了求解这个模型,本章分别讨论了两种并行算法 GA-PTEA(Genetic Algorithm Based Parallel Traffic Engineering Algorithm)和 LR-PTEA(Lagrange Relaxing Based Parallel Traffic Engineering Algorithm)。

第四章主要研究 SDN 弹性光网络中的业务量工程算法,为了简化频谱分配问题,本章采用分层图模型将弹性光网络中的频谱分配问题转化为路由选择问题。为了优化弹性光网络中业务的路由代价,减小资源使用,降低阻塞率,本章

提出了 TESAA(Traffic Engineering and Spectrum Allocate Algrithm)优化算法,并对 TESAA 进行 GPU 加速设计。

# 第二章 GPU 硬件结构与 CUDA 编程模式

本文中的并行算法均在 Nvidia GPU 上通过 CUDA 编程模式实现,为了帮助理解本文的并行算法设计思路,我们在本章介绍 GPU 的硬件架构和 CUDA 编程模型。

## 2.1 CPU与GPU

#### 2.1.1 CPU 与 GPU 区别

图为 2-1 为 CPU 和 GPU 的架构比较,可以看到,CPU 和 GPU 的差异主要有两点:第一,GPU 的 ALU 单元远远多于 CPU;第二,GPU 每个核心可用的逻辑控制单元和缓存相对 CPU 要少很多。CPU 上大面积晶体管是逻辑控制单元和缓存单元,这是因为 CPU 的设计需要兼容多方面的应用,比如在桌面应用中就具有大量的分支控制操作和存储操作,而真正的数值计算操作却很少,所以 CPU 上具有大量的逻辑控制相关的实现,比如分支预测(Branch Prediction),乱序执行(Out Of Order execution)来满足这些分支控制需求,同时增加缓存大小来加速存储过程。但是这样的设计也使得留给 CPU 上的计算单元的晶体管面积较少,浮点计算能力较差,现在 CPU 为了弥补其计算能力的不足,产商常常在同块芯片上集成多个CPU 核心,组成多核处理器,但是这样的设计并不能提高晶体管的利用率。

GPU 最初被设计来进行图像渲染,图像渲染具有高度的并行性,而且大部分操作是浮点计算操作,逻辑控制较少,所以 GPU 在设计上采用简化控制单元,增加计算单元的设计思想,这使得在处理大规模浮点运算任务时,GPU 的执行速度大大优于 CPU 的执行速度。



图 2-1 GPU 与 CPU 的区别



图 2-2 GPU+CPU 异构计算模型

#### 2.1.2 CPU+GPU 异构计算模型

通过上面的分析,我们可以看到 GPU 适用于线程数目多,浮点计算密集和逻辑较简单的并行任务,而 CPU 更加适应于串行的分支较多,计算较少的任务。所以在实际中,常常把 CPU 和 GPU 结合起来,使用 CPU 和 GPU 两个部分协作共同完成并行计算任务。在这些并行任务中,CPU 主要用于逻辑控制部分,而 GPU 作为一种设备被 CPU 控制来做并行计算工作,这种协同工作模型被称为 CPU+GPU 异构计算模型。如图 2-2所示为 CPU+GPU 异构计算结构示意图,GPU 和 CPU 通过 PCI 总线进行连接,CPU 调用 GPU 执行一共需要以下步骤:

- 1. 把输入数据从 CPU 主机内存拷贝到 GPU 的内存(全局内存)中。
- 2. 把执行程序加载到 GPU 上然后执行。

3.GPU 上的程序在执行过程中需要从主存中读取数据,为了加快线程访问内存的速度,数据将通过多级缓存进行缓存。

4.GPU 上程序执行完毕,将结果写在 GPU 主存中,这时需要将结果重新拷贝回 CPU 主机端进行处理。

## 2.2 GPU 硬件架构

虽然 GPU 相对于 CPU 在并行算法方面有很多优势,但是,由于 GPU 的出现是为了加速图形渲染问题,当想要使用 GPU 进行图形学之外的通用计算时,我们需要将问题转换为图形学问题,并且通过 OpenGL 或者 DirectX 等 API 来访问 GPU,这对普通的开发人员提出了更高的要求,限制了 GPU 程序的设计自由度,使得 GPU 通用计算变得困难。2007 年 6 月,NVIDIA 推出 CUDA(Compute Unified Device Architecture)[10]。CUDA 简化了在 GPU 上的通用计算流程,使用



图 2-3 Kepler 架构

CUDA 进行并行算法设计,不需要把问题转化为图形学问题去调用图形学 API,同时,CUDA 采用类似于 C语言的语言结构进行开发,这使得开发人员可以很快地熟悉和使用 CUDA 进行开发。但是,要设计出快速高效的 CUDA 程序,开发人员需要掌握 GPU 架构上的相关知识,利用 GPU 的特殊架构来优化算法的设计。

我们以 NVIDIA Kepler 架构为例子来介绍 GPU 的硬件架构。图 2-3 为 Kepler 的 GPU 架构模型细节,Kepler 架构包含两个部分,流处理器阵列(core 部分)和存储系统(memory)部分,Kepler 架构中的 GPU 上一共包含 15 个流多处理器(SM),所有流多处理器共享一个 L2 缓存。

#### 2.2.1 流处理器

我们看到 GPU 中主要组成部分是 SM,一个 SM(stream mutiprocessor)中含有大量的 sp(stream processor),sp 为 GPU 的计算核心,又称为流处理器,sp 是最基本的处理单元,指令和任务最终都是在 sp 上处理的,我们可以将在一个 sp 上执行的流看做一个独立的线程(thread),如果一个 GPU 中有更多的 SM,一个 SM 中有更多的 sp,那么就意味着这个 GPU 在相同的时间内可以并行处理更多的任务。



图 2-4 warp 切换示意图

## 2.2.2 线程束 (Wrap)

warp 是 SM 上线程调度和执行的单位,一个 SM 中的所有线程会被分成一个个 warp 组,通常一个 warp 组包含 32 个线程。同一个 warp 中的线程始终是同步的,这些线程都执行相同的指令,也就说同一个 warp 中的线程必须等待所有线程都执行完了同一个指令后,才会去执行下一个指令。这样的设计虽然节省了硬件控制单元的复杂程度,但是也限制了 GPU 在处理分支时的并行粒度,如果同一个warp 中的线程出现分支,每个线程执行的分支条件不一样,为了保持同步,不进入分支的空闲 sp 也必须等待进入分支的线程执行完毕后才能继续执行,这样使得sp 的利用率下降。

我们知道 GPU 的浮点计算能力很强,但是在一些应用中常常需要进行内存的读写操作,这些访存操作会产生很长的时间延迟,从而限制了 GPU 的浮点计算吞吐量,为了充分利用 GPU 上大规模的 sp,GPU 采用 warp 切换来隐藏这些延迟。同一个 SM 上可以存在多个 warp 的程序上下文,但是同一时间只有一部分 warp 被执行。图 2-4 展示了 warp 上下文的切换过程,假设每个 warp 执行相同的代码,代码中需要先进行 Load 操作,再进行计算操作,Load 操作需要等待 4 个时钟周期,而计算操作只需要使用一个时钟周期,W1-W4 表示 4 个不同的 warp 线程组。开始时 W1 先执行 Load 操作,而 load 操作阻塞,这时 warp 调度器将 W2 调度到 sp 上进行执行,W2 继续阻塞,直到第 5 个周期,W1 的数据已经准备好了可以进行计算操作,当 W1 的计算操作结束后,继续切换计算 W2,W3,W4。最终程序花费 8 个周期完成了对 4 个任务的计算,隐藏了 12 个周期的延迟,提高了 sp 的利用率。



图 2-5 Kepler 架构下的 SM 细节

#### 2.2.3 存储结构

GPU中的每个 SM 中含有多种存储单元,包括寄存器,共享内存,常量内存,纹理内存。寄存器用来存储程序执行中的临时变量,同一个 SM 中的线程都能够访问共享内存,共享内存的访存速度大大高于主存的访存速度,所以在设计 GPU 并行代码时,我们常常先把频繁访问的数据提取到共享内存中,以减小延迟。另外,将中间结果存储在共享内存中,以减小对主存的访问,但是共享内存的大小是有限的,在 Kepler 架构中共享内存的大小为 64KB。常量内存为只读内存,顾名思义它是用来缓存计算时需要的一些常量而专门设计的,常量内存大小为 48KB。纹理内存也是一种只读缓存,纹理内存是为图形学任务而设计的,在一些特殊的具有大量空间局部性的内存访问模式中能够提升性能并且减少内存流量。



图 2-6 CUDA 异构执行流程和线程组织

#### 2.2.4 流多处理器细节

Kepler 架构下的 SMX 中包含 192 个单精度的 CUDA core, 64 个双精度的单元 (DP unit) 和 32 个 SFU(Special Function Unit, 特殊函数单元), 32 个存储 (load/store) 单元, 其中 SFU 用来执行超越函数、插值以及其他特殊运算。Kepler 架构下的 GPU 的每个 SM 包含了 4 个 warp 调度器和 8 个指令发射器。Kepler 架构下的每个 SM 可以同时调度 64 个 warp 共计 2048 个 thread,而 Kepler 架构中一共有 15 个 SM,也就是说,同一时刻最大可以支持 30720 个线程在 GPU 上调度执行,所以 GPU 的并行能力相当强大。

# 2.2.5 执行模型

GPU 的执行模型被称为 SIMT(Single Instruction, Mutiple Thread),SIMT 是对 SIMD 的一种改进<sup>[11]</sup>。在 CPU 的 SIMD 中,向量宽带是受限的,在 Intel 的 SSE 指令集中,假设一条 SSE 的指令宽带为 128bit,那么它一次可以处理 4 个单精度浮点数,如果要用 SSE 指令处理一个单精度浮点数组,必须将数组打包成 4 个一组,然后才能把这些组交给 CPU 进行计算。但是在 CUDA 的模型中,我们为相同的指令产生不同的线程,这些线程的数量可以自由设置。在 Kepler 架构中,同一时刻 GPU 上可以调度执行 30720 个线程,这比 CPU 的 SIMD 的并行粒度高很多。

#### 2.3 CUDA 编程模式

CUDA 是一种异构计算模型, CUDA 程序在 CPU 和 GPU 上交互执行, CUDA 的程序可以分为主机部分和设备部分,设备代码在一个或者多个 GPU 上执行,主机部分的代码在主机上执行,负责调度 GPU 上设备代码的执行。图 2-6 展示了 CUDA 异步执行流程, CPU 通过调用 kernel 函数来将代码发射到 GPU 上执行。

#### 2.3.1 CUDA 软件线程组织

一个 CUDA 程序包含大量并行执行的线程,在软件层面上,将多个线程组成一个 block,同一个 block 中的线程又被分成不同的 warp 组,一个 block 中的线程只能在同一个 SM 中执行,同一个 block 中的线程可以通过调用同步函数 (\_\_syncthreads()) 进行同步,同一个 block 中的线程可以共同访存 shared\_memory,通过 shared\_memory 实现通信。一个 kernel 函数可以在软件层面上产生大量的线程,这些线程被组织成一个一个的 block,如果 SM 足够,这些 block 中的线程将被加载到 SM 上调度执行,如果 SM 不足,block 需要排队等待其他 block 完成执行。多个 block 组成一个 Grid。 block 的维度可以是 1-3 维,图 2-6展示了一个二维的 block 组织,每个 block 有自己的二维标号,同样每个 block 内部的线程也可以被组织成 1-3 维,图 2-6展示了一个 block 内部的 thread 二维标号。

# 2.3.2 kernel 函数

kernel 函数是 GPU 上每个线程执行的函数,kernel 函数在主机端调用,在 GPU 端执行,在调用 kernel 函数时需要为 kernel 函数设置一些参数,包括 Grid 维度大小和 block 维度大小。在 kernel 函数中使用 blockIDx.x,blockIDx.y,blockIDx.z 三个标号来访问当前 block 在 Grid 中的三维坐标,使用 threadIDx.x,threadIDx.y,threadIDx.z 三个标号来访问当前线程在 block 中的三维坐标。kernel 函数中使用 block-Dim.x,blockDim.y,blockDim.z 来表示 block 的三个维度的宽度。

# 2.3.3 CUDA 线程同步

2.2.2 介绍过同一个 warp 中的 32 个线程的执行是天然同步的,但是如果程序中存在更多的线程需求的话,我们就不能仅仅依赖于 warp 的性质进行同步,CUDA 支持对同一个 block 中的所有线程进行同步,通过调用同步函数 (\_\_syncthread()),一个 block 中的线程可以实现同步,它表示 block 中所有的 thread 都要同步到这个点(\_\_syncthread() 执行处)才能继续执行,这种同步操作相当于 CPU 上多线程的 barrier(屏障) 操作。GPU 上线程同步的另一个问题是线程的写操作的同步问题,多



图 2-7 流并行示意图

个线程同时写相同地址的数据不是线程安全的。CUDA 提供了一系列的原子操作来对多个线程间的共享数据的读写进行互斥保护,比如 atomicAdd 函数,他对目标地址的值进行原子加法操作,保证每次只有一个线程能对数据进行加法操作。

#### 2.3.4 CUDA 流并行

CUDA 程序通过流来管理并发,CUDA 流代表一系列的 GPU 操作组成的队列,这些队列内部的操作按照顺序在 GPU 上执行,当我们调用 kernel 函数或者调用 CUDA 内部函数(cudamemcpy(),cudasyncthread()等)时,就是把一系列的 GPU 操作加到一个 CUDA 流队列中,这个流队列的操作会在 GPU 上按照加入的顺序执行。GPU 上可以同时存在多个流队列,不同流之间的操作是无关的,流之间可以相互切换以充分利用 GPU 上的计算资源,虽然同一个流中的操作必须顺序执行,但是不同流之间的操作顺序是乱序的,而且还有可能是同时并行执行的,所以流并行也是 GPU 上的一个并行层次,我们可以把它视为任务上的并行,每个流代表了不同的任务,不同任务间的操作可以相互切换来隐藏延迟,从而提高了 GPU 的 SM 利用率,增大了并行粒度。同时,任务上的流并行,对编程人员来说是比较容易理解的,给 GPU 的并行代码设计带来了方便,我们可以为相似的任务设计相同的代码,通过流并行提高并行粒度,减小了设计难度。

我们观察图2-7中简单的流并行例子,来分析流并行的优势,图2-7中的 Copy Engine 表示 GPU 上的内存拷贝单元,负责和 CPU 端进行数据传输,Kernel Engine 表示 GPU 上的 kernel 执行单元,负责 kerenl 的调度执行。在图 2-7(a) 中一共有两个流,两个流的操作相同,假设图中的每一个操作的执行时间相同,那么如果两个流串行执行,则总共需要 6 个时间单位,但是如果两个流相互切换,当 Copy

Engine 在进行数据拷贝操作的同时,stream0 的 kernelA 在 Kernel Engine 上执行,当 stream0 的 kernelA 执行完毕后,stream1 的 kernelA 也已经准备好可以执行了,这样 Copy Engine 的数据传输带宽和 GPU 的计算带宽都得到充分利用,一共只需要 4 个时间单位,就可以完成两个流的操作。图 2-7(b) 中,假设两个流的数据拷贝操作所占用的时间比较少,而 kernel 需要的计算时间较长,这个时候由于两个流的 kernel 都会很快准备好发射,如果 SM 资源足够,两个 kernel 将同时在 GPU上调度执行,如图2-7(b) 中的红色部分表示重叠执行的时间,可以看到这种情况下多个流的并行可以大大节省运算时间,充分利用 SM 资源。

### 2.4 本章总结

本章简略介绍了 GPU 的体系架构和 CUDA 编程框架,说明了 GPU 的的强大计算能力和一些 GPU 程序设计上需要注意的问题,为后面的第三、四章介绍做铺垫。

# 第三章 SDN IP 网络下的并行业务量工程算法研究

#### 3.1 引言

SDN IP 网络中的业务量工程问题可以被建模成一个多商品流问题,将网络业务作为问题的输入,寻找最优的路由来最小化代价函数。代价函数通常被设置为对网络拥塞程度的评价水平,比如,最常用的代价函数是最大链路利用率(MLU),简单地被定义为利用率最高的那条链路的链路利用率 [35,36],另外一些文献 [37,38] 把所有链路的链路利用率的和作为代价函数,链路利用率代价函数的逻辑是: (1)低链路利用率意味着低的网络延迟。(2)维持低的链路利用率意味着预留更多的空间给其他将来到达的业务。但是大量基于实际拓扑的实验表明链路利用率代价函数,特别是 MLU,在网络利用率没有达到拥塞程度的时候,不是对网络优化的较好评价函数 [29]。在这个实验 [29] 中,当链路利用率低于 0.9 的时候会造成不可忽略的网络性能中断。反之,在网络发生大量拥塞的情况下,MLU 只去优化最大的链路利用率,而不能给出一个可行(满足容量约束)的解。所以作为替代,本文采用路由代价作为代价函数,我们假设已经知道短时间内到达的一批业务,控制器需要计算出满足链路容量约束的路径,并且最小化总的路由代价。为了使得加入网络的业务尽量多,我们设定被阻塞的业务的代价为一个较大值。

本章主要设计了两种业务量工程算法,第一种是基于备选路径模型的业务量工程算法,采用遗传算法来优化目标函数,并且设计了遗传算法的并行版本。第二种是基于拉格朗日松弛的优化算法,算法把链路容量约束松弛到目标函数,并把业务量工程问题分解成一批业务的路由计算问题,从而采用 GPU 进行并行计算。

## 3.2 网络模型和问题建模

## 3.2.1 网络模型

本文将 SDN 网络建模成有向图 G(V,E), V 表示所有的点集合,E 是所有边的集合,n = |V| 和 m = |E| 分别表示点数和边数。对每一条边  $(i,j) \in E$ , $w_{ij}$  表示此边 (i,j) 上的权重(传输一单位的流量需要的代价),不失一般性,我们假设每条链路上的  $w_{ij}$  是整数,对每一条边 (i,j), $c_{ij}$  表示此边上的容量,假设 D 表示需要被路由的业务需求集合,业务  $d \in D$  是一个元组  $(s_d,t_d,bw_d)$ ,其中, $s_d$  表示业务的源节点, $t_d$  表示业务的目的节点, $bw_d$  表示业务 d 需要的流量带宽。

#### 3.2.2 问题建模

本小节,我们把业务量工程问题建模成一个混合整数规划模型 (MILP),本 文采用新的代价函数,如下式3-1,3-2:

$$\sum_{d \in D} f(\mathbf{d}) \tag{3-1}$$

$$f(\mathbf{d}) = \begin{cases} c(p_d) \cdot bw_d & \text{如果业务可以被加入} \\ W \cdot bw_d & \text{如果业务被阻塞} \end{cases}$$
 (3-2)

其中  $p_d$  是计算出来的对应于业务 d 的路径, $c(p_d)$  ( $c(p_d) = \sum_{(i,j) \in p_d} w_{ij}$ ) 表示的是此路径  $p_d$  的代价,W 为一个较大的值,比如 W 远远大于业务所有可能的路径代价值。因为不知道带宽是否足够容纳所有业务,3-1有两个分支,为了使得表达式同一,方便表示,我们首先构建辅助图  $G_a(V_a,E_a)$  ,对每个点  $v \in V$  和  $u \in V$  ,在  $G_a(V_a,E_a)$  中添加一条链路 (v,u) ,并且设置链路 (u,v) 的容量和代价分别为  $\infty$  和 W 。然后,我们把  $G_a(V_a,E_a)$  和原图 G(V,E) 合并成一个新图  $G_b(V_b,E_b)$  ,那么图  $G_b(V_b,E_b)$  就有足够的容量来容纳业务需求,如果某条业务被路由到  $G_a(V_a,E_a)$  的链路上,那么就表示这条业务被阻塞了,构建了辅助图  $G_b(V_b,E_b)$  后,业务量工程问题的代价函数可以表示为:

$$z^* = minimize f(\mathbf{d}) = \sum_{d \in D} c(p_d) \cdot bw_d = \sum_{d \in D} \sum_{e \in p_d} w_e \cdot bw_d$$
 (3-3)

在本文的业务量工程问题中,每个业务只能够路由到一条路径上,如第二章中讨论的那样,这更符合于 SDN 网络的实际情况,以下整数约束能够保证每个业务只走一条路径

$$\sum_{(i,j)\in E_b} x_{ij}^d - \sum_{(j,i)\in E_b} x_{ji}^d = \begin{cases} 1 & \text{if } i = s_d \\ -1 & \text{if } i = t_d \\ 0 & \text{otherwise} \end{cases}$$

$$\forall i \in V_a, \forall d \in D$$
 (3-4)

其中  $x_{ij}^d$  是一个 01 整数变量, $x_{ij}^d=1$  表示业务 d 的路由经过了链路 (i,j),为了避

免链路拥塞,路由需要满足以下的链路容量约束:

$$\sum_{d \in D} x_{ij}^d \cdot bw_d \le c_{ij} \ \forall (i,j) \in E_b$$
 (3-5)

在这个模型中,变量的数量随着业务量大小和网络规模大小呈倍数增长,所以这个 MILP 模型在大规模情况下很难求解。

## 3.3 基于遗传算法的业务量工程算法

#### 3.3.1 备选路模型

模型 (3-3,3-4,3-5) 的一种常见的简化模型被称为基于备选路径的模型 [16],在备选路径模型中,为每一个业务  $d \in D$ ,预先产生了 K 条不同的路径作为备选路径集合  $P_d = \{p_d^1, p_d^2, p_d^3 \dots p_d^K\}$ ,通过在这些备选路径中进行选择来优化目标函数3-3,为了表示业务被阻塞的情况,我们在业务的备选路径集合  $P_d$  中添加一条路径  $p_d^0$ ,是图  $G_a(V_a, E_a)$  上的路由,其代价为 W,所经过的链路容量为  $\infty$ 。于是,模型可以被描述如下:

$$z^* = minimize f(\mathbf{d}) = \sum_{k \in [0,K]} \sum_{d \in D} c(p_d^k) \cdot x_k^d \cdot bw_d$$
 (3-6)

$$\sum_{k \in [0,K]} x_k^d = 1 \tag{3-7}$$

$$\sum_{k \in [0,K]} \sum_{d \in D} y_{ijk}^d \cdot x_k^d \cdot bw_d \le c_{ij} \ \forall (i,j) \in E_b$$
 (3-8)

其中, $x_k^d$ 为一个 01 变量,当 $x_k^d$  = 1 时表示业务 d 选择其备选路径中的第 k 条路径, $y_{ijk}^d$  是一个 01 变量, $y_{ijk}^d$  = 1 表示业务 d 的第 k 条路径经过了链路 (i,j)。约束3-7表示每个业务只能选择一条路径,约束3-8表示经过链路上的总流量大小不能超过链路上的容量大小。在这个模型中,由于我们把业务的路径限制在其备选路径集合中,所以他的变量个数比模型 (3-3,3-4,3-5) 要少很多,本节将通过遗传算法来求解这个简化的模型,设计出基于遗传算法的并行业务量工程算法 GA-PTEA(Genetic Algorithm Based Parallel Traffic Engineering Algorithm)。

## 3.3.2 遗传算法设计

遗传算法是一种模拟自然进化过程来搜索问题最优解的启发式算法。遗传算法模仿达尔文进化论和自然选择过程来评价挑选最优解集合,遗传算法从一个代



图 3-1 遗传算法流程图

表问题的可行解的种群出发,一个种群中不同个体代表了不同的解,每个个体实际上是一个染色体,染色体携带表达当前解的信息编码,初代种群产生后,对每个染色体个体进行评价,按照适者生存,优胜劣汰的原则,使得优秀的个体更有可能把自己的遗传信息传递给下一代,从而得到更优秀的后代。在遗传算法的迭代过程中,一部分基因会发生变异,好的变异能够提高解的质量,增加算法的搜索空间,避免算法收敛于局部最优解。遗传算法的算法流程图如图3-1 所示,遗传算法先从初始种群开始,循环的地进行交叉,变异,评价选优这三种操作,最终得到一个最优秀的个体作为问题的解。

#### 3.3.2.1 染色体结构

假设业务数量为 |D|,初始染色体集合大小为 POP,集合 C 表示染色体种群集合, $C_j$  表示第 j ( $j \in [1, POP]$ ) 号染色体, $C_j^i = k$ , ( $k \in [1, K]$ ) 表示在第 j 号染色体中,业务 i 选择了第 k 条备选路径, $C_j^i = 0$  表示业务 i 被阻塞(在辅助图  $G_a(V_a, E_a)$ 上路由)。  $|p_d^i|$  表示业务 d 的第 i 条备选路的路由代价, $rp_d^i$  表示路径  $p_d^i$  上的最小可用容量, $rp_d^i = min(r_e|e \in p_d^i)$ ,其中  $e \in p_d^i$  表示路径  $p_d^i$  上的边, $r_e$  表示此边 e 上的剩余容量。

#### 3.3.2.2 初始可行解的生成

可行解表示满足容量约束的解,为了使得遗传算法有效,初始解的质量很重要,产生的初始解要尽量好,这表示要有更多的业务被加入到网络中,而且保证业务的路由代价较小,本文采用一种简单的贪心算法来产生出初始可行解,如算法3-1所示:

```
Require: G(v, E): 网络拓扑;P: 备选路径集合;C: 未初始化的染色体集合;
Ensure: C: 可行染色体集合;
 1: for c_i \in C do
      for c_i^d \in c_j do
          c_i^d \leftarrow k_i^d, 其中 k_i^d 为 1 到 K 之间的随机值,随机选择一条备选路
 4:
      对染色体中的的每个业务需求按照值 \frac{\sqrt{bw_a}}{k_i^d} 进行降序排序。
      for c_i^d \in c_i do
          if rp_d^{k_j^a} \ge bw_d then
             加入路径p_d^{k_d^d}到网络,更新网络链路容量。
 9:
             c_i^d \leftarrow 0
10:
          end if
11:
       end for
12:
13: end for
```

算法 3-1 初始可行解生成算法

对每一个染色体,算法3-1随机地为每个业务选择备选路径标号,但是这样选择出来的路径集合有可能会超过网络链路的容量限制,从而使得解变得不可行,要得到可行解,必须从解中剔除一部分业务。使得他们阻塞,本文使用一种启发式策略来确定需要剔除的业务。一方面,要使得目标函数变小,那些流量需求较大的业务应该优先被加入到网络中。但是,另一方面,如果大流量的业务的路由代价很大,经过了一条很长的路径,就会大量地浪费网络中的链路容量资源。所以算法对当前染色体j中的业务和其路径按照  $\sqrt{bw_d}$  的值进行排序,其中  $bw_d$  代表当前业务 d 所需要的流量大小, $|p_d^{k_d}|$  代表集合  $P_d$  中的第  $k_d^d$  条路径的代价大小,观察目标函数,目标函数是最小化路由代价,而  $\sqrt{bw_d}$  较大意味着较大的流量经过较小代价的链路进行路由,这种路由是很理想的,尽量节省网络的链路使用资源的同时,又减小了总体目标函数,所以这个比例值是对业务路由优劣程度的较好评价。算法按照比例值排序的结果依次尝试将路径  $p_d^{k_d^d}$  加入到网络中,如果  $rp_d^{k_d^d} \ge bw_d$ ,表示路由经过的链路有足够的容量来容纳这一业务,所以加入业务到网络中,并且

更新网络的链路容量大小,反之,如果  $rp_d^{k_f} < bw_d$ ,这个业务选择这一条路径会超过网络链路的容量限制,于是这条业务被阻塞,染色体中的相应基因位置被设置为 0。算法3-1结束后我们便可以得到一个可行的染色体,我们多次运行算法3-1就可以得到一个初始可行染色体集合 C。

#### 3.3.2.3 评价与排序

评价过程对每一个染色体计算其相应的目标代价函数值,由于遗传算法中的交叉和变异步骤可能会产生不可行的染色体解(链路容量超限),我们把这样的染色体评价为一个很大的代价(INF),从而在选优时被排除掉。染色体评价完成后,我们把染色体按照代价函数值进行降序排序,我们把排序好的染色体分为三组:

精英染色体集合:目标值排在最前面的 $\alpha$ 个染色体构成精英染色体集合A,精英染色体将直接保留到下一轮迭代,而且精英染色体可以产生后代。

次优染色体集合:精英染色体后的 $\beta$ 个染色体构成次优染色体集合B,次优染色体集合中的染色体不会直接保留到下一轮,但是他们可以和精英染色体进行交叉产生后代。

劣等染色体集合:最后剩余的 $\gamma$ 个染色体构成劣等染色体集合G,由于其代价函数值一般较大,其选路策略不可取,算法直接扔掉这一部分劣等染色体,不允许劣等染色体产生后代。

#### 3.3.2.4 交叉

交叉过程从精英染色体集合 A 中随机地选取一个染色体  $c_i \in A$  作为父亲,从精英染色体集合和较优染色体集合的并集  $A \cup B$  中随机选取一个染色体  $c_j \in A \cup B$  作为母亲,将  $c_i$  和  $c_j$  进行均匀交叉得到新的染色体 s。均匀交叉的过程是,对 s 的每一个基因点位以 %50 的几率选择继承父亲或者母亲的相应点位的路径选择。重复以上过程  $\beta$  次,从而产生  $\beta$  个新的子染色体。

#### 3.3.2.5 变异

变异过程采用随机变异,随机在集合  $A \cup B$  中选取  $\gamma$  条染色体,对某一选定的染色体  $c_j \in A \cup B$ ,随机选取 m 个业务基因点位,进行变异,将当前已经选择的路径编号随机改变为备选路集合中的另外一个值,变异过程能够提高算法的的搜索空间,避免算法陷入局部最优解。



图 3-2 GPU 并行评价示例

#### 3.3.2.6 终止条件

假设第前 k 次迭代找到的最优解为  $B^*$ ,第 k+1 次迭代找到最优解为  $b_{k+1}^*$ ,如果  $b_{k+1}^* < B^*$ ,那么就更新  $B^* = b_{k+1}^*$ ,如果连续迭代 L 次, $B^*$  都不被更新,则判定算法收敛,算法停止。

# 3.3.3 基于 GPU 的并行遗传算法设计

#### 3.3.3.1 并行评价算法设计

遗传算法中最消耗时间的部分是染色体评价部分,由于需要评价大量的染色体,评价每个染色体都需要大量的计算开销。但是幸运的是遗传算法具有天然的并行性,每个不同的染色体评价可以并行执行,更进一步,每个染色体中的不同基因的计算也可以并行执行,这样并行粒度是达到 |*POP*| × |*D*|。在具体介绍并行

算法之前,我们先引入一些符号,如下:

染色体相关符号: C 表示染色体种群集合, $c_j$  表示第 j 个染色体, $c_i^d$  表示第 i 个染色体的第 d 个基因位置。

备选路径相关符号: P 为所有业务的备选路径组成的集合,  $P_i$  表示业务 i 的所有备选路径集合,  $p_i^k \in P_i$  表示集合  $P_i$  中的第 k 条路径。

业务带宽数组 bw, bw, 表示第 i 个业务需要的带宽大小。

链路流量数组f, $f_e$  表示链路e 上总的流量大小。

链路单位代价数组w, $w_e$ 表示链路e上的单位代价(流过一单位的流量所需要的代价)。

链路容量数组 ca, cae 表示链路 e 上的容量大小。

链路代价数组 sh, she 表示链路 e 上总的路由代价。

目标函数值数组 ob, ob<sub>i</sub> 表示第 j 个染色体对应的目标函数值。

由于每个染色体的计算过程是独立的,算法为每一个染色体开辟一个 block,一个 block 内部的第 d 号线程负责当前染色体上第 d 号业务的计算。算法 3-2展示了负责评价的 kernel 函数 evaluate,算法一共可以分为两个部分:

第一,流量统计部分 (2-9 行): 算法需要对染色体进行可行性判断,也就是判断是否有链路的流量大小超过其容量大小,为此,算法需要统计每一条边上的流量大小,我们在共享内存中开辟数组 f 用以统计流量,f 数组被初始化为 0。一个block 中的每一个线程首先通过寻址备选路径集合找到业务选择的路径,业务每经过一条链路都需要占用该链路上的容量,所以如果路径经过了链路 e,  $f_e$  就需要被加上此业务的流量大小。block 中的每一个线程都会遍历业务所选择的路径,对f 数组进行加法操作,但是多个线程可能同时对f 数组中的同一个地址进行加法操作,这不是同步安全的,所以算法使用 atomicAdd 操作进行原子加法,避免同步问题。当线程完成对f 数组的统计之后,必须进行同步(syncthreads()),同步操作保证 block 内部的所有线程执行到同一步骤,也就是先统计完成的线程必修等待其他统计线程也执行完成后才能继续执行,因为只有所有线程都完成对f 数组的加法操作,f 数组的值才完整,才能够进行下一步操作。

第二,代价函数计算部分(10-26 行):代价函数为每条链路的路由代价之和,算法需要先计算每一条链路上的代价值,我们在共享内存中开辟数组 sh 来对每一条边的代价进行统计,每一个线程负责对一条链路的路由代价进行计算。比如,线程 e 负责第 e 条边的代价计算,线程 e 首先判断链路的流量是否溢出( $ca_e < f_e$ ),如果溢出则说明此染色体表示的解不可行,设置  $sh_e$  为  $\infty$ ,这使得这个染色体在排序时会被归类到劣等集合,从而在下一次迭代之前被剔除掉。反之,如果

```
1: function EVALUATE(C,P,bw,w,ca,ob)
       在 block 上分配大小为 |E| 的共享内存空间组成数组 f,初始化数组 f 中的
   所有值为零。
      j \leftarrow \text{block ID}
3:
       d \leftarrow \text{thread ID}
       k \leftarrow c_i^d
       for e \in p_d^k do
6:
           atomicAdd(f_e, bw_d)
7:
       end for
8:
       调用 block 线程同步函数 syncthreads()
9:
       在 block 上分配大小为 |E| 的共享内存空间组成数组 sh,初始化数组 sh 中
   的所有值为零。
       e \leftarrow threadID
11:
       if f_e < ca_e then
12:
           sh_e \leftarrow f_e \cdot w_e
13:
14:
       else
          sh_e \leftarrow INF
15:
       end if
16:
       调用 block 线程同步函数 __syncthreads()
17:
       s \leftarrow |E|
18:
       while s>1 do
19:
           if e<s/2 then
20:
              sh_e \leftarrow sh_e + sh_{(e+(s+1)/2)}
21:
           end if
22:
           调用 block 线程同步函数 syncthreads()
23:
          s \leftarrow (s+1)/2
24:
       end while
25:
       ob_i = sh_0
26:
27: end function
```

算法 3-2 kernel 函数 evaluate

 $f_e \leq ca_e$ ,则说明链路容量足够,链路的代价为 $f_e \cdot w_e$ ,设置  $sh_e$  为 $f_e \cdot w_e$ 。和f数组的统计一样,当线程统计完成  $sh_e$  之后,也需要进行同步操作,等待其他线程完成统计。 $sh_e$  数组计算完成之后,还需要把  $sh_e$  中的值进行加和才能得到效用函数的值,为了充分利用 GPU 多线程,算法最后使用并行规约对数组 sh(20-26 行)进行求和,for 循环中每次将后一半的 sh 数组加到前一半,规约过程中必须进行同步(syncthreads()),以保证加法过程计算完整,最终求和值规约到  $sh_0$ ,将  $sh_0$  中的值写入到 ob 数组中。

图3-2为 GPU 上并行评价算法的一个具体例子,图中被标为蓝色的数组表示业务选择的路径,蓝色的箭头表示流量统计时的加法操作,红色箭头表示链路流量超过链路容量,使得链路代价被设置为 $\infty$ 。



图 3-3 GPU 并行均匀交叉过程

#### 3.3.3.2 并行排序, 变异与交叉

在评价部分结束后,需要对所有的染色体按照代价函数的大小降序排序,本设计采用 CUDA 库 Thrust [39] 中提供的排序函数对 GPU 上的染色体进行排序,Thrust 是基于标准模板库(STL)的 CUDA C++ 模板库,Thrust 为程序员提供常见的 CUDA 算法库,能够减少程序员工作量并且提高应用程序效率,Thrust 库中的排序函数已经针对 GPU 架构做了很好得优化,所以本文不在对排序部分进行优化,排序函数细节可参考 NVDIA 官方文档 [39]。

交叉过程只需要一个 kernel,其并行示意图如图3-3所示,每个 block 负责一个新染色体的生成,通过之前的分析,一共需要生产  $\beta$  个新的染色体,所以 GPU 端一共需要分配  $\beta$  个 block。每个 block 中的前两个线程需要先选择父母染色体,1号线程在  $[1,\alpha]$  中选择一个染色体作为母亲,2号线程在  $[1,\alpha+\beta]$  中选择一个染色体作为父亲。父母选取结束后,就可以进行均匀交叉了,其中每一个 block 中有 [D] 个线程来同时负责随机地从母亲染色体和父亲染色体的相应点位选择一个来作为新染色体相应点位的值,选择父亲或母亲的遗传基因的概率都是 50%,这样 block 内部的并行度达到 [D],总的并行粒度达到  $\beta \cdot |D|$ 。

最后,对于变异部分,我们一共开辟 $\gamma$ 个线程,每个线程随机在 $A \cup B$ 集合中选取一个染色体,并随机选取m个点位进行变异,并行粒度为 $\gamma$ 。

#### 3.4 基于拉格朗日的优化算法设计

GA-PTEA 算法虽然简单,但是其具有以下缺点:第一,需要事先计算大量备选路径,不能很好地适应网络的动态变化,一旦网络链路发生变化,又要重新计算备选路径。第二,遗传算法从开始到收敛需要大量的迭代次数,虽然经过 GPU加速,但是由于收敛缓慢,仍然需要大量的计算时间。第三,遗传算法容易陷入局部最优解。

本节采用基于拉格朗日松弛的模型来解决业务量工程问题,并根据这个模型设计出并行算法 LR-PTEA(Lagrange Relaxing Based Parallel Traffic Engineering Algorithm),LR-PTEA 相对与 GA-PTEA 有以下优点:第一,LR-PTEA 能够快速收敛。第二,LR-PTEA 求得的解大大优于 GA-PTEA。第三,LR-PTEA 不需要事先产生备选路径,业务路由是实时计算出来的。

## 3.4.1 基于拉格朗日松弛的模型

在模型 (3-3,3-4,3-5) 中,网络容量约束 (式子 3-5),把所有的路由变量联系到一起,因为这些变量的取值必修保证每一条链路上占用的流量小于链路的容量大小,正是由于存在链路容量约束,每个业务的路由选取才变得不相互独立,但是要利用 GPU 的并行特性,需要寻找独立计算的可能性,因此,本文采用拉格朗日松弛方法,把一个业务量工程问题分解成一批业务的路由计算问题,而这些业务的路由计算问题是相互独立的,很适合并行计算。

将模型 (式子3-3,3-4,3-5) 中的网络容量约束松弛进目标函数得到如下拉格朗日子问题:

$$L(\lambda) = \min \sum_{d \in D} \sum_{(i,j) \in E_b} w_{ij} \cdot x_{ij}^d \cdot bw_d + \sum_{(i,j) \in E_b} \lambda_{ij} \left( \sum_{d \in D} x_{ij}^d \cdot bw_d - c_{ij} \right)$$
(3-9)

其中 $\lambda_{ii}$ 表示链路(i,j)的拉格朗日乘子。

表达式 (3-9) 还可以表示为:

$$L(\lambda) = \min \sum_{d \in D} \sum_{(i,j) \in E_b} (w_{ij} + \lambda_{ij}) x_{ij}^d \cdot b w_d - \sum_{(i,j) \in E_b} \lambda_{ij} c_{ij}$$
(3-10)

受限于:

$$\sum_{(i,j)\in E_b} x_{ij}^d - \sum_{(j,i)\in E_b} x_{ji}^d = \begin{cases} 1 & \text{if } i = s_d \\ -1 & \text{if } i = t_d \\ 0 & \text{otherwise} \end{cases}$$

$$\forall i \in V_b, \forall d \in D$$
 (3-11)

拉格朗日子问题的目标函数中的  $\sum_{(i,j)\in E_a}\lambda_{ij}c_{ij}$  这一项,不随着拉格朗日乘子的变化而变化,本文将其作为常数项而丢掉不讨论,丢掉  $\sum_{(i,j)\in E_a}\lambda_{ij}c_{ij}$  这一项后,拉格朗日子问题的目标函数中只含有代价部分  $w_{ij}+\lambda_{ij}$  和  $x_{ij}^d\cdot bw_d$  的乘积。注意到  $\sum_{(i,j)\in E_a}(w_{ij}+\lambda_{ij})x_{ij}^d\cdot bw_d$  表示业务 d 的路由代价,因此,拉格朗日子问题的目标函数是最小化所有业务的路由代价之和,观察这个子问题的约束,我们发现,每一个约束都只含有一个和业务需求相关的变量,所以,这个拉格朗日子问题可以被分解成一系列独立的最短路径问题(每个业务需求对应于一个最短路问题),只是这些最短路径问题的链路代价发生了改变,链路代价变得和拉格朗日乘子  $\lambda$  相关。也就是说给定一个拉格朗日乘子  $\lambda$ ,我们可以将拉格朗日子问题看成一批单业务的最短路径问题,我们可以通过并行地计算一系列的最短路径来解决这个拉格朗日子问题。

因为把容量约束松弛进代价函数中后,不会增加目标函数的值, $L(\lambda)$  成为原问题最优目标函数值的下界, $z^* \geq L(\lambda)$ ,为了得到最紧的的下界值,我们要解决以下这个优化问题:

$$L^*(\lambda^*) = maximize_{\lambda}L(\lambda) \tag{3-12}$$

受限于: (3-11)

以上的这个优化问题也被称为原来业务量工程问题 (式子3-3,3-4,3-5) 的对偶问题  $[^{40]}$ , 其中  $\lambda^*$  表示最优拉格朗日乘子,为了得到最优乘子  $\lambda^*$ ,可以使用次梯度优化算法来解决,次梯度优化计算时,第一次先初始化乘子  $\lambda^0$ ,然后通过式子3-13来更新乘子:

$$\lambda_{ij}^{(k+1)} = \lambda_{ij}^{(k)} + \theta_k g^{(k)} = \lambda_{ij}^{(k)} + \theta_k [(\sum_{d \in D} x_{ij}^d \cdot bw_d - c_{ij})]^+$$
(3-13)

其中, $\lambda_{ij}^{(k)}$  表示第 k 次迭代的对应于边 (i,j) 的拉格朗日乘子, $g^{(k)}$  是  $L(\lambda)$  对  $\lambda^k$  的任意一种次梯度, $\theta_k$  表示第 k 次的迭代的步长,标记  $[\alpha]^+$  表示  $\alpha$  中符号为正的部



图 3-4 LR-PTEA 算法流程图

分,也就说  $[\alpha]^+ = max(\alpha,0)$ ,从表达式3-13可以看出来如果链路 (i,j) 上的流量总和超过链路 (i,j) 上的容量,链路 (i,j) 上的 $\lambda_{ij}^k$  拉格朗日乘子会增加,也就是表示一些业务流量需要从链路 (i,j) 上移除,另外,为了避免产生负权重的链路代价,当链路容量大于其上的流量时,我们并不去减小此链路 (i,j) 上的  $\lambda_{ij}^k$ 。

根据以上讨论,我们给出基于拉格朗日乘子法的并行业务量工程算法的框架,如图3-4所示,LR-PTEA主要包括以下步骤:

步骤一,为G(V,E)初始化链路权重。

步骤二,计算所有业务的最短路径,其中路径计算任务被分配到 GPU 上进行并行计算。

步骤三,为了从当前计算出来的路径中得到原问题的优化目标函数值,对步骤二中计算出来的路径进行调整。

步骤四,更新链路权重,更新完毕后,如果停止条件不满足,则回到步骤二,进入下一轮迭代。

# 3.4.2 基于 GPU 的并行路由计算

在每次迭代中,LR-PTEA 为每个业务  $d \in D$  在图 G(V, E) 中计算最短路径,显然,丢掉链路容量约束后,不同业务的最短路径计算可以独立地在 GPU 上并行执

行,但是,最短路算法的逻辑对于 GPU 来说太过复杂,GPU 最初是被设计来做大规模的数值计算问题,其只实用于逻辑比较简单,但是数值计算量较大的任务,所以在 GPU 上直接开辟一个线程来计算一个业务的路径,不仅仅在计算上是低效的,而且这样的并行粒度也不能充分利用 GPU 的大规模并行能力。为了提高并行粒度,LR-PTEA 对最短路径算法也进行并行化设计。

文章  $[^{25]}$  提出一种 Dijkstra 最短路径算法在 GPU 上的并行实现,但是从算法结构上分析,Dijkstra 最短路径算法并不适应于并行算法的设计,所以 Dijkstra 最短路径算法在 GPU 上的实现不能得到很好的加速效果。为了得到更好的加速效果,LR-PTEA 选择 Bellman-Ford  $[^{40]}$  最短路算法来进行并行实现。Bellman-Ford 最短路算法逐步地减小距离标记  $Dist[v](v \in V)$ ,直到其收敛到真实的最短距离。串行的 Bellman-Ford 算法流程如算法3-3所示,其中 Dist[v] 表示距离起点 s 到 v 的最短路径距离,Pre[v] 表示点 s 到点 v 的最短路径上 v 的前驱节点,在初始化好了所有节点的距离数组和前驱节点数组之后,Bellman-Ford 算法最多迭代 |V| 次,每一次迭代,算法都会松弛图 G(V,E) 中的所有的边(第 10-11 行)。Bellman-Ford 算法的算法复杂度为  $(|V|\cdot|E|)$ ,他的复杂度一般是高于 Dijkstra 最短路径算法的复杂度,但是,因为 Bellman-Ford 算法每次松弛边的操作都是独立无关的,Bellman-For 算法很容易在 GPU 上实现并行化。

图 3-5 中显示了 LR-PTEA 的最短路径计算的并行实现框架。首先,根据业务的源节点将业务分配成不同的组,使得每一组内业务的源节点相同。我们假设第 i 个组的源节点为  $s_i$ 。然后,每一组的最短路径计算使用 m 个 GPU 线程的并行地进行边的松弛操作,如图3-5所示,线程  $T_{i,j}$  负责为对应于源点  $s_i$  的链路  $e_j$  进行松弛操作。因此总的并行执行的线程数是  $m \times n$ ,其中 m 和 n 分别表示链路数目和业务组的数目。

在本文的最短路算法的并行实现中,每个 block 内部的线程都松弛同一条链路,比如,在图 3-6 中,集合  $\{T_{1j}, T_{2j}, \cdots, T_{ij}, \cdots, T_{nj}\}$  都在  $block_j$  上执行,其中  $T_{ij}$  为对应源节点为  $s_i$  的链路  $e_i$  执行松弛操作,其中,我们设链路  $e_i$  的头节点和尾节点分别为  $h_i$  和  $t_i$ 。可以看到,当存在链路更新时,标记 Mark 会被设置成 1,这是为了优化算法的迭代次数,当某次迭代结束 Mark=0 则表示这次迭代没有边进行了更新操作,说明 Bellman 算法已经提前结束,我们的实验证明这一个优化可以大大地减小 Bellman 算法的迭代次数。

多业务的并行 Bellman 算法的 CUDA 实现如算法3-4所示。需要注意的是由于 线程在 GPU 上是独立执行的,在更新节点的距离标记和前驱标记的时候会出现同步问题,假设线程  $T_1$  为链路 (x,v) 执行松弛操作,而线程  $T_2$  为链路 (y,v) 执行松弛



图 3-5 并行业务计算框架



图 3-6 GPU 上 Bellman 算法的实现



图 3-7 同步问题的例子

**Require:** 网络拓扑:G(V, E); 源点:s; **Ensure:** 从 s 开始到其他点的路径集合 P; 1: for  $v \in V$  do  $Dist[v] \leftarrow \infty$  $Pre[v] \leftarrow NIL$ 3: 4: end for 5:  $Dist[s] \leftarrow 0$ 6:  $Mark \leftarrow 1$ 7: while Mark > 0 do  $Mark \leftarrow 0$ for  $(u, v) \in E$  do 9: if  $Dist[v] > Dist[u] + w_{uv}$  then 10:  $Dist[v] \leftarrow Dist[u] + w_{uv}$ 11:  $Pre[v] \leftarrow u$ 12: Mark = 113: 14: end if end for 16: end while 17: 根据前驱数组 Pre, 重新构建最短路集合, 输出路径到集合 P

算法 3-3 Bellman-Ford 最短路算法

操作,假设两个线程更新点v的距离标记和更新前驱标记的顺序如图3-7 所示,如果 Dist[v] + w(y,v) < Dist[x] + w(x,v),那么 Dist[v] 被更新为 Dist[y] + w(y,v),但是由于更新的顺序发生交叉,节点v 的前驱节点被更新成了x,而不是真正正确的前驱节点y。为了避免这个同步问题,我们使用两个x kernel,一个x kernel\_distance\_update(算法3-5)用来更新距离标号,一个x kernel\_predecessor\_update(算法3-6) 用来更新前驱节点。

如算法3-5所示,在 kernel\_distance\_update 中,线程先寻址到其对应的边 e 和其对应的源节点标号 s,然后对边进行松弛操作,其中 e.head 表示有向边 e 的目的节点,e.tail 表示有向边 e 的出发节点。如算法3-6所示,在 kernel\_predecessor\_update 中,线程判断 Dist[s][e.tail] + e.weight 是否等于 Dist[s][e.head],因为这时 Dist 数组已经是最短距离数组了,如果条件成立,那么 e.tail 就有资格作为 e.head 的最优前驱节点,算法就对前驱数组 Pre 进行更新。

```
Require: 业务需求集合 D; 链路集合 E;
Ensure: 业务需求的最短路径集合 P

1: 将业务的源节点加入到集合 S 中

2: Mark \leftarrow 1

3: while Mark > 0 do

4: Mark \leftarrow 0

5: 发射 kernel_distance_update(S, E, Dist)

6: end while

7: 发射 kernel_predecessor_update(S, E, Dist, Pre)

8: 根据前驱数组 Pre 重建业务的最短路径,并把路径加入到集合 P 中
```

算法 3-4 并行最短路计算过程

```
1: function KERNEL_DISTANCE_UPDATE(S, E, Dist)
2: bid \leftarrow block ID
3: tid \leftarrow thread ID
4: s \leftarrow S[tid]
5: e \leftarrow E[bid]
6: if Dist[s][e.tail] + e.weight < Dist[s][e.head] then
7: Mark \leftarrow 1
8: Dist[s][e.head] \leftarrow Dist[s][e.tail] + e.weight
9: end if
10: end function
```

算法 3-5 kernel 函数 kernel distance update

### 3.4.3 链路权重更新

#### 3.4.3.1 权重更新步长

在 LR-PTEA 算法中,在第 k+1 次迭代,链路 (i,j) 的权重被更新为  $w_{ij}^k + \lambda_{ij}^{k+1}$ , 其中  $\lambda_{ij}^{k+1}$  被更新为:

$$\lambda_{ij}^{k+1} = \lambda_{ij}^k + \theta_k [(\sum_{d \in D} x_{ij}^d \cdot bw_d - c_{ij})]^+.$$
 (3-14)

为了保证收敛性,第 k 次迭代的更新步长  $\theta_k$  可以被设置为  $\frac{1}{k}$  [40]。然而,通过仿真发现,当  $\theta_k$  被设置为  $\frac{1}{k}$  时,其收敛缓慢。让我们考虑图 3-8的例子,其中链路 (i,j) 上的标记分别表示链路权重和链路上剩余的容量大小。假设现在有两个业务需求  $d_1$  和  $d_2$ ,他们的源都是 A,目的节点都是 D,且每一个业务的流量大小都是 4 个单位。为了展示这个迭代过程,我们把算法前 5 次的迭代结果表示在表 3-1中,从表中可以看到,业务计算出的最短路径一直在 A-B-D 和 A-C-D 之间徘徊。算法必修等到 A-B-D 和 A-C-D 的两条路的权重相等时才能停止,只有这样这两个业务才可能分离,其中一个选择 A-B-D,而另一个选择 A-C-D。但

```
1: function KERNEL_PREDECESSOR_UPDATE(S, E, Dist,Pre)
2: bid \leftarrow block ID
3: tid \leftarrow thread ID
4: s \leftarrow S[tid]
5: e \leftarrow E[bid]
6: if Dist[s][e.tail] + e.weight = Dist[s][e.head] then
7: Pre[s][e.head] = e.tail
8: end if
9: end function
```

算法 3-6 kernel 函数 kernel predecessor update



是, 正如表中所示这需要大量的迭代才能达到。

另外一种常用的步长选择是:

$$\theta_k = \frac{\rho[UB - L(\boldsymbol{\lambda}^k)]}{||\mathbf{A}\mathbf{x}^k - \mathbf{b}||^2}$$
(3-15)

其中 UB 是最优化目标函数的上界, $\rho$  是一个取值范围为 0 到 2 的常数,A 和 b 分别是链路相关矩阵和链路上的剩余容量向量。但是从实验中发现设置这种步长迭代效果也不令人满意。

本设计采用一种简单但是有效的链路权重更新步长,假设  $\theta_k^{ij}$  为第 k 次迭代时链路 (i,j) 上的需更新的步长,那么  $\theta_k^{ij}$  为:

$$\theta_k^{ij} = \frac{1}{|c_{ij} - \sum\limits_{d \in D} x_{ij}^d b w_d|}$$
(3-16)

从式子 3-16, 我们可以看到,如果一条链路上承载的流量大小超过了这条链路上的容量大小,那么这条链路上的权重在下一次迭代之前就会增加 1,对于其他的流量满足约束的链路,其权重不会改变,如果使用式子3-16的步长更新方法,LR-PTEA 仅仅只需要一次迭代就能够得到例子(图3-8)中的最优的权重。我们的实验表明,这种粗粒度的更新操作大大的减小了算法的收敛迭代次数,从而大大缩短算法运行时间。

| Iteration number | Calculated paths for the two demands | Path weights         | $\theta_k$ |  |
|------------------|--------------------------------------|----------------------|------------|--|
| 0                | A-B-D                                | 2(1+1)               | 1          |  |
|                  | A-B-D                                | 2(1+1)               |            |  |
| 1                | A-C-D                                | 4(2+2)               | 1          |  |
|                  | A-C-D                                | 4(2+2)               |            |  |
| 2                | A-B-D                                | 10(1+4+1+4)          | 0.5        |  |
|                  | A-B-D                                | 10(1+4+1+4)          |            |  |
| 3                | A-C-D                                | 12(2+4+2+4)          | 0.33       |  |
|                  | A-C-D                                | 12(2+4+2+4)          |            |  |
| 4                | A-B-D                                | 14(1+6+1+6)          | 0.25       |  |
|                  | A-B-D                                | 14(1+6+1+6)          |            |  |
| 5                | A-C-D                                | 14.66(2+5.33+2+5.33) | 0.2        |  |
|                  | A-C-D                                | 14.66(2+5.33+2+5.33) |            |  |

表 3-1 拉格朗日更新过程(1)

#### 3.4.3.2 随机更新策略

拉格朗日松弛法将原问题分解成了一个个独立的最短路径问题,这样使得算法可以进行并行化设计。但是由于每个子问题独立分离,使得每个问题在求最短路径时都是贪心的,这样可能会使得大量业务抢占同一批链路,造成拥塞,一旦拥塞,链路的权重就会增加,又会使得大量的业务集体放弃这一批链路,去抢占其他链路,使得其他链路也发生拥塞,形成一种恶性循环,最终会使得算法提前收敛到局部最优解。另外,为了追求快速收敛,我们简单地把每一个超过容量约束的边增加 1,这样粗粒度的增加,可能会加重上面讨论的拥塞循环。

如图3-9所示,假设存在两个业务  $d_1$  和  $d_2$ ,其中  $d_1$  的源节点为 A,目的节点为 G,其流量大小为 5, $d_2$  的源节点为 B,目的节点为 G,其流量大小也为 5。开始时两个都分别贪心地计算最短路径, $d_1$  选择路径 A-C-E-G, $d_2$  选择路径 B-C-E-G,这样的话,链路 C-E 和 E-G 出现拥塞,表 3-2 展示了这个迭代过程。图 3-9中最优的选择是让其中一个业务经过边 C-E-G 进行中继,另一个业务经过边 D-F-G 进行中继。但是迭代过程始终无法使得两条链路发生分离,图中的链路权重始终无法达到最优条件,这是因为链路 C-E-G 和链路



图 3-9 链路更新例子 (2)

D-F-G 每次超限都会为路径的总权重增加 2 个单位,权重增加的粒度太大。假设每次迭代时链路 C-E-G 总共只增加一个单位,那么算法只需要一次迭代就能达到最优条件,此时链路 C-E-G 由于超限,权重一共增加 1 个单位,那么路径 A-C-E-G 和路径 A-D-F-G 权重相等都为 4,同样,路径 B-C-E-G 和路径 B-D-F-G 的权重也相等了,这样两个业务才会分离开(比如业务  $d_1$  选择链路 A-C-E-G,业务  $d_2$  选择链路 B-D-F-G)。为了解决链路增加粒度过大的情况,在本设计中我们采用随机更新的策略,也就是对一条流量超过容量约束的边 (i,j),我们以概率  $\varphi$  来对他进行权重更新,每条边的权重增加粒度依然为 1 个单位,假设  $\varphi=0.5$ ,这种方法在一定概率上保证图 3-9 中的例子可以在一次迭代中收敛。我们的实验发现这种更新策略能够在保证算法收敛速度的同时,求解到更加优化的解。

#### 3.4.4 路径调整

注意到,在最优的权重代价(最优拉格朗日乘子)下,LR-PTEA 求解到的路径集合解是拉格朗日对偶问题的优化解,但是它不一定是原来业务量工程问题的可行解。作为一个例子,考察图 3-10中的情况,图中的元组中数字分别表示链路的代价和链路上的剩余容量大小。我们假设有两个业务需求  $d_1$  和  $d_2$ , 其中两个业务的流量需求都是 1 个单位,假设在某一个迭代过程中,LR-PTEA 为两个业务算出来的链路分别为 A-C-E-D 和 B-C-E-F,这种路径选择是对偶问题的最优解,但是他不是原问题的可行解,因为链路 (C,E) 上承载的链路容量大于了链路 (C,E) 上的容量。这是由于每个业务在选择路径的时候没有去考虑其他业务所选择的路径,但是我们容易看到这个例子中所有路径权重都一样(都等于 3),也就是说,图中存在着大量的等价链路,但是在这个例子中两个业务恰好都选择了冲突的那一条路径 A-C-E-D,如果业务  $d_1$  的路径被调整到 A-D,业务  $d_2$  的链路被调整到 B-F,那么,我们可以得到原问题的最优可行解。所以通过这里的

| Iteration number | Calculated paths for the two demands | Path weights |  |  |
|------------------|--------------------------------------|--------------|--|--|
| 0                | A-C-E-G                              | 3(1+1+1)     |  |  |
|                  | B-C-E-G                              | 3(1+1+1)     |  |  |
| 1                | A-D-F-G                              | 4(2+1+1)     |  |  |
| 1                | B-D-F-G                              | 4(2+1+1)     |  |  |
| 2                | A-C-E-G                              | 5(1+2+2)     |  |  |
|                  | B-C-E-G                              | 5(1+2+2)     |  |  |
| 3                | A-D-F-G                              | 6(2+2+2)     |  |  |
| 3                | B-D-F-G                              | 6(2+2+2)     |  |  |
| 4                | A-C-E-G                              | 7(1+3+3)     |  |  |
| ,                | B-C-E-G                              | 7(1+3+3)     |  |  |
| 5                |                                      |              |  |  |
|                  |                                      |              |  |  |

表 3-2 拉格朗日更新过程 (2)

启发,我们发现需要设计一种业务路径调整算法来主动避免链路出现冲突,以得 到原问题的可行解。

为了说明业务路径调整算法,我们引入一些符号,假设 P 表示步骤 2 所计算出来的路径集合,其中  $p_d \in P$  表示业务 d 的路径; $rp_d$  表示路径  $p_d$  上的可用带宽, $rp_d = min\{r_e | e \in p_d\}$ ,其中  $r_e$  表示链路 e 上的剩余带宽; $D_l$  表示剩余业务集合,表示这些业务不能在不违背容量约束的情况下被加入网络中。

路径调整算法如算法3-7所示。路径调整算法的主要思想是通过调整一小部分业务的路径来得到原问题的优化可行解,算法首先对业务进行排序,这里采用 3.3.1.2 类似的思想对业务进行排序,一方面,要使得目标函数变小,那些流量需求较大的业务应该优先被加入到网络中,但是如果大流量的业务的路由代价很大,经过了一条很长的路径,就会大量的浪费网络中的链路容量资源,所以算法对当前解中的业务和其路径按照  $\sqrt{|v_d|}$  的值进行排序,其中  $bw_d$  代表业务 d 所需要的流量大小, $|p_d|$  代表业务 d 的路径  $p_d$  的代价大小。排序结束后,算法按照顺序试图将业务加入到网络中(第 2 到 9 行),如果  $rp_d \geq bw_d$ ,表示业务可以被加入到网络中,那么加入此业务并且更新网络链路的剩余容量值,反之,如果  $rp_d < bw_d$ ,则表示业务选择的路径上的链路容量不足以承载此业务,那么将业务加入剩余集合



 $D_l$ 中。第 2 行到第 9 行的循环结束后,我们得到一个剩余网络 G'(l',E'),根据前面的讨论,在剩余网络中可能存在一些等价路径,剩余链路中依然有很多可用资源,所以算法重新在剩余网络中为剩余业务  $D_l$  计算路径(第 11 到 24 行)。算法依次遍历集合  $D_l$ ,看能否在剩余网络中为业务寻找一条路径,首先剔除那些链路剩余容量小于业务流量  $bw_d$  的链路,这样保证求出来的路径肯定是满足容量约束的。由于剩余链路是残余网络,所以可能会求出跳数很长的路径,如果跳数太长了,会占用太多的资源,不能达到优化的目的,所以我们对跳数进行约束,如果  $|p|/|p_d| < \delta$ ,则将业务加入到网络中,并更新网络链路容量,否则不加人业务到网络中。虽然这个过程对路径的计算是串行的,但是这个过程是很快速的,这主要有以下原因:第一,由于剩余网络中的链路容量普遍较小,能参与计算的链路很少,对一个剩余业务 d,在计算路径之前,算法会剔除那些剩余容量小于  $bw_d$  的链路,所以实际上参与计算的网络拓扑很小;第二,剩余业务量集合  $D_l$  本身较小;第三,算法越往后面加入业务,可用链路会越来越小,网络会进一步变小。通过这个路径调整算法,可以快速得到原问题的一个优化可行解。

## 3.4.5 终止条件

LR-PTEA 的终止条件和 GA-PTEA 的终止条件一样,假设前 k 次迭代找到的最优解为  $B^*$ ,第 k+1 次迭代找到最优解为  $b_{k+1}^*$ ,如果  $b_{k+1}^*$  <  $B^*$ ,那么就更新  $B^*=b_{k+1}^*$ ,如果连续迭代 L 次, $B^*$  都不被更新,则判定算法收敛,算法停止。

## 3.5 仿真实验分析

# 3.5.1 仿真介绍

为了证明 LR-PTEA 和 GA-PTEA 的优化效果,我们把两个算法的优化结果和基于备选路径的 MILP 模型的最优目标值进行比较,其中每个业务的备选路径数

```
Require: 网络拓扑 G(V,E); 业务量需求集合 D; 步骤二算出来的路径集合 P;
Ensure: 调整后的路径集合 AP;
 1: 把业务按照值 \frac{\sqrt{bw_d}}{|p_d|} 进行降序排序
 2: for d \in D do
      if rp_d \geq bw_d then
         把路径 p_d 加入到 AP 中
 4:
         在图 G(V,E) 中更新路径 p_d 所经过链路的剩余带宽
 5:
      else
 6:
         把业务 d 加入到剩余集合 D_l 中
 7:
      end if
 9: end for
10: G'(V', E') = G(V, E)
11: for d \in D_l do
      G''(V', E'') = G'(V', E')
12:
      for e \in E' do
13:
14:
         if r_e < bw_d then
            把链路 e 从图 G''(V'', E'') 中移除
15:
         end if
16:
      end for
17:
      在图 G''(V'', E'') 中为业务 d 计算最短路径 p
18:
      if \frac{|p|}{|p_d|} \leq \delta then
19:
         把路径p加入到AP,并把业务从集合D_l中移除
         在图 G'(V',E') 中更新路径 p 所经过链路的剩余带宽
21:
      end if
22:
23: end for
```

算法 3-7 路径调整算法

量 K = 30 条,我们使用 CPLEX <sup>[41]</sup> 来求解 MILP 模型,由于 CPLEX 求解 MILP 需要很大的计算量,对于大规模的网络,我们无法得到 MILP 的最优值,因此我们设置了 10 分钟的求解时间限制,当 Cplex 求解时间超过 10 分钟后,我们停止求解,记录 Cplex 求得的最优可行解和 Cplex 估计出来的最优下界。

为了观察 LR-PTEA 和 GA-PTEA 的加速效果,我们分别设计了两种算法的串行版本 LR-STEA 和 GA-STEA, 其中 LR-STEA 中的路由算法采用带堆优化的dijkstra 算法。

我们分别采用 ERdos-Renyi (ER) [42] 和 Barab asi-Albert (BA) [43] 两种模型来生成实验网络拓扑,实验中的网络拓扑中点的平均度数为 6, 网络中的链路代价都是被设置为 1。实验中我们随机产生一定数量的业务到达网络,每个业务的的流量大小被设置为 1 到 100 之间的随机值。

本文分别比较了各个算法的目标函数,加速效果和算法的收敛性质。GA-PTEA和 LR-PTEA中的并行算法都是使用 CUDA8.0 进行实现的,跑算法的服务器配置

表 3-3 实验参数设置表

| W  | δ | $\varphi$ | POP  | α   | β    | γ    | m | K  | L  |
|----|---|-----------|------|-----|------|------|---|----|----|
| 50 | 2 | 0.15      | 5000 | 500 | 2000 | 2500 | 1 | 30 | 30 |

有四个 Intel Xeon E5-2630 CPU 和一个 NVIDIA Tesla K40M GPU。

实验中的所涉及到详细参数设置如表3-3所示。

### 3.5.2 目标函数比较

图 3-11显示了在点数为 1000 的网络中,目标函数随着业务数量规模变化的折线图,图中的网络链路容量大小为 100。从图 3-11中我们可以看到目标函数大致随着业务数量呈现线性增加,这和目标函数的表达式相吻合。

从图 3-11中可以看到 LR-STEA/LR-PTEA 的优化结果明显优于遗传算法 GA-STEA/GA-PTEA 的优化结果,这是因为遗传算法提前陷入了局部最优解,导致算法提前结束。

和备选路径 MILP 模型的 Cplex 解相比,LR-STEA/LR-PTEA 的解明显优于 Cplex 的解。随着业务数量的增加,LR-STEA/LR-PTEA 解和 Cplex 解的距离逐渐 拉开,这是因为 Cplex 的计算压力随着业务规模的增加而增大,使得 Cplex 不能在 有限时间内找到更好的解。

图3-12表示的是在容量变化下的目标函数值的变化,其中业务数量为 6000, 网络链路容量从 100 到 250 变化。我们看到,随着容量的增加,目标函数大致呈现线性下降。当链路容量等于 250 时,LR-PTEA/LR-STEA 已经很接近 MILP 的下界了,这说明 LR-PTEA/LR-STEA 在网络资源足够时,能很好的优化路由代价。

## 3.5.3 算法时间比较

图 3-13和图 3-14分别列出了各个算法在 BA 和 ER 拓扑下的计算时间随着业务数量增加的变化情况,图中拓扑节点数量为 1000,业务数量从 1000 到 6000 变化,链路的容量为 100。由于各种算法的时间差距过大,我们用三种不同的尺度进行展示。首先,Cplex 的时间限制都为 10 分钟,所以我们不再列出来。

在图3-13和图 3-14中,我们可以看到 GA-PTEA 相对于 GA-STEA 加速比可达到 20 倍以上,但是由于遗传算法本身收敛较慢,所以 GA-PTEA 的计算时间还是很糟糕的。

观察图 3-13和图 3-14,我们发现 LR-STEA 和 LR-PTEA 的时间曲线会发生大幅度的波动,这是因为算法的迭代次数变化较大。根据 3.4.5 的讨论,在连续 L 次



没有寻找到更优解后,LR-PTEA/LR-STEA 就会停止,我们把 L 设置为 30。其实 L 设置得偏小了,算法有可能会找到更好的解,但是这些解的下降程度很小(通过收敛图 3-18,可以看到算法在前 30 次内下降幅度较大,后面的下降幅度很小),所以为了优化整体时间,我们设置迭代次数为较小的 30 次,这样可能会使得算法提前结束,从而导致算法的迭代次数变化幅度较大。

观察图 3-13和图 3-14,我们发现随着业务数量的增加,LR-PTEA 的加速优势变大。总体来看,LR-PTEA 相对与LR-STEA 有平均 12 倍的加速。

图 3-15和图 3-16表示算法计算时间随着网络拓扑大小的变化情况,其中到达网络的业务数量为网络拓扑点数目的 4 倍,可以看到随着网络拓扑变大,计算时间也相应增加,GA-PTEA 的计算时间不管在小拓扑还是大拓扑下都远远大于LR-PTEA 的计算时间。拓扑较小时LR-PTEA 相对与LR-STEA 的加速很小,但随着网络拓扑规模的增加,LR-STEA 的计算时间大幅上升,而采用 GPU 加速计算的LR-PTEA 上升幅度较小,网络拓扑达到一定规模后 LR-PTEA 对 LR-STEA 有较大的加速优势。

# 3.5.4 算法收敛性

图 3-17 和图 3-18分别是 GA-PTEA 和 LR-PTEA 的收敛过程图。可以看到遗传算法的初始值较差,迭代次数较多,而且最终陷入到了局部最优解,而 LR-PTEA 第一次的解已经很好,这是因为 LR-PTEA 不是基于备选路径的,他会通过路径调整策略为业务重新寻找路径,从而得到一个较好的初始目标值。LR-PTEA 的目标函数值在很短的迭代次数里快速下降,但是 LR-PTEA 的曲线不够平滑,说明算法的波动较大,收敛终止条件不好控制,这也是图 3-13和图3-14产生波动的原因。



图 3-12 目标函数值随链路容量变化示意图

## 拓扑:ER 点数:1000



图 3-13 计算时间随业务数量变化示意图 (ER)

## 拓扑:BA 点数:1000



图 3-14 计算时间随业务数量变化示意图 (BA)

#### 拓扑:ER



图 3-15 计算时间随拓扑大小变化示意图 (ER)





图 3-16 计算时间随拓扑大小变化示意图 (BA)



# 3.6 本章总结

本章研究了 SDN IP 网络下的并行业务量工程算法,首先提出了新的业务量工程代价函数,建立了业务量工程模型,设计了两种基于 GPU 的并行优化算法方案 GA-PTEA 和 LR-PTEA,我们的实验发现 GA-PTEA 的加速比可达 20 倍以上,LR-PTEA 的加速比能达到 10 倍以上,LR-PTEA 能够在短时间内得到目标函数的优化解。



# 第四章 SDN 弹性光网络下的并行业务量工程算法研究

## 4.1 引言

在 EON 架构中,存在细粒度的带宽间隙(比如,12.5GHZ),他比 WDM 网络所遵循的 ITU-T 的带宽间隙粒度(50GHZ 或者 100GHZ)要小很多,而且,这些带宽间隙可以根据需要被组合在一起以提供更宽的通道。为了提高带宽利用率,在 EON 中存在混合速率,每个速率的业务需要不同数量的频谱间隙数量。理论上,EON 能够灵活地提供各种速率,但是在实际中,EON 却可能只含有很少的速率种类,这主要是因为:第一,随着数率种类的增加,频谱碎片和管理复杂度将显著增加。第二,实际的 EON 已经从较低的线路数率升级到更高的线路数率,并存大量速率的情况已经很少见了。

为了在 EON 网络中加入业务,控制平面必须在网络中找到一条路径,同时,还需要在此路径上的链路上分配足够的频谱带宽,来创建一个合适的端到端光路连接,这被称为路由和频谱分配(Routing and Spectrum Allocation,RSA)问题,RSA 问题可以进一步分为静态 RSA 问题和动态 RSA 问题。静态的 RSA 问题出现在网络规划阶段,其中流量需求是已知的,这样可以离线计算出最优或者接近最优的 RSA 解。动态 RSA 问题是指在实时业务情况下光通路的路由选择和波长分配的优化问题。在动态 RSA 问题中,业务随机的到达和离开光网络,造成网络频谱资源实时变化,而且当业务到达网络时,控制平面需要在短时间内找到合适的路径来安排业务。所以,动态 RSA 问题比静态 RSA 问题更具有挑战性。

本章考虑在 EON 中解决动态场景下的业务量工程问题,我们采用分层图模型将频谱分配问题简化为路由选择问题,设计出基于分层图模型的频谱分配与业务量工程算法(Traffic Engineering and Spectrum Allocation Algrithm,TESAA),在进行频谱分配的同时优化路由代价。针对无权图和带权图两种情况设计基于 GPU 的并行路由算法来加速 TESAA。实验发现,基于 GPU 并行的 PTESAA(parallel TESAA)算法对串行算法 STESAA(serial TESAA)的加速比可达到 5 倍。我们将TESAA 和基于分层图模型的贪心算法比较,发现 TESAA 在短时间内能够大大地优化路由代价,并且由于路由代价减小,占用的网络资源较少,最终使得网络阻塞率降低。

### 4.2 分层图模型

当业务到达网络时,SDN 控制器需要找到可行的路径,并且为路径分配合适的频谱资源。由于EON 的物理限制,业务路由需要满足以下约束:

第一,传输跳数限制:光信号的传输质量会随着传输跳数的增加而下降,为了在目的点顺利恢复光信号,光链路的传输跳数需要小于一个阈值  $W_{max}$ 。

第二,频谱连续性限制:每条光连接的频谱从它的源节点到它的目的节点,在 所经过的链路上保持不变。

第三,频谱不重叠限制:同一光纤链路中的频谱不能分配给不同的光路。

第四,频谱邻近限制:频谱邻近约束保证分配给一个光路径的频谱必须是一个连续的部分。

论文 <sup>[34]</sup> 中提出一种分层图(Layered Graph)模型来解决 WDM 网络中的路由和波长分配问题,分层图模型将路由选择和波长分配问题统一到一起来,使得路由和波长分配问题变得简化,这种分层图模型也可以很容易推广到 EON 的 RSA问题中。

我们使用有向图 N(V,E) 表示物理网络拓扑,其中  $V = \{v_1, v_2, ..., v_N\}$  表示节点集合, $E = \{e_1, e_2, e_3, ..., e_M\}$  表示边集合, $e_k = (i_k, j_k)$  表示边的头节点为  $v_{i_k}$ ,边的尾节点为  $v_{j_k}$ 。假设所有光链路具有相同的频谱范围  $W = (F_{start}, F_{end})$ ,其中  $F_{end} - F_{start} = C_\circ$  EON 所支持的速率集合为 R,比如,R = 40Gb/s,100Gb/s,400Gb/s,每一种速率  $r \in R$  需要一个特定的频谱宽度  $b_r GHz$ 。一个源节点为 s,目的节点为 t,速率为 rGb/s 的业务被表示为 TD(s,t,r)。

下面我们讨论分层图的产生过程,假设第一个速率的为r的业务 TD(s,t,r) 到达网络,我们从可用的频谱切割出一块频谱大小为 $b_r$ 的连续带宽分配给速率为r的业务,假设这块频谱的起始频率为 $fs_{(r,1)}$ ,终止频谱为 $fe_{(r,1)}$ ,那么 $fe_{(r,1)}-fs_{(r,1)}=b_r$ 。我们把物理链路上的频谱范围为  $(fs_{(r,1)},fe_{(r,1)})$  的部分从链路上切割下来,把切割下来的部分组成一个新的虚拟网络  $N^{(r,1)}(V^{(r,1)},E^{(r,1)})$ ,在这个新的网络中每条链路的频谱范围都是  $(fs_{(r,1)},fe_{(r,1)})$ ,这样切割下来之后,原来的物理网络的频谱范围更新为  $(F_{start}+b_r,F_{end})$ 。如果在这个切割出来的图  $N^{(r,1)}(V^{(r,1)},E^{(r,1)})$  上为业务求一条最短路径 p,那么容易知道路径 p 一定满足约束 p 2、3、4,这样问题被简化为单纯的路由问题。要注意的是,这个虚拟图上的频谱不能再分配给其他速率为 p 的业务 p 的业务 p 的业务,因为这样会产生大量的频谱碎片,使得频谱利用率下降。所以这些分割出来给速率 p 的频谱,将继续被分配给速率为 p 的业务。当下一个速率为 p 的业务 p 的业务被加入网络并且更新路径经过的链路的可找路径,如果找到合适的路径,则业务被加入网络并且更新路径经过的链路的可



图 4-1 分层图组织结构示意

用频谱为 0。反之,如果他在图  $N^{(r,1)}(V^{(r,1)},E^{(r,1)})$  中没有找到合适的路径,那么算法会重新去切割频谱得到虚拟网络  $N^{(r,2)}(V^{(r,2)},E^{(r,2)})$ ,这样随着大量业务的动态到达和离去,会产生大量的虚拟图,频谱资源已经大量地分布在各个虚拟图中,我们把这些虚拟图叫做分层图(Layered Graph)。

图 4-1展示了分层图的组织结构,原图被切割成一个分层图集集合 L,  $L_i \in L$  表示速率 i 的分层图集合。速率 r 一共有  $|L_r|$  个分层图,速率 r 的第 l 个分层图占用频谱  $(fs_{(r,l)},fe_{(r,l)})$ 。图 4-1中,点  $v_i^{(r,l)}$  表示速率 r 的第 l 层图上的第 i 号点。

## 4.3 分层图模型下的业务量工程算法

根据前面的讨论,当一个速率为r的业务 $TD_r(s,t)$ 到达网络时,一共有 $L_r$ 个分层平面都可以用于此业务,也就是说如果在这些图当中都能为业务找到合适的路径的话,那么业务就有 $L_r$ 条路径可供选择,我们可以选择代价最小的一条来优化路由。进一步,当有一批速率为r的业务集合 $D_r$ 到达网络时,如果大家都选择同一层加入的话,会出现大量的冲突,而且路由代价也会很大,但是现在对每一个业务都有多个分层图平面可以选择,这就给路由代价的优化提供了可能,不同的业务可以选择不同层上的路径来进行路由,以使得总体路由代价减小,节省网



图 4-2 算法优化流程

络频谱资源,从而优化阻塞率。

根据以上讨论,本节提出一个基于分层图模型的频谱分配与业务量工程算法 (TESAA, Traffic Engineering and Spectrum Allocate Algrithm),算法在进行频谱分配的同时对业务的路由代价进行优化,算法流程如图 4-2所示。

当一批业务到达网络时,算法会对每一个业务在其所有可用分层图上计算路由,这个过程的计算量较大。但是不同业务之间是独立的,不同分层图之间也是独立的,所以可以采用并行算法来进行加速设计,4.4 和 4.5 将讨论无权图和有权图上的并行路由算法来加速这个步骤。当备选路径都求出来了之后,我们采用一种快速路径选择算法来把业务安排进网络,这个步骤采用一种简单的贪心算法,实验发现这种简单的贪心算法可以很好的优化路径代价。当业务的路径确定后,如果每个业务都能加入到网络,那么本轮算法结束,如果还有剩余的业务没有被安排进网络,需要判断业务的备选路径集合是否为空,如果为空,则说明所有层都不

能为业务求出路径,业务将被阻塞。反之,如果业务的备选路径集合不是空,则说明业务是因为和其他业务的路径冲突而导致不能被安排进网络的,分层图中可能还存在其他可用路径,所以需要重新在分层图中计算路径,算法回到步骤二,对这些业务进行重新计算。

步骤一的具体算法将在 4.4 和 4.5 介绍,这里介绍步骤二的快速优化算法,快速优化算法的主要思想是在备选路径集合中为每个业务选择路径以使得整体路径代价最小,在动态环境下需要在短时间内安排好路径,所以为了提高计算速度,这里采用一种简单但快速的贪心算法来进行解决,算法如4-1所示。

```
Require: N(V, E): 分层图; P: 备选路径集合; D: 业务需求集合;
Ensure: AP: 加入业务的路径集合;
1: for T \in D do
     对P_T中的路径按照路径的代价进行升序排序
3: end for
4: 对 D 按照每个业务的最小路径代价进行升序排序
5: for T \in D do
     for p \in P_T do
6:
       if 路径 p 所对应分层图上的相应链路没有被占用 then
7:
          把p加入到AP中,并更新p所对应的分层网络上的链路。
8:
          break
9:
       end if
10:
     end for
11:
12: end for
```

算法 4-1 路径选择算法

算法开始时对每个业务的备选路径按照其代价进行升序排序,也就是每个业务优先会选择代价较低的备选路径。然后,再对业务按照其最小代价的路径进行升序排序,这样保证优先考虑代价较小的业务。然后,算法依次加入业务到网络,对每一个业务,遍历其已经排序好的备选路径,如果在对应分层图上路径所包含的链路都是空闲的,则加入业务到网络中,更新分层图上的相应链路为占用状态,把这个路径 p 加入到集合 AP 中,最后算法输出路径集合 AP。

# 4.4 无权图情况下的 GPU 算法设计

无权图情况下,路由的代价就是路径的跳数,跳数越少说明占用的网络资源越少,尽量优化路径的跳数可以节省网络资源,进一步的降低动态情况下网络的阻塞。无权图情况下的路由算法一般使用 BFS (宽度优先搜索)算法进行求解,BFS 算法从离目的节点最近的点开始,一层一层的进行扩展直到找到目的节点,每扩展一层跳数增加一跳,每扩展一层就需要遍历大量的边,这些边的扩展操作



图 4-3 相同速率业务的 BFS 并行示意图

是相互独立的,所以为算法提供了并行设计的可能性,在加上不同分层图上的路由计算是相互独立的,所以总体并行粒度是很大的。下面分别对不同并行层次的设计进行讨论。

### 4.4.1 相同速率业务的并行

如图4-3所示,对速率都为r的一批业务,算法并行地在每个分层图上进行路由计算,在各个分层图上,具有相同源节点的业务组成业务组,因为他们的路径可以一起计算。对每一个业务组,在 GPU 上开辟 |E| 个线程对每一条边进行扩展操作,那么整个过程的的并行粒度为  $|L_r| \times |D_r| \times |E|$ ,其中  $|D_r|$  为速率为r的业务组数量。

# 4.4.2 不同速率间业务的并行

由于动态业务情况下每次到达网络的不同数率的业务数量是变化的,不同速率之间业务的并行不容易直接实现在一个 kernel 中,我们可以把不同速率的业务路由计算抽象成不同的任务,所以本文采用 CUDA 提供的流并行进行并行设计,如图 4-4所示。

我们为每一个速率建立一个流来负责这个速率的业务计算,假设一共有 |R| 个不同的速率,那么需要建立 |R| 个流,多个流同时切换执行,充分利用 GPU 的 SM 资源,当 SM 资源足够时,不同流的 kernel 将并行执行,当 SM 不足时,不同的 kernel 之间可以进行快速的切换,以达到隐藏延迟的效果。这样,算法的总体并行 粒度达到  $|L_r| \times |D_r| \times |E| \times |R|$ 。



图 4-4 BFS 流并行示意图

### 4.4.3 GPU 上的 kernel 设计

和 3.4.2 中讨论的不一样,在 BFS 的并行中不会存在前驱节点更新的同步问题。但是,我们依然需要两个 kernel 函数,这是因为扩展操作需要执行多次,如果扩展和更新被放在一个 kernel 函数,那么更新也会执行多次,这会增加内存的访问,所以我们把两个操作分成两个 kernel,一个 kernel\_BFS\_extend 进行边的扩展操作,一个 kernel\_BFS\_update 进行前驱节点的更新操作,其中 kernel\_BFS\_extend 需要多次调用,但是 kernel BFS update 只需要在最后执行一次。

在  $kernel\_BFS\_extend($ 见算法4-2) 中,输入 E 是所有的分层图的边所组成的集合,Dist 是预先分配的距离标记数组,他是一个三维数组,第一维表示当前距离数组对应的分层图标号,第二维度表示源节点,第三维度表示目的节点,比如 Dist[3][10][5]=4 表示在第 3 个分层图上,点 10 到 5 的距离为 4。初始时,除了源节点距离被初始化为 0 之外,其他的距离都被初始化为无穷大。rid 表示当前 kernel 负责计算的业务速率标号,他是区分不同流的标记,rid 不同表示执行 kernel 的流不同。round 表示当前扩展的层数,由于 kernel 的流不同。round 表示当前扩展的层数,由于 kernel 的流不同。kernel 的流不同。kernel 的流不同。kernel 的流不同。kernel 的流不同。kernel 的流不同。kernel 的点数,由于 kernel 的流不同。kernel 的点数,由于 kernel 的流不同。kernel 的点数,由于 kernel 的,我们需要记录当前层数来决定哪些边需要扩展。算法开始时先进行一系列映射操作,将线程映射到边标号 kernel 的前所在分层图标号 kernel 以及源节点标号 kernel 的,以及源节点标号 kernel 的,如果不可用则返回。接着判断当前边是否可以进行扩展操作,如果 边 kernel 的目的节点(kernel 已经被更新过了(kernel kernel kernel

```
1: function KERNEL BFS EXTEND(E, Dist,rid,round)
       bid \leftarrow block ID
       tid \leftarrow thread ID
3:
       将 (bid, tid, rid) 映射到边的标号 eid
4:
       将 (bid, tid, rid) 映射到分层图标号 lid
       e \leftarrow E[lid][eid]
       if 边 e 已经被占用了 then
7:
           return
8:
       end if
9:
       将 (bid, tid, rid) 映射到的源点标号 sid
10:
       if Dist[lid][sid][e.head] > round\&Dist[lid][sid][e.tail] + 1 = round then
11:
           Dist[lid][sid][e.head] \leftarrow round
12:
       end if
13:
14: end function
```

算法 4-2 kernel 函数 kernel BFS extend

e.head 的距离为当前扩展层 round。

在  $kernel\_BFS\_update$  中 (见算法4-3),其主要逻辑和  $kernel\_BFS\_extend$  一样,在进行更新判断的时候,判断当前边的出发节点是否在其目的节点的上一层 (Dist[lid][sid][e.head] = Dist[lid][sid][e.tail] + 1),如果是的话,那么出发节点就有资格作为目的节点的前驱节点,于是进行前驱更新操作。

介绍完了两个 kernel 之后,算法 4-4展示了整个并行 BFS 的算法流程,算法 4-4开始时先将业务按照速率的不同进行划分,再将业务按照源节点的不同划分成不同的业务组集合,比如, $D_r \in D$  表示速率为r的业务组集合, $d_{rs} \in D_r$  表示速率为r的源节点标号为s的业务组。划分好业务组之后,就开始初始化距离数组,将速率对应的所有分层图上的源节点距离初始化为0,这是一个三层的 for 循环,第一层遍历速率标号,第二层遍历源节点标号,第三层遍历速率所对应的分层图标号。初始化 Dist 数组后,在发射 kernel 之前需要先新建 |R| 个 GPU 流,不同的流将对不同速率的业务进行计算。round 为扩展的层数标记,开始时 round 初始化为1。while 循环中进行扩展操作,其中  $W_{max}$  为跳数限制,最大跳数不能超过  $W_{max}$ ,一次扩展操作会使得路径长度增加一跳,所以最多只能循环  $W_{max}$  次。while 循环中for 循环用来发射不同的流,因为发射不同流的 kernel 是异步操作,for 循环不会去等待上一个 kernel 结束了才去执行下一个 kernel,所以可以认为所有 kernel 都是同时间发射的。while 循环结束后,算法发射  $kernel\_BFS\_update$  进行前驱节点记录操作,最后根据这些前驱信息,算法重新恢复出路径,组成路径集合 P,算法结束。

```
1: function KERNEL BFS UPDATE(E, Pre, rid)
       bid \leftarrow block ID
       tid \leftarrow thread ID
3:
       将 (bid, tid, rid) 映射到边的标号 eid
4:
       将 (bid, tid, rid) 映射到分层图标号 lid
       e \leftarrow E[lid|[eid]]
       if 边 e 已经被占用了 then
7:
           return
8:
       end if
9:
       将 (bid, tid, rid) 映射到的源点标号 sid
10:
       if Dist[lid][sid][e.head] = Dist[lid][sid][e.tail] + 1 then
11:
           Pre[lid|[sid|[e.head] \leftarrow e.tail]
12:
       end if
14: end function
```

算法 4-3 kernel 函数 kernel BFS update

## 4.5 带权图情况下的 GPU 算法设计

在实际应用场景中,我们可能需要将不同的链路设置为不同的代价,所以有必要考虑链路带权情况下的优化设计,算法优化的目标是使得业务的路由代价最小化,在实际应用中很少出现链路代价小于等于零的情况,所以本节假设链路代价均为正值。本节将逐步分析和设计适用于带权图的分层网络 GPU 并行路由算法。

# 4.5.1 带跳数限制的最短路算法

带跳数约束的 BFS 路由,由于没有考虑链路的权重差异,把所有链路的权重看作一样,所以 BFS 路由的优化目标就是跳数,BFS 就是寻找跳数最短的路径,跳数约束只是使得 BFS 算法提前结束。但是在带权的链路情况下,路由的优化目标是最小化链路代价和,也就是寻找一条代价最小的满足跳数约束的路径,跳数越短并不意味则代价越小,代价越小也不意味着跳数越小,这使得带权情况比无权情况更加复杂。

为了说明带权带跳数约束下的路由算法,我们介绍一些符号,在图 N(V,E) 中,有点  $i \in V$  和点  $j \in V$ ,假设集合  $P_{ijk}$  表示点 i 到点 j 的所有跳数为 k 的路径所组成的集合,设  $p_{ijk}^*$  为集合  $P_{ijk}$  当中代价最小的那一条路径,即  $p_{ijk}^*$  =  $\underset{p \in P_{ijk}}{\min} \{Price\_Of(p)\}$ 。我们设最小代价数组为 Price,Price 为三维数组,其中  $Price[i][j][k] = Price\_Of(p_{ijk}^*)$ ,即 Price[i][j][k] 表示为  $p_{ijk}^*$  的代价,也就是说 Price[i][j][k] 表示 i 到 j 的跳数为 k 跳的最小代价路径的代价。对点 i,边集合  $PreE_i$  表示点 i 的入边组成的集合,点集合  $PreN_i$  表示点 i 的入节点所组成的集合。

有了上面的符号介绍后,假设业务的源节点为s,下面给出一个动态规划递推

```
Require: 业务需求集合 D; 分层图链路集合 E;
Ensure: 业务需求的最短路径集合 P
 1: 将业务根据速率和源节点重新组合成业务分组集合 D
 2: for D_r \in D do
       for d_{rs} \in D_r do
 3:
           for l \in L_r do
 4:
              for v \in V do
 5:
                  if v = s then
                     Dist[l][s][v] \leftarrow 0
 7:
 8:
                  else
                     Dist[l][s][v] \leftarrow \infty
 9:
                  end if
10:
                  Pre[l][s][v] \leftarrow -1
11:
              end for
12:
           end for
13:
14:
       end for
15: end for
16: 新建 |R| 个流,组成集合 S
17: round \leftarrow 1
18: while round \leq W_{max} do
       for r \in R do
19:
           在流 S<sub>r</sub> 上发射 kernel BFS extend(E, Dist,r,round)
20:
21:
       end for
       round \leftarrow ound + 1
22:
23: end while
24: for r \in R do
       在流 S<sub>r</sub> 上发射 kernel BFS update(E, Dist,r,round)
26: end for
27: 根据前驱数组 Pre 重建路径, 然后把路径加入到集合 P
                             算法 4-4 并行 BFS 计算过程
```

式4-1, 其中  $w_{ni}$  表示边 (n,j) 的代价大小:

$$Price[i][j][k] = \begin{cases} \min_{n \in PreN_i} Price[i][n][k-1] + w_{nj} & \text{if } k > 0 \\ 0 & \text{if } k = 0 \text{ and } i = s \end{cases}$$

$$\infty \qquad otherwise$$
(4-1)

设  $p_{ijk}^*$  为点 i 到 j 的跳数为 k 的最小代价路径,由于点 j 的前驱节点只可能是那些属于集合  $PreN_j$  的点,点 j 的前驱边只可能是集合  $PreE_j$  中的某一条边,那么最优路径  $p_{ijk}^*$  中的第 k 条边一定属于集合  $PreE_j$ ,于是递推式中我们遍历了这些边。另外,假设以链路 e (e  $\in$   $PreE_j$ ) 结尾的跳数为 k 的最优路径为  $p_{ijk}^e$ ,那

**Require:** 点的入边集合 PreE: 点的入点集合 PreN: 源节点 s:

Ensure: 最优代价数组 Price; 最优前驱节点数组 Pre;

1: **for**  $k \in [1, W_{max}]$  **do** for  $v \in V$  do

3:

 $\begin{aligned} &Price[s][v][k] = \min_{n \in PreN_v} Price[s][n][k-1] + w_{nv} \\ &Pre[s][v][k] = \arg\min_{n \in PreN_v} Price[s][n][k-1] + w_{nv} \end{aligned}$ 

end for 5:

6: end for

算法 4-5 串行动态规划算法

么根据 Price 的定义我们可以得到  $Price\_Of(p_{ijk}^e) = Price[i][e.head][k-1] + w_e$ ,其 中,e.head 表示边的头结点,也就是点i 的对应于边e 的前驱节点。那么最优路径  $p_{ijk}^* = \arg\min_{e \in PreE_i} Price\_Of(p_{ijk}^e)$ ,相应的最优代价  $Price[i][j][k] = \min_{e \in PreE_i} Price\_Of(p_{ijk}^e)$ , 也就是  $\min_{n \in PreN_i} Price[i][n][k-1] + w_{nj}$ 。注意边界情况下 (k=0),由于除了源节点自 己之外,源节点到其他节点的跳数不可能是零,所以开始时需要设置代价为无穷 大,而源节点到他自己距离设置为0。

上面的动态规划递推式可以求得一个点到任意点的跳数为 1 到 k 的最优路径, 而我们是要求得在跳数限制下的最优代价路径,我们需要对求得的动态规划解进 行处理,设二维数组 OPCost 表示跳数限制下的最优路由代价值,那么跳数限制约 束下的点 i 到点 j 的最小代价路径的代价为 OPCost[i][j],可以得到下面的表达式:

$$OPCost[i][j] = \min_{k \in [1, W_{max}]} Price[i][j][k]$$
(4-2)

假设满足跳限约束的最优代价路径为 $p_{ii}^*$ ,假设路径 $p_{ii}^*$ 的跳数为 $h,h \in [1,W_{max}]$ , 显然  $p_{ii}^* = p_{ijh}$ , 但是实际上我们并不知道 h 的值,所以我们从  $[1, W_{max}]$  对 h 进行遍 历,那么 $p_{ij}^*$ 肯定是其中代价最小的一条,所以 $p_{ij}^* = \arg\min_{k \in [1,W_{max}]} Price\_Of(p_{ijk}^*)$ ,同 样, $OPCost[i][j] = \min_{k \in [1, W_{max}]} Price[i][j][k]$ 。

## 4.5.2 相同速率业务的动态规划算法并行

上一节我们提出了动态规划模型,证明了算法的正确性,本节我们讨论这个 动态规划算法在 GPU 上的并行算法。

单个图上的动态规划的串行算法如算法4-5所示,算法循环  $W_{max}$  次,每一次 循环中对每一个点进行 Price 数组的更新,而不同点之间的操作是相互独立的,所 以,可以进行并行设计,对每一个点开辟一个线程,每个线程遍历当前点的前驱 边,寻找最优的那一条前驱边,并且对 Price 数组进行更新。



图 4-5 同速率业务的动态规划并行示意图

相同速率业务间的动态规划并行层次如图4-5所示,对速率都为r的一批业务,算法并行地在每个分层图上进行路由计算,在各个分层图上,由于源节点相同的业务可以放在一起计算,我们先把业务按照源节点的不同分为一个个的业务组,为每一个业务组开辟 |N| 个线程进行 Price 数组的更新操作,这样总的并行粒度可达到  $|N| \times |D| \times |L_r|$ 。

## 4.5.3 不同速率间业务的并行

和 BFS 一样,对不同速率的业务,本文依然采用不同的流进行并行,其并行过程如图4-6所示。

# 4.5.4 GPU 上的 kernel 设计

动态规划的并行算法中我们只需要一个 kernel (kernel\_dynamic\_update),如算法4-6所示,在 kernel 中,输入 PE 是一个二维的集合数组,比如,PE[2][3] 表示第 2 个分层图上点 3 的入边集合。Price 是预先分配的代价数组,他是一个四维数组,第一维表示当前代价数组对应的分层图标号,第二维度表示源节点,第三维度表示目的节点,第四维度表示路径的跳数,比如 Price[4][3][10][5]=7 表示在第 4 个分层图上,点 3 到点 10 的跳数为 5 的最优路径代价为 7,初始时,当跳数等于 0时,除了源节点代价被初始化为 0 之外,其他的距离都被初始化为无穷大。Pre 数组是前驱数组用以记录前驱信息来恢复路径,Pre 数组和 Price 数组一样,是一个四维数组,Pre[4][3][10][5]=50 表示在第 4 个分层图上,点 3 到点 10 的跳数为 5 的最优路径的前驱节点(也就是路径上的倒数第二个点)为点 50。rid 表示当前 kernel



图 4-6 动态规划流并行示意图

负责计算的业务速率标号,他是区分不同流的标记,rid 不同表示执行 kernel 的流不同。k 表示当前扩展的层数,也就是跳数。算法开始时先进行一系列映射操作,将线程映射到点标号 eid,当前所在分层图标号 lid,以及源节点标号 sid。映射完成后就可以进行 Price 数组的更新了,也就是要去寻找最优的入边,算法遍历点的所有入边。由于动态情况下,边的可用状态可能发生变化,找到边之后,需要判断这条边是否可用,如果不可用则跳过这条边,反之,就判断更新条件是否成立 (Price[lid][sid][nid][k] < Price[lid][sid][e.tail][k-1] + e.weight),如果条件成立则说明这条入边比之前的要好,经过这条边到达当前点的路径代价更小,所以要更新<math>Price 数组,同时为了后面恢复路径,需要记录前驱信息在数组 Pre 中。

算法4-7展示了整个动态规划的计算过程,算法开始时先将业务按照速率的不同进行划分,再将业务按照源节点的不同划分成不同的业务组集合,比如, $D_r \in D$  表示速率为r的业务组集合, $d_{rs} \in D_r$  表示速率为r的源节点标号为s的业务组。划分好业务组之后,就开始初始化代价数组,将速率对应的所有分层图上的跳数为0的源节点代价初始化为0,这是一个三层的 for 循环,第一层遍历速率标号,第二层遍历源节点标号,第三层遍历速率所对应的分层图标号。初始化 Price 数组后,在发射 kernel 之前需要先新建 |R| 个 GPU 流,不同的流将对不同速率的业务进行计算。k 为扩展的跳数标记,开始时 k 初始化为 1。while 循环中进行扩展操作,其中  $W_{max}$  为跳数限制,最大跳数不能超过  $W_{max}$ ,所以最多只能循环  $W_{max}$ 次。while 循环中 for 循环用来发射不同的流,因为发射不同流的 kernel 是异步操作,for 循环不会去等待上一个 kernel 结束了才去执行下一个 kernel,所以可以认为所有 kernel 都是同时发射的。

```
1: function KERNEL DYNAMIC UPDATE(PE,rid,k)
       bid \leftarrow block ID
       tid \leftarrow thread ID
3:
       将 (bid, tid, rid) 映射到边的标号 nid
4:
       将 (bid, tid, rid) 映射到源节点的标号 sid
       将 (bid, tid, rid) 映射到分层图标号 lid
       for e \in PE[lid][nid] do
7:
          if 链路 e 没有被占用 then
8:
              if Price[lid|[sid|[nid|[k] < Price[lid|[sid|[e.tail][k-1] + e.weight then]]
9:
                  Price[lid][sid][nid][k] = Price[lid][sid][e.tail][k-1] + e.weight
10:
                  Pre[lid][sid][nid][k] = e.tail
11:
              end if
12:
           end if
13:
       end for
15: end function
```

算法 4-6 kernel\_dynamic\_update

## 4.6 实验仿真分析

### 4.6.1 对比算法

为了说明 TESAA 对路径代价和网络阻塞率带来的优化效果,我们将 PTE-SAA/STESAA 和不进行路由代价优化的贪心算法进行比较,我们称这个算法为 GRSAA(Greedy Routing and Spectrum Allocation Algorithm),如算法4-8所示。当业务到达时,GRSAA 先在第一层对所有业务求最短路径,为每个业务估计一个路由代价,按照这个路由代价对业务进行升序排序,这是为了优先加入较短的业务。然后,算法逐层去寻找是否能够把业务加入到当前层中,如果能加入到当前层中,那么就更新当前层上的相应链路的占用情况,反之,就在下一层进行搜寻。如果所有层都无法加入这个业务,那么业务就被阻塞,业务被加入到阻塞集合。

# 4.6.2 实验设置

在本文的实验仿真中,网络的节点数为 N=100,平均度数为 6,业务的路径限制  $W_{max}=8$ 。我们假设只存在两种速率的业务,并且已知两种速率的业务的大致比例为 1:3。我们初始时为速率 1 的业务分配 20 层的频谱连续分层网络,为速率 2 的业务分配 60 层的频谱连续的分层网络。我们假设业务的到达服从泊松过程,一共产生了 1000 个到达事件,每两个连续的到达事件之间的时间间隔服从均值为 4 的负指数分布,当到达事件发生时,实验产生速率 1 的业务为  $d_1$  个,产生速率为 2 的业务  $d_2$  个,其中  $d_1$  为  $2 \cdot |N|$  到  $4 \cdot |N|$  中的随机值, $d_2$  为  $6 \cdot |N|$  到  $12 \cdot |N|$  之间的随机值。假设每个业务的服务时间满足均值为 ST 的负指数分布,我们观察各

**Require:** 业务需求集合 D; 各个分层图前驱链路集合 PE; Ensure: 业务需求的最短路径集合 P1: 将业务根据速率和源节点重新组合成业务分组集合 D 2: for  $D_r \in D$  do for  $d_{rs} \in D_r$  do 3: for  $l \in L_r$  do 4: for  $v \in V$  do 5: if v = s then  $Price[l|[s][v][0] \leftarrow 0$ 7: 8: else  $Price[l][s][v][0] \leftarrow \infty$ 9: end if 10: end for 11: end for 12: end for 13: 14: end for 15: 新建 |R| 个流,组成集合 S16:  $k \leftarrow 1$ 17: while  $k \leq W_{max}$  do for  $r \in R$  do 18: 在流 *S<sub>r</sub>* 上发射 kernel\_dynamic\_update(*PE*,*rid*,*k*) 19: end for 20:  $k \leftarrow k + 1$ 21: 22: end while 23: 根据前驱数组 Pre 重建路径, 然后把路径加入到集合 P

算法 4-7 并行动态规划的计算

种算法在不同平均服务时间 ST 下的优化情况。

在本文的实验仿真中,网络实时发生变化,每次业务到达时的网络情况都有很大不同,所以数据的变化幅度较大,另外,我们产生了 1000 次加入事件,加入事件较多,横坐标较窄,这样不利于观察数据的变化趋势。为了方便作图,我们对实验数据进行平滑操作,我们采用取平均值的方法对数据进行平滑操作,我们设置一个窗口值 S=10,假设数据的横坐标为 x,数据值为 f(x),那么平滑后的数据值 f(x) 为  $\frac{f(p)}{S-1}$  。本章中关于时间,路由代价,和路由跳数的仿真实验图都做过平滑操作,只有阻塞率变化图没有做平滑操作。

# 4.6.3 无权图下的仿真结果

#### 4.6.3.1 路由跳数优化结果分析

在无权图中,TESAA 的优化目标是最小化路由的跳数,图4-7到图4-11展示了 无权图下跳数的优化结果,我们把PTESAA 和 STESAA 与贪心算法 GRSAA 进行 **Require:** 业务需求集合 D; 分层图集合 G;

```
Ensure: 业务需求的路径集合 P; 阻塞的需求集合 Z
 1: for r \in R do
     flag \leftarrow 0
2:
     for D_r \in D do
3:
        把 Dr 中的业务按照其在第一层分层图上的最短路径值进行升序排序
4:
        for d \in D_r do
5:
           for g \in G_r do
              if 在分层图 g 上存在业务 d 的合法路径 p then
7:
                 更新分层图g上的链路占用情况
8:
                 把路径p加入到结果路径集合P中
9:
                 flag \leftarrow 1
10:
                 break
11:
              end if
12:
           end for
13:
14:
           if flag = 0 then
              把业务d加入阻塞集合Z中
15:
           end if
16:
17:
        end for
```

算法 4-8 贪心的分层 RSA 算法

比较。图中的横坐标表示业务到达的次数,图中的纵坐标表示业务的平均路由跳数。

当网络状况较好的时候,比如图4-7中,平均服务时间为ST=5时,PTE-SAA/STESAA 计算得到的路由平均跳数为 2.74,而 GRSAA 计算得到的路由平均跳数为 3.71,PTESAA/STESAA 得到的路由平均跳数要比 GRSAA 得到的路由平均跳数少一跳左右。随着平均服务时间ST的增加,PTESAA/STESAA 和 GRSAA 所计算出的路由平均跳数都有所增加,但是 PTESAA/STESAA 的增幅较小,从ST=5时的平均 2.73 增加到ST=40时的平均 2.80,而 GRSAA 的平均路由跳数随着ST的增加而大幅增加,从ST=5时的平均 3.75增加到ST=40时的平均 4.18,可见不管在网络空闲还是网络繁忙的情况下 PTESAA 都能很好地优化业务路由的跳数,减小对网络资源的占用。

#### 4.6.3.2 时间分析

end for

18.

19: end for

图 4-12到图 4-15展示了各个算法在不同平均服务时间 ST 下的计算时间,当 ST = 5 时,我们可以看到通过 GPU 加速的 PTESAA 的计算时间是 STESAA 计算时间的 1/5,而实际上,步骤一的 GPU 加速比可达 6-7 倍,但是由于步骤二的快



图 4-7 无权图路径跳数对比(ST=5)



图 4-8 无权图路径跳数对比(ST=10)



图 4-9 无权图路径跳数对比(ST=20)



图 4-10 无权图路径跳数对比(ST=30)



图 4-11 无权图路径跳数对比(ST=40)

速路由选择算法所占用的时间也不可忽略,而我们没有对这部分算法进行 GPU 加速,这使得总体的加速比下降为 4-5 倍。

图4-12到图4-15显示 GRSAA 的计算时间略高于 PTESAA 的计算时间,可见 PTESAA 不仅可以优化路由跳数,而且在时间上也比 GRSAA 更有优势。

观察图4-12到图4-15,我们发现随着 *ST* 的变化,PTESAA 对 STESAA 的加速比略有下降,这是因为随着网络压力的增加,可用链路变少,使得 STESAA 中步骤一的计算量下降,PTESAA 的加速优势变小。

#### 4.6.3.3 阻塞率分析

图 4-16到图 4-19展示了随着 ST 的增加,PTESAA/STESAA 和 GRSAA 算法的阻塞率变化情况。其中 PTESAA,STESAA 由于是同一种算法,所以其阻塞率几乎一样。当 ST=10 时,我们发现 PTESAA/STESAA 的阻塞次数明显小于GRSAA。当 ST=20 时,PTESAA/STESAA 的阻塞次数和阻塞幅度均小于 GRSAA,在 GRSAA 中出现了一次相对较大的阻塞,但是 PTESAA/STESAA 中没有出现这种不平稳的阻塞率突变。当 ST=30 时,我们发现 PTESAA/STESAA 的阻塞次数和阻塞幅度比 GRSAA 小很多,GRSAA 的平均阻塞率是 PTESAA/STESAA 的 7 倍左右。当 ST=40 时,PTESAA,STESAA 和 GRSAA 的阻塞率都增加很多,但是PTESAA/STESAA 的阻塞情况还是大大优于 GRSAA,可见在网络拥塞的情况下,PTESAA/STESAA 依然能够有效地减小阻塞率。

### 4.6.4 带权图下的仿真结果

#### 4.6.4.1 路由代价优化结果分析

带权图情况下我们把网络中每条链路的权值设置为 1 到 10 之间的随机整数值。图 4-20和图 4-22表示了路由代价的优化结果,我们把 PTESAA 和 STESAA 的优化结果与贪心算法 GRSAA 的结果进行比较,图中的横坐标表示业务到达的次



图 4-12 无权图时间对比(ST=5)



图 4-13 无权图时间对比(ST=10)



图 4-14 无权图时间对比(ST=20)



图 4-15 无权图时间对比(ST=40)



图 4-16 无权图阻塞率对比(ST=10)



图 4-17 无权图阻塞率对比(ST=20)



图 4-18 无权图阻塞率对比(ST=30)



图 4-19 无权图阻塞率对比(ST=40)



图 4-20 带权图路由代价对比(ST=5)



图 4-21 带权图路由代价对比(ST=20)



图 4-22 带权图路由代价对比(ST=40)



图 4-23 带权图时间对比(ST=5)



图 4-24 带权图时间对比(ST=20)



图 4-25 带权图时间对比(ST=40)



图 4-26 带权图阻塞率对比(ST=20)

#### 数,纵坐标表示业务路由的平均代价。

当网络状况较好的时候,比如,平均服务时间为ST = 5时,如图4-20所示,算法 PTESAA/STESAA 得到的平均路由代价大约为 GRSAA 得到的平均路由代价的 3 到 4 分之一,路由代价得到很大优化。

当网络较拥塞时,比如,平均服务时间为 ST = 40 时,如图4-22所示,由于网络中的可用链路变少,业务的路径选择空间变小,使得业务可能会选择代价较大的路径进行路由,所以 PTESAA/STESAA 算法得到的平均路由代价变大,但是 PTESAA/STESAA 的平均路由代价依然比 GRSAA 的平均路由代价小很多。

#### 4.6.4.2 时间分析

图 4-23到图 4-25展示了带权图中各个算法在不同平均服务时间 ST 下的计算时间,当 ST = 5 时,我们可以看到 PTESAA 的计算时间是 STESAA 的计算时间的 1/6,和无权图下 PTESAA 算法的计算一样,带权图下的 PTESAA 计算中步骤一的 GPU 加速比也可达到 7-8 倍,但是由于步骤二的计算时间不可忽略,使得总体加速比降为 5-6 倍。

观察图4-23到图4-25,我们发现带权图下的PTESAA/STESAA的计算时间依然优于GRSAA的计算时间。另外,随着网络拥塞程度的增加,可用链路变少,PTESAA对STESAA的加速比略有下降。

#### 4.6.4.3 阻塞率分析

虽然在带权图中,TESAA 目标是去优化路由代价,而并不是去优化路由跳数,但是路由代价较小也在一定程度上意味着路由的跳数较小。所以在带权图中,



图 4-27 带权图阻塞率对比(ST=30)

PTESAA/STESAA 求得的路径跳数也比较小,使用的链路资源较少,从而也能优化阻塞率。如图4-26和图4-27所示,带权图下的 PTESAA/STESAA 算法的阻塞率依然比 GRSAA 的阻塞率小很多。

# 4.7 本章总结

本章首先讨论了 EON 中的 RSA 问题,介绍了分层图模型,针对分层图模型设计了 TESAA 算法框架,对框架中路由计算部分进行了并行设计,分别在无权图和带权图两种情况下设计了基于 GPU 的并行算法,实验发现 TESAA 能够优化路径跳数,路径代价和阻塞率,同时,并行算法 PTESAA 对串行算法 STESAA 的加速比能达到 5 倍。

# 第五章 全文总结与展望

## 5.1 全文总结

本文主要研究了 SDN 网络下适合于并行计算的业务量工程算法框架,并且针对这些框架,设计基于 GPU 的并行算法。

本文首先简要介绍了 GPU 的并行优化原理,主要包括 GPU 与 CPU 的区别, GPU 的架构特点和 CUDA 编程模式。

第三章在 SDN IP 网络中,本文将业务量工程问题建模成一个带链路容量约束的以路由代价为目标的 MILP 模型,为了解决这个 MILP 模型,本文提出了 GA-PTEA 和 LR-PTEA 两种基于 GPU 的并行算法,并对两种算法的 GPU 并行设计细节进行了讨论。并行算法 GA-PTEA 的加速比虽然可以达到 20 倍以上,但是由于遗传算法收敛缓慢的原因,其时间表现并不理想,另外由于遗传算法容易陷入局部最优解,所以 GA-PTEA 求得的解比较差,但是本文设计的带资源约束的并行遗传算法也可以应用到其他带资源约束情况下的优化问题中。LR-PTEA 能够在短时间内得到业务量工程模型的优化解,说明拉格朗日松弛方法更加适合解决这种资源分配问题,本文设计的对拉格朗日子问题的并行求解方法,可以被应用到其他的以路由代价为目标的优化问题中,如果将优化问题的约束松弛进目标函数后,原优化问题可以被分解为独立的最短路径问题,我们就可以使用本文类似的并行算法来加速这些子问题的求解,这种以路由代价为目标的带资源约束的优化问题,在实际中很常见。

第四章针对 SDN 弹性光网络,本文采用分层图模型将频谱分配问题转化为路由选择问题,并且利用分层图之间的独立特性来设计并行的业务量工程算法PTESAA,利用 GPU 强大的并行计算能力,PTESAA 在不同的分层图上搜索路径,在短时间内为业务的路由选择提供了更大的空间,从而优化了业务的路由代价,节省了网络资源的使用,降低了阻塞率。第四章设计的并行 BFS 算法的并行粒度为 |E|,大大高于文献 |E| 中提出的 BFS 算法的并行粒度 (为 |N|),能够获得更高的加速比。第四章设计的动态规划算法可以在多项式时间复杂度( $W_{max} \times |E|$ )内解决带跳数约束的最短路径问题,能应用到更多的场景当中。

# 5.2 后续工作展望

GPU 并不擅长分支较多的计算, GPU 更加适合加速逻辑简单但计算量很大的任务, 而路由算法中计算操作并不多, 大部分是逻辑计算, 这也是为什么本文中

的路由算法只能获得较小加速比的原因,而且本文中的算法只能在业务数量达到一定规模的情况下才能达到加速效果。本文只利用了 GPU 的并行处理能力,而没有充分利用 GPU 的大规模浮点计算能力,这也是 GPU 应用在路由算法上的限制,所以在今后的工作中可以挖掘更多的计算密集型的任务进行 GPU 加速。

在研究本次毕业设计的过程中,本人除了设计 GA-PTEA, LR-PTEA 和 TESAA 算法之外,还针对弹性光网络分层图上的网络流问题进行了基于 GPU 的并行化研究,本人对预流推进算法进行了并行化的设计并在其中加入跳限约束。但是由于算法逻辑复杂,加速效果并不好,只能在一些特殊情况,比如流很多的情况下才有一定的加速比,所以这部分工作并没有被写进本次设计,后续我将会继续改进这个预流推进算法,希望可以得到好的加速效果。

## 致 谢

首先我要感谢我的导师王雄老师,感谢他给我的一切。早在论文开题前,王老师就为我确定好了研究方向,使得我不再迷茫,在毕业设计的研究当中,我常常会因为自己的粗心大意和不严谨的做法导致错误而陷入困难当中,而王老师总是能够耐心的对我进行指导和鼓舞,使我重新找到自信去克服困难,而在论文的写作当中,王老师细致入微地分析我的论文,给我提出了宝贵的修改意见。王老师不仅仅是我科研上的导师,还是我精神上的导师,每每想起和王老师一起探讨算法时的场景,我就非常激动,是王老师让我感受到了算法的无穷魅力,让我找到了我人生想要追寻的方向!在生命的旅程中,能够遇到王老师是我一生的幸运,受用不尽,铭记在心。

其次,我要感谢我的父母,每当我遇到困难的时候,我的父母都能给我精神上的鼓舞,让我感受到家的温暖,正是因为有家的坚强后盾,我才能更加坚强的去追寻梦想。

我还要感谢我的同窗好友,感谢潘神在科研上和生活上对我的帮助,感谢兴爷的饭菜,感谢伟神的 carry。我还要感谢实习时的同事,感谢老万对我在计算机视觉算法上的指导,感谢博哥对我在日常工作上的指导,感谢华哥对我在 CUDA 编程上的指导。

# 参考文献

- [1] D. Awduche et. al.Overview and Principles of Internet Traffic Engineering[J]. Rfc, 2002, 121(6):239-242.
- [2] OpenFlow Switch Specification, https://www.opennetworking.org/images/stories/downloads/sdn-resources/onf-specifications/openflow/openflow-switch-v1.5.0.noipr.pdf
- [3] N. McKeown, T. Anderson, H. Balakrishnan, G. Parulkar, L. Peterson, J. Rexford, S. Shenker, J. Turner. Openflow: enabling innovation in campus networks [J]. SIGCOMM Computer Communication Review, 2008, 38(2):69-74
- [4] C.Y. Hong, S. Kandula, R. Mahajan, M. Zhang, V. Gill, M. Nanduri, and R. Watten-hofer. Achieving high utilization with software-driven WAN[C]. ACM SIGCOMM 2013 Conference on SIGCOMM. ACM, 2013:15-26.
- [5] S. Jain, A. Kumar, S. Mandal, J. Ong, L. Poutievski, A. Singh, S. Venkata, J. Wanderer, J. Zhou, and M. Zhu et al.B4: experience with a globally-deployed software defined wan[J]. Computer Communication Review, 2013, 43(4):3-14.
- [6] Cisco Visual Networking Index: Forecast and Methodology, 2016C2021,http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visualnetworking-index-vni/complete-white-paper-c11-481360.html
- [7] S. S. Soliman and B. Song.Soliman S S, Song B. Fifth generation (5G)cellular and the network for tomorrow: cognitive and cooperative approach for energy savings[J]. Journal of Network & Computer Applications, 2016, 85.
- [8] C. Guo, L. Yuan, D. Xiang, et al. Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis[C]. ACM Conference on Special Interest Group on Data Communication. ACM, 2015:139-152.
- [9] S. Gay, R. Hartert, and S. Vissicchio. Expect the unexpected: Sub-second optimization for segment routing[C].INFOCOM 2017 IEEE Conference on Computer Communications, IEEE. IEEE, 2017:1-9.
- [10] Nvidia. Programming guide: CUDA toolkit documentation, http://docs.nvidia.com/cuda/cuda\_c\_programming\_guide/index.html#axzz4mVqP2TEC
- [11] Jason Sanders, Edward Kandrot. GPU 高性能之 CUDA 实战 [M], 机械工业出版社,2011.

- [12] N. Wang, K. Ho, G. Pavlou, and M. Howarth. An overview of routing optimization for internet traffic engineering[J]. IEEE Communications Surveys & Tutorials, 2008, 10(1):36-56.
- [13] Y. Lee and B. Mukherjee. Togawa, and H. Nakazato. Traffic engineering in next-generation optical Networks[J]. Communications Surveys & Tutorials IEEE, 2004, 6(3):16-33.
- [14] A. Mendiola, J. Astorga, E. Jacob, and M. Higuero. A Survey on the Contributions of Software-Defined Networking to Traffic Engineering[J]. IEEE Communications Surveys & Tutorials, 2017, 19(2):918-953.
- [15] Y. Wang and Z. Wang. Explicit routing algorithms for Internet traffic engineering[J]. IEEE Icccn, 1999, 8738(5):582-588.
- [16] M. Pioro and D. Medhi.Flow, and Capacity Design in Communication and Computer Networks[M]. Morgan Kaufmann Publishers Inc. 2004.
- [17] S. Agarwal, M. Kodialam, and T. V. Lakshman.Traffic engineering in software defined networks[C].INFOCOM, 2013 Proceedings IEEE. IEEE, 2013:2211-2219.
- [18] B. McCormick, F. Kelly, P. Plante, P. Gunning, and P. Ashwood-Smith.Mccormick B, Plante P, Plante P, et al. Real time alpha-fairness based traffic engineering[C]. The Workshop on Hot Topics in Software Defined NETWORKING. ACM, 2014:199-200.
- [19] J. Rexford.Route Optimization in IP Networks[M].Handbook of Optimization in Telecommunications. Springer US, 2006:679-700.
- [20] A. Elwalid, C. Jin, S. Low, and I. MATE: MPLS adaptive traffic engineering[C].INFOCOM 2001.Twentieth Joint Conference of the IEEE Computer and Communications Societies. Proceedings. IEEE. IEEE, 2002:1300-1309 vol.3.
- [21] J. He, M. Chiang, and J. Rexford. DATE: Distributed Adaptive Traffic Engineering[J]. Proc IEEE Infocomm, 2006.
- [22] A. R. Brodtkorb, T. R. Hagen, C. Schulz, and G. Halse. GPU computing in discrete optimization. Part I: Introduction to the GPU[J]. Euro Journal on Transportation & Logistics, 2013, 2(1-2):129-157.
- [23] K. Rocki and R. Suda. Accelerating 2-opt and 3-opt local search using GPU in the travelling salesman problem. In Proceedings of IEEE/ACM International Conference on High Performance Computing and Simulation (HPCS),2012,489-495.
- [24] C. Schulz. Efficient local search on the GPU-Investigations on the vehicle routing problem[M]. Academic Press, Inc. 2013.

- [25] P. Harish and P. J. Accelerating large graph algorithms on the GPU using CUDA[J]. Lecture Notes in Computer Science, 2008, 4873:197-208.
- [26] Q. N. Tran. Designing efficient many-core parallel algorithms for all-pairs shortest-poaths using CUDA[C]. In Proceedings of International Conference on Information Technology: New Generations, 2010, 7-12.
- [27] S. Rostrup, S. Srivastava, K. Singhal. Fast and memory-efficient minimum spanning tree on the GPU[M]. Inderscience Publishers, 2013.
- [28] K. Kikuta, E. Oki, N. Yamanaka, N. Togawa, and H. Nakazato. Effective Parallel Algorithm for GPGPU-Accelerated Explicit Routing Optimization[C]. IEEE Global Communications Conference. IEEE, 2016:1-6.
- [29] A. Sharma, A. Mishra, V. Kumar, and A. Venkataramani.Beyond MLU: An application-centric comparison of traffic engineering schemes[J]. 2011, 8(1):721-729.
- [30] A. A. M. Saleh and J. M. Simmons. Technology and architecture to enable the explosive growth of the internet[M]. IEEE Press, 2011.
- [31] Spectral grids for WDM applications: DWDM frequencygrid,ITU-T,G.694.1.
- [32] M. Jinno, H. Takara, B. Kozicki, Y. Tsukishima, Y. Sone, and S. Matsuoka. Spectrum-efficient and scalable elastic optical path network: architecture, benefits, and enabling technologies [J]. IEEE Communications Magazine, 2009, 47(11):66-73.
- [33] X. Wan, L. Wang, N. Hua, H. Zhang, and X. Zheng. Dynamic routing and spectrum assignment in flexible optical path networks[C]. Optical Fiber Communication Conference and Exposition. IEEE, 2011:1-3.
- [34] 敖发良, 胡汉武. 全光网静态路由选择和波长分配的分层图算法 [J]. 光通信研究,2003,3
- [35] S. Kandula, D. Katabi, B. Davie, and A. Charny. Kandula S, Katabi D, Davie B, et al. Walking the tightrope:responsive yet stable traffic engineering[C]. Conference on Applications. ACM, 2005:253-264.
- [36] H. Wang, H. Xie, and L. Qiu. COPE: traffic engineering in dynamic networks[C]. Conference on Applications, Technologies, Architectures, and Protocols for Computer Communications. ACM, 2006:99-110.
- [37] B. Fortz and M. Thorup. Internet traffic engineering by optimizing OSPF weights[C].INFOCOM 2000. Nineteenth Joint Conference of the IEEE Computer and Communications Societies. Proceedings. IEEE. IEEE, 2000:519-528.

- [38] D. Xu, M. Chiang, and J. Rexford. Link-State Routing With Hop-by-Hop Forwarding Can Achieve Optimal Traffic Engineering[J]. IEEE/ACM Transactions on Networking, 2011, 19(6):1717-1730.
- [39] Nvidia.Programming guide: CUDA toolkit documentation, http://docs.nvidia.com/cuda/pdf/Thrust\_Quick\_Start\_Guide.pdf.
- [40] D K Smith. Network Flows: Theory, Algorithms, and Applications[J]. Journal of the Operational Research Society, 1994, 45(11):1340-1340.
- [41] IBM ILOG CPLEX Optimization Studio, https://www.ibm.com/bs-en/marketplace/ibm-ilog-cplex.
- [42] P. Erdos and A. Renyi. On the evolution of random graphs[J]. Bulletin of the Institute of International Statistics, 2011, 38(1):257-274.
- [43] R. Albert and A. L. Barabasi.Statistical mechanics of complex networks[J]. Review of Modern Physics, 2002, 74(1):xii.
- [44] N. McKeown.Software-defined networking[J].SIGCOMM Computer Communication Review,2008,38(2):69-74
- [45] Kim H,Feamster N.Improving network management with software defined networking[J].IEEE Communications Magazin,2013,51(2),114-119.
- [46] B. A. Nunes, M. Mendonca, X. Nguyen, K. Obraczka, and T. Turletti. A survey of software-defined networking :past, present, and future of programming networks[J]. IEEE Communications Surveys & Tutorials, 2014, 16(3), 1617-1634.
- [47] R. Masoudi and A. Ghaffari.Software defined networks: a survey[J].Journal of Network and Computer Applications,2016,67,1-25.
- [48] L. Zong, G. N. Liu, A. Lord, Y. R. Zhou and T. Ma. Simmons.40/100/400 Gb/s mixed line rate transmission performance in flexgrid optical networks[C]. Optical Fiber Communication Conference and Exposition and the National Fiber Optic Engineers Conference. IEEE, 2013:1-3.
- [49] T. Wuth, M. W. Chbat, and V. F.kamalov.Multi-rate (100G/40G/10G) Transport Over Deployed Optical Networks[C] Optical Fiber communication/National Fiber Optic Engineers Conference, 2008. OFC/NFOEC 2008. Conference on. IEEE, 2008:1-9.
- [50] H. Zang, J. P. Jue, B. Mukherjee. A Review of Routing and Wavelength Assignment Approaches for Wavelength-Routed Optical WDM Netrowks[J]. Optical Networks Magazine, 2000, 1(3):47– 60.

[51] R. Ramaswami and K. N. Sivarajan.Routing and wavelength assignment in all-optical networks[J]. IEEE/ACM Transactions on Networking, 1995, 3(5):489-500.