# 数据并行 C++, 使用 C++ 和 SYCL 编程加速系统

# 杨丰

| 1 | 介绍  |                       | <b>20</b> |
|---|-----|-----------------------|-----------|
|   | 1.1 | 阅读书籍,而不是标准说明书         | 20        |
|   | 1.2 | SYCL 2020 和 DPC++     | 21        |
|   | 1.3 | 为什么不使用 CUDA?          | 21        |
|   | 1.4 | 为什么使用带有 SYCL 的标准 C++? | 22        |
|   | 1.5 | 获取支持 SYCL 的 C++ 编译器   | 22        |
|   | 1.6 | 你好世界! 和 SYCL 程序剖析     | 23        |
|   | 1.7 | 队列和操作                 | 23        |
|   | 1.8 | 一切都与并行性有关             | 24        |
|   |     | 1.8.1 吞吐量             | 24        |
|   |     | 1.8.2 延迟              | 24        |
|   |     | 1.8.3 并行思维            | 25        |
|   |     | 1.8.4 阿姆达尔和古斯塔夫森      | 25        |
|   |     | 1.8.5 规模效应            | 26        |
|   |     | 1.8.6 异构系统            | 26        |
|   |     | 1.8.7 数据并行编程          | 27        |
|   | 1.9 | 带有 SYCL 的 C++ 的关键属性   | 28        |
|   |     | 1.9.1 单源              | 28        |
|   |     | 1.9.2 主机              | 28        |
|   |     | 1.9.3 设备              | 28        |
|   |     | 1.9.4 内核代码            | 29        |
|   |     | 1.9.5 异步执行            | 29        |

|   |      | 1.9.6 当我们犯错误时的竞争条件             |
|---|------|--------------------------------|
|   |      | 1.9.7 死锁                       |
|   |      | 1.9.8 C++ Lambda 表达式           |
|   |      | 1.9.9 功能可移植性和性能可移植性            |
|   | 1.10 | 并发与并行                          |
|   | 1.11 | 总结                             |
| 2 | 华和   | 执行位置 <b>37</b>                 |
| 4 |      | 单源                             |
|   | 2.1  | 2.1.1 主机代码                     |
|   |      | 2.1.2 设备代码                     |
|   | 2.2  | 选择设备                           |
|   | 2.3  | 方法 #1: 在任何类型的设备上运行             |
|   | ۷.۵  | 2.3.1 队列                       |
|   |      | <b>2.3.2</b> 当任何设备都可以时将队列绑定到设备 |
|   | 2.4  | 方法 #2: 使用 CPU 设备进行开发、调试和部署     |
|   | 2.4  | 方法 #3: 使用 GPU (或其他加速器) 41      |
|   | 2.0  | 2.5.1 加速器装置                    |
|   |      | 2.5.2 设备选择器                    |
|   | 2.6  | 方法 #4: 使用多个设备                  |
|   | 2.7  | 方法 #5: 自定义(非常具体)的设备选择          |
|   | 2.1  | 2.7.1 根据设备方面进行选择               |
|   |      | 2.7.2 通过自定义选择器进行选择             |
|   | 2.8  | 在设备上创建任务                       |
|   | 2.0  | 2.8.1 任务图简介                    |
|   |      | 2.8.2 设备代码在哪里?                 |
|   |      | 2.8.3 行动                       |
|   |      | 2.8.4 主机任务                     |
|   | 2.9  | 概括                             |
|   |      |                                |
| 3 | 数据   |                                |
|   | 3.1  | 介绍                             |
|   |      | 数据管理问题                         |
|   | 3.3  | 木地设备与远程设备 40                   |

|   | 3.4            | 管理多个内存                    | 9  |
|---|----------------|---------------------------|----|
|   |                | 3.4.1 显式数据移动              | 9  |
|   |                | 3.4.2 隐式数据                | C  |
|   |                | 3.4.3 选择正确的策略 5           | C  |
|   | 3.5            | USM、缓冲区和图像                | C  |
|   | 3.6            | 统一共享内存                    | 1  |
|   |                | 3.6.1 通过指针访问内存 5          | 1  |
|   |                | 3.6.2 USM 和数据移动           | 2  |
|   | 3.7            | 缓冲器                       | 2  |
|   |                | 3.7.1 创建缓冲区               | 3  |
|   |                | 3.7.2 访问缓冲区               | 3  |
|   |                | 3.7.3 接入方式 5              | 3  |
|   | 3.8            | 对数据的使用进行排序                | 4  |
|   |                | 3.8.1 有序队列                | 5  |
|   |                | 3.8.2 无序队列                | 5  |
|   | 3.9            | 选择数据管理策略 5                | 7  |
|   | 3.10           | 处理程序类: 关键成员 5             | 8  |
|   | 3.11           | 概括                        | 8  |
|   | <b>-1-1-1-</b> |                           | _  |
| 1 |                | 并行性 6                     |    |
|   | 4.1            | 内核内的并行性                   |    |
|   | 4.2            | 循环与内核                     |    |
|   | 4.3            | 多维内核                      |    |
|   | 4.4            | 语言特性概述                    |    |
|   |                | 4.4.1 将内核与主机代码分离 6        |    |
|   | 4.5            | 不同形式的并行内核                 |    |
|   | 4.6            | 基础数据并行内核 6                |    |
|   |                | 4.6.1 了解基本数据并行内核 6        |    |
|   |                | 4.6.2 编写基本数据并行内核          |    |
|   |                | 4.6.3 基本数据并行内核的详细信息 6     |    |
|   | 4.7            | 显式 ND 范围内核                |    |
|   |                | 4.7.1 了解显式 ND 范围并行内核 6    |    |
|   |                | 4.7.2 编写显式 ND 范围数据并行内核 6  |    |
|   |                | 473 显式 ND 范围数据并行内核的详细信自 7 | 'n |

|   | 4.8  | 将计算映射到工作项          |
|---|------|--------------------|
|   |      | 4.8.1 一对一映射        |
|   |      | 4.8.2 多对一映射 72     |
|   | 4.9  | 选择内核形式             |
|   | 4.10 | 概括                 |
| 5 | 错误   | 处理 75              |
|   | 5.1  | 安全第一               |
|   | 5.2  | 错误类型75             |
|   | 5.3  | 让我们创建一些错误!         |
|   |      | 5.3.1 同步错误         |
|   |      | 5.3.2 异步错误         |
|   | 5.4  | 应用程序错误处理策略         |
|   |      | 5.4.1 忽略错误处理       |
|   |      | 5.4.2 同步错误处理       |
|   |      | 5.4.3 异步错误处理       |
|   |      | 5.4.4 异步处理程序       |
|   |      | 5.4.5 处理程序的调用 79   |
|   | 5.5  | 设备上的错误             |
|   | 5.6  | 概括                 |
| 6 | 统一   | 共享内存 82            |
|   | 6.1  | 为什么要使用 USM? 82     |
|   | 6.2  | 分配类型 82            |
|   |      | 6.2.1 设备分配 82      |
|   |      | 6.2.2 主机分配 85      |
|   |      | 6.2.3 共享分配         |
|   | 6.3  | 分配内存               |
|   |      | 6.3.1 我们需要知道什么? 84 |
|   |      | 6.3.2 多种风格         |
|   |      | 6.3.3 释放内存 86      |
|   |      | 6.3.4 分配示例 86      |
|   | 6.4  | 数据管理 87            |
|   |      | 641 初始化 87         |

|   |     | 6.4.2 数据移动 87              |
|---|-----|----------------------------|
|   | 6.5 | 查询                         |
|   | 6.6 | 还有一件事                      |
|   | 6.7 | 概括                         |
| 7 | Buf | fers 92                    |
|   | 7.1 | 缓冲器                        |
|   |     | 7.1.1 缓冲区创建 93             |
|   |     | 7.1.2 Buffer 特性            |
|   |     | 7.1.3 我们可以用缓冲区做什么? 96      |
|   | 7.2 | 访问器                        |
|   |     | 7.2.1 访问器创建                |
|   |     | 7.2.2 我们可以用访问器做什么?         |
|   | 7.3 | 概括                         |
| 8 | 调度  | 内核和数据移动 102                |
|   | 8.1 | 什么是图调度?102                 |
|   | 8.2 | SYCL 中的图表如何工作              |
|   |     | 8.2.1 命令组行动                |
|   |     | 8.2.2 命令组如何声明依赖关系          |
|   |     | 8.2.3 例子                   |
|   |     | 8.2.4 命令组的各个部分何时执行? 106    |
|   | 8.3 | 数据移动                       |
|   |     | 8.3.1 显式数据移动               |
|   |     | 8.3.2 隐式数据移动               |
|   | 8.4 | 与主机同步108                   |
|   | 8.5 | 概括                         |
| 9 | 通讯  | .与同步 111                   |
|   | 9.1 | 工作组和工作项                    |
|   | 9.2 | 高效通讯的基石                    |
|   |     | 9.2.1 通过屏障 (Barriers) 进行同步 |
|   |     | 9.2.2 工作组本地内存112           |
|   | 9.3 | 使用工作组屏障 (Barriers) 和本地内存   |

|    |      | 9.3.1 ND 范围内核中的工作组障碍和本地内存 11 | 4 |
|----|------|------------------------------|---|
|    | 9.4  | 子组                           | 5 |
|    |      | 9.4.1 通过子组障碍进行同步             | 6 |
|    |      | 9.4.2 在子组内交换数据               | 6 |
|    |      | 9.4.3 完整子组 ND 范围内核示例         | 7 |
|    | 9.5  | 组函数和组算法                      | 7 |
|    |      | 9.5.1 广播 Broadcast           | 7 |
|    |      | 9.5.2 投票 Votes               | 7 |
|    |      | 9.5.3 随机播放 Shuffles          | 8 |
|    | 9.6  | 概括                           | 8 |
| 10 | 定义   | 内核 120                       | 0 |
|    | 10.1 | 为什么用三种方式来表示内核?12             | 0 |
|    | 10.2 | 作为 Lambda 表达式的内核             | 0 |
|    |      | 10.2.1 内核 Lambda 表达式的元素      | 0 |
|    |      | 10.2.2 识别内核 Lambda 表达式       | 2 |
|    | 10.3 | 内核作为命名函数对象                   | 2 |
|    |      | 10.3.1 内核命名函数对象的元素           | 2 |
|    | 10.4 | 内核包中的内核                      | 3 |
|    | 10.5 | 与其他 API 的互操作性                | 5 |
|    | 10.6 | 概括                           | 5 |
| 11 | 向量   | 和数学数组 120                    | 6 |
|    | 11.1 | 向量类型的歧义12                    | 6 |
|    | 11.2 | 我们对于 SYCL 向量类型的心智模型          | 7 |
|    | 11.3 | 数学数组 (marray)                | 7 |
|    | 11.4 | 矢量 (vec)12                   | 8 |
|    |      | 11.4.1 加载和存储                 | 8 |
|    |      | 11.4.2 与后端本机向量类型的互操作性12      | 9 |
|    |      | 11.4.3 Swizzle 操作            | 9 |
|    | 11.5 | 向量类型如何执行13                   | 0 |
|    |      | 11.5.1 向量作为便利类型13            | 1 |
|    |      | 11.5.2 作为 SIMD 类型的向量         | 3 |
|    | 11.6 | 概括                           | 3 |

| <b>12</b> | 设备    | 信息和内核特化 135                        |
|-----------|-------|------------------------------------|
|           | 12.1  | 是否有 GPU?                           |
|           | 12.2  | 细化内核代码使其更加规范136                    |
|           | 12.3  | 如何枚举设备和功能                          |
|           |       | 12.3.1 方面                          |
|           |       | 12.3.2 自定义设备选择器138                 |
|           |       | 12.3.3 好奇: get_info<>              |
|           |       | 12.3.4 更好奇: 详细的枚举代码                |
|           |       | 12.3.5 非常好奇: get_info 加上 has() 139 |
|           | 12.4  | 设备信息描述符139                         |
|           | 12.5  | 设备特定的内核信息描述符139                    |
|           | 12.6  | 细节: "正确性"的细节139                    |
|           |       | 12.6.1 设备查询139                     |
|           |       | 12.6.2 内核查询140                     |
|           | 12.7  | 具体内容:"调整/优化"的具体内容140               |
|           |       | 12.7.1 设备查询141                     |
|           |       | 12.7.2 内核查询141                     |
|           | 12.8  | 运行时与编译时属性                          |
|           | 12.9  | 内核专业化                              |
|           | 12.10 | )概括142                             |
| 19        | 实用    | 技巧 143                             |
| 19        |       | 获取代码示例和编译器                         |
|           |       | 在线资源                               |
|           |       | 平台模型                               |
|           | 10.0  | 13.3.1 多架构二进制文件                    |
|           |       | 13.3.2 编译模型                        |
|           | 12 /  | 上下文: 需要了解的重要事项                     |
|           |       | 将 SYCL 添加到现有 C++ 程序                |
|           |       | 使用多个编译器时的注意事项                      |
|           |       | 週試                                 |
|           | 10.7  | 13.7.1 调试死锁和其他同步问题                 |
|           |       | 13.7.2 调试内核代码                      |
|           |       | 13.7.3 调试运行时故障                     |
|           |       |                                    |

|           |       | 13.7.4 | 队列分   | <b>分析</b> 和 | 由此   | 产生 | 上的        | 计 | 时具 | 力能 | 2 |      |       |  |  | . 1 | 50 |
|-----------|-------|--------|-------|-------------|------|----|-----------|---|----|----|---|------|-------|--|--|-----|----|
|           |       | 13.7.5 | 跟踪和   | 口分析         | 丁具   | 接口 | ╡.        |   |    |    |   |      | <br>• |  |  | . 1 | 51 |
|           | 13.8  | 初始化    | 数据并   | 访问          | 内核   | 输出 |           |   |    |    |   |      |       |  |  | . 1 | 52 |
|           | 13.9  | 多个翻    | 译单元   | <u>.</u>    |      |    |           |   |    |    |   |      |       |  |  | . 1 | 54 |
|           |       | 13.9.1 | 多个番   | 羽译单         | 元的   | 性負 | <b></b> 影 | 响 |    |    |   |      |       |  |  | . 1 | 54 |
|           | 13.10 | ) 当匿名  | 占 Lam | bda f       | 需要   | 名称 | 时         |   |    |    |   |      |       |  |  | . 1 | 55 |
|           | 13.11 | 概括     |       |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 55 |
| 14        | 常见    | 的并行    | 模式    |             |      |    |           |   |    |    |   |      |       |  |  | 1   | 56 |
|           |       | 理解模    |       |             |      |    |           |   |    |    |   | <br> |       |  |  | . 1 | 56 |
|           |       | 14.1.1 | •     |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 14.1.2 | 模版    |             |      |    |           |   |    |    |   | <br> |       |  |  | . 1 | 57 |
|           |       | 14.1.3 | 归约    |             |      |    |           |   |    |    |   | <br> |       |  |  | . 1 | 58 |
|           |       | 14.1.4 | 扫描    |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 58 |
|           |       | 14.1.5 | 打包秆   | 口拆包         | J    |    |           |   |    |    |   |      |       |  |  | . 1 | 59 |
|           | 14.2  | 使用内    | 置函数   | 和库          |      |    |           |   |    |    |   |      |       |  |  | . 1 | 59 |
|           |       | 14.2.1 | SYCL  | 归约          | 」库 . |    |           |   |    |    |   |      |       |  |  | . 1 | 59 |
|           |       | 14.2.2 | 群组算   | 拿法          |      |    |           |   |    |    |   |      |       |  |  | . 1 | 62 |
|           | 14.3  | 直接编    | 程 .   |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 63 |
|           |       | 14.3.1 | 映射    |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 63 |
|           |       | 14.3.2 | 模版    |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 63 |
|           |       | 14.3.3 | 归约    |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 63 |
|           |       | 14.3.4 |       |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 14.3.5 | 打包和   | 口拆包         | Į.,  |    |           |   |    |    |   |      |       |  |  | . 1 | 64 |
|           | 14.4  | 概括 .   |       |             |      |    |           |   |    |    |   |      |       |  |  | . 1 | 65 |
|           |       | 14.4.1 | 了解則   | 更多信         | 憩.   |    |           | • |    |    | • |      |       |  |  | . 1 | 65 |
| <b>15</b> | GPI   | U 编程   |       |             |      |    |           |   |    |    |   |      |       |  |  | 10  | 67 |
|           |       | 性能注    |       | į           |      |    |           |   |    |    |   | <br> |       |  |  | . 1 | 67 |
|           |       | GPU É  |       |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 15.2.1 | •     |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 15.2.2 |       |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 15.2.3 |       |             |      |    |           |   |    |    |   |      |       |  |  |     |    |
|           |       | 15.2.4 | 切换了   | 「作じ         | 人隐藏  | 延力 | ₹.        |   |    |    |   | <br> |       |  |  | . 1 | 71 |

|    | 15.3 | 将内核卸载到 GPU                        |
|----|------|-----------------------------------|
|    |      | 15.3.1 SYCL 运行时库172               |
|    |      | 15.3.2 GPU 软件驱动程序172              |
|    |      | 15.3.3 GPU 硬件                     |
|    |      | 15.3.4 当心卸载成本!                    |
|    | 15.4 | GPU 内核最佳实践                        |
|    |      | 15.4.1 访问全局内存                     |
|    |      | 15.4.2 访问工作组本地内存                  |
|    |      | 15.4.3 通过子组完全避免本地内存 176           |
|    |      | 15.4.4 使用小数据类型优化计算                |
|    |      | 15.4.5 优化数学函数                     |
|    |      | 15.4.6 特化功能和扩展178                 |
|    | 15.5 | 概括                                |
|    |      | 15.5.1 了解更多信息                     |
| 16 | CPU  | J 编程 180                          |
|    | 16.1 | 性能注意事项                            |
|    |      | 多核 CPU 的基础知识                      |
|    | 16.3 | SIMD 硬件基础知识                       |
|    | 16.4 | 利用线程级并行性                          |
|    |      | 16.4.1 线程亲和力洞察184                 |
|    |      | 16.4.2 注意第一次接触内存                  |
|    | 16.5 | CPU 上的 SIMD 矢量化                   |
|    |      | 16.5.1 确保 SIMD 执行合法性              |
|    |      | 16.5.2 SIMD 掩蔽和成本                 |
|    |      | 16.5.3 避免结构数组以提高 SIMD 效率 189      |
|    |      | 16.5.4 数据类型对 SIMD 效率的影响           |
|    |      | 16.5.5 使用 single_task 执行 SIMD 190 |
|    | 16.6 | 概括                                |
| 17 | FPC  | GA 编程 192                         |
| -• |      | 性能注意事项                            |
|    |      | 如何看待 FPGA                         |
|    | 11.2 | 17.2.1 管道并行性                      |
|    |      | -··-·- 山心://   /                  |

|    |      | 17.2.2 内核消耗芯片"区域"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|----|------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|    | 17.3 | 何时使用 FPGA                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
|    |      | 17.3.1 很多很多的工作193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|    |      | 17.3.2 自定义操作或操作宽度                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|    |      | 17.3.3 标量数据流                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
|    |      | 17.3.4 低延迟和丰富的连接性193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
|    |      | 17.3.5 定制内存系统                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |
|    | 17.4 | 在 FPGA 上运行                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
|    |      | 17.4.1 编译时间193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
|    |      | 17.4.2 FPGA 仿真器                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|    |      | 17.4.3 FPGA 硬件编译"提前"进行 193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
|    | 17.5 | 为 FPGA 编写内核                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
|    |      | 17.5.1 暴露并行性                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
|    |      | 17.5.2 使用 ND 范围保持管道繁忙 193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
|    |      | 17.5.3 管道不介意数据依赖性!193                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
|    |      | 17.5.4 循环的空间管道实现                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|    |      | 17.5.5 循环启动间隔                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |
|    |      | 17.5.6 管道                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
|    |      | 17.5.7 定制内存系统                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |
|    | 17.6 | 一些结束语                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
|    |      | 17.6.1 FPGA 构建模块                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|    |      | 17.6.2 时钟频率                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
|    | 17.7 | 概括                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
| 18 | 床    | 195                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 10 |      | 内置功能                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
|    | 10.1 | 18.1.1 使用带有内置函数的 sycl:: 前缀                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
|    | 18 2 | C++ 标准库                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
|    |      | oneAPI DPC++ 库 (oneDPL)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
|    | 10.5 | 18.3.1 SYCL 执行政策                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |
|    |      | 18.3.2 将 oneDPL 与缓冲区结合使用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
|    |      | 18.3.3 将 oneDPL 与 USM 结合使用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
|    |      | 18.3.4 使用 SYCL 执行策略进行错误处理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
|    | 18 / | #IF 900 10.5.4 使用 510.5.4 使用 510 |

| 19 | 内存   | 模型和    | 原子      |       |          |     |   |   |   |   |  |  |  |  |  | 202 |
|----|------|--------|---------|-------|----------|-----|---|---|---|---|--|--|--|--|--|-----|
|    | 19.1 | 内存模    | 型中有什么   | 么? .  |          |     |   |   |   |   |  |  |  |  |  | 203 |
|    |      | 19.1.1 | 数据竞争    | 和同步   | ٠.       |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.1.2 | 障碍和栅    | 栏     |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.1.3 | 原子操作    |       |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.1.4 | 内存排序    |       |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    | 19.2 | 内存模    | 型       |       |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.1 | memory_ | order | 枚ź       | 类   |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.2 | memory_ | scope | 枚        | 举类  |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.3 | 查询设备    | 能力.   |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.4 | 障碍和栅    | 栏     |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.5 | SYCL 中  | 的原子   | 操作       | 乍.  |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.6 | 将原子与    | 缓冲区   | <u>_</u> | 起使  | 用 |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.2.7 | 将原子与:   | 统一共   | 享[       | 内存  | 结 | 合 | 使 | 用 |  |  |  |  |  | 204 |
|    | 19.3 | 在现实    | 生活中使用   | 用原子   |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.3.1 | 计算直方    | 图     |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.3.2 | 实现设备    | 范围的   | 同        | 步 . |   |   |   |   |  |  |  |  |  | 204 |
|    | 19.4 | 概括 .   |         |       |          |     |   |   |   |   |  |  |  |  |  | 204 |
|    |      | 19.4.1 | 了解更多    | 信息 .  |          |     |   |   |   |   |  |  |  |  |  | 204 |

# 序言

如果您是并行编程的新手,那也没关系。如果您从未听说过 SYCL 或 DPC++ 编译器,那也没关系

与 CUDA 中的编程相比,使用 SYCL 的 C++ 提供了超越 NVIDIA 的可移植性和超越 GPU 的可移植性,并且随着现代 C++ 的发展而紧密结合以增强它。带有 SYCL 的 C++ 在不牺牲性能的情况下提供了这些优势。

带有 SYCL 的 C++ 使我们能够利用 CPU、GPU、FPGA 和未来处理 设备的组合功能来加速我们的应用程序,而无需依赖任何一家供应商。

SYCL 是行业驱动的 Khronos Group 标准,通过 C++ 添加了对数据并行性的高级支持,以利用加速(异构)系统。SYCL 为 C++ 编译器提供了与 C++ 和 C++ 构建系统高度协同的机制。DPC++ 是一个基于 LLVM的开源编译器项目,添加了 SYCL 支持。本书中的所有示例都应适用于任何支持 SYCL 2020的 C++ 编译器,包括 DPC++ 编译器。

如果您是一位不太精通 C++ 的 C 程序员,那么您有一个很好的伙伴。本书的几位作者很高兴地分享说,他们通过阅读像本书这样使用 C++ 的书籍,学到了很多 C++ 知识。只要有一点耐心,想要编写现代 C++ 程序的 C 程序员也应该可以理解这本书。

## 第二版

得益于不断增长的 SYCL 用户社区的反馈,我们能够添加内容来帮助 比以往更好地学习 SYCL。

此版本使用 SYCL 2020 教授 C++。第一版早于 SYCL 2020 规范,与第一版所教授的内容仅略有不同(此版本中 SYCL 2020 最明显的变化是头文件位置、设备选择器语法和删除显式主机设备)。

注 1 有关更新的 sYCl 信息(包括任何已知书籍勘误表)的重要资源,包括书籍 Github (https://github.com/Apress/data-parallel-CPP)、Khronos Group sYCl 标准网站 (www.khronos.org/sycl) , 以及一个重要的 sycl 教育网站 (https://sycl.tech)。

第 20 章和第 21 章是受本书第一版读者鼓励而添加的内容。

我们添加了第 20 章来讨论后端互操作性。SYCL 2020 标准的主要目标 之一是为具有多种架构的众多供应商的硬件提供广泛支持。这需要扩展到 SYCL 1.2.1 的仅 OpenCL 后端支持之外。虽然一般来说"它确实有效",但 第 20 章为那些认为在这个级别上理解和交互很有价值的人更详细地解释了 这一点。

对于经验丰富的 CUDA 程序员,我们添加了第 21 章,以在方法和词汇方面将带有 SYCL 概念的 C++ 与 CUDA 概念明确连接起来。虽然表达异构并行性的核心问题在本质上是相似的,但带有 SYCL 的 C++ 由于其多供应商和多架构方法而提供了许多好处。第 21 章是我们唯一提到CUDA 术语的地方;本书的其余部分教授如何使用 C++ 和 SYCL 术语及其开放的多供应商、多架构方法。在第 21 章中,我们强烈建议查看开源工具"SYCLomatic"(github.com/oneapi-src/SYCLomatic),它有助于自动迁移 CUDA 代码。因为它很有帮助,所以我们建议将其作为迁移代码的首选第一步。使用带有 SYCL 的 C++ 的开发人员报告称,在从 CUDA 移植的代码和带有 SYCL 的原始 C++ 代码上,在 NVIDIA、AMD 和 Intel GPU上都取得了出色的结果。使用 SYCL 生成的 C++ 提供了 NVIDIA CUDA 无法实现的可移植性。

C++、SYCL 和编译器(包括 DPC++)的发展仍在继续。在我们一起学习如何使用 C++ 和 SYCL 为异构系统创建程序之后,尾声中讨论了对未来的展望。

我们希望本书能够支持和帮助 SYCL 社区的发展,并帮助促进使用 SYCL 进行 C++ 数据并行编程。

## 本书的结构

本书带领我们踏上一段旅程,了解如何使用 C++ 和 SYCL 成为一名 高效的加速/异构系统程序员。

# 第 1-4 章: 奠定基础

当第一次使用 SYCL 接触 C++ 时,按顺序阅读第 1-4 章非常重要。

第一章通过涵盖新的或值得我们刷新的核心概念奠定了第一个基础。

第 2-4 章为理解使用 SYCL 进行 C++ 数据并行编程奠定了基础。当 我们读完第 1-4 章时,我们将为 C++ 数据并行编程打下坚实的基础。第 1章至第 4 章相互关联,最好按顺序阅读。

## 第 5-12 章: 构建基础

随着基础的建立,第5章至第12章通过在一定程度上相互借鉴来填补重要的细节,同时可以根据需要轻松地在之间跳转。所有这些章节对于所有使用SYCL的C++用户都应该有价值。

## 第 13-21 章: SYCL 实践提示/建议

最后几章提供了针对特定需求的建议和详细信息。我们鼓励至少浏览所有内容以找到对您的需求重要的内容。

## 结语: 对未来的推测

本书最后的尾声讨论了使用 SYCL 的 C++ 以及 SYCL 的数据并行 C++ 编译器可能和潜在的未来方向。

我们祝您在学习通过 SYCL 使用 C++ 时一切顺利。

# 前言

SYCL 2020 是并行计算领域的一个里程碑。我们第一次拥有了一个现代、稳定、功能齐全、可移植的开放标准,可以针对所有类型的硬件,而您手中的这本书是学习 SYCL 2020 的首要资源。

计算机硬件的发展是由我们解决更大、更复杂问题的需求驱动的,但是,除非像你我这样的程序员拥有允许我们实现我们的想法并通过合理的努力利用可用能力的语言,否则这些硬件进步在很大程度上是无用的。有许多令人惊叹的硬件的例子,并且第一个使用它们的解决方案通常是专有的,因为它可以节省时间,而不必费心与委员会就标准达成一致。然而,在计算的历史上,它们最终总是被供应商锁定——无法与允许开发人员瞄准任何硬件并共享代码的开放标准竞争——因为最终全球社区和生态系统的资源要大得多比任何单个供应商都高,更不用说开放软件标准如何推动硬件竞争了。

在过去的几年里,我的团队非常荣幸地通过开发 GROMACS(世界上使用最广泛的科学 HPC 代码之一)为塑造新兴的 SYCL 生态系统做出了贡献。我们需要我们的代码在世界上每台超级计算机以及我们的笔记本电脑上运行。虽然我们不能承受性能损失,但我们也依赖于成为更大社区的一部分,其他团队在我们依赖的库上投入精力,那里有可用的开放编译器,以及我们可以招募人才的地方。自本书第一版以来,SYCL 已发展成为这样一个社区;除了几个供应商提供的编译器之外,我们现在还有一个针对所有硬件的主要社区驱动的实现 1,并且全球有数千名开发人员分享经验、为培训活动做出贡献并参与论坛。开源的杰出力量——无论是应用程序、编译器还是开放标准——是我们可以深入了解、学习、借用和扩展。正如我们反复从Intel 主导的 LIVM 实现中的代码、海德堡大学社区驱动的实现以及其他几个代码中学习一样,您可以使用我们的公共存储库 3 来比较大型生产代码库中的 CUDA 和 SYCL 实现,或者借用满足您需求的解决方案 - 因为当您这样做时,您正在帮助进一步扩展我们的社区。

也许令人惊讶的是,数据并行编程作为一种范式可以说比消息传递通信或显式多线程等经典解决方案容易得多,但它对我们这些在专注于硬件和显式的旧范式中花费了数十年时间的人提出了特殊的挑战。数据放置。在小规模上,我们明确决定如何在少数进程之间移动数据是微不足道的,但随着问题扩展到数千个单元,在不引入错误或让硬件闲置的情况下管理复杂性就变成了一场噩梦等待数据。使用 SYCL 进行数据并行编程通过取得平衡来解决这个问题,主要要求我们显式地表达算法的固有并行性,但是一旦

16

我们做到了这一点,编译器和驱动程序将主要处理数以万计的数据局部性和调度。功能单位。为了在数据并行编程中取得成功,重要的是不要将计算机视为执行一个程序的单个单元,而是将其视为独立工作以解决大问题的各个部分的单元的集合。只要我们可以将我们的问题表达为一种算法,其中每个部分不依赖于其他部分,理论上实现它就很简单,例如,作为通过设备队列在 GPU 上执行的并行 for 循环。然而,对于更实际的示例,我们的问题通常不足以有效地使用整个设备,或者我们依赖于每秒执行数万次迭代,其中设备驱动程序的延迟开始成为主要瓶颈。虽然本书是对高性能便携式GPU 编程的出色介绍,但它远远超出了这一点,它展示了吞吐量和延迟对于实际应用程序的重要性,以及如何使用 SYCL 来开发 CPU、GPU、SIMD单元的独特功能和 FPGA,但它也涵盖了一些注意事项,即为了获得良好的性能,我们需要了解并可能使代码适应每种类型硬件的特性。这样做,它不仅是关于数据并行编程的精彩教程,而且是任何对现代计算机硬件编程感兴趣的人都应该阅读的权威文本。

SYCL 的主要优势之一是与现代 C++ 的紧密结合。乍一看,这似乎令人望而生畏。C++ 不是一门容易完全掌握的语言(我当然还没有),但是 Reinders 和合著者牵着我们的手,带领我们走上了一条道路,我们只需要学习一些 C++ 概念就可以开始并在实际数据中发挥生产力 - 并行编程。然而,随着我们经验的积累,SYCL 2020 允许我们将其与 C++17 的极端通用性结合起来,编写可以动态针对不同设备的代码,或者依赖使用 CPU、GPU 和网络单元的异构并行性并行执行不同的任务。SYCL 并不是一个用于启用加速器的单独的固定解决方案,而是有望成为我们在 C++ 中表达数据并行性的通用方式。SYCL 2020 标准现在包含一些以前仅作为供应商扩展提供的功能,例如统一共享内存、子组、原子操作、归约、更简单的访问器以及许多其他概念,这些概念使代码更清晰,并促进开发和开发从标准 C++17 或 CUDA 移植,让您的代码面向更多样化的硬件。本书对所有这些内容进行了精彩且易于理解的介绍,您还将了解到 SYCL 将如何随着 C++的快速发展而发展。

这在理论上听起来不错,但 SYCL 在实践中的可移植性如何? 我们的应用程序是一个代码库的示例,它的优化非常具有挑战性,因为数据访问模式是随机的,每个步骤中要处理的数据量是有限的,我们需要实现每秒数千次迭代,并且我们都受到内存的限制带宽、浮点和整数运算——它与简单的数据并行问题截然相反。我们花了二十多年的时间为多种 GPU 架构编写汇

编 SIMD 指令和本机实现,我们第一次接触 SYCL 时遇到了适应差异和向驱动程序和编译器开发人员报告性能回归的痛苦。然而,截至 2023 年春季,我们的 SYCL 内核不仅可以通过单个代码库,甚至可以通过单个预编译的二进制文件在所有 GPU 架构上实现 80-100% 的本机性能。

SYCL 还很年轻,并且拥有快速发展的生态系统。虽然还有一些东西尚未成为该语言的一部分,但 SYCL 是独一无二的,它是唯一可成功针对所有现代硬件的性能可移植标准。无论您是想要学习并行编程的初学者、对数据并行编程感兴趣的经验丰富的开发人员,还是需要将 100,000 行专有 API 代码移植到开放标准的维护者,这第二版都是您需要成为的唯一一本书这个社区的一部分。

# 致谢

我们很幸运地得到了社区对本书第二版的大量意见。许多灵感来自于与开发人员在生产、课程、教程、研讨会、会议和黑客马拉松中使用 SYCL 时的互动。特别是包含 NVIDIA 硬件的 SYCL 部署帮助我们增强了第二版 SYCL 教学的包容性和实用技巧。

SYCL 社区已经发展壮大,由实现编译器和工具的工程师以及更多采用 SYCL 来针对多种类型和供应商的硬件的用户组成。我们感谢他们的辛勤工作和分享的见解。

我们感谢 Khronos SYCL 工作组辛勤工作,制定了功能强大的规范。特别值得一提的是,Ronan Keryell 一直是 SYCL 规范的编辑者,也是 SYCL 的长期倡导者。

我们感谢无数以各种方式从 SYCL 社区向我们提供反馈的人们。我们还深深感谢几年前为第一版提供帮助的人们,我们在第一版致谢中提到了其中许多人的名字。

第一版通过 GitHub 收到了反馈,1 我们确实对其进行了审核,但我们并不总是及时予以确认(想象一下六位合著者都在想"你这样做了,对吗?")。我们确实从这些反馈中受益匪浅,并且我们相信我们已经解决了本版本示例和文本中的所有反馈。Jay Norwood 是在评论和帮助我们方面最多产的人——所有作者都非常感谢 Jay! 其他反馈贡献者包括 Oscar Barenys、Marcel Breyer、Jeff Donner、Laurence Field、Michael Firth、Piotr Fusik、Vincent Mierlak 和 Jason Mooneyham。无论我们是否记得您的名字,我们都感谢所有提供反馈并帮助我们通过 SYCL 完善 C++ 教学的人。

对于这一版本,一些志愿者不知疲倦地阅读了手稿并提供了富有洞察力的反馈,对此我们深表感谢。这些审稿人包括 Aharon Abramson、Thomas Applencourt、Rod Burns、Joe Curley、Jessica Davies、Henry Gabb、Zheming Jin、Rakshith Krishnappa、Praveen Kundurthy、Tim Lewis、Eric Lindahl、Gregory Lueck、Tony Mongkolsmai、Ruyman Reyes Castro、Andrew Richards、Sanjiv 沙阿、尼尔·特雷维特和格奥尔格·维赫弗。

我们都享受家人和朋友的支持,我们对他们感激不尽。作为合著者,我们很享受作为一个团队工作,互相挑战并一起学习。我们感谢与整个 Apress 团队的合作,出版了这本书。

我们确信,有很多人对本书项目产生了积极的影响,但我们没有明确提及。我们感谢所有帮助过我们的人。

当您阅读第二版时,如果您发现任何改进方法,请提供反馈。通过 GitHub 提供的反馈可以打开对话,我们将根据需要更新在线勘误表和书 籍示例。

谢谢大家,我们希望您发现这本书对您的努力非常有价值。

无可否认,我们已经进入了加速计算的时代。为了满足世界对更多计算的永不满足的需求,与早期解决方案相比,加速计算通过提供更高的性能和 更高的能效来驱动复杂的模拟、人工智能等。

被誉为"计算机架构的新黄金时代"1,我们面临着计算设备丰富多样性带来的巨大机遇。我们需要不依赖于任何单一供应商或架构的便携式软件开发能力,以便充分发挥加速计算的潜力。

SYCL (发音为 sickle) 是行业驱动的 Khronos Group 标准,通过 C++添加了对数据并行性的高级支持,以支持加速 (异构) 系统。SYCL 为 C++编译器提供了利用加速 (异构) 系统的机制,与现代 C++和 C++构建系统高度协同。SYCL 不是缩写词; SYCL 只是一个名称。

注 2 (加速 vs 异构) 这些术语是相辅相成的。异构是一种技术描述,承认以不同方式编程的计算设备的组合。加速是将这种复杂性添加到系统和编程中的动机。无法保证加速;只有当我们做得正确时,对异构系统进行编程才能加速我们的应用程序。这本书可以帮助我们教会我们如何正确地做事!

C++ 中的数据并行性与 SYCL 提供对现代加速(异构)系统中所有计算设备的访问。单个 C++ 应用程序可以使用适合当前问题的任意设备组合,包括 GPU、CPU、FPGA 和专用集成电路 (ASIC)。没有任何专有的单一供应商解决方案可以为我们提供同等水平的灵活性。

本书教我们如何使用带有 SYCL 的 C++ 进行数据并行编程来利用加速计算,并提供平衡应用程序性能、跨计算设备的可移植性以及我们作为程序员自己的生产力的实用建议。本章通过涵盖包括术语在内的核心概念奠定了基础,当我们学习如何使用数据并行性加速 C++ 程序时,这些概念对于我们保持新鲜感至关重要。

#### 1.1 阅读书籍,而不是标准说明书

没有人愿意被告知"去阅读规范!"——规范很难阅读,SYCL 规范 (www.khronos.org/sycl/) 也不例外。就像每一个伟大的语言规范一样,它充满了精确性,但对动机、 用法和教学却很淡薄。本书是使用 SYCL 教授 C++ 的"学习指南"。

没有一本书可以一次性解释所有事情。因此,本章所做的事情是其他章节所不会做的:代码示例包含一些编程结构,这些编程结构在后面的章节中

才会得到解释。我们不应该沉迷于完全理解第一章中的编码示例,并相信每 一章都会变得更好。

## 1.2 SYCL 2020 和 DPC++

本书使用 SYCL 2020 教授 C++。本书的第一版早于 SYCL 2020 规范, 因此该版本包含的更新包括头文件位置的调整 (sycl 而不是 CL)、设备选择 器语法以及删除显式主机设备。

DPC++ 是一个基于 LLVM 的开源编译器项目。我们希望 LLVM 社区最终能够默认支持 SYCL,并且 DPC++ 项目将帮助实现这一目标。DPC++ 编译器提供广泛的异构支持,包括 GPU、CPU 和 FPGA。本书中的所有示例均适用于 DPC++ 编译器,并且应适用于支持 SYCL 2020 的任何 C++ 编译器。

注 3 有关更新的 SYCL 信息 (包括任何已知书籍勘误表) 的重要资源,包括书籍 Github (github.com/Apress/data-parallel-CPP)、Khronos Group SYCL 标准网站 (www.khronos.org/sycl) 以及重要的 SYCL 教育网站 (sycl.tech)。

截至发布时,尚无 C++ 编译器声称完全符合或符合 SYCL 2020 规范。尽管如此,本书中的代码适用于 DPC++ 编译器,并且应该适用于已实现大部分 SYCL 2020 的其他 C++ 编译器。我们仅在 SYCL 2020 中使用标准 C++,除了一些特定于 DPC++ 的扩展,这些扩展在第 17 章 (FPGA编程)、连接到零级后端时的第 20 章 (后端互操作性)以及尾声中明确指出。当推测未来时。

#### 1.3 为什么不使用 CUDA?

与 CUDA 不同,SYCL 支持所有供应商和所有类型的架构(不仅仅是GPU)的 C++ 数据并行性。CUDA 仅专注于 NVIDIA GPU 支持,其他供应商将其重新用于 GPU 的努力(例如 HIP/ROCm)尽管取得了一些实实在在的成功和实用性,但成功的能力有限。随着加速器架构的爆炸式增长,只有 SYCL 能够为我们提供利用这种多样性所需的支持,并提供多供应商/多架构方法来帮助实现 CUDA 所不提供的可移植性。为了更深入地理解这一动机,我们强烈建议阅读(或观看他们精彩演讲的视频录制)行业传奇人物 John L. Hennessy 和 David A. Patterson 所著的《计算机架构的新黄金时代》。我们认为这是一篇必读的文章。

第 21 章除了讨论使用 SYCL 将代码从 CUDA 迁移到 C++ 有用的主题之外,对于那些有 CUDA 经验的人来说也很有价值,可以弥合一些术语和功能差异。CUDA 之外最重要的功能来自 SYCL 支持多个供应商、多个架构(不仅仅是 GPU)以及多个后端(甚至同一设备)的能力。这种灵活性回答了"为什么不使用 CUDA?"的问题。

与 CUDA 或 HIP 相比, SYCL 不涉及任何额外开销。它不是一个兼容 层, 而是一种通用方法, 无论供应商和架构如何, 都向所有设备开放, 同时与现代 C++ 同步。与其他开放多供应商和多架构技术(例如 OpenMP 和 OpenCL)一样, 最终的证明在于实现, 包括在绝对需要时访问特定于硬件的优化的选项。

# 1.4 为什么使用带有 SYCL 的标准 C++?

正如我们将反复指出的,每个使用 SYCL 的程序首先都是 C++ 程序。 SYCL 不依赖于对 C++ 的任何语言更改。SYCL 确实将 C++ 编程带到了 没有 SYCL 就无法实现的地方。我们毫不怀疑所有用于加速计算的编程将 继续影响包括 C++ 在内的语言标准,但我们不认为 C++ 标准应该(或将) 很快发展以取代 SYCL 的需求。SYCL 具有一组丰富的功能,我们在本书 中将介绍这些功能,这些功能通过类扩展 C++ 以及对新编译器功能的丰富 支持,以满足多供应商和多体系结构支持的需求(目前已经存在)。

# 1.5 获取支持 SYCL 的 C++ 编译器

本书中的所有示例都可以与 DPC++ 编译器的所有不同发行版一起编译和使用,并且应该与支持 SYCL 的其他 C++ 编译器一起编译(请参阅www.khronos.org/sycl 上的"SYCL 编译器开发")。我们小心地注意到,在发布时,使用了 DPC++ 特定扩展的极少数地方。

作者推荐 DPC++ 编译器有多种原因,其中包括我们与 DPC++ 编译器的密切联系。DPC++ 是一个支持 SYCL 的开源编译器项目。通过使用 LLVM,DPC++ 编译器项目可以访问多种设备的后端。这已经导致对 Intel、NVIDIA 和 AMD GPU、众多 CPU 和 Intel FPGA 的支持。扩展和增强对多个供应商和多个架构的开放支持的能力使 LLVM 成为支持 SYCL的开源工作的绝佳选择。

DPC++ 编译器有多个发行版,增加了额外的工具和库,可作为大型项目的一部分提供,为异构系统提供广泛的支持,其中包括库、调试器和其他

工具,称为 oneAPI 项目。oneAPI 工具(包括 DPC++ 编译器)可免费获取(www.oneapi.io/implements)。

# 1.6 你好世界! 和 SYCL 程序剖析

图 1-1 显示了 SYCL 程序示例。编译并运行它会打印以下内容:

你好世界!(以及一些通过运行它来体验的附加文本)

到第4章结束时,我们将完全理解这个示例。在此之前,我们可以观察到定义所有SYCL结构所需的<sycl/sycl.hpp>(第2行)的单个包含。所有SYCL构造都位于名为sycl的命名空间内。

- 第 3 行让我们避免一遍又一遍地编写 sycl::。
- 第 12 行实例化一个针对特定设备的工作请求队列(第 2 章)。
- 第 14 行为与设备共享的数据创建分配(第 3 章)。
- 第 15 行将秘密字符串复制到设备内存中,内核将在其中对其进行处理。
- 第 17 行将工作排队到设备 (第 4 章)。
- 第 18 行是唯一将在设备上运行的代码行。所有其他代码都在主机 (CPU)上运行。

第 18 行是我们要在设备上运行的内核代码。该内核代码减少一个字符。借助 parallel\_for()的强大功能,该内核会在秘密字符串中的每个字符上运行,以便将其解码为结果字符串。不需要对工作进行排序,一旦 parallel\_for将工作排队,它就会相对于主程序异步运行。在查看结果之前等待(第 19行)以确保内核已完成是至关重要的,因为在本例中我们使用了一个方便的功能(统一共享内存,第 6 章)。如果没有等待,输出可能会在所有字符都被解密之前发生。还有更多内容需要讨论,但这是后面章节的工作。

# 1.7 队列和操作

第2章讨论队列和操作,但现在我们可以从简单的解释开始。队列是允许应用程序直接在设备上完成工作的唯一连接。可以将两种类型的操作放入队列中:(a)要执行的代码和(b)内存操作。要执行的代码通过 single task

或 parallel\_for 表示 (如图 1-1 中使用)。内存操作执行主机和设备之间的复制操作或填充操作以初始化内存。仅当我们寻求比自动为我们完成的控制更多的控制时,我们才需要使用内存操作。这些都将在本书后面从第 2 章开始讨论。现在,我们应该意识到队列是允许我们命令设备的连接,并且我们有一组可用于放入队列中以执行代码并执行操作的操作。移动数据。了解请求的操作无需等待即可放入队列中也非常重要。主机将操作提交到队列后,继续执行程序,而设备最终将异步执行通过队列请求的操作。

注 4 (队列将我们与设备连接起来) 我们将操作提交到队列中以请求计算工作和数据移动。

操作异步发生。

# 1.8 一切都与并行性有关

由于数据并行性的 C++ 编程都是关于并行性的, 所以让我们从这个关键概念开始。并行编程的目标是更快地计算。事实证明, 这有两个方面: 增加吞吐量和减少延迟。

#### 1.8.1 吞叶量

当我们在规定的时间内完成更多的工作时,程序的吞吐量就会增加。像流水线这样的技术可能会延长完成单个工作项所需的时间,从而允许工作重叠,从而导致单位时间内完成更多的工作。人类在一起工作时经常会遇到这种情况。共享工作本身就涉及协调开销,这通常会减慢完成单个项目的时间。然而,多人的力量会带来更多的吞吐量。计算机也不例外——将工作分散到更多的处理核心会增加每个工作单元的开销,这可能会导致一些延迟,但目标是完成更多的总工作,因为我们有更多的处理核心一起工作。

#### 1.8.2 延迟

如果我们想更快地完成一件事,例如分析语音命令并制定响应,该怎么办?如果我们只关心吞吐量,响应时间可能会变得难以忍受。减少延迟的概念要求我们将一项工作分解为可以并行处理的部分。对于吞吐量,图像处理可能会将整个图像分配给不同的处理单元-在这种情况下,我们的目标可能是优化每秒的图像。对于延迟,图像处理可能会将图像中的每个像素分配给

不同的处理核心 - 在这种情况下, 我们的目标可能是最大化单个图像每秒的像素数。

#### 1.8.3 并行思维

成功的并行程序员在编程中使用这两种技术。这是我们寻求并行思考的开始。

我们要调整思路,首先考虑在我们的算法和应用程序中可以在哪里找 到并行性。我们还考虑了表达并行性的不同方式如何影响我们最终实现的 性能。一下子要考虑的东西太多了。对并行思考的追求成为并行程序员的终 生旅程。我们可以在这里学习一些技巧。

#### 1.8.4 阿姆达尔和古斯塔夫森

阿姆达尔定律由超级计算机先驱 Gene Amdahl 在 1967 年提出,是一个预测使用多个处理器时理论上最大加速的公式。Amdahl 感叹并行性的最大增益仅限于 (1/(1-p)),其中 p 是并行运行的程序的比例。如果我们只并行运行三分之二的程序,那么该程序最多可以加速 3 倍。我们绝对需要深入理解这个概念! 发生这种情况是因为无论我们使三分之二的程序运行得有多快,另外三分之一仍然需要相同的时间才能完成。即使我们添加 100 个GPU,性能也只能提高 3 倍。

多年来,一些人认为这证明并行计算不会取得成果。1988年,约翰·古斯塔夫森 (John Gustafson) 写了一篇题为"重新评估阿姆达尔定律"的文章。他观察到并行性并不是用来加速固定工作负载,而是用来扩展工作量。人类也会经历同样的事情。在更多人和卡车的帮助下,一名送货员无法更快地交付单个包裹。然而,一百个人和卡车可以比一个司机开一辆卡车运送一百个包裹更快。多个驱动程序肯定会增加吞吐量,并且通常还会减少包裹递送的延迟。阿姆达尔定律告诉我们,单个司机无法通过增加 99 名拥有自己卡车的司机来更快地交付一个包裹。古斯塔夫森注意到,通过这些额外的司机和卡车,可以更快地运送一百个包裹。

这强调了并行性是最有用的,因为我们解决的问题的规模逐年增长。如果我们只是想年复一年地更快地运行相同大小的问题,那么并行性的研究就不那么重要了。这种对解决越来越大问题的追求激发了我们对利用 C++ 和 SYCL 来开发数据并行性的兴趣,以实现计算机的未来(异构/加速系统)。

#### 1.8.5 规模效应

"缩放"这个词出现在我们之前的讨论中。缩放是衡量当额外的计算可用时程序加速的程度(简称为"加速")。如果一百个包裹与一个包裹同时交付,只需一百辆卡车配备司机而不是单一卡车和司机,就会实现完美的加速。当然,这种方式并不可靠。在某些时候,存在限制加速的瓶颈。配送中心可能没有一百个卡车停靠点。在计算机程序中,瓶颈通常涉及将数据移动到将要处理的位置。分发到一百辆卡车类似于必须将数据分发到一百个处理核心。分配行为不是瞬时的。第3章开始了我们探索如何将数据分发到异构系统中需要的地方的旅程。至关重要的是,我们知道数据分发是有成本的,而该成本会影响我们对应用程序的预期扩展程度。

#### 1.8.6 异构系统

就我们的目的而言,异构系统是包含多种类型计算设备的任何系统。例如,同时具有中央处理单元(CPU)和图形处理单元(GPU)的系统是异构系统。CPU 通常简称为处理器,尽管当我们将异构系统中的所有处理单元称为计算处理器时,这可能会令人困惑。为了避免这种混淆,SYCL 将处理单元称为设备。应用程序始终在主机上运行,主机又将工作发送到设备。第2章开始讨论我们的主应用程序(主机代码)如何将工作(计算)引导到异构系统中的特定设备。

使用带有 SYCL 的 C++ 的程序在主机上运行并向设备发出工作内核。 尽管这可能看起来令人困惑,但重要的是要知道主机通常能够充当设备。这 有两个关键原因: (1) 主机通常是一个 CPU, 如果不存在加速器,它将运行 内核 - SYCL 对于应用程序可移植性的一个关键承诺是内核始终可以在任 何系统上运行,即使是那些系统没有加速器 - (2) CPU 通常具有矢量、矩 阵、张量和/或 AI 处理功能,这些功能是内核可以很好地映射以在其上运 行的加速器。

注 5 主机代码调用设备上的代码。主机的功能通常也可以作为设备使用,以 提供备份设备并提供主机具有的用于处理内核的任何加速功能。我们的主 机通常是一个 CPU, 因此它可以作为 CPU 设备使用。SYCL 不保证 CPU 设备,仅保证至少有一个设备可作为我们应用程序的默认设备。

虽然异构从技术角度描述了系统,但使我们的硬件和软件复杂化的原因是为了获得更高的性能。因此,加速计算一词在异构系统或其组件的营销

中很流行。我们想强调的是,不能保证加速。只有当我们做得正确时,异构系统的编程才会加速我们的应用程序。这本书可以帮助我们教会我们如何正确地做事!

GPU 已发展成为高性能计算 (HPC) 设备,因此有时被称为通用 GPU 或 GPGPU。出于异构编程的目的,我们可以简单地假设我们正在编程如此强大的 GPGPU,并将它们称为 GPU。

如今,异构系统中的设备集合可以包括 CPU、GPU、FPGA(现场可编程门阵列)、DSP(数字信号处理器)、ASIC(专用集成电路)和 AI 芯片(图形、神经形态等).)。

此类设备的设计将涉及计算处理器(多处理器)的重复以及与内存等数据源的增加连接(增加带宽)。第一个是多处理,对于提高吞吐量特别有用。在我们的类比中,这是通过添加额外的司机和卡车来完成的。后者,更高的数据带宽,对于减少延迟特别有用。在我们的类比中,这是通过更多的装货码头来完成的,以使卡车能够并行满载。

拥有多种类型的设备,每种设备具有不同的架构,因此具有不同的特性,导致每种设备的编程和优化需求不同。这成为使用 SYCL 进行 C++ 以及本书所教授的大部分内容的动机。

注 6 创建 SYCL 是为了解决异构 (加速) 系统的 C++ 数据并行编程挑战。

#### 1.8.7 数据并行编程

自从本书的标题出现以来,"数据并行编程"这个词就一直挥之不去,无 法解释。数据并行编程侧重于并行性,可以将其想象为并行操作的一堆数 据。这种焦点的转变就像古斯塔夫森与阿姆达尔的对比。我们需要运送一 百个包裹(实际上是大量数据),以便将工作分配给一百辆配备司机的卡车。 关键概念归结为我们应该划分什么。我们应该处理整个图像还是以较小的 图块处理它们或逐像素处理它们?我们应该将对象集合作为单个集合还是 一组较小的对象分组或逐个对象进行分析?

选择正确的工作分工并将其有效地映射到计算资源上是任何使用带有 SYCL 的 C++ 的并行程序员的责任。第 4 章开始了这一讨论,并贯穿本书的其余部分。

# 1.9 带有 SYCL 的 C++ 的关键属性

每个使用 SYCL 的程序首先都是 C++ 程序。SYCL 不依赖于对 C++ 的任何语言更改。

具有 SYCL 支持的 C++ 编译器将根据 SYCL 规范的内置知识来优化 代码,并实现支持,以便异构编译在传统 C++ 构建系统中"正常工作"。

接下来,我们将用 SYCL 解释 C++ 的关键属性: 单源样式、主机、设备、内核代码和异步任务图。

#### 1.9.1 单源

程序是单源的,这意味着同一个翻译单元 2 既包含定义要在设备上执行的计算内核的代码,也包含协调这些计算内核的执行的主机代码。第 2 章 首先更详细地介绍此功能。如果我们愿意,我们仍然可以将程序源分为不同的文件和主机和设备代码的翻译单元,但关键是我们不必这样做!

#### 1.9.2 主机

每个程序都是从在主机上运行开始的,程序中的大部分代码行通常都是针对主机的。到目前为止,主机一直是 CPU。标准没有这样的要求,所以我们小心地将其描述为主机。这似乎不可能是 CPU 以外的任何东西,因为主机需要完全支持 C++17 才能支持所有具有 SYCL 程序的 C++。正如我们稍后将看到的,设备(加速器)不需要支持所有 C++17。

#### 1.9.3 设备

在一个程序中使用多个设备使得异构编程成为可能。这就是为什么自从几页前解释异构系统以来,设备这个词在本章中不断出现。我们已经了解到,异构系统中的设备集合可以包括 GPU、FPGA、DSP、ASIC、CPU 和 AI 芯片,但不限于任何固定列表。

设备是获得加速的目标。卸载计算的想法是将工作转移到可以加速工作完成的设备。我们必须担心如何弥补移动数据所损失的时间——这是一个需要时刻牢记在心的话题。

#### 1.9.4 内核代码

在具有设备(例如 GPU)的系统上,我们可以设想运行两个或多个程序并希望使用单个设备。它们不需要是使用 SYCL 的程序。如果另一个程序当前正在使用该设备,则程序在设备处理过程中可能会出现延迟。这实际上与一般 CPU 的 C++ 程序中使用的原理相同。如果我们的 CPU 上同时运行太多活动程序(邮件、浏览器、病毒扫描、视频编辑、照片编辑等),任何系统都可能超载。

在超级计算机上,当节点(CPU+所有连接的设备)被专门授予单个应用程序时,共享通常不是问题。在非超级计算机系统上,我们可以注意到,如果有多个应用程序同时使用相同的设备,程序的性能可能会受到影响。

一切仍然有效,并且我们不需要进行不同的编程。

#### 1.9.5 异步执行

设备的代码被指定为内核。这个概念并不是带有 SYCL 的 C++ 独有的:它是其他卸载加速语言(包括 OpenCL 和 CUDA)的核心概念。虽然它与面向循环的方法(例如通常与 OpenMP 目标卸载一起使用)不同,但它可能类似于最内层循环中的代码主体,而不需要程序员显式编写循环嵌套。

内核代码具有某些限制,以允许更广泛的设备支持和大规模并行性。内核代码不支持的功能列表包括动态多态性、动态内存分配(因此不使用 new 或 delete 运算符进行对象管理)、静态变量、函数指针、运行时类型信息 (RTTI) 和异常处理。不允许从内核代码调用任何虚拟成员函数和可变参数函数。内核代码中不允许递归。

注 7 (虚函数) 虽然我们不会在本书中进一步讨论它,但 dpC++ 编译器项目确实有一个实验性扩展(当然,在开源项目中可见)来实现对内核中虚拟函数的一些支持。由于有效卸载到加速器的性质,如果没有一些限制,虚拟功能就无法得到很好的支持,但许多用户表示有兴趣看到 SYCL 即使有一些限制也能提供这种支持。开源和开放 SYCL 规范的美妙之处在于有机会参与可以为 C++ 和 SYCL 规范的未来提供信息的实验。请访问 dpC++ 项目 (github.com/intel/llvm) 了解更多信息。

第3章描述了在调用内核之前和之后如何完成内存分配,从而确保内核始终专注于大规模并行计算。第5章描述了与设备相关的异常的处理。

C++ 的其余部分在内核中是公平的游戏,包括函子、lambda 表达式、运算符重载、模板、类和静态多态性。我们还可以与主机共享数据(参见第3章)并共享(非全局)主机变量的只读值(通过 lambda 表达式捕获)。

#### 内核: 矢量加法 (DAXPY)

对于任何处理过计算复杂代码的程序员来说,内核都应该感到熟悉。考虑实施 DAXPY,它代表"双精度 A 乘以 X 加 Y"。几十年来的经典。图 1-2显示了用现代 Fortran、C/C++ 和 SYCL 实现的 DAXPY。令人惊讶的是,计算线(第 3 行)实际上是相同的。第 4 章和第 10 章详细解释了内核。图 1-2 应该有助于消除人们对内核难以理解的担忧——即使这些术语对我们来说是新的,它们也应该感到熟悉。

#### 异步执行

使用 C++ 和 SYCL 进行编程的异步特性不容忽视。理解异步编程至关重要,原因有两个: (1) 正确使用可以为我们提供更好的性能(更好的扩展), (2) 错误会导致并行编程错误(通常是竞争条件), 从而使我们的应用程序变得不可靠。

异步特性的产生是因为工作是通过请求操作的"队列"传输到设备的。主机程序将请求的操作提交到队列中,程序继续执行而不等待任何结果。这种无需等待很重要,这样我们就可以尝试让计算资源(设备和主机)始终保持忙碌。如果我们必须等待,就会占用主机而不是让主机做有用的工作。当设备完成时,它还会产生串行瓶颈,直到我们对新工作进行排队。正如前面所讨论的,阿姆达尔定律会因为我们花时间而不是并行工作而受到惩罚。我们需要构建我们的程序,以便在设备繁忙时将数据移入和移出设备,并在工作可用时保持设备和主机的所有计算能力繁忙。如果不这样做,我们就会受到阿姆达尔定律的全面诅咒。

第 3 章开始讨论将我们的程序视为异步任务图,第 8 章极大地扩展了这个概念。

#### 1.9.6 当我们犯错误时的竞争条件

在我们的第一个代码示例(图 1-1)中,我们专门在第 19 行执行了"等待",以防止第 21 行在结果可用之前写出结果中的值。我们必须牢记这种异步行为。在同一代码示例中还做了另一件微妙的事情 - 第 15 行使用 std memcpy 来加载输入。由于 std memcpy 在主机上运行,因此第 17 行及后续行在第 15 行完成之前不会执行。读完第 3 章后,我们可能会想将其

更改为使用 q.memcpy(使用 SYCL)。我们已经在图 1-3 的第 7 行中做到了这一点。由于这是一个队列提交,因此无法保证它将在第 9 行之前执行。这会产生竞争条件,这是一种并行编程错误。当程序的两个部分在没有协调的情况下访问相同的数据时,就会出现竞争条件。由于我们希望使用第 7 行写入数据,然后在第 9 行中读取数据,因此我们不希望在第 7 行完成之前执行第 9 行!这样的竞争条件将使我们的程序变得不可预测——我们的程序可能会在不同的运行和不同的系统上得到不同的结果。解决此问题的方法是在第 7 行末尾添加.wait()来显式等待 q.memcpy 完成,然后再继续。这不是最佳解决方案。我们可以使用事件依赖来解决这个问题(第 8 章)。将队列创建为有序队列还会在 memcpy 和 parallel\_for 之间添加隐式依赖关系。作为替代方案,在第 7 章中,我们将看到如何使用缓冲区和访问器编程风格来让 SYCL 管理依赖性并自动等待我们。

注 8 (竞争条件并不总是导致程序失败) 一位精明的读者注意到,图 1-3 中的代码在他们尝试过的每个系统上都没有失败。使用带有 partition\_max\_sub\_devices==0的 Gpu 并没有失败,因为它是一个小型 Gpu, 在 memcpy 完成之前无法运行 parallel\_for。不管怎样,代码是有缺陷的,因为竞争条件存在,即使它不会普遍导致运行时失败。我们称之为一场竞赛——有时我们赢,有时我们输。此类编码缺陷可能会一直处于休眠状态,直到编译和运行时环境的正确组合导致可观察到的故障为止。

添加 wait() 会强制 memcpy 和内核之间的主机同步,这违背了之前保持设备始终忙碌的建议。本书的大部分内容涵盖了不同的选项和权衡,以平衡程序的简单性和系统的有效使用。

注 9 (无序队列 VS 无序队列) 我们将在本书中使用无序队列,因为它们具有潜在的性能优势,但重要的是要知道对有序队列的支持确实存在。In-order 只是我们在创建队列时可以请求的一个属性。Cuda 程序员会知道 Cuda 流是无条件有序的。相反,SYCL 队列默认是无序的,但可以选择在创建 SYCL 队列时通过传递 in\_order 队列属性来按顺序排列 (请参阅第 8 章)。第 21 章为使用 Cuda 的程序员提供了有关此问题和其他注意事项的信息。

为了帮助检测程序(包括内核)中的数据竞争条件, Intel Inspector(可与前面"获取 DPC++编译器"中提到的 oneAPI工具一起使用)等工具可能会有所帮助。此类工具使用的复杂方法通常不适用于所有设备。检测竞争

条件的最佳方法可能是让所有内核在 CPU 上运行,这可以在开发工作期间作为调试技术来完成。这个调试技巧在第 2 章中作为 Method#2 进行了讨论。

注 10 (为了教授死锁的概念,哲学家就餐问题是计算机科学中同步问题的经典例证)

想象一下一群哲学家围坐在一张圆桌旁,每个哲学家之间放着一根筷子。每个哲学家吃饭时都需要两根筷子,而且他们总是一次拿起一根筷子。遗憾的是,如果所有哲学家都先抓住左边的筷子,然后拿着它等待右边的筷子,那么如果他们同时饿了,我们就会遇到问题。具体来说,他们最终都会等待一根永远不会可用的筷子。

在这种情况下,糟糕的算法设计(向左抓取,然后等到向右抓取)可能会导致死锁,所有哲学家都饿死。那是可悲的。讨论设计一种算法的多种方法,该算法可以让更少的哲学家饿死,或者希望是公平的并养活所有人(没有人挨饿),这是一个值得思考的有趣话题,并且已经被写了很多次。

认识到犯此类编程错误是多么容易,在调试时查找它们,并了解如何避 免它们,这些都是成为有效的并行程序员的过程中必不可少的经验。

# 1.9.7 死锁

死锁是不好的,我们将强调理解并发与并行(参见本章最后一节)对于 理解如何避免死锁至关重要。

当两个或多个操作(进程、线程、内核等)被阻塞,每个操作都等待另一个操作释放资源或完成任务,从而导致停滞时,就会发生死锁。换句话说,我们的应用程序永远不会完成。每次我们使用等待、同步或锁时,都可能会造成死锁。缺乏同步可能会导致死锁,但更常见的是它表现为竞争条件(请参阅上一节)。

死锁可能很难调试。我们将在本章末尾的"并发与并行"部分重新讨论这一点。

注 11 第 4 章将告诉我们"lambda 表达式不被认为是有害的"。我们应该熟悉 lambda 表达式,以便很好地使用 dpC++、SYCL 和现代 C++。

#### 1.9.8 C++ Lambda 表达式

现代 C++ 的一个被并行编程技术大量使用的功能是 lambda 表达式。 内核(在设备上运行的代码)可以用多种方式表达,最常见的一种是 lambda

表达式。第 10 章讨论了内核可以采用的所有各种形式,包括 lambda 表达式。在这里,我们回顾了 C++ lambda 表达式以及有关用于定义内核的一些注释。在我们在中间的章节中了解了有关 SYCL 的更多信息之后,第 10 章将扩展内核方面的内容。

图 1-3 中的代码有一个 lambda 表达式。我们可以看到它,因为它以非常明确的 [=] 开头。在 C++ 中,lambda 以方括号开头,右方括号之前的信息表示如何捕获 lambda 中使用但未作为参数显式传递给它的变量。对于SYCL 中的内核,捕获必须按值进行,该值通过在括号内包含等号来表示。

C++11 中引入了对 lambda 表达式的支持。它们用于创建匿名函数对象(尽管我们可以将它们分配给命名变量),这些对象可以从封闭范围捕获变量。C++ lambda 表达式的基本语法是

[ capture-list ] ( params ) -> ret body 其中

- capture-list 是一个以逗号分隔的捕获列表。我们通过在捕获列表中列出变量名称来按值捕获变量。我们通过在变量前面加上 & 符号来通过引用捕获变量,例如 &v。还有一些适用于所有作用域内自动变量的简写: [=] 用于捕获在正文中按值使用的所有自动变量和按引用捕获当前对象,[&] 用于捕获在正文中使用的所有自动变量 body 以及当前对象的引用,并且 [] 不捕获任何内容。对于 SYCL,始终使用 [=],因为不允许通过引用捕获变量以在内核中使用。根据 C++ 标准,全局变量不会在 lambda 中捕获。非全局静态变量可以在内核中使用,但前提是它们是 const。这里提到的一些限制允许内核在不同的设备架构和实现中保持一致的行为。
- params 是函数参数的列表,就像命名函数一样。SYCL 提供参数来标识正在调用内核来处理的元素:这可以是唯一的 id (一维)或 2D 或 3D id。这些将在第 4 章中讨论。
- ret 是返回类型。如果未指定 ->ret,则从 return 语句推断。缺少 return 语句或返回没有值,意味着返回类型为 void。SYCL 内核必须始终具有 void 的返回类型,因此我们不应该使用此语法来指定内核的返回类型。
- body 是函数体。对于 SYCL 内核,该内核的内容有一些限制(请参阅本章前面的"内核代码"部分)。

我们可以将 lambda 表达式视为函数对象的实例,但编译器为我们创建了类定义。例如,我们在前面的示例中使用的 lambda 表达式类似于图 1-6 中所示的类实例。无论我们在哪里使用 C++ lambda 表达式,都可以将其替换为函数对象的实例,如图 1-6 所示。

每当我们定义一个函数对象时,我们都需要给它指定一个名称(图 1-6 中的 Functor)。内联表达的 Lambda 表达式(如图 1-4 所示)是匿名的,因为它们不需要名称。

#### 1.9.9 功能可移植性和性能可移植性

可移植性是将 C++ 与 SYCL 结合使用的一个关键目标;然而,没有什么可以保证这一点。语言和编译器所能做的就是让我们在需要时更容易在应用程序中实现可移植性。确实,更高级别(更抽象)的编程(例如特定于领域的语言、库和框架)可以提供更多的可移植性,很大程度上是因为它们允许较少的规范性编程。由于我们在本书中重点关注 C++ 中的数据并行编程,因此我们假设希望拥有更多的控制权,并因此承担更多的责任来理解我们的编码如何影响可移植性。

可移植性是一个复杂的主题,包括功能可移植性和性能可移植性的概念。凭借功能的可移植性,我们希望我们的程序能够在各种平台上同等地编译和运行。凭借性能可移植性,我们希望我们的程序能够在各种平台上获得合理的性能。虽然这是一个相当软的定义,但反过来可能会更清楚——我们不想编写一个在一个平台上运行超快的程序,却发现它在另一个平台上运行得慢得不合理。事实上,我们希望它能够充分利用其运行的任何平台。鉴于异构系统中的设备种类繁多,性能可移植性需要我们作为程序员付出巨大的努力。

幸运的是,SYCL 定义了一种可以提高性能可移植性的编码方法。首先,通用内核可以在任何地方运行。在有限的情况下,这可能就足够了。更常见的是,可能会为不同类型的设备编写重要内核的多个版本。具体来说,内核可能具有通用 GPU 和通用 CPU 版本。有时,我们可能希望将内核专门用于特定设备,例如特定 GPU。当这种情况发生时,我们可以编写多个版本,并将每个版本专门用于不同的 GPU 模型。或者我们可以参数化一个版本以使用 GPU 的属性来修改 GPU 内核的运行方式以适应现有的 GPU。

虽然我们作为程序员自己负责设计有效的性能可移植性计划,但 SYCL 定义了允许我们实施计划的构造。如前所述,可以通过从适用于所有设备的

内核开始,然后根据需要逐步引入其他更专业的内核版本来对功能进行分层。这听起来不错,但程序的整体流程也会产生深远的影响,因为数据移动和整体算法选择很重要。了解这一点可以让我们深入了解为什么没有人应该声称带有 SYCL(或其他编程解决方案)的 C++ 解决了性能可移植性。然而,它是我们工具包中的一个工具,可以帮助我们应对这些挑战。

# 1.10 并发与并行

并发和并行这两个术语不一定是等价的,尽管它们有时会被误解。由于不同来源很少就相同的定义达成一致,因此对这些术语的任何讨论都变得更加复杂。

请考虑《Sun Microsystems 多线程编程指南》中的这些定义:

- 并发: 当至少有两个线程正在进行时存在的条件
- 并行性: 两个线程同时执行时存在的条件

为了充分理解这些概念之间的差异,我们需要对这里重要的内容有一个直观的理解。以下观察可以帮助我们获得这种理解:

- 可以伪造同时执行:即使没有硬件支持一次执行多件事情,软件也可以通过多路复用来伪造同时执行多件事情。多路复用是没有并行性的并发的一个很好的例子。
- 硬件资源是有限的:硬件永远不会无限"宽",因为硬件始终具有有限数量的执行资源(例如处理器、内核、执行单元)。当硬件可以使用专用资源执行每个线程时,我们就拥有并发性和并行性。

当我们作为程序员说"同时执行 X、Y 和 Z"时,我们通常并不真正关心硬件是否提供并发性或并行性。我们可能不希望我们的程序(包含三个任务)无法在只能同时运行其中两个任务的机器上启动。我们希望并行处理尽可能多的任务,重复地逐步执行批量任务,直到它们全部完成。

但有时,我们确实关心。我们思维中的错误可能会产生灾难性的影响(例如"僵局")。想象一下,我们对上一段的示例进行了修改,使得任务(X、Y或Z)执行的最后一件事是"等待所有任务完成"。如果任务数量永远不会超过硬件的限制,我们的程序就会运行得很好。但是,如果我们将任务分成

批次,那么第一批中的任务将永远等待。不幸的是,这意味着我们的应用程 序永远不会完成。

这是一个很容易犯的常见错误,这就是我们强调这些概念的原因。即使是专家程序员也必须集中精力避免这种情况,而且我们都发现,当我们在思考中遗漏某些内容时,我们将需要调试问题。这些概念并不简单,C++规范包含一个很长的部分,详细说明了保证线程取得进展的精确条件。在这个介绍性部分中,我们所能做的就是强调尽可能多地理解这些概念的重要性。

直观地掌握这些概念对于异构和加速系统的有效编程非常重要。我们都需要给自己时间来获得这种直觉——它不会一下子发生。

# 1.11 总结

本章提供了通过 SYCL 理解 C++ 所需的术语,并复习了对 SYCL 至 关重要的并行编程和 C++ 的关键方面。第 2、3 和 4 章详细介绍了使用 C++ 和 SYCL 进行数据并行编程的三个关键:需要为设备提供工作(发送代码以在其上运行)、提供数据(发送数据以在其上使用)),并且有编写代码的方法(内核)。

# 2 代码执行位置

并行编程并不是真正意义上的快车道行驶。它实际上是在所有车道上 快速行驶。本章的主题是让我们能够将代码放在尽可能多的地方。只要有意 义,我们就会选择启用异构系统中的所有计算资源。因此,我们需要知道这 些计算资源隐藏在哪里(找到它们)并使它们发挥作用(在它们上执行我们 的代码)。

我们可以控制代码的执行位置,换句话说,我们可以控制哪些设备用于哪些内核。带有 SYCL 的 C++ 提供了异构编程框架,其中代码可以在主机 CPU 和设备的混合上执行。确定代码执行位置的机制对于我们理解和使用非常重要。

本章描述代码可以在哪里执行、何时执行以及用于控制执行位置的机制。第3章将描述如何管理数据,以便数据到达我们执行代码的地方,然后第4章返回代码本身并讨论内核的编写。

## 2.1 单源

带有 SYCL 程序的 C++ 是单源的,这意味着相同的翻译单元(通常是源文件及其标头)既包含定义要在 SYCL 设备上执行的计算内核的代码,也包含协调这些内核执行的主机代码。图 2-1 以图形方式显示了这两个代码路径,图 2-2 提供了一个示例应用程序,其中标记了主机和设备代码区域。

将设备和主机代码组合到单个源文件(或翻译单元)中可以使异构应用程序更容易理解和维护。该组合还提供了改进的语言类型安全性,并且可以导致我们的代码的更多编译器优化。

#### 2.1.1 主机代码

应用程序包含 C++ 主机代码,由操作系统在其上启动应用程序的 CPU 执行。主机代码是应用程序的主干,它定义和控制可用设备的工作分配。它 也是我们定义应由 SYCL 运行时管理的数据和依赖项的接口。

主机代码是标准 C++,并添加了可作为 C++ 库实现的 SYCL 特定构造和类。这使得更容易推断主机代码中允许的内容(C++ 中允许的任何内容),并且可以简化与构建系统的集成。

应用程序中的主机代码协调数据移动和计算卸载到设备,但也可以自 行执行计算密集型工作,并且可以像任何 C++ 应用程序一样使用库。

### 2.1.2 设备代码

设备对应于概念上独立于执行主机代码的 CPU 的加速器或处理器。实现也可以将主机处理器公开为设备,如本章后面所述,但主机处理器和设备应该被认为在逻辑上彼此独立。主机处理器运行本机 C++ 代码,而设备运行包含一些附加功能和限制的设备代码。

队列是一种将工作提交到设备以供将来执行的机制。需要了解设备代码的三个重要属性:

- 1. 它从主机代码异步执行。主机程序向设备提交设备代码,只有当所有 执行依赖性都得到满足时,运行时才会跟踪并启动该工作(更多内容 将在第3章中介绍)。主机程序执行在设备上启动提交的工作之前进 行,从而提供了设备上的执行与主机程序执行异步的属性,除非我们 明确地将两者绑定在一起。作为这种异步执行的副作用,只有主机程 序通过我们在后面的章节中介绍的各种机制(例如主机访问器和阻塞 队列等待操作)强制执行开始,才能保证设备上的工作开始。
- 2. 对设备代码进行限制,使其能够在加速器设备上编译并实现性能。例如,设备代码中不支持动态内存分配和运行时类型信息 (RTTI),因为它们会导致许多加速器的性能下降。第 10 章详细介绍了一小部分设备代码限制。
- 3. SYCL 定义的一些函数和查询仅在设备代码中可用,因为它们只在那里有意义,例如,工作项标识符查询允许设备代码的执行实例查询其在更大的数据并行范围中的位置(描述第4章)。

一般来说,我们将提交到队列的工作称为操作。动作包括在设备上执行设备代码,但在第3章中我们将了解到动作还包括内存移动命令。在本章中,由于我们关注操作的设备代码方面,因此我们将在大部分时间中具体提及设备代码。

#### 2.2 选择设备

为了探索让我们控制设备代码执行位置的机制,我们将看五个用例: 方法 #1: 当我们不关心使用哪个设备时,在某个地方运行设备代码。 这通常是开发的第一步,因为它是最简单的。 2 代码执行位置 39

方法 #2: 在 CPU 设备上显式运行设备代码,通常用于调试,因为大多数开发系统都有可访问的 CPU。CPU 调试器通常也具有非常丰富的功能。

方法 #3: 将设备代码分派到 GPU 或其他加速器。

方法 #4: 将设备代码分派到一组异构设备,例如 GPU 和 FPGA。

方法 #5: 从更通用的设备类别中选择特定设备,例如从可用 FPGA 类型集合中选择特定类型的 FPGA。

注 12 开发人员通常会使用 Method#2 尽可能多地调试代码,并且只有在使用 Method#2 对代码进行了尽可能多的测试后才转向方法 #3-#5。

## 2.3 方法 #1: 在任何类型的设备上运行

当我们不关心设备代码将在哪里运行时,很容易让运行时为我们选择。 这种自动选择的目的是让我们在不关心选择什么设备时可以轻松地开始编 写和运行代码。此设备选择没有考虑要运行的代码,因此应被视为任意选 择,可能不是最佳选择。

在讨论设备的选择之前,即使是实现为我们选择的设备,我们应该首先 介绍程序与设备交互的机制:队列。

#### 2.3.1 队列

队列是一个抽象概念,操作被提交到该抽象概念以便在单个设备上执行。图 2-3 和 2-4 给出了队列类的简化定义。操作通常是数据并行计算的启动,尽管也可以使用其他命令,例如当我们需要比 SYCL 运行时提供的自动移动更多的控制时,手动控制数据移动。提交到队列的工作可以在满足运行时跟踪的先决条件(例如输入数据的可用性)后执行。第 3 章和第 8 章介绍了这些先决条件。

队列绑定到单个设备,并且该绑定发生在队列的构造上。重要的是要了解提交到队列的工作是在该队列绑定到的单个设备上执行的。队列无法映射到设备集合,因为这会导致哪个设备应执行工作不明确。同样,队列无法将提交给它的工作分散到多个设备上。相反,队列与执行提交到该队列的工作的设备之间存在明确的映射,如图 2-5 所示。

可以按照我们希望的应用程序架构或编程风格的任何方式在程序中创建多个队列。例如,可以创建多个队列以分别与不同的设备绑定或由主机程序中的不同线程使用。多个不同的队列可以绑定到单个设备(例如 GPU),

40

并且向这些不同队列的提交将导致在设备上执行组合工作。图 2-6 显示了一个示例。相反,正如我们之前提到的,一个队列不能绑定到多个设备,因为请求执行操作的位置不能有任何歧义。例如,如果我们想要一个能够跨多个设备负载平衡工作的队列,那么我们可以在代码中创建该抽象。

由于队列绑定到特定设备,因此队列构造是代码中选择将执行提交到队列的操作的设备的最常见方法。构造队列时设备的选择是通过设备选择器抽象来实现的。

#### 2.3.2 当任何设备都可以时将队列绑定到设备

图 2-7 是未指定队列应绑定到的设备的示例。不带任何参数的默认队列构造函数(如图 2-7 所示)只是在幕后选择一些可用的设备。SYCL 保证至少有一个设备始终可用,因此这种默认选择机制将始终选择某个设备。在许多情况下,所选设备可能恰好是也正在执行主机程序的 CPU,尽管不能保证这一点。

使用简单的队列构造函数是开始应用程序开发以及启动和运行设备代码的简单方法。当它与我们的应用程序相关时,可以添加对绑定到队列的设备的选择的更多控制。

## 2.4 方法 #2: 使用 CPU 设备进行开发、调试和部署

CPU 设备可以被认为使主机 CPU 能够像独立设备一样运行,从而允许我们的设备代码执行,而不管系统中是否有可用的加速器。我们总是有一些处理器运行主机程序,因此 CPU 设备通常可供我们的应用程序使用(极少数情况下,由于各种原因,CPU 可能不会通过实现公开为 SYCL 设备)。使用 CPU 设备进行代码开发有几个优点:

- 1. 在没有任何加速器的功能较差的系统上开发设备代码: 一种常见用途 是在本地系统上开发和测试设备代码, 然后部署到 HPC 集群进行性 能测试和优化。
- 2. 使用非加速器工具调试设备代码: 加速器通常通过较低级别的 API 公 开,这些 API 可能没有主机 CPU 可用的先进调试工具。考虑到这一 点, CPU 设备通常支持使用开发人员熟悉的标准工具进行调试。
- 3. 如果没有其他设备可用,则进行备份,以保证设备代码可以正常执行: CPU 设备可能不以性能为主要目标,或者可能与内核代码优化的架构

不匹配,但通常可以考虑作为功能备份,以确保设备代码始终可以在 任何应用程序中执行。

发现 SYCL 应用程序可以使用多个 CPU 设备应该不足为奇,其中一些旨在简化调试,而另一些则可能专注于执行性能。设备方面可用于区分这些不同的 CPU 设备,如本章后面所述。

当考虑使用 CPU 设备来开发和调试设备代码时,应考虑 CPU 和目标加速器架构(例如 GPU)之间的差异。特别是在优化代码性能时,特别是在使用更高级的功能(例如子组)时,跨架构的功能和性能可能存在一些差异。例如,当移动到新设备时,子组大小可能会发生变化。大多数开发和调试通常可以在 CPU 设备上进行,有时随后在目标设备架构上进行最终调整和调试。

CPU 设备在功能上类似于硬件加速器,队列可以与其绑定并且可以执行设备代码。图 2-8 显示了 CPU 设备如何与系统中可用的其他加速器对等。它可以执行设备代码,就像 GPU 或 FPGA 能够执行的方式一样,并且可以构建一个或多个与其绑定的队列。

应用程序可以通过将 cpu\_selector\_v 显式传递给队列构造函数来选择 创建绑定到 CPU 设备的队列,如图 2-9 所示。

即使没有特别请求(例如,使用 cpu\_selector\_v), CPU 设备也可能恰好被默认选择器选择,如图 2-7 中的输出所示。

定义了设备选择器的一些变体,以便我们轻松地定位某种类型的设备。cpu\_selector\_v 是这些选择器的一个示例,我们将在接下来的部分中介绍其他选择器。

## 2.5 方法 #3: 使用 GPU (或其他加速器)

下一个示例将展示 GPU,但任何类型的加速器都同样适用。为了轻松 定位常见的加速器类别,设备被分为几个大类,并且 SYCL 为它们提供了 内置选择器类别。要从广泛的设备类型(例如"系统中可用的任何 GPU")中进行选择,相应的代码非常简短,如本节中所述。

### 2.5.1 加速器装置

在 SYCL 规范的术语中,有几组广泛的加速器类型:

1. CPU 设备。

- 2. GPU 设备。
- 3. 加速器,捕获不识别为 CPU 设备或 GPU 的设备。这包括 FPGA 和 DSP 设备。

来自任何这些类别的设备都可以使用内置选择器轻松绑定到队列,这些选择器可以传递给队列(和其他一些类)构造函数。

### 2.5.2 设备选择器

必须绑定到特定设备的类(例如队列类)具有可以接受 DeviceSelector 的构造函数。DeviceSelector 是一个可调用的设备,它采用常量引用设备,并接数字对其进行排名,以便运行时可以选择排名最高的设备。例如,接受 DeviceSelector 的队列构造函数是 queue(const DeviceSelector &deviceSelector, const property\_list &propList = );

有四个内置选择器适用于各种常见的设备。

DPC++ 中包含的一个附加选择器 (SYCL 中不可用) 可通过包含标头 "sycl ext intel fpga\_extensions.hpp"来使用。

可以使用内置选择器之一构造队列, 例如

队列 myQueue gpu\_selector\_v;图 2-10 显示了使用 GPU 选择器的完整示例,图 2-11 显示了队列与可用 GPU 设备的相应绑定。

图 2-12 显示了使用各种内置选择器的示例,并演示了设备选择器与另一个在构造时接受设备选择器的类(设备)的使用。

## 当设备选择失败时

如果在创建对象(例如队列)时使用 GPU 选择器,并且没有可供运行时使用的 GPU 设备,则选择器将引发 runtime\_error 异常。对于所有设备选择器类都是如此,因为如果所需类的设备不可用,则会引发 runtime\_error 异常。对于复杂的应用程序来说,捕获该错误并获取不太理想的(对于应用程序/算法)设备类作为替代方案是合理的。第 5 章更详细地讨论了异常和错误处理。

## 2.6 方法 #4: 使用多个设备

如图 2-5 和 2-6 所示, 我们可以在一个应用程序中构造多个队列。我们可以将这些队列绑定到单个设备(队列的工作总和集中到单个设备)、多

2 代码执行位置 43

个设备或这些设备的某种组合。图 2-13 提供了一个示例,创建一个绑定到 GPU 的队列和另一个绑定到 FPGA 的队列。相应的映射如图 2-14 所示。

## 2.7 方法 #5: 自定义(非常具体)的设备选择

现在我们将了解如何编写自定义选择器。除了本章中的示例之外,第 12 章中还显示了更多示例。内置设备选择器旨在让我们快速启动并运行代码。实际应用程序通常需要专门选择设备,例如从系统中可用的一组 GPU 类型中选择所需的 GPU。设备选择机制很容易扩展到任意复杂的逻辑,因此我们可以编写任何需要的代码来选择我们喜欢的设备。

#### 2.7.1 根据设备方面进行选择

SYCL 定义了称为方面的设备属性。例如,设备可能展示的某些方面(在方面查询上返回 true)是 gpu、host\_debuggable、fp64 和 online\_compiler。请参阅 SYCL 规范的"设备方面"部分,了解标准方面及其定义的完整列表。

要使用 SYCL 中定义的方面来选择设备,可以使用 aspect\_selector,如图 2-15 所示。以 aspect\_selector 的形式,采用逗号分隔的 aspect 组,所有 aspect 都必须由要选择的设备显示。spect\_选择器的另一种形式采用两个 std::vector。第一个向量包含设备中必须存在的方面,第二个向量包含设备中不得存在的方面(列出负面方面)。图 2-15 显示了使用这两种形式的 aspect\_selector 的示例。

一些方面可用于推断设备的性能特征。例如,具有仿真方面的任何设备 可能不如未仿真的相同类型的设备执行得那么好,而是可以表现出与改进 的可调试性相关的其他方面。

#### 2.7.2 通过自定义选择器进行选择

当现有方面不足以选择特定设备时,可以定义自定义设备选择器。这样的选择器只是一个 C++ 可调用的 (例如,函数或 lambda),它接受 const Device& 作为参数,并返回特定设备的整数分数。SYCL 运行时在可以找到的所有可用根设备上调用选择器,并选择选择器返回最高分数的设备(该分数必须为非负数才能进行选择)。

如果最高分数出现平局, SYCL 运行时将选择平局设备之一。运行时不 会选择选择器返回负数的任何设备, 因此从选择器返回负数可保证该设备 2 代码执行位置

44

不会被选择。

#### 设备评分机制

我们有很多选项来创建与特定设备相对应的整数分数,例如:

- 1. 返回特定设备类别的正值。
- 2. 设备名称和/或设备供应商字符串的字符串匹配。
- 3. 根据设备或平台查询, 计算我们可以想象得到的任何整数值。

例如,选择特定 Intel Arria FPGA 加速器板的一种可能方法如图 2-16 所示。

第 12 章有更多关于设备选择的讨论和示例,并更深入地讨论了 get\_info 方法。

## 2.8 在设备上创建任务

应用程序通常包含主机代码和设备代码的组合。有一些类成员允许我们提交设备代码以供执行,并且由于这些工作调度构造是提交设备代码的唯一方法,因此它们使我们能够轻松区分设备代码和主机代码。

本章的其余部分介绍了一些工作调度结构,目的是帮助我们理解和识别设备代码和在主机处理器上本机执行的主机代码之间的划分。

#### 2.8.1 任务图简介

SYCL 执行模型中的一个基本概念是节点图。该图中的每个节点(工作单元)都包含要在设备上执行的操作,最常见的操作是数据并行设备内核调用。图 2-17 显示了具有四个节点的示例图,其中每个节点都可以被视为设备内核调用。

图 2-17 中的节点具有依赖边,定义节点的工作何时开始执行是合法的。依赖边通常是根据数据依赖自动生成的,尽管我们可以通过一些方法在需要时手动添加额外的自定义依赖。例如,图中的节点 B 具有来自节点 A 的依赖边。该边意味着节点 A 必须完成执行,并且很可能(取决于依赖关系的具体情况)使生成的数据在节点 B 将执行的设备上可用在节点 B 的动作开始之前。运行时控制依赖关系的解析和节点执行的触发,与主机程序的执行完全异步。定义应用程序的节点图在本书中将称为任务图,并在第 3 章中进行更详细的介绍。

#### 2.8.2 设备代码在哪里?

有多种机制可用于定义将在设备上执行的代码,但一个简单的示例展示了如何识别此类代码。即使示例中的模式乍一看很复杂,但该模式在所有设备代码定义中保持相同,因此很快就成为第二天性。

作为最后一个参数传递给 parallel\_for 的代码(定义为图 2-18 中的 lambda 表达式)是要在设备上执行的设备代码。在这种情况下, parallel\_for 是让我们区分设备代码和主机代码的构造。parallel\_for 是一小组设备调度机制之一, 所有成员都是处理程序类, 定义要在设备上执行的代码。图 2-19 给出了处理程序类的简化定义。

除了调用处理程序类的成员来提交设备代码之外,还有队列类的成员允许提交工作。图 2-20 中所示的队列类成员是简化某些模式的快捷方式,我们将在以后的章节中看到这些快捷方式的使用。

#### 2.8.3 行动

图 2-18 中的代码包含一个 parallel\_for, 它定义了要在设备上执行的工作。Parallel\_for 位于提交给队列的命令组 (CG) 内, 队列定义要在其上执行工作的设备。在命令组内, 有两类代码:

- 1. 设置依赖关系的主机代码,定义运行时何时可以安全地开始执行 (2) 中定义的工作,例如创建缓冲区访问器 (第3章中描述)
- 2. 最多调用一次对设备代码进行排队以供执行或执行手动内存操作(例如复制)的操作

处理程序类包含一小组成员函数,这些函数定义执行任务图节点时要执行的操作。图 2-21 总结了这些操作。

一个命令组内最多可以调用图 2-21 中的一个操作(调用多个操作是错误的),并且每个提交调用只能将一个命令组提交到队列中。其结果是,每个任务图节点都存在图 2-21 中的单个(或可能没有)操作,该操作将在满足节点依赖性并且运行时确定可以安全执行时执行。

代码在未来异步执行的想法是作为主机程序的一部分在 CPU 上运行的 代码与将来在满足依赖性时运行的设备代码之间的关键区别。命令组通常 包含每个类别的代码,其中定义依赖关系的代码作为主机程序的一部分运 行(以便运行时知道依赖关系是什么),而设备代码则在满足依赖关系后运 行。 图 2-22 中有三类代码:

- 1. 主机代码:驱动应用程序,包括创建和管理数据缓冲区以及将工作提 交到队列以在任务图中形成新节点以进行异步执行。
- 2. 命令组内的主机代码: 此代码在执行主机代码的处理器上运行,并在提交调用返回之前立即执行。例如,此代码通过创建访问器来设置节点依赖性。任何任意 CPU 代码都可以在这里执行,但最佳实践是将其限制为配置节点依赖项的代码。
- 3. 操作:图 2-21 中列出的任何操作都可以包含在命令组中,它定义了将来满足节点要求时异步执行的工作(由(2)设置)。

要了解应用程序中的代码何时运行,请注意,传递给图 2-21 中列出的启动设备代码执行的操作的任何内容,或图 2-21 中列出的显式内存操作,将来当 SYCL 任务图(稍后描述)节点依赖性已得到满足。所有其他代码立即作为主机程序的一部分运行,正如典型 C++ 代码中所预期的那样。

需要注意的是,虽然设备代码可以在满足任务图节点依赖性时开始(异步)运行,但不能保证设备代码在此时开始运行。确保设备代码开始执行的唯一方法是让主机程序通过主机访问器或队列等待操作等机制等待(阻塞)设备代码执行的结果,我们将在后面的章节中介绍这些机制。如果没有此类主机阻塞操作,SYCL 和较低级别的运行时将决定何时开始执行设备代码,可能会针对"尽快运行"以外的目标进行优化,例如针对功耗或拥塞进行优化。

#### 2.8.4 主机任务

一般来说,提交到队列(例如通过 parallel\_for)的操作执行的代码是设备代码,遵循一些语言限制,使其能够在许多体系结构上高效运行。不过,有一个重要的偏差是通过名为 host\_task 的处理程序方法访问的。此方法允许将任意 C++ 代码作为任务图中的操作提交,并在满足任何任务图依赖性后在主机上执行。

宿主任务在某些程序中很重要,原因有二:

1. 可以包含任意 C++, 甚至 std::cout 或 printf。这对于轻松调试、与 OpenCL 等较低级别 API 的互操作性或在现有代码中逐步启用加速器 非常重要。

2. 主机任务作为任务图的一部分异步执行,而不是与主机程序同步执行。 尽管主机程序可以启动附加线程或使用其他任务并行方法,但主机任 务与 SYCL 运行时的依赖性跟踪机制集成。当设备和主机代码需要分 散时,这非常方便,并且可能会带来更高的性能。

图 2-23 演示了一个简单的主机任务,当满足任务图依赖性时,它使用 std::cout 输出文本。请记住,主机任务是与主机程序的其余部分异步执行的。这是任 务图机制的强大部分,其中 SYCL 运行时在安全时安排工作,而无需与主 机程序交互,而主机程序可能会继续其他工作。

另请注意,主机任务的代码主体不需要遵循对设备代码施加的任何限制(如第 10 章所述)。

图 2-23 中的示例基于事件(在第 3 章中描述)来创建设备代码提交和后续主机任务之间的依赖关系,但是主机任务也可以通过以下方式与访问器(也在第 3 章中介绍)一起使用: target::host\_task 的特殊访问器模板参数化(第 7 章)。

## 2.9 概括

在本章中,我们概述了队列、与队列关联的设备的选择以及如何创建自定义设备选择器。我们还概述了满足依赖性时在设备上异步执行的代码与作为 C++ 应用程序主机代码的一部分执行的代码。第 3 章介绍如何控制数据移动。

# 3 数据管理

超级计算机架构师经常感叹需要"喂养野兽"。"喂养野兽"一词指的是当我们使用大量并行性时我们创建的计算机的"野兽",并向其提供数据成为需要解决的关键挑战。

在异构机器上提供 SYCL 程序需要小心,以确保数据在需要时位于需要的位置。在大型程序中,这可能需要大量工作。在现有的 C++ 程序中,仅仅弄清楚如何管理所需的所有数据移动就可能是一场噩梦。

我们将仔细解释管理数据的两种方式: 统一共享内存(USM)和缓冲区。USM 是基于指针的, C++程序员对此很熟悉。缓冲区提供了更高级别的抽象。选择是好的。

我们需要控制数据的移动,本章将介绍实现这一目标的选项。

在第2章中,我们研究了如何控制代码的执行位置。我们的代码需要数据作为输入并生成数据作为输出。由于我们的代码可能在多个设备上运行,并且这些设备不一定共享内存,因此我们需要管理数据移动。即使数据是共享的(例如使用 USM),同步和一致性也是我们需要理解和管理的概念。

一个合乎逻辑的问题可能是"为什么编译器不自动为我们完成所有事情?"虽然可以自动为我们处理很多事情,但如果我们不宣称自己是程序员,那么性能通常不是最佳的。在实践中,为了获得最佳性能,我们在编写异构程序时需要关注代码放置(第2章)和数据移动(本章)。

本章概述了管理数据,包括控制数据使用的顺序。它是对前一章的补充,前一章向我们展示了如何控制代码的运行位置。本章帮助我们有效地使数据出现在我们要求代码运行的位置,这不仅对于正确执行应用程序很重要,而且对于最大限度地减少执行时间和功耗也很重要。

## 3.1 介绍

没有数据,计算就毫无意义。加速计算的全部目的是更快地产生答案。 这意味着数据并行计算最重要的方面之一是它们如何访问数据,并将加速器 设备引入机器使情况进一步复杂化。在传统的基于单插槽 CPU 的系统中, 我们只有一个内存。加速器设备通常有自己的附加存储器,无法从主机直接 访问。因此,支持分立设备的并行编程模型必须提供管理这些多个存储器并 在它们之间移动数据的机制。

在本章中, 我们概述了数据管理的各种机制。我们介绍了统一共享内存

和数据管理的缓冲区抽象,并描述了内核执行和数据移动之间的关系。

## 3.2 数据管理问题

从历史上看,用于并行编程的共享内存模型的优点之一是它们提供了单一的共享内存视图。拥有这种单一的内存视图可以简化生活。我们不需要做任何特殊的事情来从并行任务访问内存(除了适当的同步以避免数据竞争)。虽然某些类型的加速器设备(例如集成 GPU)与主机 CPU 共享内存,但许多离散加速器都有自己的本地内存,与 CPU 的内存分开,如图 3-1 所示。

## 3.3 本地设备与远程设备

在使用直接连接到设备的内存(而不是远程内存)读取和写入数据时,在设备上运行的程序通常性能更好。我们将对直接连接的存储器的访问称为本地访问。对另一台设备内存的访问是远程访问。远程访问往往比本地访问慢,因为它们必须通过带宽较低和/或延迟较高的数据链路进行传输。这意味着将计算和它将使用的数据放在一起通常是有利的。为了实现这一目标,我们必须以某种方式确保数据在不同内存之间复制或迁移,以便将其移至更靠近计算发生的位置。

## 3.4 管理多个内存

管理多个内存大致可以通过两种方式完成:显式地通过我们的程序或 隐式地通过 SYCL 运行时库。每种方法都有其优点和缺点,我们可以根据 情况或个人喜好选择其中一种。

#### 3.4.1 显式数据移动

管理多个存储器的一种选择是在不同存储器之间显式复制数据。图 3-2 显示了一个具有离散加速器的系统,我们必须首先将内核所需的任何数据从主机内存复制到加速器内存。内核计算结果后,我们必须将这些结果复制回主机,然后主机程序才能使用该数据。

显式数据移动的主要优点是我们可以完全控制数据在不同内存之间传输的时间。这很重要,因为重叠计算与数据传输对于在某些硬件上获得最佳性能至关重要。

显式数据移动的缺点是指定所有数据移动可能很乏味且容易出错。传输不正确的数据量或不确保在内核开始计算之前已传输所有数据可能会导致不正确的结果。从一开始就确保所有数据移动正确可能是一项非常耗时的任务。

#### 3.4.2 隐式数据

程序控制的显式数据移动的替代方案是由并行运行时或驱动程序控制 的隐式数据移动。在这种情况下,并行运行时不需要在不同内存之间进行显式复制,而是负责确保数据在使用之前传输到适当的内存。

隐式数据移动的优点是,应用程序无需花费太多精力即可利用直接连接到设备的更快内存。所有繁重的工作都是由运行时自动完成的。这也减少了在程序中引入错误的机会,因为运行时将自动识别何时必须执行数据传输以及必须传输多少数据。

隐式数据移动的缺点是我们对运行时隐式机制的行为控制较少或无法 控制。运行时将提供功能正确性,但可能无法以最佳方式移动数据,以确保 计算与数据传输的最大重叠,这可能会对程序性能产生负面影响。

#### 3.4.3 选择正确的策略

为项目选择最佳策略可能取决于许多不同的因素。不同的策略可能适合程序开发的不同阶段。我们甚至可以决定最好的解决方案是混合和匹配程序不同部分的显式和隐式方法。我们可能会选择开始使用隐式数据移动来简化将应用程序移植到新设备的过程。当我们开始调整应用程序的性能时,我们可能会开始在代码的性能关键部分用显式数据移动替换隐式数据移动。未来的章节将介绍如何将数据传输与计算重叠以优化性能。

#### 3.5 USM、缓冲区和图像

管理内存有三个抽象:统一共享内存(USM)、缓冲区和图像。USM 是一种基于指针的方法,C/C++程序员应该熟悉。USM 的优点之一是更容易与现有的操作指针的 C++代码集成。缓冲区(由缓冲区模板类表示)描述一维、二维或三维数组。它们提供了可以在主机或设备上访问的内存的抽象视图。缓冲区不由程序直接访问,而是通过访问器对象使用。图像充当一种特殊类型的缓冲区,提供特定于图像处理的额外功能。此功能包括对特殊

图像格式的支持、使用采样器对象读取图像等等。缓冲区和图像是强大的抽象,可以解决许多问题,但重写现有代码中的所有接口以接受缓冲区或访问器可能非常耗时。由于缓冲区和图像的接口基本相同,因此本章的其余部分将仅关注 USM 和缓冲区。

## 3.6 统一共享内存

USM 是我们可用于数据管理的一种工具。USM 是一种基于指针的方法,使用 malloc 或 new 分配数据的 C 和 C++ 程序员应该熟悉它。USM 简化了移植大量使用指针的现有 C/C++ 代码的过程。支持 USM 的设备支持统一的虚拟地址空间。拥有统一的虚拟地址空间意味着主机上的 USM 分配例程返回的任何指针值都将是设备上的有效指针值。我们不必手动转换主机指针来获取"设备版本"——我们在主机和设备上看到相同的指针值。

USM 的更详细描述可以在第6章中找到。

#### 3.6.1 通过指针访问内存

由于当系统同时包含主机内存和一定数量的设备连接本地内存时,并非所有内存都是平等创建的,因此 USM 定义了三种不同类型的分配:设备、主机和共享。所有类型的分配都在主机上执行。图 3-3 总结了每种分配类型的特征。

设备分配发生在设备附加内存中。这样的分配可以在设备上读取和写 入,但不能从主机直接访问。我们必须使用显式复制操作在主机内存中的常 规分配和设备分配之间移动数据。

主机分配发生在主机内存中,主机和设备上都可以访问该内存。这意味着相同的指针值在主机代码和设备内核中都有效。然而,当访问这样的指针时,数据总是来自主机存储器。如果在设备上访问,数据不会从主机迁移到设备本地内存。相反,数据通常通过总线发送,例如将设备连接到主机的PCI Express (PCI-E)。

主机和设备上都可以访问共享分配。在这方面,它与主机分配非常相似,但不同之处在于数据现在可以在主机内存和设备本地内存之间迁移。这意味着迁移发生后,设备上的访问将从更快的设备本地内存中进行,而不是通过延迟较高的连接远程访问主机内存。通常,这是通过运行时内部的机制和对我们隐藏的较低级别驱动程序来完成的。

#### 3.6.2 USM 和数据移动

USM 支持显式和隐式数据移动策略,不同的分配类型映射到不同的策略。设备分配要求我们在主机和设备之间显式移动数据,而主机和共享分配提供隐式数据移动。

### USM 中的显式数据移动

USM 的显式数据移动是通过设备分配以及队列和处理程序类中的特殊 memcpy()来完成的。我们将 memcpy()操作(动作)排入队列,以将数据从主机传输到设备或从设备传输到主机。

图 3-4 包含一个在设备分配上运行的内核。在内核使用 memcpy() 操作执行之前和之后,数据会在 host\_array 和 device\_array 之间复制。调用队列上的 wait() 可确保在内核执行之前完成到设备的复制,并确保在数据复制回主机之前内核已完成。我们将在本章后面学习如何消除这些调用。

#### USM 中的隐式数据移动

USM 的隐式数据移动是通过主机和共享分配来完成的。通过这些类型的分配,我们不需要显式插入复制操作来在主机和设备之间移动数据。相反,我们只需访问内核内部的指针,任何所需的数据移动都会自动执行,无需程序员干预(只要您的设备支持这些分配)。这极大地简化了现有代码的移植:最多我们只需要简单地用适当的 USM 分配函数(以及调用 free 来释放内存)替换任何 malloc 或 new ,并且一切都应该正常工作。

在图 3-5 中,我们创建了两个数组: host\_array 和 shared\_array,分别是主机分配和共享分配。虽然主机和共享分配都可以在主机代码中直接访问,但我们在这里只初始化 host\_array。同样,可以在内核内部直接访问,进行数据的远程读取。运行时确保 shared\_array 在内核访问它之前在设备上可用,并且当主机代码稍后读取它时将其移回,所有这些都无需程序员干预。

#### 3.7 缓冲器

为数据管理提供的另一个抽象是缓冲区对象。缓冲区是一种数据抽象,表示给定 C++ 类型的一个或多个对象。缓冲区对象的元素可以是标量数据类型 (例如 int、float 或 double)、向量数据类型 (第 11 章) 或用户定义的类或结构。SYCL 2020 定义了一个新概念"设备可复制",它扩展了可简单复制的概念,并添加了允许类型集。特别是,如果常见 C++ 类 (例如 std::array、std::pair、std::tuple 或 std::span) 中的模板化类型本身是设备可复制的,那

么使用这些类型构建的那些 C++ 类特化也是设备可复制的可复制。在将数据类型与缓冲区一起使用之前,请注意您的数据类型是设备可复制的!

虽然缓冲区本身是单个对象,但缓冲区封装的 C++ 类型可以是包含多个对象的数组。缓冲区代表数据对象而不是特定的内存地址,因此不能像常规 C++ 数组一样直接访问。事实上,出于性能原因,缓冲区对象可能映射到多个不同设备上的多个不同内存位置,甚至映射到同一设备上。相反,我们使用访问器对象来读取和写入缓冲区。

缓冲区的更详细描述可以在第7章中找到。

#### 3.7.1 创建缓冲区

可以通过多种方式创建缓冲区。最简单的方法是简单地构造一个新的缓冲区,其范围指定缓冲区的大小。然而,以这种方式创建缓冲区并不会初始化其数据,这意味着我们必须首先通过其他方式初始化缓冲区,然后才能尝试从中读取有用的数据。

还可以根据主机上的现有数据创建缓冲区。这是通过调用几个构造函数之一来完成的,这些构造函数采用指向现有主机分配的指针、一组 InputIterators 或具有某些属性的容器。在缓冲区构造期间,数据从现有主机分配复制到缓冲区对象的主机内存中。还可以使用 SYCL 互操作性功能(例如,从 OpenCL cl\_mem 对象)从特定于后端的对象创建缓冲区。有关如何执行此操作的更多详细信息,请参阅有关互操作性的章节。

#### 3.7.2 访问缓冲区

主机和设备可能无法直接访问缓冲区(除非通过此处未描述的高级且不常用的机制)。相反,我们必须创建访问器才能读取和写入缓冲区。访问器为运行时提供有关我们计划如何使用缓冲区中的数据的信息,使其能够正确安排数据移动。

#### 3.7.3 接入方式

创建访问器时,我们可以通知运行时我们将如何使用它来提供更多优化信息。我们通过指定访问模式来做到这一点。访问模式在图 3-7 中描述的 access\_mode 枚举类中定义。在图 3-6 所示的代码示例中,访问器my\_accessor 是使用默认访问模式 access\_mode::read\_write 创建的。这让运行时知道我们打算通过 my\_accessor 读取和写入缓冲区。访问模式是运

行时优化隐式数据移动的方式。例如,access\_mode::read 告诉运行时,在该内核开始执行之前,数据需要在设备上可用。如果内核仅通过访问器读取数据,则无需在内核完成后将数据复制回主机,因为我们没有修改它。同样,access\_mode::write 让运行时知道我们将修改缓冲区的内容,并且可能需要在计算结束后将结果复制回来。

使用正确的模式创建访问器可以为运行时提供有关如何在程序中使用数据的更多信息。运行时使用访问器来排序数据的使用,但它也可以使用此数据来优化内核的调度和数据移动。第7章更详细地描述了访问模式和优化标签。

## 3.8 对数据的使用进行排序

内核可以被视为提交执行的异步任务。这些任务必须提交到队列,并安排它们在设备上执行。在许多情况下,内核必须按特定顺序执行,以便计算出正确的结果。如果要获得正确结果需要任务 A 先于任务 B 执行,则称任务 A 和任务 B 之间存在依赖关系 1。

然而,内核并不是必须调度的唯一任务形式。在内核开始执行之前,内核访问的任何数据都需要在设备上可用。这些数据依赖性可以以从一个设备到另一设备的数据传输的形式创建额外的任务。数据传输任务可以是显式编码的复制操作或更常见的由运行时执行的隐式数据移动。

如果我们获取程序中的所有任务以及它们之间存在的依赖关系,我们可以使用它来将信息可视化为图表。该任务图具体来说是有向无环图(DAG),其中节点是任务,边是依赖关系。该图是有向的,因为依赖关系是单向的:任务 A 必须在任务 B 之前发生。该图是非循环的,因为它不能包含从节点返回到自身的任何循环或路径。

在图 3-8 中,任务 A 必须在任务 B 和 C 之前执行。同样,B 和 C 必须在任务 D 之前执行。由于 B 和 C 之间没有依赖关系,因此运行时可以自由地以任何顺序执行它们(甚至并行)只要任务 A 已经执行。因此,该图可能的合法顺序是 A B C D、A C B D,如果 B 和 C 可以同时执行,甚至是 A B,C D。

任务可能与所有任务的子集具有依赖性。在这些情况下,我们只想指定对正确性重要的依赖关系。这种灵活性为运行时提供了优化任务图执行顺序的自由度。在图 3-9 中,我们扩展了图 3-8 中的早期任务图,添加了任务 E 和 F,其中 E 必须在 F 之前执行。但是,任务 E 和 F 与节点 A、B、C

和 D 没有依赖关系。这允许运行时从许多可能的合法顺序中进行选择来执行所有任务。

有两种不同的方法来对队列中任务的执行(例如启动内核)进行建模: 队列可以按照提交的顺序执行任务,也可以按照我们指定的任何依赖项的 任何顺序执行任务。定义。我们可以通过多种机制来定义正确排序所需的依赖关系。

#### 3.8.1 有序队列

对任务进行排序的最简单选项是将它们提交到有序队列对象。有序队列按照任务提交的顺序执行任务,如图 3-10 所示。它们直观的任务排序意味着有序队列具有简单性的优点,但具有序列化任务的缺点,即使独立任务之间不存在依赖性。有序队列在启动应用程序时非常有用,因为它们简单、直观、执行顺序确定,并且适合许多代码。

#### 3.8.2 无序队列

由于队列对象是无序队列(除非使用 inorder 队列属性创建),因此它们必须提供对提交给它们的任务进行排序的方法。队列通过让我们通知运行时任务之间的依赖关系来对任务进行排序。可以使用命令组显式或隐式地指定这些依赖性。我们将在以下部分中分别考虑它们。

命令组是指定任务及其依赖性的对象。命令组通常编写为 C++ lambda 表达式,作为参数传递给队列对象的 Submit() 方法。该 lambda 的唯一参数是对处理程序对象的引用。处理程序对象在命令组内部使用来指定操作、创建访问器并指定依赖关系。

#### 与事件的显式依赖关系

任务之间的显式依赖关系类似于我们看到的示例(图 3-8),其中任务 A 必须在任务 B 之前执行。以这种方式表达依赖关系侧重于基于发生的计算而不是计算访问的数据的显式排序。请注意,表达计算之间的依赖关系主要与使用 USM 的代码相关,因为使用缓冲区的代码通过访问器表达大多数依赖关系。在图 3-4 和 3-5 中,我们只是告诉队列等待所有先前提交的任务完成,然后再继续。相反,我们可以通过事件对象来表达任务依赖性。将命令组提交到队列时,submit() 方法返回一个事件对象。这些事件可以通过两种方式使用。

首先,我们可以通过显式调用事件的 wait() 方法来通过主机进行同步。这会强制运行时等待生成事件的任务完成执行,然后主机程序才能继续执行。显式等待事件对于调试应用程序非常有用,但 wait() 可能会过度限制任务的异步执行,因为它会停止主机线程上的所有执行。类似地,我们还可以对队列对象调用 wait(), 这将阻止主机上的执行,直到所有排队的任务完成为止。如果我们不想跟踪排队任务返回的所有事件,这可能是一个有用的工具。

这给我们带来了使用事件的第二种方式。处理程序类包含一个名为 depends\_on()的方法。此方法接受单个事件或事件向量,并通知运行时正在提交的命令组需要完成指定的事件,然后才能执行命令组内的操作。图 3-11显示了如何使用 dependent\_on()来排序任务的示例。

#### 与访问器的隐式依赖关系

任务之间的隐式依赖关系是根据数据依赖关系创建的。任务之间的数据依赖关系有三种形式,如图 3-12 所示。

数据依赖性以两种方式表达给运行时:访问器和程序顺序。运行时必须使用两者来正确计算数据依赖性。图 3-13 和 3-14 对此进行了说明。

在图 3-13 和 3-14 中,我们执行三个内核——computeB、readA 和 computeC——然后在主机上读回最终结果。内核 computeB 的命令组创建 两个访问器 a 和 b。这些访问器使用访问标记 read\_only 和 write\_only 进行优化,以指定我们不使用默认访问模式 access\_mode::read\_write。我们将在第 7 章中了解有关访问标记的更多信息。内核 computeB 读取缓冲区 a\_buf 并写入缓冲区 b\_buf。在内核开始执行之前,必须将缓冲区 a\_buf 从主机复制到设备。

内核 readA 还为缓冲区 a\_buf 创建一个只读访问器。由于内核 readA 是在内核 computeB 之后提交的,因此这会创建 Read-afterRead (RAR) 场景。然而,RAR 不会对运行时施加额外的限制,并且内核可以自由地以任何顺序执行。事实上,运行时可能更喜欢在内核 computeB 之前执行内核 readA,甚至同时执行两者。两者都需要将缓冲区 a\_buf 复制到设备,但内核 computeB 还需要复制缓冲区 b\_buf,以防任何现有值不被 computeB 覆盖并且可能被以后的内核使用。这意味着运行时可以在缓冲区 b\_buf 的数据传输发生时执行内核 readA,并且还表明即使内核仅写入缓冲区,缓冲区的原始内容仍可能被移动到设备,因为无法保证缓冲区中的所有值都将由内核写入(请参阅第7章了解允许我们在这些情况下进行优化的标签)。

内核 computeC 读取缓冲区 b\_buf, 这是我们在内核 computeB 中计算的。由于我们在提交内核 computeB 之后提交了内核 computeC, 这意味着内核 computeC 对缓冲区 b\_buf 有 RAW 数据依赖。RAW 依赖关系也称为真实依赖关系或流依赖关系,因为数据需要从一个计算流到另一个计算才能计算出正确的结果。最后,我们还在内核 computeC 和主机之间创建对缓冲区 c\_buf 的 RAW 依赖,因为主机希望在内核完成后读取 C。这会强制运行时将缓冲区 c\_buf 复制回主机。由于设备上没有对缓冲区 a\_buf进行写入,因此运行时不需要将该缓冲区复制回主机,因为主机已经拥有最新的副本。

在图 3-15 和 3-16 中,我们再次执行三个内核: computeB、rewriteA 和 rewriteB。内核 computeB 再次读取缓冲区 a\_buf 并写入缓冲区 b\_buf,内核 rewriteA 写入缓冲区 a\_buf,内核 rewriteB 写入缓冲区 b\_buf。理论上,内核 rewriteA 可以比内核 computeB 更早执行,因为在内核准备好之前需要传输的数据较少,但它必须等到内核 computeB 完成之后,因为对缓冲区 a buf 存在 WAR 依赖性。

在这个例子中,内核 computeB 需要来自主机的 A 的原始值,如果内核 rewriteA 在内核 computeB 之前执行,它将读取错误的值。WAR 依赖也称为反依赖。RAW 依赖性确保数据正确地流向正确的方向,而 WAR 依赖性确保现有值在读取之前不会被覆盖。WAW 对缓冲区 b\_buf 的依赖在内核重写函数中也类似。如果在内核 computeB 和 rewriteB 之间提交了对缓冲区 b\_buf 的任何读取,它们将导致 RAW 和 WAR 依赖性,从而正确排序任务。然而,在此示例中,内核 rewriteB 和主机之间存在隐式依赖性,因为最终数据必须写回主机。我们将在第7章中详细了解导致此写回的原因。WAW 依赖性,也称为输出依赖性,可确保最终输出在主机上正确。

## 3.9 选择数据管理策略

为我们的应用程序选择正确的数据管理策略很大程度上取决于个人喜好。事实上,我们可能会从一种策略开始,随着我们的计划成熟而转向另一种策略。然而,有一些有用的指南可以帮助我们选择满足我们需求的策略。

首先要做的决定是我们是否要使用显式或隐式数据移动,因为这极大 地影响了我们需要对程序执行的操作。隐式数据移动通常是一个更容易开 始的地方,因为所有数据移动都为我们处理,让我们专注于计算的表达。

如果我们决定从一开始就完全控制所有数据移动,那么我们要从使用

USM 设备分配的显式数据移动开始。我们只需要确保在主机和设备之间添加所有必要的副本即可!

当选择隐式数据移动策略时,我们仍然可以选择是使用缓冲区还是USM 主机或共享指针。同样,这种选择取决于个人喜好,但有几个问题可以帮助我们选择其中一个。如果我们要移植使用指针的现有 C/C++ 程序,USM 可能是一条更简单的路径,因为大多数代码不需要更改。如果数据表示没有引导我们做出偏好,我们可以问的另一个问题是我们希望如何表达内核之间的依赖关系。如果我们更愿意考虑内核之间的数据依赖性,请选择缓冲区。如果我们更愿意将依赖关系视为在另一项计算之前执行一项计算,并希望使用有序队列或显式事件或内核之间的等待来表达这一点,请选择 USM。

当使用 USM 指针(显式或隐式数据移动)时,我们可以选择要使用哪种类型的队列。中序队列简单直观,但它们限制了运行时间并可能限制性能。无序队列更复杂,但它们为运行时提供了更大的自由度来重新排序和重叠执行。如果我们的程序在内核之间具有复杂的依赖关系,那么无序队列类是正确的选择。如果我们的程序只是一个接一个地运行许多内核,那么有序队列对我们来说将是一个更好的选择。

## 3.10 处理程序类: 关键成员

我们已经展示了多种使用处理程序类的方法。图 3-17 和 3-18 提供了这个非常重要的类的关键成员的更详细的解释。我们还没有使用所有这些成员,但稍后将在本书中使用它们。这是放置它们的好地方。

一个密切相关的类,队列类,在第2章末尾有类似的解释。

#### 3.11 概括

在本章中,我们介绍了解决数据管理问题的机制以及如何排序数据的使用。使用加速器设备时,管理对不同内存的访问是一个关键挑战,我们有不同的选项来满足我们的需求。

我们概述了数据使用之间可能存在的不同类型的依赖关系,并描述了 如何向队列提供有关这些依赖关系的信息,以便它们正确排序任务。

本章概述了统一共享内存和缓冲区。我们在第 6 章中更详细地探讨了 USM 的所有模式和行为。第 7 章更深入地探讨了缓冲区,包括创建缓冲区

和控制其行为的所有不同方法。第8章回顾了控制内核执行和数据移动顺序的队列调度机制。

# 4 表达并行性

我们已经知道如何在设备上放置代码(第2章)和数据(第3章)——我们现在要做的就是决定如何处理它。为此,我们现在转而填补一些迄今为止我们方便地遗漏或掩盖的事情。本章标志着从简单的教学示例到现实世界并行代码的转变,并扩展了我们在前面的章节中随意展示的代码示例的细节。

用一种新的并行语言编写我们的第一个程序似乎是一项艰巨的任务,特别是如果我们是并行编程的新手。语言规范不是为应用程序开发人员编写的,并且通常假设对术语有一定的熟悉;它们不包含以下问题的答案:

为什么有不止一种方式来表达并行性?

我应该使用哪种表达并行性的方法?

关于执行模型我到底需要了解多少?

本章旨在解决这些问题以及更多问题。我们介绍了数据并行内核的概念,使用工作代码示例讨论了不同内核形式的优点和缺点,并强调了内核执行模型的最重要方面。

## 4.1 内核内的并行性

近年来,并行内核作为表达数据并行性的强大手段而出现。基于内核的方法的主要设计目标是跨各种设备的可移植性和高程序员生产力。因此,内核通常不会被硬编码为与特定数量或配置的硬件资源(例如,核心、硬件线程、SIMD[单指令,多数据]指令)一起工作。相反,内核根据抽象概念来描述并行性,然后实现(即编译器和运行时的组合)可以将其映射到特定目标设备上可用的硬件并行性。尽管此映射是实现定义的,但我们可以(并且应该)相信实现选择合理且能够有效利用硬件并行性的映射。

以与硬件无关的方式公开大量并行性可确保应用程序可以扩展(或缩小)以适应不同平台的功能,但是......

支持的设备存在很大的多样性,我们必须记住,不同的架构是针对不同的用例设计和优化的。每当我们希望在特定设备上实现最高水平的性能时,无论我们使用哪种编程语言,我们都应该始终期望需要一些额外的手动优化工作!此类特定于设备的优化的示例包括针对特定缓存大小的阻塞、选择分摊调度开销的工作粒度大小、利用专用指令或硬件单元,以及最重要的是选择适当的算法。其中一些示例将在第 15、16 和 17 章中重新讨论。

在应用程序开发过程中在性能、可移植性和生产力之间取得适当的平衡是我们所有人都必须面对的挑战,也是本书无法完全解决的挑战。然而,我们希望表明,带有 SYCL 的 C++ 提供了使用单一高级编程语言维护通用可移植代码和优化的目标特定代码所需的所有工具。剩下的就留给读者作为练习了!

## 4.2 循环与内核

迭代循环本质上是串行构造:循环的每次迭代都是按顺序执行的(即按顺序)。优化编译器也许能够确定循环的部分或全部迭代可以并行执行,但它必须是保守的-如果编译器不够智能或没有足够的信息来证明并行执行始终是安全的,则它必须保留循环的顺序语义以确保正确性。

考虑图 4-1 中的循环,它描述了一个简单的向量加法。即使在这样的简单情况下,证明循环可以并行执行也不是微不足道的:只有当 c 不与 a 或 b 重叠时,并行执行才是安全的,而在一般情况下,如果没有运行时检查,就无法证明这一点!为了解决这样的情况,语言添加了一些功能,使我们能够为编译器提供额外的信息,这些信息可以简化分析(例如,断言指针不与限制重叠)或完全覆盖所有分析(例如,声明循环是独立的或准确定义如何将循环调度到并行资源)。

并行循环的确切含义有些模糊(由于不同并行编程语言和运行时对该术语的重载),但许多常见的并行循环结构表示应用于顺序循环的编译器转换。这种编程模型使我们能够编写顺序循环,然后才提供有关如何安全地并行执行不同迭代的信息。这些模型非常强大,与其他最先进的编译器优化集成良好,并极大地简化了并行编程,但并不总是鼓励我们在开发的早期阶段考虑并行性。

并行内核不是循环并且没有迭代。相反,内核描述了单个操作,该操作可以多次实例化并应用于不同的输入数据;当并行启动内核时,该操作的多个实例可能会同时执行。

图 4-2 显示了使用伪代码重写为内核的简单循环示例。该内核中的并行机会是清晰明确的:内核可以由任意数量的实例并行执行,并且每个实例独立地应用于单独的数据块。通过将此操作编写为内核,我们断言并行运行是安全的(并且理想情况下应该并行运行)。

简而言之,基于内核的编程不是一种将并行性改进到现有顺序代码中的方法,而是一种编写显式并行应用程序的方法。

## 4.3 多维内核

许多其他语言的并行结构是一维的,将工作直接映射到相应的一维硬件资源(例如,硬件线程的数量)。SYCL中的并行内核是一个比这更高级别的概念,它们的维度更能反映我们的代码通常试图解决的问题(在一维、二维或三维空间中)。

然而,我们必须记住,并行内核提供的多维索引为程序员提供了便利,可以在底层一维空间之上实现。了解这种映射的行为方式可能是某些优化(例如,调整内存访问模式)的重要部分。

一个重要的考虑因素是哪个维度是连续的或单位步幅(即,多维空间中的哪些位置在一维映射中彼此相邻)。SYCL 中与并行性相关的所有多维量都使用相同的约定:维度从 0 到 N-1 进行编号,其中维度 N-1 对应于连续维度。无论多维数量被写为列表(例如,在构造函数中)或类支持多个下标运算符,此编号都从左到右应用(从左侧的维度 0 开始)。此约定与标准C++ 中多维数组的行为一致。

使用 SYCL 约定将二维空间映射到线性索引的示例如图 4-3 所示。我们当然可以自由地打破这个约定并采用我们自己的线性化索引的方法,但必须小心行事——打破 SYCL 约定可能会对受益于 strideone 访问的设备产生负面的性能影响。

如果应用程序需要三个以上的维度,我们必须负责使用模算术或其他 技术手动在多维和线性索引之间进行映射。

#### 4.4 语言特性概述

一旦我们决定编写并行内核,我们必须决定要启动什么类型的内核以及如何在程序中表示它。表达并行内核的方法有很多种,如果我们想掌握这门语言,我们需要熟悉每一种方法。

#### 4.4.1 将内核与主机代码分离

我们有几种分离主机和设备代码的替代方法,可以在应用程序中混合和匹配这些代码: C++ lambda 表达式或函数对象、通过互操作性接口定义的内核(例如 OpenCL C 源字符串)或二进制文件。其中一些选项已在第2 章中介绍,其他选项将在第10章和第20章中详细介绍。

所有这些选项都共享表达并行性的基本概念。为了保持一致性和简洁性,本章中的所有代码示例都使用 C++ lambda 表达式来表达内核。

注 13 (Lambda 表达式不被认为是有害的) 为了开始使用 sYCl, 无需完全理解 C++ 规范中有关 lambda 表达式的所有内容 - 我们需要知道的是 lambda 表达式的主体代表内核,并且 (按值) 捕获的变量将是作为参数传递给内核。

使用 lambda 表达式而不是更详细的机制来定义内核不会对性能产生影响。支持 sYCl 的 C++ 编译器始终能够理解 lambda 表达式何时表示并行内核的主体,并可以相应地针对并行执行进行优化。

有关 C++ lambda 表达式的复习及其在 sYCl 中的使用说明,请参阅 第 1 章。有关使用 lambda 表达式定义内核的更多具体细节,请参阅第 10 章。

## 4.5 不同形式的并行内核

SYCL 中有三种不同的内核形式,支持不同的执行模型和语法。可以使用任何内核形式编写可移植内核,并且可以调整以任何形式编写的内核以在各种设备类型上实现高性能。然而,有时我们可能希望使用特定的形式来使特定的并行算法更容易表达或利用其他无法访问的语言功能。

第一种形式用于基本数据并行内核,并提供编写内核的最温和的介绍。 对于基本内核,我们牺牲了对调度等低级功能的控制,以使内核的表达尽可能简单。各个内核实例如何映射到硬件资源完全由实现控制,因此随着基本 内核复杂性的增加,推断其性能变得越来越困难。

第二种形式扩展了基本内核以提供对低级性能调整功能的访问。由于历史原因,第二种形式被称为 ND 范围 (N 维范围) 数据并行,最重要的是要记住,它使某些内核实例能够分组在一起,从而允许我们对数据局部性和数据局部性进行一些控制。各个内核实例和用于执行它们的硬件资源之间的映射。

第三种形式提供了一种实验性的替代语法,用于使用类似于嵌套并行循环的语法来表达 ND 范围内核。第三种形式称为分层数据并行,指的是用户源代码中出现的嵌套结构的层次结构。编译器对此语法的支持仍然不成熟,并且许多 SYCL 实现不能像其他两种形式那样有效地实现分层数据并行内核。语法也不完整,因为 SYCL 有许多与分层内核不兼容或无法访问的性能支持功能。SYCL 中的分层并行性正在更新过程中,并且 SYCL 规

范包含一条注释,建议新代码在该功能准备就绪之前不要使用分层并行性; 为了与本说明的精神保持一致,本书的其余部分仅教授基本的和 ND 范围的并行性。

在更详细地讨论了不同内核形式的特性后,我们将在本章末尾再次讨 论如何在不同内核形式之间进行选择。

## 4.6 基础数据并行内核

并行内核的最基本形式适用于高度并行的操作(即可以完全独立且以任何顺序应用于每条数据的操作)。通过使用这种形式,我们可以实现对工作安排的完全控制。因此,它是描述性编程构造的一个示例——我们描述操作是极其并行的,并且所有调度决策都是由实现做出的。

基本数据并行内核以单程序、多数据 (SPMD) 风格编写——单个"程序"(内核)应用于多条数据。请注意,由于数据相关的分支,此编程模型仍然允许内核的每个实例在代码中采用不同的路径。

SPMD 编程模型的最大优势之一是它允许将相同的"程序"映射到多个级别和类型的并行性,而无需我们的任何明确指示。同一程序的实例可以通过管道传输、打包在一起并使用 SIMD 指令执行、分布在多个硬件线程上或三者的混合。

### 4.6.1 了解基本数据并行内核

基本并行内核的执行空间被称为它的执行范围,并且内核的每个实例被称为一个项目。图 4-4 对此进行了示意性表示。

基本数据并行内核的执行模型非常简单:它允许完全并行执行,但不保证或要求它。项目可以按任何顺序执行,包括在单个硬件线程上顺序执行(即,没有任何并行性)!因此,假设所有项目都将并行执行的内核(例如,通过尝试同步项目)可能很容易导致程序在某些设备上挂起。

然而,为了保证正确性,我们必须始终在假设内核可以并行执行的情况下编写内核。例如,我们有责任确保对内存的并发访问受到原子内存操作(参见第 19 章)的适当保护,以防止竞争条件。

#### 4.6.2 编写基本数据并行内核

基本数据并行内核使用 parallel\_for 函数表示。图 4-5 显示了如何使用 这个函数来表达向量加法,这是我们对"Hello, world!"的看法。用于并行加速器编程。

该函数仅接受两个参数:第一个是范围(或整数),指定在每个维度中启动的项目数,第二个是要对该范围中的每个索引执行的内核函数。有几个不同的类可以被接受作为内核函数的参数,并且应该使用哪个类取决于哪个类公开所需的功能-我们稍后将重新讨论这一点。

图 4-6 显示了使用该函数非常类似地表达矩阵加法,除了二维数据之外,它与向量加法(在数学上)相同。这由内核反映出来——两个代码片段之间的唯一区别是所使用的 range 和 id 类的维度!可以用这种方式编写代码,因为 SYCL 访问器可以通过多维 id 进行索引。尽管看起来很奇怪,但它非常强大,使我们能够编写根据数据维度模板化的通用内核。

在 C/C++ 中更常见的是使用多个索引和多个下标运算符来索引多维数据结构,并且访问器也支持这种显式索引。当内核同时操作不同维度的数据时,或者当内核的内存访问模式比直接使用项目的 id 描述的更复杂时,以这种方式使用多个索引可以提高可读性。

例如,图 4-7 中的矩阵乘法内核必须提取索引的两个单独分量,以便能够描述两个矩阵的行和列之间的点积。作者认为,一致使用多个下标运算符(例如, [j][k]) 比混合多种索引模式和构造二维 id 对象(例如 id(j,k))更具可读性,但这是只是个人喜好问题。

本章其余部分的示例都使用多个下标运算符,以确保所访问的缓冲区的维数不存在歧义。

图 4-8 中的图表显示了矩阵乘法内核中的工作如何映射到各个项目。请注意,项目数是根据输出范围的大小得出的,并且多个项目可以读取相同的输入值:每个项目通过顺序迭代 C 矩阵的(连续)行来计算 C 矩阵的单个值。A 矩阵和 B 矩阵的一个(不连续)列。

#### 4.6.3 基本数据并行内核的详细信息

基本数据并行内核的功能通过三个 C++ 类公开: range、id 和 item。 我们已经在前面的章节中多次看到过 range 和 id 类,但我们在这里以不同 的焦点重新审视它们。

#### Range 类

范围表示一维、二维或三维范围。范围的维度是模板参数,因此必须 在编译时已知,但每个维度的大小是动态的,并在运行时传递给构造函数。 range 类的实例用于描述并行构造的执行范围和缓冲区的大小。

图 4-9 显示了范围类的简化定义,显示了构造函数和查询其范围的各种方法。

#### id 类

id 表示一维、二维或三维范围的索引。id 的定义在许多方面与 range 相似:它的维数也必须在编译时已知,并且它可用于索引并行构造中内核的单个实例或缓冲区中的偏移量。

如图 4-10 中 id 类的简化定义所示, id 在概念上只不过是一个、两个或 三个整数的容器。我们可用的操作也非常简单:我们可以查询每个维度中索 引的组成部分,并且可以执行简单的算术来计算新的索引。

虽然我们可以构造一个 id 来表示任意索引,但要获取与特定内核实例 关联的 id,我们必须接受它(或包含它的项)作为内核函数的参数。这个 id (或者它的成员函数返回的值)必须被转发到我们想要查询索引的任何函数——目前没有任何自由函数可以在程序中的任意点查询索引,但这可以简化为 SYCL 的未来版本。

每个接受 id 的内核实例只知道它被分配计算的范围内的索引,而对范围本身一无所知。如果我们希望内核实例知道它们自己的索引和范围,我们需要使用 item 类。

#### item 类

项代表内核函数的单个实例,封装了内核的执行范围和该范围内的实例索引(分别使用范围和 id)。与 range 和 id 一样,它的维数必须在编译时已知。

图 4-11 给出了项目类的简化定义。item 和 id 之间的主要区别在于 item 公开了额外的函数来查询执行范围的属性(例如,其大小)以及计算线性化索引的便利函数。与 id 一样,获取与特定内核实例关联的项的唯一方法是将其作为内核函数的参数接受。

#### 4.7 显式 ND 范围内核

并行内核的第二种形式用项目属于组的执行范围替换基本数据并行内 核的平坦执行范围。这种形式最适合我们想要在内核中表达某些局部性概 念的情况。为不同类型的组定义和保证不同的行为,使我们能够更深入地了

解和/或控制如何将工作映射到特定的硬件平台。

因此,这些显式 ND 范围内核是更具规范性的并行构造的示例 - 我们规定了工作到每种类型组的映射,并且实现必须遵守该映射。然而,它并不完全是规定性的,因为组本身可以按任何顺序执行,并且实现对于每种类型的组如何映射到硬件资源保留了一定的自由度。这种规范性和描述性编程的结合使我们能够针对局部性设计和调整内核,而不会破坏其可移植性。

与基本数据并行内核一样,ND 范围内核以 SPMD 风格编写,其中所有工作项都执行应用于多个数据的相同内核"程序"。主要区别在于每个程序实例都可以查询其在包含它的组中的位置,并且可以访问特定于每种类型的组的附加功能(请参见第9章)。

#### 4.7.1 了解显式 ND 范围并行内核

ND 范围内核的执行范围分为工作组、子组和工作项。ND-range 表示总的执行范围,它被划分为统一大小的工作组(即,工作组大小必须在每个维度上精确地除以 ND-range 大小)。每个工作组可以根据实施进一步划分为子组。了解为工作项和每种类型的组定义的执行模型是编写正确且可移植的程序的重要组成部分。

图 4-12 显示了大小为 (8, 8, 8) 的 ND 范围分为 8 个大小为 (4, 4, 4) 的工作组的示例。每个工作组包含 16 个一维子组,每组有 4 个工作项。请特别注意维度的编号:子组始终是一维的,因此 ND 范围和工作组的维度 2 成为子组的维度 0。

从每种类型的组到硬件资源的精确映射是实现定义的,正是这种灵活性使得程序能够在各种硬件上执行。例如,工作项可以完全顺序执行、由硬件线程和/或 SIMD 指令并行执行、或者甚至由专门为内核配置的硬件管道执行。

在本章中,我们仅关注 ND 范围执行模型在通用目标平台方面的语义保证,并且我们不会涵盖其到任何一个平台的映射。有关 GPU、CPU 和 FPGA 的硬件映射和性能建议的详细信息,请分别参阅第 15、16 和 17 章。

#### 4.7.2 编写显式 ND 范围数据并行内核

#### 工作项

工作项代表核函数的各个实例。在没有其他分组的情况下,工作项可以按任何顺序执行,并且不能相互通信或同步,除非通过对全局内存的原子内

存操作(参见第19章)。

#### 工作组

ND 范围内的工作项被组织成工作组。工作组可以按任何顺序执行,不同工作组中的工作项不能相互通信,除非通过对全局内存的原子内存操作(参见第 19 章)。然而,当使用某些构造时,工作组内的工作项具有一些调度保证,并且该局部性提供了一些附加功能:

- 1. 工作组中的工作项可以访问工作组本地内存,该内存可能会映射到 某些设备上的专用快速内存(请参阅第9章)。
- 2. 工作组中的工作项可以使用工作组屏障进行同步,并使用工作组内存栅栏保证内存一致性(参见第9章)。
- 3. 工作组中的工作项可以访问组功能,提供通用通信例程(参见第9章)和组算法的实现,提供通用并行模式的实现,例如归约和扫描(参见第14章)。

工作组中工作项的数量通常在运行时为每个内核配置,因为最佳分组 将取决于可用并行度(即 ND 范围的大小)和目标设备的属性。我们可以使 用设备类的查询函数确定特定设备支持的每个工作组的最大工作项数(参 见第 12 章),并且我们有责任确保每个内核请求的工作组大小已验证。

工作组执行模型中有一些微妙之处值得强调。

首先,虽然工作组中的工作项被调度到单个计算单元,但是工作组的数量和计算单元的数量之间不需要有任何关系。事实上,ND 范围内的工作组数量可能比给定设备可以同时执行的工作组数量大很多倍! 我们可能会尝试编写通过依赖非常聪明的设备特定调度来跨工作组同步的内核,但我们强烈建议不要这样做——这样的内核今天可能可以工作,但不能保证它们将来也能工作实现,并且当移动到不同的设备时很可能会中断。

其次,虽然工作组中的工作项目被安排为可以相互合作,但它们不需要 提供任何具体的前进进度保证——在障碍和集体之间顺序执行工作组内的 工作项目是一种有效实施。仅当使用提供的屏障和集合函数执行时,同一工 作组中的工作项之间的通信和同步才能保证安全,并且手工编码的同步例 程可能会死锁。

#### 子组

在许多现代硬件平台上,工作组中的工作项子集(称为子组)在附加调度保证的情况下执行。例如,子组中的工作项可以由于编译器向量化而同时执行,和/或子组本身可以以强大的前进进度保证来执行,因为它们被映射

到独立的硬件线程。

当使用单一平台时,很容易将关于这些执行模型的假设融入到我们的 代码中,但这使得它们本质上不安全且不可移植——在不同编译器之间移 动时,甚至在不同代硬件之间移动时,它们可能会崩溃。同一个供应商!

将子组定义为语言的核心部分为我们提供了一种安全的替代方案,可以避免做出稍后可能被证明是特定于设备的假设。利用子组功能还允许我们在低级别(即接近硬件)推理工作项的执行,并且是跨许多平台实现非常高的性能水平的关键。

与工作组一样,子组内的工作项可以同步、保证内存一致性或通过组函数和组算法执行常见的并行模式。然而,子组没有工作组本地存储器的等价物(即,没有子组本地存储器)。相反,子组中的工作项可以使用组算法的子集(俗称"洗牌"操作)直接交换数据,无需显式内存操作(第9章)。

子组的某些方面是由实现定义的,不在我们的控制范围内。然而,对于给定的设备、内核和 ND 范围的组合,子组具有固定(一维)大小,我们可以使用内核类的查询函数来查询该大小(参见第 10 章和第 12 章)。默认情况下,每个子组的工作项数量也由实现选择-我们可以通过在编译时请求特定的子组大小来覆盖此行为,但必须确保我们请求的子组大小与设备兼容。

与工作组一样,子组中的工作项不需要提供任何特定的前进进度保证-实现可以自由地顺序执行子组中的每个工作项,并且仅在工作项发生变化时才在工作项之间切换。遇到子群集体函数。然而,在某些设备上,工作组内的所有子组都保证最终执行(取得进展),这是多种生产者-消费者模式的基石。这是当前实现定义的行为,因此如果我们希望内核保持可移植性,我们就不能依赖子组来取得进展。我们期望 SYCL 的未来版本能够提供描述子组进度保证的设备查询。

当为特定设备编写内核时,工作项到子组的映射是已知的,并且我们的代码通常可以利用此映射的属性来提高性能。然而,一个常见的错误是假设因为我们的代码可以在一台设备上运行,所以它也可以在所有设备上运行。图 4-13 和 4-14 仅显示了将范围为 4,4 的多维内核中的工作项映射到子组(最大子组大小为 8) 时的两种可能性。图 4-13 生成两个包含 8 个工作项的子组,而图 4-14 中的映射生成四个包含 4 个工作项的子组!

SYCL 当前不提供查询工作项如何映射到子组的方法,也不提供请求特定映射的机制。使用子组编写可移植代码的最佳方法是使用一维工作组或多维工作组,其中最高编号的维度可被内核所需的子组大小整除。

#### 编写显式 ND 范围数据并行内核

图 4-15 使用 ND 范围并行内核语法重新实现了我们之前看到的矩阵乘法内核,图 4-16 中的图表显示了该内核中的工作如何映射到每个工作组中的工作项。以这种方式对工作项进行分组可确保访问的局部性,并有望提高缓存命中率:例如,图 4-16 中的工作组的本地范围为 (4,4),包含 16 个工作项,但仅访问 4 个工作项数据量是单个工作项的数据量的四倍——换句话说,我们从内存加载的每个值都可以重复使用四次。

到目前为止,我们的矩阵乘法示例依赖于硬件缓存来优化同一工作组中的工作项对 A 和 B 矩阵的重复访问。此类硬件缓存在传统 CPU 架构上很常见,并且在 GPU 架构上变得越来越常见,但一些架构已经明确管理可以提供更高性能(例如,通过更低延迟)的"暂存器"内存。ND 范围内核可以使用本地访问器来描述应放置在工作组本地内存中的分配,然后实现可以自由地将这些分配映射到特殊内存(如果存在)。该工作组本地内存的使用将在第 9 章中介绍。

#### 4.7.3 显式 ND 范围数据并行内核的详细信息

与基本数据并行内核相比,ND 范围数据并行内核使用不同的类: range 被 nd\_range 替换, item 被 nd\_item 替换。还有两个新类,代表工作项可能所属的不同类型的组:与工作组相关的功能封装在组类中,与子组相关的功能封装在 sub\_group 类中。

#### nd\_range 类

nd\_range 使用 range 类的两个实例表示分组执行范围:一个表示全局执行范围,另一个表示每个工作组的本地执行范围。图 4-17 给出了 nd\_range 类的简化定义。

可能有点令人惊讶的是 nd\_range 类根本没有提及子组:子组范围在构造过程中没有指定并且无法查询。造成这一遗漏的原因有两个。首先,子组是一个低级实现细节,对于许多内核来说可以忽略。其次,有多种设备恰好支持一种有效的子组大小,并且在任何地方指定该大小将是不必要的冗长。与子组相关的所有功能都封装在一个专用类中,稍后将讨论该类。

### nd\_item 类

nd\_item 是项目的 ND 范围形式,再次封装了内核的执行范围以及该范围内项目的索引。nd\_item 与 item 的不同之处在于如何查询和表示其在范围中的位置,如图 4-18 中简化的类定义所示。例如,我们可以使

用 get\_global\_id() 函数查询(全局) ND 范围中的项目索引,或者使用 get\_local\_id() 函数查询项目在其(本地)父工作组中的索引。

nd\_item 类还提供了用于获取描述项目所属组和子组的类句柄的函数。 这些类提供了用于查询 ND 范围中项目索引的替代接口。

#### group 类

组类封装了与工作组相关的所有功能,简化的定义如图 4-19 所示。

group 类提供的许多函数在 nd\_item 类中都有等效的函数:例如,调用group.get\_group\_id()相当于调用 item.get\_group\_id(),调用 group.get\_local\_range()相当于调用 item.get\_local\_range()。如果我们不使用任何群函数或算法,我们还应该使用群类吗?直接使用 nd\_item 中的函数而不是创建中间组对象不是更简单吗?这里有一个权衡:使用 group 需要我们编写稍微多一些的代码,但该代码可能更容易阅读。例如,考虑图 4-20 中的代码片段:很明显,body 期望被组中的所有工作项调用,并且很明显,parallel\_for 主体中的 get\_local\_range()返回的范围是组的范围。仅使用 nd\_item 可以很容易地编写相同的代码,但读者可能会更难理解。

组类启用的另一个强大选项是能够编写通过模板参数接受任何类型的组的通用组函数。尽管 SYCL (尚未) 定义正式的 Group"概念"(在 C++20 意义上),但 group 和 sub\_group 类公开了一个公共接口,允许使用 sycl::is\_group\_v 等特征来约束模板化 SYCL 函数。如今,这种通用编码形式的主要优点是能够支持具有任意维数的工作组,以及允许函数的调用者决定该函数是否应该在工作项之间划分工作的能力。工作组或子组中的工作项。然而,SYCL 组接口被设计为可扩展的,我们期望在 SYCL 的未来版本中出现更多代表不同工作项分组的类。

## sub\_group 类

sub\_group 类封装了与子组相关的所有功能,简化的定义如图 4-21 所示。与工作组不同,sub\_group 类是访问子组功能的唯一方法;它的功能在nd\_item 中没有重复。

请注意,有单独的函数用于查询当前子组中的工作项数以及工作组内任何子组中的最大工作项数。这些是否不同以及如何不同取决于具体设备的子组实现方式,但其目的是反映编译器目标子组大小与运行时子组大小之间的任何差异。例如,非常小的工作组可以包含比编译时子组大小更少的工作项,或者可以使用不同大小的子组来处理不能被子组大小整除的工作组和维度。

## 4.8 将计算映射到工作项

到目前为止,大多数代码示例都假设内核函数的每个实例对应于对单条数据的单个操作。这是一种编写内核的简单方法,但这种一对一的映射不是由 SYCL 或任何内核形式决定的——我们始终可以完全控制数据(和计算)分配给各个工作项,并且使该分配可参数化可以是提高性能可移植性的好方法。

### 4.8.1 一对一映射

当我们编写内核以实现工作到工作项的一对一映射时,这些内核必须始终使用范围或 nd\_range 启动,其大小与需要完成的工作量完全匹配。这是编写内核的最明显的方法,在许多情况下,它工作得非常好——我们可以相信一个实现可以有效地将工作项映射到硬件。

然而,当调整系统和实现的特定组合的性能时,可能需要更加密切地关注低级调度行为。工作组对计算资源的调度是实现定义的,并且可能是动态的(即,当计算资源完成一个工作组时,它执行的下一个工作组可能来自共享队列)。动态调度对性能的影响并不是固定的,其重要性取决于内核函数每个实例的执行时间以及调度是在软件(例如在 CPU 上)还是硬件(例如在 CPU 上)中实现的因素。图形处理器)。

#### 4.8.2 多对一映射

另一种方法是编写具有工作到工作项的多对一映射的内核。在这种情况下,范围的含义发生了微妙的变化:范围不再描述要完成的工作量,而是描述要使用的工人数量。通过更改工人数量和分配给每个工人的工作量,我们可以微调工作分配以最大限度地提高性能。

编写这种形式的内核需要进行两处更改:

- 1. 内核必须接受一个描述工作总量的参数。
- 2. 内核必须包含一个将工作分配给工作项的循环。

图 4-22 给出了此类内核的一个简单示例。请注意,内核内部的循环有一种稍微不寻常的形式 - 起始索引是工作项在全局范围内的索引,步幅是工作项的总数。这种数据到工作项的循环调度确保循环的所有 N 次迭代都将由工作项执行,而且线性工作项访问连续的内存位置(以改进缓存局部性和矢量化行为)。工作可以类似地跨组或各个组中的工作项进行分配,以进一

4 表达并行性 73

步改善局部性。

这些工作分配模式很常见,我们预计 SYCL 的未来版本将引入语法糖来简化 ND 范围内核中工作分配的表达。

# 4.9 选择内核形式

在不同的内核形式之间进行选择很大程度上取决于个人喜好,并且很 大程度上受到其他并行编程模型和语言的先前经验的影响。

选择特定内核形式的另一个主要原因是它是公开内核所需的某些功能 的唯一形式。不幸的是,在开发开始之前很难确定需要哪些功能,特别是当 我们仍然不熟悉不同的内核形式及其与各种类的交互时。

我们根据自己的经验构建了两个指南来帮助我们驾驭这个复杂的空间。 这些指南应被视为初步建议,绝对不是为了取代我们自己的实验-在不同内 核形式之间进行选择的最佳方法始终是花一些时间编写每个内核形式,以 便了解哪种形式是最好的适合我们的应用和开发风格。

第一个指南是图 4-23 所示的流程图,它根据以下条件选择内核形式:

- 1. 我们是否有并行编程的经验
- 2. 无论我们是从头开始编写新代码还是移植用不同语言编写的现有并 行程序
- 3. 我们的内核是否是高度并行的,或者在内核函数的不同实例之间重 用数据
- 4. 我们是否在 SYCL 中编写新内核是为了最大限度地提高性能、提高 代码的可移植性,还是因为它提供了比低级语言更高效的表达并行性的方 法

第二个指南是向每个内核形式公开的功能集。工作组、子组、组屏障、组本地内存、组函数(例如广播)和组算法(例如扫描、归约)仅适用于ND-range 内核,因此我们应该更喜欢 NDrange 内核在我们有兴趣表达复杂算法或微调性能的情况下。

随着语言的发展,每种内核形式可用的功能预计会发生变化,但我们预计基本趋势保持不变:基本数据并行内核不会公开局部感知功能,显式 ND 范围内核将公开所有性能支持功能特征。

4 表达并行性 74

# 4.10 概括

本章介绍了使用 SYCL 在 C++ 中表达并行性的基础知识,并讨论了每种编写数据并行内核的方法的优点和缺点。

SYCL 提供对多种形式的并行性的支持,我们希望我们已经提供了足够的信息来帮助读者做好准备并开始编码!

我们只触及了表面,接下来将更深入地探讨本章中介绍的许多概念和 类: 第 9 章介绍了本地内存、屏障和通信例程的使用;除了使用 lambda 表 达式之外定义内核的不同方法将在第 10 章和第 20 章中讨论;第 15、16 和 17 章探讨了 ND 范围执行模型到特定硬件的详细映射;第 14 章介绍了使 用 SYCL 表达常见并行模式的最佳实践。

# 5 错误处理

错误处理是 C++ 的一项关键功能。本章讨论将工作卸载到设备(加速器)时遇到的独特错误处理挑战,以及 SYCL 如何使我们完全可以应对这些挑战。

检测和处理意外情况和错误在应用程序开发过程中很有帮助(想想:从事该项目的其他程序员确实会犯错误),但更重要的是在稳定和安全的生产应用程序和库中发挥关键作用。本章致力于描述 C++ 中可用的 SYCL 错误处理机制,以便我们能够了解我们的选项是什么,以及如果我们关心检测和管理错误,如何构建应用程序。

本章概述了 SYCL 中的同步和异步错误,描述了如果我们在代码中不执行任何操作来处理错误,应用程序的行为,并深入探讨允许我们处理异步错误的 SYCL 特定机制。

# 5.1 安全第一

C++ 错误处理的一个核心方面是,如果我们不采取任何措施来处理已检测到(引发)的错误,那么应用程序将终止并指示出现问题。这种行为使我们能够在编写应用程序时无需关注错误管理,并且仍然确信错误会以某种方式向开发人员或用户发出信号。当然,我们并不是建议我们应该忽略错误处理! 生产应用程序的编写应将错误管理作为架构的核心部分,但应用程序在开始开发时通常没有这样的关注点。C++ 的目标是使不处理错误的代码仍然能够观察到许多错误,即使它们没有被显式处理。

由于 SYCL 是数据并行 C++,因此同样的理念成立:如果我们在代码中不采取任何措施来管理错误,并且检测到错误,则程序将发生异常终止,让我们知道发生了错误。生产应用程序当然应该将错误管理视为软件架构的核心部分,不仅要报告,而且通常还要从错误情况中恢复。

注 14 如果我们不添加任何错误管理代码并且发生错误,我们仍然会看到程序异常终止,这表明需要进行更深入的研究。

#### 5.2 错误类型

C++ 通过其异常机制提供了一个用于通知和处理错误的框架。除此之外, 异构编程还需要额外级别的错误管理, 因为设备上或尝试在设备上启动

工作时会发生一些错误。这些错误通常与主机程序的执行及时分离,因此它们不能与常规 C++ 异常处理机制干净地集成。为了解决这个问题,有额外的机制可以使异步错误像典型的 C++ 异常一样易于管理和控制。

图 5-1 显示了典型应用程序的两个组件: (1) 主机代码按顺序运行并将工作提交到任务图以供将来执行; (2) 任务图与主机程序异步运行并执行内核或其他程序当满足必要的依赖性时对设备执行的操作。该示例显示了parallel\_for 作为任务图的一部分异步执行的操作,但其他操作也是可能的,并在第 3、4 和 8 章中讨论。

图 5-1 左右(主机和任务图)之间的区别是理解同步错误和异步错误之间差异的关键。

当主机程序执行操作(例如 API 调用或对象构造)时检测到错误条件时,就会发生同步错误。它们可以在图左侧的指令完成之前被检测到,并且导致错误的操作可以立即抛出错误。我们可以使用 try-catch 构造将特定指令包装在图的左侧,期望在 try 块结束之前检测到由于 try 内的操作而发生的错误(并因此捕获)。C++ 异常机制旨在准确处理这些类型的错误。

异步错误发生在图 5-1 右侧的部分,只有在执行任务图中的操作时才会检测到错误。当异步错误作为任务图执行的一部分被检测到时,主机程序通常已经继续执行,因此没有代码可以用 try-catch 结构包装来捕获这些错误。相反,SYCL 中有一个异步异常处理框架来处理这些相对于主机程序执行看似随机且不受控制的时间发生的错误。

# 5.3 让我们创建一些错误!

作为本章剩余部分的示例并允许我们进行实验,我们将在以下示例中 创建同步和异步错误。

## 5.3.1 同步错误

在图 5-2 中,从缓冲区创建了一个子缓冲区,但其大小非法(大于原始缓冲区)。子缓冲区的构造函数检测到此错误并在构造函数执行完成之前抛出异常。这是一个同步错误,因为它是作为主机程序执行的一部分(同步)发生的。在构造函数返回之前可以检测到错误,因此可以在错误的起源点或在主机程序中检测到错误时立即对其进行处理。

我们的代码示例没有执行任何操作来捕获和处理 C++ 异常,因此默认的 C++ 未捕获异常处理程序为我们调用 std::terminate,表示出现了问题。

### 5.3.2 异步错误

生成异步错误有点棘手,因为实现会尽可能努力同步检测和报告错误。同步错误更容易调试,因为它们发生在主机程序中的特定起始点,因此只要有可能,它们都是实现的首选。出于演示目的,生成异步错误的一种方法是在主机任务内引发异常,该任务作为任务图的一部分异步执行。图 5-3 演示了此类异常。异步错误在许多情况下都可能发生并报告,因此请注意,图 5-3 中所示的主机任务示例只是一种可能性,而不是异步错误的要求。

# 5.4 应用程序错误处理策略

C++ 异常功能旨在将程序中检测到错误的点与可能处理错误的点清楚 地分开,并且此概念非常适合 SYCL 中的同步错误和异步错误。通过抛出和 捕获机制,可以定义处理程序的层次结构,这在生产应用程序中非常重要。

构建能够以一致且可靠的方式处理错误的应用程序需要预先制定策略以及为错误管理而构建的软件架构。C++ 提供了灵活的工具来实现许多替代策略,但这种架构超出了本章的范围。有许多书籍和其他参考文献专门讨论此主题,因此我们鼓励您查阅它们以全面了解 C++ 错误管理策略。

也就是说,错误检测和报告并不总是需要达到生产规模。如果目标只是 在执行期间检测错误并报告错误(但不一定要从中恢复),则可以通过最少 的代码可靠地检测和报告程序中的错误。以下各节首先介绍如果我们忽略 错误处理并且不执行任何操作(默认行为并没有那么糟糕!)会发生什么, 然后是在基本应用程序中易于实现的推荐错误报告。

#### 5.4.1 忽略错误处理

C++ 和 SYCL 旨在告诉我们,即使我们没有显式处理错误,也会出现问题。未处理的同步或异步错误的默认结果是程序异常终止,操作系统应该告诉我们这一点。以下两个示例分别模拟了如果我们不处理同步错误和异步错误时将发生的行为。

图 5-4 显示了未处理的 C++ 异常的结果,例如,该异常可能是未处理的 SYCL 同步错误。我们可以使用此代码来测试特定操作系统在这种情况下会报告什么。

图 5-5 显示了调用 std::terminate 的示例输出,这将是我们的应用程序中未处理的 SYCL 异步错误的结果。我们可以使用此代码来测试特定操作

系统在这种情况下会报告什么。

尽管我们应该处理程序中的错误,但未捕获的异常最终会被捕获并终 止程序,这比异常被默默地丢失要好!

### 5.4.2 同步错误处理

我们将本节保持得非常简短,因为 SYCL 同步错误只是 C++ 异常。 SYCL 中添加的大多数附加错误机制与我们在下一节中介绍的异步错误相关,但同步错误很重要,因为实现尝试同步检测和报告尽可能多的错误,因为它们更容易推理和处理。

SYCL 定义的同步错误属于 sycl::exception 类型,它是一个从 std::exception 派生的类,它允许我们通过 try-catch 结构专门捕获 SYCL 错误,如图 5-6 所示。

在 C++ 错误处理机制之上,SYCL 为运行时抛出的异常添加了 sycl::exception 类型。其他一切都是标准 C++ 异常处理,因此大多数开发人员都会熟悉。 图 5-7 中提供了一个稍微更完整的示例,其中处理了其他类别的异常。

# 5.4.3 异步错误处理

异步错误由 SYCL 运行时(或底层后端)检测,并且错误的发生独立于主机程序中命令的执行。错误存储在 SYCL 运行时内部的列表中,并且仅在程序员可以控制的特定点释放以进行处理。我们需要讨论两个主题来讨论异步错误的处理:

- 1. 当处理未完成的异步错误时,处理程序应该做什么
- 2. 当异步处理程序被调用时

#### 5.4.4 异步处理程序

异步处理程序是应用程序定义的函数,它注册到 SYCL 上下文和/或队列。在下一节定义的时间,如果有任何未处理的异步异常可供处理,则 SYCL 运行时将调用异步处理程序并传递这些异常的列表。

异步处理程序作为 std::function 传递到上下文或队列构造函数,并且可以根据我们的偏好以常规函数、lambda 表达式或函数对象等方式进行定义。该处理程序必须接受 sycl::exception\_list 参数,如图 5-8 所示的示例处理程序所示。

在图 5-8 中, std::rethrow\_exception 后跟特定异常类型的 catch 提供了异常类型的过滤,在本例中仅过滤 sycl::exception。我们还可以使用 C++中的替代过滤方法,或者只选择处理所有异常,无论其类型如何。

处理程序在构造时与队列或上下文相关联(第 6 章中详细介绍了低级细节)。例如,要将图 5-8 中定义的处理程序注册到我们正在创建的队列中, 我们可以编写

queue my\_queue gpu\_selector\_v, handle\_async\_error;

同样,要将图 5-8 中定义的处理程序注册到我们正在创建的上下文中, 我们可以编写

context my\_contexthandle\_async\_error;

大多数应用程序不需要显式创建或管理上下文(它们是在后台自动为 我们创建的),因此如果要使用异步处理程序,大多数开发人员应该将此类 处理程序与为特定设备构建的队列相关联(而不是明确的上下文)。

如果没有为队列或队列的父上下文定义异步处理程序,并且该队列(或上下文)发生必须处理的异步错误,则调用默认异步处理程序。默认处理程序的运行方式就好像它的编码如图 5-9 所示。

默认处理程序应向用户显示有关异常列表中任何错误的一些信息,然后通过 std::terminate 结束应用程序,这应导致操作系统报告终止异常。

我们在异步处理程序中放置的内容取决于我们。它的范围可以从记录错误到应用程序终止,再到恢复错误条件以便应用程序可以继续正常执行。常见情况是通过调用 sycl::exception::what() 报告可用错误的任何详细信息,然后终止应用程序。

虽然异步处理程序在内部做什么由我们决定,但一个常见的错误是打印一条错误消息(可能会在程序中的其他消息的噪音中错过),然后完成处理程序函数。除非我们制定了错误管理原则,允许我们恢复已知的程序状态并确信继续执行是安全的,否则我们应该考虑在异步处理程序函数中终止应用程序。这减少了检测到错误但无意中允许应用程序继续执行的程序出现错误结果的机会。在许多程序中,一旦我们检测到异步异常,异常终止是首选结果。

## 5.4.5 处理程序的调用

异步处理程序由运行时在特定时间调用。错误发生时不会立即报告,因 为如果是这种情况,错误管理和安全应用程序编程(特别是多线程)将变得

更加困难和昂贵(例如,主机和设备之间的额外同步)。相反,异步处理程序会在以下特定时间被调用:

- 1. 当宿主程序对特定队列调用 queue::throw\_asynchronous() 时
- 2. 当宿主程序对特定队列调用 queue::wait\_and\_throw() 时
- 3. 当主机程序对特定事件调用 event::wait\_and\_throw() 时
- 4. 当队列被销毁时
- 5. 当上下文被破坏时

方法 1-3 为主机程序提供了一种控制何时处理异步异常的机制,以便可以管理线程安全和特定于应用程序的其他细节。它们有效地提供了异步异常进入主机程序控制流的控制点,并且几乎可以像处理同步错误一样进行处理。

如果用户没有显式调用方法 1-3 之一,则在程序拆卸过程中,当队列和上下文被销毁时,通常会报告异步错误。这通常足以向用户发出信号,表明出现了问题并且程序结果不值得信任。

然而,依靠程序拆卸期间的错误检测并不适用于所有情况。例如,如果程序仅在达到某些算法收敛标准时才会终止,并且这些标准只能通过成功执行设备内核才能实现,则异步异常可能表明该算法永远不会收敛并开始拆卸(其中错误会被注意到)。在这些情况下,以及在制定了更完整的错误处理策略的生产应用程序中,在程序中的常规和受控点调用 throw\_asynchronous()或 wait\_and\_throw()是有意义的(例如,在检查算法是否收敛之前)。

# 5.5 设备上的错误

本章讨论的错误检测和处理机制是基于主机的。它们是主机程序可以 检测和处理主机程序中或在设备上执行内核期间可能出现问题的机制。我 们没有讨论的是如何从我们编写的设备代码中发出信号,表明出现了问题。 这种遗漏并不是错误,而是故意的。

SYCL 明确不允许在设备代码中使用 C++ 异常处理机制 (例如 throw),因为某些类型的设备会产生我们通常不想支付的性能成本。如果我们检测到设备代码中出现问题,我们应该使用现有的非基于异常的技术来发出错误信号。例如,我们可以写入一个缓冲区来记录错误或从我们定义的数值计算中返回一些无效结果,这些结果意味着发生了错误。在这些情况下,正确的策略是非常具体的应用程序。

# 5.6 概括

在本章中,我们介绍了同步和异步错误,介绍了如果我们不采取任何措施来管理可能发生的错误时预期的默认行为,并介绍了用于在应用程序中的受控点处理异步错误的机制。错误管理策略是软件工程中的一个主要主题,并且在许多应用程序中编写的代码中占很大比例。SYCL集成了我们在错误处理方面已有的 C++ 知识,并提供了灵活的机制来与我们首选的错误管理策略集成。

# 6 统一共享内存

接下来的两章将更深入地探讨如何管理数据。有两种不同的方法可以相互补充: 统一共享内存 (USM) 和缓冲区。USM 公开了与缓冲区不同的内存抽象级别 - USM 使用指针,而缓冲区是更高级别的接口。本章重点介绍 USM。下一章将重点讨论缓冲区。

除非我们明确知道要使用缓冲区,否则 USM 是一个不错的起点。USM 是一种基于指针的模型,允许通过常规 C++ 指针读写内存。

# 6.1 为什么要使用 USM?

由于 USM 基于 C++ 指针,因此它是现有基于指针的 C++ 代码的自然起点。将指针作为参数的现有函数无需修改即可继续工作。在大多数情况下,唯一需要的更改是将现有的对 malloc 或 new 的调用替换为 USM 特定的分配例程,我们将在本章稍后讨论。

# 6.2 分配类型

虽然 USM 基于 C++ 指针,但并非所有指针都是一样的。USM 定义了三种不同类型的分配,每种类型都有独特的语义。

设备可能不支持所有类型(甚至任何类型)的 USM 分配。

稍后我们将学习如何查询设备支持的内容。图 6-1 总结了这三种类型的 分配及其特点。

## 6.2.1 设备分配

为了获得指向设备附加内存(例如 (G)DDR 或 HBM)的指针,我们需要第一种类型的分配。设备分配可以由在特定设备上运行的内核读取或写入,但不能从主机上执行的代码直接访问它们(通常也不能由设备访问)。尝试访问主机上的设备分配可能会导致数据不正确或程序因错误而崩溃。我们必须使用显式 USM memcpy 机制在主机和设备之间复制数据,该机制指定必须在两个位置之间复制多少数据,这将在本章后面介绍。

### 6.2.2 主机分配

第二种类型的分配比设备分配更容易使用,因为我们不必在主机和设备之间手动复制数据。主机分配是主机内存中的分配,主机和设备均可访问。这些分配虽然可以在设备上访问,但无法迁移到设备的附加内存。相反,内核可以远程读取或写入该内存,通常通过 PCI Express 等较慢的总线(或者如果它是 CPU 设备或集成 GPU 设备,则实际上没有什么不同)。这种便利性和性能之间的权衡是我们必须考虑的。尽管主机分配可能会产生更高的访问成本,但仍然有充分的理由使用它们。示例包括很少访问的数据、无法放入设备附加内存的大型数据集,或者设备可能不支持共享分配等替代方案(如下所述)。

### 6.2.3 共享分配

最终类型的分配结合了设备和主机分配的属性,将主机分配的程序员便利性与设备分配提供的更高性能结合起来。与主机分配一样,共享分配可以在主机和设备上访问。它们之间的区别在于,共享分配可以自动在主机内存和设备附加内存之间自由迁移,无需我们干预。如果分配已迁移到设备,则在该设备上执行的任何访问该设备的内核都会比从主机远程访问该设备具有更高的性能。然而,共享分配并不能给我们带来所有好处而没有任何缺点。

自动迁移可以通过多种方式实现。无论运行时选择哪种方式实现共享分配,它们通常都会付出延迟增加的代价。通过设备分配,我们可以准确地知道需要复制多少内存,并可以安排复制尽早开始。自动迁移机制无法预见未来,并且在某些情况下,在内核尝试访问数据之前不会开始移动数据。然后,内核必须等待或阻塞,直到数据移动完成才能继续执行。在其他情况下,运行时可能无法确切知道内核将访问多少数据,并且可能会保守地移动比所需数量更大的数据,这也会增加内核的延迟。

我们还应该注意,虽然共享分配可以迁移,但这并不一定意味着 SYCL 的所有实现都会迁移它们。我们期望大多数实现通过迁移来实现共享分配,但某些设备可能更愿意以与主机分配相同的方式实现它们。在这样的实现中,分配在主机和设备上仍然可见,但我们可能看不到迁移实现可以提供的性能增益。

# 6.3 分配内存

USM 允许我们以各种不同的方式分配内存,以满足不同的需求和偏好。 然而,在我们更详细地讨论所有方法之前,我们应该讨论 USM 分配与常规 C++ 分配有何不同。

### 6.3.1 我们需要知道什么?

常规 C++ 程序可以通过多种方式分配内存: new、malloc 或分配器。无论我们喜欢哪种语法,内存分配最终都是由主机操作系统中的系统分配器执行的。当我们在 C++ 中分配内存时,唯一关心的是"我们需要多少内存?"和"有多少内存可供分配?"然而,USM 在执行分配之前需要额外的信息。

首先,USM 分配需要指定所需的分配类型:设备、主机或共享。为了获得所需的行为,请求正确的分配类型非常重要。接下来,每个 USM 分配都必须指定一个将针对其进行分配的上下文对象。书中的大多数示例都传递队列对象(然后提供上下文)。到目前为止,上下文对象在本书中还没有进行太多讨论,因此值得在这里稍微讨论一下。上下文代表我们可以在其上执行内核的一个设备或一组设备。我们可以将上下文视为运行时存储有关其正在执行的操作的某些状态的方便位置。除了在大多数 SYCL 程序中传递上下文之外,程序员不太可能直接与上下文交互。我们确实在第 13 章中提供了一些有关上下文的提示。

不保证 USM 分配可在不同上下文中使用 - 所有 USM 分配、队列和内核共享相同的上下文对象非常重要。通常,我们可以从用于向设备提交工作的队列中获取此上下文。

最后,设备分配(以及一些共享分配)还要求我们指定哪个设备将为分配提供内存。这很重要,因为我们不想超额订阅设备的内存(除非设备能够支持这一点——我们将在本章后面讨论数据迁移时详细介绍这一点)。USM分配例程可以通过添加这些额外参数来区别于它们的 C++ 类似例程。

#### 6.3.2 多种风格

有时,试图用单一选项取悦所有人被证明是一项不可能完成的任务,就像有些人喜欢咖啡而不是茶,或者 emacs 而不是 vi 一样。如果我们问程序员分配接口应该是什么样子,我们会得到几个不同的答案。USM 拥抱这种

选择的多样性,并提供几种不同风格的分配接口。这些不同的风格是 C 风格、C++ 风格和 C++ 分配器风格。我们现在将讨论每一个并指出它们的相似点和不同点。

### 按 C 进行分配

第一种类型的分配函数(在图 6-2 中列出,稍后在图 6-6 和 6-7 所示的示例中使用)是根据 C 中的内存分配进行建模的:malloc 函数需要多个字节来分配并返回一个无效 \* 指针。这种风格的函数与类型无关。我们必须指定要分配的总字节数,这意味着如果我们想要分配 N 个 X 类型的对象,则必须要求 N \* sizeof(X) 总字节数。返回的指针是 void \* 类型,这意味着我们必须将其转换为指向 X 类型的适当指针。这种样式非常简单,但由于所需的大小计算和类型转换,可能会很冗长。

我们可以将这种分配方式进一步分为两类:命名函数和单一函数。这两种风格之间的区别在于我们如何指定所需的 USM 分配类型。对于命名函数 (malloc\_device、malloc\_host 和 malloc\_shared), USM 分配的类型在函数名称中进行编码。单一函数 malloc 需要将 USM 分配的类型指定为附加参数。两种口味并不比另一种更好,选择哪种口味取决于我们的喜好。

如果不简要提及对齐,我们就无法继续前进。每个版本的 malloc 也有一个 aligned\_alloc 对应项。malloc 函数返回与我们设备的默认行为一致的内存。成功时,它将返回一个具有有效对齐方式的合法指针,但在某些情况下,我们可能更愿意手动指定对齐方式。在这些情况下,我们应该使用aligned\_alloc 变体之一,它也要求我们指定所需的分配对齐方式。法律对齐是二的权力。值得注意的是,在许多设备上,分配最大程度地对齐以对应于硬件的功能,因此,虽然我们可能要求分配为 4、8、16 或 32 字节对齐,但实际上我们可能会看到更大的分配空间。对齐可以满足我们的要求,然后是一些。

### C++ 的分配

USM 分配函数的下一个风格(图 6-3 中列出)与第一个风格非常相似,但更多的是 C++ 外观和感觉。我们再次拥有分配例程的命名版本和单函数版本,以及默认的和用户指定的对齐版本。不同之处在于,现在我们的函数是 C++ 模板函数,它分配 T 类型的 Count 对象并返回 T\*类型的指针。利用现代 C++ 可以简化事情,因为我们不再需要手动计算分配的总大小(以字节为单位)或将返回的指针转换为适当的类型。这也往往会在代码中产生更紧凑且不易出错的表达式。然而,我们应该注意到,与 C++ 中的

"new"不同,malloc 风格的接口不会为正在分配的对象调用构造函数——我们只是分配足够的字节来适合该类型。

对于考虑到 USM 编写的新代码来说,这种分配方式是一个很好的起点。对于已经大量使用 C 或 C++ malloc 的现有 C++ 代码,前面的 C 风格是一个很好的起点,我们将在其中添加 USM 的使用。

### C++ 分配器

USM 分配的最终风格(图 6-4) 甚至比以前的风格更多地拥抱现代 C++。这种风格基于 C++分配器接口,它定义了用于在容器(例如 std::vector) 内直接或间接执行内存分配的对象。如果我们的代码大量使用容器对象,可以向用户隐藏内存分配和释放的详细信息,从而简化代码并减少出现错误的机会,则这种分配器风格非常有用。

## 6.3.3 释放内存

无论程序分配什么,最终都必须被释放。USM 定义了一种 free 方法来 释放由 malloc 或 aligned\_malloc 函数之一分配的内存。此 free 方法还将 分配内存的上下文作为额外参数。队列也可以代替上下文。如果内存是使用 C++ 分配器对象分配的,则也应该使用该对象来释放内存。

#### 6.3.4 分配示例

在图 6-5 中,我们展示了如何使用刚才描述的三种样式执行相同的分配。在此示例中,我们将 N 个单精度浮点数分配为共享分配。第一个分配 f1 使用 C 风格的 void \* 返回 malloc 例程。对于此分配,我们显式传递从队列中获取的设备和上下文。我们还必须将结果转换回 float \*。第二个分配 f2 执行相同的操作,但使用 C++ 样式模板化 malloc。由于我们将元素的类型 float 传递给分配例程,因此我们只需要指定要分配的浮点数量,并且不需要转换结果。我们还使用采用队列而不是设备和上下文的形式,产生一个非常简单和紧凑的语句。第三个分配 f3 使用 USM C++ 分配器类。我们实例化适当类型的分配器对象,然后使用该对象执行分配。最后,我们展示如何正确地释放每个分配。

# 6.4 数据管理

现在我们了解了如何使用 USM 分配内存,我们将讨论如何管理数据。 我们可以将其分为两部分:数据初始化和数据移动。

#### 6.4.1 初始化

数据初始化涉及在执行计算之前用值填充我们的内存。常见初始化模式的一个示例是在使用分配之前用零填充分配。如果我们要使用 USM 分配来做到这一点,我们可以通过多种方式来做到这一点。首先,我们可以编写一个内核来执行此操作。如果我们的数据集特别大或者初始化需要复杂的计算,这是一种合理的方法,因为初始化可以并行执行(并且它使初始化的数据准备好在设备上运行)。其次,我们可以将其实现为主机代码中对分配的所有元素进行循环,将每个元素设置为零。然而,这种方法可能存在一个问题。循环对于主机和共享分配来说效果很好,因为这些可以在主机上访问。但是,由于主机上无法访问设备分配,因此主机代码中的循环将无法写入它们。这给我们带来了第三种选择。

memset 函数旨在有效地实现此初始化模式。USM 提供了 memset 的一个版本,它是处理程序类和队列类的成员函数。它需要三个参数:表示我们要设置的内存基地址的指针、表示要设置的字节模式的字节值以及要设置到该模式的字节数。与主机上的循环不同,memset 并行发生,并且也适用于设备分配。

虽然 memset 是一个有用的操作,但它只允许我们指定一个字节模式来填充分配,这一事实是相当有限的。USM 还提供了一个 fill 方法(作为处理程序和队列类的成员),让我们可以用任意模式填充内存。fill 方法是一个以我们要写入分配的模式类型为模板的函数。使用 int 对其进行模板化,我们可以用 32 位整数"42"填充分配。与 memset 类似, fill 接受三个参数:指向要填充的分配基地址的指针、要填充的值以及我们想要将该值写入分配的次数。

#### 6.4.2 数据移动

数据移动可能是 USM 需要理解的最重要的方面。如果正确的数据没有在正确的时间出现在正确的位置,我们的程序将产生错误的结果。USM 定义了两种可用于管理数据的策略:显式策略和隐式策略。我们想要使用哪种

策略的选择与我们的硬件支持或我们想要使用的 USM 分配类型有关。

88

#### 显式的

USM 提供的第一个策略是显式数据移动(图 6-6)。

在这里,我们必须在主机和设备之间显式复制数据。我们可以通过调用处理程序类和队列类上的 memcpy 方法来做到这一点。memcpy 方法采用三个参数:指向目标内存的指针、指向源内存的指针以及要在主机和设备之间复制的字节数。我们不需要指定复制发生的方向——这隐含在源指针和目标指针中。

显式数据移动的最常见用法是在 USM 中的设备分配之间进行复制,因为它们在主机上无法访问。必须插入显式数据复制确实需要我们付出努力。此外,它可能是错误的来源:副本可能会被意外省略、复制的数据量可能不正确、或者源或目标指针可能不正确。

然而,显式数据移动不仅有缺点。它给我们带来了巨大的优势:完全控制数据移动。控制复制数据量和复制数据的时间对于在某些应用程序中实现最佳性能非常重要。理想情况下,我们可以尽可能将计算与数据移动重叠,确保硬件以高利用率运行。

其他类型的 USM 分配(主机分配和共享分配)都可以在主机和设备上访问,并且不需要显式复制到设备。这引出了 USM 中数据移动的另一种策略。

#### 隐式的

USM 提供的第二种策略是隐式数据移动(示例用法如图 6-7 所示)。在这种策略中,数据移动是隐式发生的,也就是说,不需要我们的输入。通过隐式数据移动,我们不需要插入对 memcpy 的调用,因为我们可以在任何想要使用数据的地方通过 USM 指针直接访问数据。相反,系统的工作是确保数据在使用时在正确的位置可用。

对于主机分配,人们可能会争论它们是否真的会导致数据移动。由于根据定义,它们始终保留指向主机内存的指针,因此给定主机指针表示的内存无法存储在设备上。但是,当在设备上访问主机分配时,确实会发生数据移动。我们读取或写入的值不是通过适当的接口传入或传出内核,而是将内存迁移到设备。这对于数据不需要保留在设备上的流内核非常有用。

隐式数据移动主要涉及 USM 共享分配。这种类型的分配在主机和设备 上都可以访问,更重要的是,可以在主机和设备之间迁移。关键点是,这种 迁移只需访问不同位置的数据即可自动或隐式发生。接下来,我们将讨论共 享分配的数据迁移时需要考虑的几个问题。

#### 迁移

通过显式数据移动,我们可以控制发生的数据移动量。通过隐式数据移动,系统可以为我们处理这个问题,但可能效率不高。SYCL 运行时不是预言机,它无法在应用程序执行操作之前预测将访问哪些数据。此外,指针分析对于编译器来说仍然是一个非常困难的问题,编译器可能无法准确地分析和识别内核内部可能使用的每个分配。因此,隐式数据移动机制的实现可能会根据支持 USM 的设备的功能做出不同的决策,这会影响共享分配的使用方式及其执行方式。

如果设备功能非常强大,它可能能够按需迁移内存。在这种情况下,数据移动将在主机或设备尝试访问当前不在所需位置的分配之后发生。按需数据极大地简化了编程,因为它提供了所需的语义,即 USM 共享指针可以在任何地方访问并且正常工作。如果设备不支持按需迁移(第 12 章解释了如何查询设备的功能),它可能仍然能够保证相同的语义,并对如何使用共享指针进行额外限制。

USM 共享分配的限制形式控制何时何地可以访问共享指针以及共享分配的大小。如果设备无法按需迁移内存,则意味着运行时必须保守,并假设内核可以访问其设备附加内存中的任何分配。这会带来一些后果。

首先,这意味着主机和设备不应尝试同时访问共享分配。应用程序应该分阶段交替访问。主机可以访问分配,然后内核可以使用该数据进行计算,最后主机可以读取结果。如果没有此限制,主机可以自由访问分配的不同部分,而不是内核当前正在访问的部分。这种并发访问通常发生在设备内存页面的粒度上。主机可以访问一个页面,而设备可以访问另一页面。以原子方式访问同一条数据将在第 19 章中介绍。程序员可以查询设备是否受到此限制,稍后我们将详细了解设备查询机制。

这种限制形式的共享分配的下一个后果是分配受到连接到设备的内存总量的限制。如果设备无法按需迁移内存,则它无法将数据迁移到主机以腾出空间来引入不同的数据。如果设备确实支持按需迁移,则可以超额订阅其连接的内存,从而允许内核计算比设备内存通常可以容纳的数据更多的数据,尽管这种灵活性可能会因额外的数据移动而带来性能损失。

#### 细粒度控制

当设备支持共享分配的按需迁移时,在当前未驻留的位置访问内存后, 会发生数据移动。但是,内核在等待数据移动完成时可能会停止。它执行的 下一条语句甚至可能会导致发生更多数据移动,并给内核执行带来额外的延迟。

90

SYCL 为我们提供了一种修改自动迁移机制性能的方法。它通过定义两个函数来实现这一点: prefetch 和 mem\_advise。图 6-8 显示了每种方法的简单用法。这些函数让我们向运行时提供有关内核如何访问数据的提示,以便运行时可以选择在内核尝试访问数据之前开始移动数据。请注意,此示例使用队列快捷方式方法,直接在队列对象上调用 parallel\_for,而不是在传递给 submit 方法(命令组)的 lambda 内部调用。

我们做到这一点的最简单方法是调用预取。该函数作为处理程序或队 列类的成员函数进行调用,并采用基指针和字节数。这让我们可以通知运行 时某些数据即将在设备上使用,以便它可以立即开始迁移它。理想情况下, 我们会尽早发出这些预取提示,以便当内核接触数据时,它已经驻留在设备 上,从而消除了我们之前描述的延迟。

SYCL 提供的另一个函数是 mem\_advise。此函数允许我们提供有关如何在内核中使用内存的特定于设备的提示。我们可以指定的此类可能建议的一个示例是数据将仅在内核中读取,而不是写入。在这种情况下,系统可以意识到它可以复制设备上的数据,以便在内核完成后不需要更新主机的版本。但是,传递给 mem\_advise 的建议特定于特定设备,因此在使用此函数之前请务必检查硬件文档。

## 6.5 查询

最后,并非所有设备都支持 USM 的所有功能。如果我们希望我们的程序可以跨不同设备移植,我们不应该假设所有 USM 功能都可用。USM 定义了一些我们可以查询的内容。这些查询可以分为两类:指针查询和设备能力查询。图 6-9 显示了每种方法的简单用法。

USM 中的指针查询回答两个问题。第一个问题是"这个指针指向什么类型的 USM 分配?"get\_pointer\_type 函数采用指针和 SYCL 上下文,并返回 usm::alloc 类型的结果,该结果可以有四个可能的值: 主机、设备、共享或未知。第二个问题是"这个 USM 指针分配给什么设备?"我们可以将指针和上下文传递给函数 get\_pointer\_device 并获取设备对象。这主要用于设备或共享 USM 分配,因为它对于主机分配没有多大意义。SYCL 规范规定,当与主机分配一起使用时,将返回上下文中的第一个设备 - 除了避免引发异常之外,这没有任何特殊原因,这对于可能在 USM 分配上模板化的代码来

说似乎有点奇怪类型。

USM 提供的第二种类型的查询涉及设备的功能。USM 有自己的设备方面列表,可以通过调用设备对象上的 has 来查询。这些查询可用于测试设备支持哪些类型的 USM 分配。此外,我们可以查询主机和设备是否可以同时访问共享分配。完整的查询列表如图 6-10 所示。在第 12 章中,我们将更详细地了解查询机制。

# 6.6 还有一件事

我们还没有介绍另一种形式的 USM。我们在本章中描述的 USM 形式都需要使用特殊的分配函数。虽然不是一个巨大的负担,但这代表了传统C++代码的变化,传统C++代码使用 malloc 或 new 运算符形式的系统分配器。虽然当今的某些设备(例如 CPU)可能不需要此要求,但大多数加速器设备仍然需要它。因此,我们以更大的可移植性为名描述了如何使用USM 分配函数。然而,我们相信我们很快就会看到更多支持使用系统分配器的加速器设计。此类设备将极大地简化程序,使程序员无需担心分配正确类型的 USM 内存或在适当的时间复制正确的数据。从某种意义上说,我们可以将最终的系统分配器支持视为 USM 的最终演进——它将提供共享USM 分配的好处,而不需要使用特殊的分配函数。

# 6.7 概括

在本章中,我们描述了统一共享内存,这是一种基于指针的数据管理策略。我们介绍了 USM 定义的三种分配类型。我们讨论了使用 USM 分配和释放内存的所有不同方式,以及如何由我们(程序员)显式控制设备分配的数据移动或由系统隐式控制主机或共享分配的数据移动。最后,我们讨论了如何查询设备支持的不同 USM 能力以及如何在程序中查询 USM 指针信息。

由于我们还没有在本书中详细讨论同步,因此在后面的章节中,当我们讨论调度、通信和同步时,会有更多关于 USM 的内容。具体来说,我们在第 8、9 和 19 章中介绍了 USM 的这些额外注意事项。

在下一章中, 我们将介绍数据管理的第二种策略: 缓冲区。

# 7 Buffers

在本章中,我们将学习缓冲区抽象。我们在上一章中了解了统一共享内存(USM),这是一种基于指针的数据管理策略。USM 迫使我们思考内存存放在哪里以及什么应该在哪里访问。缓冲区抽象是一个更高级别的模型,它向程序员隐藏了这一点。缓冲区只是代表数据,运行时的工作就是管理数据在内存中的存储和移动方式。

本章介绍了管理数据的另一种方法。缓冲区和 USM 之间的选择通常取决于个人喜好和现有代码的风格,并且应用程序可以自由地混合和匹配这两种风格以表示应用程序中的不同数据。

USM 只是公开不同的内存抽象。USM 有指针,缓冲区是更高级别的抽象。缓冲区的抽象级别允许在应用程序内的任何设备上使用其中包含的数据,其中运行时管理使该数据可用所需的任何内容。USM 基于指针的模型可能更适合使用基于指针的数据结构(例如链表、树或其他结构)的应用程序。将缓冲区改造为已经使用指针的现有代码也可能更加棘手。但是,缓冲区保证可以在系统中的每个设备上工作,而某些设备可能不支持特定(或任何)USM 模式。选择很好,所以让我们深入研究缓冲区。

我们将更仔细地了解缓冲区是如何创建和使用的。如果不讨论访问器,对缓冲区的讨论就不完整。虽然缓冲区抽象了我们在程序中表示和存储数据的方式,但我们并不直接使用缓冲区访问数据。相反,我们使用访问器对象来通知运行时我们打算如何使用正在访问的数据,并且访问器与任务图中强大的数据依赖机制紧密耦合。在我们介绍了可以使用缓冲区执行的所有操作之后,我们还将探索如何在程序中创建和使用访问器。

# 7.1 缓冲器

缓冲区是数据的高级抽象。缓冲区不一定绑定到单个位置或虚拟内存 地址。事实上,运行时可以自由地使用内存中的许多不同位置(甚至跨不同 的设备)来表示缓冲区,但运行时必须确保始终为我们提供一致的数据视 图。缓冲区可以在主机和任何设备上访问。

缓冲区类是一个具有三个模板参数的模板类,如图 7-1 所示。第一个模板参数是缓冲区将包含的对象的类型。此类型必须是设备可复制的,这扩展了 C++ 定义的普通可复制的概念。可简单复制的类型可以安全地逐字节复制,而无需使用任何特殊的复制或移动构造函数。设备可复制类型将此概念

递归地扩展到某些 C++ 类型,例如 std::pair 或 std::tuple。下一个模板参数是描述缓冲区维数的整数。最后的模板参数是可选的,默认值通常是使用的值。此参数指定一个 C++ 样式的分配器类,用于在主机上执行缓冲区所需的任何内存分配。首先,我们将研究创建缓冲区对象的多种方法。

### 7.1.1 缓冲区创建

在下图中,我们展示了创建缓冲区对象的几种方法。让我们浏览一下示例并查看每个实例。

我们在图 7-2 中创建的第一个缓冲区 b1 是一个包含 10 个整数的二维缓冲区。我们显式传递所有模板参数,甚至显式传递 buffer\_allocator<T>的默认值作为分配器类型。由于 buffer\_allocator 也是模板化类型,因此我们必须显式地专门化它,就像通过指定 buffer\_allocator<int> 来专门化缓冲区一样。然而,使用现代 C++,我们可以更简洁地表达这一点。缓冲区 b2 也是使用默认分配器的十个整数的二维缓冲区。这里我们利用 C++17 的类模板参数推导(CTAD)来自动推断模板参数。CTAD 是一个全有或全无的工具,它必须要么推断出类的每个模板参数,要么不推断出其中任何一个。在本例中,我们利用这样一个事实:我们用一个带有两个参数的范围来初始化 b2 来推断它是一个二维范围。分配器模板参数有一个默认值,因此我们在创建缓冲区时不需要显式列出它。

使用缓冲区 b3,我们创建一个 20 个浮点数的缓冲区,并使用默认构造的 std::allocator 来分配主机上任何必要的内存。当将自定义分配器类型与缓冲区一起使用时,我们通常希望将实际的分配器对象传递给缓冲区来使用,而不是默认构造的分配器对象。缓冲区 b4 展示了如何执行此操作,在调用其构造函数的范围之后获取分配器对象。

对于示例中的前四个缓冲区,我们让缓冲区分配它需要的任何内存,并且在创建数据时不使用任何值初始化该数据。使用缓冲区来有效包装现有的 C++ 分配是一种常见模式,这些分配可能已经使用数据进行了初始化。我们可以通过将初始值源传递给缓冲区构造函数来做到这一点。这样做可以让我们做几件事,我们将在下一个示例中看到。

在图 7-3 中,缓冲区 b5 创建一个包含四个双精度数的一维缓冲区。除了指定缓冲区大小的范围之外,我们还将指向 C 数组 myDoubles 的主机指针传递给缓冲区构造函数。这里我们可以充分利用 CTAD 来推断缓冲区的所有模板参数。我们传递的主机指针指向双精度数,它为我们提供了缓冲区

的数据类型。维数是从一维范围自动推断的,一维范围本身是推断出来的, 因为它仅由一个数字创建。最后,使用默认分配器,因此我们不必指定它。

传递主机指针有一些我们应该注意的后果。通过传递指向主机内存的指针,我们向运行时保证在缓冲区的生命周期内不会尝试访问主机内存。这不是(也不能)由 SYCL 实施强制执行。我们有责任确保我们不违反本合同。我们不应该在缓冲区处于活动状态时尝试访问此内存的原因之一是,缓冲区可能会选择使用主机上的不同内存来表示缓冲区内容,这通常是出于优化原因。如果这样做,这些值将从主机指针复制到这个新内存中。如果后续内核修改缓冲区,则原始主机指针将不会反映更新的值,直到某些指定的同步点。我们将在本章后面详细讨论数据何时写回到主机指针。

缓冲区 b6 与缓冲区 b5 非常相似,但有一个主要区别。这次,我们使用指向 const double 的指针来初始化缓冲区。这意味着我们只能通过主机指针读取值而不能写入它们。然而,本例中缓冲区的类型仍然是 double,而不是 const double,因为推导指南没有考虑常量性。这意味着缓冲区可以由内核写入,但在缓冲区过期后我们必须使用不同的机制来更新主机(本章稍后将介绍)。

缓冲区也可以使用 C++ 共享指针对象进行初始化。如果我们的应用程序已经使用共享指针,这非常有用,因为这种初始化方法将正确计算引用并确保内存不会被释放。缓冲区 b7 创建一个包含单个整数的缓冲区,并使用共享指针对其进行初始化。

容器通常用于现代 C++ 应用程序,示例包括 std::array、std::vector、std::list 或 std::map。我们可以通过两种不同的方式使用容器初始化一维缓冲区。第一种方式,如图 7-4 中的缓冲区 b8 所示,使用输入迭代器。我们将两个迭代器传递给缓冲区构造函数,而不是主机指针,一个代表数据的开头,另一个代表数据的结尾。缓冲区的大小计算为通过递增起始迭代器直到等于结束迭代器而返回的元素数。这对于实现 C++ InputIterator 接口的任何数据类型都很有用。如果为缓冲区提供初始值的容器对象也是连续的,那么我们可以使用更简单的形式来创建缓冲区。缓冲区 b9 只需将向量传递给构造函数即可从向量创建缓冲区。缓冲区的大小由用于初始化它的容器的大小决定,缓冲区数据的类型来自容器数据的类型。使用这种方法创建缓冲区很常见,并且建议在 std::vector 和 std::array 等容器中使用这种方法。

缓冲区创建的最后一个示例说明了缓冲区类的另一个功能。可以创建 一个子缓冲区,它是一个缓冲区的另一个缓冲区的视图。子缓冲区需要三件

事:对父缓冲区的引用、基本索引和子缓冲区的范围。无法从子缓冲区创建子缓冲区。可以从同一个缓冲区创建多个子缓冲区,并且它们可以自由重叠。缓冲区 b10 的创建方式与缓冲区 b2 完全相同,缓冲区 b2 是一个二维整数缓冲区,每行有 5 个整数。接下来,我们从缓冲区 b10 创建两个子缓冲区,子缓冲区 b11 和 b12。子缓冲区 b11 从索引 (0,0) 开始,包含第一行中的每个元素。类似地,子缓冲区 b12 从索引 (1,0) 开始,包含第二行中的每个元素。这会产生两个不相交的子缓冲区。由于子缓冲区不重叠,因此不同的内核可以同时对不同的子缓冲区进行操作,但我们将在下一章中详细讨论调度执行图和依赖关系。

#### 7.1.2 Buffer 特性

还可以使用改变其行为的特殊属性来创建缓冲区。在图 7-5 中,我们将通过一个示例介绍三个不同的可选缓冲区属性,并讨论如何使用它们。请注意,这些属性在大多数代码中相对不常见。

#### use host ptr

在缓冲区创建期间可以选择指定的第一个属性是 use\_host\_ptr。如果存在,此属性要求缓冲区不在主机上分配任何内存,并且在缓冲区构造中传递或指定的任何分配器都将被有效忽略。相反,缓冲区必须使用传递给构造函数的主机指针指向的内存。请注意,这并不要求设备使用相同的内存来保存缓冲区的数据。设备可以自由地将缓冲区的内容缓存在其附加内存中。另请注意,仅当主机指针传递给构造函数时才可以使用此属性。当程序想要完全控制所有主机内存分配时,此选项非常有用,例如,它允许程序员尝试最小化应用程序的内存占用量。

在图 7-5 的示例中,我们创建了一个缓冲区 b, 正如我们在前面的示例中看到的那样。接下来我们创建缓冲区 b1 并使用指向 myInts 的指针对其进行初始化。我们还传递了 use\_host\_ptr 属性, 这意味着缓冲区 b1 将仅使用 myInts 指向的内存, 而不会在主机上分配任何额外的临时存储。

#### use mutex

下一个属性 use\_mutex 涉及缓冲区和主机代码之间的细粒度内存共享。 缓冲区 b2 是使用此属性创建的。该属性获取对互斥对象的引用,稍后可以 从缓冲区中查询该对象,如示例中所示。此属性还需要将主机指针传递给构 造函数,它让运行时确定何时可以安全地通过提供的主机指针访问主机代 码中的更新值。在运行时保证主机指针看到缓冲区的最新值之前,我们无法

锁定互斥体。虽然这可以与 use\_host\_ptr 属性结合使用,但这不是必需的。use\_mutex 是一种机制,允许主机代码在缓冲区仍处于活动状态时访问缓冲区内的数据,并且无需使用主机访问器机制(稍后介绍)。一般来说,除非我们有特定原因使用互斥体,否则应首选主机访问器机制,特别是因为无法保证成功锁定互斥体以及数据可供主机代码使用之前需要多长时间。

#### context bound

在我们的示例中,最终属性显示在缓冲区 b3 的创建中。在这里,我们的 42 个整数的缓冲区是使用 context\_bound 属性创建的。该属性采用对上下文对象的引用。通常,缓冲区可以在任何设备或上下文上自由使用。但是,如果使用此属性,则会将缓冲区锁定到指定的上下文。尝试在另一个上下文中使用缓冲区将导致运行时错误。例如,这可以通过识别内核可能被提交到错误队列的情况来调试程序。实际上,我们并不期望在许多程序中看到此属性,并且在任何上下文中的任何设备上访问缓冲区的能力是缓冲区抽象最强大的属性之一(此属性撤消了这一点)。

# 7.1.3 我们可以用缓冲区做什么?

使用缓冲区对象可以完成很多事情。我们可以查询缓冲区的特征,确定缓冲区被破坏后是否以及在何处将任何数据写回主机内存,或者将缓冲区重新解释为具有不同特征的缓冲区。然而,不能做的一件事是直接访问缓冲区表示的数据。相反,我们必须创建访问器对象来访问数据,我们将在本章后面学习所有这些内容。

可以查询缓冲区的示例包括缓冲区的范围、它表示的数据元素的总数以及存储其元素所需的字节数。我们还可以查询缓冲区正在使用哪个分配器对象以及该缓冲区是否是子缓冲区。

当缓冲区被破坏时更新主机内存是使用缓冲区时需要考虑的一个重要方面。根据缓冲区的创建方式,主机内存可能会也可能不会在缓冲区销毁后使用计算结果进行更新。如果创建缓冲区并从指向非常量数据的主机指针进行初始化,则当缓冲区被销毁时,同一指针将使用最新数据进行更新。然而,还有一种方法可以更新主机内存,无论缓冲区是如何创建的。set\_final\_data方法是 buffer 的模板方法,它可以接受原始指针、C++ OutputIterator或 std::weak\_ptr。当缓冲区被破坏时,缓冲区包含的数据将使用提供的位置写入主机。请注意,如果缓冲区是从主机指针创建并初始化为非常量数据,则就像使用该指针调用 set\_final\_data 一样。从技术上讲,原始指

针是 OutputIterator 的特殊情况。如果传递给 set\_final\_data 的参数是 std::weak\_ptr,则当指针已过期或已被删除时,数据不会写入主机。是否发生回写也可以通过 set\_write\_back 方法来控制。

# 7.2 访问器

缓冲区表示的数据不能通过缓冲区对象直接访问。相反,我们必须创建允许我们安全访问缓冲区数据的访问器对象。访问器通知运行时我们要在何处以及如何访问数据,从而允许运行时确保正确的数据在正确的时间位于正确的位置。这是一个非常强大的概念,特别是与部分基于数据依赖性来调度内核执行的任务图结合使用时。

访问器对象是从模板化访问器类实例化的。该类有五个模板参数。第一个参数是正在访问的数据的类型。这应该与相应缓冲区存储的数据类型相同。同样,第二个参数描述数据和缓冲区的维度,默认值为1。

接下来的三个模板参数对于访问器来说是唯一的。第一个是访问模式。访问模式描述了我们打算如何在程序中使用访问器。图 7-6 列出了可能的模式。我们将在第 8 章中了解如何使用这些模式来命令内核的执行和执行数据移动。如果没有指定或自动推断,访问模式参数确实有一个默认值。如果我们没有另外指定,访问器将默认对非 const 数据类型使用 read\_write 访问模式,对 const 数据类型默认使用 read 访问模式。这些默认值始终是正确的,但提供更准确的信息可能会提高运行时执行优化的能力。当开始应用程序开发时,简单地不指定访问模式是安全且简洁的,然后我们可以根据应用程序的性能关键区域的分析来细化访问模式。

下一个模板参数是访问目标。缓冲区是数据的抽象,不描述数据的存储位置和方式。访问目标描述了我们正在访问数据的位置。图 7-7 列出了两个可能的访问目标。

当使用带有 SYCL 的 C++ 时,只有两个目标: device 和 host\_task。 默认模板值为 device,这意味着我们打算访问设备上的缓冲区数据。这是合理的,因为访问器最常用于设备上的操作,例如内核或数据传输。另一个访问目标是 host\_task,当主机任务需要访问缓冲区的数据时使用它。

设备可能有不同类型的可用存储器。特别是,许多设备都具有某种快速本地内存,可以在工作组中的多个工作项之间共享。SYCL 的早期版本对本地内存有特殊的访问目标,但 SYCL 2020 以不同的方式处理它。我们将在第9章中学习如何使用工作组本地内存。早期版本的 SYCL 还为主机提供了

特殊的访问目标(在主机任务之外,这是 SYCL 2020 的新增功能)。它已被新的 host\_accessor 类取代,该类提供对主机代码中缓冲区数据的访问。但是,访问将在 host\_accessor 的生命周期内保持有效。鉴于当 host\_accessor 有效时缓冲区被锁定到主机,因此应特别注意限制 host\_accessor 对象的范围。

最终的模板参数控制访问器是否是占位符访问器。这不是程序员可能 直接设置的参数,通常是通过使用构造函数调用来创建访问器来推断的。占 位符访问器是在命令组外部声明的访问器,但旨在用于访问内核内设备上 的数据。一旦我们查看了访问器创建的示例,我们就会明白占位符访问器与 非占位符访问器的区别。

虽然可以使用其 get\_access 方法从缓冲区对象中提取访问器,但直接 创建(构造)它们更简单。这是我们将在接下来的示例中使用的样式,因为 它非常易于理解并且紧凑。

### 7.2.1 访问器创建

图 7-8 显示了一个示例程序,其中包含我们开始使用访问器所需的一切。在此示例中,我们有三个缓冲区 A、B 和 C。我们提交到队列的第一个并行任务为每个缓冲区创建访问器,并定义一个内核,该内核使用这些访问器用一些值初始化缓冲区。每个访问器都是通过对其将访问的缓冲区的引用以及我们提交到队列的命令组定义的处理程序对象来构造的。这有效地将访问器绑定到我们作为命令组的一部分提交的内核。常规访问器是设备访问器,因为默认情况下它们的目标是存储在设备内存中的全局缓冲区。这是最常见的用例。

我们提交的第二个任务还定义了三个缓冲区访问器。然后,我们使用第二个内核中的这些访问器将缓冲区 A 和 B 的元素添加到缓冲区 C 中。由于第二个任务操作的数据与第一个任务相同,因此运行时将在第一个任务完成后执行此任务。我们将在下一章详细了解这一点。

第三个任务展示了如何使用占位符访问器。在我们创建缓冲区之后,访问器 pC 在图 7-8 示例的开头声明。请注意,构造函数不会传递处理程序对象,因为我们没有要传递的处理程序对象。这让我们可以提前创建一个可重用的访问器对象。但是,为了在内核中使用此访问器,我们需要在提交期间将其绑定到命令组。我们使用处理程序对象的 require 方法来完成此操作。一旦我们将占位符访问器绑定到命令组,我们就可以像使用任何其他访问

器一样在内核中使用它。

最后,我们创建一个 host\_accessor 对象,以便在主机上读回计算结果。请注意,这与我们在内核中使用的类型不同。请注意,此示例中的主机访问器结果也不采用处理程序对象,因为我们再次没有要传递的处理程序对象。主机访问器的特殊类型还可以让我们消除它们与占位符的歧义。主机访问器的一个重要方面是,构造函数仅在数据可在主机上使用时完成,这意味着主机访问器的构造可能会花费很长时间。构造函数必须等待任何生成要复制的数据的内核完成执行以及复制本身完成。一旦主机访问器构建完成,就可以安全地使用它直接在主机上访问的数据,并且我们可以保证在主机上可以使用最新版本的数据。

虽然这个例子是完全正确的,但我们在创建访问器时并没有说明我们打算如何使用它们。相反,我们对缓冲区中的非常量 int 数据使用默认访问模式,即 read\_write。这可能过于保守,并且可能会在操作之间产生不必要的依赖性或多余的数据移动。如果运行时有更多关于我们计划如何使用我们创建的访问器的信息,它可能会做得更好。然而,在我们讨论执行此操作的示例之前,我们应该首先介绍另一个工具-演绎标签。

推导标签是一种表达访问者所需的访问模式和目标组合的紧凑方式。使用推导标签时,它会作为参数传递给访问器的构造函数。可能的标签如图 7-9 所示。当使用标签参数构造访问器时,C++ CTAD 可以正确推断出所需的访问模式和目标,从而提供一种简单的方法来覆盖这些模板参数的默认值。我们还可以手动指定所需的模板参数,但标签提供了一种更简单、更紧凑的方式来获得相同的结果,而无需拼写出完全模板化的访问器。

让我们以前面的示例为例, 重写它以添加扣除标签。这个新的改进示例 如图 7-10 所示。

我们首先声明缓冲区,如图 7-8 所示。我们还创建了稍后将使用的占位符访问器。现在让我们看看提交到队列的第一个任务。之前,我们通过传递对缓冲区的引用和命令组的处理程序对象来创建访问器。现在,我们向构造函数调用添加两个额外的参数。第一个新参数是扣除标签。由于该内核正在为缓冲区写入初始值,因此我们使用 write\_only 推导标签。这让运行时知道该内核正在生成新数据并且不会从缓冲区读取。

第二个新参数是一个可选的访问器属性,类似于我们在本章前面看到的缓冲区的可选属性。我们传递的属性 no\_init 让运行时知道可以丢弃缓冲区的先前内容。这很有用,因为它可以让运行时消除不必要的数据移动。在

此示例中,由于第一个任务是写入缓冲区的初始值,因此运行时无需在内核执行之前将未初始化的主机内存复制到设备。no\_init 属性对于本例很有用,但不应该用于读取-修改-写入的情况或仅更新缓冲区中的某些值的内核。

我们提交到队列的第二个任务与之前相同,但现在我们向访问器添加推导标签。在这里,我们将标签 read\_only 添加到访问器 aA 和 aB 中,让运行时知道我们只会通过这些访问器读取缓冲区 A 和 B 的值。第三个访问器 aC 获得 read\_write 推导标签,因为我们将 A 和 B 的元素之和累加到 C 中。我们在示例中显式使用该标签以保持一致,但这是不必要的,因为默认访问模式是 read\_write。

在我们使用占位符访问器的第三个任务中保留了默认用法。这与我们在图 7-8 中看到的简化示例保持不变。我们的最终访问器(主机访问器结果)现在在创建时会收到一个推导标签。由于我们只读取主机上的最终值,因此我们将 read\_only 标记传递给构造函数。如果我们以破坏主机访问器的方式重写程序,则启动另一个对缓冲区 C 进行操作的内核将不需要将其写回设备,因为 read\_only 标记让运行时知道它不会被主人。

#### 7.2.2 我们可以用访问器做什么?

使用访问器对象可以完成许多事情。然而,我们能做的最重要的事情是在访问者的名字中拼写出来——访问数据。这通常是通过访问器的[]运算符之一完成的。我们在图 7-8 和 7-10 的示例中使用 []运算符。该运算符采用可以正确索引多维数据的 id 对象或单个 size\_t。当访问器具有多个维度时,可以使用第二种情况。在这种情况下,它返回一个对象,然后用 [] 再次索引该对象,直到我们到达标量值,在二维情况下,该对象的形式为 a[i][j]。请记住,访问器维度的排序遵循 C++ 的约定,其中最右边的维度是单位步幅维度(迭代"最快")。

访问器还可以返回指向基础数据的指针。可以按照正常的 C++ 规则直接访问该指针。请注意,该指针的地址空间可能会涉及额外的复杂性。

许多东西也可以从访问器对象中查询。示例包括通过访问器可访问的 元素数量、它所覆盖的缓冲区区域的大小(以字节为单位)或可访问的数据 范围。

访问器提供了与 C++ 容器类似的接口,并且可以在许多可以传递容器的情况下使用。访问器支持的容器接口包括 data 方法(相当于 get\_pointer)以及多种向前和向后迭代器。

# 7.3 概括

在本章中,我们学习了缓冲区和访问器。缓冲区是数据的抽象,它向程序员隐藏了内存管理的底层细节。他们这样做是为了提供更简单、更高层次的抽象。我们通过几个示例向我们展示了构建缓冲区的不同方法以及可以指定以改变其行为的不同可选属性。我们学习了如何使用主机内存中的数据初始化缓冲区,以及如何在使用完缓冲区后将数据写回主机内存。

由于我们无法直接访问缓冲区,因此我们学习了如何使用访问器对象来访问缓冲区中的数据。我们了解了设备访问器和主机访问器之间的区别。我们讨论了不同的访问模式和目标,以及它们如何通知运行时程序将如何以及在何处使用访问器。我们展示了使用默认访问模式和目标来使用访问器的最简单方法,并且我们学习了如何区分占位符访问器和非占位符访问器。然后,我们了解了如何通过向访问器声明添加推导标签来为运行时提供有关访问器使用情况的更多信息,从而进一步优化示例程序。最后,我们介绍了在程序中使用访问器的许多不同方式。

在下一章中,我们将更详细地了解运行时如何使用我们通过访问器提供的信息来调度不同内核的执行。我们还将看到此信息如何通知运行时何时以及如何需要在主机和设备之间复制缓冲区中的数据。我们将学习如何显式控制涉及缓冲区的数据移动以及 USM 分配。

# 8 调度内核和数据移动

我们需要讨论我们作为并行项目的指挥者的角色。并行程序的正确编排是一件美妙的事情——代码全速运行而无需等待数据,因为我们已经安排了所有数据在正确的时间到达和离开——精心构建的代码可以保持硬件最大程度地忙碌。这是梦想的组成部分!

快车道上的生活——不仅仅是一条车道!——要求我们认真对待我们作为指挥的工作。为了做到这一点,我们可以根据任务图来思考我们的工作。

因此,在本章中,我们将介绍任务图,这是用于正确有效地运行复杂的内核序列的机制。应用程序中有两件事需要排序:内核执行和数据移动。任务图是我们用来实现正确排序的机制。

首先,我们将快速回顾一下第3章中如何使用依赖关系来排序任务。接下来,我们将介绍SYCL运行时如何构建图。我们将讨论SYCL图的基本构建块,即命令组。然后我们将说明构建常见模式图的不同方法。我们还将讨论如何在图表中表示显式和隐式的数据移动。最后,我们将讨论将图表与主机同步的各种方法。

# 8.1 什么是图调度?

在第3章中,我们讨论了数据管理和数据使用排序。该章描述了 SYCL 中图背后的关键抽象:依赖关系。内核之间的依赖关系基本上基于内核访问的数据。内核需要确保它读取了正确的数据,然后才能计算其输出。

我们描述了对于确保正确执行非常重要的三种类型的数据依赖性。第一种是写后读 (RAW),当一个任务需要读取另一个任务生成的数据时发生。这种类型的依赖性描述了两个内核之间的数据流。当一个任务在另一个任务读取数据后需要更新数据时,就会发生第二种类型的依赖。我们将这种类型的依赖关系称为"读后写"(WAR) 依赖关系。当两个任务尝试写入相同的数据时,会出现最后一种类型的数据依赖。这称为写入后写入 (WAW) 依赖性。

数据依赖性是我们用来构建图表的构建块。这组依赖关系是我们表达简单线性核链和包含数百个具有复杂依赖关系的核的大型复杂图所需的全部。无论计算需要哪种类型的图,SYCL图都确保程序将根据所表达的依赖关系正确执行。然而,程序员需要确保图形正确地表达程序中的所有依赖关系。

# 8.2 SYCL 中的图表如何工作

命令组可以包含三个不同的内容:操作、其依赖项和其他主机代码。在这三件事中,始终需要的是行动,因为没有它,指挥组实际上什么也做不了。大多数命令组也会表达依赖性,但在某些情况下可能不会。一个这样的例子是程序中提交的第一个操作。它不依赖于任何东西来开始执行;因此,我们不会指定任何依赖性。命令组中可能出现的另一件事是在主机上执行的任意 C++ 代码。这是完全合法的,并且对于帮助指定操作或其依赖性很有用,并且此代码在创建命令组时执行(而不是稍后,当基于已满足的依赖性执行操作时)。

命令组通常表示为传递给提交方法的 C++ lambda 表达式。命令组还可以通过队列对象上的快捷方法来表达,该队列对象采用内核和基于事件的依赖集。

## 8.2.1 命令组行动

命令组可以执行两种类型的操作:内核执行和显式内存操作。命令组只能执行单个操作。正如我们在前面的章节中所看到的,内核是通过调用parallel\_for或 single\_task 方法来定义的,并表达我们想要在设备上执行的计算。显式数据移动的操作是第二种类型的操作。USM 的示例包括 memcpy、memset 和 fill 操作。缓冲区的示例包括复制、填充和 update\_host。

### 8.2.2 命令组如何声明依赖关系

命令组的另一个主要组成部分是一组依赖关系,在执行该组定义的操作之前必须满足这些依赖关系。SYCL 允许以多种方式指定这些依赖性。

如果程序使用有序 SYCL 队列,则队列的有序语义指定连续排队的命令组之间的隐式依赖关系。在先前提交的任务完成之前,一项任务无法执行。

基于事件的依赖性是指定命令组执行之前必须完成的操作的另一种方法。这些基于事件的依赖性可以用两种样式来指定。当命令组被指定为传递给队列的提交方法的 lambda 时,使用第一种方法。在这种情况下,程序员调用命令组处理程序对象的 dependent\_on 方法,传递事件或事件向量作为参数。当从队列对象上定义的快捷方法创建命令组时,使用另一种方法。当程序员直接在队列上调用 parallel\_for 或 single\_task 时,事件或事件向量

可以作为额外参数传递。

指定依赖关系的最后一种方法是通过创建访问器对象。访问器指定如何使用它们来读取或写入缓冲区对象中的数据,让运行时使用此信息来确定不同内核之间存在的数据依赖性。

正如我们在本章开头所回顾的,数据依赖的示例包括一个内核读取另一个内核生成的数据、两个内核写入相同的数据,或者一个内核在另一个内核读取数据后修改数据。

#### 8.2.3 例子

现在我们将通过几个例子来说明我们刚刚学到的一切。我们将展示如何以多种方式表达两种不同的依赖模式。我们将说明的两种模式是线性依赖链(其中一个任务在另一个任务之后执行)和"Y"模式(其中两个独立任务必须在连续任务之前执行)。

这些依赖模式的图表如图 8-1 和 8-2 所示。图 8-1 描述了一个线性依赖链。第一个节点表示数据的初始化,而第二个节点表示将数据累积为单个结果的归约操作。图 8-2 描绘了一个"Y"模式,其中我们独立地初始化两个不同的数据。数据初始化后,加法内核会将两个向量相加。最后,图中的最后一个节点将结果累积为单个值。

对于每种模式,我们将展示三种不同的实现。第一个实现将使用有序队列。第二个将使用基于事件的依赖关系。最后一个实现将使用缓冲区和访问器来表达命令组之间的数据依赖性。

图 8-3 显示了如何使用有序队列来表达线性依赖链。这个例子非常简单,因为中序队列的语义已经保证了命令组之间执行的顺序。我们提交的第一个内核将数组的元素初始化为 1。然后下一个内核获取这些元素并将它们相加到第一个元素中。由于我们的队列是有序的,因此我们不需要做任何其他事情来表示第二个内核在第一个内核完成之前不应执行。最后,我们等待队列完成执行所有任务,并检查是否获得了预期结果。

图 8-4 显示了使用无序队列和基于事件的依赖关系的同一示例。在这里,我们捕获第一次调用 parallel\_for 返回的事件。然后,第二个内核能够通过将其作为参数传递给 depends\_on 来指定对该事件及其代表的内核执行的依赖。我们将在图 8-6 中看到如何使用定义内核的快捷方法之一来缩短第二个内核的表达式。

图 8-5 使用缓冲区和访问器而不是 USM 指针重写了我们的线性依赖链

示例。在这里,我们再次使用无序队列,但使用通过访问器指定的数据依赖性而不是基于事件的依赖性来排序命令组的执行。第二个内核读取第一个内核生成的数据,运行时可以看到这一点,因为我们基于相同的底层缓冲区对象声明访问器。与前面的示例不同,我们不会等待队列完成执行所有任务。相反,我们构建一个主机访问器,定义第二个内核的输出与我们在主机上计算出正确答案的断言之间的数据依赖关系。请注意,虽然主机访问器为我们提供了主机上数据的最新视图,但如果在创建缓冲区时指定了任何内容,它并不能保证原始主机内存已更新。我们无法安全地访问原始主机内存,除非缓冲区首先被破坏,或者除非我们使用更高级的机制,如第7章中描述的互斥机制。

图 8-6 显示了如何使用有序队列表达"Y"模式。在此示例中,我们声明两个数组: data1 和 data2。然后,我们定义两个内核,每个内核将初始化其中一个数组。这些内核彼此不依赖,但由于队列是有序的,因此内核必须一个接一个地执行。请注意,在此示例中交换这两个内核的顺序是完全合法的。第二个内核执行后,第三个内核将第二个数组的元素添加到第一个数组的元素中。最终内核对第一个数组的元素进行求和,以计算与我们在线性相关链示例中所做的相同结果。这个求和内核依赖于之前的内核,但是这个线性链也被有序队列捕获。最后,我们等待所有内核完成并验证我们是否成功计算了幻数。

图 8-7 显示了我们的"Y"模式示例,其中使用无序队列而不是有序队列。由于队列的顺序导致依赖关系不再是隐式的,因此我们必须使用事件显式指定命令组之间的依赖关系。如图 8-6 所示,我们首先定义两个没有初始依赖性的独立内核。我们用两个事件 e1 和 e2 来表示这些内核。当我们定义第三个内核时,我们必须指定它依赖于前两个内核。我们通过说它取决于事件 e1 和 e2 在执行之前完成来做到这一点。然而,在这个例子中,我们使用快捷形式来指定这些依赖关系,而不是处理程序的 depends\_on 方法。在这里,我们将事件作为额外参数传递给 parallel\_for。由于我们想要一次传递多个事件,因此我们使用接受事件 std::vector 的形式,但幸运的是,现代 C++ 通过自动将表达式 e1, e2 转换为适当的向量,为我们简化了这一过程。

在我们的最后一个示例中,如图 8-8 所示,我们再次用缓冲区和访问器替换 USM 指针和事件。此示例将两个数组 data1 和 data2 表示为缓冲区对象。我们的内核不再使用快捷方法来定义内核,因为我们必须将访问器与

命令组处理程序关联起来。再一次,第三个内核必须捕获对前两个内核的依赖。这里这是通过声明缓冲区的访问器来完成的。由于我们之前已经声明了这些缓冲区的访问器,因此运行时能够正确排序这些内核的执行。此外,当我们声明访问器 b 时,我们还向运行时提供额外的信息。我们添加访问标记read\_only 让运行时知道我们只会读取这些数据,不会生成新值。正如我们在线性依赖链的缓冲区和访问器示例中看到的那样,我们的最终内核通过更新第三个内核中生成的值来对自身进行排序。我们通过声明一个主机访问器来检索计算的最终值,该主机访问器将等待最终内核完成执行,然后将数据移回主机,在主机上我们可以读取数据并断言我们计算了正确的结果。

### 8.2.4 命令组的各个部分何时执行?

由于任务图是异步的,因此有必要了解命令组的确切执行时间。到目前为止,应该清楚的是,一旦满足了内核的依赖性,就可以执行内核,但是命令组的主机部分会发生什么情况呢?

当命令组提交到队列时,它会立即在主机上执行(在提交调用返回之前)。命令组的该主机部分仅执行一次。命令组中定义的任何内核或显式数据操作都会排队在设备上执行。

## 8.3 数据移动

数据移动是 SYCL 中图表的另一个非常重要的方面,这对于理解应用程序性能至关重要。但是,如果数据移动在程序中隐式发生(使用缓冲区和访问器或使用 USM 共享分配),则通常会意外地忽略这一点。接下来,我们将研究数据移动影响 SYCL 中图形执行的不同方式。

#### 8.3.1 显式数据移动

显式数据移动的优点是它显式地出现在图表中,使程序员可以清楚地 了解图表执行过程中发生的情况。我们将显式数据操作分为 USM 和缓冲区 的操作。

正如我们在第 6 章中了解到的,当我们需要在设备分配和主机之间复制数据时,USM 中会发生显式数据移动。这是通过队列和处理程序类中的memcpy 方法完成的。提交操作或命令组会返回一个事件,该事件可用于与其他命令组一起订购副本。

通过调用命令组处理程序对象的 copy 或 update\_host 方法,可以通过缓冲区进行显式数据移动。

复制方法可用于在主机内存和设备上的访问器对象之间手动交换数据。这样做可以出于多种原因。一个简单的例子是对长时间运行的计算序列设置检查点。使用复制方法,数据可以以单向方式从设备写入任意主机存储器。如果使用缓冲区完成此操作,则大多数情况(即缓冲区不是使用 use\_host\_ptr 创建的)将需要首先将数据复制到主机,然后从缓冲区的内存复制到所需的主机内存。

update\_host 方法是一种非常特殊的复制形式。如果围绕主机指针创建缓冲区,则此方法会将访问器表示的数据复制回原始主机内存。如果程序手动将主机数据与使用特殊 use\_mutex 属性创建的缓冲区同步,这会很有用。然而,这种用例在大多数程序中不太可能出现。

#### 8.3.2 隐式数据移动

隐式数据移动可能会对 SYCL 中的命令组和任务图产生隐藏的后果。通过隐式数据移动,数据可以通过 SYCL 运行时或通过硬件和软件的某种组合在主机和设备之间复制。无论哪种情况,复制都会在没有用户明确输入的情况下发生。让我们再次分别看看 USM 和缓冲器的情况。

使用 USM, 主机和共享分配会发生隐式数据移动。正如我们在第 6 章中了解到的, 主机分配实际上并不移动数据, 而是远程访问数据, 并且共享分配可能会在主机和设备之间迁移。由于此迁移是自动发生的, 因此 USM 隐式数据移动和命令组实际上无需考虑。然而, 共享分配有一些细微差别值得记住。

预取操作的工作方式与 memcpy 类似,以便让运行时在内核尝试使 用共享分配之前开始迁移它们。然而,与必须复制数据以确保正确结果的 memcpy 不同,预取通常被视为运行时的提示以提高性能,并且预取不会使 内存中的指针值无效(就像复制到新地址范围时那样))。如果在内核开始执 行之前预取尚未完成,程序仍将正确执行,并且许多代码可能选择使图中的 命令组不依赖于预取操作,因为它们不是功能要求。

缓冲区也有一些细微差别。使用缓冲区时,命令组必须为缓冲区构造访问器,以指定如何使用数据。这些数据依赖性表达了不同命令组之间的顺序,并允许我们构建任务图。然而,带有缓冲区的命令组有时还具有另一个目的:它们指定数据移动的要求。

访问器指定内核将读取或写入缓冲区。由此推论,数据也必须在设备上可用,如果不可用,则运行时必须在内核开始执行之前将其移动到那里。因此,SYCL 运行时必须跟踪缓冲区当前版本所在的位置,以便可以安排数据移动操作。访问器创建有效地在图中创建了一个额外的隐藏节点。如果需要数据移动,运行时必须首先执行它。只有这样,提交的内核才能执行。

让我们再看一下图 8-8。在此示例中,我们的前两个内核将需要将缓冲区 data1 和 data2 复制到设备;运行时隐式创建额外的图形节点来执行数据移动。当第三个内核的命令组被提交时,这些缓冲区很可能仍然在设备上,因此运行时不需要执行任何额外的数据移动。第四个内核的数据也可能不需要任何额外的数据移动,但主机访问器的创建需要运行时在访问器可供使用之前安排将缓冲区数据 1 移动回主机。

# 8.4 与主机同步

我们要讨论的最后一个主题是如何与主机同步图执行。我们已经在整章中谈到了这一点,但现在我们将研究程序执行此操作的所有不同方式。

主机同步的第一种方法是我们在前面的许多示例中使用的方法:等待队列。队列对象有两个方法:wait和wait\_and\_throw,它们会阻止主机执行,直到提交到队列的每个命令组完成为止。这是一个非常简单的方法,可以处理许多常见情况。然而,值得指出的是,这种方法的粒度非常粗。如果需要更细粒度的同步(例如,可能提高性能),我们将讨论的其他方法之一可能更适合应用程序的需求。

主机同步的下一个方法是同步事件。这为队列同步提供了更大的灵活性,因为它允许应用程序仅在特定操作或命令组上同步。这是通过调用事件的 wait 方法或调用事件类的静态方法 wait 来完成的,该事件类可以接受事件向量。

我们已经看到图 8-5 和 8-8 中使用的下一个方法: 主机访问器。主机访问器执行两个功能。首先,顾名思义,它们使数据可在主机上访问。其次,它们通过定义当前访问的图和主机之间的新依赖关系来同步设备和主机。这可确保复制回主机的数据具有图形正在执行的计算的正确值。然而,我们再次注意到,如果缓冲区是从现有主机内存构造的,则不能保证该原始内存包含更新的值。

请注意,主机访问器是阻塞的。在数据可用之前,主机上的执行可能不会超过主机访问器的创建。同样,当主机访问器存在并保持其数据可用时,

缓冲区不能在设备上使用。一种常见的模式是在附加 C++ 作用域内创建主机访问器,以便在不再需要主机访问器时释放数据。这是下一个主机同步方法的示例。

SYCL 中的某些对象在被销毁时具有特殊行为,并调用其析构函数。我们刚刚了解了主机访问器如何使数据保留在主机上直到它们被销毁。当缓冲区和图像被破坏或离开范围时,它们也有特殊的行为。当缓冲区被销毁时,它会等待所有使用该缓冲区的命令组完成执行。一旦缓冲区不再被任何内核或内存操作使用,运行时可能必须将数据复制回主机。如果使用主机指针初始化缓冲区或将主机指针传递给方法 set\_final\_data,则会发生此复制。然后,运行时将复制回该缓冲区的数据并在对象被销毁之前更新主机指针。

与主机同步的最后一个选项涉及第7章中首先描述的一个不常见的功能。回想一下,缓冲区对象的构造函数可以选择采用属性列表。创建缓冲区时可以传递的有效属性之一是 use\_mutex。当以这种方式创建缓冲区时,它增加了缓冲区拥有的内存可以与主机应用程序共享的要求。对该内存的访问由用于初始化缓冲区的互斥体控制。当可以安全地访问与缓冲区共享的内存时,主机能够获得互斥体上的锁。如果无法获得锁,用户可能需要排队内存移动操作来与主机同步数据。这种用途非常特殊,在大多数 DPC++应用程序中不太可能找到。

### 8.5 概括

在本章中,我们了解了图以及它们如何在 SYCL 中构建、调度和执行。 我们详细介绍了指挥组的含义以及它们的功能。我们讨论了命令组中可以 包含的三件事:依赖性、操作和其他主机代码。我们回顾了如何使用事件以 及通过访问器描述的数据依赖性来指定任务之间的依赖性。我们了解到命 令组中的单个操作可能是内核或显式内存操作,然后我们查看了几个示例, 这些示例展示了构建常见执行图模式的不同方法。接下来,我们回顾了数据 移动如何成为 SYCL 图的重要组成部分,并了解了它如何显式或隐式地出 现在图中。最后,我们研究了将图的执行与主机同步的所有方法。

了解程序流程可以使我们了解在调试运行时失败时可以打印的调试信息类型。第 13 章"调试运行时故障"部分有一个表格,考虑到我们在本书中这一点所获得的知识,该表格会更有意义。然而,本书并不试图详细讨论这些高级编译器转储。

希望这让您感觉自己像一位图形专家,可以构建各种复杂程度的图形,从线性链到具有数百个节点以及复杂数据和任务依赖性的巨大图形!在下一章中,我们将开始深入研究有助于提高特定设备上应用程序性能的底层细节。

# 9 通讯与同步

在第 4 章中,我们讨论了使用基本数据并行内核或显式 ND 范围内核来表达并行性的方法。我们讨论了基本数据并行内核如何独立地将相同的操作应用于每条数据。我们还讨论了显式 ND 范围内核如何将执行范围划分为工作项的工作组。

在本章中,我们将重新审视如何在不断追求并行思考的过程中将问题分解为小块的问题。本章提供了有关显式 ND 范围内核的更多详细信息,并描述了如何使用工作项分组来提高某些类型算法的性能。我们将描述工作项组如何为并行工作的执行方式提供额外的保证,并且我们将介绍支持工作项分组的语言功能。在第 15、16 和 17 章中优化特定设备的程序以及在第 14 章中描述常见并行模式时,许多想法和概念非常重要。

# 9.1 工作组和工作项

回想一下第 4 章,显式 ND 范围内核将工作项组织到工作组中,并且同一工作组中的所有工作项都有额外的调度保证。这个属性很重要,因为它意味着工作组中的工作项可以合作解决问题。

图 9-1 显示了划分为工作组的 ND 范围,其中每个工作组由不同的颜色表示。每个工作组中的工作项可以安全地与共享相同颜色的其他工作项进行通信。

无法保证不同工作组中的工作项会同时执行,因此具有一种颜色的工作项无法与具有不同颜色的工作项可靠地通信。如果一个工作项尝试与当前未执行的另一工作项通信,则内核可能会死锁。由于我们希望内核能够完成执行,因此我们必须确保当一个工作项与另一工作项通信时,它们位于同一个工作组中。

#### 9.2 高效通讯的基石

本节描述支持组中工作项之间高效通信的构建块。有些是基本构建块,可以构建自定义算法,而另一些则是更高级别的,描述许多内核使用的常见操作。

#### 9.2.1 通过屏障 (Barriers) 进行同步

通信最基本的组成部分是屏障功能。屏障功能有两个主要目的:

首先,屏障功能同步组中工作项的执行。通过同步执行,一个工作项可以确保同一组中的另一个工作项在使用该操作的结果之前已完成该操作。或者,在另一个工作项使用操作结果之前,给一个工作项时间来完成其操作。

其次,屏障函数同步每个工作项如何查看内存状态。这种类型的同步操作称为强制内存一致性或隔离内存(更多详细信息请参阅第 19 章)。内存一致性至少与同步执行一样重要,因为它确保在屏障之前执行的内存操作的结果对于屏障之后的其他工作项是可见的。如果没有内存一致性,一个工作项中的操作就像森林中的一棵树倒下一样,其他工作项可能会也可能听不到声音!

图 9-2 显示了一组中在屏障函数处同步的四个工作项。尽管每个工作项的执行时间可能不同,但在所有工作项都执行屏障之前,没有任何工作项可以执行越过屏障。执行屏障函数后,所有工作项都具有一致的内存视图。

因为屏障函数同步执行,所以组中的所有工作项都执行屏障或者组中 没有工作项执行屏障是至关重要的。如果组中的某些工作项围绕任何障碍 函数分支,则组中的其他工作项可能会永远在障碍处等待,或者至少直到用 户放弃并终止程序!

#### 9.2.2 工作组本地内存

工作组屏障功能足以协调工作组中工作项之间的通信,但通信本身必须通过记忆进行。通信可以通过 USM 或缓冲区进行,但这可能不方便且效率低下:它需要专门的通信分配,并且需要在工作组之间划分分配。

为了简化内核开发并加速工作组中工作项之间的通信,SYCL 定义了一个特殊的本地内存空间,专门用于工作组中工作项之间的通信。

图 9-3 显示了两个工作组。两个工作组都可以访问 USM 和全局内存空间中的缓冲区。每个工作组可以访问自己的本地内存空间中的变量,但不能访问另一个工作组本地内存中的变量。

当工作组开始时,其本地内存的内容未初始化,并且在工作组执行完成 后本地内存不会保留。由于这些属性,本地内存只能在工作组执行时用于临 时存储。

对于某些设备,例如对于许多 CPU 设备,本地存储器是软件抽象并且 使用与全局存储器相同的存储器子系统来实现。在这些设备上,使用本地内 存主要是一种方便的通信机制。某些编译器可能会使用内存空间信息进行 编译器优化,但在其他情况下,使用本地内存进行通信从根本上来说不会比 通过这些设备上的全局内存进行通信更好。

对于其他设备,例如许多 GPU 设备,有专用的本地内存资源。在这些设备上,通过本地内存进行通信比通过全局内存进行通信性能更好。

我们可以使用设备查询 info::device::local\_mem\_type 来确定加速器是否具有用于本地内存的专用资源,或者本地内存是否被实现为全局内存的软件抽象。有关查询设备属性的更多信息,请参阅第 12 章;有关 CPU、GPU和 FPGA 的本地内存通常如何实现的更多信息,请参阅第 15、16 和 17 章。

# 9.3 使用工作组屏障 (Barriers) 和本地内存

现在我们已经确定了工作项之间有效通信的基本构建块,我们可以描述如何在内核中表达工作组障碍和本地内存。请记住,工作项之间的通信需要工作项分组的概念,因此这些概念只能针对 ND 范围内核来表达,并且不包含在基本数据并行内核的执行模型中。

本章将通过介绍执行矩阵乘法的工作组中的工作项之间的通信,建立 在第 4 章中介绍的朴素矩阵乘法内核示例的基础上。在许多设备上(但不 一定是所有设备!)通过本地内存进行通信将提高矩阵乘法内核的性能。

图 9-4 显示了我们将从中开始的朴素矩阵乘法内核,类似于第 4 章中的矩阵乘法内核。对于该内核以及本章中的所有矩阵乘法内核,T 是一个模板类型,指示类型存储在矩阵中的数据的数量,例如 32 位浮点型或 64 位双精度型。

在第 4 章中,我们观察到矩阵乘法算法具有高度的重用性,并且对工作项进行分组可以提高访问的局部性,因此也可以提高缓存命中率。在本章中,我们修改后的矩阵乘法内核将不再依赖隐式缓存行为来提高性能,而是使用本地内存作为显式缓存,以保证访问的局部性。

图 9-5 是第 4 章的修改图,显示了由单行组成的工作组,这使得使用本地内存的算法更容易理解。观察到,对于结果矩阵的一行中的元素,每个结果元素都是使用来自输入矩阵之一的唯一数据列计算的(以蓝色和橙色显示)。由于该输入矩阵没有数据共享,因此它不是本地内存的理想候选者。但请注意,该行中的每个结果元素都访问另一个输入矩阵中完全相同的数据(以绿色显示)。由于这些数据被重用,因此它是从工作组本地内存中受益的绝佳候选者。

因为我们想要乘以可能非常大的矩阵,并且工作组本地内存可能是有限的资源,所以我们修改后的内核将处理每个矩阵的子部分,我们将其称为

矩阵图块。对于每个图块,我们修改后的内核会将图块的数据加载到本地内存中,同步组中的工作项,然后从本地内存而不是全局内存加载数据。第一个图块访问的数据如图 9-6 所示。

在我们的内核中,我们选择了与工作组大小相等的图块大小。这不是必需的,但因为它简化了本地内存的传入或传出,所以选择工作组大小的倍数的图块大小是常见且方便的。

#### 9.3.1 ND 范围内核中的工作组障碍和本地内存

本节介绍如何在 ND 范围内核中表达工作组屏障和本地内存。对于 ND 范围内核,表示是显式的:内核声明本地访问器并对其进行操作,该本地访问器表示本地地址空间中的分配,并调用屏障函数来同步工作组中的工作项。

#### 本地访问器

要声明本地内存用于 ND 范围内核,请使用本地访问器。与其他访问器对象一样,本地访问器是在命令组处理程序中构造的,但与第 3 章和第 7 章中讨论的访问器对象不同,本地访问器不是从缓冲区对象创建的。相反,本地访问器是通过指定类型和描述该类型元素数量的范围来创建的。与其他访问器一样,本地访问器可以是一维、二维或三维的。图 9-7 演示了如何声明本地访问器并在内核中使用它们。

请记住,本地内存在每个工作组开始时未初始化,并且在每个工作组完成后不会保留。这意味着本地访问器必须始终是 read\_write, 否则内核将无法分配本地内存的内容或查看分配的结果。不过,本地访问器可以选择是原子的,在这种情况下,通过访问器对本地存储器的访问是原子地执行的。第 19 章更详细地讨论了原子访问。

#### 同步功能

要同步 ND 范围内核工作组中的工作项,请使用代表工作组的组调用 group\_barrier 函数。由于代表工作组的组只能从 nd\_item 查询,而不能从 item 查询,因此工作组屏障仅适用于 ND 范围内核,不适用于基本数据并 行内核。

group\_barrier 函数接受一个附加的可选参数来描述屏障执行的任何内存一致性操作的范围。当没有附加参数传递给 group\_barrier 函数时,屏障函数将根据传入的组确定默认范围。默认范围通常是正确的,因此很少需要显式范围,但如果某些算法需要,可以扩大内存范围。

请注意,显式作用域仅影响由屏障执行的内存操作,并且在屏障处同步 执行的工作项集完全由传递给屏障的组对象确定。我们无法通过将不同的 内存范围传递给屏障来同步更多或更少的工作项,但我们可以通过将不同 的组对象传递给屏障来同步一组不同的工作项。

#### 完整的 ND 范围内核示例

现在我们知道如何声明本地内存访问器并使用屏障函数同步对其的访问,我们可以实现矩阵乘法的 ND 范围内核版本,它协调工作组中工作项之间的通信,以减少全局流量记忆。完整的示例如图 9-8 所示。

该内核中的主循环可以被认为是两个不同的阶段:在第一阶段,工作组中的工作项协作将共享数据从 A 矩阵加载到工作组本地内存中;在第二个中,工作项使用共享数据执行自己的计算。为了确保所有工作项在进入第二阶段之前都已完成第一阶段,这两个阶段通过调用 group\_barrier 来分隔,以同步工作组中的所有工作项并提供内存栅栏。这种模式是一种常见的模式,在内核中使用工作组本地内存几乎总是需要使用工作组屏障。

请注意,还必须调用 group\_barrier 来同步当前图块的计算阶段和下一个矩阵图块的加载阶段之间的执行。如果没有这种同步操作,当前矩阵图块的一部分可能会在另一工作项完成计算之前被工作组中的一个工作项覆盖。一般来说,每当一个工作项在本地存储器中读取或写入由另一工作项读取或写入的数据时,就需要同步。在图 9-8 中,同步是在循环结束时完成的,但在每个循环迭代开始时进行同步也同样正确。

### 9.4 子组

到目前为止,在本章中,工作项已通过工作组本地内存交换数据并使用工作组上的 group\_barrier 函数进行同步,从而与工作组中的其他工作项进行通信。

在第4章中,我们讨论了另一组工作项。子组是工作组中由实现定义的工作项子集,它们在相同的硬件资源上一起执行或具有额外的调度保证。因为实现决定如何将工作项分组为子组,所以子组中的工作项可能能够比任意工作组中的工作项更有效地通信或同步。

本节描述子组中工作项之间通信的构建块。子组还需要工作项分组的概念,因此子组也需要 ND 范围内核,并且不包含在基本数据并行内核的执行模型中。

#### 9.4.1 通过子组障碍进行同步

正如工作组中的工作项可以如何使用工作组屏障来同步一样,子组中的工作项可以使用子组屏障来同步。要执行子组屏障,请调用相同的group\_barrier 函数,但传递代表子组而不是工作组的组对象,如图 9-9 所示。与工作组对象一样,可以从 ND 范围内核的 nd\_item 类查询表示子组的组对象,但不能从基本数据并行项查询。

与工作组屏障一样,子组屏障可以接受可选参数来扩大与子组屏障相 关的任何内存操作的范围,但这并不常见,在大多数情况下我们可以简单地 使用默认内存范围。

#### 9.4.2 在子组内交换数据

与工作组不同,子组没有用于交换数据的专用存储空间。相反,子组中的工作项可以通过工作组本地存储器、通过全局存储器或更常见地通过使用子组集体功能来交换数据。

如前所述,集体函数是描述由一组工作项而不是单个工作项执行的操作的函数。由于屏障同步功能是由一组工作项执行的操作,因此它是集体功能的一个示例。

其他集体功能表达了共同的沟通模式。我们将在本章后面详细描述许多集体函数的语义,但现在我们重点关注 group\_broadcast 集体函数,我们将使用它来实现使用子组的矩阵乘法。

group\_broadcast 集体函数从组中的一个工作项获取一个值,并将其传递给组中的所有其他工作项。图 9-10 显示了一个示例。请注意,广播函数的语义要求标识组中要通信的值的 local\_id 对于组中的所有工作项必须相同,以确保广播函数的结果对于所有工作项也相同在组中。

如果我们查看本地内存矩阵乘法内核的最内层循环(如图 9-11 所示), 我们可以看到对矩阵图块的访问是广播操作,因为组中的每个工作项都读 取相同的值矩阵瓦片的。

我们将使用带有子组对象的 group\_broadcast 函数来实现不需要工作组本地内存或屏障的矩阵乘法内核。在许多设备上,使用工作组本地内存和屏障,子组广播比工作组广播更快。

### 9.4.3 完整子组 ND 范围内核示例

图 9-12 是使用子组实现矩阵乘法的完整示例。请注意,该内核不需要 工作组本地内存或显式同步,而是使用子组广播集体功能来在子组中的工 作项之间传达矩阵图块的内容。

### 9.5 组函数和组算法

在本章的"子组"部分中,我们描述了集体功能以及集体功能如何表达常见的沟通模式。我们特别讨论了广播集体功能,它用于将值从组中的一个工作项传递到组中的其他工作项。本节描述附加的集体功能。

尽管本节中描述的集体功能可以使用原子、工作组本地内存和屏障等功能直接在我们的程序中实现,但许多设备都包含专用硬件来加速集体功能。即使设备不包含专用硬件,供应商提供的集合函数的实现也可能会针对其运行的设备进行调整,因此调用内置集合函数通常会比我们编写的通用实现执行得更好。

#### 9.5.1 广播 Broadcast

group\_broadcast 函数使组中的一个工作项能够与组中的所有其他工作项共享变量的值。广播功能的工作原理如图 9-10 所示。工作组和子组都支持 group\_broadcast 功能。

#### 9.5.2 投票 Votes

any\_of\_group、all\_of\_group 和 none\_of\_group 函数(以下称为"投票"函数)使工作项能够比较其组中布尔条件的结果: 如果条件对于其中至少一个工作项为真,则 any\_of\_group 返回 true。如果组中所有工作项的条件都为 true,则 all\_of\_group 返回 true;如果组中的所有工作项的条件为false,则 none\_of\_group 返回 true。图 9-13 显示了示例输入的这两个函数的比较。

SYCL 2020 还支持这些函数的另一种变体,其中组中的工作项协作评估一系列数据,例如标准 C++ all\_of、any\_of 和 none\_of 算法。这些函数被命名为 joint\_any\_of、joint\_all\_of 和 joint\_none\_of,以区别于组中每个工作项保存要直接比较的数据的变体。

例如,投票函数对于某些迭代算法非常有用,可以确定组中所有工作项的解决方案何时收敛。工作组和子组支持投票功能。

#### 9.5.3 随机播放 Shuffles

子组最有用的功能之一是能够在各个工作项之间直接通信,而无需显式内存操作。在许多情况下,例如子组矩阵乘法内核,这些洗牌操作使我们能够从内核中删除工作组本地内存使用,并避免不必要的重复访问全局内存。这些随机播放功能有多种类型可供选择。

最通用的 shuffle 函数称为 select\_from\_group,如图 9-14 所示,它允许子组中任意一对工作项之间进行任意通信。然而,这种通用性可能会降低性能,我们强烈鼓励尽可能使用更专业的随机播放函数。

在图 9-14 中,通用洗牌用于使用预先计算的排列索引对子组的值进行排序。针对子组中的一个工作项显示了箭头,其中随机播放的结果是 local id 等于 7 的工作项的 x 值。

请注意,子组 group\_broadcast 函数可以被视为通用 select\_from\_group 函数的专用版本,其中子组中所有工作项的随机索引相同。当已知子组中所有工作项的洗牌索引相同时,使用 group\_broadcast 而不是 select\_from\_group 可为编译器提供附加信息,并可能提高某些实现的性能。

shift\_group\_right 和 shift\_group\_left 函数有效地将子组的内容沿给定方向移动固定数量的元素,如图 9-15 所示。请注意,返回到子组中最后五个工作项的值未定义,并在图 9-15 中显示为空白。移位对于并行化具有循环携带依赖性的循环或实现常见算法(例如独占或包含扫描)非常有用。

permute\_group\_by\_xor 函数交换两个工作项的值,由应用于工作项的子组本地 ID 和固定常量的 XOR 运算的结果指定。如图 9-16 和图 9-17 所示,可以使用 XOR 来表达几种常见的通信模式,例如交换相邻值对或反转子组值。

由于随机播放功能非常专业,因此它们仅适用于子组,不适用于工作 组。

# 9.6 概括

本章讨论了组中的工作项如何进行通信和协作以提高某些类型内核的性能。

我们首先讨论了 ND 范围内核如何支持将工作项分组为工作组。我们讨论了将工作项分组到工作组中如何改变并行执行模型,从而保证工作组中的工作项以支持通信和同步的方式调度执行。

接下来,我们讨论了工作组中的工作项如何使用屏障进行同步以及屏障如何在内核中表达。我们还讨论了如何通过工作组本地内存执行工作组中工作项之间的通信,以简化内核并提高性能,并且讨论了如何使用本地访问器表示工作组本地内存。

我们讨论了 ND 范围内核中的工作组如何进一步划分为工作项子组,其中工作项子组可以支持额外的通信模式或调度保证。

对于工作组和子组,我们讨论了如何通过使用集体功能来表达和加速常见的沟通模式。

本章中的概念是理解第 14 章中描述的常见并行模式以及理解如何针对 第 15、16 和 17 章中的特定设备进行优化的重要基础。

# 10 定义内核

到目前为止,在本书中,我们的代码示例已经使用 C++ lambda 表达式表示内核。Lambda 表达式是一种在使用时表示内核的简洁而方便的方法,但它们并不是在 SYCL 中表示内核的唯一方法。在本章中,我们将详细探讨定义内核的各种方法,帮助我们选择最适合我们的 C++ 编码需求的内核形式。

本章解释并比较了表示内核的三种方法:

Lambda 表达式。

命名函数对象(函子)。

通过与通过其他语言或 API 创建的内核的互操作性。本章简要介绍了该主题,第 20 章更详细地介绍了该主题。

本章最后讨论了如何显式操作内核包中的内核来查询内核属性并控制何时以及如何编译内核。

# 10.1 为什么用三种方式来表示内核?

在深入讨论细节之前,我们首先总结一下为什么有三种定义内核的方法以及每种方法的优缺点。图 10-1 给出了一个有用的总结。

请记住,内核用于表示计算单元,并且内核的许多实例通常会在加速器上并行执行。SYCL 支持多种方式来表达内核,以自然、无缝地集成到具有不同编码风格的代码库中,同时还能在各种加速器类型上高效执行。

# 10.2 作为 Lambda 表达式的内核

C++ lambda 表达式,也称为匿名函数对象、未命名函数对象、闭包或简称 lambda,是在使用内核时表达内核的便捷方法。本节介绍如何将内核表示为 C++ lambda 表达式。这扩展了第 1 章中 C++ lambda 表达式的介绍性复习,其中包括一些带有输出的基本编码示例。

C++ lambda 表达式非常强大并且具有表达语法,但在 SYCL 中表达内核时,仅需要(并支持)完整 C++ lambda 表达式语法的特定子集。

### 10.2.1 内核 Lambda 表达式的元素

图 10-2 显示了一个用典型 lambda 表达式编写的简单内核——本书到目前为止的代码示例都使用了这种语法。

图 10-3 中的插图显示了可与内核一起使用的 lambda 表达式的元素,但其中许多元素并不典型。在大多数情况下,lambda 默认值就足够了,因此典型的内核 lambda 表达式看起来更像图 10-2 中的 lambda 表达式,而不是图 10-3 中更复杂的 lambda 表达式。

1. lambda 表达式的第一部分描述 lambda 捕获。从周围范围捕获变量 使其可以在 lambda 表达式中使用,而无需将其作为参数显式传递给 lambda 表达式。

C++ lambda 表达式支持通过复制或创建对变量的引用来捕获变量,但对于内核 lambda 表达式,只能通过复制来捕获变量。一般做法是简单地使用默认捕获模式 [=],该模式按值隐式捕获所有变量,尽管也可以在逗号分隔的捕获列表中显式命名每个捕获的变量。内核中使用的任何未按值捕获的变量都将导致编译时错误。请注意,根据 C++ 标准,全局变量不会被lambda 表达式捕获。

- 2. lambda 表达式的第二部分描述传递给 lambda 表达式的参数,就像传递给命名函数的参数一样。对于内核 lambda 表达式,该参数取决于内核的调用方式并标识并行执行空间中工作项的索引。有关各种并行执行空间以及如何识别每个执行空间中工作项的索引的更多详细信息,请参阅第 4 章。
- 3. lambda 表达式的最后一部分定义函数体。对于内核 lambda 表达式,函数体描述了应在并行执行空间中的每个索引处执行的操作。

lambda 表达式还有其他部分,但它们要么是可选的、不经常使用的,要么不受 SYCL 2020 支持:

- 4. SYCL 2020 没有定义任何说明符 (例如 mutable), 因此示例代码中没有显示任何说明符。
- 5. 支持异常规范,但如果提供,则必须为 noexcept,因为内核不支持异常。
- 6. 支持 Lambda 属性,可用于控制内核的编译方式。例如,reqd\_work\_group\_size 属性可用于要求内核的特定工作组大小,而 device\_has 属性可用于要求内核的特定设备方面。第 12 章包含有关使用属性和方面进行内核专业化的更多信息。
- 7. 可以指定返回类型,但如果提供则必须为 void,因为内核不支持非 void 返回类型。

### 10.2.2 识别内核 Lambda 表达式

当将内核编写为 lambda 表达式时,在某些情况下还必须提供一个元素: 因为 lambda 表达式是匿名的,所以有时 SYCL 需要显式内核名称模板参数来唯一标识编写为 lambda 表达式的内核。

命名内核 lambda 表达式是主机代码编译器在由单独的设备代码编译器编译内核时识别要调用哪个内核的一种方式。命名内核 lambda 还可以对已编译内核进行运行时自省或按名称构建内核,如图 10-9 所示。

为了在不需要内核名称模板参数时支持更简洁的代码,对于大多数 SYCL 2020 编译器来说,内核名称模板参数是可选的。当不需要内核名 称模板参数时,我们的代码可以更加紧凑,如图 10-5 所示。

由于大多数情况下不需要 lambda 表达式的内核名称模板参数,因此我们通常可以从未命名的 lambda 开始,仅在需要内核名称模板参数的特定情况下添加内核名称。

# 10.3 内核作为命名函数对象

命名函数对象,也称为函子,是 C++ 中的一种既定模式,允许在维护定义良好的接口的同时对任意数据集合进行操作。当用于表示内核时,命名函数对象的成员变量定义内核可以操作的状态,并且为并行执行空间中的每个工作项调用重载函数调用 operator()。

命名函数对象需要比 lambda 表达式更多的代码来表达内核,但额外的冗长提供了更多的控制和附加功能。例如,分析和优化表示为命名函数对象的内核可能会更容易,因为内核使用的任何缓冲区和数据值都必须显式传递给内核,而不是由 lambda 表达式自动捕获。

表示为命名函数对象的内核也可能更容易调试、更容易重用,并且它们可以作为单独的头文件或库的一部分提供。

最后,因为命名函数对象就像任何其他 C++ 类一样,所以可以模板化表示为命名函数对象的内核。C++20 添加了模板化 lambda 表达式,但基于 C++17 的 SYCL 2020 中的内核不支持模板化 lambda 表达式。

#### 10.3.1 内核命名函数对象的元素

图 10-6 中的代码演示了表示为命名函数对象的内核的典型用法。在这个例子中,内核的参数被传递给类构造函数,而内核本身则在重载函数调用

operator() 中。

当内核表示为命名函数对象时,命名函数对象类型必须遵循 SYCL 2020 规则才能设备可复制。通俗地说,这意味着命名函数对象可以逐字节安全地 复制,从而使命名函数对象的成员变量能够传递到设备上执行的内核代码并由其访问。任何可普通复制的 C++ 类型都是隐式设备可复制的。

重载函数调用 operator() 的参数取决于内核的启动方式,就像用 lambda 表达式表示的内核一样。

图 10-7 中的代码显示了如何在定义为命名函数对象的内核上使用可选的内核属性,例如 reqd\_work\_group\_size 属性。当内核被定义为命名函数对象时,可选内核属性有两个有效位置。这与编写为 lambda 表达式的内核不同,其中可选内核属性只有一个位置有效。

由于所有函数对象都是命名的,因此即使函数对象是模板化的,主机代码编译器也可以使用函数对象类型来识别设备代码编译器生成的内核代码。 不需要额外的内核名称模板参数来命名内核函数对象。

# 10.4 内核包中的内核

我们应该注意的与 SYCL 内核相关的最后一个主题涉及 SYCL 内核对象和 SYCL 内核包。典型的应用程序开发不需要了解内核对象和内核包,但在某些情况下对于调整应用程序性能很有用。了解内核对象和内核包还可以帮助理解 SYCL 实现如何组织和管理内核。

SYCL 内核包是应用程序使用的 SYCL 内核或 SYCL 函数的容器。应用程序中内核包的数量取决于特定的 SYCL 编译器。一些应用程序可能只有一个内核包,即使它们有多个内核,而其他应用程序可能有多个内核包,即使它们只有几个内核。

SYCL 内核包及其包含的内核或函数可以处于以下三种状态之一:

输入状态: 此状态下的内核包通常采用某种中间表示形式,并且必须 先进行即时 (JIT) 编译,然后才能在设备上执行。

对象状态: 此状态下的内核包通常会被编译但不会链接,就像主机应 用程序编译器创建的对象文件一样。

可执行状态: 此状态下的内核包已完全编译为设备代码,并准备好在设备上执行。在编译主机应用程序时提前 (AOT) 编译的内核包最初将处于此状态。

虽然规范没有要求,但许多 SYCL 编译器最初将内核编译为中间表示

形式,以便可移植到最大数量的 SYCL 设备。这意味着应用程序内核包通常最初处于输入状态。然后,许多 SYCL 运行时库根据需要"延迟"地将内核包从输入状态编译为可执行状态。

这通常是一个很好的策略,因为它可以实现快速应用程序启动,并且如果从未执行内核,则不会不必要地编译内核。然而,这种策略的缺点是,第一次使用内核比后续使用需要更长的时间,因为它包括编译内核所需的时间以及提交和执行内核所需的通常时间。对于复杂的内核,编译内核的时间可能很长,因此需要在应用程序执行期间将编译转移到不同的点,例如在加载应用程序时,或者转移到单独的后台线程。

为了更好地控制内核编译的时间和方式,我们可以在将内核提交到队列之前显式请求编译内核包。当内核被提交到队列执行时,可以使用预编译的内核包。图 10-8 显示了如何在将任何内核提交到队列之前编译应用程序使用的所有内核,以及如何使用预编译的内核包。

此示例为与 SYCL 队列关联的 SYCL 上下文中的所有设备请求处于可执行状态的内核包,这将导致应用程序中的任何内核(如果尚未处于可执行状态)进行即时编译。在这个具体示例中,内核非常短,编译不会花费很长时间,但如果有很多内核,或者它们更复杂,则此步骤可能会花费大量时间。当然,如果所有内核都被提前编译,或者如果所有内核都已经被即时编译,则该操作实际上是免费的,因为所有内核都已经处于可执行状态。

如果我们想要更多地控制内核的编译时间和方式,我们可以请求特定设备的内核包,甚至是程序中的特定内核。这使我们能够有选择地立即编译程序中的某些内核,同时让其他内核稍后或根据需要进行编译。图 10-9 显示了如何仅编译由类 Add kernel name 标识的内核,并且仅编译与 SYCL 队列关联的 SYCL 设备,而不是程序中的所有内核和 SYCL 上下文中的所有设备。

这是一种罕见的情况,我们需要命名我们的内核 lambda 表达式; 否则, 我们将无法识别要编译的内核。

内核包中的内核还可用于查询有关已编译内核的信息,例如确定特定设备的内核的最大工作组大小。在某些情况下,可能需要这些类型的内核查询来选择用于内核和特定设备的有效值。在其他情况下,内核查询可以提供提示,允许我们的应用程序动态调整并选择内核和特定设备的最佳值。

识别内核、从编译的内核包中获取内核对象以及使用内核对象执行设备特定查询的基本机制如图 10-10 所示。第 12 章描述了更完整的可用内核

查询列表。

这是另一种罕见的情况,我们需要命名我们的内核 lambda 表达式;否则,我们将无法识别要查询的内核。

# 10.5 与其他 API 的互操作性

当 SYCL 实现构建在另一个 API 之上时,该实现可能能够与使用底层 API 机制定义的内核进行互操作。这允许应用程序轻松地将 SYCL 集成到已经使用底层 API 的现有代码库中。第 20 章详细介绍了这个主题。就本章而言,我们可以简单地认识到与通过其他源语言或 API 创建的内核或内核包的互操作性提供了第三种表示内核的方法。

# 10.6 概括

在本章中,我们探索了定义内核的不同方法。我们描述了如何通过将内核表示为 C++ lambda 表达式或命名函数对象,将 SYCL 无缝集成到现有 C++ 代码库中。对于新的代码库,我们还讨论了不同内核表示的优缺点,以帮助根据应用程序或库的需求选择定义内核的最佳方法。

我们描述了内核通常如何在 SYCL 应用程序中编译,以及如何直接操作内核包中的内核来控制编译过程。尽管大多数应用程序不需要这种级别的控制,但在调整应用程序时,这是一种需要注意的有用技术。

# 11 向量和数学数组

向量是数据的集合。向量很有用,因为计算机中的并行性来自计算机硬件的集合,并且数据通常在相关分组中进行处理(例如,RGB 像素中的颜色通道)。这个概念非常重要,因此我们花了一章的时间讨论不同的 SYCL 向量类型以及如何使用它们。请注意,本章中我们不会深入讨论标量运算的向量化,因为这会根据设备类型和实现而有所不同。第 16 章介绍了标量运算的向量化。

本章旨在解决以下问题:

什么是向量类型?

SYCL 数学数组 (marray) 和向量 (vec) 类型之间有什么区别?

我应该何时以及如何使用 marray 和 vec?

我们使用工作代码示例讨论 marray 和 vec,并重点介绍利用这些类型的最重要方面。

# 11.1 向量类型的歧义

当我们与并行编程专家交谈时,向量是一个令人惊讶的有争议的话题。根据作者的经验,这是因为不同的人以不同的方式定义和思考向量。

有两种广泛的方式来思考本章所说的向量类型:

- 1. 作为一种便捷类型,它将我们可能想要引用和操作的数据分组为一组,例如像素的 RGB 或 YUV 颜色通道。我们可以定义一个像素类或结构,并在其上定义像 + 这样的数学运算符,但便利类型可以开箱即用地为我们做到这一点。在许多用于对 GPU 进行编程的着色器语言中都可以找到便利类型,因此这种思维方式在许多 GPU 开发人员中很常见。
- 2. 作为描述代码如何映射到硬件中的 SIMD (单指令,多数据) 指令集的机制。例如,在某些语言和实现中,float8 上的操作可以映射到硬件中的八通道 SIMD 指令。SIMD 向量类型在许多语言中用作 CPU 特定内联函数的高级替代方案,因此这种思维方式在许多 CPU 开发人员中已经很常见。

尽管这两种对向量类型的解释非常不同,但随着 SYCL 和其他语言同时适用于 CPU 和 GPU,它们无意中结合在一起并混在一起。vec 类(存在于 SYCL 1.2.1 中,并且仍然存在于 SYCL 2020 中)与任一解释兼容,而marray 类(在 SYCL 2020 中引入)被明确描述为与 SIMD 矢量硬件指令无关的便利类型。

# 11.2 我们对于 SYCL 向量类型的心智模型

在本书中,我们讨论了如何将工作项分组在一起以公开强大的通信和同步原语,例如子组屏障和洗牌。为了使这些操作在向量硬件上高效,需要假设子组中的不同工作项组合并映射到 SIMD 指令。换句话说,多个工作项由编译器组合在一起,此时它们可以映射到硬件中的 SIMD 指令。请记住第 4 章中的内容,这是在矢量硬件之上运行的 SPMD (单程序、多数据)编程模型的基本前提,其中单个工作项构成硬件中可能是 SIMD 指令的通道,而不是定义整个操作的工作项,该操作将成为硬件中的 SIMD 指令。当映射到硬件中的 SIMD 指令、以 SPMD 风格编程时,您可以将编译器视为始终跨工作项进行向量化。

对于来自没有向量类型的语言或来自 GPU 着色语言的开发人员,我们可以将 SYCL 向量类型视为工作项的本地向量类型,因为如果添加两个四元素向量,则添加可能需要硬件中的四个指令(从工作项的角度来看它将被标量化)。向量的每个元素将由硬件中的不同指令/时钟周期相加。这与我们对向量类型的解释是一致的——为了方便,我们可以在源代码中的单个操作中添加两个向量,而不是在源代码中执行四个标量操作。

对于具有 CPU 背景的开发人员来说,我们应该知道 SIMD 硬件的隐式向量化在许多编译器中默认发生,与向量类型的使用无关。编译器可以跨工作项执行这种隐式向量化,从格式良好的循环中提取向量运算,或者在映射到向量指令时尊重向量类型-有关更多信息,请参阅第 16 章。

本章的其余部分重点介绍如何使用向量类型(对于 marray 和 vec)的 方便解释来教授向量,这是我们在 SYCL 中编程时应该牢记的一点。

# 11.3 数学数组 (marray)

SYCL 数学数组类型 (marray),请参见图 11-1,是 SYCL 2020 中的新增内容,其定义是为了消除对向量类型应如何表现的不同解释的歧义。marray显式地表示了本章上一节中介绍的向量类型的第一种解释——与向量硬件指令无关的便利类型。通过从名称中删除"向量"并包含"数组",可以更轻松地记住和推理类型如何在硬件上逻辑实现。

marray 类根据其元素类型和元素数量进行模板化。元素数量参数 NumElements 是一个正整数—当 NumElements 为 1 时,数组可以隐式转换为等效的标量类型。元素类型参数 DataT 必须是 C++ 定义的数值类型。

Marray 是一个数组容器,与 std::array 类似,还额外支持数组上的数

学运算符(例如 +、+=)和 SYCL 数学函数(例如 sin、cos)。它旨在为 SYCL 设备上的并行计算提供高效且优化的数组操作。

为了方便起见, SYCL 为数学数组提供了类型别名。对于这些类型别名, 元素数量 N 必须为 2、3、4、8 或 16。

图 11-2 显示了如何将 cos 函数应用于由四个浮点数组成的数组中的每个元素的简单示例。此示例强调了使用数组来表达适用于分配给每个工作项的数据集合的所有元素的操作的便利性。

通过在大范围的数据 M 上执行该内核,我们可以在许多不同类型的设备上实现良好的并行性,包括那些比数组的四个元素宽得多的设备,而无需规定我们的代码如何映射到 SIMD 指令集操作关于向量类型。

# 11.4 矢量 (vec)

SYCL 向量类型 (vec) 存在于 SYCL 1.2.1 中,并且仍包含在 SYCL 2020 中。如前所述,vec 与向量类型的任一解释兼容。在实践中,vec 通常被解释为一种方便类型,因此我们建议使用 marray 来提高代码可读性并减少歧义。但是,此建议有三个例外,我们将在本节中介绍:矢量加载和存储、与后端本机矢量类型的互操作性以及称为"swizzles"的操作。

与 marray 一样, vec 类根据其元素数量和元素类型进行模板化。但是,与 marray 不同的是, NumElements 参数必须为 1、2、3、4、8 或 16, 任何其他值都会导致编译失败。这是一个很好的例子,说明了向量类型的混乱影响了 vec 的设计:将向量的大小限制为 2 的小幂对于 SIMD 指令集是有意义的,但从寻求便利类型的程序员的角度来看似乎是任意的。元素类型参数 DataT 可以是设备代码中支持的任何基本标量类型。

此外,与 marray 一样,vec 公开 2、3、4、8 和 16 个元素的简写类型别名。marray 别名以"m"为前缀,而 vec 别名则不然,例如,uint4 是 vec<uint32\_t,4>的别名,float16 是 vec<float,16>的别名。在处理向量类型时,我们必须密切注意这个"m"的存在或不存在,以确保我们知道我们正在处理哪个类,这一点很重要。

#### 11.4.1 加载和存储

vec 类提供用于加载和存储向量元素的成员函数。这些操作作用于存储与向量通道相同类型的对象的连续内存位置。

加载和存储函数如图 11-3 所示。load 成员函数从 multi\_ptr 地址处的 内存中读取 DataT 类型的值(偏移量为 NumElements \* DataT 的 offset 元素),并将这些值写入 vec 的通道。store 成员函数读取 vec 的通道,并将这些值写入 multi\_ptr 地址处的内存,偏移量为 NumElements \* DataT 的 offset 元素。

请注意, 该参数是 multi\_ptr, 而不是访问器或原始指针。multi\_ptr 的数据类型是 DataT, 即 vec 类特化的组件的数据类型。这要求传递给 load或 store 的指针必须与 vec 实例本身的组件类型匹配。

图 11-4 显示了使用加载和存储函数的简单示例。

SYCL 向量加载和存储函数提供了用于表达向量运算的抽象,但底层硬件架构和编译器优化将决定任何实际的性能优势。我们建议使用分析工具分析性能并尝试不同的策略,以找到特定用例的向量加载和存储操作的最佳利用率。

尽管我们不应该期望向量加载和存储操作映射到 SIMD 指令,但使用向量加载和存储函数仍然有助于提高内存带宽利用率。有效地对向量类型进行操作向编译器暗示每个工作项正在访问连续的内存块,并且某些设备可能能够利用此信息一次加载或存储多个元素,从而提高效率。

#### 11.4.2 与后端本机向量类型的互操作性

SYCL vec 类模板还可以提供与后端的本机向量类型(如果存在)的互操作性。后端本机向量类型由成员类型 vector\_t 定义,并且仅在设备代码中可用。vec 类可以从 vector\_t 的实例构造,并且可以隐式转换为 vector\_t 的实例。

我们大多数人永远不需要使用 vector\_t, 因为它的用例非常有限; 它的存在只是为了允许与从内核函数内调用的后端本机函数进行互操作(例如, 从 SYCL 内核内调用用 OpenCL C 编写的函数)。

#### 11.4.3 Swizzle 操作

在图形应用程序中,混合意味着重新排列向量的数据元素。例如,如果向量 a 包含元素 1, 2, 3, 4,并且知道四元素向量的分量可以称为 x, y, z, w,我们可以写成 b = a.wxyz(),向量 b 中的值为 4, 1, 2, 3。这种语法在代码紧凑性和具有用于此类操作的高效硬件的应用程序中很常见。

vec 类允许以两种方式之一执行混合,如图 11-5 所示。

swizzle 成员函数 template 允许我们通过调用模板成员函数 swizzle 来执行 swizzle 操作。此成员函数采用可变数量的整数模板参数,其中每个参数表示向量中相应元素的 swizzle 索引。swizzle 索引必须是 0 到 NumElements-1 之间的整数,其中 NumElements 表示原始 SYCL 向量中的元素数量 (例如,vec.swizzle<2,1,0,3>() 表示四个元素的向量)。swizzle 成员函数的返回类型始终是 \_\_swizzled\_vec\_\_\_ 的实例,它是表示 swizzle 向量的实现定义的临时类。请注意,调用 swizzle 时不会立即执行 swizzle 操作。相反,当在表达式中使用返回的 \_\_swizzled\_vec\_\_\_ 实例时,会执行 swizzle 操作。

简单的 swizzle 成员函数集(在 SYCL 规范中描述为 XYZW\_SWIZZLE 和 RGBA\_SWIZZLE) 是作为执行 swizzle 操作的替代方法提供的。这些成员函数仅适用于最多具有四个元素的向量,并且仅当 SYCL\_SIMPLE\_SWIZZLES 宏在任何 SYCL 头文件之前定义时才可用。简单的 swizzle 成员函数允许我们使用名称 x, y, z, w 或 r, g, b, a 引用向量的元素,并通过使用这些元素名称调用成员函数来执行 swizzle 操作直接地。

例如,简单的 swizzles 启用之前使用的 XYZW swizzle 语法 a.wxyz()。通过编写 a.argb(),可以使用 RGBA swizzles 等效地执行相同的操作。使用简单的 swizzles 可以生成更紧凑的代码,并且与其他语言(尤其是图形着色语言)更匹配的代码。当向量包含 XYZW 位置数据或 RGBA 颜色数据时,简单的混合也可以更好地表达程序员的意图。简单 swizzle 成员函数的返回类型也是 \_\_swizzled\_vec\_\_。与 swizzle 成员函数模板一样,当在表达式中使用返回的 \_\_swizzled\_vec\_\_ 实例时,将执行实际的 swizzle 操作。

图 11-6 演示了简单 swizzles 和 \_\_\_swizzled\_vec\_\_\_ 类的用法。虽然 \_\_\_swizzled\_vec\_\_\_ 没有直接出现在我们的代码中,但它在 b.xyzw() \* sw.wzyx() 等表达式中使用:b.xyzw() 和 sw.wzyx() 的返回类型是 \_\_\_swizzled\_vec\_\_\_ 的实例,并且直到结果被分配回 float4 变量 sw 后才会计算乘法。

# 11.5 向量类型如何执行

正如本章所述,向量类型及其如何映射到硬件有两种不同的解释。到目前为止,我们特意只在高层讨论这些映射。在本节中,我们将更深入地研究向量类型的不同解释如何映射到 SIMD 寄存器等低级硬件功能,证明这两种解释都可以有效利用向量硬件。

### 11.5.1 向量作为便利类型

关于向量如何从便利类型(例如, marray 和通常的 vec)映射到硬件实现, 我们需要解决三个主要问题:

- 1. 为了利用 SPMD 编程模型的可移植性和表现力,我们应该考虑组合 多个工作项来创建向量硬件指令。更具体地说,我们不应该认为向量硬件指 令是从单个工作项中孤立创建的。
- 2. 作为(1)的结果,从一个工作项的角度来看,我们应该将向量上的操作(例如加法)视为按时间执行每个通道或每个元素。在我们的源代码中使用向量通常与利用底层向量硬件指令无关。
- 3. 如果我们以某些方式编写代码(例如将向量的地址传递给函数),则编译器需要遵守向量和数学数组的内存布局要求,这可能会导致令人惊讶的性能影响。了解这一点可以更轻松地编写编译器可以积极优化的代码。

我们将从进一步描述前两点开始,因为清晰的思维模型可以使编写代 码变得更加容易。

如第 4 章和第 9 章所述,工作项是并行层次结构的叶节点,代表内核函数的单个实例。工作项可以按任何顺序执行,并且不能相互通信或同步,除非通过对本地或全局内存的原子内存操作,或通过组集合函数(例如,select\_from\_group、group\_barrier)。

便利类型的实例对于单个工作项来说是本地的,因此可以被认为相当于每个工作项的私有 NumElements 数组。例如,float4 y4 声明的存储可以被认为等同于 float y4[4]。考虑图 11-7 中所示的示例。

对于标量变量 x, 在具有 SIMD 指令(例如 CPU、GPU)的硬件上使用多个工作项执行内核的结果可能会使用向量寄存器和 SIMD 指令,但向量化是跨工作项的,并且与任何工作项无关。我们代码中的向量类型。每个工作项都有自己的标量 x,可以在编译器生成的隐式 SIMD 硬件指令中形成不同的通道,如图 11-8 所示。在某些实现和某些硬件上,工作项中的标量数据可以被认为是跨恰好同时执行的工作项隐式矢量化(组合成 SIMD 硬件指令),但是工作项代码我们编写的代码不会以任何方式对其进行编码——这是 SPMD 编程风格的核心。

以与硬件无关的方式暴露潜在的并行性可确保我们的应用程序可以扩展(或缩小)以适应不同平台的功能,包括具有矢量硬件指令的平台。在应用程序开发过程中,在工作项和其他形式的并行性之间取得适当的平衡是我们所有人都必须面对的挑战,第 15、16 和 17 章对此进行了更详细的介

绍。

通过编译器将标量变量 x 隐式向量扩展为向量硬件指令(如图 11-8 所示),编译器根据多个工作项中发生的标量操作在硬件中创建 SIMD 操作。

回到图 11-7 的代码示例,对于向量变量 y4,多个工作项(例如 8 个工作项)的内核执行结果并没有使用硬件中的向量运算来处理四元素向量。相反,每个工作项独立地看到自己的向量(在本例中为 float4),并且对该向量元素的操作可能会跨多个时钟周期/指令发生。如图 11-9 所示。我们可以将向量视为已由编译器从工作项的角度进行标量化。

图 11-9 还演示了本节的第三个关键点,即向量的方便解释可能会产生 内存访问的影响,理解这一点很重要。在前面的代码示例中,每个工作项都 会看到 y4 的原始(连续)数据布局,它提供了一个直观的模型来推理和调 整。

从性能角度来看,这种以工作项为中心的向量数据布局的缺点是,如果编译器跨工作项进行向量化以创建向量硬件指令,则向量硬件指令的通道不会访问连续的内存位置。取决于矢量数据大小和特定设备的功能;编译器可能需要生成、收集或分散内存指令;如图 11-10 所示。这是必需的,因为向量在内存中是连续的,并且相邻工作项并行地对不同向量进行操作。有关向量类型如何影响特定设备上的执行的更多讨论,请参阅第 15 章和第 16章,并务必检查供应商文档、编译器优化报告并使用运行时分析来了解特定场景的效率。

当编译器可以证明 y4 的地址不会从当前内核工作项转义时,或者如果所有被调用函数都是内联的,则编译器可能会执行可能提高性能的积极优化。例如,如果 y4 不可观察,编译器可以合法地转置 y4 的存储,从而启用连续内存访问,从而避免需要收集或分散指令。编译器优化报告可以提供我们的源代码如何转换为向量硬件指令的信息,并可以提供有关如何调整代码以提高性能的提示。

作为一般准则,只要方便向量(例如,marray)具有逻辑意义,我们就应该使用它们,因为使用这些类型的代码更容易编写和维护。只有当我们在应用程序中看到性能热点时,我们才应该调查源代码向量操作是否已降低为次优硬件实现。

### 11.5.2 作为 SIMD 类型的向量

尽管我们在本章中强调了 marray 和 vec 不是 SIMD 类型,但为了完整起见,我们在这里简要讨论了 SIMD 类型如何映射到向量硬件。此讨论与我们的 SYCL 源代码中的向量无关,但提供了背景知识,当我们进入本书后面描述特定设备类型(GPU、CPU、FPGA)的章节时,这些背景知识将很有用,并且可能有助于我们为以下内容做好准备: SYCL 的未来版本中可能会引入 SIMD 类型。

SYCL 设备可能包含 SIMD 指令硬件,该硬件对一个向量寄存器或寄存器文件中包含的多个数据值进行操作。

在提供 SIMD 硬件的设备上,我们可以考虑进行向量加法运算,例如, 对八元素向量进行加法运算,如图 11-11 所示。

此示例中的向量加法可以使用向量硬件在单个指令中执行,与该 SIMD 指令并行添加向量寄存器 vec\_x 和 vec\_y。

SIMD 类型到向量硬件的这种映射非常简单且可预测,并且任何编译器都可能以相同的方式执行。这些属性使得 SIMD 类型对于 SIMD 硬件上的低级性能调整非常有吸引力,但也带来了成本——代码的可移植性较差,并且对特定架构的细节变得敏感。SPMD 编程模型的发展是为了应对这些成本。

开发人员期望 SIMD 类型具有可预测的硬件映射属性,这正是通过两种不同的语言功能干净地分离向量的两种解释至关重要的原因:如果开发人员使用一种便利类型,希望其表现得像 SIMD 类型,他们很可能会这样做正在反对编译器优化,并且可能会看到性能低于希望或预期的性能。

# 11.6 概括

编程语言中的术语向量有多种解释,在编写高性能和可扩展的代码时,理解特定语言或编译器所围绕的解释非常重要。SYCL 的构建理念是,源代码中的向量类型是工作项本地的便利类型,并且编译器跨工作项进行的隐式向量化映射到硬件中的 SIMD 指令。当我们(在极少数情况下)想要编写直接映射到矢量硬件的代码时,我们应该查看供应商文档,在某些情况下还应该查看 SYCL 的扩展。大多数应用程序应该假设内核将跨工作项进行矢量化,这样做会利用 SPMD 的强大抽象,它提供了易于推理的编程模型,并提供了跨设备和架构的可扩展性能。

本章描述了 marray 接口,当我们想要操作类似类型的数据分组(例如,具有多个颜色通道的像素)时,它提供了开箱即用的便利。此外,我们还讨论了遗留的 vec 类,它可以方便地表达某些模式(使用 swizzles)或优化(使用加载/存储和后端互操作性)。

# 12 设备信息和内核特化

在本章中,我们将探讨使我们的程序更加灵活并因此更加可移植的先进概念。这是通过查看与我们的应用程序可能在其上执行的任何系统(和加速器)的功能相匹配的机制以及我们编写的一系列内核和代码来完成的。这是一个高级主题,因为我们总是可以简单地"使用默认加速器"并运行我们在其上编写的内核,无论它是什么。我们了解到,即使在没有加速器的系统上,这也可以工作,因为 SYCL 保证始终有一个可用的设备可以运行内核,即使它是也在运行我们的主机应用程序的 CPU。

当我们超越"使用默认加速器"和通用内核时,我们发现可以使用机制来选择要使用的设备,以及创建更专用内核的机制。我们将在本章中讨论这两种功能。这两种功能共同使我们能够构建高度适应其执行系统的应用程序。

幸运的是,SYCL 规范的创建者考虑到了这些需求,并为我们提供了接口来让我们解决这个问题。SYCL 规范定义了一个设备类,该类封装了可以执行内核的设备。我们首先涵盖查询设备类别的能力,以便我们的程序能够适应设备的特性和功能。我们偶尔可能会选择为不同的设备编写不同的算法。在本章后面,我们了解到可以将方面应用到内核来专门化内核并让编译器利用它。这种专门化有助于使内核更适合某一类设备,同时可能使其不适合其他设备。结合这些概念,我们可以根据自己的意愿或多或少地调整我们的程序。这确保我们可以决定在从广泛的可移植性开始的同时,在挤出性能方面进行多少投资。

# 12.1 是否有 GPU?

我们中的许多人都会首先通过逻辑来弄清楚"是否存在 GPU?"告知我们的程序在执行时将做出的选择。这就是本章内容的开始。正如我们将看到的,有更多的信息可以帮助我们使我们的程序变得健壮和高性能。

本章深入探讨最重要的查询以及如何在我们的程序中有效地使用它们。 实现无疑提供了我们可以查询的更详细的属性。要了解所有可能的查询,我 们需要查看最新的 SYCL 规范、特定编译器的文档以及我们可能遇到的任 何运行时/驱动程序的文档。

可以使用 get\_info 函数查询特定于设备的属性,包括访问特定于设备的内核和工作组属性。

# 12.2 细化内核代码使其更加规范

考虑到我们的编码(逐个内核)将大致分为以下三类之一是有用的:通用内核代码:在任何地方运行,无需针对特定类别的设备进行调整。设备类型特定的内核代码:在某种类型的设备(例如 GPU、CPU、FPGA)上运行,而不是针对设备类型的特定模型进行调整。这特别有用,因为许多设备类型共享共同的功能,因此可以安全地做出一些不适用于为所有设备编写的完全通用代码的假设。

调整的特定于设备的内核代码:在一种设备上运行,并根据设备的特定参数进行调整——这涵盖了从少量调整到非常详细的优化工作的广泛可能性。

最常见的做法是首先关注如何使用通用内核的功能正确的实现来工作。 第 2 章专门讨论了在开始使用内核实现时哪些方法最容易调试。一旦内核 开始工作,我们就可以对其进行改进以适应特定设备类型或设备型号的功 能。

第 14 章提供了一个在我们深入考虑设备之前首先考虑并行性的思维框架。我们对模式(又名算法)的选择决定了我们的代码,而作为程序员,我们的工作就是确定不同设备何时需要不同的模式。第 15 章 (GPU)、第 16 章 (CPU) 和第 17 章 (FPGA) 更深入地探讨了区分这些设备类型并促使选择使用模式的品质。当最佳方法(模式选择)因不同设备类型而异时,正是这些品质促使我们考虑编写不同版本的内核。

当我们为特定类型的设备(例如特定的 CPU、GPU、FPGA 等)编写内核时,将其适应特定供应商甚至此类设备的型号是合乎逻辑的。良好的编码风格是根据功能参数化代码(例如,从设备查询中找到的项目大小支持)。

我们应该编写代码来查询描述设备实际功能的参数,而不是其营销信息;查询设备的型号并对其做出反应是不好的编程习惯——这样的代码不太可移植,因为它不适合未来。

通常为我们想要支持的每种设备类型编写不同的内核(GPU 版本的内核和 FPGA 版本的内核,也许还有通用版本的内核)。当我们变得更具体时,为了支持特定的设备供应商甚至设备模型,当我们可以参数化内核而不是复制它时,我们可能会受益。我们可以自由地选择我们认为合适的任何一个。因太多参数调整而混乱的代码可能难以阅读或在运行时负担过重。然而,参数可以整齐地适合单个版本的内核是很常见的。

# 12.3 如何枚举设备和功能

第 2 章列举并解释了选择执行设备的五种方法。本质上,方法 #1 是最不规范的,在某个地方运行它,我们发展到最具规范性的方法 #5,它考虑在一系列设备中的一个相当精确的设备模型上执行。介于两者之间的列举方法兼具灵活性和规范性。图 12-1、图 12-2 和图 12-4 帮助说明我们如何选择设备。

图 12-1 显示,即使我们允许实现为我们选择默认设备(第 2 章中的方法 #1),我们仍然可以查询有关所选设备的信息。

图 12-2 显示了我们如何尝试使用特定设备(在本例中为 GPU)设置队列,但如果没有可用的 GPU,则显式回退到默认设备。这让我们能够在一定程度上控制设备的选择,只要有可用的 GPU,我们就会优先选择 GPU。我们知道至少有一个设备始终保证存在,因此我们的内核始终可以在正确配置的系统中运行。当没有 GPU 时,许多系统会默认使用 CPU 设备,但这并不能保证。同样,如果我们显式请求一个 CPU 设备,则不能保证存在这样的设备(但我们保证某个设备将存在)。

不建议使用图 12-2 所示的方案。除了看起来有点可怕和容易出错之外,如果运行时可以选择 GPU,图 12-2 并不能让我们控制选择哪个 GPU。尽管既有指导意义又实用,但还有更好的方法。建议我们编写自定义设备选择器,如下一个代码示例(图 12-4)所示。

有关设备的查询依赖于已安装的软件(特殊的用户级驱动程序)来响应 有关设备的信息。SYCL 依赖于此,就像操作系统需要驱动程序来访问硬件 一样,仅将硬件安装在计算机中是不够的。

#### 12.3.1 方面

SYCL 标准有一个设备方面的小列表,可用于了解设备的功能、控制我们选择使用哪些设备以及控制我们向设备提交哪些内核。在本章的最后,我们将讨论"内核专业化"和内核模板化。现在,我们将列举这些方面以及如何在设备查询和选择中使用它们。图 12-3 列出了 SYCL 标准定义的方面,可用于每个使用 SYCL 的 C++程序。方面是布尔值——设备要么有方面,要么没有方面。前四个(cpu/gpu/加速器/自定义)是互斥的,因为设备类型被SYCL 2020 定义为枚举。包括 aspect::fp16、aspect::fp64 和 aspect::atomic64 在内的功能是"可选功能",因此它们可能不受所有设备的支持-对这些设备的测试对于强大的应用程序尤其重要。

### 12.3.2 自定义设备选择器

图 12-4 使用自定义设备选择器。自定义设备选择器首先在第 2 章中作为 Method#5 讨论,用于选择代码运行的位置(图 2-16)。自定义设备选择器评估应用程序可用的每个设备。根据获得的最高分数来选择特定设备(如果最高分数为 -1,则不选择任何设备)。在这个例子中,我们将享受我们的选择器带来的一些乐趣:

拒绝非 GPU (返回-1)。

优先选择供应商名称中包含"ACME"一词的 GPU (如果是 Martian,则返回 24, 否则返回 824)。

任何其他非火星 GPU 都是不错的选择(返回 799)。

不是 ACME 的 Martian GPU 将被拒绝(返回-1)。

下一节"好奇: get\_info<>"将深入探讨 get\_devices()、get\_platforms()和 get\_info<> 提供的丰富信息。这些接口打开了我们可能想要用来选择设备的任何类型的逻辑,包括图 2-16 和图 12-4 中所示的简单供应商名称检查。

#### 12.3.3 好奇: get\_info<>

为了让我们的程序在运行时"知道"哪些设备可用,我们可以让程序从设备类中查询可用设备,然后我们可以使用 get\_info<> 查询特定设备来了解更多详细信息。我们提供了一个简单的程序,称为好奇(见图 12-5),它使用这些接口转储信息供我们直接查看。这对于在开发或调试使用这些接口的程序时进行健全性检查特别有用。如果该程序无法按预期工作,通常表明我们需要的软件驱动程序未正确安装。图 12-6 显示了该程序的示例输出,其中包含有关现有设备的高级信息。

#### 12.3.4 更好奇:详细的枚举代码

我们提供了一个程序,我们将其命名为 verycurious.cpp(图 12-7),来说明使用 get\_info 可以获得的一些详细信息。我们再次发现自己编写这样的代码来帮助开发或调试程序。

现在我们已经展示了如何访问信息,我们将讨论在应用程序中查询和 操作最重要的信息字段。

# 12.3.5 非常好奇: get\_info 加上 has()

has() 接口允许程序使用图 12-3 中列出的方面直接测试某个功能。简单的用法如图 12-7 所示, 更多内容请参见 GitHub 书中完整的 verycurious.cpp 源代码。verycurious.cpp 程序有助于查看系统上设备的详细信息。

# 12.4 设备信息描述符

本章前面使用的"好奇"和"非常好奇"程序示例利用流行的 SYCL 设备 类成员函数 (即 is\_cpu、is\_gpu、is\_accelerator、get\_info、has)。这些成 员函数记录在 SYCL 规范中标题为"SYCL 设备类的成员函数"的表中。

"好奇"的程序示例还使用 get\_info 成员函数查询信息。所有 SYCL 设备都必须支持一组查询。SYCL 规范中标题为"设备信息描述符"的表中描述了此类项目的完整列表。

# 12.5 设备特定的内核信息描述符

与平台和设备一样,我们可以使用 get\_info 函数查询有关内核的信息。此类信息(例如,支持的工作组大小、首选工作组大小、每个工作项所需的私有内存量)可能是特定于设备的,因此内核类的 get\_info 成员函数接受设备作为参数。

### 12.6 细节: "正确性"的细节

我们将细节分为有关必要条件(正确性)的信息和对调整有用但对正确 性不是必需的信息。

在第一个正确性类别中,我们将列举内核正确启动应满足的条件。不遵守这些设备限制将导致程序失败。图 12-8 显示了我们如何获取其中一些参数,使这些值可用于主机代码和内核代码(通过 lambda 捕获)。我们可以修改我们的代码以利用这些信息;例如,它可以指导我们的代码确定缓冲区大小或工作组大小。

#### 12.6.1 设备查询

device\_type: cpu、gpu、加速器、自定义、1 个自动、全部。这些最常通过 is cpu、is gpu() 等进行测试(参见图 12-7):

 $max_work_item_sizes: nd_range$  的工作组的每个维度中允许的最大工作项数。最小值为 (1, 1, 1)。

 $\max_{\text{work\_group\_size}}$ : 在单个计算单元上执行内核的工作组中允许的最大工作项数。最小值为 1。

global\_mem\_size:全局内存的大小(以字节为单位)。

local\_mem\_size:本地内存的大小(以字节为单位)。最小大小为 32 K。max\_compute\_units:指示设备上可用的并行量-实现定义的,请小心解释!

sub\_group\_sizes: 返回设备支持的子组大小集。

请注意,还有更多特性被编码为方面(参见图 12-3),例如 USM 功能。

## 12.6.2 内核查询

执行这些内核查询需要第 10 章"内核捆绑中的内核"下讨论的机制: work\_group\_size: 返回可用于在特定设备上执行内核的最大工作组大小

compile\_work\_group\_size: 返回内核指定的工作组大小(如果适用); 否则返回 (0,0,0)

compile\_sub\_group\_size:返回内核指定的子组大小(如果适用);否则返回 0

compile\_num\_sub\_groups: 返回内核指定的子组数量 (如果适用); 否则返回 0

max\_sub\_group\_size: 返回使用指定工作组大小启动的内核的最大子组大小

max\_num\_sub\_groups: 返回内核的最大子组数

# 12.7 具体内容:"调整/优化"的具体内容

有一些额外的参数可以被视为我们内核的微调参数。可以忽略这些,而不会危及程序的正确性。这些使我们的内核能够真正利用硬件的细节来提高性能。

### 12.7.1 设备查询

global\_mem\_cache\_line\_size: 全局内存缓存行的大小(以字节为单位)。

global\_mem\_cache\_size:全局内存缓存的大小(以字节为单位)。local\_mem\_type:支持的本地内存类型。这可以是 info::local\_mem\_type::local表示专用本地内存存储,例如 SRAM 或 info::local\_mem\_type::global。后一种类型意味着本地内存只是作为全局内存之上的抽象实现,可能没有性能提升。

### 12.7.2 内核查询

Preferred\_work\_group\_size: 在特定设备上执行内核的首选工作组大小。

Preferred\_work\_group\_size\_multiple:工作组大小应是此值 (preferred\_work\_group\_size\_multiple)的倍数,以便在特定设备上执行内核以获得最佳性能。该值不得大于 work\_group\_size。

# 12.8 运行时与编译时属性

实现可能提供编译时常量/宏或其他功能,但它们不是标准的,因此我们不鼓励使用它们,也不会在本书中讨论它们。本章中描述的查询是通过运行时 API (get\_info) 执行的,因此直到运行时才知道结果。在下一节中,我们将讨论如何使用属性来控制内核的编译方式。除了属性之外,SYCL 标准仅提倡使用运行时信息,但有一个相当深奥的例外。SYCL 确实提供了应用程序可用于在编译时查询方面的两个特征。这些特征专门用于帮助避免为任何设备不支持的设备功能实例化模板化内核。这是一个非常高级且很少使用的功能,我们在本书中不会详细说明。SYCL 标准在"设备方面"部分末尾有一个示例,该示例展示了为此目的使用 any\_device\_has\_v<aspect> 和 all\_devices\_have\_v<aspect>。该标准还定义了"专业化常量",我们在本书中不讨论它们,因为它们通常用于非常高级的目标开发,例如在库中。结语中"编译时属性"下讨论了实验性编译时属性扩展。

### 12.9 内核专业化

我们可以通过针对不同用途使用不同的内核来专门化我们的内核,并根据我们目标设备的各个方面(参见图 12-3)选择适当的内核。当然,我们

可以显式编写专门的内核并使用 C++ 模板来提供帮助。我们可以通过使用 SYCL 属性(图 12-9)和方面(图 12-3)来通知编译器我们希望内核使用特定功能。

例如,reqd\_work\_group\_size 属性(图 12-9)可用于要求内核的特定工作组大小,而 device\_has 属性可用于要求内核的特定设备方面。

使用属性有两个作用:

- 1. 如果内核提交到不具有所列方面之一的设备,则内核将引发异常。
- 2. 如果内核(或其调用的任何函数)使用与属性中未列出的方面关联的可选功能(例如,fp16),编译器将发出诊断信息。

第一个有助于防止应用程序在可能失败的情况下继续运行,第二个有助于在编译时捕获错误。由于这些原因,使用属性会很有帮助。

图 12-10 提供了一个示例,该示例使用运行时逻辑在两个代码序列之间进行选择,并使用属性来专门化其中一个内核。

### 12.10 概括

最可移植的程序将查询系统中可用的设备,并根据运行时信息调整其行为。本章打开了获取丰富信息的大门,这些信息可用于允许对我们的代码进行此类定制以适应运行时存在的硬件。我们还讨论了专门化内核的各种方法,以便当我们认为投资值得时,它们可以更紧密地适应特定的设备类型。这些为我们提供了必要的工具来平衡可移植性和性能以满足我们的需求,所有这些都在使用 C++ 和 SYCL 的范围内。

通过对我们的应用程序进行参数化以适应硬件的特性,我们的程序可以在功能上更加便携,在性能上更加便携,并且更加面向未来。我们还可以测试当前的硬件是否在我们在程序设计中所做的任何假设的范围内,并且当发现硬件超出我们的假设范围时发出警告或中止。

13 实用技巧 143

# 13 实用技巧

本章包含许多有用的信息、实用技巧、建议和技术,这些信息在使用 SYCL 进行 C++ 编程时已被证明非常有用。这些主题都没有被详尽地涵 盖,因此目的是提高认识并鼓励根据需要学习更多内容。

# 13.1 获取代码示例和编译器

第 1 章介绍如何获取 SYCL 编译器 (例如 oneapi.com/implementations 或 github.com/intel/llvm)以及从何处获取本书中使用的代码示例 (github.com/Apress/data-parallel-CPP)。再次提到这一点是为了强调尝试示例(包括进行修改!)以获得实践经验是多么有用。加入那些知道图 1-1 中的代码实际打印出什么内容的人吧!

# 13.2 在线资源

主要在线资源包括

sycl.tech/ 上的丰富资源

官方 SYCL 主页位于 khronos.org/sycl/, 其中列出了 khronos.org/sycl/resources 上的大量资源

帮助使用 SYCL 从 CUDA 迁移到 C++ 的资源,位于 tinyurl.com/cuda2sycl 迁移工具 GitHub 主页 github.com/oneapi-src/ SYCLomatic

### 13.3 平台模型

支持 SYCL 的 C++ 编译器的设计方式和感觉与我们曾经使用过的任何其他 C++ 编译器一样。值得深入了解内部工作原理,使具有 SYCL 支持的编译器能够为主机(例如 CPU)和设备生成代码。

SYCL 使用的平台模型 (图 13-1) 指定了一个主机,用于协调和控制在设备上执行的计算工作。第 2 章介绍如何向设备分配工作,第 4 章深入介绍如何对设备进行编程。第 12 章描述了在各个具体级别上使用平台模型。

正如我们在第 2 章中讨论的,使用正确配置的 SYCL 运行时和兼容硬件的系统中应该始终有一个设备可以运行。这允许在假设至少有一个设备可用的情况下编写设备代码。运行设备代码的设备的选择是在程序控制下

13 实用技巧 144

的——作为程序员,我们是否想要以及如何在特定设备上执行代码完全是 我们的选择(设备选择选项将在第 12 章中讨论)。

#### 13.3.1 多架构二进制文件

由于我们的目标是拥有单一源代码来支持异构机器,因此很自然地希望结果是单个可执行文件。

多架构二进制文件(又名胖二进制文件)是一个单一的二进制文件,它已扩展为包含我们的异构机器所需的所有已编译代码和中间代码。多架构二进制文件的行为与我们习惯的任何其他 a.out 或 a.exe 类似,但它包含异构计算机所需的所有内容。这有助于自动选择为特定设备运行的正确代码的过程。正如我们接下来讨论的,胖二进制文件中设备代码的一种可能形式是中间格式,它将设备指令的最终创建推迟到运行时。

#### 13.3.2 编译模型

SYCL 的单一源性质允许编译的行为和感觉就像常规 C++ 编译一样。我们不需要为设备调用额外的通道或处理捆绑设备和主机代码。这一切都是由编译器自动为我们处理的。当然,出于多种原因,了解正在发生的事情的细节可能很重要。如果我们想要更有效地针对特定体系结构,这是有用的知识,并且了解我们是否需要调试编译过程中发生的故障也很重要。

我们将审查编译模型,以便我们在需要这些知识时接受教育。由于编译模型支持同时在主机和潜在多个设备上执行的代码,因此编译器、链接器和其他支持工具发出的命令比我们习惯的 C++ 编译(仅针对一种体系结构)更复杂。欢迎来到异质世界!

这种异构的复杂性被编译器故意隐藏起来,并且"正常工作"。

编译器可以生成类似于传统 C++ 编译器的特定于目标的可执行代码 (提前(AOT)编译,有时称为离线内核编译),也可以生成可以即时的中间 表示(JIT)在运行时编译为特定目标。

只有提前知道设备目标(在我们编译程序时),编译器才能提前编译。 使用 JIT 编译将为我们编译的程序提供更多的可移植性,但需要编译器和 运行时在我们的应用程序运行时执行额外的工作。

对于大多数设备,包括 GPU,最常见的做法是依赖 JIT 编译。某些设备(例如 FPGA)的编译过程可能非常慢,因此实践是使用 AOT 编译。

默认情况下,当我们为大多数设备编译代码时,设备代码的输出以中间 形式存储。在运行时,系统上的设备驱动程序将及时将中间形式编译为代码 以在设备上运行,以匹配系统上可用的内容。

我们可以要求编译器针对特定设备或设备类别提前进行编译。这样做的优点是节省运行时间,但缺点是增加了编译时间和使二进制文件变得更胖!提前编译的代码不如即时编译的代码那么可移植,因为它无法在运行时进行调整以匹配可用的硬件。我们可以将两者都包含在我们的二进制文件中,以获得 AOT 和 JIT 的好处。

提前针对特定设备进行编译还可以帮助我们在构建时检查我们的程序是否应该在该设备上运行。使用即时编译,程序可能会在运行时编译失败(可以使用第5章中的机制捕获)。在本章即将到来的"调试"部分中有一些调试技巧,第5章详细介绍了如何在运行时捕获这些错误,以避免要求我们的应用程序中止。

图 13-2 说明了从源代码到 fat 二进制文件(可执行文件)的编译过程。 无论我们选择什么组合,都会组合成一个胖二进制文件。当应用程序执行 时,运行时会使用 fat 二进制文件(它是我们在主机上执行的二进制文件!)。 有时,我们可能希望在单独的编译中为特定设备编译设备代码。我们希望这 样一个单独编译的结果最终能够合并到我们的胖二进制文件中。当完整编 译(进行完整综合布局布线)时间可能非常长时,这对于 FPGA 开发非常 有用,而且实际上这是 FPGA 开发的一项要求,以避免需要在运行时系统 上安装综合工具。图 13-3 显示了支持此类需求的捆绑/分拆活动的流程。我 们总是可以选择一次编译所有内容,但在开发过程中,中断编译的选项可能 非常有用。

每个支持 SYCL 的 C++ 编译器都有一个具有相同目标的编译模型, 但 具体的实现细节会有所不同。此处显示的具体图表由 DPC++ 编译器工具 链实现者提供。

### 13.4 上下文:需要了解的重要事项

正如第 6 章中提到的,上下文代表我们可以在其上执行内核的一个设备或一组设备。我们可以将上下文视为运行时存储有关其正在执行的操作的某些状态的方便位置。除了在大多数 SYCL 程序中传递上下文之外,程序员不太可能直接与上下文交互。

设备可以细分为子设备。这对于划分问题很有用。由于子设备被完全视

为设备(相同的 C++ 类型),因此我们所说的有关分组设备的所有内容也适用于子设备。

SYCL 抽象地认为设备在平台中分组在一起。在平台内,设备可以通过 共享内存等方式进行交互。属于同一上下文的设备必须能够使用某种机制 访问彼此的全局内存。仅当设备处于同一上下文中时,才能在设备之间共享 SYCL USM 内存(第 6 章)。USM 内存分配绑定到上下文,而不是设备, 因此一个上下文中的 USM 分配无法被其他上下文访问。因此,USM 分配 仅限于在单个上下文(可能是设备的子集)内使用。

上下文并不抽象硬件不能支持的内容。例如,我们无法创建一个上下文来包含两个不能彼此共享内存的 GPU。并非所有从同一平台公开的设备都需要能够在同一上下文中分组在一起。

当我们创建队列时,我们可以指定我们希望将其放置在哪个上下文中。默认情况下,DPC++编译器项目为每个平台实现默认上下文,并自动将新队列分配给默认上下文。其他 SYCL 编译器可以自由地执行相同的操作,但标准并不要求这样做。

将给定平台的所有设备始终放置在同一上下文中具有两个优点: (1) 由于创建上下文的成本很高,因此我们的应用程序更加高效; (2) 允许硬件支持的最大共享(例如 USM)。

# 13.5 将 SYCL 添加到现有 C++ 程序

将并行性的适当利用添加到现有 C++ 程序中是使用 SYCL 的第一步。如果 C++ 应用程序已经在利用并行执行,这可能是一个好处,也可能是一个令人头疼的问题。这是因为我们将应用程序的工作划分为并行执行的方式极大地影响了我们可以用它做什么。当程序员谈论重构程序并行性时,他们指的是重新安排程序内的执行流和数据流,以使其准备好利用并行性。这是一个复杂的话题,我们只会简单地讨论一下。关于如何准备并行性应用程序,没有一刀切的答案,但有一些值得注意的技巧。

当向 C++ 应用程序添加并行性时,考虑的一个简单方法是在程序中找到并行机会最大的孤立点。我们可以从那里开始修改,然后根据需要继续在其他区域添加并行性。一个复杂的因素是重构(即重新安排程序流程和重新设计数据结构)可能会提高并行性的机会。

一旦我们在程序中找到并行机会最大的孤立点,我们就需要考虑如何 在程序中的该点使用 SYCL。这就是本书其余部分所教导的。

从高层次来看,引入并行性的关键步骤包括以下内容:

1. 并发安全(在传统 CPU 编程中通常称为线程安全): 调整所有共享可变数据(可以更改并可能同时执行操作的数据)的使用,以防止数据竞争。 参见第 19 章。

- 2. 引入并发和/或并行性。
- 3. 并行性调整(最佳扩展、吞吐量或延迟优化)。

首先考虑步骤 #1 很重要。许多应用程序已经针对并发性进行了重构,但许多应用程序还没有。将 SYCL 作为并行性的唯一来源,我们重点关注内核中使用的数据以及可能与主机共享的数据的安全性。如果我们的程序中有其他引入并行性的技术(OpenMP、MPI、TBB等),那么这就是我们SYCL 编程之外的另一个问题。值得注意的是,可以在单个程序中使用多种技术。SYCL 不需要是程序中并行性的唯一来源。本书不涉及与其他并行技术混合的高级主题。

# 13.6 使用多个编译器时的注意事项

支持 SYCL 的 C++ 编译器还支持与其他 C++ 编译器的目标代码(库、目标文件等)链接。一般来说,使用多个编译器出现的任何问题都与任何 C++ 编译器相同,需要考虑名称修改、针对相同的标准库、对齐调用约定 等。这些是我们在混合和使用时必须处理的相同问题。匹配其他语言(例如 Fortran 或 C)的编译器。

此外,应用程序必须使用用于构建程序的编译器附带的 SYCL 运行时。混合和匹配 SYCL 编译器和 SYCL 运行时并不安全 - 不同的运行时对于重要的 SYCL 对象可能有不同的实现和数据布局。

最后,还需要使用用于编译 SYCL 设备代码的相同编译器工具链来完成编译的链接阶段。使用来自不同编译器工具链的链接器进行链接不会产生功能性程序,因为不支持 SYCL 的编译器将不知道如何正确集成主机和设备代码。

### 13.7 调试

本节传达了一些适度的调试建议,以缓解调试并行程序所特有的挑战, 尤其是针对异构机器的并行程序。

我们永远不应该忘记,当应用程序在 CPU 设备上运行时,我们可以选择对其进行调试。该调试技巧在第 2 章中被描述为方法 #2。由于设备的体

系结构通常比通用 CPU 包含更少的调试挂钩,因此工具通常可以更精确地探测 CPU 上的代码。在 CPU 上运行所有内容时的一个重要区别是,许多与同步相关的错误将会消失,包括在主机和设备之间来回移动内存。虽然我们最终需要调试所有此类错误,但这可以允许增量调试,因此我们可以在其他错误之前解决一些错误。经验表明,尽可能频繁地在我们的目标设备上运行非常重要,就像在调试过程中利用 CPU (和其他设备)的可移植性一样,运行多个设备将有助于暴露问题,并有助于隔离是否存在问题。我们遇到的错误是特定于设备的。

在主机上运行所有代码时,工具通常更容易检测和消除并行编程错误,特别是数据争用和死锁。令我们懊恼的是,当在主机和设备的组合上运行时,我们经常会看到由于此类并行编程错误而导致的程序失败。当出现此类问题时,记住退回到仅 CPU 是一个强大的调试工具,这一点非常有用。值得庆幸的是,SYCL 经过精心设计,让我们可以轻松访问此选项。

当我们开始调试时,以下编译器选项是一个好主意:

-g: 将调试信息放入输出中

-ferror-limit=1: 在将 C++ 与模板库 (例如 SYCL 大量使用的模板库) 一起使用时保持理智

-Werror -Wall -Wpedantic: 让编译器强制执行良好的编码,以帮助避免生成错误的代码以在运行时进行调试

我们确实不需要仅仅为了将 C++ 与 SYCL 一起使用而陷入修复迂腐警告的困境,因此选择不使用 -Wpedantic 是可以理解的。

当我们让代码在运行时即时编译时,我们可以检查一些代码。这高度依赖于我们的编译器使用的层,因此查看编译器文档以获取建议是一个好主意。

#### 13.7.1 调试死锁和其他同步问题

并行编程依赖于并行发生的工作之间的适当协调。数据使用需要在数据准备好使用时进行控制——这种数据依赖关系需要在我们的程序逻辑中进行编码以获得正确的行为。

当我们的同步/依赖逻辑发生错误时,调试依赖问题(尤其是 USM)可能是一个挑战。我们可能会看到程序挂起(永远不会完成)或间歇性地生成错误信息。在这种情况下,我们可能会看到诸如"它会失败,直到我在调试器中运行它,然后它才能完美运行!"之类的行为。这种间歇性故障通常源于

未通过等待、锁定、队列提交之间的显式依赖关系等方式正确同步的依赖关系。

有用的调试技术包括

从无序队列切换到有序队列

散布 queue.wait() 调用

在调试时使用其中一个或两个可以帮助识别依赖信息可能丢失的位置。如果此类更改使程序故障发生变化或消失,则强烈暗示我们的同步/依赖逻辑中有问题需要纠正。修复后,我们将删除这些临时调试措施。

### 13.7.2 调试内核代码

调试内核代码时,首先在 CPU 设备上运行(如第 2 章所述)。第 2 章中的设备选择器代码可以轻松修改为接受运行时选项或编译时选项,以便在调试时将工作重定向到主机设备。

当调试内核代码时,SYCL 定义了一个可以在内核中使用的 C++ 风格的流(图 13-4)。DPC++ 编译器还提供了 C 风格 printf 的实验性实现,它具有有用的功能,但有一些限制。

在调试内核代码时,经验鼓励我们将断点放在 parallel\_for 之前或 parallel\_for 内部,但实际上不要放在 parallel\_for 上。即使在执行下一个操作之后,放置在 parallel\_for 上的断点也可以多次触发断点。此 C++ 调试建议适用于许多模板扩展,例如 SYCL 中的模板扩展,其中模板调用上的断点在编译器扩展时将转换为一组复杂的断点。实现可能有一些方法可以缓解这个问题,但这里的关键点是,我们可以通过不在 parallel\_for 本身上精确设置断点来避免所有实现上的一些混乱。

### 13.7.3 调试运行时故障

当即时编译时发生运行时错误时,我们要么正在处理明确使用可用硬件无法支持的功能(例如,fp16或 simd8)的情况,要么是编译器/运行时错误,要么是我们意外地使用了可用硬件无法支持的功能(例如,fp16或 simd8)。编写的无意义内容直到运行时出错并创建难以理解的运行时错误消息后才被检测到。在这三种情况下,深入研究这些错误可能有点令人生畏。值得庆幸的是,即使是粗略的观察也可以让我们更好地了解导致特定问题的原因。它可能会产生一些额外的知识来指导我们避免该问题,或者它可

能只是帮助我们向编译器团队提交一份简短的错误报告。无论哪种方式,了解一些可以提供帮助的工具都很重要。

我们的程序的指示运行时失败的输出可能类似于以下示例:

在这里看到此类异常让我们知道我们的主机程序可以被构造为捕获此错误。第一个显示了访问本机不支持的任何 API 时出现的一些包罗万象的错误(在这种情况下,它使用了平台不支持的主机端内存分配);第二个更容易认识到 SIMD8 是为不支持它的设备指定的(在本例中它支持 SIMD16)。运行时编译器失败不需要中止我们的应用程序;我们可以抓住它们,或者编写代码来避免它们,或者两者兼而有之。第5章深入探讨这个主题。

当我们看到运行时故障并且在快速调试时遇到困难时,值得尝试使用提前编译进行重建。如果我们的目标设备具有提前编译选项,那么这可能是一件容易尝试的事情,可能会产生更容易理解的诊断。如果我们的错误可以在编译时而不是 JIT 或运行时看到,那么通常会在编译器的错误消息中找到更有用的信息,而不是我们通常从 JIT 或运行时看到的少量错误信息。

图 13-5 列出了编译器或运行时支持的两个标志和附加环境变量(在Windows 和 Linux 上受支持),以帮助进行高级调试。这些是 DPC++ 编译器特定的高级调试选项,用于检查和控制编译模型。本书中没有讨论或使用它们; GitHub 项目在 intel.github.io/llvm-docs/EnvironmentVariables.html和 tinyurl.com/IGCoptions上对它们进行了在线详细解释。

本书中没有对这些选项进行更多描述,但这里提到它们是为了根据需要开辟这种高级调试的途径。这些选项可以让我们深入了解如何解决问题或错误。我们的源代码有可能无意中触发了一个问题,可以通过更正源代码来解决。否则,使用这些选项是为了对编译器本身进行非常高级的调试。因此,它们与编译器开发人员的关系比与编译器用户的关系更多。一些高级用户发现这些选项很有用;因此,它们在这里被提及,并且在本书中不再被提及。要深入了解,请参阅 DPC++ 编译器 GitHub 项目 intel.github.io/llvm-docs/EnvironmentVariables.html。

### 13.7.4 队列分析和由此产生的计时功能

许多设备支持队列分析 (device::has(aspect::queue\_profiling) ——有关一般方面的更多信息,请参阅第 12 章。一个简单而强大的接口可以轻松访问有关队列提交、实际执行开始的详细计时信息设备上的完成、设备上的完成以及命令的完成。与使用主机计时机制(例如 chrono)相比,此分析对

于设备计时更加精确,因为它们通常不包括主机到设备的数据传输时间。请参阅图 13-6 和图 13-7 中所示的示例,以及图 13-8 中所示的示例输出。图 13-8 中所示的示例输出说明了此技术的可能性,但尚未优化,不应使用以任何方式代表任何特定系统选择的优点。

aspect::queue\_profiling 方面指示设备通过 property::queue::enable\_profiling 支持队列分析。

对于此类设备,我们可以在构造队列时指定 property::queue::enable\_profiling —属性列表是队列构造函数的可选最终参数。这样做会激活 SYCL 运行时捕获提交到该队列的命令组的分析信息。然后通过 SYCL 事件类 get\_profiling\_info成员函数提供捕获的信息。如果队列的关联设备没有 aspect::queue\_profiling,这将导致构造函数抛出带有 errc::feature\_not\_supported 错误代码的同步异常。

可以使用事件类的 get\_profiling\_info 成员函数来查询事件的分析信息,并指定 info::event\_profiling 中枚举的分析信息参数之一。每个信息参数的可能值和任何限制在与事件关联的 SYCL 后端的规范中定义。info::event\_profiling中的所有信息参数均在 SYCL 规范标题为"SYCL 事件类的分析信息描述符"的表中指定,并且 info::event\_profiling 的概要在规范附录"事件信息描述符"下描述。

每个分析描述符返回一个时间戳,表示自某些实现定义的时间基准以来已经过去的纳秒数。共享同一后端的所有事件都保证共享相同的时基;因此,来自同一后端的两个时间戳之间的差异产生了这些事件之间经过的纳秒数。

最后一点,我们提醒您,启用事件分析确实会增加开销,因此最佳实践 是在开发或调整期间启用它,然后在生产中禁用它。

### 13.7.5 跟踪和分析工具接口

跟踪和分析工具可以帮助我们了解应用程序中的运行时行为,并且通常可以揭示改进算法的机会。见解通常是可移植的,因为它们可以推广到各种设备,因此我们建议在您喜欢的任何平台上使用您认为最有价值的任何跟踪和分析工具。当然,微调任何平台可能需要在相关平台上进行。对于最大程度的便携应用,我们鼓励首先寻找机会进行调整,并着眼于使任何调整尽可能便携。

当我们的 SYCL 程序在 OpenCL 运行时之上运行并使用 OpenCL 后端

时,我们可以使用 OpenCL 拦截层运行我们的程序: github.com/intel/opencl-intercept-layer。这是一个可以检查、记录和修改应用程序(或更高级运行时)生成的 OpenCL 命令的工具。它支持很多控件,但最初设置的好控件是 ErrorLogging、BuildLogging,也许还有 CallLogging(尽管它会生成大量输出)。使用 DumpProgramSPIRV 可以进行有用的转储。OpenCL 拦截层是一个单独的实用程序,不属于任何特定 OpenCL 实现的一部分,因此它可以与许多 SYCL 编译器配合使用。

还有许多其他优秀工具可用于收集 SYCL 开发人员常用的性能数据。它们是开源的 (github.com/intel/pti-gpu) 以及帮助我们入门的示例。

两个最流行的工具如下:

onetrace: 用于 OpenCL 和零级后端的主机和设备跟踪工具,支持DPC++(适用于 CPU 和 GPU)和 OpenMP GPU 卸载

oneprof: 适用于 OpenCL 和零级后端的 GPU 硬件指标收集工具,支持 DPC++ 和 OpenMP\* GPU 卸载

这两种工具都使用来自检测运行时的信息,因此它们适用于 GPU 和 CPU。使用这些运行时的编译器中的 SYCL、ISPC 和 OpenMP 支持都可以从这些工具中受益。请查阅网站上的工具,了解它们对您的使用的适用性。一般来说,我们可以找到一个受支持的平台,并使用这些工具来了解有关您的程序的有用信息,即使我们目标的每个平台都不支持。我们学到的关于程序的大部分知识在任何地方都是有用的。

### 13.8 初始化数据并访问内核输出

在本节中,我们将深入探讨一个导致 SYCL 新用户感到困惑的主题,该 主题会导致我们作为新 SYCL 开发人员遇到的最常见(根据我们的经验)的 第一个错误。

简而言之,当我们从主机内存分配(例如数组或向量)创建缓冲区时,在缓冲区被销毁之前我们无法直接访问主机分配。在缓冲区的整个生命周期内,缓冲区拥有在构造时传递给它的任何主机分配。很少使用允许我们在缓冲区仍处于活动状态时访问主机分配的机制(例如缓冲区互斥体),但这些高级功能无助于解决此处描述的早期错误。

当主机程序访问主机分配而缓冲区仍然拥有该分配时,会出现一个常见错误。一旦发生这种情况,所有的赌注都会消失,因为我们不知道缓冲区使用分配的目的是什么。如果数据不正确,请不要感到惊讶-我们尝试从中

读取输出的内核可能还没有开始运行!如第3章和第8章所述,SYCL是 围绕异步任务图机制构建的。在尝试使用任务图操作的输出数据之前,我们 需要确保已达到代码中执行图的同步点并使数据可供主机使用。缓冲区破 坏和主机访问器的创建都是导致此同步的操作。

图 13-9 显示了我们经常编写的代码的常见模式,其中我们通过关闭定义缓冲区的块作用域来销毁缓冲区。通过使缓冲区超出范围并被销毁,我们可以通过传递给缓冲区构造函数的原始主机分配安全地读取内核结果。

将缓冲区与现有主机内存关联有两个常见原因,如图 13-9 所示:

- 1. 简化缓冲区中数据的初始化。我们可以从我们(或应用程序的其他部分)已经初始化的主机内存构造缓冲区。
- 2. 减少键入的字符,因为使用"}"关闭作用域比创建缓冲区的 host\_accessor稍微简洁一些(尽管更容易出错)。

如果我们使用主机分配来转储或验证内核的输出值,则需要将缓冲区分配放入块作用域(或其他作用域)中,以便我们可以控制它何时被破坏。然后,我们必须确保在访问主机分配以获取内核输出之前缓冲区已被销毁。图 13-9 显示了正确完成的操作,而图 13-10 显示了一个常见错误,即在缓冲区仍处于活动状态时访问输出。

为了避免这些错误,我们建议在开始使用带有 SYCL 的 C++ 时使用 主机访问器而不是缓冲区范围。主机访问器提供对主机缓冲区的访问,一旦 它们的构造函数完成运行,我们就可以保证之前对缓冲区的任何写入(例 如,在创建 host\_accessor 之前提交的内核)都已执行并且可见。本书混合 使用了两种风格(即主机访问器和传递给缓冲区构造函数的主机分配)来熟悉这两种风格。开始时使用主机访问器往往不太容易出错。图 13-11 显示了 如何使用主机访问器从内核读取输出,而无需先破坏缓冲区。

只要缓冲区处于活动状态,例如在典型缓冲区生命周期的两端,就可以使用主机访问器-用于初始化缓冲区内容并从内核读取结果。图 13-12 显示了此模式的示例。

最后要提到的一个细节是,主机访问器有时会在应用程序中引起相反的错误,因为它们也有生命周期。当缓冲区的主机访问器处于活动状态时,运行时将不允许任何设备使用该缓冲区!运行时不会分析我们的主机程序来确定它们何时可以访问主机访问器,因此它知道主机程序已完成访问缓冲区的唯一方法是运行 host\_accessor 析构函数。如图 13-13 所示,如果我们的主机程序正在等待某些内核运行(例如,queue::wait()或获取另一个主机

访问器)并且 SYCL 运行时正在等待某些内核运行,则这可能会导致应用程序挂起。我们早期的主机访问器在运行使用缓冲区的内核之前会被销毁。

# 13.9 多个翻译单元

当我们想要调用内核内部不同翻译单元中定义的函数时,这些函数需要使用 SYCL\_EXTERNAL 进行标记。如果没有这种修饰,编译器将仅编译在设备代码外部使用的函数(使得从设备代码内调用该外部函数是非法的)。

如果我们在同一翻译单元中定义函数,则 SYCL\_EXTERNAL 函数有一些限制不适用:

SYCL\_EXTERNAL 只能用于函数。

SYCL\_EXTERNAL 函数不能使用原始指针作为参数或返回类型。必须改用显式指针类。

SYCL\_EXTERNAL 函数无法调用 parallel\_for\_work\_item 方法。 不能从 parallel\_for\_work\_group 范围内调用 SYCL\_EXTERNAL 函数。

如果我们尝试编译一个调用不在同一翻译单元内且未使用 SYCL\_EXTERNAL 声明的函数的内核,那么我们可以预期会出现类似于以下内容的编译错误:

错误: SYCL 内核无法调用没有 SYCL\_EXTERNAL 属性的未定义函数

如果函数本身是在没有 SYCL\_EXTERNAL 属性的情况下编译的,我们可以预期会看到链接或运行时失败,例如

在抛出"...compile program error"实例后调用终止...

错误:未定义对...的引用

SYCL 不要求编译器支持 SYCL\_EXTERNAL; 一般来说,它是一个可选功能。DPC++ 支持 SYCL\_EXTERNAL。

### 13.9.1 多个翻译单元的性能影响

编译模型的含义(请参阅本章前面的内容)是,如果我们将设备代码分散到多个翻译单元中,则与设备代码共置相比,可能会触发更多的即时编译调用。这高度依赖于实现,并且随着实现的成熟,可能会随着时间的推移而发生变化。

这种对性能的影响很小,足以在我们的大部分开发工作中忽略,但是当 我们进行微调以最大限度地提高代码性能时,我们可以考虑以下两件事来

减轻这些影响: (1) 将设备代码组合在一起相同的翻译单元,以及 (2) 使用提前编译来完全避免即时编译效应。由于这两者都需要我们付出一些努力,因此我们只有在完成开发并试图从应用程序中榨取每一盎司性能时才这样做。当我们确实采取这种详细的调整时,值得测试更改以观察它们对我们正在使用的确切 SYCL 实现的影响。

### 13.10 当匿名 Lambda 需要名称时

SYCL 允许为 lambda 分配名称,以防工具需要它并用于调试目的(例如,以用户定义的名称启用显示)。根据 SYCL 2020 规范,命名 lambda 是可选的。在本书的大部分内容中,匿名 lambda 都用于内核,因为在使用 C++ 和 SYCL 时不需要名称(除了传递编译选项,如第 10 章中 lambda 命名讨论所述)。

当我们需要在代码库中混合来自多个供应商的 SYCL 工具时,该工具可能要求我们命名 lambda。这是通过将 <class uniquename> 添加到使用 lambda 的 SYCL 操作构造(例如,parallel\_for)来完成的。这种命名允许来自多个供应商的工具在单个编译中以定义的方式进行交互,并且还可以通过显示我们在调试工具和层中定义的内核名称来提供帮助。

如果我们想使用内核查询,我们还需要命名内核。SYCL 标准委员会无法在 SYCL 2020 标准中找到解决方案来满足这一要求。例如,查询内核的preferred\_work\_group\_size\_multiple 需要我们调用内核类的 get\_info()成员函数,这需要内核类的实例,这最终需要我们知道内核的名称(和 kernel id)才能提取来自相关 kernel bundle 的句柄。

### 13.11 概括

当今的流行文化经常将技巧称为生活窍门。不幸的是,编程文化常常给hack 赋予负面含义,因此作者没有将本章命名为"SYCL Hacks"。毫无疑问,本章只是触及了使用 C++ 和 SYCL 的实用技巧的表面。当我们一起学习如何通过 SYCL 充分利用 C++ 时,我们所有人都可以分享更多技巧。

# 14 常见的并行模式

当我们作为程序员处于最佳状态时,我们会认识到工作中的模式并应用经过时间考验的最佳解决方案技术。并行编程也不例外,如果不研究已被证明在该领域有用的模式,那将是一个严重的错误。考虑大数据应用程序采用的 MapReduce 框架; 他们的成功很大程度上源于基于两种简单而有效的并行模式——映射和归约。

并行编程中有许多常见的模式,它们会一次又一次地出现,与我们使用的编程语言无关。这些模式用途广泛,可以在任何并行级别(例如子组、工作组、完整设备)和任何设备(例如 CPU、GPU、FPGA)上使用。然而,模式的某些属性(例如它们的可扩展性)可能会影响它们对不同设备的适用性。在某些情况下,使应用程序适应新设备可能只需要选择适当的参数或微调模式的实现;在其他情况下,我们也许能够通过选择完全不同的模式来提高性能。

了解如何、何时、何地使用这些常见并行模式是提高 SYCL (以及一般并行编程) 熟练程度的关键部分。对于那些具有现有并行编程经验的人来说,了解这些模式在 SYCL 中的表达方式可以是快速启动并熟悉该语言功能的方法。

本章旨在回答以下问题:

我们应该了解哪些常见模式? 这些模式与不同设备的功能有何关系? 哪些模式已作为 SYCL 函数和库提供? 如何使用直接编程来实现这些模式?

# 14.1 理解模式

这里讨论的模式是 McCool 等人的《结构化并行编程》一书中描述的并行模式的子集。我们不讨论与并行类型相关的模式(例如,fork-join、branchand-bound),而是关注一些对于编写数据并行内核最有用的算法模式。

我们全心全意地相信,理解并行模式的这个子集对于成为一名有效的 SYCL 程序员至关重要。图 14-1 中的表提供了不同模式的高级概述,包括 它们的主要用例、关键属性以及它们的属性如何影响它们对不同硬件设备 的亲和力。

### 14.1.1 映射

映射模式是所有并行模式中最简单的,具有函数式编程语言经验的读者会立即熟悉。如图 14-2 所示,范围的每个输入元素通过应用某种函数独立地映射到输出。许多数据并行操作可以表示为映射模式的实例(例如,向量加法)。

由于函数的每个应用程序都是完全独立的,因此映射的表达式通常非常简单,依赖于编译器和/或运行时来完成大部分艰苦的工作。我们应该期望写入映射模式的内核适用于任何设备,并且这些内核的性能能够随着可用硬件并行性的数量很好地扩展。

然而,在决定将整个应用程序重写为一系列地图内核之前,我们应该仔细考虑!这种开发方法效率很高,并保证应用程序可以移植到各种设备类型,但鼓励我们忽略可能显着提高性能的优化(例如,提高数据重用、融合内核)。

### 14.1.2 模版

模板图案与地图图案密切相关。如图 14-3 所示,将一个函数应用于一个输入和由模板描述的一组相邻输入以产生单个输出。模板图案经常出现在许多领域,包括科学/工程应用(例如,有限差分代码)和计算机视觉/机器学习应用(例如,图像卷积)。

当模板模式异位执行时(即,将输出写入单独的存储位置),该函数可以独立应用于每个输入。在现实世界中调度模板通常比这更复杂:计算相邻输出需要相同的数据,并且多次从内存加载该数据会降低性能;我们可能希望就地应用模板(即覆盖原始输入值),以减少应用程序的内存占用。

因此,模板内核对不同设备的适用性很大程度上取决于模板的属性和 输入问题。一般来说,

小型模板可以受益于 GPU 的暂存器存储。

大型模板可以受益于(相对)较大的 CPU 缓存。

在小输入上运行的小型模板可以通过在 FPGA 上作为脉动阵列实现来 实现显着的性能增益。

由于模板很容易描述,但有效实现却很复杂,因此许多模板应用程序都使用特定于域的语言 (DSL)。已经有一些嵌入式 DSL 利用 C++ 的模板元编程功能在编译时生成高性能模板内核。

### 14.1.3 归约

归约是一种常见的并行模式,它使用通常是关联和交换的运算符(例如加法)来组合部分结果。最常见的归约示例是计算总和(例如,在计算点积时)或计算最小值/最大值(例如,使用最大速度来设置时间步长)。

图 14-4 显示了通过树缩减实现的缩减模式,这是一种流行的实现,需要对一系列 N 个输入元素进行 log2 (N) 组合操作。尽管树缩减很常见,但其他实现也是可能的-一般来说,我们不应该假设缩减按特定顺序组合值。

在现实生活中,内核很少是令人尴尬的并行,即使是这样,它们也经常与归约(如在 MapReduce 框架中)配对来总结其结果。这使得归约成为需要理解的最重要的并行模式之一,并且我们必须能够在任何设备上高效执行该模式。

调整不同设备的减少是计算部分结果所花费的时间和组合它们所花费的时间之间的微妙平衡行为;使用太少的并行性会增加计算时间,而使用太多的并行性会增加组合时间。

通过使用不同的设备来执行计算和组合步骤来提高整体系统利用率可能很诱人,但这种调整工作必须仔细注意在设备之间移动数据的成本。在实践中,我们发现在同一设备上直接对生成的数据进行缩减通常是最好的方法。因此,使用多个设备来提高缩减模式的性能并不依赖于任务并行性,而是依赖于另一个级别的数据并行性(即,每个设备对部分输入数据执行缩减)。

#### 14.1.4 扫描

扫描模式使用二元关联运算符计算广义前缀和,并且输出的每个元素代表部分结果。如果元素 i 的部分和是范围 [0, i] 中所有元素的总和(即包括 i 的总和),则称扫描是包含的。如果元素 i 的部分和是 [0, i) 范围内所有元素的和(即不包括 i 的和),则称扫描是排他的。

乍一看,扫描似乎是一种本质上的串行操作——每个输出的值取决于前一个输出的值!虽然扫描确实比其他模式具有更少的并行机会(因此可扩展性可能较差),但图 14-5 表明可以使用对相同数据的多次扫描来实现并行扫描。

由于扫描操作中并行性的机会有限,因此执行扫描的最佳设备高度依赖于问题大小:较小的问题更适合 CPU,因为只有较大的问题才会包含足够的数据并行性来饱和图形处理器。对于 FPGA 和其他空间架构来说,问

题大小不太重要,因为扫描自然适合管道并行性。与减少的情况一样,在生成数据的同一设备上执行扫描操作通常是一个好主意,考虑到优化期间扫描操作在何处以及如何适应应用程序,通常会比专注于优化数据产生更好的结果。隔离扫描操作。

### 14.1.5 打包和拆包

打包和解包模式与扫描密切相关,并且通常在扫描功能之上实现。我们 在这里单独介绍它们,因为它们可以实现常见操作(例如附加到列表)的高 性能实现,而这些操作可能与前缀和没有明显的联系。

#### 打包

如图 14-6 所示,打包模式根据布尔条件丢弃输入范围的元素,将未丢弃的元素打包到输出范围的连续位置。该布尔条件可以是预先计算的掩码,也可以通过对每个输入元素应用某些函数来在线计算。

与扫描一样,打包操作具有固有的串行性质。给定要打包/复制的输入元素,计算其在输出范围中的位置需要有关有多少先前元素也被打包/复制到输出中的信息。该信息相当于对驱动包的布尔条件进行独占扫描。

#### 拆包

如图 14-7 所示(顾名思义),解包模式与打包模式相反。输入范围的连续元素被解包为输出范围的不连续元素,而其他元素保持不变。此模式最明显的用例是解压缩先前打包的数据,但它也可用于填充先前计算产生的数据中的"间隙"。

# 14.2 使用内置函数和库

其中许多模式可以使用 SYCL 的内置功能或供应商提供的用 SYCL 编写的库直接表达。利用这些函数和库是在真正的大型软件工程项目中平衡性能、可移植性和生产力的最佳方式。

### 14.2.1 SYCL 归约库

SYCL 不需要我们每个人都维护自己的可移植且高性能的归约内核库,而是提供了一种方便的抽象,用于使用归约语义来描述变量。这种抽象简化了约简内核的表达,并使约简的执行变得明确,允许实现针对设备、数据类型和约简操作的不同组合在不同的约简算法之间进行选择。

图 14-8 中的内核显示了使用归约库的示例。请注意,内核主体不包含任何对归约的引用 - 我们必须指定的是内核包含使用加函子组合 sum 变量实例的归约。这为实现自动生成优化的归约序列提供了足够的信息。

在内核完成之前,不能保证归约结果被写回原始变量。除了此限制之外,访问归约结果的行为与访问 SYCL 中任何其他变量的行为相同: 访问存储在缓冲区中的归约结果需要创建适当的设备或主机访问器,并且访问存储在 USM 分配中的归约结果可能需要显式同步和/或内存移动。

SYCL 归约库与其他语言中的归约抽象不同的一个重要方式是,它限制我们在内核执行期间对归约变量的访问-我们无法检查归约变量的中间值,并且禁止更新归约变量使用指定组合函数以外的任何变量。这些限制可以防止我们犯下难以调试的错误(例如,在尝试计算最大值时添加归约变量),并确保可以在各种不同的设备上有效地实现归约。

### 减少等级

归约类是我们用来描述内核中存在的归约的接口。构造归约对象的唯一方法是使用图 14-9 中所示的函数之一。请注意,共有三个归约函数系列(用于缓冲区、USM 指针和跨度),每个系列都有两个重载(带和不带恒等变量)。

如果使用缓冲区或 USM 指针初始化归约,则归约是标量归约,对数组中的第一个对象进行操作。如果使用跨度初始化归约,则归约是数组归约。数组缩减的每个组成部分都是独立的——我们可以认为对大小为 N 的数组进行数组缩减操作相当于具有相同数据类型和运算符的 N 标量缩减。

该函数最简单的重载允许我们指定缩减变量和用于组合每个工作项的 贡献的运算符。第二组重载允许我们提供与归约运算符关联的可选标识值 -这是对用户定义归约的优化,我们稍后将重新讨论。

请注意,归约函数的返回类型是未指定的,并且归约类本身完全是实现定义的。尽管这对于 C++ 类来说可能有点不寻常,但它允许实现使用不同的类(或具有任意数量的模板参数的单个类)来表示不同的归约算法。SYCL 的未来版本可能会决定重新审视此设计,以便使我们能够在特定执行上下文中显式请求特定的缩减算法(最有可能通过 property\_list 参数)。

#### 减速机类

reducer 类的实例封装了一个归约变量,公开了一个有限的接口,确保我们无法以实现可能认为不安全的任何方式更新归约变量。减速器类的简化定义如图 14-10 所示。

与归约类一样,归约器类的精确定义是实现定义的 - 归约器的类型将取决于归约的执行方式,为了最大限度地提高性能,在编译时了解这一点非常重要。然而,允许我们更新归约变量的函数和运算符已明确定义,并且保证受到任何 SYCL 实现的支持。

具体来说,每个 reducer 都提供一个 combine() 函数,它将部分结果 (来自单个工作项)与 reduction 变量的值组合起来。这个组合函数的行为 方式是实现定义的,但在编写内核时我们不需要担心。还需要一个 reducer 来根据 reducer 操作符来提供其他操作符;例如,+= 运算符被定义为加减 法。提供这些附加运算符只是为了方便程序员并提高可读性;在可用的情况下,这些运算符与直接调用 combine()具有相同的行为。

当处理数组约简时,reducer 提供了一个额外的下标运算符(即,operator[]),允许访问数组的各个元素。该运算符不是直接返回对数组元素的引用,而是返回另一个化简器对象,该对象公开与标量约简关联的约简器相同的 merge() 函数和简写运算符。图 14-11 显示了一个使用数组缩减来计算直方图的内核的简单示例,其中下标运算符用于仅访问由工作项更新的直方图箱。

### 用户定义的缩减

几种常见的缩减算法(例如,树缩减)不会看到每个工作项直接更新单个共享变量,而是将一些部分结果累积在私有变量中,该变量将在将来的某个时刻进行组合。这样的私有变量引入了一个问题:实现应该如何初始化它们?将变量初始化为每个工作项的第一个贡献具有潜在的性能影响,因为需要额外的逻辑来检测和处理未初始化的变量。相反,将变量初始化为归约运算符的身份可以避免性能损失,但只有在身份已知的情况下才可能实现。

仅当对简单算术类型进行归约操作并且归约运算符是几个标准函数对象(例如,加号)之一时,SYCL实现才能自动确定要使用的正确标识值。对于用户定义的缩减(即,对用户定义类型和/或使用用户定义函数对象进行操作的缩减),我们可以通过直接指定标识值来提高性能。

对用户定义缩减的支持仅限于可简单复制的类型和组合函数,没有副作用,但这足以支持许多现实生活中的用例。例如,图 14-12 中的代码演示了如何使用用户定义的归约来计算向量中的最小元素及其位置。

### 14.2.2 群组算法

SYCL 设备代码中对并行模式的支持由单独的组算法库提供。这些函数 利用特定工作项组(即工作组或子组)的并行性在有限范围内实现常见并行 算法,并且可以用作构建其他更复杂算法的构建块。

SYCL 中的组算法的语法基于 C++ 中的算法库的语法,并且适用 C++ 算法的任何限制。然而,有一个关键的区别: STL 的算法是从顺序(主机)代码调用的,并表明库有机会采用并行性,而 SYCL 的组算法则设计为在已经并行执行的(设备)代码内调用。为了确保这种差异不会被忽视,组算法的语法和语义与其 C++ 对应算法略有不同。

SYCL 区分两种不同类型的并行算法。如果一个算法由一个组中的所有工作项协作执行,但在其他方面与 STL 中的算法行为相同,则该算法以"联合"前缀命名(因为该组的成员"联合"在一起执行该算法))。此类算法从内存中读取输入并将结果写入内存,并且只能对给定组中的所有工作项可见的内存位置中的数据进行操作。如果算法在反映组本身的隐式范围内运行,并且输入和输出存储在工作项私有内存中,则算法名称将被修改为包含单词"组"(因为该算法直接对属于该组的数据执行)团体)。

图 14-13 中的代码示例演示了这两种不同类型的算法,将 std::reduce 的行为与 sycl::joint\_reduce 和 sycl::reduce\_over\_group 的行为进行了比较。

请注意,在这两种情况下,每个组算法的第一个参数接受 group 或 sub\_group 对象来代替执行策略,以描述应用于执行算法的工作项集。由于算法是由指定组中的所有工作项协同执行的,因此它们也必须像组屏障一样对待——组中的所有工作项必须在聚合控制流中遇到相同的算法(即,组中的所有工作项)组必须类似地遇到或不遇到算法调用),并且所有工作项提供的参数必须使得所有工作项都同意正在执行的操作。例如,sycl::joint\_reduce 要求所有工作项的所有参数都相同,以确保组中的所有工作项对相同的数据进行操作并使用相同的运算符来累积结果。

图 14-14 中的表显示了 STL 中可用的并行算法与组算法的关系,以及 对可以使用的组类型是否有任何限制。请注意,在某些情况下,组算法只能 与子组一起使用;这些情况对应于前面章节中介绍的"shuffle"操作。

在撰写本文时,组算法仅限于支持基本数据类型和 SYCL 识别的一组内置运算符(即加、乘、bit\_and、bit\_or、bit\_xor、逻辑与、逻辑或、最小值和最大值)。这足以涵盖最常见的用例,但 SYCL 的未来版本预计将集

体支持扩展到用户定义的类型和运算符。

### 14.3 直接编程

尽管我们建议尽可能利用库,但通过了解如何使用"本机"SYCL 内核实现每种模式,我们可以学到很多东西。

本章剩余部分中的内核不应期望达到与高度调优的库相同的性能水平,但有助于更好地理解 SYCL 的功能,甚至可以作为新库功能原型设计的起点。

### 14.3.1 映射

由于其简单性,映射模式可以直接实现为基本并行内核。图 14-15 中所示的代码显示了这样的实现,使用映射模式来计算范围内每个输入元素的平方根。

### 14.3.2 模版

直接将模板实现为具有多维缓冲区的多维基本数据并行内核,如图 14-16 所示,非常简单且易于理解。

然而,这种模板图案的表达方式非常幼稚,不应期望表现得很好。正如本章前面提到的,众所周知,需要利用局部性(通过空间或时间阻塞)来避免从内存中重复读取相同的数据。图 14-17 显示了使用工作组本地内存的空间阻塞的简单示例。

为给定模板选择最佳优化需要在编译时对块大小、邻域和模板函数本 身进行自省,这需要比此处讨论的更复杂的方法。

### 14.3.3 归约

通过利用提供工作项之间的同步和通信功能的语言功能(例如原子操作、工作组和子组功能、子组"洗牌"),可以在 SYCL 中实现缩减内核。图 14-18 和图 14-19 中的内核显示了两种可能的归约实现:使用基本的 parallel\_for和每个工作项的原子操作的简单归约,以及使用 ND 范围的 parallel\_for和利用局部性的稍微聪明的归约。分别是工作组缩减功能。我们将在第 19 章中更详细地回顾这些原子操作。

还有许多其他方法可以编写缩减内核,并且由于原子操作的硬件支持、工作组本地内存大小、全局内存大小、快速设备范围屏障的可用性或甚至可以使用专用的缩减指令。在某些体系结构上,使用 log2 (N) 个单独的内核调用执行树缩减甚至可能更快(或必要!)。

我们强烈建议仅在 SYCL 缩减库不支持的情况下或在针对特定设备的功能微调内核时才应考虑手动实现缩减,即使如此,也只有在 100% 确定 SYCL 的内置减少表现不佳!

### 14.3.4 扫描

正如我们在本章前面所看到的,实现并行扫描需要对数据进行多次扫描,并且每次扫描之间发生同步。由于 SYCL 不提供同步 ND 范围内所有工作项的机制,因此设备范围扫描的直接实现必须使用多个内核,这些内核通过全局内存传达部分结果。

如图 14-20、14-21 和 14-22 所示的代码演示了使用多个内核实现的包含扫描。第一个内核将输入值分布在工作组之间,在工作组本地内存中计算工作组本地扫描(请注意,我们可以使用工作组 Include\_scan 函数来代替)。第二个内核使用单个工作组计算本地扫描,这次是针对每个块的最终值。第三个内核结合这些中间结果来最终确定前缀和。这三个内核对应于图 14-5 中的三层。

图 14-20 和图 14-21 非常相似;唯一的区别是范围的大小以及输入和输出值的处理方式。此模式的实际实现可以使用采用不同参数的单个函数来实现这两个阶段,并且出于教学原因,它们仅在此处呈现为不同的代码。

#### 14.3.5 打包和拆包

打包和解包也称为聚集和分散操作。这些操作处理数据在内存中的排列方式以及我们希望如何将其呈现给计算资源的差异。

#### 打包

由于 pack 依赖于独占扫描,因此实现适用于 ND 范围的所有元素的 pack 也必须通过全局内存并在多个内核队列的过程中进行。然而,pack 有一个常见的用例,不需要将操作应用于 ND 范围的所有元素,即仅跨特定工作组或子组中的项目应用包。

图 14-23 中的代码片段展示了如何在独占扫描之上实现组包操作。

图 14-24 中的代码演示了如何在内核中使用此类打包操作来构建需要一些额外后处理(在未来的内核中)的元素列表。所示示例基于分子动力学模拟的真实内核:分配给粒子 i 的子组中的工作项合作识别 i 固定距离内的所有其他粒子,并且仅识别此"邻居列表"中的粒子将用于计算作用在每个粒子上的力。

请注意,打包模式永远不会对元素重新排序-打包到输出数组中的元素的显示顺序与输入中的顺序相同。pack的这个属性很重要,它使我们能够使用 pack 功能来实现其他更抽象的并行算法(例如 std::copy\_if 和 std::stable\_partition)。然而,还有其他并行算法可以在不需要维护顺序的包功能之上实现(例如 std::partition)。

### 拆包

与 pack 一样,我们可以使用 scan 来实现 unpack。图 14-25 显示了如何在独占扫描之上实现子组解包操作。

图 14-26 中的代码演示了如何使用这样的子组解包操作来改善具有发散控制流的内核中的负载平衡(在本例中,计算 Mandelbrot 集)。每个工作项都分配有一个单独的像素来计算和迭代,直到收敛或达到最大迭代次数。然后使用解包操作来用新像素替换完成的像素。

这种方法提高效率(并减少执行时间)的程度高度依赖于应用程序和输入,因为检查完成情况和执行解包操作都会带来一些开销!因此,在实际应用中成功使用此模式将需要根据存在的发散量和正在执行的计算进行一些微调(例如,仅当活动工作项的数量低于某个阈值时才引入启发式方法来执行解包操作))。

### 14.4 概括

本章演示了如何使用 SYCL 功能(包括内置函数和库)实现一些最常见的并行模式。

SYCL 生态系统仍在发展中,随着开发人员从该语言以及生产级应用程序和库的开发中获得更多经验,我们期望为这些模式发现新的最佳实践。

### 14.4.1 了解更多信息

结构化并行编程: 高效计算模式, 作者: Michael McCool、Arch Robison和 James Reinders, l' 2012, Morgan Kaufmann 出版, ISBN 978-0-124-15993-8。

算法库, C++ 参考, https://en.cppreference.com/w/cpp/algorithm。

# 15 GPU 编程

在过去的几十年里,图形处理单元 (GPU) 已经从能够在屏幕上绘制图像的专用硬件设备发展为能够执行复杂并行内核的通用设备。如今,几乎每台计算机都在传统 CPU 旁边配备了 GPU,并且可以通过将部分并行算法从 CPU 卸载到 GPU 来加速许多程序。

在本章中,我们将描述典型 GPU 的工作原理、GPU 软件和硬件如何 执行 SYCL 应用程序,以及在为 GPU 编写和优化并行内核时要记住的提 示和技术。

# 15.1 性能注意事项

与任何处理器类型一样, GPU 因供应商而异, 甚至因产品一代而异; 因此, 一种设备的最佳实践可能并不适用于其他设备的最佳实践。本章中的建议可能会让许多 GPU 现在和将来受益, 但是……

本章末尾提供了来自许多 GPU 供应商的文档链接。

# 15.2 GPU 的工作原理

本节介绍典型 GPU 的工作原理以及 GPU 与其他加速器类型的不同之处。

### 15.2.1 GPU 构建模块

图 15-1 显示了一个非常简化的 GPU, 由三个高级构建块组成:

- 1. 执行资源: GPU 的执行资源是执行计算工作的处理器。不同的 GPU 供应商对其执行资源使用不同的名称,但所有现代 GPU 都由多个可编程处理器组成。处理器可以是异构的并且专门用于特定任务,例如变换顶点和着色像素,或者它们可以是同构的并且可互换。大多数现代 GPU 的处理器都是同质且可互换的。
- 2. 固定功能: GPU 固定功能是比执行资源可编程性更差的硬件单元,专门用于单个任务。当 GPU 用于图形时,图形管道的许多部分(例如光栅化或光线追踪)都是使用固定函数执行的,以提高功效和性能。当 GPU 用于数据并行计算时,固定函数可以用于诸如工作负载调度、纹理采样和依赖性跟踪等任务。

3. 高速缓存和内存:与其他处理器类型一样,GPU 经常具有高速缓存来存储执行资源访问的数据。GPU 缓存可以是隐式的,在这种情况下,它们不需要程序员执行任何操作,或者可以是显式暂存器存储器,在这种情况下,程序员必须在使用数据之前有目的地将数据移动到缓存中。许多 GPU 还拥有大量内存,可以快速访问执行资源所使用的数据。

### 15.2.2 更简单的处理器 (但数量更多)

传统上,在执行图形操作时,GPU 会处理大量数据。例如,典型的游戏帧或渲染工作负载涉及数千个顶点,每帧产生数百万个像素。为了保持交互式帧速率,必须尽快处理这些大批量数据。

典型的 GPU 设计权衡是消除形成加速单线程性能的执行资源的处理器的功能,并利用这些节省来构建额外的处理器,如图 15-2 所示。例如,GPU 处理器可能不包括其他类型处理器使用的复杂的乱序执行功能或分支预测逻辑。由于这些权衡,单个数据元素在 GPU 上的处理速度可能比在另一个处理器上的速度慢,但处理器数量较多使 GPU 能够快速高效地处理许多数据元素。

为了在执行内核时利用这种权衡,为 GPU 提供足够大范围的数据元素进行处理非常重要。为了证明卸载大量数据的重要性,请考虑我们在整本书中开发和修改的矩阵乘法内核。

通过将矩阵乘法内核作为单个任务提交到队列中,可以在 GPU 上轻松执行。该矩阵乘法内核的主体看起来与主机 CPU 上执行的函数完全相同,如图 15-3 所示。

如果我们尝试在 CPU 上执行该内核,它的性能可能还不错,但不是很好,因为预计它不会利用 CPU 的任何并行功能,但对于小矩阵大小来说可能足够好。然而,如图 15-4 所示,如果我们尝试在 GPU 上执行该内核,它的性能可能会很差,因为单个任务只会使用单个 GPU 处理器。

### 表达并行性

为了提高该内核对于 CPU 和 GPU 的性能,我们可以通过将其中一个循环转换为 parallel\_for 来提交一系列数据元素进行并行处理。对于矩阵乘法内核,我们可以选择提交代表两个最外层循环之一的一系列数据元素。在图 15-5 中,我们选择并行处理结果矩阵的行。

尽管有点并行的内核与单任务内核非常相似,但它在 CPU 上运行得更好,在 GPU 上运行得更好。如图 15-6 所示, parallel\_for 使代表结果矩阵

行的工作项能够在多个处理器资源上并行处理,因此所有执行资源都保持 忙碌状态。

请注意,未指定行分区和分配给不同处理器资源的确切方式,从而使实现能够灵活地选择如何最好地在设备上执行内核。例如,实现可以选择在同一处理器上执行连续的行以获得局部性优势,而不是在处理器上执行单独的行。

### 表达更多的并行性

通过选择并行处理两个外部循环,我们可以进一步并行化矩阵乘法内核。因为 parallel\_for 可以在最多三个维度上表达并行循环,所以这很简单,如图 15-7 所示。在图 15-7 中,请注意传递给 parallel\_for 的范围和表示并行执行空间中索引的项现在都是二维的。

当在 GPU 上运行时,暴露额外的并行性可能会提高矩阵乘法内核的性能。即使矩阵行数超过 GPU 处理器的数量,情况也可能如此。接下来的几节将描述出现这种情况的可能原因。

### 15.2.3 简化的控制逻辑 (SIMD 指令)

许多 GPU 处理器利用大多数数据元素倾向于通过内核采用相同的控制流路径这一事实来优化控制逻辑。例如,在矩阵乘法内核中,每个数据元素执行最内层循环的次数相同,因为循环边界是不变的。

当数据元素通过内核采用相同的控制流路径时,处理器可以通过在多个数据元素之间共享控制逻辑并将它们作为一组执行来降低管理指令流的成本。实现此目的的一种方法是实现单指令、多数据或 SIMD 指令集,其中单指令同时处理多个数据元素。

由单个指令同时处理的数据元素的数量有时被称为指令或执行指令的 处理器的 SIMD 宽度。在图 15-8 中,四个 ALU 共享相同的控制逻辑,因 此可以将其描述为四宽 SIMD 处理器。

GPU 处理器并不是唯一实现 SIMD 指令集的处理器。其他处理器类型也实现 SIMD 指令集,以提高处理大型数据集时的效率。GPU 处理器与其他处理器类型之间的主要区别在于,GPU 处理器依靠并行执行多个数据元素来实现良好的性能,并且 GPU 处理器可以支持比其他处理器类型更宽的 SIMD 宽度。例如,GPU 处理器支持 16、32 或更多数据元素的 SIMD 宽度并不罕见。

在图 15-9 中, 我们扩展了每个执行资源以支持四宽 SIMD, 从而允许

我们并行处理四倍数量的矩阵行。

使用并行处理多个数据元素的 SIMD 指令是图 15-5 和 15-7 中并行矩阵乘法内核的性能能够扩展到超出处理器数量的方法之一。在许多情况下, SIMD 指令的使用还提供了自然的局部性优势,包括通过在同一处理器上执行连续数据元素来进行矩阵乘法。

### 预测和掩蔽

只要所有数据元素通过内核中的条件代码采用相同的路径,在多个数据元素之间共享指令流就可以很好地工作。当数据元素通过条件代码采取不同的路径时,控制流被称为发散。当控制流在 SIMD 指令流中出现分歧时,通常会执行两个控制流路径,并屏蔽或预测某些通道。这确保了正确的行为,但正确性是以性能为代价的,因为被屏蔽的通道不会执行有用的工作。

为了展示预测和屏蔽的工作原理,请考虑图 15-10 中的内核,它将每个具有"奇数"索引的数据元素乘以 2,并将每个具有"偶数"索引的数据元素递增 1。

假设我们在图 15-8 所示的四宽 SIMD 处理器上执行此内核,并且我们在一个 SIMD 指令流中执行前四个数据元素,在不同的 SIMD 指令流中执行接下来的四个数据元素,等等在。图 15-11 显示了可以屏蔽通道和预测执行以使用发散控制流正确执行该内核的方法之一。

#### SIMD 效率

SIMD 效率衡量 SIMD 指令流与等效标量指令流相比的性能。在图 15-11 中,由于控制流将通道分为两个相等的组,因此发散控制流中的每条指令的执行效率只有一半。

在最坏的情况下,对于高度发散的内核,效率可能会降低处理器 SIMD 宽度的一个因子。

所有实现 SIMD 指令集的处理器都将遭受影响 SIMD 效率的发散性惩罚,但由于 GPU 处理器通常支持比其他处理器类型更宽的 SIMD 宽度,因此在优化时重构算法以最小化发散控制流并最大化收敛执行可能特别有益 GPU 的内核。这并不总是可能的,但作为示例,选择沿具有更收敛执行的维度进行并行化可能比沿具有高度发散的执行的不同维度进行并行化表现得更好。

### SIMD 效率和项目组

到目前为止,本章中的所有内核都是基本数据并行内核,它们没有指

定执行范围内的任何项目分组,这使得实现可以自由地选择设备的最佳分组。例如,具有较宽 SIMD 宽度的设备可能更喜欢较大的分组,但具有较窄 SIMD 宽度的设备可能适合较小的分组。

当内核是具有显式工作项分组的 ND 范围内核时,应注意选择能够最大化 SIMD 效率的 ND 范围工作组大小。当工作组大小不能被处理器的 SIMD 宽度整除时,部分工作组可能会在内核的整个持续时间内禁用通道来执行。针对 Preferred\_work\_group\_size\_multiple 的设备特定内核查询可用于选择有效的工作组大小。有关如何查询设备属性的详细信息,请参阅第12章。

选择由单个工作项组成的工作组大小可能会表现得很差,因为许多GPU将通过屏蔽除一个通道之外的所有SIMD通道来实现单工作项工作组。例如,图 15-12 中的内核的性能可能会比图 15-5 中非常相似的内核差很多,尽管两者之间唯一的显着区别是从基本数据并行内核到低效的单并行内核的变化。工作项 ND 范围内核 (nd\_range<1>M, 1)。

### 15.2.4 切换工作以隐藏延迟

许多 GPU 使用另一种技术来简化控制逻辑、最大化执行资源并提高性能:许多 GPU 允许多个指令流同时驻留在处理器上,而不是在处理器上执行单个指令流。

在处理器上驻留多个指令流是有益的,因为它使每个处理器都可以选择要执行的工作。如果一个指令流正在执行长延迟操作,例如从内存读取,则处理器可以切换到准备运行的不同指令流,而不是等待操作完成。有了足够的指令流,当处理器切换回原始指令流时,长延迟操作可能已经完成,而无需处理器等待。

图 15-13 显示了处理器如何使用多个同时指令流来隐藏延迟并提高性能。尽管第一个指令流在多个流中执行的时间稍长,但通过切换到其他指令流,处理器能够找到准备执行的工作,而无需空闲地等待长时间操作完成。

GPU 分析工具可以使用诸如占用率之类的术语来描述 GPU 处理器当前正在执行的指令流数量与理论指令流总数的关系。

低占用率并不一定意味着低性能,因为少量指令流可能会使处理器保持忙碌。同样,高占用率并不一定意味着高性能,因为如果所有指令流都执行低效、长延迟的操作,GPU 处理器可能仍然需要等待。不过,在其他条件相同的情况下,增加占用率可以最大限度地提高 GPU 处理器隐藏延迟的

能力,并且通常会提高性能。增加占用率是使用图 15-7 中更加并行的内核可以提高性能的另一个原因。

这种在多个指令流之间切换以隐藏延迟的技术特别适合 GPU 和数据并行处理。回想一下图 15-2, GPU 处理器通常比其他处理器类型更简单,因此缺乏复杂的延迟隐藏功能。这使得 GPU 处理器更容易受到延迟问题的影响,但由于数据并行编程涉及处理大量数据, GPU 处理器通常有大量指令流要执行!

### 15.3 将内核卸载到 GPU

本节介绍应用程序、SYCL 运行时库和 GPU 软件驱动程序如何协同工作以在 GPU 硬件上卸载内核。图 15-14 中的图表显示了具有这些抽象层的典型软件堆栈。在许多情况下,这些层的存在对于应用程序来说是透明的,但在调试或分析应用程序时理解并考虑它们非常重要。

### 15.3.1 SYCL 运行时库

SYCL 运行时库是 SYCL 应用程序与之交互的主要软件库。运行时库负责实现队列、缓冲区和访问器等类以及这些类的成员函数。运行时库的某些部分可能位于头文件中,因此可以直接编译到应用程序可执行文件中。运行时库的其他部分作为库函数实现,作为应用程序构建过程的一部分与应用程序可执行文件链接。运行时库通常不是特定于设备的,并且同一运行时库可以协调卸载到 CPU、GPU、FPGA 或其他设备。

### 15.3.2 GPU 软件驱动程序

尽管理论上 SYCL 运行时库可以直接卸载到 GPU, 但实际上, 大多数 SYCL 运行时库与 GPU 软件驱动程序连接以将工作提交到 GPU。

GPU 软件驱动程序通常是 API 的实现,例如 OpenCL、零级或 CUDA。 大多数 GPU 软件驱动程序都是在 SYCL 运行时调用的用户模式驱动程序 库中实现的,并且用户模式驱动程序可以调用操作系统或内核模式驱动程 序来执行系统级任务,例如分配内存或向设备提交工作。用户模式驱动程序 还可以调用其他用户模式库;例如,GPU 驱动程序可以调用 GPU 编译器 来将内核从中间表示及时编译为 GPU ISA (指令集架构)。这些软件模块以 及它们之间的交互如图 15-15 所示。

### 15.3.3 GPU 硬件

当运行时库或 GPU 软件用户模式驱动程序被明确请求提交工作时,或者当 GPU 软件试探性地确定工作应该开始时,它通常会通过操作系统或内核模式驱动程序调用来开始执行工作 GPU。在某些情况下,GPU 软件用户模式驱动程序可能会直接向 GPU 提交工作,但这种情况不太常见,并且可能并非所有设备或操作系统都支持。

当 GPU 上执行的工作结果被主机处理器或另一个加速器消耗时, GPU 必须发出信号以指示工作已完成。工作完成涉及的步骤与工作提交的步骤 非常相似,执行方向相反: GPU 可能会向操作系统或内核模式驱动程序发出信号,表明其已完成执行,然后通知用户模式驱动程序,最后运行时库将通过 GPU 软件 API 调用观察到工作已完成。

每个步骤都会引入延迟,并且在许多情况下,运行时库和 GPU 软件会在较低延迟和较高吞吐量之间进行权衡。例如,更频繁地向 GPU 提交工作可能会减少延迟,但频繁提交也可能会因每次提交的开销而降低吞吐量。收集大批量的工作会增加延迟,但可以分摊更多工作的提交开销,并引入更多并行执行的机会。运行时和驱动程序经过调整以做出正确的权衡,并且通常会做得很好,但是如果我们怀疑驱动程序启发式提交工作效率低下,我们应该查阅文档以查看是否有方法使用 API 覆盖默认驱动程序行为 -特定的甚至特定于实现的机制。第 20 章中描述的直接与 API 后端交互的技术对于调整 GPU 提交策略非常有用。

#### 15.3.4 当心卸载成本!

尽管 SYCL 实现和 GPU 供应商不断创新和优化,以降低将工作卸载到 GPU 的成本,但在 GPU 上开始工作以及在主机或其他设备上观察结果时总会产生开销。选择在何处执行算法时,请考虑在设备上执行算法的好处以及将算法及其所需的任何数据移动到设备的成本。在某些情况下,使用主机处理器执行并行操作可能是最有效的,或者在 GPU 上低效地执行算法的串行部分,以避免将算法从一个处理器移动到另一个处理器的开销。

### 与设备内存之间的传输

在具有专用内存的 GPU 上,请特别注意专用 GPU 内存与主机或其他设备上的内存之间的传输成本。图 15-16 显示了系统中不同内存类型之间的典型内存带宽差异。

回想一下第 3 章, GPU 更喜欢在专用设备内存上运行,这样速度可以

快一个数量级或更多,而不是在主机内存或其他设备的内存上运行。尽管对专用设备内存的访问比对远程内存或系统内存的访问要快得多,但如果数据尚未位于专用设备内存中,则必须对其进行复制或迁移。

只要数据会被频繁访问,将其移至专用设备内存中就是有益的,特别是当 GPU 执行资源忙于处理另一项任务时可以异步执行传输时。然而,当数据访问不频繁或不可预测时,即使每次访问成本较高,最好还是节省传输成本并远程或在系统内存中对数据进行操作。第 6 章介绍了控制内存分配位置的方法以及将数据复制和预取到专用设备内存的不同技术。这些技术在优化 GPU 程序执行时非常重要。

### 15.4 GPU 内核最佳实践

前面的部分描述了传递给 parallel\_for 的调度参数如何影响内核分配给 GPU 处理器资源的方式以及在 GPU 上执行内核所涉及的软件层和开销。本节介绍内核在 GPU 上执行时的最佳实践。

从广义上讲,内核要么是内存限制的,这意味着它们的性能受到 GPU 上执行资源的数据读写操作的限制,要么是计算限制,这意味着它们的性能 受到 GPU 上执行资源的限制。为 GPU (以及许多其他处理器) 优化内核时,第一步是确定我们的内核是内存限制型还是计算限制型,因为经常改进内存限制型内核的技术不会使计算限制型内核受益反之亦然。GPU 供应商通常会提供分析工具来帮助做出这一决定。

由于 GPU 往往具有许多处理器和较宽的 SIMD 宽度,因此内核往往 更多地受到内存限制而不是计算限制。如果我们不确定从哪里开始,检查内核如何访问内存是一个很好的第一步。

#### 15.4.1 访问全局内存

有效访问全局内存对于优化应用程序性能至关重要,因为工作项或工作组操作的几乎所有数据都源自全局内存。如果内核对全局内存的操作效率低下,它几乎总是会表现得很差。尽管 GPU 通常包含用于读取和写入内存中任意位置的专用硬件收集和分散单元,但对全局内存的访问性能通常由数据访问的局部性驱动。如果工作组中的一个工作项正在访问存储器中与工作组中的另一工作项所访问的元素相邻的元素,则全局存储器访问性能可能良好。如果工作组中的工作项改为跨步或随机访问内存,则全局内存

访问性能可能会更差。一些 GPU 文档将附近内存访问的操作描述为合并内存访问。

回想一下,对于图 15-5 中的稍微并行的矩阵乘法内核,我们可以选择是否并行处理结果矩阵的行或列,并且我们选择并行操作结果矩阵的行。事实证明这是一个糟糕的选择: 如果 id 等于 m 的一个工作项与 id 等于 m-1或 m+1 的相邻工作项分组,则用于访问矩阵 B 的索引对于每个工作项都是相同的工作项,但用于访问矩阵 A 的索引相差 K,这意味着访问是高度跨步的。矩阵 A 的访问模式如图 15-17 所示。

相反,如果我们选择并行处理结果矩阵的列,则访问模式具有更好的局部性。图 15-18 中的内核在结构上与图 15-5 中的内核非常相似,唯一的区别是图 15-18 中的每个工作项对结果矩阵的列进行操作,而不是对结果矩阵的行进行操作。

尽管这两个内核在结构上非常相似,但在许多 GPU 上,对数据列进行操作的内核将显着优于对数据行进行操作的内核,这纯粹是由于更高效的内存访问: 如果一个工作项的 id 相等 to n 与 id 等于 n-1 或 n+1 的相邻工作项分组,用于访问矩阵 A 的索引现在对于每个工作项都是相同的,并且用于访问矩阵 B 的索引是连续的。矩阵 B 的访问模式如图 15-19 所示。

对连续数据的访问通常非常有效。一个好的经验法则是,一组工作项对全局内存的访问性能是所访问的 GPU 缓存行数量的函数。如果所有访问都在单个高速缓存行内,则访问将以峰值性能执行。如果访问需要两个高速缓存行,例如通过访问每个其他元素或从高速缓存未对齐的地址开始,则访问可能会以一半的性能运行。当组中的每个工作项访问唯一的高速缓存行时,例如跨步或随机访问,访问可能会以最低性能运行。

### 15.4.2 访问工作组本地内存

在上一节中,我们描述了对全局内存的访问如何受益于局部性,以最大限度地提高缓存性能。正如我们所看到的,在某些情况下,我们可以设计算法来有效地访问内存,例如选择在一个维度而不是另一个维度进行并行化。然而,这种技术并非在所有情况下都可行。本节介绍如何使用工作组本地内存来有效支持更多内存访问模式。

回想一下第9章,工作组中的工作项可以通过工作组本地内存进行通信并使用工作组障碍进行同步来合作解决问题。该技术对于 GPU 特别有利,因为典型的 GPU 具有专门的硬件来实现屏障和工作组本地内存。不同

的 GPU 供应商和不同的产品可能会以不同的方式实现工作组本地内存,但与全局内存相比,工作组本地内存通常有两个好处:本地内存可以支持比全局内存访问更高的带宽和更低的延迟,即使全局内存访问会命中缓存,本地内存通常分为不同的内存区域,称为存储体。只要组中的每个工作项访问不同的存储体,本地内存访问就会以最佳性能执行。与全局内存相比,分组访问允许本地内存以峰值性能支持更多的访问模式。

许多 GPU 供应商会将连续的本地内存地址分配给不同的 bank。这确保了连续的内存访问始终以最佳性能运行,无论起始地址如何。然而,当内存访问跨步时,组中的某些工作项可能会访问分配给同一存储体的内存地址。发生这种情况时,会被视为存储体冲突并导致串行访问和性能降低。

全局内存和本地内存的访问模式和预期性能摘要如图 15-20 所示。假设当 ptr 指向全局内存时,指针与 GPU 缓存行的大小对齐。通过从缓存对齐地址开始连续访问内存,可以实现访问全局内存时的最佳性能。访问未对齐的地址可能会降低全局内存性能,因为该访问可能需要访问额外的缓存行。由于访问未对齐的本地地址不会导致额外的存储体冲突,因此本地内存性能保持不变。

跨步案例值得更详细地描述。访问全局内存中的每个其他元素需要访问更多的缓存行,并且可能会导致性能降低。访问本地内存中的所有其他元素可能会导致存储体冲突和性能降低,但前提是存储体的数量可以被2整除。如果银行的数量是奇数,这种情况也将在全性能下运行。

当访问之间的步幅非常大时,每个工作项都会访问唯一的缓存行,从而导致性能最差。但对于本地内存,性能取决于步幅和存储体数量。当步长 N 等于 Bank 数时,每次访问都会导致 Bank 冲突,并且所有访问都是串行的,导致性能最差。然而,如果步长 M 和存储体数量没有共同因素,则访问将以全部性能运行。因此,许多优化的 GPU 内核会在本地内存中填充数据结构,以选择减少或消除存储体冲突的步幅。

### 15.4.3 通过子组完全避免本地内存

正如第 9 章所讨论的,子组集体功能是在组中的工作项之间交换数据的另一种方法。对于许多 GPU 来说,子组代表由单个指令流处理的工作项的集合。在这些情况下,子组中的工作项可以廉价地交换数据并同步,而无需使用工作组本地存储器。许多性能最佳的 GPU 内核都使用子组,因此对于昂贵的内核,非常值得检查我们的算法是否可以重新表述为使用子组集

体函数。

### 15.4.4 使用小数据类型优化计算

本节介绍在消除或减少内存访问瓶颈后优化内核的技术。需要牢记的一个非常重要的观点是,GPU 传统上被设计用于在屏幕上绘制图片。尽管GPU 的纯计算能力随着时间的推移不断发展和提高,但在某些领域,其图形传统仍然很明显。

例如,考虑对内核数据类型的支持。许多 GPU 针对 32 位浮点运算进行了高度优化,因为这些运算在图形和游戏中很常见。对于可以处理较低精度的算法,许多 GPU 还支持较低精度的 16 位浮点类型,以牺牲精度来换取更快的处理速度。相反,虽然许多 GPU 确实支持 64 位双精度浮点运算,但额外的精度是有代价的,而且 32 位运算的性能通常比 64 位等效运算要好得多。

对于整数数据类型也是如此,其中 32 位整数数据类型的性能通常优于 64 位整数数据类型,而 16 位整数的性能可能甚至更好。如果我们可以构建我们的计算以使用较小的整数,我们的内核可能会执行得更快。需要特别注意的一个领域是寻址操作,它通常对 64 位 size\_t 数据类型进行操作,但有时可以重新排列以使用 32 位数据类型执行大部分计算。在某些本地内存情况下,16 位索引就足够了,因为大多数本地内存分配都很小。

### 15.4.5 优化数学函数

内核可能会为了性能而牺牲准确性的另一个领域涉及 SYCL 内置函数。 SYCL 包含一组丰富的数学函数,在一系列输入中具有明确定义的精度。大 多数 GPU 本身并不支持这些功能,而是使用一长串其他指令来实现它们。 尽管数学函数实现通常针对 GPU 进行了很好的优化,但如果我们的应用程 序可以容忍较低的精度,我们应该考虑采用精度较低但性能较高的不同实 现。有关 SYCL 内置函数的更多信息,请参阅第 18 章。

对于常用的数学函数, SYCL 库包括具有降低的或实现定义的精度要求的快速或本机函数变体。对于某些 GPU, 这些函数可能比其精确的等效函数快一个数量级, 因此如果它们对算法具有足够的精度, 则非常值得考虑。例如, 许多图像后处理算法具有明确定义的输入, 并且可以容忍较低的精度, 因此是使用快速或本机数学函数的良好候选者。

### 15.4.6 特化功能和扩展

优化 GPU 内核时的最后一个考虑因素是许多 GPU 中常见的专用指令。举一个例子,几乎所有 GPU 都支持 mad 或 fma 乘加指令,该指令在单个时钟中执行两个操作。GPU 编译器通常非常擅长识别和优化单个乘法和加法以使用单个指令,但 SYCL 还包括可以显式调用的 mad 和 fma 函数。当然,如果我们希望 GPU 编译器为我们优化乘法和加法,我们应该确保我们不会通过禁用浮点收缩来阻止优化!

其他专用 GPU 指令可能只能通过编译器优化、SYCL 语言扩展或直接与低级 GPU 后端交互来获得。例如,某些 GPU 支持专门的点积累加指令,编译器将尝试识别并优化该指令,或者可以直接调用该指令。有关如何查询 GPU 实现支持的扩展的更多信息,请参阅第 12 章,有关后端互操作性的信息,请参阅第 20 章。

### 15.5 概括

在本章中, 我们首先描述典型 GPU 的工作原理以及 GPU 与传统 CPU 的不同之处。我们描述了如何通过将加速单个指令流的处理器功能换成额外的处理器来针对大量数据进行优化。

我们描述了 GPU 如何使用宽 SIMD 指令并行处理多个数据元素,以及 GPU 如何使用预测和掩码来使用 SIMD 指令执行具有复杂流程控制的内核。我们讨论了预测和掩码如何降低 SIMD 效率并降低高度发散的内核的性能,以及选择沿一个维度与另一维度并行化如何减少 SIMD 发散。

由于 GPU 拥有如此多的处理资源,我们讨论了为 GPU 提供足够的工作以保持高占用率的重要性。我们还描述了 GPU 如何使用指令流来隐藏延迟,这使得为 GPU 提供大量执行工作变得更加重要。

接下来,我们讨论了将内核卸载到 GPU 所涉及的软件和硬件层以及卸载的成本。我们讨论了在单个设备上执行算法如何比将执行从一个设备转移到另一个设备更有效。

最后,我们描述了内核在 GPU 上执行时的最佳实践。我们描述了有多少内核从内存限制开始,以及如何有效地访问全局内存和本地内存,或者如何通过使用子组操作完全避免本地内存。当内核受计算限制时,我们描述了如何通过以较低精度换取更高性能或使用自定义 GPU 扩展来访问专用指令来优化计算。

# 15.5.1 了解更多信息

关于 GPU 编程还有很多东西需要学习,本章只是触及了表面!

GPU 规范和白皮书是了解有关特定 GPU 和 GPU 架构的更多信息的好方法。许多 GPU 供应商提供了有关其 GPU 以及如何对其进行编程的非常详细的信息。

在撰写本文时,有关主要 GPU 的相关阅读可在 software.intel.com、devblogs.nvidia.com 和 amd.com 上找到。

一些 GPU 供应商拥有开源驱动程序或驱动程序组件。如果可用,检查或单步执行驱动程序代码可能会很有帮助,以了解哪些操作成本较高或应用程序中哪些地方可能存在开销。

本章完全关注通过缓冲区访问器或统一共享内存对全局内存的传统访问,但大多数 GPU 还包含一个固定功能纹理采样器,可以加速图像操作。有关图像和采样器的更多信息,请参阅 SYCL 规范。

16 CPU 编程 180

# 16 CPU 编程

内核编程最初作为一种 GPU 编程方式而流行。随着内核编程的普遍化,了解内核编程风格如何影响代码到 CPU 的映射非常重要。

CPU 已经发展了很多年。2005 年左右发生了重大转变,当时时钟速度提高所带来的性能提升逐渐减弱。并行性成为受欢迎的解决方案——CPU 生产商没有提高时钟速度,而是引入了多核芯片。计算机在同时执行多项任务时变得更加有效!

虽然多核作为提高硬件性能的途径盛行,但要实现软件性能的提升需要付出不小的努力。多核处理器要求开发人员提出不同的算法,这样硬件的改进才会引人注目,但这并不总是那么容易。我们拥有的核心越多,让它们高效地忙碌就越困难。SYCL 是应对这些挑战的编程语言之一,它具有许多有助于利用 CPU (和其他体系结构) 上各种形式的并行性的结构。

本章讨论 CPU 架构的一些细节、CPU 硬件通常如何执行 SYCL 应用程序,并提供为 CPU 平台编写 SYCL 代码时的最佳实践。

### 16.1 性能注意事项

SYCL 为并行化我们的应用程序或从头开始开发并行应用程序铺平了一条可移植的路径。应用程序在 CPU 上运行时的性能很大程度上取决于以下因素:

内核代码启动和执行的底层性能

在并行内核中运行的程序的百分比及其可扩展性

CPU 利用率、有效的数据共享、数据局部性和负载平衡

工作项之间的同步和通信量

创建、恢复、管理、挂起、销毁和同步工作项执行的任何线程所引入的 开销,该开销受串行到并行或并行到串行转换数量的影响

共享内存引起的内存冲突(包括错误共享内存)

共享资源 (例如内存、写入组合缓冲区和内存带宽) 的性能限制

此外,与任何处理器类型一样,CPU 可能因供应商而异,甚至因产品一代而异。适用于一种 CPU 的最佳实践可能并非适用于其他 CPU 和配置的最佳实践。

## 16.2 多核 CPU 的基础知识

多核 CPU 的出现和快速发展推动了共享内存并行计算平台的广泛接受。CPU 在笔记本电脑、台式机和服务器级别提供并行计算平台,使其无处不在,几乎无处不在。CPU 架构最常见的形式是高速缓存一致性非均匀内存访问 (cc-NUMA),其特点是内存访问时间不完全均匀。许多小型双路通用 CPU 系统都有这种内存系统。由于处理器中的核心数量以及插槽数量不断增加,这种架构已成为主导。

在 cc-NUMA CPU 系统中,每个插槽连接到系统中总内存的一个子集。高速缓存一致性互连将所有套接字粘合在一起,并为程序员提供单一系统内存视图。这样的内存系统是可扩展的,因为总内存带宽随着系统中套接字的数量而扩展。互连的好处是应用程序可以透明地访问系统中的所有内存,无论数据驻留在何处。然而,这是有代价的:从内存访问数据的延迟不再一致(即,我们不再有固定的访问延迟)。相反,延迟取决于数据在系统中的存储位置。在良好的情况下,数据来自直接连接到代码运行的套接字的内存。在糟糕的情况下,数据必须来自连接到系统中较远的套接字的内存,并且由于 cc-NUMA CPU 系统上套接字之间互连的跳数,内存访问的成本可能会增加。

图 16-1 显示了具有 cc-NUMA 内存的通用 CPU 架构。这是一种简化的系统架构,包含当今通用多插槽系统中的核心和内存组件。在本章的其余部分中,该图将用于说明相应代码示例的映射。

为了实现最佳性能,我们需要确保了解特定系统的 cc-NUMA 配置的特征。例如,英特尔最新的服务器使用了网状互连架构。在此配置中,核心、高速缓存和内存控制器被组织成行和列。在努力实现系统的最佳性能时,了解处理器与内存的连接性至关重要。

图 16-1 中的系统有两个插槽,每个插槽有两个内核,每个内核有四个硬件线程。每个核心都有自己的 1 级 (L1) 缓存。L1 缓存连接到共享的最后一级缓存,该缓存连接到套接字上的内存系统。套接字内的内存访问延迟是统一的,这意味着它是一致的并且可以准确预测。

这两个套接字通过缓存一致性互连进行连接。内存分布在整个系统中,但所有内存都可以从系统中的任何位置透明地访问。当访问不在运行访问 代码的套接字中的内存时,内存读写延迟是不均匀的,这意味着从远程套接 字访问数据时,它可能会带来更长且不一致的延迟。然而,互连的一个关键 方面是一致性。我们不需要担心整个系统内存中数据的不一致视图,而是可

以关注我们访问分布式内存系统的方式对性能的影响。更高级的优化(例如,具有宽松内存顺序的原子操作)可以实现不再需要那么多硬件内存一致性的操作,但是当我们需要一致性时,硬件会为我们提供一致性。

CPU 中的硬件线程是执行工具。这些是执行指令流的单元。图 16-1 中的硬件线程从 0 到 15 连续编号,这是用于简化本章示例讨论的符号。除非另有说明,本章中对 CPU 系统的所有引用均指图 16-1 中所示的参考 cc-NUMA 系统。

#### 16.3 SIMD 硬件基础知识

1996 年,广泛部署的 SIMD 指令集是 x86 架构之上的 MMX 扩展。此后,许多 SIMD 指令集扩展在英特尔架构以及整个行业得到广泛应用。CPU 内核通过执行指令来执行其工作,内核知道如何执行的具体指令由指令集(例如 x86、x86\_64、AltiVec、NEON) 和指令集扩展(例如 SSE、AVX、AVX-512)它实现的。指令集扩展添加的许多操作都集中在 SIMD 上。

SIMD 指令允许通过使用大于正在处理的数据的基本单位的寄存器和硬件,在单个内核上同时执行多个计算。例如,使用 512 位寄存器,我们可以使用一条机器指令执行 8 个 64 位计算。

理论上,图 16-2 中所示的示例可以使我们的速度提高八倍。实际上,它可能会有所缩减,因为八倍加速的一部分用于消除一个瓶颈并暴露下一个瓶颈,例如内存吞吐量。一般来说,使用 SIMD 的性能优势因具体场景而异,在少数情况下,例如广泛的分支发散、非单位步长内存访问的聚集/分散以及 SIMD 加载和存储的缓存行分割,它可以甚至比更简单的非 SIMD 等效代码执行得更差。也就是说,当我们知道何时以及如何应用(或让编译器应用)SIMD 时,当今的处理器可以实现相当大的收益。与所有性能优化一样,程序员应该在将典型目标机器投入生产之前测量其增益。本章以下各节提供了有关预期性能提升的更多详细信息。

带有 SIMD 单元的 cc-NUMA CPU 架构构成了多核处理器的基础,它可以以至少五种不同的方式利用从指令级并行开始的广泛并行性,如图 16-3 所示。

在图 16-3 中,指令级并行可以通过单线程内标量指令的乱序执行和 SIMD 并行来实现。线程级并行可以通过在同一核心或不同规模的多个核心 上执行多个线程来实现。更具体地说,线程级并行性可以从以下方面体现出来:

现代 CPU 架构允许一个核心同时执行两个或多个线程的指令。

每个处理器内包含两个或多个内核的多核架构。操作系统将其每个执行核心视为具有所有关联执行资源的离散处理器。

处理器(芯片)级别的多处理,可以通过执行单独的代码线程来完成。 因此,处理器可以让一个线程从应用程序运行,另一个线程从操作系统运行,或者可以让并行线程从单个应用程序内运行。

分布式处理,可以通过在计算机集群上执行由多个线程组成的进程来 完成,这些进程通常通过消息传递框架进行通信。

随着多处理器计算机和多核技术变得越来越普遍,使用并行处理技术 作为标准实践来提高性能非常重要。本章后面的部分将介绍 SYCL 中的编 码方法和性能调优技术,使我们能够在多核 CPU 上实现峰值性能。

与其他并行处理硬件(例如 GPU)一样,为 CPU 提供足够大的数据元素集进行处理非常重要。为了演示利用多级并行处理大量数据的重要性,请考虑一个简单的 C++ STREAM Triad 程序,如图 16-4 所示。

STREAM Triad 循环可以在使用单个 CPU 核心进行串行执行的 CPU 上简单地执行。优秀的 C++ 编译器将执行循环向量化,为具有利用指令级 SIMD 并行性的硬件的 CPU 生成 SIMD 代码。例如,对于支持 AVX-512 的 Intel Xeon 处理器,Intel C++ 编译器会生成如图 16-5 所示的 SIMD 代码。至关重要的是,编译器对代码的转换通过在每次循环迭代中执行更多工作(使用 SIMD 指令和循环展开)减少了循环迭代次数。

如果我们尝试在 CPU 上执行此函数,它可能会在较小的数组大小下运行良好,但效果并不好,因为它不利用 CPU 的任何多核或线程功能。然而,如果我们尝试在 CPU 上使用较大的数组大小执行此函数,它的性能可能会非常差,因为单个线程仅利用单个 CPU 核心,并且当该核心的内存带宽饱和时,就会出现瓶颈。

#### 16.4 利用线程级并行性

为了提高 STREAM Triad 内核的性能,我们可以通过将循环转换为 parallel\_for 内核来计算一系列可以并行处理的数据元素。

该 STREAM Triad SYCL 并行内核的主体与在 CPU 上以串行 C++ 执行的 STREAM Triad 循环的主体完全相同,如图 16-6 所示。

尽管并行内核与使用循环的串行 C++ 编写的 STREAM Triad 函数非常相似,但它的运行速度要快得多,因为 parallel for 允许在多个内核上并

行处理数组的不同元素。图 16-7 显示了如何将该内核映射到 CPU。假设我们的系统有一个套接字、四个核心,每个核心有两个硬件线程(总共八个线程),并且该实现在每个包含 32 个工作项的工作组中处理数据。如果我们有 1024 个双精度数据元素需要处理,我们将有 32 个工作组。工作组调度可以按循环顺序完成,即 thread-id = work-group-id mod 8。本质上,每个线程将执行四个工作组。每轮可以并行执行八个工作组。请注意,在这种情况下,工作组是由 SYCL 编译器和运行时隐式形成的一组工作项。

请注意,在 SYCL 程序中,未指定数据元素被分区并分配给不同处理器核心(或线程)的确切方式。这为 SYCL 实现提供了灵活性,可以选择如何最好地在特定 CPU 上执行并行内核。话虽如此,实现可以为程序员提供某种程度的控制,以实现性能调整(例如,通过编译器选项或环境变量)。

虽然 CPU 可能会施加相对昂贵的线程上下文切换和同步开销,但在处理器核心上驻留更多软件线程可能是有益的,因为它为每个处理器核心提供了要执行的工作的选择。如果一个软件线程正在等待另一线程产生数据,则处理器核心可以切换到准备运行的不同软件线程,而不会使处理器核心空闲。

#### 16.4.1 线程亲和力洞察

线程亲和性指定执行特定线程的 CPU 核心。如果线程在核心之间移动,性能可能会受到影响,例如,如果线程不在同一核心上执行,并且数据在不同核心之间来回移动,则缓存局部性可能会变得效率低下。

DPC++编译器的运行时库支持多种通过环境变量 DPCPP\_CPU\_CU\_AFFINITY、DPCPP\_CPU\_PLACES、DPCPP\_CPU\_NUM\_CUS 和 DPCPP\_CPU\_SCHEDULE 将线程绑定到内核的方案,这些方案不是由 SYCL 定义的。其他实现可能会公开类似的环境变量。

第一个是环境变量 DPCPP\_CPU\_CU\_AFFINITY。使用这些环境变量控件进行调整既简单又成本低,但会对许多应用程序产生巨大影响。该环境变量的说明如图 16-8 所示。

当指定环境变量 DPCPP\_CPU\_CU\_AFFINITY 时,软件线程通过以下公式绑定到硬件线程:

展开: boundHT = ( tid mod numHT ) + (tid mod numSocket) Œ numHT) 关闭: boundHT = tid mod (numSocket Œ numHT ) 在哪里

tid 表示软件线程标识符

boundHT 表示线程 tid 绑定到的硬件线程(逻辑核心)

numHT 表示每个套接字的硬件线程数

numSocket 表示系统中的套接字数量

假设我们在双核双插槽系统上运行一个具有八个线程的程序,换句话说,我们有四个核心,总共有八个线程要编程。图 16-9 显示了线程如何映射到不同 DPCPP\_CPU\_CU\_AFFINITY 设置的硬件线程和内核的示例。

与环境变量 DPCPP\_CPU\_CU\_AFFINITY 结合使用, 还有其他支持 CPU 性能调优的环境变量:

 $DPCPP\_CPU\_NUM\_CUS = [n]$ ,设置用于内核执行的线程数。它的默认值是系统中硬件线程的数量。

DPCPP\_CPU\_PLACES = [ 套接字 | numa\_domains | numa\_domains | 核心 | ],它指定将设置关联性的位置,类似于 OpenMP 5.1 中的 OMP\_PLACES。 默认设置是核心。

 $DPCPP\_CPU\_SCHEDULE = [$  动态 | 亲和力 | static ],指定调度工作组的算法。它的默认设置是动态的。

动态: 启用 auto\_partitioner,它通常会执行足够的分割以平衡工作线程之间的负载。

affinity: 启用 affinity\_partitioner,它可以提高缓存亲和力,并在将子范围映射到工作线程时使用比例分割。

static: 启用 static\_partitioner, 它尽可能均匀地在工作线程之间分配 迭代。

当使用 Intel 的 OpenCL CPU 运行时在 CPU 上运行时,工作组调度由线程构建块 (TBB) 库处理。使用 DPCPP\_CPU\_SCHEDULE 确定使用哪个 TBB 分区程序。请注意,TBB 分区程序还使用粒度大小来控制工作拆分,默认粒度大小为 1,这表示所有工作组都可以独立执行。更多信息请访问 tinyurl.com/oneTBBpart。

缺乏线程亲和性调整并不一定意味着性能较低。性能通常更多地取决于并行执行的线程总数,而不是线程和数据的关联和绑定程度。使用基准测试应用程序是确定线程关联是否对性能产生影响的一种方法。STREAM Triad 代码如图 16-1 所示,在没有线程关联设置的情况下,一开始性能较低。通过控制亲和力设置并通过环境变量使用软件线程的静态调度(Linux的导出如下所示),性能得到了提高:

导出 DPCPP\_CPU\_PLACES=numa\_domains 导出 DPCPP\_CPU\_CU\_AFFINITY= 关闭

通过使用 numa\_domains 作为亲和性的场所设置, TBB 任务区域绑定到 NUMA 节点或套接字,并且工作均匀分布在任务区域之间。一般来说,环境变量 DPCPP\_CPU\_PLACES 建议与 DPCPP\_CPU\_CU\_AFFINITY 一起使用。这些环境变量设置帮助我们在具有 2 个插槽、每个插槽 28 个内核、每个内核 2 个硬件线程、运行频率为 2.5 GHz 的 Intel Xeon 服务器系统上实现约 30% 的性能增益。不过,我们仍然可以做得更好,进一步提高这款 CPU 的性能。

#### 16.4.2 注意第一次接触内存

记忆存储在第一次接触(使用)的地方。由于我们示例中的初始化循环是由主机线程串行执行的,因此所有内存都与主机线程正在其上运行的套接字相关联。其他套接字的后续访问将从附加到初始套接字(用于初始化)的内存中访问数据,这对于性能来说显然是不受欢迎的。我们可以通过并行化初始化循环来控制跨套接字的首次触摸效果,从而在 STREAM Triad 内核上实现更高的性能,如图 16-10 所示。

在初始化代码中利用并行性可以提高内核在 CPU 上运行时的性能。在本例中,我们在 Intel Xeon 处理器系统上实现了约 2 倍的性能提升。

本章最近的部分表明,通过利用线程级并行性,我们可以有效地利用 CPU 内核和线程。然而,我们还需要利用 CPU 核心硬件中的 SIMD 矢量 级并行性来实现峰值性能。

## 16.5 CPU 上的 SIMD 矢量化

虽然编写良好且没有跨工作项依赖性的 SYCL 内核可以在 CPU 上有效地并行运行,但实现也可以将矢量化应用于 SYCL 内核,以利用类似于第 15 章中描述的 GPU 支持的 SIMD 硬件。本质上,CPU 处理器可以利用大多数数据元素通常位于连续内存中并通过数据并行内核采用相同控制流路径的事实,使用 SIMD 指令优化内存加载、存储和操作。例如,在具有语句 a[i] = a[i] + b[i] 的内核中,每个数据元素通过在多个数据元素之间共享硬件逻辑来执行相同的指令流加载、加载、添加和存储,并且将它们作为一个组执行,这可以自然地映射到硬件的 SIMD 指令集上。具体地,可以通过单个指令同时处理多个数据元素。

单个指令同时处理的数据元素的数量有时称为指令或执行该指令的处理器的向量长度(或 SIMD 宽度)。在图 16-11 中,我们的指令流以四路 SIMD 执行方式运行。

CPU 处理器并不是唯一实现 SIMD 指令集的处理器。GPU 等其他处理器实现 SIMD 指令以提高处理大量数据时的效率。与其他处理器类型相比, Intel Xeon CPU 处理器的一个关键区别在于具有三个固定大小的 SIMD 寄存器宽度(128 位 XMM、256 位 YMM 和 512 位 ZMM),而不是可变长度的 SIMD 宽度。当我们使用子组或向量类型编写具有 SIMD 并行性的 SYCL 代码时(请参阅第 11 章),我们需要注意硬件中 SIMD 宽度和 SIMD 向量寄存器的数量。

#### 16.5.1 确保 SIMD 执行合法性

从语义上讲, SYCL 执行模型确保 SIMD 执行可以应用于任何内核,并且每个工作组(即子组)中的一组工作项可以使用 SIMD 指令同时执行。某些实现可能会选择使用 SIMD 指令在内核中执行循环,但当且仅当保留所有原始数据依赖性,或者编译器基于私有化和归约语义解决数据依赖性时,这才是可能的。这种实现可能会报告子组大小为 1。

单个 SYCL 内核执行可以从处理单个工作项转换为使用工作组内的 SIMD 指令处理一组工作项。在 ND 范围模型下,编译器矢量化器会选择增长最快(单位步长)的维度来生成 SIMD 代码。本质上,要在给定 ND 范围的情况下启用矢量化,同一子组中的任何两个工作项之间不应存在跨工作项依赖关系,或者编译器需要在同一子组中保留跨工作项前向依赖关系。子组。

当工作项的内核执行映射到 CPU 上的线程时,细粒度同步的成本很高,而且线程上下文切换开销也很高。因此,在为 CPU 编写 SYCL 内核时,消除工作组内工作项之间的依赖性是一项重要的性能优化。另一种有效的方法是将这种依赖性限制在子组内的工作项,如图 16-12 中的先读后写依赖性所示。如果子组在 SIMD 执行模型下执行,则内核中的子组屏障可以被编译器视为 noop,并且在运行时不会产生真正的同步成本。

内核被向量化(以向量长度为 8 为例), 其 SIMD 执行如图 16-13 所示。工作组的组大小为 (1, 8), 内核内部的循环迭代分布在这些子组工作项上, 并以八路 SIMD 并行方式执行。

在此示例中, 如果内核中的循环主导性能, 则允许跨子组进行 SIMD 矢

量化将带来显着的性能改进。

使用并行处理数据元素的 SIMD 指令是让内核性能超越 CPU 核心和硬件线程数量的一种方法。

#### 16.5.2 SIMD 掩蔽和成本

在实际应用中,我们可以期待条件语句,例如 if 语句,条件表达式,例如 a=b>a? a: b、具有可变迭代次数的循环、switch 语句等。任何有条件的事情都可能导致标量控制流不执行相同的代码路径,就像在 GPU 上一样(第 15 章)可能会导致性能下降。SIMD 掩码是一组值为 1 或 0 的位,由内核中的条件语句生成。考虑一个示例,其中 A=1,2,3,4,B=3,7,8,1以及比较表达式 a<bbr/>b。比较返回一个具有四个值 1,1,1,0 的掩码,这些值可以存储在硬件掩码寄存器中,以指示后续 SIMD 指令的哪些通道应执行由比较保护(启用)的代码。

如果内核包含条件代码,则会使用基于与每个数据元素 (SIMD 指令中的通道)关联的掩码位执行的掩码指令对其进行矢量化。每个数据元素的掩码位是掩码寄存器中的相应位。

使用屏蔽可能会导致性能低于相应的非屏蔽代码。这可能是由于 每个负载上的附加蒙版混合操作

对目的地的依赖

屏蔽是有成本的,因此仅在必要时使用。当内核是 ND 范围内核且在执行范围内具有显式工作项分组时,在选择 ND 范围工作组大小时应小心,以通过最小化屏蔽成本来最大化 SIMD 效率。当工作组大小不能被处理器的 SIMD 宽度整除时,部分工作组可能会在内核屏蔽的情况下执行。

图 16-14 显示了使用合并屏蔽如何创建对目标寄存器的依赖:

在没有屏蔽的情况下,处理器每个周期执行两次乘法 (vmulps)。

通过合并掩码,处理器每四个周期执行两次乘法,因为乘法指令 (vmulps) 将结果保存在目标寄存器中,如图 16-17 所示。

零掩码不依赖于目标寄存器,因此每个周期可以执行两次乘法 (vmulps)。 访问缓存对齐的数据比访问未对齐的数据具有更好的性能。在许多情况下,地址在编译时未知,或者已知但未对齐。当使用循环时,可以实现存储器访问的剥离,以使用掩码访问处理前几个元素,直到第一个对齐地址,然后通过多版本技术处理未掩码访问,然后处理掩码剩余部分。此方法增加了代码大小,但总体上改进了数据处理。当使用并行内核时,我们作为程序

员可以通过手动采用类似的技术或通过确保分配适当对齐来提高性能。

#### 16.5.3 避免结构数组以提高 SIMD 效率

AOS (结构数组) 结构会导致聚集和分散,这既会影响 SIMD 效率,也会为内存访问带来额外的带宽和延迟。硬件收集-分散机制的存在并不能消除这种转换的需要——收集-分散访问通常需要比连续负载高得多的带宽和延迟。给定 struct float x; 的 AOS 数据布局; 浮动 y; 浮点 z; float w; a[4],考虑一个对其进行操作的内核,如图 16-15 所示。

当编译器沿着一组工作项对内核进行矢量化时,由于需要非单位跨度内存访问,它会导致 SIMD 收集指令生成。例如,a[0].x、a[1].x、a[2].x 和 a[3].x 的步长是 4,而不是更有效的单位步长 1。

在内核中,我们通常可以通过消除内存聚集-分散操作来实现更高的 SIMD 效率。某些代码受益于数据布局更改,该更改将以结构数组 (AOS) 表示形式编写的数据结构转换为数组结构 (SOA) 表示形式,即为每个结构 字段使用单独的数组以保留内存访问执行 SIMD 矢量化时是连续的。例如,考虑 struct float x[4]; 的 SOA 数据布局; 浮动 y[4]; 浮动 z[4]; 浮动 w[4]; a; 如图所示:

内核可以使用单位步长(连续)向量加载和存储来操作数据,如图 16-16 所示,即使是向量化时也是如此!

SOA 数据布局有助于防止跨数组元素访问结构的一个字段时发生聚集,并帮助编译器在与工作项关联的连续数组元素上对内核进行矢量化。请注意,考虑到使用这些数据结构的所有位置,此类 AOS 到 SOA 或 AOSOA 数据布局转换预计将在程序级别(由我们)完成。仅在循环级别执行此操作将涉及循环之前和之后格式之间的昂贵转换。然而,我们也可能依赖编译器对 AOS 数据布局执行向量加载和洗牌优化,但需要付出一些代价。当 SOA(或 AOS)数据布局的成员具有向量类型时,编译器向量化可以根据底层硬件进行水平扩展或垂直扩展以生成最优代码。

#### 16.5.4 数据类型对 SIMD 效率的影响

当 C++ 程序员知道数据适合 32 位有符号类型时,他们通常会使用整数数据类型,这通常会导致如下代码

 $int id = get\_global\_id(0); a[id] = b[id] + c[id];$ 

但是,鉴于 get\_global\_id(0) 的返回类型是 size\_t (无符号整数,通常是 64 位),转换可能会减少编译器可以合法执行的优化。当编译器对内核中的代码进行矢量化时,这可能会导致 SIMD 收集/分散指令,例如:

读取 [get\_global\_id(0)] 可能会导致 SIMD 单位步长向量加载。 读取 [(int)get\_global\_id(0)] 可能会导致非单位步长收集指令。

这种微妙的情况是由从 size\_t 到 int (或 uint)的数据类型转换的环绕行为(C++ 标准中未指定的行为和/或明确定义的环绕行为)引入的,这主要是基于 C 的演变的历史产物。语言。具体来说,某些转换的溢出是未定义的行为,这允许编译器假设此类情况永远不会发生并更积极地进行优化。图 16-17 为那些想要了解细节的人展示了一些示例。

SIMD 聚集/分散指令比 SIMD 单位步长向量加载/存储操作慢。为了实现最佳的 SIMD 效率,无论使用哪种编程语言,避免聚集/分散对于应用程序都是至关重要的。

大多数 SYCL get\_\*\_id() 系列函数具有相同的细节,尽管许多情况适合 MAX\_INT,因为可能的返回值是有限的(例如,工作组内的最大 id)。因此,只要合法,SYCL 编译器就可以假定跨相邻工作项块的单位步长内存地址,以避免聚集/分散。如果由于全局 ID 的值和/或全局 ID 的导数值可能溢出而导致编译器无法安全地生成线性单位步长向量内存加载/存储,则编译器将生成聚集/分散。

在为用户提供最佳性能的理念下,DPC++编译器假设没有溢出,并且在实践中几乎所有时间都捕捉到了现实,因此编译器可以生成最佳的 SIMD 代码以实现良好的性能。然而,DPC++编译器为我们提供了一个编译器选项-fnosycl-id-queries-fit-in-int,告诉编译器将会出现溢出,并且从 id 查询派生的向量化访问可能不安全。这可能会对性能产生很大的影响,并且应该在不安全的情况下使用,以假设没有溢出。关键要点是程序员应确保全局 ID 的值适合 32 位 int。否则,应使用编译器选项 -fno-sycl-idqueries-fit-in-int来保证程序的正确性,这可能会导致性能降低。

#### 16.5.5 使用 single\_task 执行 SIMD

在单任务执行模型下,没有要矢量化的工作项。与向量类型和函数相关的优化是可能的,但这取决于编译器。编译器和运行时可以自由地启用显式 SIMD 执行或在 single\_task 内核中选择标量执行,结果将取决于编译器的实现。

当编译到 CPU 时,C++编译器可能会将 single\_task 内部出现的向量类型映射到 SIMD 指令。vec load、store 和 swizzle 函数直接对向量变量执行操作,通知编译器数据元素正在从内存中的同一(统一)位置开始访问连续数据,并使我们能够请求连续数据的优化加载/存储。正如第 11 章中所讨论的,这种对 vec 的解释是有效的,但是,我们应该预期该功能最终会被弃用,而支持更明确的向量类型(例如,std::simd)。

在图 16-18 所示的示例中,在单任务执行下,声明了一个具有三个数据元素的向量。使用 old\_v.abgr() 执行 swizzle 操作。如果 CPU 为某些 swizzle 操作提供 SIMD 硬件指令,我们可以通过在应用程序中使用 swizzle 操作来实现一些性能优势。

### 16.6 概括

为了充分利用 CPU 上的线程级并行性和 SIMD 矢量级并行性, 我们需要牢记以下目标:

熟悉所有类型的 SYCL 并行性以及我们希望针对的底层 CPU 架构。

在最匹配硬件资源的线程级别利用适量的并行性(不多也不少)。使用 分析器和分析器等供应商工具来帮助指导我们的调优工作以实现这一目标。

注意线程亲和性和内存首次接触对程序性能的影响。

通过数据布局、对齐方式和数据宽度来设计数据结构,以便最常执行的计算能够以 SIMD 友好的方式访问内存,并具有最大的 SIMD 并行性。

注意平衡屏蔽与代码分支的成本。

使用清晰的编程风格,最大限度地减少潜在的内存别名和副作用。

请注意使用向量类型和接口的可扩展性限制。如果编译器实现将它们映射到硬件 SIMD 指令,则固定向量大小可能无法在多代 CPU 和来自不同供应商的 CPU 中很好地匹配 SIMD 寄存器的 SIMD 宽度。

17 FPGA 编程 192

## 17 FPGA 编程

基于内核的编程最初作为一种访问 GPU 的方式而流行。由于它现已推 广到多种类型的加速器,因此了解我们的编程风格如何影响代码到 FPGA 的映射也很重要。

大多数软件开发人员都不熟悉现场可编程门阵列 (FPGA),部分原因是大多数台式计算机除了典型的 CPU 和 GPU 之外不包含 FPGA。但 FPGA 值得了解,因为它们在许多应用中具有优势。我们需要问与其他加速器相同的问题,例如"我什么时候应该使用 FPGA?"、"我的应用程序的哪些部分应该卸载到 FPGA?"以及"如何编写性能良好的代码"在 FPGA 上?"

本章为我们提供了开始回答这些问题的知识,至少让我们能够确定 FPGA 是否适合我们的应用,并了解通常使用哪些结构来实现性能。本章是我们可以阅读供应商文档以填写特定产品和工具链的详细信息的起点。我们首先概述程序如何映射到 FPGA 等空间架构,然后讨论使 FPGA 成为加速器的良好选择的一些属性,最后介绍用于实现性能的编程结构。

本章中的"如何思考 FPGA"部分适用于思考任何 FPGA。SYCL 允许供应商指定 CPU 和 GPU 之外的设备,但没有具体说明如何支持 FPGA。本章中描述的 FPGA 特定供应商支持目前是 DPC++ 独有的,即 FPGA选择器和管道。FPGA选择器和管道是本章中使用的唯一 DPC++ 扩展。希望供应商能够采用类似或兼容的方式来支持 FPGA,DPC++ 作为开源项目也鼓励这样做。

### 17.1 性能注意事项

与任何处理器或加速器一样,FPGA器件因供应商不同、甚至不同代产品也不同;因此,一种设备的最佳实践可能并不适用于其他设备的最佳实践。本章中的建议可能会使许多FPGA设备受益,无论是现在还是将来,但是……

17 FPGA 编程 193

- 17.2 如何看待 FPGA
- 17.2.1 管道并行性
- 17.2.2 内核消耗芯片"区域"
- 17.3 何时使用 FPGA
- 17.3.1 很多很多的工作
- 17.3.2 自定义操作或操作宽度
- 17.3.3 标量数据流
- 17.3.4 低延迟和丰富的连接性
- 17.3.5 定制内存系统
- 17.4 在 FPGA 上运行
- 17.4.1 编译时间
- 17.4.2 FPGA 仿真器
- 17.4.3 FPGA 硬件编译"提前"进行
- 17.5 为 FPGA 编写内核
- 17.5.1 暴露并行性
- 17.5.2 使用 ND 范围保持管道繁忙
- 17.5.3 管道不介意数据依赖性!
- 17.5.4 循环的空间管道实现
- 17.5.5 循环启动间隔
- 17.5.6 管道
- 17.5.7 定制内存系统
- 17.6 一些结束语
- 17.6.1 FPGA 构建模块
- 17.6.2 时钟频率

#### 17.7 概括

在本章中,我们介绍了编译器如何将算法映射到 FPGA 的空间架构。 我们还介绍了一些概念,这些概念可以帮助我们确定 FPGA 是否对我们的 17 FPGA 编程 194

应用有用,并且可以帮助我们更快地启动和运行代码开发。从这个起点开始,我们应该能够很好地浏览供应商编程和优化手册并开始编写 FPGA 代码! FPGA 提供的性能并支持无法很好地映射到其他加速器的应用程序,因此我们应该将它们放在我们心理工具箱的前面!

## 18 库

我们用整本书来宣传编写我们自己的代码的艺术。现在我们终于承认一些伟大的程序员已经编写了我们可以使用的代码。图书馆是完成我们工作的最佳方式。这并不是因为懒惰,而是因为有更好的事情要做,而不是重新发明别人的工作。

本章涵盖三组不同的库功能:

- 1. SYCL 规范定义的内置函数
- 2.C++ 标准库
- 3. C++17 并行算法, 由 oneAPI DPC++ 库 (oneDPL) 支持

SYCL 定义了一组丰富的内置函数,提供主机和设备代码共享的通用函数。所有 SYCL 实现都支持这些函数,因此我们可以依赖所有 SYCL 设备上可用的关键数学库。

不保证所有 SYCL 实现在设备代码中都支持 C++ 标准库。然而, DPC++ 编译器(和其他编译器)支持将此作为 SYCL 的扩展, 因此我们在这里简要讨论该扩展的局限性。

最后, oneAPI DPC++ 库 (oneDPL) 提供了一组基于 C++17 算法的算法,并在 SYCL 中实现,为 SYCL 程序员提供高生产力的解决方案。这可以最大限度地减少跨 CPU、GPU 和 FPGA 的编程工作。尽管 oneDPL不是 SYCL 2020 的一部分,但由于它是在 SYCL 之上实现的,因此它应该与任何 SYCL 2020 编译器兼容。

### 18.1 内置功能

SYCL 提供了一组丰富的内置函数,支持各种数据类型。这些内置函数 在主机和设备上的 sycl 命名空间中可用,可分为以下几类:

浮点数学函数: asin、acos、log、sqrt、floor等。

整数函数: abs、max、min 等。

常用功能: clamp、smoothstep等。

几何函数:十字、点、距离等。

关系函数: isequal、isless、isfinite 等。

有关此广泛功能集合的文档可以在 SYCL 2020 规范中找到,在线文档位于 registry.khronos.org/SYCL/specs/sycl-2020/html/sycl-2020.html 的第 4.17.5 至 4.17 节中。.9.

一些编译器可能提供选项来控制这些函数的精度。例如, DPC++ 编译器提供了多个此类选项, 包括-mfma、-ffast-math 和-ffp-contract=fast。检查 SYCL 实现的文档以了解类似选项(及其默认值)的可用性非常重要。

一些 SYCL 内置函数在 C++ 标准库中具有等效函数(例如 sycl::log 和 std::log)。SYCL 实现不需要支持在设备代码中调用 C++ 标准库函数,但某些实现(例如 DPC++)可以。

图 18-1 演示了 C++ std::log 函数和 SYCL 内置 sycl::log 函数在设备 代码中的用法。使用 DPC++ 编译器实现,两个函数产生相同的数值结果。 在示例中, 内置关系函数 sycl::isequal 用于比较 std::log 和 sycl::log 的结果。

请注意, SYCL 2020 规范并不要求 SYCL 数学函数实现必须针对给定硬件目标生成与其对应的 C 和 C++ 标准数学函数完全相同的数值结果。该规范允许在实现中进行某些变化,以考虑不同硬件平台的特性和限制。因此, SYCL 实现在实践中可能会产生匹配结果,如图 18-1 中的代码示例所示。

## 18.1.1 使用带有内置函数的 sycl:: 前缀

我们强烈建议调用 SYCL 内置函数,并在名称前添加显式 sycl::。仅调用 sqrt()并不能保证调用所有实现上内置的 SYCL,即使"使用命名空间 sycl;"已经用过。

在编写可移植代码时,我们建议避免使用命名空间 sycl;完全赞成显式使用 std::和 sycl::命名空间。通过明确,我们消除了在某些 SYCL 实现中遇到无法解决的冲突的可能性。这也可能使代码将来更容易调试(例如,如果实现为 std::和 sycl::命名空间中的数学函数提供不同的精度保证)。

#### 18.2 C++ 标准库

如前所述, SYCL 规范不保证设备代码支持 C++ 标准库中的函数。然而,有几个编译器确实支持这些函数: 这简化了现有 C++ 代码到 SYCL 设备的卸载,并使编写使用 SYCL 作为实现细节的库变得更容易(例如,将函数传递到库中的用户可以编写该功能无需使用任何 SYCL 特定功能)。

DPC++ 编译器与一组经过测试的 C++ 标准 API 兼容——我们只需包含相应的 C++ 头文件并使用 std 命名空间即可。所有这些 API 都可以在设备内核中使用,就像在典型的 C++ 主机应用程序中使用一样。图 18-2显示了如何在设备代码中使用 std::swap 的示例。

图 18-3 列出了带有"Y"的 C++ 标准 API,表示在撰写本文时,这些API 已在 CPU、GPU 和 FPGA 设备的 SYCL 内核中进行了测试。空白表示本书出版时覆盖不完整(并非所有三种设备类型)。

经测试的标准 C++ API 在带有 gcc 7.5.0+ 的 libstdc++ (GNU) 和带有 clang 11.0+ 的 libc++ (LLVM) 以及带有用于主机 CPU 的 Microsoft Visual Studio 2019+ 的 MSVC 标准 C++ 库中受支持。

在 Linux 上, GNU libstdc++ 是 DPC++ 编译器的默认 C++ 标准库, 因此不需要编译或链接选项。

如果我们想使用 libc++,请使用编译选项 -stdlib=libc++ -nostdinc++来利用 libc++ 并且不包含系统中的 C++ std 标头。DPC++ 编译器已在 Linux 上的 SYCL 内核中使用 libc++ 进行了验证,但运行时需要使用 libc++ 而不是 libstdc++ 重新构建。详细信息请参见 https://intel.github.io/llvm-docs/GetStartedGuide.html#build-dpc-toolchain-with-libc-library。由于这些额外的步骤,如果没有特定的原因,libc++ 并不是推荐我们一般使用的 C++ 标准库。

## 18.3 oneAPI DPC++ 库 (oneDPL)

C++17 引入了 C++ 标准库中定义的算法的并行版本。与串行算法不同,每个并行算法都接受执行策略作为其第一个参数 - 该执行策略表示算法如何执行。

宽松地说,执行策略与实现进行通信,以确定它是否可以使用线程、SIMD 指令或两者来并行化算法。我们可以传递 seq、unseq、par 或 par\_unseq之一作为执行策略,其含义如图 18-4 所示。

oneDPL 扩展了标准执行策略以提供对 SYCL 设备的支持。这些 SYCL 感知执行策略不仅指定算法应如何执行,还指定算法应在何处执行。SYCLaware 策略继承了标准 C++ 执行策略,封装了 SYCL 设备或队列,并允许我们设置可选的内核名称。SYCLaware 执行策略可与所有支持符合 C++17 标准的执行策略的标准 C++ 算法一起使用。

oneDPL 不依赖于任何单个 SYCL 编译器,它旨在支持所有 SYCL 编译器。

在我们可以使用 oneDPL 及其 SYCL 感知执行策略之前,我们需要添加一些额外的头文件。我们包含哪些标头取决于我们打算使用的算法,一些常见的示例包括:

#include <oneapi/dpl/algorithm> #include <oneapi/dpl/numeric> #include <oneapi/dpl/内存 >

#### 18.3.1 SYCL 执行政策

目前,只有具有并行未排序策略 (par\_unseq) 的算法才能安全卸载到 SYCL 设备。这种限制源于 SYCL 中工作项提供的向前进度保证,这与其他执行策略(例如 par)的要求不兼容。

使用 SYCL 执行策略分为三个步骤:

- 1. 将 #include <oneapi/dpl/execution> 添加到我们的代码中。
- 2. 通过提供标准策略类型、作为模板参数(可选)的唯一内核名称的类 类型以及以下构造函数参数之一来创建策略对象:

SYCL 队列 SYCL 设备 SYCL 设备选择器具有不同内核名称的现有策略对象

3. 将创建的策略对象传递给算法。

oneapi::dpl::execution::dpcpp\_default 对象是使用默认内核名称和默认队列创建的预定义 device\_policy。这可用于创建自定义策略对象,或者在调用算法时直接传递(如果默认选择足够)。

图 18-5 显示了假设使用 using 命名空间 oneapi::dpl::execution 的示例; 引用策略类和函数时的指令。

#### 18.3.2 将 oneDPL 与缓冲区结合使用

C++ 标准库中的算法都是基于迭代器的。为了支持将 SYCL 缓冲区传递到这些算法中,oneDPL 定义了两个特殊的辅助函数: oneapi::dpl::begin和 oneapi::dpl::end。

这些函数接受 SYCL 缓冲区并返回满足以下要求的未指定类型的对象: 可复制构造、可复制分配,并可与运算符 == 和!= 进行比较。

以下表达式有效: a+n、a-n 和 a-b,其中 a 和 b 是该类型的对象,n 是整数值。

具有不带参数的 get buffer 方法。

该方法返回传递给 oneapi::dpl::begin 和 oneapi::dpl::end 函数的 SYCL 缓冲区。

请注意,使用这些辅助函数需要我们将#include <oneapi/dpl/iterator>添加到我们的代码中。默认情况下不包含此功能,因为使用 USM 时不需要这些迭代器(我们将很快重新讨论)。

图 18-6 中的代码显示了如何将 std::fill 函数与开始/结束帮助程序结合使用来填充 SYCL 缓冲区。请注意,算法位于 std:: 命名空间中,只有执行策略位于非标准命名空间中——这不是拼写错误! C++ 标准库明确允许实现定义自己的执行策略来支持这样的编码模式。

图 18-7 中的代码显示了该代码的更简单版本,使用默认策略和普通(主机端) 迭代器。在这种情况下,会创建一个临时 SYCL 缓冲区,并将数据复制到该缓冲区。设备上的临时缓冲区处理完成后,数据将复制回主机。建议直接使用现有的 SYCL 缓冲区(如果可能),以减少主机和设备之间的数据移动以及缓冲区创建和销毁的任何不必要的开销。

图 18-8 显示了一个示例,该示例对输入序列执行二分搜索,以查找所提供的搜索序列中的每个值。作为搜索序列的第 i 个元素的搜索结果,指示是否在输入序列中找到搜索值的布尔值被分配给结果序列的第 i 个元素。该算法返回一个迭代器,该迭代器指向分配了结果的结果序列的最后一个元素。该算法假设输入序列已由提供的比较器排序。如果未提供比较器,则将使用使用运算符 < 来比较元素的函数对象。

前面描述的复杂性强调我们应该尽可能利用库函数,而不是编写我们自己的类似算法的实现,这可能需要大量的调试和调整时间。我们可以利用的库的作者通常是我们所针对的设备架构内部的专家,并且可能有权访问我们无法访问的信息,因此我们应该始终在可用时利用优化的库。

图 18-8 中所示的代码示例演示了将 oneDPL 与 SYCL 缓冲区结合使用时的三个典型步骤:

- 1. 从我们的缓冲区创建 SYCL 迭代器。
- 2. 根据现有策略创建命名策略。
- 3. 调用并行算法。

#### 18.3.3 将 oneDPL 与 USM 结合使用

在本节中,我们将探讨将 oneDPL 与 USM 结合使用的两种方法:

通过 USM 指针

通过 USM 分配器

与缓冲区不同,我们可以直接使用 USM 指针作为传递给算法的迭代

器。具体来说,我们可以将指向分配开始和(过去)结束的指针传递给并行算法。重要的是要确保执行策略和分配本身是为同一队列或上下文创建的,以避免运行时未定义的行为。(请记住,这不是特定于 oneDPL 的,我们在使用 USM 时必须始终密切注意上下文!)

如果相同的 USM 分配要由多个算法处理,我们可以使用有序队列或显式等待每个算法完成,然后再在下一个算法中使用相同的分配(这是使用 USM 时的典型操作排序)。我们还应该小心确保在访问主机上的数据之前等待完成,如图 18-9 所示。

或者,我们可以将 std::vector 与 USM 分配器一起使用,如图 18-10 所示。通过这种方法,std::vector 管理自己的内存(正常情况下),但通过对sycl::malloc\_shared 的内部调用来分配它需要的任何内存。然后,begin()和 end()成员函数返回逐步执行 USM 分配的迭代器。这种编程风格非常方便,尤其是在迁移已经使用容器和算法的现有 C++ 代码时。

#### 18.3.4 使用 SYCL 执行策略进行错误处理

正如第 5 章所详述的, SYCL 错误处理模型支持两种类型的错误。对于同步错误, 运行时会引发异常, 而异步错误仅在程序执行期间的指定时间由异步错误处理程序处理。

对于使用 SYCL 感知执行策略执行的算法, 所有错误(同步或异步)的 处理是调用者的责任。具体来说,

算法不会显式抛出异常。

主机 CPU 上的运行时抛出的异常(包括 SYCL 同步异常)将传递给调用者。

SYCL 异步错误不由 oneDPL 处理, 因此调用者必须使用通常的 SYCL 异步异常机制来处理(如果需要任何处理)。

#### 18.4 概括

我们应该在异构应用程序中尽可能使用库,以避免浪费时间重写和测试通用函数和并行模式。我们应该利用他人的工作,而不是自己编写所有内容,并且我们应该在可行的情况下使用这种方法来简化应用程序开发并(通常)实现卓越的性能。

本章简要介绍了我们认为每个 SYCL 开发人员都应该熟悉的三组库功能:

- 1. SYCL 内置函数,用于常见的数学运算
- 2. 标准 C++ 库, 用于其他常用操作
- 3. C++17 并行算法(由 oneDPL 支持),用于完整内核

对于任何库,在生产中依赖它们之前,了解哪些设备、编译器和实现经过测试和支持非常重要。这不是 SYCL 特定的建议,但值得记住 - 像 SYCL 这样的可移植编程解决方案的潜在目标数量巨大,作为程序员,我们有责任确定哪些库与我们的目标一致。

# 19 内存模型和原子

如果我们想成为并行程序员,内存一致性并不是一个深奥的概念。它帮助我们确保数据在我们需要的时候出现在我们需要的地方,并且它的值是我们所期望的。本章揭示了我们需要掌握的关键知识,以确保我们的程序正确运行。这个主题并不是 SYCL 独有的。

对于任何想要允许并发更新内存的程序员来说,对编程语言的内存(一致性)模型有基本的了解是必要的(无论这些更新是否来自同一内核、多个设备或两者中的多个工作项)。无论内存如何分配都是如此,无论我们选择使用缓冲区还是 USM 分配,本章的内容对我们来说都同样重要。

在前面的章节中,我们重点关注简单内核的开发,其中工作项要么对完全独立的数据进行操作,要么使用可以使用语言和/或库功能直接表达的结构化通信模式共享数据。当我们转向编写更复杂和更现实的内核时,我们可能会遇到工作项可能需要以不太结构化的方式进行通信的情况 - 了解内存模型如何与 SYCL 语言功能以及我们目标硬件的功能相关。设计正确、可移植、高效的程序的必要前提。

C++ 的内存一致性模型足以编写完全在主机上执行的应用程序,但它被 SYCL 修改,以解决编程异构系统时可能出现的复杂性。具体来说,我们需要能够

系统中哪些设备可以访问哪些类型的内存分配(缓冲区和 USM)的原因

通过使用屏障和原子来防止内核执行期间不安全的并发内存访问(数据竞争)

使用屏障、栅栏、原子、内存顺序和内存范围实现工作项之间的安全 通信

使用屏障、栅栏、原子、内存顺序和内存范围,防止可能意外改变并 行应用程序行为的优化,同时仍允许其他优化

内存模型是一个复杂的主题,但有一个很好的理由——处理器架构师 关心的是让处理器和加速器尽可能高效地执行我们的代码! 我们在本章中 努力分解这种复杂性并突出最关键的概念和语言特征。本章使我们不仅了 解内存模型的内部和外部,而且还了解并行编程的一个重要方面,而许多人 不知道它的存在。如果阅读此处的描述和示例代码后仍有问题,我们强烈建 议访问本章末尾列出的网站或参考 C++ 和 SYCL 规范。

## 19.1 内存模型中有什么?

本节扩展了编程语言包含内存模型的动机,并介绍了并行程序员应该 熟悉的一些核心概念:

数据竞争和同步

障碍物和栅栏

原子操作

内存排序

为了理解它们在 C++ 和 SYCL 中的表达和用法,需要从高层次上理解这些概念。在并行编程(尤其是使用 C++)方面具有丰富经验的读者可能希望跳过。

- 19.1.1 数据竞争和同步
- 19.1.2 障碍和栅栏
- 19.1.3 原子操作
- 19.1.4 内存排序
- 19.2 内存模型
- 19.2.1 memory\_order 枚举类
- 19.2.2 memory\_scope 枚举类
- 19.2.3 查询设备能力
- 19.2.4 障碍和栅栏
- 19.2.5 SYCL 中的原子操作
- 19.2.6 将原子与缓冲区一起使用
- 19.2.7 将原子与统一共享内存结合使用
- 19.3 在现实生活中使用原子
- 19.3.1 计算直方图
- 19.3.2 实现设备范围的同步
- 19.4 概括
- 19.4.1 了解更多信息