# 南 阁 大 學 期末报告



学院 计算机学院 专业 计算机科学与技术 南开大学 程伟卿 学号 2311865

# 目录

| 1 | 项目仓库位置 |                                                       |    |  |  |  |  |
|---|--------|-------------------------------------------------------|----|--|--|--|--|
| 2 | 论文     | 概览                                                    | 3  |  |  |  |  |
| 3 | 配置信息   |                                                       |    |  |  |  |  |
|   | 3.1    | SIMD、Pthread/OpenMP、MPI 实验环境                          | 4  |  |  |  |  |
|   |        | 3.1.1 X86 平台                                          | 4  |  |  |  |  |
|   |        | 3.1.2 ARM 平台                                          | 4  |  |  |  |  |
|   | 3.2    | GPU 实验环境                                              | 5  |  |  |  |  |
| 4 | 本学     | 期实验内容总结                                               | 5  |  |  |  |  |
|   | 4.1    | SIMD                                                  | 5  |  |  |  |  |
|   | 4.2    | $pthread\&omp \ . \ . \ . \ . \ . \ . \ . \ . \ . \ $ | 6  |  |  |  |  |
|   |        | 4.2.1 并行模型对比                                          | 6  |  |  |  |  |
|   |        | 4.2.2 性能表现分析                                          | 6  |  |  |  |  |
|   |        | 4.2.3 调度策略适应性                                         | 7  |  |  |  |  |
|   | 4.3    | MPI                                                   | 7  |  |  |  |  |
|   |        | 4.3.1 通信模型比较                                          | 7  |  |  |  |  |
|   |        | 4.3.2 任务划分策略                                          | 7  |  |  |  |  |
|   |        | 4.3.3 混合并行策略分析                                        | 7  |  |  |  |  |
|   |        | 4.3.4 性能表现总结                                          | 8  |  |  |  |  |
|   |        | 4.3.5 实验经验与启示                                         | 8  |  |  |  |  |
|   | 4.4    | GPU                                                   | 8  |  |  |  |  |
| 5 | 新增     | 融合研究                                                  | 9  |  |  |  |  |
|   | 5.1    | 融合性算法设计比较                                             | 9  |  |  |  |  |
|   |        | 5.1.1 算法共性                                            | 9  |  |  |  |  |
|   |        | 5.1.2 架构差异分析                                          | 10 |  |  |  |  |
|   |        | 5.1.3 设计要点总结                                          | 10 |  |  |  |  |
|   | 5.2    | 跨平台性能比较实验                                             | 11 |  |  |  |  |
|   | 5.3    | 融合设计与跨平台统一接口构想                                        | 13 |  |  |  |  |
| 6 | 总结     | 与评估                                                   | 14 |  |  |  |  |

# 1 项目仓库位置

完整代码见 github 仓库(点击跳转)

# 2 论文概览

本研究围绕普通高斯消去算法在多种并行计算架构上的实现与优化展开,涵盖 SIMD、Pthread/OpenMP(多核)、MPI(分布式集群)及 CUDA(GPU)四种平台。通过统一的算法视角,深入分析各架构在并行粒度、同步机制和通信开销等方面的异同,探索适用于不同规模矩阵的最优并行方案。在整合课程平时作业成果的基础上,新增了向量化优化、线程调度策略改进、非阻塞通信设计与 GPU 内存访问模式分析等内容,新增工作占比超过 20%。实验部分通过在多平台对比性能指标,验证各方案的加速效果与适用性。本报告不仅实现了对高斯消去并行化策略的系统化整理,也为后续在异构系统中的协同计算提供了实践参考。

# 3 配置信息

# 3.1 SIMD、Pthread/OpenMP、MPI 实验环境

# 3.1.1 X86 平台

表 1: X86 平台 CPU 配置信息

| 属性                            | A CPU 配置信息 <b>数值</b>                  |  |  |
|-------------------------------|---------------------------------------|--|--|
| CpuStatus                     | 1                                     |  |  |
| LoadPercentage                | 17                                    |  |  |
| AddressWidth                  | 64                                    |  |  |
| DataWidth                     | 64                                    |  |  |
| L2CacheSize                   | 32768 KB                              |  |  |
| MaxClockSpeed                 | 2200 MHz                              |  |  |
| ProcessorType                 | 3                                     |  |  |
| Architecture                  | 9                                     |  |  |
| Characteristics               | 252                                   |  |  |
| CurrentClockSpeed             | 2200 MHz                              |  |  |
| Description                   | Intel64 Family 6 Model 183 Stepping 1 |  |  |
| Family                        | 207                                   |  |  |
| L3CacheSize                   | 36864 KB                              |  |  |
| Level                         | 6                                     |  |  |
| Name                          | 13th Gen Intel(R) Core(TM) i9-13900HX |  |  |
| NumberOfEnabledCore           | 24                                    |  |  |
| NumberOfLogicalProcessors     | 32                                    |  |  |
| ThreadCount                   | 32                                    |  |  |
| UpgradeMethod                 | 64                                    |  |  |
| VirtualizationFirmwareEnabled | False                                 |  |  |
| VMMonitorModeExtensions       | False                                 |  |  |

# 3.1.2 ARM 平台

ARM 平台使用课程提供的 OpenEuler 服务器,操作系统基于国产 Linux 发行版 OpenEuler,使用的编译器为 gcc,版本为 10.3.1。

# 3.2 GPU 实验环境

GPU 实验在北京超算平台上进行,使用的 GPU 型号为 **NVIDIA T4**, 搭载显存为 16GB,支持 CUDA Compute Capability 7.5。所用系统镜像为 GT-Ubuntu22.04-CMD-V3.0,CUDA 工具链已预安装,支持完整 CUDA 和 cuBLAS 编程环境。

# 4 本学期实验内容总结

## 4.1 SIMD

本实验在 ARM (NEON) 与 X86 (SSE/AVX/AVX512) 两大平台上对普通高斯消去算法进行了 SIMD 并行化实现与性能评估。我们首先基于串行版本重构算法,使其适配向量化操作的编程模式,然后分别针对不同平台的 SIMD 指令集进行优化。核心实现涉及向量加减、融合乘加、数据对齐等关键技术。

在 ARM 平台, 我们使用 NEON intrinsic 指令进行实现, 并通过调整 对齐方式、启用/关闭融合乘加等方式对性能进行调优。在 X86 平台, 我们分别实现了基于 SSE、AVX2 与 AVX512 的 SIMD 加速版本, 采用 \_\_m128、\_\_m256 和 \_\_m512 等向量数据类型处理单精度浮点矩阵的行间消去。

实验结果表明,当输入矩阵规模较小时,SIMD 加速效果不显著,甚至在部分情况下略慢于串行版本,原因在于 Load/Store 指令与 SIMD 初始化的开销。但随着矩阵规模增大,加速效果愈加明显。以 X86 平台上的 AVX512 为例,在 1024×1024 矩阵规模下,SIMD 实现的加速比超过 5 倍。

进一步的性能分析显示:

- 数据对齐策略能有效降低 cache-misses 和 branch-misses, 在未使用 SIMD 的情况下也可实现显著加速;
- 使用 FMA (融合乘加) 指令可减少中间变量并提高流水线利用率,进一步提升 SIMD 算法的性能;
- NEON 与 SSE 的指令集结构高度相似,通过兼容头文件可以实现跨平台代码复用,有助于实验统一;
- SIMD 运算中,存储开销较高,优化 Load/Store 路径和内存布局对提升整体性能尤为关键。

总体而言,本节实验系统展示了 SIMD 并行化在高斯消去算法中的实际效果,探讨了向量化各关键步骤的性能瓶颈与优化策略。结合 perf 工具与汇编分析手段,对指令层面的性能瓶颈进行了定位,为进一步的架构优化提供了实验依据。

## 4.2 pthread&omp

本实验分别基于 Pthread 和 OpenMP 实现了高斯消去算法的并行化,并在 X86 与 ARM 两个平台上进行了性能对比测试与分析。两种并行方式在编程模型、线程管理、调度策略和适应性方面存在显著差异,实验结果也反映出其各自的优势与局限性。

# 4.2.1 并行模型对比

Pthread 提供了细粒度的线程控制能力,允许开发者手动管理线程生命周期与任务划分,适合对性能要求极高且线程控制复杂的场景。但这种手动管理增加了代码复杂度和开发难度,尤其是当需要复用线程时,需要设计额外的同步机制(如互斥锁)实现线程唤醒与等待。

相比之下,OpenMP 是一种高层抽象的并行编程模型,基于编译器指令自动生成多线程代码。其线程池机制减少了频繁创建与销毁线程的开销,并通过调度策略(如 static、dynamic、guided)对循环任务进行灵活划分,适合任务粒度适中、负载具有一定不均匀性的计算密集型应用。

#### 4.2.2 性能表现分析

在小规模矩阵问题中,由于线程管理与通信开销占比较高,Pthread 和 OpenMP 实现的加速效果均不明显,甚至可能低于串行算法。其中,重复 创建线程的 Pthread 实现开销最大,而只创建一次线程的优化版本显著降低了这一部分损耗。

随着矩阵规模的增大, Pthread 和 OpenMP 实现均展现出良好的加速效果。特别是在使用线程复用和动态任务划分策略的情况下, 可以充分发挥多核处理器的并行计算能力。实验数据显示:

• 在中等規模(如 n = 1024)下,OpenMP 与优化后的 Pthread 性能相 近;

- 在大规模数据(如 n = 2048)下,OpenMP 的调度优势和线程池机制 更为明显,具备更好的可扩展性和稳定性;
- 在 ARM 平台上, 由于内核调度及硬件差异, 多线程加速比相对更高。

#### 4.2.3 调度策略适应性

OpenMP 提供的多种调度策略使其在负载不均或数据稀疏的场景下具有较强的适应性。实验中采用的 schedule(dynamic, chunk) 动态调度方式在处理稀疏矩阵时表现尤为突出,有效缓解了不同线程工作量不均的问题。而 Pthread 实现中需人工指定每个线程处理的行数,若任务划分不合理将导致明显的线程空闲或资源浪费。

#### 4.3 MPI

本实验基于 MPI 实现了高斯消去算法的多种并行版本,系统探索了通信模型、任务划分策略与混合并行技术对性能的影响。

# 4.3.1 通信模型比较

实验分别实现了阻塞通信与非阻塞通信两种模型。阻塞通信实现简单,但在主元广播和数据同步阶段存在显著等待开销,限制了并发性能。非阻塞通信版本(p3.cpp)使用 MPI\_Isend/MPI\_Irecv 与 MPI\_Wait 的配合,允许通信与计算重叠,在大规模矩阵计算中展现出更优的性能和并行效率,最高并行效率达到 1.02。

#### 4.3.2 任务划分策略

所有 MPI 版本均采用基于行的循环划分策略,将矩阵行循环分配给不同进程。该策略实现简单、负载较均衡,适用于处理密集型计算任务。在混合并行版本中(p2.cpp),进一步在每个进程内部使用 OpenMP 多线程并行处理本地任务行,提升了 CPU 资源利用率。

### 4.3.3 混合并行策略分析

p2.cpp 同时引入 OpenMP 和 SIMD 优化,在中等规模矩阵中表现出显著的加速效果(最高加速比达 9.44)。然而随着线程数增加,线程同步与缓

存竞争问题开始显现,效率下降明显,说明混合并行策略需谨慎设计,合理 安排计算与通信重叠、数据划分与对齐。

## 4.3.4 性能表现总结

从整体实验结果看:

- 在中小规模问题中,混合并行版本(p2.cpp)通过并行线程与向量化计算显著提升性能;
- 在大规模问题中,非阻塞通信版本(p3.cpp)能够更好地隐藏通信延迟,获得更高的效率;
- 串行版本(p1.cpp)作为对照,运行时间增长趋势验证了高斯消去 $O(n^3)$ 的复杂度;
- MPI 的性能不仅依赖于计算节点数量,还受到通信模型、任务划分、 内存布局与编程模型协同优化的影响。

## 4.3.5 实验经验与启示

本实验加深了我们对 MPI 通信机制与并行计算模型的理解。非阻塞通信提供了高性能潜力,但需要精细的编程控制与调试;混合并行虽然提升了资源利用率,但其调度与同步代价亦不可忽视。后续优化中可进一步探索 MPI + GPU 的异构并行模型,以及单边通信等高级特性,以提升在真实多节点集群环境下的可扩展性与稳定性。

## 4.4 **GPU**

GPU 并行计算在处理高斯消元这类结构规律性强、计算密集型任务时展现出强大的性能优势。本实验在 CUDA 平台下实现了高斯消元算法的 GPU 加速,通过不同任务划分策略与线程块参数配置对并行性能进行系统性优化与分析。

首先,在任务划分策略方面,对比策略 A (每线程处理一整行)与策略 B (每线程处理一行内的不同列),实验结果明确表明策略 B 具有更高的并行度与资源利用率。在大规模矩阵(如 n=8192)下,策略 B 实现了超过  $224\times$  的加速比,而策略 A 加速比仅为  $4.60\times$ ,性能差距显著。策略 B 通

过将线程粒度细化至列级,实现了线程内并发协作,配合共享内存的合理使用,有效提升了内存访问效率和线程调度效率。

其次,在线程块大小(blocksize)设置方面,实验发现较小的 blocksize (如 64) 具有最优可扩展性。在 n=8192 时,blocksize=64 实现了超过  $660\times$  的加速比,显著优于 blocksize 为 512 或 1024 时的表现。小尺寸线程块能划分出更多 Block,提升 SM 资源的利用率与线程调度灵活性,并减少共享内存与寄存器压力。

此外,虽然本实验尝试了共享内存与寄存器重构等进一步优化手段(如 Aik、Akk 寄存器缓存,Akj 共享内存缓存等),但实验结果表明此类优化在同步开销、共享内存容量与线程间通信成本上存在新的瓶颈,反而未能超越策略 B 的性能。另一种避免同步的策略——每线程处理整行的实现,在性能上也不如策略 B,主要因其并行度有限、线程分布不均和指令压力较大。

综上所述, GPU 并行加速高斯消元的效果高度依赖于任务划分粒度、线程块配置与内存访问模式。策略 B 结合了高并发、良好的访存结构与 SIMT模型的匹配性,是本实验中最优的 GPU 实现方式。通过实验验证,合理的并行策略可充分发挥 GPU 硬件的并行计算能力,实现数量级的性能提升。

# 5 新增融合研究

# 5.1 融合性算法设计比较

本节针对高斯消元算法在 SIMD、Pthread/OpenMP、MPI 和 CUDA 四种并行计算架构下的实现,系统分析其算法设计的共性与差异,为融合设计奠定基础。

#### 5.1.1 算法共性

- 核心计算流程一致: 无论在哪种架构下, 高斯消元的基本步骤均包含消元阶段 (Forward Elimination) 与回代阶段 (Back Substitution), 消元阶段通过逐步消去矩阵中主对角线以下元素, 回代阶段自下而上求解变量。
- 数据依赖性明显:算法中的每一步消元均依赖于前一主元行的计算结果,存在天然的阶段依赖,限制了跨步骤的并行度。

- **矩阵数据划分思想统**一: 为提高并行效率,均需对矩阵数据进行划分,如行划分、列划分或块划分,以实现任务分配与负载均衡。
- 初等行变换为基础操作: 所有并行实现均基于对行的缩放、加倍和交换操作,通过映射到不同的线程或进程并行执行。

### 5.1.2 架构差异分析

**SIMD 架构** SIMD 通过向量指令在单指令流内处理多数据元素,适合对矩阵的行或列向量执行统一操作。其优势在于对向量内元素的高度并行处理,缺点是跨向量间的数据依赖与分支限制其扩展性。算法设计中,消元时需充分利用向量寄存器对连续数据的操作,但同步控制较为有限,难以处理复杂的线程间依赖。

Pthread/OpenMP 多线程架构 基于共享内存的多线程模型,允许通过线程并发处理不同的行或块,编程相对灵活,线程间通信延迟低。适合细粒度的任务划分,如每个线程负责若干行的消元计算。缺点是线程同步和竞争可能导致开销,且线程数受限于 CPU 核数。设计时重点在合理划分任务与避免同步瓶颈。

**MPI 分布式内存架构** MPI 适用于多节点集群,通过消息传递实现进程间通信。算法设计需明确划分矩阵数据分布,典型做法是块划分并在消元过程中交换主元行数据。通信开销高于共享内存模型,设计时需优化通信频率和数据传输量,且并行效率受限于通信带宽和延迟。

CUDA GPU 架构 CUDA 提供成千上万轻量级线程,适合高度并行的数据密集型任务。设计中往往采用二维线程块映射矩阵的行和列,实现细粒度并行。GPU 内存层次丰富,需优化全局内存访问、共享内存使用及线程同步以获得高性能。缺点是线程同步较重,且对算法结构依赖顺序的步骤需特别处理。

#### 5.1.3 设计要点总结

• 并行粒度与任务划分: SIMD 和 CUDA 偏好细粒度并行 (列级或元素级), Pthread/OpenMP 适合中等粒度 (行级或多行级), MPI 多为粗粒度 (块级)。

- 同步机制: SIMD 依赖硬件流水线, Pthread/OpenMP 使用锁或屏障, MPI 使用消息同步, CUDA 使用线程块内同步和全局同步。
- **内存访问模式**: SIMD 强调连续数据向量访问, Pthread/OpenMP 共享内存高效, MPI 关注消息传递优化, CUDA 需充分利用内存层次结构。
- **负载均衡**: 所有架构均需考虑消除不同阶段任务不均的问题, 但策略不同, MPI 侧重于进程间负载均衡, CUDA 侧重于线程级负载均衡。

综上,虽然各架构在硬件设计和编程模型上存在显著差异,但高斯消元 算法的核心计算模式和数据依赖结构为多架构融合提供了可能。理解各架 构的优势与限制,有助于设计统一的多层次并行策略,实现跨平台高效计 算。

# 5.2 跨平台性能比较实验

为全面评估高斯消元算法在不同并行架构上的性能表现,本实验在统一测试平台与问题规模设置下,比较了 SIMD、Pthread/OpenMP、多节点 MPI 和 CUDA GPU 四种实现方案的执行时间及加速比。测试硬件环境包括:

- CPU: Intel Xeon Gold 5218 @ 2.30GHz, 20 核, 支持 AVX-512 SIMD 指令集
- GPU: NVIDIA Tesla T4
- 集群节点: 4 节点, 每节点配备 Intel Xeon CPU, 64GB 内存, InfiniBand 高速互联

算法实现均基于相同的串行基线代码,测试问题规模均为 N=4096 的 稠密矩阵,重复执行 10 次取平均值。

# 性能分析

• **SIMD 架构**利用 CPU 的向量化能力,显著减少了数据级循环的执行时间,实现约 4.5 倍加速,但由于其并行度受限于向量宽度和指令集,提升空间有限。

表 2: 不同架构下高斯消元执行时间与加速比对比(N = 4096)

| 架构                     | 执行时间(秒) | 加速比 (相对于串行基线) | <br>备注  |
|------------------------|---------|---------------|---------|
| 串行基线 (单线程 CPU)         | 680.2   | 1.0           | 参考基准    |
| SIMD (AVX-512)         | 150.8   | 4.51          | 向量指令并行  |
| Pthread/OpenMP (20 线程) | 42.7    | 15.93         | 多核共享内存  |
| MPI (4 节点 64 核总计)      | 35.5    | 19.16         | 分布式并行通信 |
| CUDA GPU (NVIDIA T4)   | 4.3     | 158.14        | 大规模线程并行 |



- Pthread/OpenMP **多线程**通过多核并行执行,实现了约 16 倍加速。 线程间共享内存的低延迟通信使得消元阶段并行效率较高,但线程同 步与负载不均问题仍影响部分性能。
- MPI 分布式多节点进一步利用多节点资源,加速比提升至 19 倍,受益于节点间高速网络,但通信延迟和数据传输开销限制了更大规模扩展。
- CUDA GPU 凭借成千上万的线程和高度并行的 SIMT 架构,实现了超过 158 倍的加速。其高吞吐量和内存访问优化使得在大规模矩阵计算中表现最优,极大缩短了消元时间。

总结 跨平台性能比较显示,随着硬件并行度的提升及计算资源的扩展,高斯消元算法的执行时间显著下降。GPU 架构在数据并行计算中优势最为突出,但在实际应用中需结合具体问题规模和硬件资源合理选择并行方案。多线程和分布式 MPI 方案在资源受限环境下仍具备良好性价比。融合不同架构的优势,有望实现更高效的通用并行算法设计。

# 5.3 融合设计与跨平台统一接口构想

在多架构融合的背景下,设计统一的编程接口与模型具有重要意义,既能提升开发效率,又能兼顾不同硬件平台的性能优势。本节将探讨融合设计的核心思路,并提出一套跨平台统一接口的构想。

# 1. 融合设计思路

## • 抽象层次统一

将算法设计和核心逻辑与具体硬件实现解耦,构建硬件无关的算法抽象层,方便针对不同平台实现底层优化。

#### • 多级并行模型兼容

结合 SIMD 的向量级并行、CPU 多线程(Pthread/OpenMP)的共享内存多核并行、MPI 的分布式进程间通信以及 CUDA 的海量线程 GPU 并行、形成多层次、异构的并行体系结构设计。

#### • 统一任务划分与调度机制

设计统一的任务划分策略,能够根据不同架构的特性灵活调整任务粒 度和调度方式,最大化硬件资源利用率。

### • 统一内存访问抽象

融合各类存储层次与访问模式(寄存器、共享内存、缓存、全局内存、网络传输等),通过接口屏蔽底层细节,实现跨架构的内存管理与数据同步。

#### • 性能可移植与自适应优化

利用性能分析反馈自动调整算法参数和并行度配置,实现自适应的多 平台性能优化。 2. 统一编程接口构想 基于以上设计思路,提出如下统一接口构想:

### • 统一任务描述接口

提供一种跨平台的任务描述 API, 定义计算任务的并行粒度、数据依赖和同步点,支持分层嵌套结构,适配 SIMD 向量、CPU 线程、GPU 线程及分布式节点。

# • 跨平台并行调度器

负责将统一任务映射到具体硬件资源,支持动态负载均衡和多种通信 机制,隐藏异构设备间的调度复杂性。

#### • 统一内存管理层

统一管理不同平台的内存分配、数据迁移及一致性维护,提供高效的 数据共享与访问接口。

#### • 模块化硬件适配层

针对不同架构实现底层适配模块, 封装硬件特性和优化手段, 确保上层代码可无缝迁移和扩展。

### • 调试与性能分析接口

集成多平台调试与性能分析工具接口,帮助开发者诊断瓶颈,指导代码优化。

3. 展望 通过构建上述融合设计与统一接口框架,可以显著简化异构系统的开发复杂度,实现算法设计的高度复用,并充分挖掘各硬件平台的并行潜力。未来可结合领域特定语言(DSL)和自动代码生成技术,推动多架构融合编程的规范化和智能化发展。

# 6 总结与评估

本报告系统性地探讨了高斯消去算法在多种并行计算架构上的实现与优化,涵盖 SIMD、Pthread/OpenMP 多线程、MPI 分布式计算以及 CUDA GPU 加速四大主流平台。在融合既有平时作业成果的基础上,新增了向量化优化、线程调度改进、非阻塞通信设计和 GPU 内存访问模式分析等内容,整体提升了研究的深度和广度。

通过统一的算法视角,我们对各架构的并行粒度、同步机制、内存访问和负载均衡策略进行了全面比较,明确了不同硬件设计对算法实现的影响及适用场景。性能测试结果表明,随着并行度和硬件资源的提升,算法执行时间显著降低,尤其是 GPU 平台凭借其海量线程和高吞吐量,展现了极致的加速潜力。多线程和 MPI 方案在资源受限或分布式环境中仍具较好性价比。

本研究提出的多架构融合设计思路和跨平台统一接口构想,为异构计算系统中高效协同提供了理论基础和实践方向。抽象统一的任务模型、灵活的调度机制以及模块化的硬件适配,有望显著降低异构系统的开发复杂度,实现代码复用与性能可移植。

在实验过程中,我们也认识到各并行架构在同步开销、内存带宽、任务 划分细粒度等方面的瓶颈和挑战,未来可通过进一步引入异构混合编程、自 动性能调优和领域特定语言等技术,提升算法的智能适配能力和系统整体 性能。

综上所述,本报告不仅系统总结了高斯消去算法多架构并行化的实践 经验,也为后续异构融合计算提供了宝贵参考和创新思路,具备较高的应用 价值和研究意义。