ReL4: 高性能异步微内核设计与实现

廖东海

\*\*\*\* 年 \* 月

ReL4:

廖东海

北京理工大学

中图分类号: TQ028.1

UDC分类号: 540

| 1 | 特别 | 类 | 풷 |
|---|----|---|---|
| _ |    |   |   |

- □ 交叉研究方向
- □政府项目留学生

# ReL4: 高性能异步微内核设计与实现

| 11= | 首   | 夝   | 名  |            |
|-----|-----|-----|----|------------|
| 学   | 院   | 名   | 称  | 计算机学院      |
| 指   | 导   | 教   | 师  | 陆慧梅        |
| 答辩  | 详委员 | 会是  | 上席 | ***        |
| 申   | 请   | 学   | 位  | 工学硕士       |
| 学   | 科   | / 类 | 别  | 计算机科学与技术   |
| 学(  | 位 授 | 予单  | 单位 | 北京理工大学     |
| 论:  | 文 答 | 辩 E | 日期 | **** 年 * 月 |

# ReL4: Design and Implementation of High-performance Asynchronous Microkernel

| Candidate Name:          | Liao Donghai                    |
|--------------------------|---------------------------------|
| School or Department:    | ****                            |
| Faculty Mentor:          | Lu Huimei                       |
| Chair, Thesis Committee: | ***                             |
| Degree Applied:          | ****                            |
| Major:                   | ****                            |
| Degree by:               | Beijing Institute of Technology |
| The Date of Defence:     | * ****                          |

# 研究成果声明

| 本人郑重声明: 所提交的学位论文是我本人在指导教师的  |
|-----------------------------|
| 指导下独立完成的研究成果。文中所撰写内容符合以下学术规 |
| 范 (请勾选):                    |
| 口论文综述遵循"适当引用"的规范,全部引用的内容不超过 |
| 50%。                        |
| 口论文中的研究数据及结果不存在篡改、剽窃、抄袭、伪造  |
| 等学术不端行为,并愿意承担因学术不端行为所带来的一切后 |
| 果和法律责任。                     |
| 口 文中依法引用他人的成果,均已做出明确标注或得到许  |
| 可。                          |
| 口论文内容未包含法律意义上已属于他人的任何形式的研   |
| 究成果,也不包含本人已用于其他学位申请的论文或成果。  |
| 口与本人一同工作的合作者对此研究工作所做的任何贡献   |
| 均已在学位论文中作了明确的说明并表示了谢意。      |
| 特此声明。                       |
|                             |

日期:

签 名:

# 关于学位论文使用权的说明

本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:

- ① 学校有权保管、并向有关部门送交学位论文的原件与复印件;
- ② 学校可以采用影印、缩印或其它复制手段复制并保存学位论文;
  - ③ 学校可允许学位论文被查阅或借阅;
  - ④ 学校可以学术交流为目的, 复制赠送和交换学位论文;
- ⑤ 学校可以公布学位论文的全部或部分内容(保密学位论 文在解密后遵守此规定)。

签 名: 日期:

导师签名: 日期:

# 摘要

微内核将大部分系统服务运行在用户空间,相比于宏内核有更好的稳定性、扩展性和内核安全性,在微内核系统中,应用程序通过进程间通信 (IPC) 而非系统调用来请求服务,频繁的 IPC 造成的特权级切换将产生巨大开销,成为了系统的性能瓶颈。以 seL4 为代表的现代微内核将同步 IPC 作为主要通信手段,并以异步通知机制作为辅助手段来提升系统并发度,这些机制在一定程度上减少了 IPC 的开销,提升了系统性能,然而它们在设计上仍有三点不足: 1) 在支持同步 IPC 的情况下冗余地支持了异步通知机制,这违反了内核最小化原则; 2) 通知机制依赖内核的转发,会造成大量的特权级切换; 3) 系统调用和同步 IPC 会导致无关请求顺序执行,无法充分利用硬件资源。

本文在FPGA上实现了ReL4的原型系统,使用 seL4test 测试框架证明了ReL4的功能正确性和XU-notification、异步 IPC 和异步系统调用分别与 seL4 进行了对比测试,并评估了真实的 TCP Server 在 ReL4 的性能表现。测试结果表明,相比于 seL4,ReL4 能够大幅减少系统中特权级切换的次数,在低并发场景下有着接近的性能,在高并发场景下拥有更卓越的表现,从而证明了 ReL4 架构的可行性和优越性。

关键词: 微内核; 异步; 进程间通信; 用户态中断

#### **Abstract**

The microkernel runs most system services in the user space. Compared with the monolithic kernel, it has better stability, extensibility, and kernel security. In a microkernel system, applications request services through inter-process communication (IPC) instead of system calls. The frequent privilege level switches caused by IPC generate huge overheads, which become a performance bottleneck of the system. Modern microkernels represented by seL4 use synchronous IPC as the main communication means and adopt an asynchronous notification mechanism as an auxiliary means to improve the system concurrency. These mechanisms reduce the IPC overhead to a certain extent and enhance the system performance. However, there are still three design deficiencies: (1) The asynchronous notification mechanism is redundantly supported while synchronous IPC is supported, which violates the principle of kernel minimization; (2) The notification mechanism relies on the forwarding of the kernel, resulting in a large number of privilege level switches; (3) System calls and synchronous IPC will cause irrelevant requests to be executed sequentially, failing to fully utilize hardware resources.

Aiming at the above three defects, this paper designs and implements ReL4, a set of asynchronous high-performance microkernel architecture. Its main design concept is to use the asynchronous notification mechanism as the only communication means supported by the kernel. In the user space, the data transfer of IPC is realized through a shared buffer, and synchronization is carried out through the notification mechanism, ensuring the principle of kernel minimization. At the same time, based on user-space interrupts and on the basis of being compatible with the seL4 interface, ReL4 designs the U-notification mechanism that does not require kernel forwarding, avoiding a large number of privilege level switches caused by the notification mechanism. Finally, ReL4 implements asynchronous IPC and asynchronous system calls through an asynchronous runtime, avoiding the sequential execution of irrelevant IPC and system call requests. While fully utilizing hardware resources and improving system concurrency, it also enhances the usability of the system.

This paper implements a prototype system of ReL4 on an FPGA. The U-notification, asynchronous IPC, and asynchronous system calls are respectively compared and tested with

seL4, and the performance of a real TCP Server on ReL4 is evaluated. The test results show that compared with seL4, ReL4 can significantly reduce the number of privilege level switches in the system, has a similar performance in low-concurrency scenarios, and has more excellent performance in high-concurrency scenarios, thus proving the feasibility and superiority of the ReL4 architecture.

Key Words: microkernel; asynchronous; inter-process communication; user-mode interrupt

# 目录

| 第1章 | 绪记    | 仑                   | 1  |
|-----|-------|---------------------|----|
| 1.1 | 课题码   | 研究的背景和意义            | 1  |
| 1.2 | 国内外   | 小研究现状及发展趋势          | 2  |
|     | 1.2.1 | 微内核 IPC 的发展现状       | 2  |
|     | 1.2.2 | 特权级切换               | 3  |
|     | 1.2.3 | Rust 语言与异步编程机制      | 5  |
|     | 1.2.4 | 用户态中断与 TAIC 加速器     | 6  |
| 1.3 | 主要研   | 开究内容                | 6  |
| 第2章 | seL   | 4介绍                 | 9  |
| 2.1 | seL4  | 的发展历史及主要特征          | 9  |
| 2.2 | seL4  | 的基本组成               | 9  |
|     | 2.2.1 | 内核对象与 Capability 机制 | 10 |
|     | 2.2.2 | 内存管理架构              | 11 |
|     | 2.2.3 | 任务调度                | 12 |
|     | 2.2.4 | 同步 IPC 和通知机制        | 14 |
|     | 2.2.5 | 中断管理与 SMP 支持        | 15 |
|     | 2.2.6 | <u>本</u> 章小节        | 15 |
| 第3章 | Rel   | 4 系统设计              | 17 |
| 3.1 | 通知村   | 几制                  | 18 |
|     | 3.1.1 | U-notification      | 18 |
|     | 3.1.2 | 自适应的混合轮询            | 19 |
| 3.2 | 异步油   | 运行时                 | 19 |
|     | 3.2.1 | 共享缓冲区               | 20 |
|     | 3.2.2 | 协程与调度器              | 21 |
|     | 3.2.3 | API 兼容层             | 22 |

## 北京理工大学硕士学位论文

| 第4章 | Rel                 | L4 系统实现                       | 23 |
|-----|---------------------|-------------------------------|----|
| 4.1 | 新增                  | 系统调用                          | 23 |
| 4.2 | 异步                  | IPC                           | 24 |
| 4.3 | 异步                  | 系统调用                          | 27 |
| 4.4 | 兼容情                 | 生讨论                           | 28 |
|     | 4.4.1               | Notification 与 U-notification | 28 |
|     | 4.4.2               | 同步 IPC 与异步 IPC                | 29 |
|     | 4.4.3               | 同步系统调用于异步系统调用                 | 30 |
| 第5章 | 实                   | 俭评估                           | 31 |
| 5.1 | 功能                  | 则试                            | 32 |
| 5.2 | 性能沒                 | 则试                            | 33 |
|     | 5.2.1               | 消融实验                          | 34 |
|     | 5.2.2               | 内存分配服务器                       | 35 |
|     | 5.2.3               | 同步 IPC vs. 异步 IPC             | 37 |
|     | 5.2.4               | TCP 服务器                       | 38 |
| 第6章 | 总统                  | 士<br>石 ······                 | 42 |
| 攻读学 | 攻读学位期间发表论文与研究成果清单43 |                               |    |
| 致谢  | 致谢 <b>4</b> 4       |                               |    |
| 作者简 | 介                   |                               | 45 |

# 插图

| 图 1.1 | fast-path 优化示意图              | 3  |
|-------|------------------------------|----|
| 图 1.2 | 用户态中断和 TAIC 加速器的示意图          | 7  |
| 图 2.1 | seL4 的系统结构图                  | 10 |
| 图 2.2 | seL4 的内存管理                   | 12 |
| 图 2.3 | seL4 的线程状态转换                 | 13 |
| 图 2.4 | seL4 的 IPC 相关内核对象状态转换        | 14 |
| 图 3.1 | ReL4 的系统架构图                  | 17 |
| 图 3.2 | ReL4 的系统架构图                  | 18 |
| 图 3.3 | 共享缓冲区的结构图                    | 20 |
| 图 3.4 | 调度器的结构图                      | 21 |
| 图 4.1 | 调度器的结构图                      | 24 |
| 图 5.1 | U-notification 与自适应混合轮询的消融实验 | 35 |
| 图 5.2 | 内存分配服务器性能测试实验                | 36 |
| 图 5.3 | IPC 对比测试实验                   | 38 |
| 图 5.4 | TCP 测试场景示意图                  | 39 |
| 图 5.5 | TCP 服务器性能测试实验                | 40 |

# 表格

| 表 1.1 | seL4 一次 IPC 中各操作的开销占比 | 4  |
|-------|-----------------------|----|
| 表 1.2 | 国内外研究现状汇总             | 5  |
| 表 2.1 | seL4 中的主要内核对象         | 11 |
| 表 4.1 | ReL4 中的新增系统调用         | 23 |
| 表 5.1 | 实验平台信息                | 31 |
| 表 5.2 | ReL4 在 seL4test 的测试情况 | 33 |

# 主要符号对照表

BIT 北京理工大学的英文缩写

LAT<sub>E</sub>X 一个很棒的排版系统

 $ext{LMEX } 2_{arepsilon}$  一个很棒的排版系统的最新稳定版

X-T-X IM-X 的好兄弟,事实上他有很多个兄弟,但是这个兄弟对各种语言

的支持能力都很强

ctex 成套的中文 LATEX 解决方案,由一帮天才们开发

H<sub>2</sub>SO<sub>4</sub> 硫酸

 $e^{\pi i} + 1 = 0$  一个集自然界五大常数一体的炫酷方程

 $2H_2 + O_2 \longrightarrow 2H_2O$  一个昂贵的生成生命之源的方程式

# 第1章 绪论

## 1.1 课题研究的背景和意义

随着科技的发展,微内核广泛应用于工控系统、嵌入式系统等领域。相比于宏内核,微内核将内存管理、设备驱动、文件系统等与核心功能分离,运行在用户空间,这种隔离机制使得单个服务的故障不会直接影响到内核和其他服务,从而提升了系统的整体稳定性<sup>[?]</sup>;微内核通过精简核心功能,减少攻击面,从而提升内核安全性;此外,模块化的设计使得系统更易于维护和升级。在微内核系统中,应用程序通过进程间通信 (IPC) 而非系统调用来请求服务,这或许能够满足早期性能不敏感的软件需求,然而在对软件性能有着更高要求的今天,频繁 IPC 造成的特权级切换将产生巨大开销,成为系统的性能瓶颈<sup>[?]</sup>。

30年前 Liedtke 提出的 L4<sup>[?]</sup> 重新设计了微内核系统,通过组合系统调用、快速路径、消息寄存器等优化手段,从硬件层到软件层对 IPC 进行了系统性优化,证明了微内核的 IPC 也可以很快,之后以 seL4<sup>[?]</sup> 为代表的现代微内核的 IPC 框架也基本延续了 L4 的设计理念,以同步 IPC 作为主要的通信方式。然而同步 IPC 迫使单线程中上下文无关的请求以顺序的形式执行,系统只能通过多线程实现并发,而为了更好地利用硬件资源,现代微内核大多引入异步的通知机制来简化并发程序设计,提升多核的利用率,这违反了微内核的最小化设计原则,增加了内核的复杂性。

而随着软件复杂性的提升,用户希望系统级软件如数据库管理系统、网络服务器等能够快速处理大量系统调用和 IPC<sup>[?]</sup>,而微内核将操作系统的大部分服务(如网络协议栈、文件系统等)移到用户态,从而使得 IPC 数量和频率激增,特权级切换成为性能瓶颈。此外,新出现的硬件漏洞如 Meltdown<sup>[?]</sup> 和 Spectre<sup>[?]</sup> 漏洞促使内核使用 KPTI 补丁<sup>[?]</sup> 来分离用户程序和内核的页表,进一步增加了陷入内核的开销。最后,现代微内核的外设驱动往往存在于用户态,外设中断被转化为异步通知,需要用户态驱动主动陷入内核来进行接收,这在一定程度上成为了外设驱动的性能瓶颈<sup>[?]</sup>。综上所述,由 IPC 和通知机制引起的特权级切换已经成为制约系统性能的主要因素。

本文提出 ReL4,一个用 Rust 编写的高性能异步微内核,它将同步 IPC 从内核中移除,基于用户态中断技术设计了无需陷入内核的 U-notification 机制,在兼容 capability 机制的基础上改造微内核的通知机制,并利用改造后的 U-notification 和异步化编程

设计和实现了一套绕过内核的异步 IPC 和异步系统调用框架。ReL4 在设计理念上将内核最小化原则贯彻得更加彻底,并通过软硬件协同的方式进一步提升微内核的 IPC 性能,为下一代微内核的发展指出一个可能的方向。

### 1.2 国内外研究现状及发展趋势

#### 1.2.1 微内核 IPC 的发展现状

现代微内核的大部分进程间通信(IPC)优化始于研究可追溯至Liedtke提出的L4,由于之前的IPC内核架构。针对早期微内核IPC存在的性能瓶颈问题,L4从硬件优化抽象层、系统架构、设计和软件接口的各规范等多个方面对IPC维度进行了系统性重新设计构。其中的这些优化角度措施主要可以简单划分归纳为内核执行路径优化和上下文切换优化两个关键方向。

对于在内核执行路径优化方面,L4通过物理消息寄存器来传递短消息,从而有效规避免了短消息存拷贝一开销。然而,随着访存速度的加快,消息寄存储器访问性能的持续提升,这种零拷贝优化带来的相对收益逐渐减弱。更为关键的是,使用物理寄存器的硬件依赖性导致的平台依赖和移植困难,并可能于扰编译器优化失效反而限制了系统的性能。171,因此物理的消息存器逐渐被分配优化。171。这一局限性促使现代微内核以普遍转向虚拟消息寄存器代替;此外方案。L4使采用临时内存映射的形式来进行长消息的传递,机制避免多余的内存数据拷贝,但却在该设计划核中引入了处理缺页异常的可能性,增加了内核行为的复杂性度。171,现代微内核一般放因而被后续多对常用且普遍的高频IPC场景,L4设计了专门的快速路径(fast-path)机制(如图1.1所示),避免了复杂繁琐的通过简化参数解析和任务调度,流程提升性能。然而,该优化手段对消息长度、和任务优先级等参数有着严格的限制约束,也无法对且难以扩展至多CPU核心进行支持对对手



图 1.1 fast-path 优化示意图

而<del>依然</del>,这些优化仍无法<del>避免</del>完全消除特权级切换<del>带来</del>导致的<del>快表</del>TLB污染和缓存失效问题。

除此之外,L4 仅支持同步 IPC,对于多核架构,同步 IPC 会导致服务调用被顺序执行,导致资源浪费。其次,同步 IPC 强制用户态以多线程的形式处理并发请求,导致了线程同步的复杂性。现代微内核在内核中引入异步通知机制,简化并发编程模型,却使得内核功能冗余,违反了内核最小化原则。

总而言之,现代微内核在单核环境下的 IPC 内核路径上的优化已经较为完善,在最理想的情况下仅需要两次特权级切换,然而对多核环境下,由于需要核间中断,IPC 无法进入快速路径,导致多核下的 IPC 内核路径依旧冗长。而现代微内核在特权级切换的优化方面仍然停留缓解的层面上,导致特权级切换会成为 IPC 的性能瓶颈。

#### 1.2.2 特权级切换

特权级切换带来的性能开销主要可分解为直接和间接两个部分,一部分是。直接 开销,包括了保存主要体现为上下文带来保存与恢复所需的额外指令开销执行周期,另一部分是面间 接开销,则源于地址空间切换所引起导致的缓存污染效应,这种效应会导致 CPU显著降低后续指令 行效率降低。如表1.1展所示了在 FPGA 上部署,基于 FPGA 平台的实测数据表明,在seL4微内核中扩 次 Call IPC 操作所带来的开销占比时,大部分的开销都花费在地址空间切换上所产生的时间开销占比 其次是上下文的切换和 fast-path 检查过程。特别值得注意的是,如果当fast-path 检查失败未通过时, 系统将会进转入 slow-path进行处理流程,该流程涉及更加冗长复杂的消息解码和任务调 度流程机制,会进一步降低加剧 IPC 性能的下降。针对这一关键性能瓶颈问题,学术界和工业界已从预

| 操作             | 占比    |
|----------------|-------|
| 保存和恢复上下文       | 14.5% |
| 地址空间切换         | 59.4% |
| fast - path 检查 | 20.1% |
| 消息拷贝           | 1.5%  |
| 其他             | 4.5%  |

表 1.1 seL4 一次 IPC 中各操作的开销占比

本文聚焦现代微内核架构设计中的特权级切换开销,旨在设计一种新型的 IPC 架构,减少甚至 件的角度致力于减少特权级切换开销。

从硬件出发的角度出发,大多数工作通过设计特殊的硬件或者特殊的指令来绕过内核实现 IPC。如 SkyBridge<sup>[?]</sup> 允许进程在 IPC 中直接切换到目标进程的虚拟地址空间并调用目标函数,它通过精心设计一个 Root Kernel 提供虚拟化的功能,通过VMFUNC 地址空间的直接切换,并通过其他一系列软件手段来保证安全性,但这种方案仅适用于虚拟化环境中。XPC<sup>[?]</sup> 则直接使用硬件来提供一个无需经过内核的同步功能调用,并提供一种新的空间映射机制用于调用者与被调用者之间的零拷贝消息传递,然而该方案没有相应的硬件标准,也没有一款通用的处理器对其进行支持。这些方法都基于特殊的环境或者没有标准化的硬件来实现,适用范围有限。

从软件出发的角度出发,相关工作主要分为两类:第一类方法通过将用户态和内核态的功能扁平化来减少内核与用户态的切换开销,如 unikernel<sup>[???]</sup>将所有用户态代码都映射到内核态执行,Userspace Bypass<sup>[?]</sup>通过动态二进制分析将两个系统调用之间的用户态代码移入内核态执行,从而减少陷入内核的次数,kernel bypass<sup>[?]</sup>则通过将硬件驱动(传统内核的功能)移入用户态,从而减少上下文的切换。这些方法要么需要特殊的硬件支持,要么难以与微内核的设计理念兼容。第二类方法则是允许用户空间对多个系统调用请求排队,并通过一次提交将他们注册给内核,如 FlexSC<sup>[?]</sup>通过在用户态设计一个用户态线程的运行时,将用户态线程发起的系统调用自动收集,然后陷入内核态进行批量执行。该方法虽然可以有效的减少陷入内核的次数,但如何设置提交的时机难以把握,过短的提交间隔将导致切换次数增加,过长的提交间隔则会导致 CPU 空转。

虽然现有工作难以广泛且有效地应用到微内核中,但他们的思路值得借鉴,他们的缺陷驱使研究者去寻求更好的方案。在硬件方面,一种新型的硬件技术方案——用户态中断<sup>[? ?]</sup>逐渐被各个硬件平台(x86,RISC-V)采纳,它通过在 CPU 中新增中断代理机制和用户态中断的状态寄存器,当中断代理机制检测到状态寄存器发生变化

| 优化方法      | 详细分类    | 实例                       | 缺点                             |  |
|-----------|---------|--------------------------|--------------------------------|--|
|           | 临时地址映射  | [3]                      |                                |  |
| 减少内核路径    | 快速路径    | [3, 4, 24, 25, 26]       | 上下文切换开销已经成为性能瓶颈                |  |
|           | 消息寄存器   | [3, 4, 24, 23, 20]       |                                |  |
|           | 消息寄存器   | [3, 4, 24, 25, 26]       |                                |  |
|           | 组合系统调用  | [3, 4, 24, 23, 20]       | 无法从根本上消除切换开销                   |  |
| 减少上下文切换开销 | ASID 机制 | [4]                      |                                |  |
|           | 统一地址空间  | [13, 14, 15, 16, 17, 18] | 与微内核设计理念相悖,无法有效地实施到微内核中        |  |
|           | 批量系统调用  | [19]                     | <b>司城内核及灯壁芯相序,尤齿有双地关爬到城内核中</b> |  |
|           | 虚拟化指令   | [11]                     | 仅适用于虚拟化环境                      |  |
| 硬件优化      | 直接硬件辅助  | [12]                     | 没有硬件标准,没有通用硬件的支持               |  |
|           | 且汉灰下柵切  | 用户态中断                    | _                              |  |

表 1.2 国内外研究现状汇总

时,会将中断以硬件转发的形式传递给用户态程序,从而绕过内核。该硬件方案已经在 Sapphire Rapids x86 处理器上和 RISCV 的 N 扩展中有了一定的支持,适用范围更加广泛。而在软件方面,异步被广泛用于请求合并和开销均摊,传统类 Unix 系统提供的类似 select IO 多路复用接口相对简陋,迫使用户态代码采用事件分发的编程范式来处理异步事件,代码相对复杂,可读性较弱。而新兴的 Rust<sup>[??]</sup>语言对异步有着良好的支持,其零成本抽象的设计也让它作为系统编程语言有着强大的竞争力。使用Rust 进行内核和用户态基础库的开发,可以更好地对异步接口进行抽象,改善接口的易用性和代码的可读性。

## 1.2.3 Rust 语言与异步编程机制

在现代计算机系统中, 随着多任务处理和并发编程的普及, 程序需要处理的任务越来越复杂,

- 编程困难: 异步编程需要在代码中处理多个任务之间的协作和同步, 这增加了编程的复杂性。
- 调试困难: 异步编程的执行流程是非线性的, 这增加了调试的难度。由于异步任务可能在不同
- 代码可读性下降: 异步编程通常涉及回调函数、事件监听等结构, 这些结构可能导致代码的原
- 代码可维护性下降: 异步编程中的任务依赖关系和同步机制可能随着代码的发展而变得更加复

而相对高阶的语言提供了对异步的原生支持,如 C++ 和 Rust, 在语言层面对异步编程提供了支

Rust 语言的异步编程模型体现了一种系统级的创新设计,其核心思想是通过编译时状态机转换 trait 定义的 poll 机制采用了一种独特的延迟执行模式,这种设计使得异步任务能够被精确控制,而是

语言层面的 async/await 语法为异步编程提供了重要的工程实践支持。这一语法糖不仅大幅提升

在运行时支持方面, Rust 采用了模块化的设计哲学。异步运行时被明确划分为 Executor 和 Read

此外,Rust语言的设计哲学与微内核架构在系统安全性和可靠性方面展现出深刻的协同效应。

基于上述工程实践考量,本文选择 Rust 作为 ReL4 微内核的主要实现语言。这一选择不仅能够

## 1.2.4 用户态中断与 TAIC 加速器

现代处理器通过多特权级设计实现安全隔离,但特权级切换带来的性能开销已成为系统优化的

为隆低这一开销,用户态中断(User-Level Interrupt)机制应运而生。该技术通过在CPU中引入 N扩展的实现为例,如1.2所示,用户态中断的核心创新在于将中断状态管理分为操作系统维护的发

在 UINTC 基础上的进一步优化催生了任务感知中断控制器(TAIC)。与基础用户态中断相比,

从系统架构演进的角度看,从传统内核中断到用户态中断,再到任务感知中断控制器的发展,

# 1.3 主要研究内容

本文以免费开源的 seL4 的 IPC 系统主要研究对象,介绍了 seL4 中 IPC 的设计细节以及相关设计缺陷,针对 seL4 的相关缺陷,基于用户态中断,给出了高性能异步微内核的整体设计方案,包含了无需内核转发的通知机制 U-notification、异步 IPC 与异步系统调用,并基于 Rust 语言在 RISC-V 平台实现了 ReL4 原型系统。在 FPGA 上将 U-notification、异步 IPC 和异步系统调用分别与 seL4 进行了对比测试,并评估了



图 1.2 用户态中断和 TAIC 加速器的示意图

ReL4 在真实的 TCP Server Benchmark 上的性能表现。论文内容结构安排如下:

第1章,绪论部分,阐述了本课题的研究背景及意义,国内外研究现状和发展趋势,最后概述了本课题的研究内容和对内容的组织结构。

第2章,介绍了seL4系统的发展历史和主要特征,并对seL4中的基本概念以及IPC设计进行了系统性阐述。

第3章,系统设计部分。首先介绍了ReL4与 seL4的关系,ReL4的特点以及设计目标,然后介绍了ReL4如何对系统中各个部分的通知机制进行支持和优化,最后介绍了用于保证兼容性和提升易用性的异步运行时的组成部分和设计思路。

第 4 章,系统实现部分。主要介绍了新增的系统调用,以及基于 U-notification 的 异步运行时如何实现异步 IPC 和异步系统调用。

第5章,兼容性并讨论。主要讨论了ReL4在通知机制与、IPC机制和系统调用中对seL4的兼容程度。

第65章, 系统评估部分。首先介绍了 ReL4 的测试方案, 然后针对 ReL4 的各个

机制进行了性能评估和分析,最后测试了 ReL4 在真实的 TCP Server Benchmark 上的性能表现。

第76章,总结与展望,对本次设计和论文工作进行了总结,并提出了进一步的研究方向与对未来工作的展望。

# 第 2 章 seL4 介绍

## 2.1 seL4 的发展历史及主要特征

seL4是一款具有创新性和里程碑意义的微内核。seL4项目始于 2006 年的澳大利亚悉尼大学,其目标是创建一个经过形式化验证的微内核,从而确保内核的安全性和可靠性。在 2009 年,seL4 正式发布了针对 arm 11 处理器的功能正确性的形式化证明,是全球首个经过完整形式化验证的微内核。在 2014 年,seL4 正式开源,得到了来自开源社区的广泛关注,seL4 的生态蓬勃发展。在接下来的几年里,seL4 陆续完成了对不同 CPU 和不同指令集架构的验证和支持、虚拟化支持等,并在应用生态领域有了丰富的支持。

seL4 的设计遵循一下几个原则[?]:

- Verification: 截止目前(2025年3月), seL4依然是第一个经过形式化验证的内核,形式化验证对 seL4是个坚持不懈的努力目标,为了验证方便,禁止在内核里并发处理,不允许在内核态的大部分场景里再次发生中断。
- Minimality: 一方面最小化原则是 L4 家族的根本设计理念,另一方面,最小化也是方便 seL4 做形式化验证的重要条件,seL4 内核除了中断控制器、定时器、MMU 相关的一点硬件驱动代码,其它驱动都在用户空间运行。
- Policy freedom: seL4 对于大部分资源分配策略都移到了用户态进行定制,通过 Capabiltiy 进行管理。
- Performance: 虽然极度关注安全、可形式化验证, seL4 着重对热点路径的优化, 因此依然有着突出的性能优势。
- Security: seL4 在安全性设计上遵循最小权限原则(Least privilege),通过 capability 机制来保证任何组件只拥有完成其工作所需的权限。

# 2.2 seL4 的基本组成

<del>如图2.1所示</del>, seL4基本采用分层严格的最小化设计<del>理念</del>原则, 将传统操作系统内核的功能进行制内核态空间仅保留最基础的硬件抽象层和核心机制, 而将传统操作系统服务移至用户空间实现。

在核心设计上,seL4 内核主要实现了五个关键子系统:虚拟地址内存管理(VMM)负责地址经进程间通信(IPC)、提供基于消息传递的交互机制,通知机制(Notification)、处理异步事件传递,务调度(Scheduler)和管理系统执行流,中断管理(Interrupt Manager),同时在内核态提供则负责领力访问控制(Capability)来机制进行权限安全管理控,所有资源的访问都必须经过严格的能力验证,

用户空间的设计体现了 seL4 的架构创新,它将传统内核中的设备驱动程序和大部分系统服务(络协议栈和文件等系统等)运行在服务完全移出内核,作为普通用户态,进程运行。应用程序通过IPC 同步 IPC 机制请求系统服务,同时,面硬件中断和软件信号则经过内核的初步处理后过Notification异步通知机制传递给相应的用户态驱动处理。这种设计不仅大幅减小了内核的代码规模以上,实现了安全性与性能的良好平衡。



图 2.1 seL4 的系统结构图

### 2.2.1 内核对象与 Capability 机制

seL4采用基于内核对象的能力(Capability)安全模型构建其访问控制体系。在seL4 该模型中,所有系统资源(如内存区域、通信端点等)都被抽象为内核对象是操作系统,由内 核所统一管理其状态和操作的基本实体生命周期。如表2.1所示,是这些内核对象构成了系 统资源的软件抽象。内核通过维护内核对象的状态来维护,形成了系统状态。主要的内核对象如表

内核对象无法直接被为确保系统安全性, seL4 实现了严格的访问隔离机制。用户

| -                  |                              |
|--------------------|------------------------------|
| 内核对象               | 作用                           |
| 线程控制块(TCB)         | 内核调度的基本单位,保存了用户任务运行所需的上下文。   |
| 能力空间(CSpace)       | 访问能力的集合,维护了各个内核对象的访问能力和对应权限。 |
| 地址空间(VSpace)       | 地址空间,维护了一段虚拟地址和物理地址的映射关系。    |
| 物理页框(Frame)        | 对应一个物理页,维护了物理页号和访问权限.        |
| 端点(Endpoint)       | 同步 IPC 的桥梁,维护了一个消息收发的状态机。    |
| 通知对象(Notification) | 通知机制的桥梁,维护了一个通知状态位。          |
| 无类型对象(Untyped)     | 物理内存管理的承载者,通过系统调用转化为其他内核对象。  |

表 2.1 seL4 中的主要内核对象

态程序不能直接访问内核对象,只能而必须通过Capability 机制将能力句柄(Capability handler)暴露给用户态,用户态在 handler 上调用系统调用来对内核对象进行访问间接操作。每个能力句柄实际上是能力(Capability)一个经过验证的索引用,在 Capability 中,内核在其对应的 Capability 数据结构中维护了对应的目标内核对象的物理地址以及对应精确的访问权限,集。当用户态在 handler 上发起系统调用时,内核会通过能力查找到相应的 Capability 并构应的权限。当用户态在 handler 上发起系统调用时,内核会通过能力查找到相应的 Capability 并构定的权限Capability,进行权限检查通过之验证后才会根据地址对内核对象进</u>执行相应的操作。这种显式的授权机制确保了所有资源访问都必须经过严格的权限检查。

Capability 可以被Capability 机制支持两种基本的权限传播方式:转移(Transfer)和派生,(Derivation)。转移之后原始操作实现了权限的用户态进程就不再拥完全移交,原持有者将分派生操作则保留了原始进程的允许创建具有受限权限,派生的Capability 的新 Capability,这些权限必须是原始Capability权限的真子集,被。通过这种派生的Capability 可以进一步派生关系,由此在系统内核自然形成了一个层次化的能力派生树(Capability Tree)结构。值得注意的是,为该模型提供了保证可控性,动态的权限回收机制——任何父节点都可以通过 revoke操作随时回收递归地撤销其所有子节点的能力访问权限。由此这种精密的权限传播与回收机制,使得seL4通过能力派生的形式递归地够构建了整个系统可验证的、最小特权限控制体原则的系统安全

### 2.2.2 内存管理架构

seL4中将物理采用了一种创新的分离式内存管理和虚拟架构,这种设计在保证系统安全性的同时存管理明确划分开。为两个层次:物理内存完全交由用户态管理,而虚拟内存则由内核态统一维护。这种分离式设计体现了微内核架构的最小特权原则,既降低了内核的复杂度,又为理能力。



图 2.2 seL4 的内存管理

如图2.2所示,在物理内存管理方面,seL4中,有引入了一类种独特殊的无类型内核Untyped对象Untyped,保存机制。这些对象代表了未被分配系统初始化时可用的原始物理内存信息区域,具有以下重要特性:首先,它们在系统启动时由内核统一创建;其次,所有Untyped对象的能力都

Task用户进程;最后,用户态可以通过 Retype 系统调用<mark>将其转</mark>对这些对象进行精细化操作。具体来的 Untyped 或者有区域,二是将其转换为特定类型的内核对象(如 Frame、CNodes 等)。

内核在启动完这种设计形成之后将所有的 Untyped 对象的 Capabiltiy 交给 Root Task了一个完全由用户进程,Root Task 将通过 Retype 或能力派生态主导的形分布式对空闲的递归内存管理体系,使得物理内存进行进一步资源可以根据需要动态分配,由此可见,seL4 系统中给不同的用户态组件。值得理内存的灵活管理也是,还通过能力系统确保了内存分布式递归管理配的安全性。

在虚拟内存管理方面、seL4中,为每个进程都包含了维护一个 VSpace 内核对象,该对应一个象作为地址空间的核心抽象,具有以下关键功能:它关联着进程的根页表结构,维护了进程着完整的虚拟地址空间的映射关系,而;它通过能力机制控制着地址空间的访问权限;户态程序通过 map/unmap 系统调用将 Frame 内核可以动态调整 Frame对象和与虚拟地址的绑定关系,这些操作需要经过严格的能力检查。具体而言,map 操作需要调用者同时拥有目的关节围必须在 VSpace 的有效区域内。这种设计既保证了内存访问的安全性,又为用户态提供了充

这种分离式内存架构显著降低了内核的复杂度,将内存管理的策略性决策交由用户态实现,同时

#### 2.2.3 任务调度

在

seL4中,采用基于线程是的轻量级任务调度模型,其设计体现了微内核架构的简约性和灵活性。本单位和的执行单元和调度实体,每个线程包含了一组能力空间和一套完整的执行上下文和独立的能力空间。值得注意的是,seL4对传统操作系统中的进程的概念被进行了弱化,通常情况下,我们将含有相同能力空间和地址空间的称为同一个进程,将进程抽象为资源分配的基本单位,因此在seL4中,进程只作为一个逻辑概念存在,内核的设计和实现只涉及到线程,这种设计选择使得内核实现更加精简,同时保持了足够的抽象能力来支持复杂

在seL4中,线程的调度主要分为两类:器实现采用了双层次的调度策略,将优先级调度和与事件驱动的抢占调度有机结合。优先级调度基于经典的固定优先级算法,当出现以下两利间片用完、或由于阻塞;二是线程因等待某些事件无法继续执行而主动阻塞。在调度时机到来时,内核会从优先级就绪队列中取出最高选择优先级最高的队头任务线程进行调度执行上下文切换。而另一方面,抢占调度一般发生在机制主要应用于同步IPC中场景,当某个线程间的通信操作唤醒了另外一个导致更高优先级的线程变为可执行状态时,在不违反优先级基本调度原则的前提下,内核会优先插队立即进行任务切换以保证系统的响应性。这种混合调度。策略在保证系统确定性的同时,也优化了任务间的交互性能,具体的同步IPC流程描述参考2.2.4。



图 2.3 seL4 的线程状态转换

线程的状态转换图如2.3所示<u>,当线程陷入内核时,从Running 切换为 ReStart 状态,即候选状态</u> seL4 的线程状态转换

此外为了满足实时系统的严格要求,seL4的还提供了MCS(Mixed-Criticality Systems)扩展还支持混合。该扩展通过三个关键性系统(MCS)机制来进行保证关键任务的实时性调度:首先,内核通过为关键任务预留专用的时间片预留、资源;其次,系统支持运行时动态调整和任务优先级;最后,MCS模式切换来保证任务的实时机制允许系统在不同关键性级别之间

### 2.2.4 同步 IPC 和通知机制

seL4微内核设计<del>者认为系统中</del>了一套完整的<del>大部分 IPC 都遵循客户端/服务器(C/S)</del>进程间通货<mark>客户端线程发起请</mark>二者在语义和实现上存在显著差异。这种双模式设计使系统能够同时满足确定性

同步 IPC 机制实现了严格的请求并返回-响应语义,其核心特征在<del>此之前</del>于通信双方的强同步性。 当客户端<del>进程会阻塞在一个名为 Endpoint 的内核对象上发起 IPC 调用时,相似的,服务端系统会立即程也会阻塞监听 Endpoint 对象</del>,直<del>到有</del>至服务端完成请求<del>到来</del>处理并返回响应。<del>如2.4</del>这种同步性通过核<del>通过</del>对象实现,该对象维护Endpoint着精确的状态机和阻塞队列来维持通信的秩序。

值得注意的是,在 seL4 中,同步 IPC更像是与任务调度的一部分器深度耦合,同步 IPC在通信过程中可能会导致触发优先级驱动的任务的切换,以客户端在 OnRecv 状态的 Endpoint 发起请求为。例如,在不违反当高优先级调度原则的前提下,内核会将阻塞队列中的服务端线程被唤醒并切换时,内核行行。但2.2.3中上下文切换,这种设计保证了系统的抢占调度)时间确定性,而将客户端线程阻塞并等



图 2.4 seL4 的 IPC 相关内核对象状态转换

由于同相比之下,异步IPC强通知机制采用户态以多线程了完全不同的形式处理并发,因此 sel 制基于 Notification 内核对象实现,客户端线程非阻塞地其最显著的特点是发送操作的异步性。通知接受线程发送方可以立即继续执行后续指令,而不会阻塞地需要等待服务端发起接

收<del>流程,由此解放</del>方的响应。这种非阻塞特性显著提升了<del>客户端线程</del>系统的并发处理能力, <del>而服务端线程则依</del>使其能够高效处理大量事件通知。然<del>要阻塞地</del>面,接收<del>客户端</del>方仍然保持同步的 <mark>因此</mark>需要通过显式的系统调用获取通知内容。这种不对<del>于服务端来说依然是</del>称设计在保证事件处理 <del>如2.4所示</del>

从实现层面看,与两种机制的主要区别体现在三个方面: 首先,同步 IPC类似,seL4 通过在 Not 护<del>对象状态和一组信号字来实现</del>完整的调用上下文,而通知机制仅需管理信号位图: 其次, <del>在相似的情况下也</del>同步 IPC 涉及双向数据传输,而通知主要是单向事件指示;最后,同步 IPC会导致

### 2.2.5 中断管理与 SMP 支持

seL4 在中断管理与对称多处理机(SMP)支持方面也与主流内核有所区别,seL4 为了保证内核行为的可预测性,在内核中屏蔽了所有外部中断,禁止内核中的中断抢占,这是由于 seL4 中的大部分内核任务都极其简短,因此停留在内核中(屏蔽中断)的时间非常少,不会过多地影响系统的实时性,而对于少量可能造成内核执行时间较长的系统调用,seL4 在这些系统调用中插入了可抢占点,将内核的行为约束在可控范围内。

出于同样的目的,对于多 CPU 核心系统,seL4 通过内核锁保证只有一个核心运行在内核态,避免了复杂的内核资源竞争,同时保证了内核行为的可预测性,大部分的系统调用都只会短暂停留在内核中,一般不会出现饥饿等待的情况,而对于少量可能造成内核执行时间较长的系统调用,seL4 在流程中添加重启点,保存少量用于指示当前执行状态的信息,然后释放内核锁,等待下一次获取内核锁之后重启流程,以此避免饥饿等待的发生。

## 2.2.6 本章小节

本章系统地分析了seL4 微内核的关键架构设计及其实现机制。作为第三代微内核的代表, seL4

在核心抽象层面, seL4采用了基于能力(Capability)的安全模型, 所有系统资源都被封装为内Tree)支持灵活的权限管理。特别值得注意的是, 能力机制与内核对象模型的紧密结合, 构成了 sel

内存管理方面,seL4创新性地采用了物理内存与虚拟内存分离管理的架构。通过 Untyped 对象

任务调度模型体现了 seL4 对实时性的重视。系统将线程作为基本调度单元,弱化了传统进程概在进程间通信方面,seL4 的双模式 IPC 框架展现了出色的设计平衡。同步 IPC 机制通过 Endpo

尽管 seL4 微内核在设计上取得了显著成就,但其架构仍存在若干值得关注的技术局限性。首先

# 第3章 ReL4系统设计

ReL4 是一款用 Rust 编写的,兼容 seL4 基本系统调用的高性能异步微内核,它借鉴了 seL4 的权限管理、内存管理和 SMP 设计等基本框架,但在 IPC 机制和任务调度方面进行了优化和改进,如3.1所示,ReL4 将 IPC 从内核中移除,内核仅支持基于硬件的通知机制,应用程序仅需在注册时陷入内核分配相应的硬件资源,在通知过程中,通过硬件直接传递信号,减少特权级切换;同时,ReL4 在用户态设计了一套异步运行时,由用户态实现异步 IPC 和异步系统调用,所有的数据传递都通过共享缓冲区实现,由通知机制进行同步,并提供协程的概念作为任务调度的基本单位,提升系统并发性;最后,ReL4 使用 TAIC———种基于用户态中断的调度器硬件加速单元,减少低并发场景下的运行时开销。



图 3.1 ReL4 的系统架构图

#### ReL4 的设计原则如下:

- 内核最小化原则:精简内核,在内核中移除同步 IPC,由用户态实现。
- 避免特权级切换:通过软硬结合等手段避免系统在 IPC、通知和系统调用过程中的频繁地进行特权级切换。
- 易用性原则:通过编程语言支持和接口封装等手段,避免用户层接口的改动,同时提供更易用的异步化接口简化编程模型。

本章的剩余内容将详细介绍系统设计的两个核心内容:通知机制和异步运行时。

### 3.1 通知机制

ReL4 将整个系统中的通知机制按照收发双方的特权级进行分类: 1) 用户态通知用户态; 2) 内核态通知用户态; 3) 用户态通知内核态; 4) 内核态通知内核态。本文希望借助用户态中断并辅助软件设计,尽量避免通知过程中的特权级切换。对于 1) 和 2) 而言, ReL4 借助用户态中断,重新设计了 seL4 的通知机制,避免了特权级切换,对于 3), ReL4 通过系统调用的形式通知内核,并通过自适应轮询机制减少通知的次数,对于 4),不存在特权级的切换,仅通过核间中断就可以实现内核态之间的通知。因此本文将着重介绍基于用户态中断的通知机制(U-notification),以及用于减少通知次数的自适应混合轮询机制。

#### 3.1.1 U-notification

如3.2所示,用户态中断使得控制流和数据流相互分离。ReL4 在 notification 内核对象中维护了对应的硬件资源索引,控制流主要由用户态向内核进行注册,申请硬件资源,数据流则通过特殊的用户态指令访问用户态中断控制器,从而在通信过程中避免了特权级的切换。



图 3.2 ReL4 的系统架构图

控制流主要分为发送方的注册和接收方的注册。接收方在用户态通过*Untyped\_Retype*。申请一个 Notification 对象之后,调用 *TCB\_Bind* 接口进行硬件资源绑定,运行时进一步调用 *UintrRegisterReceiver* 系统调用,将运行时中定义的用户态中断向量表注册到 TCB 中,申请 UINTC 的接收状态表项,并绑定到 Notification 对象及其对应的

线程上。发送方通过 Capability 派生的形式(直接构造发送方的 Capability 空间,或通过内核转发的形式获取 Capability)获取指向 Notification 对象的 Capability,第一次调用 Send 操作时,运行时会判断 Cap 是否有对应的 Sender ID,如果没有,则调用 *UintrRegisterSender* 系统调用进行发送端注册,并填充对应的 SenderID。相关资源的回收则通过已有的 *revoke* 或 *delete* 系统调用注销内核对象。

数据流由硬件直接传递,无需通过内核。发送端在注册完成之后,可以直接调用 *uipi\_send* 指令,指令根据 Sender Status Table Entry 中的索引设置中断控制器中的寄存器。如果接收端本身在 CPU 核心上运行,会立刻被中断并跳转到注册的中断向量表,否则会等到被内核重新调度时再处理通知。

与传统的 notification 相比, U-notification 只需要在注册阶段陷入到内核, 而通信过程由硬件完成,

### 3.1.2 自适应的混合轮询

虽然用户态中断的开销小于特权级切换,但仍然对程序局部性和内存局部性不够 友好,且用户态通知内核态仍然要进行特权级的切换,而轮询虽然可以避免中断式通知,但却会导致 CPU 资源的浪费,因此 ReL4 在共享缓冲区中维护通知处理程序的就绪状态标识。当通知频率足够高或处理程序负载足够大,以至于上一个通知还未被处理完成,下一个通知就即将发起,处理程序会始终处于运行状态,此时发送端无需发送额外的通知,其工作方式等价于轮询模式。当通知频率较低时,处理程序在大部分时间处于阻塞状态,节省 CPU 资源,工作方式等价于中断模式。

## 3.2 异步运行时

由于内核不再支持同步 IPC,为了提升用户态的易用性,ReL4 在用户态设计了 异步运行时,它提供了如下功能,使得用户态程序设计变得更加简单和高效:

- 共享缓冲区: 用于跨进程的零拷贝数据传递。
- 协程与调度器:提升用户态的并发度,减少用户态中断和特权级切换次数,并为不同负载的任务提供可定制性调度策略。
- API 兼容层:提供与 seL4 相同的通知机制、异步系统调用和异步 IPC 的用户态接口,提升系统易用性。

#### 3.2.1 共享缓冲区

由于 U-notification 只能传递通知信号,因此 ReL4 依然需要共享缓冲区来作为 IPC 数据传递的主要形式。以 IPC 中最常见的 Call 为例,客户端需要将请求数据准备 好并写入共享缓冲区中,而服务端将在某个时刻从共享缓冲区中读取请求,处理后将 响应写回共享缓冲区,而客户端也将在之后的某一时刻从共享缓冲区中读取响应并进 行相应处理。这个流程中有几个挑战需要明确:

- 1. 请求和响应的格式和长度如何设计才能使得缓冲区访问效率更高。
- 2. 在共享缓冲区中如何组织请求和响应的存取形式,才能在数据安全读写的前提下保证性能。
- 3. 客户端和服务端如何选择合适的时机来接收数据。

如3.3所示,一个 IPC 消息(请求或响应)被定义为 IPCItem,它是 IPC 传递消息的基本单元,为了减少消息读写以及编解码的成本,ReL4 采用定长的消息字段。每个 IPCItem 的长度被定义为缓存行的整数倍并对齐,消息中的前四个字节存储发送端的 sender id,方便后续发送 U-notificaiton 进行唤醒,后四个字节记录写入的协程 id,便于后续进一步唤醒,msg info 用于存储消息的元数据,包含了消息类型、长度等。extend msg 将被具体的应用程序根据不同的用户进行定义。



图 3.3 共享缓冲区的结构图

客户端在发起请求之前需要先从缓冲区中申请一个 IPCItem 并将对应的索引写入请求队列,服务端会根据请求队列中的索引读取请求消息,并将响应写回到对应的 IPCItem,并将索引写入响应队列。由于请求队列和相应队列会被一个以上的线程同时访问,因此需要设计同步互斥操作来保证数据的读写安全。同时队列的访问极为频繁,需要尽可能避免数据竞争来保证读写性能。ReL4 将请求和响应的索引放到不同

的环形队列中,同时不同的发送方和接收方使用不同的环形队列以保证单生产者单消费者的约束,消除过多的数据竞争,最后,ReL4使用无锁的方式[27]进一步提升环形队列的读写性能。

最后,为了支持 2.1.2 中所提到的自适应轮询机制,ReL4 还在队列中维护了对端处理程序的就绪状态标识 handler\_status,客户端和服务端将根据该标志位来决定是否发送 U-notification。

#### 3.2.2 协程与调度器

传统微内核中的同步 IPC 会导致发送端线程阻塞,从而造成一些没有依赖的 IPC 被迫以顺序的形式执行,或者强制要求多线程来实现并发。而 ReL4 中的异步运行时 将协程作为任务的执行单元,以提升用户态并发度。同时,为了减少调度的开销,主要是跨进程唤醒协程的开销,ReL4 基于 TAIC 来进行硬件加速。

如3.4所示,TAIC 是一个基于用户态中断的调度器加速单元,它将用户态中断的中断号与协程号进行一一绑定,并使用硬件来自动唤醒协程。在理想情况下,软件无需手动唤醒协程,然而由于硬件资源有限,用户态中断号仅支持 0~31,而协程的数量远远大于这个量级,因此每个运行时中常驻了一个 dispatcher 协程,并绑定 0 号中断向量,当中断号不够用时,硬件唤醒对应的 dispatcher 协程,之后由 dispatcher 协程手动唤醒其他协程。



图 3.4 调度器的结构图

ReL4 将协程分为 worker 协程和 dispatcher 协程,用户态的 IPC 任务都将被封装到 worker 协程,由运行时内的调度器进行调度,而 dispatcher 协程则在硬件资源有限

的情况下进行二级唤醒。从调度器的角度来看,不同进程的调度器相互独立,每个进程中的 worker 协程和 dispatcher 协程存在着一定的依赖关系。以 IPC 场景下的客户端为例,worker 协程用于发起 IPC 请求,dispatcher 协程则是处理响应。从高吞吐率的角度来讲,自然是希望更快的处理 worker 协程,而从低延迟的角度来讲则是希望优先调度 dispatcher 协程,高吞吐和低延迟的特性由上层业务决定,框架层只根据业务配置进行支持。此外,不同的 worker 协程也需要有轻重缓急之分,以便更有效率地利用 CPU 资源。

基于上述原因, ReL4 在调度器中维护了一个优先级队列,每个协程都被设有相应的优先级,调度器在内部维护了一个优先级位图和若干任务队列,调度器将根据优先级位图选出最高的优先级,找到对应的任务队列并以先进先出的形式选出任务来运行。用户态程序根据业务特点设置相关的优先级,以达到性能调优的目的。

### 3.2.3 API 兼容层

为了使异步系统调用和异步 IPC 能够与同步接口保持一致,异步运行时提供了异步系统调用和 IPC 的的 hook 库,用户态的请求将会被 hook 库接管,hook 库根据不同的调用类型,来自动选择是否转化为异步系统调用或 IPC。需要注意的是,无法转化为异步系统调用的主要有以下两类:

- 1. 由于异步系统调用依赖于异步运行时,因此与异步运行时初始化相关的系统调用无法被异步化。
- 2. 对于实时性要求较高的系统调用无法进行异步化,如  $get\_clock()$ 。

而为了尽可能兼容 seL4 中的 capability 机制,运行时库中还维护了 notification cap 与用户态中断相关资源的映射:

- 1. sender map: 由于 U-notification 以及异步 IPC 都无需通过内核,因此运行时需要维护 capability 与 sender id 以及共享缓冲区的映射关系。
- 2. uintr vec map: 用户态中断通过中断向量区分发送端,而 seL4 通过 capability 区分发送端,为了兼容多发送端,运行时需要维护相关的映射关系。

# 第4章 ReL4系统实现

为了简洁高效地实现异步微内核的原型系统,本项目使用 Rust 语言在 RISC-V 平台上实现了一个兼容 seL4 的微内核 ReL4,目前已经支持 SMP 架构和 fast-path 优化。在兼容 seL4 原始功能的基础(包括 SMP 和 fast-path 优化)上,ReL4 实现了 Unotification 以及异步 IPC 和异步系统调用。在实现过程中对内核接口更改和使用的一些重要细节将在本章描述。

## 4.1 新增系统调用

如4.1所示,为了支持内核对 U-notification 的硬件资源管理,ReL4 新增了系统调用: UintrRegisterSender 和 UintrRegisterReceiver 用于申请相关的硬件资源,其参数是 notification 内核对象对应的 Capbability。内核会从 UINTC 中分配对应的硬件寄存器 索引,并将对应的索引绑定到 TCB 中,资源的释放不需要额外的系统调用,当 TCB 或 notification 对象销毁时会自动释放掉硬件资源。

此外,为了支持异步系统调用,共享缓冲区也需要通过系统调用 (UintrRegisterAsyncSyscall) 注册给内核,内核会为将共享缓冲区与 TCB 绑定,并为该线程注册处理该缓冲区请求的内核协程。最后,由于用户态中断不支持用户态直接通知内核态,内核提供一个用于唤醒系统调用处理协程的系统调用 UintrWakeSyscallHandler,内核会将对应的处理协程唤醒,并找到一个空闲的 CPU 核心发送核间中断去抢占执行。

为了对 seL4 进行兼容,这些系统调用均由异步运行时在初始化时进行调用,用户程序无需感知。

| syscall                   | 参数                   | 描述           |
|---------------------------|----------------------|--------------|
| UintrRegisterSender       | ntfn_cap             | 注册通知发送端      |
| UintrRegisterReceiver     | ntfn_cap             | 注册通知接收端      |
| UintrRegisterAsyncSyscall | ntfn_cap, buffer_cap | 注册异步系统调用处理协程 |
| UintrWakeSyscallHandler   | -                    | 唤醒系统调用处理协程   |

表 4.1 ReL4 中的新增系统调用

## 4.2 异步 IPC

异步 IPC 作为 ReL4 中的主要的 IPC 方式,其实现依赖于异步运行时和 U-notification。以 IPC 中最常见的 Call 为例,如4.1所示,客户端进程和服务端进程在双方建立连接时,首先会想内核申请两条通道所占用的硬件资源,然后每个进程中的 runtime 会注册一个 dispatcher 协程并将绑定 0 号中断向量,用于在 TAIC 资源不够的情况下,用软件方式唤醒 worker 协程。服务端和客户端的 worker 协程则负责发起和处理请求,由runtime 将数据写入共享缓冲区中。由于中断向量有限,runtime 会尝试为每个 worker 协程分配中断向量,分配到中断向量的协程,其唤醒过程由 TAIC 完成,没有分配到中断向量的协程,其唤醒过程由 dispatcher 协程完成。



图 4.1 调度器的结构图

Call 的主要流程分为以下几个阶段:

- 1. 客户端发起请求: 用户态程序将以 worker 协程的形式发起 IPC 请求,异步运行时首先会尝试分配一个中断向量给 worker 协程,如果如果没有分配到,则复用 dispatcher 协程的 0 号中断,然后根据请求的数据和协程的协程号、中断号生成 IPCItem 并写入请求的环形缓冲区中并将当前协程阻塞,然后检查缓冲区的 req\_handler\_status 标志位,如果对方的 dispatcher 协程已经就绪,那客户端无需通知对方进程,对方进程的异步运行时会在某个时刻调度到 dispatcher 协程并处理请求。如果对方的 dispatcher 协程处于阻塞状态,则异步运行时会将 req\_handler\_status 标志位置位,并发送 U-notification 通知对方进程唤醒 dispatcher 协程并重启调度。
- 2. 服务端处理请求并写回响应: 服务端的 dispatcher 协程会在合适的时机读取

出请求并进行解码和处理,然后根据处理结果构造响应的 IPCItem 并写入响应的环形缓冲区中,如果中断号是 0 号协程,则 runtime 会检查缓冲区中的 req\_handler\_status 标志位后尝试唤醒客户端的 dispatcher 协程,否则直接通过 TAIC 唤醒客户端的 worker 协程。如果缓冲区内容为空,dispatcher 协程会将 req\_handler\_status 标志位置空,并将自己阻塞。

3. 客户端处理响应:客户端的 dispatcher 协程会在合适的时机重新被调度并唤醒没有分配到 TAIC 资源的 worker 协程,唤醒后的 worker 协程会从缓冲区中读取响应并释放缓冲区资源。

其伪代码如1所示。

#### Algorithm 1: 异步 IPC 流程的伪代码

```
1 fn (async ipc call(cap, msg info) \rightarrow Result<IPCItem>)
      vec = get_vec_from_pool();
      item = IPCItem::new(vec, current_cid(), msg_info);
3
      buffer = get buffer from cap(cap);
4
      buffer.req ring buffer.write(item);
5
      if buffer.req co status == false then
6
          buffer.req_co_status = true;
7
          u notification signal(0);
 8
      end
9
      if let Some (reply) = yield now (). await then
10
          return Some (reply);
11
       end
12
       return Err (());
13
14 fn (async ipc recv reply(cap))
15
      buffer = get buffer from cap(cap);
       while true do
16
          if let Some (item) = buffer.req ring buffer.get() then
17
              reply = handle item(item);
18
              buffer.resp ring buffer.write(reply);
19
              if buffer.reply co status == false then
20
                  buffer.reply co status = true;
21
                  u notification signal(item.vec);
22
              end
23
          end
24
          else
25
              buffer.req co status = false;
26
              yield now ().await;
27
          end
28
       end
29
```

## 4.3 异步系统调用

从广义的角度来看,异步系统调用是一类特殊的异步 IPC,其接收方为内核。因此 ReL4 在内核中提供了一套相似的异步运行时以支持异步系统调用。异步系统调用与异步 IPC 的主要不同之处有两点:

- 1. 由于接收端是内核,发送端无法使用 U-notification 去通知内核。
- 2. 异步 IPC 中进程的异步调度器就是进程的执行主体,无需考虑异步任务的执行时机,而内核除了异步系统调用请求需要调度器执行,本身就有如中断、异常、任务调度等其他任务需要被执行。

对于第一点,ReL4 新增一个系统调用去用于唤醒相关的内核协程即可。而对于第二点,一个很简单的思路是每次时钟中断到来时去执行异步系统调用,然而这可能会导致空闲的 CPU 核心无法及时触发时钟中断而空转,因此,在不破坏原本的线程优先级调度前提下,ReL4 使用核间中断来抢占空闲 CPU 核心或正在运行低优先级线程的 CPU 核心,更好地利用空闲 CPU 资源,减少响应时延。

为了避免破坏微内核中原本的优先级调度机制,ReL4 在内核中对每个 CPU 核心维护了相应的执行优先级 (exec\_prio), 执行优先级区别于上文提到的运行时协程优先级, 是由内核调度器维护的线程优先级。内核中的任务主要分为三类:

- 1. idle thread: 空闲 CPU 核心执行 idle 线程,此时 CPU 核心的执行优先级为 256,属于最低的执行优先级。
- 2. 内核态任务:正在处理中断、异常、系统调用等,此时 CPU 核心的执行优先级为 0,最高优先级,不可被抢占。
- 3. 用户态任务: 正在执行用户态的任务, 此时 CPU 核心的执行优先级为当前线程的优先级, 可以被更高优先级线程提交的异步系统调用请求打断。

当发送端通过系统调用陷入内核去唤醒相应协程后,会检查当前线程的优先级是否可以抢占其他 CPU 核心,如果可以,则发送核间中断抢占该 CPU 核心去执行异步系统调用,当前 CPU 核心则返回用户态继续执行其他协程。如果没有可以被抢占的 CPU 核心,则在下一次时钟中断到来时执行异步系统调用请求,其伪代码2所示:

#### Algorithm 2: 唤醒内核中异步处理协程的伪代码

```
1 fn (wake syscall handler())
      current = get current thread();
      if let Some(cid) = current.async sys handler cid then
3
         coroutine wake(cid);
         current exec prio = current.tcb prio;
5
         (cpu_id, exec_prio) = get_max_exec_prio();
6
         if current exec prio < exec prio then
7
             // 抢占低执行优先级的核心
8
             mask = 1 \ll cpu id;
9
             ipi send mask(mask, ASYNC SYSCALL HANDLE);
10
         end
11
      end
12
```

## 4.4 兼容性讨论

为了提升用户态程序的易用性, ReL4 对 seL4 的程序提供一定的兼容性。ReL4 中已经实现了 seL4 的基本系统调用并支持对称多处理机(SMP),但采用不同的通知机制和 IPC 设计和系统调用处理机制,因此有必要讨论这两部分的兼容性。

#### 4.4.1 Notification 与 U-notification

相比于原始的通知机制,U-notification 在通信权限控制方面同主要存在以下两点不同:

- 1. 原始的通知机制允许多个接收线程竞争接收一个内核对象上的通知,这种设计的目的是为了支持多接收端的场景,事实上,多接收端已经通过多个内核对象来进行支持,因此这种机制相对冗余,而由于 U-notification 中接收端对接收线程的独占性,这个能力将不再被支持。
- 2. 原始的通知机制允许单个接收线程接收多个内核对象上的通知,这种设计的目的是更灵活地支持多发送端的场景,在 U-notification 中,同一个内核对象可以被设置为相同的 recv status idx,不同的发送端则通过使用中断号 (uintr vec) 来进

行区分。

除了权限控制有所不同之外,改造前后的通信方式也有所区别。原始的通知机制需要用户态接收方通过系统调用主动询问内核是否有通知需要处理。根据是否要将线程阻塞,一般被设计为 Wait 和 Poll 两个接口。而 U-notification 无需接收线程主动陷入并询问内核,接收方被硬件发起的用户态中断打断,并处理到来的通知,这在很大程度上解放了接收方,程序设计者无需关心通知到来的时机,减少了 CPU 忙等的几率,提升了用户态的并发度。而为了提升 U-notification 的易用性,ReL4 对原始的通信接口进行了兼容:

- 1. Poll: 无需陷入内核态, 在用户态读取中断状态寄存器, 判断是否有效并返回。
- 2. Wait: 对该接口的兼容需要用户态的异步运行时的调度器提供相关支持,在没有有效中断时,该操作将阻塞当前协程并切换到其他协程执行,等待用户态中断唤醒。

综上所述,对于多接收方的场景, U-notification 可以通过多个内核对象进行实现,除此之外, U-notification 可以实现 API 级别的兼容。

#### 4.4.2 同步 IPC 与异步 IPC

异步 IPC 通过异步运行时可以在基本通信场景下上实现 API 级别的兼容,然而 seL4 中的同步 IPC 还有额外的能力:

- 1. 错误处理: 同步 IPC 可以用于缺页异常等处理, seL4 通过在 TCB 中维护一个 Endpoint 对象来发送错误信息给用户态程序进行处理, 而在 ReL4 中, TCB 中将 维护对应的 U-notification 对象, 以及对应的共享缓冲区指针, 当异常和错误发 生时,将错误信息写入共享缓冲区,并发送 U-notification 通知用户态程序。此 场景下依然可以实现 API 级别的兼容。
- 2. 能力派生: seL4 中的同步 IPC 拥有能力派生与传递的功能,虽然内核已经支持了 Capability Space 相关的系统调用,同步 IPC 使得能力传递更加灵活。而由于异步 IPC 不经过内核,因此 ReL4 中不再支持通过 IPC 来进行能力派生,仅通过系统调用进行能力派生,损失了一部分灵活性,保留了功能的完整性。

此外,异步运行时导致用户态任务模型存在语义上的区别,异步 IPC 任务将以协程作为任务的基本单位,因此相比于同步 IPC 任务之外,异步 IPC 提供了主动让权的

API,同时,相比于同步 IPC,相同运行时内的不同异步 IPC 任务不存在并行性,无需同步互斥等操作,提升了用户态易用性。

综上所述,异步 IPC 在大部分情况下依然能实现 API 级别的兼容。

### 4.4.3 同步系统调用于异步系统调用

与异步 IPC 类似,异步系统调用的发起依然以协程为单位进行,但与同步系统调用的处理不同,为了充分利用 CPU 硬件,异步系统调用的处理采用多核心、抢占式处理,如果系统中存在空闲核心或执行低优先级任务的核心,异步系统调用会抢占该核心并处理系统调用请求,因此系统调用的发起和处理有可能是多核心且并行的。

此外,有两类系统调用无法异步化:

- 1. 由于异步系统调用依赖于异步运行时,因此与异步运行时初始化相关的系统调用无法被异步化。
- 2. 对于实时性要求较高的系统调用无法进行异步化,如  $get\_clock()$ 。

对于上述两类,我们通过异步运行时中的 API 兼容层进行自动判断,对于无法异步化的系统调用,运行时将自动转化为同步系统调用进行处理。综上所述,异步系统调用可以实现 API 级别的兼容。

# 第5章 实验评估

为了全面验证 ReL4 微内核系统的正确性和高效性,本章设计了一套完整的测试方案,从功能正确性、兼容性和运行效率三个维度进行评估。硬件实验平台采用 Xilinx Zynq UltraScale+ MPSoC FPGA 开发板,该平台搭载了支持 N 扩展指令集的四核 RISC-V 处理器,运行频率为 100MHz,为测试提供了可靠的硬件基础。软件实验平台使用 opensbi v1.3 作为 SBI 层实现,操作系统内核为 ReL4 kernel,并在用户态链接 ReL4 Async runtime,网卡驱动使用 AXI-Net driver,并在网络驱动上适配开源的网络协议栈 smoltcp。平台参数如5.1所示。

在功能验证和兼容性测试方面,本文重点关注内核核心模块的功能正确性,以及对 seL4 的兼容性,因此采用 seL4test 作为功能验证和兼容性测试框架。测试结果表明,ReL4 在保证基本系统调用和微内核基本功能(内存管理、任务调度、IPC等)的前提下,对 seL4 有着良好的兼容性。

性能评估部分采用了对比实验的方法,将 ReL4 与原生 seL4 在相同硬件平台上进行基准测试。测试指标包括特权级切换次数、IPC 延迟、吞吐量等核心系统开销。实验数据显示,得益于硬件加速和异步运行时优化,ReL4 在大多数测试场景中表现出更优的性能,特别是在高频 IPC 通信场景下,ReL4 的 IPC 性能比 seL4 高出 3x+。此外,通过运行真实场景下的网络服务器测试,本文验证了异步系统调用和异步 IPC 对微内核系统中的网络子系统有着明显收益。

下面将分别介绍功能测试与性能测试的详细细节。

| FPGA             | Zynq UltraScale + XCZU15EG-2FFVB1156 MPSoC |                                 |  |
|------------------|--------------------------------------------|---------------------------------|--|
|                  | RISC-V soft IP core                        | rocket-chip with N extension, 4 |  |
|                  | KISC-V SOIL IF COIE                        | Core, 100MHz                    |  |
|                  | Ethernet IP core                           | Xilinx AXI 1G/2.5G Ethernet     |  |
|                  |                                            | Subsystem (1Gbps)               |  |
| Operating System | ReL4                                       |                                 |  |
| Network Stack    | smoltcp                                    |                                 |  |

表 5.1 实验平台信息

## 5.1 功能测试

ReL4 的功能验证工作主要基于 seL4 微内核的官方测试框架 seL4test 进行。作为 seL4 生态系统的标准测试套件,seL4test 提供了全面而严格的测试用例集,涵盖系统 调用、任务管理、内存管理、进程间通信(IPC)以及能力(Capability)机制等微内 核核心功能模块。该测试框架采用分层测试策略,包含从基础功能验证到复杂场景测试的多层次测试用例,能够有效保证微内核实现与形式化规范的一致性。

在验证过程中,我们充分利用了 ReL4 与 seL4 的 API 兼容性特性。测试结果表明, ReL4 能够完整通过 seL4test 框架中绝大部分测试用例(具体测试结果参见表5.2)。这一结果不仅验证了 ReL4 在核心功能实现上的正确性,同时也证实了 ReL4 与 seL4 在系统接口层面的高度兼容性。值得注意的是,如第4.4节所述,由于 ReL4 在通知机制和 IPC 机制实现上的创新设计,与原生 seL4 存在两处关键差异,这导致部分直接调用底层系统调用的测试用例需要进行适配性修改。

针对这些特殊情况,我们采取了最小化修改原则,仅对涉及差异机制的测试用例进行必要调整。具体而言,修改主要集中在以下两个方面:首先,对通知机制的测试用例进行了接口适配,使其能够兼容 ReL4 的新型事件通知模型;其次,对 IPC 的测试代码进行了封装改造,将运行时初始化等操作隐式包含在第一次发起 IPC 的操作中。这些修改严格控制在测试框架层面,并未改变测试的语义和验证目标,从而保证了测试结果的可靠性。

通过系统化的测试验证,我们确认 ReL4 在保持与 seL4 高度兼容的同时,其核心功能实现符合微内核的设计规范。测试过程中收集的详细数据(见表5.2)显示,除特别说明的差异点外,ReL4 能够完美支持 seL4 定义的所有核心功能特性。这一验证结果为 ReL4 在实际系统中的部署应用提供了坚实的功能正确性保障。

从表格中可以看出,除了在4.4 提到的两点,ReL4 在功能上已经对 seL4 的大部分能力进行了兼容。需要注意的是,由于 ReL4 和 seL4 在通知机制和 IPC 机制的设计上有所差异,而 seL4test 框架中存在较多直接调用系统调用的写法,因此在本节的测试中对 seL4test 代码进行了少量的修改以适配 ReL4。

| 测试套                                                                 | 通过情况                                                        | 说明                                                                                                                                                                                        |
|---------------------------------------------------------------------|-------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 基本系统调用<br>通知机制<br>IPC<br>错误处理<br>任务管理<br>能力空间管理<br>地址空间管理<br>物理内存管理 | 15/15<br>3/4<br>9/14<br>9/9<br>11/11<br>10/10<br>6/6<br>3/3 | 非 Invocation 的系统调用(如 Debug、Print 等系统调用)除了单内核对象多接收线程之外,其余全部通过除了通过 IPC 进行 capability 传递的 5 个测例,其余全部通过主要是页错误处理测试包括线程配置和调度包含 Capability 派生、删除、撤销等测试包含页表映射、物理内存映射等测试包含 Untyped 管理与 Retype 接口测试 |

表 5.2 ReL4 在 seL4test 的测试情况

## 5.2 性能测试

功能正确性测试虽然能够验证系统行为的合规性,但实际系统可用性还高度依赖于其运行时性能表现。为全面评估 ReL4 的性能特性,本节设计了一系列精细化的性能测试实验,从不同维度考察系统的运行效率。

首先,我们采用消融实验方法评估了关键优化技术对系统性能的影响。针对用户态通知机制(U-notification)和自适应混合轮询策略,分别测试了两个因素对系统性能的影响。实验数据显示,U-notification 机制能够显著降低通知机制的开销和延迟,而自适应轮询策略则在保证低延迟的同时,显著降低了 CPU 资源消耗。

在系统调用方面,我们以内存映射的系统调用为例,评估了异步系统调用对内存分配性能的提升效果。通过设计并发的内存分配压力测试,对比了传统同步调用与异步调用的性能差异。测试结果表明,在高并发场景下,异步内存分配器将能够显著提高系统吞吐量,有效利用 CPU 资源。

进程间通信性能是微内核系统的关键指标。我们采用典型的 Ping-Pong 测试方法,测量了不同并发度、不同 CPU 核心数下、不同硬件资源下的平均 IPC 开销。与原生 seL4 相比,ReL4 的异步 IPC 实现将小消息传输的性能最高提升 3x,在高并发场景下有着显著的优势。

为验证系统在实际应用中的表现,我们构建了高并发 TCP 服务器基准测试。该测试模拟了真实网络环境中的连接建立、数据传输等典型操作。网络协议栈以进程的形式运行,服务器通过 IPC 请求服务,基准测试结果显示,在高并发连接的压力下,ReL4 能够维持稳定的吞吐量,且资源消耗显著低于对比的同步 IPC 系统。这一结果证实了 ReL4 在复杂应用场景中的实用价值。

下面将详细介绍本节的实验设计方案和结实验结果。

#### 5.2.1 消融实验

为深入评估 ReL4 核心优化机制的实际效果,本节设计了两组消融实验,分别针对用户态通知机制(U-notification)和自适应混合轮询策略进行定量分析。

第一个消融实验系统性地比较了 U-notification 与传统内核通知机制在单核与多核环境下的性能差异。如5.1(a) 所示, U-notification 在软件实现层面通过减少页表切换和进程调度次数,显著降低了通知延迟。具体而言,在单核测试场景中,U-notification将平均延迟降低了 45%(性能提升 0.8 倍)。更值得注意的是,在多核测试中,传统通知机制由于依赖核间中断(IPI)唤醒接收进程,且受限于内核临界区的串行访问特性,导致接收核心必须等待发送核心完全退出内核态后才能处理中断,产生了额外的调度延迟。实验数据显示,这种设计在多核环境下造成了显著的性能退化,而U-notification通过完全在用户态完成事件通知,避免了特权级切换和进程调度开销,使得多核性能提升达到 4 倍。

第二个消融实验重点评估了不同事件处理策略对系统性能的影响。在固定 16 个客户端并发度的测试环境下,我们对比了纯中断、纯轮询以及自适应混合轮询三种模式的性能表现。如5.1(b) 所示,实验结果表明: 纯中断模式虽然能保持较高的 CPU 利用率(平均 >95%),但由于中断处理固有的上下文切换开销,导致平均延迟较高(>10000 cycles);纯轮询模式虽然实现了较低的延迟(<7000 cycles),但造成了严重的 CPU 资源浪费(利用率 <60%)。相比之下,自适应混合轮询机制通过动态调整轮询频率和中断触发阈值,在延迟(平均 8000 cycles 左右)和 CPU 利用率(平均 92%)之间实现了最优平衡。该机制的核心创新在于其负载感知能力,能够根据系统实际负载情况智能地切换工作模式:在低负载时倾向于轮询以降低延迟,在高负载时自动增加中断比例以提高 CPU 使用效率。

综合分析实验结果可以得出: U-notification 通过消除内核介入带来的开销,在多核环境下展现出显著优势;而自适应混合轮询机制则通过动态策略调整,实现了延迟与资源利用率的最佳权衡。这些优化共同构成了 ReL4 高性能特性的技术基础,为其在实际应用场景中的优异表现提供了机制保障。



图 5.1 U-notification 与自适应混合轮询的消融实验

#### 5.2.2 内存分配服务器

为深入理解异步系统调用对操作系统性能的影响,本节设计了一个基于用户态内存管理服务的对比实验。实验构建了一个典型的生产者-消费者模型,其中多个工作线程通过消息队列向核心服务线程发送内存操作请求。该设计模拟了现代系统软件中常见的内存管理场景,为评估系统调用性能提供了可靠的测试平台。

在实验方法上,本节采用了严格的对照设计。通过保持硬件环境、工作负载等条件一致,仅改变系统调用方式(同步/异步)这一独立变量,确保了实验结果的有效性和可比性。测试过程中,我们不仅关注传统的平均 CPU 周期指标,还特别考察了内核交互频率这一关键参数,以全面评估不同系统调用方式对整体系统性能的影响。

实验结果如5.2所示,从系统调用的整体性能趋势来看,异步实现的内存分配器展现出显著的可扩展性优势。随着并发度的提高,其性能呈现近似线性的增长趋势,这一现象在并发度达到 64 时趋于稳定。深入分析表明,这种性能提升主要源于一个关键因素:高并发条件下批处理效应显著降低了内核陷入频率,测试数据显示在 64 并

发时内核交互次数较同步情况减少了 95% 以上,特权级切换次数的减少直接降低了上下文保存与恢复的开销,同时还增强了代码局部性。

在同步与异步实现的对比分析中,观察到一个重要的临界点现象。当并发度低于 32 时,同步系统调用反而展现出更好的性能表现。这一看似矛盾的现象可以通过细致的开销分解得到解释:异步机制虽然减少了特权级切换,但引入了额外的运行时管理开销(平均每个请求增加约 2000 个 CPU 周期)。量化分析显示,在并发度为 16 时,异步方案的总开销比同步方案高出约 35%。然而,当并发度超过 32 后,异步方案的优势开始显现。此时,批量处理带来的规模效应使得单次内核陷入可以处理多达 20 个左右请求,特权级切换的开销占比下降,从而实现了性能的反超。

从执行架构的角度考察,多核环境下的性能特征呈现出新的特点。当内核与客户端分布在不同的 CPU 核心上时,系统调用的请求处理与内核执行可以实现真正的并行化。测试数据显示,这种配置下的吞吐量比单核情况提升了约 16%。然而,值得注意的是,由于内核独占一个计算核心,其负载压力相对降低,这导致了一个意外的现象: 在多核配置下,客户端陷入内核的频率反而比单核情况高出约 25%。这一现象揭示了内核负载与客户端行为之间复杂的相互作用关系,为后续的系统优化提供了新的研究方向。



图 5.2 内存分配服务器性能测试实验

#### 5.2.3 同步 IPC vs. 异步 IPC

为深入理解异步 IPC 的性能特性,本节设计了一套乒乓测试方案,通过控制服务端与客户端进程的交互模式,排除了其他系统组件的干扰,专门考察同步与异步 IPC 的路径差异。如5.3所示,实验结果揭示了若干重要的性能特征。

同步 IPC 的性能表现呈现出明显的场景依赖性。在多核环境下,由于 fast-path 检查必然失败,所有 IPC 请求都需要通过核间中断进行传递,导致性能显著下降。测试数据显示,多核同步 IPC 的延迟比单核情况增加了近 3 倍。而在单核场景下,当满足fast-path 条件时(即线程优先级匹配且消息长度短),同步 IPC 可以绕过复杂的消息解码和调度流程,性能提升幅度达到 167%。然而,实际应用中的统计表明,由于严格的检查条件限制,fast-path 优化的适用场景相当有限,仅在单核且 C/S 请求模式下的短消息传递才能生效。

异步 IPC 则展现出截然不同的性能特征。随着并发量的增加,其性能呈现明显的改善趋势。这一现象可以从两个层面进行解释:首先,自适应 U-notification 机制会根据负载情况动态调整通知频率,在高并发时减少不必要的中断;其次,批量处理效应使得固定开销得以分摊。值得注意的是,多核环境下的性能优势呈现出有趣的动态变化:在低并发时(1-4个并发请求),多核配置比单核快 52%,这得益于真正的并行处理;但随着并发度增加(超过 16 个请求),优势逐渐缩小至 17%。深入分析表明,这是由于专用服务端核心的负载不足,导致中断频率过高,反而限制了整体吞吐量。

同步与异步 IPC 的性能对比揭示了一个关键的系统设计权衡。在低并发场景(并发度 =1)下,异步 IPC 由于额外的用户态中断(2次)和调度器开销,其性能比无fast-path的同步 IPC 低 31%,比带 fast-path的同步 IPC 更低达 249%。然而,随着并发度增加,异步 IPC 的优势快速显现:当并发度达到 8 时,其性能已超过带 fast-path的同步 IPC;在 32 并发时,性能优势达到 76%。这种动态特性说明,异步 IPC 特别适合现代高并发应用场景,而同步 IPC 则在特定低并发场景下可能更具优势。

而对比 TAIC 加速之后的异步 IPC,我们可以明显看到在低并发场景(并发度=1)下,异步 IPC 性能提高了 84%,不仅超越了普通同步 IPC,而且接近 fast-path 优化版本。这一提升主要源于 TAIC 的两个关键创新:首先,硬件自动化处理中断信号消除了软件中断处理的开销,改善了程序局部性并减少了上下文保存开销;其次,硬件自动唤醒协程避免了避免了运行时调度器的频繁操作。随着并发度提高,虽然中断优化的收益被均摊,但 TAIC 的唤醒机制优化仍能带来 48% 的性能提升,这主要得益于其

减少了运行时调度开销。

综合测试结果表明,异步 IPC 在多核环境下始终展现出良好的性能表现。TAIC 加速技术进一步拓展了其优势范围,使其在低并发场景也具备竞争力。虽然在单核低并发场景下异步 IPC 存在一定劣势,但随着并发度的增加,其性能优势迅速显现,在当今普遍的多核高并发计算环境下,结合 TAIC 等硬件加速技术的异步 IPC 架构具有显著的应用价值。



图 5.3 IPC 对比测试实验

#### 5.2.4 TCP 服务器

为验证异步 IPC 在实际应用中的性能优势,本节设计并实现了一个完整的 TCP 服务器基准测试系统。该测试架构采用微内核中典型的模块化设计,充分模拟了真实 网络应用场景中的数据处理流程。

如5.4所示,测试系统的客户端部署在标准 PC 上,通过以太网与运行在 FPGA 开发板上的 ReL4 系统建立网络连接。客户端采用多线程架构,每个线程维护独立的 TCP 连接,持续发送 64 字节的小数据包并等待服务器响应,统计响应延迟和吞吐量,用于评估系统在高并发小包处理场景下的性能表现。



图 5.4 TCP 测试场景示意图

在 ReL4 系统内部, 网络处理流程采用模块化设计。网络协议栈服务器 (NW Stack Server) 作为核心数据平面组件, 直接与网卡驱动交互, 负责底层数据包的收发和协议处理。该服务器集成了开源的 smoltcp 协议栈实现, 能够高效维护大量连接状态信息。通过精心设计的共享缓冲区机制, NW Stack Server 与上层 TCP Server 之间实现了零拷贝数据传输,最大限度地减少了内存复制开销。

TCP Server 作为应用层服务,通过 IPC 机制与 NW Stack Server 进行通信。这种架构设计使得网络协议处理和业务逻辑处理能够并行执行,充分发挥多核处理器的计算能力。性能指标采集方面,客户端会精确测量每个请求的端到端延迟,并统计单位时间内的消息吞吐量,为系统评估提供全面的性能数据。

需要注意的是,由于同步 IPC 在架构上存在固有局限,无法支持连接的多路复用,因此在同步配置下,每个 TCP 连接都需要独立的服务线程进行处理。这种设计虽然保证了功能正确性,但导致了显著的资源开销和性能下降。相比之下,异步 IPC 架构能够实现真正的连接多路复用,单个服务线程即可高效处理大量并发连接,展现出明显的性能优势。

如5.5所示,系统吞吐量与延迟随并发度的变化呈现出典型的非线性关系。在初始阶段(1-8个并发连接),吞吐量随并发度增加而增长,这反映了系统资源尚未达到饱和状态。当并发度超过临界值(约8个连接)后,系统进入过载状态,吞吐量开始下降。这一现象可以通过中断处理模型来解释:随着并发连接数增加,网卡中断频率呈线性上升,导致CPU将大量时间消耗在中断上下文切换上。同时,共享资源(如协



图 5.5 TCP 服务器性能测试实验

议栈缓冲区)的竞争加剧,进一步降低了系统效率。与吞吐量的抛物线特征不同,端 到端延迟在整个测试范围内保持单调递增,这符合排队论的基本原理,即系统负载增加必然导致请求等待时间延长。

同步与异步架构的性能对比展示了微内核异步 IPC 的设计优势。即使在低并发场景(1-4个连接)下,异步 IPC 架构已展现出显著优势,其吞吐量比同步实现高出85-120%,平均延迟降低约 40%。这种优势源于异步架构的两个关键特性:首先,它避免了频繁的内核态切换,使得网络中断能够被及时响应;其次,其事件驱动模型消除了传统多线程架构中的上下文切换开销。随着并发度增加,同步实现的多线程架构暴露出严重的扩展性问题。在 4 个连接时,性能差距达到峰值(192%)。值得注意的是,即使在最大测试负载下,异步架构仍保持 120% 的性能优势,证明了其在高压环境下的稳定性。

多核扩展性分析揭示了更深层次的架构差异。异步 IPC 实现能够有效利用多核资源,在双核配置下最好情况能实现接 52% 的加速比,同时将平均延迟降低约 52%。这种良好的扩展性得益于异步 IPC 几乎无需内核参与,避免了内核锁的竞争,实现了最大化并行。相比之下,同步 IPC 在多核环境中的表现反常地劣于单核情况(性能下降约 7%)。通过性能剖析发现,这种退化主要来自两个方面:核间中断引入的额外开销,以及核间中断导致陷入内核而产生的 TLB shootdown 性能惩罚。特别是在小数据包处理场景下,同步实现的核心局部性显著恶化,进一步放大了多核环境下的性能劣势。

上面的测试结果表明:异步 IPC 在实际应用场景中有利于多路复用的实现,可以有效减少特权级切换的开销,同时提升系统的多核扩展性,进而提升系统的整体性能。

# 第6章 总结

本文针对微内核系统中进程间通信(IPC)的性能瓶颈问题展开研究,提出并实现了基于用户态中断的高性能异步微内核 ReL4。通过系统性地重构传统微内核架构,本研究取得了以下创新性成果:首先,提出了一种纯异步的 IPC 机制,将同步 IPC 完全移出内核,仅保留异步通知机制,显著简化了内核设计;其次,创新性地利用用户态中断技术设计了 U-notification 机制,有效减少了特权级切换开销;最后,在用户态设计了异步运行时系统,大幅提升了编程易用性。实验结果表明,该架构使 IPC 性能提升达 3 倍,在网络服务器等 IPC 密集型应用中,系统整体性能最高提升 1 倍。

本研究提出的异步 IPC 和异步系统调用机制特别适用于高并发、上下文无关的通信场景。在低并发条件下,通过用户态中断技术和 TAIC 加速器有效弥补了异步运行时引入的额外开销。测试数据显示,虽然在极低并发场景下性能仍略逊于同步实现,但这一差距随着并发度的提升迅速逆转,足以证明异步微内核架构在性能方面的竞争力。未来工作可考虑通过硬件加速实现异步运行时中的其他关键操作,以进一步消除运行时开销,使系统在各类负载条件下均能保持卓越性能。

# 攻读学位期间发表论文与研究成果清单

#### (二) 发表的学术论文

- [1] XXX, XXX. Static Oxidation Model of Al-Mg/C Dissipation Thermal Protection Materials[J]. Rare Metal Materials and Engineering, 2010, 39(Suppl. 1): 520-524. (SCI 收录, IDS 号为 669JS, IF=0.16)
- [2] XXX, XXX. 精密超声振动切削单晶铜的计算机仿真研究 [J]. 系统仿真学报, 2007, 19 (4): 738-741, 753. (EI 收录号: 20071310514841)
- [3] XXX, XXX. 局部多孔质气体静压轴向轴承静态特性的数值求解 [J]. 摩擦学学报, 2007 (1): 68-72. (EI 收录号: 20071510544816)
- [4] XXX, XXX. 硬脆光学晶体材料超精密切削理论研究综述 [J]. 机械工程学报, 2003, 39 (8): 15-22. (EI 收录号: 2004088028875)
- [5] XXX, XXX. 基于遗传算法的超精密切削加工表面粗糙度预测模型的参数辨识以及切削参数 优化 [J]. 机械工程学报, 2005, 41 (11): 158-162. (EI 收录号: 2006039650087)
- [6] XXX, XXX. Discrete Sliding Mode Cintrok with Fuzzy Adaptive Reaching Law on 6-PEES Parallel Robot[C]. Intelligent System Design and Applications, Jinan, 2006: 649-652.(EI 收录号: 20073210746529)

#### (二) 申请及已获得的专利(无专利时此项不必列出)

[1] XXX, XXX. 一种温热外敷药制备方案:中国,88105607.3[P].1989-07-26.

#### (三)参与的科研项目及获奖情况

- [1] XXX, XXX. XX 气体静压轴承技术研究, XX 省自然科学基金项目. 课题编号: XXXX.
- [2] XXX, XXX. XX 静载下预应力混凝土房屋结构设计统一理论. 黑江省科学技术二等奖, 2007.

# 致谢

本论文的工作是在导师.....。

# 作者简介

本人…。