



#### 中国开放指令生态(RISC-V)联盟 China RISC-V Alliance







# 香山处理器B扩展的设计与实现

张发旺 深圳大学 2021年6月25日

#### ⇔背景

- 在机器学习,密码学等领域中存在大量位排列,分组,移位等运算。 引入位运算指令(Bit Manipulation Instructions)能够减少指令生成、 有助于加速上述运算。
- 因此,在RISC-V标准指令集中添加B扩展指令能够提升运算速度以及减少生成汇编程序大小。



## ⇔ 实现指令

- 实现了B拓展草案手册(0.92)RV64所有指令
  - 基本位操作指令
  - 位排列指令
  - 其他指令
- 移位加法指令



#### ⇔ 微架构

·功能部件:在4个ALU中实现4个位运算部件(BMU)

• 根据B扩展指令功能进行分类,将功能相似指令在一个子模块,复用资源,减少资源消耗





#### ⇔ 微架构

•以Count Module部分为例:clz, ctz, pcnt指令可以通过处理,利用中间结果,将该三条指令复用popcount硬件资源,得到最终结果



#### ⇔功能测试

- 测试工具:NEMU Difftest框架
  - 根据riscv-bitmanip C语言实现参考,在NEMU框架中添加指令
  - NEMU模拟器与处理器仿真 执行同一个程序, 在线对比指令执行结果
- 正确性/兼容性测试集:RISC-V B扩展asmtest程序[1]

[1]https://github.com/fwzhang/riscv-bitmanip/tree/master/asmtests/extB/autoasm

#### ⇔ 性能测试

- 测试程序:Coremark -O3
  - 执行指令数降低13.9%, 执行周期数降低8.2%, 加速比1.09x



#### ⇔ 性能测试

- 测试程序:Coremark -O3
  - Coremark 100runs 中B扩展指令占总指令数的9.7%,平均1条B拓展指令对应 2.51条RV64G指令
  - 引入B扩展, code占用存储空间减少约4.6%





#### **⇔** 后续优化点

- 该报告的工作仍在工作中,后续需作如下优化:
  - 实现1.0版本B扩展
  - 根据时序对部分指令进行分拍
  - 面积优化





#### 中国开放指令生态(RISC-V)联盟 China RISC-V Alliance





## 谢谢,请批评指正

## ⇔性能测试

- 测试程序:Dhrystone 500,000 runs -O2
  - 执行指令数降低0.2%, 执行周期数降低 30%, 加速比1.45x

|        | INSTRUCTIONS | CYCLES      |
|--------|--------------|-------------|
| RV64G  | 218,009,805  | 112,401,256 |
| RV64GB | 217,509,802  | 77,605,325  |