# 计算机组织与结构 II: CPU 设计文档

李勃璘 吴健雄学院

版本: 1.1

日期: 2025年4月11日

摘 要

本设计文档详细阐述了一款基于五级流水线的 CPU 体系结构及其 Verilog 实现。CPU 采用取指(IF)、译码(ID)、执行(EX)、访存(MEM)、写回(WB)五级流水线,以提高指令执行效率。文档首先介绍了 CPU 的总体架构,包括时钟与复位机制、关键存储单元、内部数据通路与控制信号,并详细说明了指令集架构及其编码格式。随后,针对流水线执行过程中可能出现的数据冒险、控制冒险、流水线暂停等问题,提出了旁路(Forwarding)、分支预测(Branch Prediction)、冒险检测(Hazard Detection)等优化方案,并给出了相应的 Verilog 设计。最后,文档分析了 CPU 与内存、总线及外部控制信号的交互方式,并探讨了 Verilog 在 FPGA 上的实现方案。该设计通过流水线优化与高效控制信号管理,提升了CPU 的吞吐率,为后续硬件优化和扩展提供了良好的基础。

# 目录

| 概述                                   |                                                                                                                                                                                                                                                          | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|--------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 体系                                   | 结构设计                                                                                                                                                                                                                                                     | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.1                                  | 总体架构                                                                                                                                                                                                                                                     | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.2                                  | 指令集架构                                                                                                                                                                                                                                                    | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.2.1 位宽设计                                                                                                                                                                                                                                               | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.2.2 寻址方式                                                                                                                                                                                                                                               | 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.2.3 指令集支持的指令                                                                                                                                                                                                                                           | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.3                                  | CPU 内部寄存器                                                                                                                                                                                                                                                | 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.4                                  | 算术逻辑单元 ALU                                                                                                                                                                                                                                               | 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.4.1 ALU 的数据通路                                                                                                                                                                                                                                          | 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.4.2 ALU 的内部控制信号                                                                                                                                                                                                                                        | 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.4.3 ALU 的内部控制逻辑                                                                                                                                                                                                                                        | 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.5                                  | CPU 内部数据通路、控制信号与微操作指令(Micro-Operations)                                                                                                                                                                                                                  | 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.5.1 数据通路与控制信号                                                                                                                                                                                                                                          | 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.5.2 微操作指令(Micro-Operations)                                                                                                                                                                                                                            | 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.6                                  | 内存(RAM)                                                                                                                                                                                                                                                  | 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2.7                                  | 总线与外部控制信号                                                                                                                                                                                                                                                | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.7.1 地址总线                                                                                                                                                                                                                                               | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.7.2 数据总线                                                                                                                                                                                                                                               | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 2.7.3 控制总线与外部控制信号(需要等待流水线设计好)                                                                                                                                                                                                                            | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 1/0                                  |                                                                                                                                                                                                                                                          | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      |                                                                                                                                                                                                                                                          | 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      |                                                                                                                                                                                                                                                          | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 3.2                                  |                                                                                                                                                                                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|                                      |                                                                                                                                                                                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|                                      | 3.2.1 UART 接收逻辑                                                                                                                                                                                                                                          | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| 2 2                                  | 3.2.1 UART 接收逻辑       UART 接收逻辑         3.2.2 数据缓冲与存储结构       UART 接收逻辑                                                                                                                                                                                  | 7<br>7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
| 3.3                                  | 3.2.1 UART 接收逻辑       UART 接收逻辑         3.2.2 数据缓冲与存储结构       UART 接收逻辑                                                                                                                                                                                  | 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
|                                      | 3.2.1 UART 接收逻辑          3.2.2 数据缓冲与存储结构          用户交互设计                                                                                                                                                                                                 | 7<br>7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
|                                      | 3.2.1 UART 接收逻辑          3.2.2 数据缓冲与存储结构          用户交互设计                                                                                                                                                                                                 | 7<br>7<br>8<br><b>8</b>                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
| 流水                                   | 3.2.1 UART 接收逻辑                                                                                                                                                                                                                                          | 7<br>7<br>8<br><b>8</b><br>8                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
| 流水<br>4.1                            | 3.2.1 UART 接收逻辑                                                                                                                                                                                                                                          | 7<br>7<br>8<br><b>8</b><br>8                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
| 流水<br>4.1<br>4.2<br>4.3              | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计 3.2.4 数据缓冲与存储结构                                                                                                                                                                                                   | 7<br>7<br>8<br>8<br>8<br>8                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
| 流水<br>4.1<br>4.2<br>4.3<br>模块        | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计  2.5 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2                                                                                                                                                                          | 7<br>7<br>8<br>8<br>8<br>8<br>9                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
| 流水<br>4.1<br>4.2<br>4.3<br>模块        | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计  *线架构与优化策略 总体架构 流水线冒险 流水线优化: 分支预测  *设计 UART 传输与指令写入                                                                                                                                                               | 7<br>7<br>8<br>8<br>8<br>8<br>9<br>9                                                                                                                                                                                                                                                                                                                                                                                                                                                        |
| 流水<br>4.1<br>4.2<br>4.3<br>模块        | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计  2线架构与优化策略 总体架构 流水线冒险 流水线化: 分支预测  4设计 UART 传输与指令写入 5.1.1 UART 模块                                                                                                                                                  | 7<br>7<br>8<br>8<br>8<br>8<br>9<br>9<br>9                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
| 流水<br>4.1<br>4.2<br>4.3<br>模块        | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计  3.2.4 数据缓冲与存储结构 用户交互设计  3.2.5 数据缓冲与存储结构 用户交互设计  3.2.6 数据缓冲与存储结构 用户交互设计  3.2.7 数据缓冲与存储结构 用户交互设计  3.2.8 数据缓冲与存储结构 上                                                                                                | 7<br>7<br>8<br>8<br>8<br>8<br>9<br>9<br>9                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
| 流水<br>4.1<br>4.2<br>4.3<br>模块<br>5.1 | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计 <b>线架构与优化策略</b> 总体架构 流水线冒险 流水线保化: 分支预测 <b>设计</b> UART 传输与指令写入 5.1.1 UART 模块  5.1.2 FIFO 模块                                                                                                                        | 7 7 8 8 8 8 9 9 9 0 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
| 流水<br>4.1<br>4.2<br>4.3<br>模块<br>5.1 | 3.2.1 UART 接收逻辑         3.2.2 数据缓冲与存储结构         用户交互设计         线架构与优化策略         总体架构         流水线冒险         流水线优化:分支预测         设计         UART 传输与指令写入         5.1.1 UART 模块         5.1.2 FIFO 模块       1         时钟、复位与停止信号       1         ALU       1 | 7 7 8 8 8 8 9 9 9 0 0 0 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
| 流水<br>4.1<br>4.2<br>4.3<br>模块<br>5.1 | 3.2.1 UART 接收逻辑 3.2.2 数据缓冲与存储结构 用户交互设计  2.线架构与优化策略 总体架构 流水线冒险 流水线优化: 分支预测  2.设计 UART 传输与指令写入 5.1.1 UART 模块 5.1.2 FIFO 模块 1 时钟、复位与停止信号 1 ALU 1                                                                                                            | 7 7 8 8 8 8 9 9 9 0 0 0 0 0 0                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
|                                      | 2.1<br>2.2<br>2.3<br>2.4<br>2.5<br>2.6<br>2.7                                                                                                                                                                                                            | 2.1 总体架构         2.2 指令集架构         2.2.1 位宽设计         2.2.2 寻址方式         2.2.3 指令集支持的指令         2.3 CPU 内部寄存器         2.4 算术逻辑单元 ALU         2.4.1 ALU 的数据通路         2.4.2 ALU 的内部控制信号         2.4.3 ALU 的内部控制逻辑         2.5 CPU 内部数据通路、控制信号与微操作指令(Micro-Operations)         2.5.1 数据通路与控制信号         2.5.2 微操作指令(Micro-Operations)         2.6 内存(RAM)         2.7 总线与外部控制信号         2.7.1 地址总线         2.7.2 数据总线         2.7.3 控制总线与外部控制信号(需要等待流水线设计好)         I/O 接口         3.1 用户端代码解释 |

|   |     | 5.5.1 MAR                             | 10 |
|---|-----|---------------------------------------|----|
|   |     | 5.5.2 MBR                             | 10 |
|   |     | 5.5.3 IR                              | 10 |
|   |     | 5.5.4 PC                              | 11 |
|   |     | 5.5.5 ACC                             | 11 |
|   | 5.6 | Memory                                | 11 |
| 6 | 仿真  | ····································· | 11 |
|   | 6.1 | 时延分析                                  | 11 |
|   | 6.2 | 并行计算加速比( <b>Speed-up Factor</b> )分析   | 11 |
|   | 6.3 | 激励设置                                  | 11 |
| 7 |     | A 实现                                  | 11 |
|   | 7.1 | 用户输入端                                 | 11 |
| 附 | 录   |                                       | 12 |
| A | 完整  |                                       | 12 |

# 表格目录

| 1 | 指令集支持的寻址方式                     | 1 |
|---|--------------------------------|---|
| 2 | 指令集包含指令及功能(直接寻址下)              | 2 |
| 3 | CPU 内部寄存器的含义、总存储条数、单位位宽和数据解释格式 | 2 |
| 4 | 状态寄存器列表                        | 3 |
| 5 | 各指令对标志位的影响                     | 3 |
| 6 | ALU 的数据通路                      | 3 |
| 7 | 数据通路与控制信号一览                    | 4 |
| 8 | 五级流水线控制信号表                     | 5 |
| 9 | 外部控制信号一览                       | 6 |

## 1 概述

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Ut purus elit, vestibulum ut, placerat ac, adipiscing vitae, felis. Curabitur dictum gravida mauris. Nam arcu libero, nonummy eget, consectetuer id, vulputate a, magna. Donec vehicula augue eu neque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Mauris ut leo. Cras viverra metus rhoncus sem. Nulla et lectus vestibulum urna fringilla ultrices. Phasellus eu tellus sit amet tortor gravida placerat. Integer sapien est, iaculis in, pretium quis, viverra ac, nunc. Praesent eget sem vel leo ultrices bibendum. Aenean faucibus. Morbi dolor nulla, malesuada eu, pulvinar at, mollis ac, nulla. Curabitur auctor semper nulla. Donec varius orci eget risus. Duis nibh mi, congue eu, accumsan eleifend, sagittis quis, diam. Duis eget orci sit amet orci dignissim rutrum.<sup>1</sup>

## 2 体系结构设计

#### 2.1 总体架构

CPU 由控制单元(CU),逻辑运算单元(ALU),内存(Memory)和寄存器组(Registers)组成,除内存以外,其余单元由被 CU 生成的控制信号控制的数据通路(Data Path)连接。另外,MAR 和 MBR 分别还和地址总线、数据总线相连接,用于与内存交互。控制单元和内存都和控制总线相连接,用于与外部控制信号交互。

为简单起见, CPU 的计算全部为 16 位定点有符号数计算。

这里需要一张图!!!

## 2.2 指令集架构

指令集是指 CPU 能够对数据进行的所有操作的集合。每一条指令都可以被解释为寄存器与寄存器、内存、I/O 端口之间的交互。交互方式由 CU 中的微指令(Micro-operation)给出,且每一条微指令都需要一个时钟执行(如不进行优化)。

#### 2.2.1 位宽设计

地址段长为8位,指令码(Opcode)宽度为8位。因此,每一条指令的位宽为16位。

#### 2.2.2 寻址方式

寻址方式指对地址段数据的解释方式。寻址方式由对应指令指定,支持表 1 中的全部寻址方式。由于给定的指令集高四位均空闲,使用最高位存储支持的寻址方式。

表 1: 指令集支持的寻址方式

| 寻址方式  | 描述                 | 最高位 |
|-------|--------------------|-----|
| 立即数寻址 | 地址字段是操作数本身,数据为补码格式 | 0   |
| 直接寻址  | 地址字段为存放操作数的地址      | 1   |

<sup>1</sup>手搓 CPU 是人类文明的伟大工程——沃兹基硕德

## 2.2.3 指令集支持的指令

指令集共支持 13 条不同的指令,列于表 2。每一条指令包含一个指令码,使用 16 进制格式存储。指令码的最高位为 1 时,寻址方式为立即数寻址;指令码的最高位为 0 时,寻址方式为直接寻址。

评论. 指令中含\*的仅支持直接寻址,因为立即数寻址对这些指令无意义。含®的仅支持立即数寻址。

| 助记符      | 指令码(低四位) | 描述                                  |
|----------|----------|-------------------------------------|
| *STORE X | 0001     | $[X] \leftarrow ACC$                |
| *LOAD X  | 0010     | $ACC \leftarrow [X]$                |
| ADD X    | 0011     | $ACC \leftarrow ACC + [X]$          |
| SUB X    | 0100     | $ACC \leftarrow ACC - [X]$          |
| JGZ X    | 0101     | ZF 和 NF 均为 0 ? PC ← X : PC ← PC + 1 |
| JMP X    | 0110     | $PC \leftarrow X$                   |
| *HALT    | 0111     | Stop                                |
| MPY X    | 1000     | MR, ACC ← ACC * [X], MR 用于存储高 16 位  |
| AND X    | 1001     | $ACC \leftarrow ACC \& [X]$         |
| OR X     | 1010     | $ACC \leftarrow ACC \mid [X]$       |
| NOT X    | 1011     | $ACC \leftarrow [X]$                |
| ® SHIFTR | 1100     | ACC ← ACC >>> 1,算术右移                |
| * SHIFTL | 1101     | ACC ← ACC <<< 1,算术左移                |

表 2: 指令集包含指令及功能(直接寻址下)

## 2.3 CPU 内部寄存器

该部分描述 CPU 内部寄存器的含义、存储格式和数据被解释为的格式。这些寄存器通过 CPU 的内部数据通路相连接。寄存器操作是 CPU 快速操作的核心。

| 寄存器 | 含义                    | 条数 | 位宽 | 数据解释格式       | 归属模块 |
|-----|-----------------------|----|----|--------------|------|
| PC  | 程序计数器,存储当前指令地址        | 1  | 8  | 指令码(Opcode)  | /    |
| MAR | 内存地址寄存器,存储要访问的内存地址    | 1  | 8  | 地址码(Address) | /    |
| MBR | 内存缓冲寄存器,存储从内存读取或写入的数据 | 1  | 16 | 二进制补码        | /    |
| IR  | 指令寄存器,存储当前正在执行的指令     | 1  | 8  | 指令码 (Opcode) | /    |
| ACC | 累加寄存器,存储 ALU 运算结果     | 1  | 16 | 二进制补码        | ALU  |
| MR  | 乘法寄存器,存储 ALU 乘法高 16 位 | 1  | 16 | 二进制补码        | ALU  |
| CM  | 控制存储器,存储微指令控制信号       | 未定 | 14 | 控制信号         | CU   |
| CAR | 控制地址寄存器,指向当前执行的微指令    | 1  | 4  | CM 中的条数下标    | CU   |
| CBR | 控制缓冲寄存器,存储当前微指令的控制信号  | 1  | 14 | 控制信号         | CU   |

表 3: CPU 内部寄存器的含义、总存储条数、单位位宽和数据解释格式

除上述寄存器以外,ALU 进行运算时还会更改**状态寄存器**(Flags),用于 CU 进行条件判断。例如,JGZ 命令需要判断上一步的运算结果是否是 0,CU 可以直接通过状态寄存器中的 ZF(Zero Flag)寄存器直接进行判断。本设计中使用的所有状态寄存器见表 4,它们都直接连向 CU,通路不受控制信号的控制。

表 4: 状态寄存器列表

| 寄存器 | 全称            | 行为                          |
|-----|---------------|-----------------------------|
| ZF  | Zero Flag     | ALU 运算结果(通常为 ACC)为 0 时置 1   |
| CF  | Carry Flag    | 存储算术移位移出的比特(由于有符号数不存储进位)    |
| OF  | Overflow Flag | ALU 运算结果发生溢出时置 1            |
| NF  | Negative Flag | ALU 运算结果为负数时置 1             |
| MF  | Multiply Flag | ALU 此轮运算出现乘法,且使用 MR 寄存器时置 1 |

## 2.4 算术逻辑单元 ALU

算术逻辑单元 ALU 负责进行大部分 CPU 内的计算<sup>2</sup>。它通过 MBR 获取运算的第二个数据,计算方式受状态寄存器影响,计算结果存入 ACC 寄存器中(若有乘法则可能存入 MR 寄存器)。

表 5: 各指令对标志位的影响

| 操作码低四位 | 助记符    | ZF    | CF  | OF   | NF   | MF           |
|--------|--------|-------|-----|------|------|--------------|
| 0001   | ADD    | 为0时置1 | 0   | 溢出置1 | 负数置1 | 0            |
| 0010   | SUB    | 为0时置1 | 0   | 溢出置1 | 负数置1 | 0            |
| 0011   | MPY    | 为0时置1 | 0   | 0    | 负数置1 | MR 不为 0 时置 1 |
| 0100   | AND    | 为0时置1 | 0   | 0    | 负数置1 | 0            |
| 0101   | OR     | 为0时置1 | 0   | 0    | 负数置1 | 0            |
| 0110   | NOT    | 为0时置1 | 0   | 0    | 负数置1 | 0            |
| 0111   | SHIFTR | 为0时置1 | 最低位 | 0    | 负数置1 | 0            |
| 1000   | SHIFTL | 为0时置1 | 最高位 | 0    | 负数置1 | 0            |

## 2.4.1 ALU 的数据通路

表 6: ALU 的数据通路

源寄存器 目标寄存器 传递的数据

#### 2.4.2 ALU 的内部控制信号

ALU 与外围寄存器的控制通路见第 2.5.1 节。为了让 ALU 内部获取要执行的运算操作,需要在 ALU 内部根据 IR 提供的指令类型翻译为 ALU 的控制信号。在本设计中,每一种运算都对应一种控制信号。

<sup>&</sup>lt;sup>2</sup>PC 自增与 PC 赋值在设计中不引入 ALU。

#### 2.4.3 ALU 的内部控制逻辑

这一部分描述 ALU 的内部控制信号与来自状态寄存器的 Flags 如何控制 ALU 内部数据通路的开关。

## 2.5 CPU 内部数据通路、控制信号与微操作指令(Micro-Operations)

CPU 中总线、寄存器、内存和 ALU 等关键器件需要以合理的时序执行不同的指令,而这需要数据通路和控制通路共同实现。数据通路负责在各个器件中传递数据,而控制通路负责控制数据通路的开关。因此,在本节中,先定义 CPU 需要的数据通路,再进一步定义控制数据通路的控制信号,最后描述承载控制信号的微指令。

#### 2.5.1 数据通路与控制信号

关键存储单元之间通过数据通路进行连接。每条数据通路都由一位控制信号控制。控制信号为1时表示通路打开,数据沿指定流向进行传输。该CPU共有14位控制信号。

评论. CU 内部的数据通路不需要受到微指令的控制,因此不需要在此列出。请参照模块设计部分。

| 控制信号位      | 源寄存器/单元             | 目的寄存器/单元    |
|------------|---------------------|-------------|
| 0          | MAR                 | 地址总线        |
| 1          | PC                  | MBR         |
| 2          | PC                  | MAR         |
| 3          | MBR                 | PC          |
| 4          | MBR                 | IR          |
| 5          | 数据总线                | MBR         |
| 6          | MBR                 | ALU (待处理数据) |
| 7          | ACC 和 MR            | ALU         |
| 8          | MBR                 | MAR         |
| 9          | ALU                 | ACC         |
| 10         | MBR                 | ACC         |
| 11         | ACC                 | MBR         |
| 12         | MBR                 | 数据总线        |
| 13         | IR                  | CU          |
| ALU 内部控制通路 |                     |             |
| 14         | Why am I doing this | Confusing   |

表 7: 数据通路与控制信号一览

#### 2.5.2 微操作指令 (Micro-Operations)

为了实现指令集中所有指令,需要将指令集的指令分解为多步微操作指令。为了和后续流水线部分 对齐,在微操作指令的设计上,也分为和六级流水线相同的步骤。

在本设计中,采用水平微指令(Horizontal Micro-operation)设计。这意味着每一个微操作指令携带 所有控制信号位的开关和下一个微操作指令的地址。

所有用逗号隔开的指令均从左到右顺序执行,不能并行执行。所有的微操作指令见表??。

表 8: 五级流水线控制信号表

| 指令           | EX 阶段<br>(微操作/控制信号)                                                                     | MEM 阶段<br>(微操作/控制信号)           | WB 阶段<br>(微操作/控制信号)                  |  |  |  |  |
|--------------|-----------------------------------------------------------------------------------------|--------------------------------|--------------------------------------|--|--|--|--|
| 所有指令共享的公共阶段: |                                                                                         |                                |                                      |  |  |  |  |
| IF           | IF $MAR \leftarrow PC$ ; $PC \leftarrow PC+1$ ; $MBR \leftarrow Mem[MAR]$ (C0,C2,C3,C5) |                                |                                      |  |  |  |  |
| ID           | IR←MBR; CU←IR (C                                                                        | 24,C13)                        |                                      |  |  |  |  |
| STORE X      | MAR←X (C6)                                                                              | Mem[MAR]←ACC (C11,C12)         | 无操作                                  |  |  |  |  |
| LOAD X       | MAR←X (C6)                                                                              | MBR←Mem[MAR] (C5)              | ACC←MBR (C10)                        |  |  |  |  |
| ADD X        | MAR←X (C6)                                                                              | MBR←Mem[MAR] (C5)              | ACC←ACC+MBR;                         |  |  |  |  |
| ADD A        | WINCE IN (CO)                                                                           | WIDEC WEIN[WITE] (C3)          | (C7,C9)                              |  |  |  |  |
| SUB X        | MAR←X (C6)                                                                              | MBR←Mem[MAR] (C5)              | ACC←ACC-MBR;                         |  |  |  |  |
| SCD A        | White K (Co)                                                                            | William (C3)                   | (C7,C9)                              |  |  |  |  |
| MPY X        | MAR←X (C6)                                                                              | MBR←Mem[MAR] (C5)              | $ACC,MR \leftarrow ACC \times MBR;$  |  |  |  |  |
|              | Min (co)                                                                                | MBRC Mem[MRC] (C3)             | (C7,C9,C14)                          |  |  |  |  |
| ANDV         | MAD. V. (C6)                                                                            | MDD ( Mann [MAD] (C5)          | ACC←ACC AND MBR;                     |  |  |  |  |
| AND X        | $MAR \leftarrow X$ (C6)                                                                 | $MBR \leftarrow Mem[MAR]$ (C5) | (C7,C9)                              |  |  |  |  |
| OD W         | MAD V (CC)                                                                              | MDD M DAAD! (C5)               | ACC←ACC OR MBR;                      |  |  |  |  |
| OR X         | $MAR \leftarrow X$ (C6)                                                                 | $MBR \leftarrow Mem[MAR]$ (C5) | (C7,C9)                              |  |  |  |  |
| NOTA         | MAD. V. (CC)                                                                            | MDD M. MARIA (C5)              | ACC←NOT MBR;                         |  |  |  |  |
| NOT X        | $MAR \leftarrow X$ (C6)                                                                 | $MBR \leftarrow Mem[MAR]$ (C5) | (C7,C9)                              |  |  |  |  |
| SHIFTR       | 准备移位量 (C8)                                                                              | 无操作                            | ACC←ACC≫1; (C7,C9)                   |  |  |  |  |
| SHIFTL       | 准备移位量 (C8)                                                                              | 无操作                            | $ACC \leftarrow ACC \ll 1;  (C7,C9)$ |  |  |  |  |
| JMP X        | PC←X (C6)                                                                               | 流水线清空                          | 无操作                                  |  |  |  |  |
| JGZ X        | 检查条件 (ZF=0,NF=0)                                                                        | 若条件成立: PC←X (C6)               | 流水线清空                                |  |  |  |  |
| HALT         | $\mathtt{enable} {\leftarrow} 0$                                                        | 冻结流水线                          | 无操作                                  |  |  |  |  |

## 2.6 内存(RAM)

内存(RAM)存储指令集和 CPU 保存的数据。内存的大小为 512 Byte,每条存入内存的数据位宽为 16,共能存入 256 条数据。

内存支持总线读写,并受三条总线控制:地址总线、数据总线和控制总线。**控制总线**中的外部控制信号决定在这个周期中内存的读/写状态,是否向数据总线写入,同步时序等功能。CPU与内存(RAM)通过两条总线交互,分别为**地址总线和数据总线**。内存通过读取地址总线决定写入内存中的地址,通过读取数据总线决定写入指定地址中的数据。关于总线的具体配置见 2.7。

采用 Harvard 结构,内存中不存放待执行指令。待执行指令存放于另一块内存中,防止数据通路和指令通路发生冲突。

## 2.7 总线与外部控制信号

#### 2.7.1 地址总线

地址总线为 **8** 位单向总线,提供 CPU(即 MAR)到内存的地址传送通路。由于其为单向总线,仅需内存侧读使能信号与 CPU 侧 MAR 的控制信号控制即可,无需复用。

#### 2.7.2 数据总线

数据总线为 **16** 位双向总线,提供 CPU(即 MBR)与内存的双向数据通路。数据总线采用分时复用的方式进行设计。如果 MEM 和 WB 在同一时钟下,会出现流水线冲突,需要考虑是否引入旁路。

#### 2.7.3 控制总线与外部控制信号(需要等待流水线设计好)

外部控制信号是一组单比特信号,通过控制总线控制 CU 和 RAM 的行为,它们受流水线周期的控制置 0 或置 1。CU 和 RAM 通过内部映射决定监视哪些位的信号。外部控制信号主要包括以下功能:

- RAM 读写控制;
- 流水线控制信号。 所有外部控制信号列于表 9。

| 控制信号位/类型 | 信号位/类型 别名 有效模块 |     | 高电平时作用               | 低电平时作用      |
|----------|----------------|-----|----------------------|-------------|
| RAM 读写控制 |                |     |                      |             |
| 0        | MemoryWrite    | RAM | RAM 写数据总线            | <br>无       |
| 1        | MemoryRead     | RAM | RAM 读数据总线和地址总线       | 无           |
| 分支预测     |                |     |                      |             |
| 2        | BranchTaken    | CU  | 执行 Branch            | 顺序执行        |
| 3        | Jump           | CU  | 执行 Jump              | 顺序执行        |
| 流水线控制    |                |     |                      |             |
| 4        | PipelineStall  | CU  | 流水线暂停(如数据冒险、存储器访问延迟) | <del></del> |
| 5        | PipelineFlush  | CU  | 流水线清空(如错误预测、异常发生)    | 无           |

表 9: 外部控制信号一览

## 3 I/O 接口

## 3.1 用户端代码解释

目前采用**用户编写汇编代码 → 转换为 16 位机器码**的方式输入指令。用户可在文本编辑器中编写类 汇编代码,而解释器负责将其解释为机器码。

以从1加到100的程序举例:

LOAD IMMEDIATE 0 ; 初始化累加器为0 → ACC=0
STORE 1 ; 存储到地址1 (SUM变量)
LOAD IMMEDIATE 1 ; 初始化计数器为1 → ACC=1
STORE 2 ; 存储到地址2 (i计数器)
LOOP: LOAD 0 ; 读取当前累加值 → ACC=SUM
ADD 1 ; 加上当前计数器值 → ACC=SUM+i

STORE 1 ; 更新累加值 → SUM=SUM+i
LOAD 2 ; 读取计数器 → ACC=i
ADD IMMEDIATE 1 ; 计数器自增 → ACC=i+1
STORE 2 ; 更新计数器 → i=i+1
SUB IMMEDIATE 100 ; 比较是否达到100 → ACC=i-100
JGZ LOOP ; 如果i<=100 (即ACC<=0) , 继续循环
HALT

代码最终将被解释为一串二进制比特流,解释服从:

- 地址占 1byte, Opcode 占 1byte;
- 含 IMMEDIATE 关键字的行, Opcode 的 MSB 为 1;
- 将换行符作为一条指令结束的标志,它将被映射为一个全零 byte;
- 在代码解释的过程中, LOOP 应映射到相同行指令的地址。

拟采用 Python 语言对用户代码进行处理,处理好的比特流可通过 UART 串口通信传入 FPGA 的 BRAM。

## 3.2 UART 接收与指令 RAM 写入设计

本设计基于 NEXYS 4 DDR 开发板,通过其板载的 UART 接口完成主机与 FPGA 之间的数据传输。该方案无需额外的数据线或 I/O 资源,即可实现对 FPGA 内部 RAM 的程序写入与指令输入,提升了系统的硬件集成度与使用便捷性。

#### 3.2.1 UART 接收逻辑

开发板主系统时钟频率为 100 MHz, 串口通信波特率设定为 115 200 bps。根据 UART 通信协议,每接收 1 位数据所需的时钟周期数为:

$$CLK\_BAUD = \frac{CLK\_FREQ}{BAUD\_RATE} = \frac{100\,000\,000}{115200} \approx 868$$
 (1)

采用常见的 8N1 格式传输,即每帧包括:

- 1 位起始位 (Start Bit);
- 8 位数据位 (Data Bits);
- 1 位停止位(Stop Bit)。

因此,每帧共10位,总计需要约:

$$CLK\_FRAME = 10 \times CLK\_BAUD = 10 \times 868 = 8680 \text{ cycles}$$
 (2)

接收端采用中点采样策略,即在每位传输中间时刻(约第 434 个时钟周期)对数据位进行采样,以提升抗干扰能力。

#### 3.2.2 数据缓冲与存储结构

为保证串口数据完整接收,接收模块首先将每帧数据写入异步 FIFO 缓冲区。随后由控制逻辑从 FIFO 中读取数据,并写入开发板内部的块 RAM (通过 Vivado IP 核生成)。

#### 数据写入格式:

- RAM 的每个地址对应两个字节(16位)数据;
- 高字节为操作码(Opcode), 低字节为立即数或地址(Operand);
- 若当前行含有 IMMEDIATE 关键字,则 Opcode 的最高位 (MSB)为1。

#### 写入控制规则:

- 接收到 0x00 字节(全0)后,代表当前指令输入结束,RAM 地址计数器自增1;
- RAM 地址从地址 1 开始顺序写入,地址 0 预留用于程序入口或特殊用途;
- 程序中如含有 LOOP 标签,将在 RAM 地址分配完毕后由软件在解析阶段回填其地址位置。

另外,传入 FPGA 的所有指令将存于单独的内存中,与 CPU 内存隔离开来。CPU 内存仅存数据,这符合用户编写的直观感受。每条存入内存的数据位宽为 16,即每个地址按顺序存放一条指令。地址从 1 开始依次递增,防止复位时地址位初始化为 0 导致出错。指令写入在 CPU 开机之前,写入成功后开发板亮蓝灯。若在 CPU 运行时没有指令,则开发板亮红灯。

本模块通过串口实现了简洁的二进制指令数据装载方式,降低了外设复杂性,为后续的控制单元译码与执行单元操作提供了明确的数据支持。

## 3.3 用户交互设计

该部分描述用户与 FPGA 的交互接口(按钮、按键等)以及看到的运行状态信息与结果显示设计。

## 4 流水线架构与优化策略

#### 4.1 总体架构

为了加速 CPU 的指令执行速度,采用 5 级同步流水线完成 CPU 执行指令的全流程。分别为:取指令 (IF),指令译码 (ID),指令执行 (EX),内存访问 (MEM) 和写回寄存器 (WB) 五个阶段。流水线的五个阶段如下所示。

$$IF \rightarrow ID \rightarrow EX \rightarrow MEM \rightarrow WB$$

流水线各阶段的主要工作如下:

- IF(Instruction Fetch): 从指令存储器中取出指令,同时确定下一条指令地址(指针指向下一条指令);
- **ID**(**Instruction Decode**): 翻译指令,同时让计算机得出要使用的寄存器,或者让立即数进行拓展(方便后续指令执行),亦或者(转移指令)是给出转移目的寄存器与转移条件;
- EX(Execution): 按照微操作指令指示打开数据通路。
- MEM(Memory): 若为 LOAD/STORE 指令,这个阶段就要访问存储器。此外,指令从 EX 向下执行到 WB 阶段。另外,在这个阶段还要判定是否有异常要处理,如果有,那么就清除流水线,然后转移 到异常处理例程入口地址处继续执行。
- WB(Write Back): 将运算结果保存到目标寄存器。

#### 4.2 流水线冒险

包含三种冒险情况:结构冒险、数据冒险、控制冒险(分支冒险)。[1]

结构冒险,即**某指令引用了前一次的运算结果,但其结果值还未产生**。对于这种情况,采用旁路(Forwarding)技术解决。

## 4.3 流水线优化:分支预测

在本设计中,采用 1 比特分支预测进行流水线优化。分支预测的控制信号由**控制总线**输入到 CU 中。分支预测的步骤如算法 1。

#### **Algorithm 1** 1-bit 分支预测

1: Note: 使用 1-bit 预测器预测分支是否跳转

2: **Input:** PC, BranchTaken

3: Output: NextPC

4: Internal Registers: PredictorBit, BranchTarget

5: procedure Branch Prediction

6: **if** PredictorBit == 1 **then** 

7:  $PredictedTaken \leftarrow True$ 

8:  $NextPC \leftarrow BranchTarget$ 

9: **else** 

10:  $PredictedTaken \leftarrow False$ 

11:  $NextPC \leftarrow PC + 1$ 

12: **end if** 

13: end procedure

14: **procedure** Branch Resolution

if  $BranchTaken \neq PredictedTaken$  then

▶ 预测错误

16:  $Flush \leftarrow 1$ 

▶ 清空错误指令

17:  $NextPC \leftarrow \text{if } BranchTaken \text{ then } BranchTarget \text{ else } PC + 1$ 

18: **end if** 

19: **Update Predictor:** 

20:  $PredictorBit \leftarrow BranchTaken$ 

▶ 更新 1-bit 预测器

21: end procedure

## 5 模块设计

## 5.1 UART 传输与指令写入

#### 5.1.1 UART 模块

模块功能: 将用户输入代码比特流(8N1格式)译码为1字节数据。

#### 模块外部接口:

| 信号名       | 方向 | 位宽 | 描述                     |  |
|-----------|----|----|------------------------|--|
| i_clk     | 输入 | 1  | 系统时钟信号                 |  |
| i_rst_n   | 输入 | 1  | 全局复位信号                 |  |
| i_rx 输,   |    | 1  | UART 接收引脚              |  |
| o_data 输出 |    | 8  | 接收到的一帧数据               |  |
| o_valid   | 输出 | 1  | 数据有效标志,高电平表示 o_data 可用 |  |

#### 5.1.2 FIFO 模块

模块功能: 缓存 UART 数据, 当读入 2 字节数据时 FIFO 满, 存入 BRAM。

#### 模块外部接口:

| 信号名         | 方向 | 位宽 | 描述           |
|-------------|----|----|--------------|
| i_clk       | 输入 | 1  | 系统时钟信号       |
| i_rst_n     | 输入 | 1  | 全局复位信号       |
| i_rx        | 输入 | 1  | UART 接收引脚    |
| o_data      | 输出 | 8  | 接收到的一帧数据     |
| o_fifo_full | 输出 | 1  | 高电平表示 FIFO 满 |

## 5.2 时钟、复位与停止信号

CPU 由**全局同步时钟**控制,所有控制逻辑与计算逻辑全部在时钟上升沿进行。CPU 设有**全局异步复位**信号,低电平有效。当异步复位时,内存中除指令集数据以外所有数据清空,所有寄存器清空,控制信号全部归为断开(0)。

当 CPU 执行 07 号指令 HALT 时,CPU 处于**暂停**状态。与复位不同的是,此时所有寄存器不清空,但 所有通路断开。在模块中使用 enable 信号标识(低电平有效)。恢复程序运行的方法是全局复位或继续 运行信号(绑定 FPGA 的按键)。当该按键被按下时,enable 信号恢复为 1。

#### **5.3** ALU

#### 5.3.1 ALU 运算结果

ALU 运算结果存放于 MR 寄存器和 ACC 寄存器中。其中 MR 寄存器存放乘法运算的高位结果,ACC 寄存器存放乘法运算的低位结果。ALU 与两个寄存器的数据通路都由 7 号控制位控制。MR 连向 ALU 的高位结果,ACC 连向 ALU 的低位结果。当控制信号 MF 为 1 时,若需要访存,则添加一个 MEM 阶段进行 MR 的访存。

### **5.4** CU

参考表 7 , 确定指令集中的每一条指令对应的控制信号,并存储到 CU 的内部寄存器中,即可完成 CU 的主要功能设计。

#### 5.5 CPU 内部寄存器

- 5.5.1 MAR
- 5.5.2 MBR

#### 5.5.3 IR

每条指令在 ID 阶段被传入 IR 寄存器。IR 寄存器可通过判断最高位来确定寻址方式。即:

- IR 最高位为 1, 立即数寻址, 在 MEM 阶段不再进行访存, 而是直接传入 MBR。
- IR 最高位为 0, 直接寻址, 在 MEM 阶段进行访存。

- 5.5.4 PC
- 5.5.5 ACC
- 5.6 Memory
- 6 仿真验证
- 6.1 时延分析
- 6.2 并行计算加速比(Speed-up Factor)分析
- 6.3 激励设置
- 7 FPGA 实现
- 7.1 用户输入端

采用第一个测试样例进行测试。

$$1 + 2 + \cdots + 99 + 100 = 5050$$

编写源程序如下:

```
LOAD IMMEDIATE O
     STORE 1
     LOAD IMMEDIATE 1
     STORE 2
     LOAD IMMEDIATE 100
     STORE 3
LOOP: LOAD 1
     ADD 2
     STORE 1
     LOAD 2
     ADD IMMEDIATE 1
     STORE 2
     LOAD 2
     SUB 3
     JGZ LOOP
     HALT
```

## References

- [1] Ansis11. 基于 RISC-V 架构-五级流水线 CPU). 知乎专栏,访问于 2025 年 4 月 10 日. 2022. URL: https://zhuanlan.zhihu.com/p/453232311.
- [2] 赖兆磬. "基于 FPGA 流水线 CPU 的设计与实现". MA thesis. 桂林电子科技大学, 2008.

# A 完整设计代码