# 计算机体系结构 第八讲: 流水线的精确异常 和动态调度

#### 栾钟治

北京航空航天大学 计算机学院 中德联合软件研究所 2020-04-24

1

# 实验2-5

• 预计5月8日发布,7月10日截止

3

提醒:作业

- 作业 3
  - 今天截止
  - 流水线1
- 作业 4
  - 今晚发布,5月8日截止
  - 流水线2

2

# 阅读材料

- Patterson & Hennessy's Computer Organization and Design: The Hardware/Software Interface (计算机组成与设计:软硬件接口)
  - 第四章 (4.9-4.11)
- 选读
  - Smith and Sohi, "The Microarchitecture of Superscalar Processors," Proceedings of the IEEE, 1995
    - 更高级的流水线
    - 中断和异常处理
    - 乱序和超标量执行的概念

1

## 回顾: 处理控制相关

- 处理流水线中的控制相关
  - 分支延迟
  - 细粒度多线程
  - 分支预测
    - - 总是不发生, 总是发生, 反向发生正向不发生, 基于分析
    - 运行时(动态)
      - Last time 预测器
      - 滞后: 2BC 预测器

      - 全局分支相关→ 两层全局预测器
    - 本地分支相关 > 两层本地预测器
  - 推断执行
  - 多路径执行

5

流水和精确异常: 保持连续的语义

## 回顾: 流水线设计中的问题

- 流水段的平衡
  - 需要多少段以及每一段完成什么任务
- 有影响流水的事件时,保持流水线正确、顺畅、满负荷
  - 处理相关性(冒险)
    - 数据
    - 控制
  - 处理资源争用
  - 处理长时延(多个周期)操作
- 处理异常、中断
- 更高的要求: 提高流水线的吞吐
  - 使停顿最少

# 多周期执行

- 不是所有指令的"执行"时间都是一样长的
- 思路: 有多个不同的功能单元, 会花费不同数量的时 钟周期
  - 可以流水可以不流水
  - 能够使独立的指令在不同的功能单元上,在前序的长延时指令执行完毕之前就开始执行
- •程序序的保证和精确异常

# 流水线中的问题: 多周期执行

- 指令在执行阶段可能花费不同数量的时钟周期
  - 整型的 ADD vs. 浮点数的 MULT

FMUL R4 ← R1, R2 ADD R3 ← R1, R2 F D E E E E E E W
F D E W
F D E W
F D E W
F D E W

D E W

F D E W

FMUL R2 ← R5, R6 ADD R4 ← R5, R6

• 这幅图有什么问题吗?

- · 如果FMUL发生了异常会怎么样?
- ISA的连续语义是**不**保存的!

9

## 精确异常/中断

- 当准备处理异常/中断时,体系结构状态应该是一致的
- 1. 所有之前的指令必须完全回收
- 2. 之后的指令一律不得回收

回收(Retire) = 提交(commit) = 执行完毕并且更新体系结构状态

11

# 异常 vs. 中断

- 起因
  - 异常: 内部产生, 作用于运行的线程
  - 中断: 外部产生, 作用于运行的线程
- 处理的时机
  - 异常: 一旦检测出 (并且已经知道非投机)
  - 中断: 方便的时候
    - 除了非常高优先级的
      - 电源失效
      - 机器自检
- 优先级: 必须处理当前进程(异常), 不一定(中断)
- 处理的上下文: 进程 (异常), 系统 (中断)

0

10

## 为什么希望精确异常?

- 冯诺依曼模型ISA的语义
  - 冯诺依曼模型vs. 数据流
- 帮助软件调试
- 使异常恢复更容易, 比如页失效的恢复
- 使进程重启更容易
- 可以在软件中加入trap

12

11

# 流水线中确保精确异常

• 思路: 使每个操作花同样的时间



- 缺点
  - 访存操作会怎么样?
  - 每个功能单元100个时钟周期?

13

# 解决方案 I: 重排序缓冲 (ROB)

- 思路: 乱序执行指令,产生体系结构状态可见的结果之前重排序
- 当指令译码时在ROB中预留一个条目
- 当指令执行完时,将结果写入ROB 中相应条目
- 当指令成为ROB中最旧的一条,并且已经执行完(没有异常)时,将结果移动到寄存器堆或者存储器



15

# 解决方案

- 重排序缓冲
- 历史缓冲
- 未来寄存器堆
- 检查点
- 推荐阅读
  - Smith and Plezskun, "Implementing Precise Interrupts in Pipelined Processors," IEEE Trans on Computers 1988 and ISCA 1985.
  - Hwu and Patt, "Checkpoint Repair for Out-of-order Execution Machines," ISCA 1987.

14

# ROB 条目中有什么?

 V
 DestRegID
 DestRegVal
 StoreAddr
 StoreData
 PC
 Valid bits for reg/data + control bits
 Exc?

• 用有效位表征结果是否准备好

## ROB: 独立操作

·结果首先写入ROB. 在指令提交时写入寄存器堆



- · 如果一个后续的操作需要的值在ROB中会怎么样?
  - 读ROB的同时读寄存器堆。如何做到?

17

# 简化ROB访问

- 思路: 使用间接寻址的思想
- 先访问寄存器堆
  - 如果寄存器无效,寄存器堆存储ROB中包含(或将要包含) 寄存器值的条目ID
  - 将寄存器映射到ROB条目
- 再访问ROB
- ROB条目中有什么?

 V
 DestRegID
 DestRegVal
 StoreAddr
 StoreData
 PC/IP
 Control/val id bits
 Exc?

• 还能再简化吗?

# ROB: 如何访问?

•一个寄存器的值可以在寄存器堆里,也可以在ROB中 (还可以在旁路/转发路径上)



18

#### 用ROB为寄存器重命名

- 输出相关和反相关不是真正的相关
  - 为什么? 相同编号的寄存器互相之间并没有什么操作
  - 存在这样的相关是由于ISA允许的寄存器ID数(名字)缺乏
- 将要保存结果的寄存器根据ROB条目重命名
  - 寄存器ID → ROB条目ID
  - · 体系结构寄存器ID→ 物理寄存器ID
  - 重命名后, ROB 条目ID被用来指向寄存器
- 这将消除输出相关和反相关
  - 造成一个有大量寄存器的假象

20

19

# 使用ROB的按序分发执行流水线

- 译码 (D): 访问寄存器堆/ROB, 分配ROB条目, 检查指令是否可以执行, 是则分 发指令
- 执行 (E):指令可以完全的乱序执行
- 完成 (R): 将结果写入ROB
- 回收/提交(W): 检查异常; 如果没有, 将结果写入体系结构寄存器堆或存储器; 如果有, 清空流水线并启动异常处理程序
- 按序分发/执行, 乱序完成, 按序回收



21

# 解决方案 II: 历史缓冲 (HB)

- **思路**: 指令执行完成后更新寄存器堆, 但是当有异常发生时撤销那些更新(UNDO)
- 当指令译码时,预留一个HB条目
- 当指令执行完毕时,将目标地址中的旧值存在HB里
- 当指令是HB中最旧的一条并且没有发生异常/中断, 丢弃该HB条目
- 当指令是HB中最旧的一条并且有异常需要处理,将 HB中保存的旧值依次写回到体系结构状态

23

## ROB的Tradeoff

- 好处
  - 用很简单的概念来支持精确异常
  - 可以消除"虚假的"相关
- 坏外
  - 有可能需要访问ROB以获得尚未写入寄存器堆的结果
    - · CAM 或间接寻址→ 增加延时和复杂性
- 其它希望消除上述缺陷的解决方案
  - 历史缓冲
  - 未来寄存器堆
  - 检查点

22

22

# 历史缓冲



- 好处:
  - · 寄存器堆中保有最新的值,HB的访问不在关键路径上
- 坏处:
  - 需要读目的寄存器的旧值
  - 在异常时需要回滚HB→增加异常/中断的处理时延

24

24

#### 解决方案 Ⅲ: 未来寄存器堆(FF) + ROB

- 思路: 维护两个寄存器堆(投机的和体系结构的)
  - 体系结构的寄存器堆:按程序序更新以获得精确异常
    - 使用ROB来保证按序的更新
  - 未来的寄存器堆:一条指令执行完毕后立即更新(如果这条指令是最新的一条写寄存器堆的指令)
- FF 用于快速访问最近的寄存器值(投机的状态)
  - 前端寄存器堆
- 体系结构寄存器堆用于当发生异常时的状态恢复 (体系结构状态)
  - 后端寄存器堆

25

25

27

#### 有FF和ROB的按序分发执行流水线

- 译码 (D): 访问FF, 在ROB中分配条目, 检查指令是否可以执行, 是则分发指令
- · 执行 (E): 指令可以完全的乱序执行
- 完成 (R): 将结果写入ROB和FF
- 回收/提交(W): 检查异常; 如果没有, 将结果写入体系结构寄存器堆或者存储器; 如果有, 清空流水线并启动异常处理程序
- 按序分发/执行, 乱序完成, 按序回收



# 未来寄存器堆



- 好处
  - 不需要从ROB中读取值 (不需要CAM或者间接寻址)
- 坏处
  - 多个寄存器堆
  - 发生异常时需要从一个堆向另一个堆复制数据

26

26

#### 流水线中检查和处理异常

- 当最旧的准备回收的指令被检查出导致了异常, 控制逻辑
  - 恢复体系结构状态(寄存器堆, IP/PC, 存储器)
  - 清空流水线中所有比该指令新的指令
  - 保存IP/PC和寄存器堆(ISA指定)
  - 重定向取指引擎指向异常处理子程序
    - 异常向量

# 流水线的问题: 分支预测错误

- 分支预测错误相当于一个"异常"
  - 除非它对软件不可见
- 分支预测错误如何恢复?
  - 与异常处理类似,不同之处在于不用等到分支指令成为最旧的指令
  - 三种状态恢复方案都可以用
- 异常和分支预测错误的区别?
  - 分支预测错误比异常要普遍的多→需要快速的状态恢复以 尽可能减小预测错误对性能的影响

29

29

#### 分支状态恢复的动作和延迟

- ROB
  - 等待直到分支是最旧的一条指令
  - 清空后序流水线
- HB
  - 从历史缓冲最尾回滚撤销分支之后的所有指令,并且向寄存器堆恢复旧值
- FF
  - 等待直到分支是最旧的一条指令
  - 从体系结构寄存器堆向未来寄存器堆复制数据,并且清空流水线

31

## 状态恢复的延迟影响

- 异常服务延迟
- 中断服务延迟
- 为预测错误的分支之后的指令提供正确数据的延迟
- 以上哪种/几种需要快速恢复?
- 就恢复延迟而言,三种状态保持的方法是否/如何做到合理?
  - ROB
  - HB
  - FF

30

30

#### 能更好吗?

- •目标:恢复前端状态(未来寄存器堆),这样可以使分支后正确的下一条指令能够在分支预测错误被解决后立即执行
- 思路: 当分支取指时对前端寄存器状态设立检查点, 同时对比分支旧的指令结果保持状态更新
- Hwu and Patt, "Checkpoint Repair for Out-of-order Execution Machines," ISCA 1987.

# 检查点

- 当分支译码时
  - 复制未来寄存器堆并关联到分支
- 当指令产生寄存器值
  - 所有晚于该指令的未来寄存器堆检查点更新到该状态
- 当分支预测错误被检测出来
  - 当分支预测错误解决时,恢复被错误预测的分支的未来寄存器堆检查点
  - 清空所有晚于分支的指令
  - 释放所有晚于分支的检查点

33

33

## 寄存器 vs. 存储器

- 到目前为止, 主要考虑的是寄存器的情况
- 存储器会怎么样?
- 寄存器和存储器之间有什么根本的不同?
  - 寄存器的相关是静态可知的 存储器的相关是动态决定的
  - 寄存器的状态空间小-存储器的状态空间大
  - 寄存器状态对其它线程/处理器不可见-存储器状态在线程/处理器之间是共享的(共享存储多处理器)

15

检查点

• 好处?

• 坏外?

34

34

# 流水线的问题: store

- 处理存储器操作的乱序执行
  - 撤销存储器写比撤销寄存器写要难得多。 为什么?
  - 一种思路: 在ROB中保存store的地址/数据
    - · Load指令如何发现这些数据?
  - 存储/写入缓冲: 类似于ROB. 但是只用于store指令
    - · 按程序序尚未提交的store指令列表
    - · 当store指令译码时: 分配一个存储缓冲的条目
    - 当store的地址和数据都可用时: 将地址和数据记录在存储缓冲的条 目中
    - 当store是流水线中最旧的指令时: 更新存储器地址(cache)和存储的数据

36

35

乱序执行 (动态指令调度)

37

#### 能不能更好?

•下面两段代码有何共同之处?

- 答案: 第一个ADD指令使整个流水线停顿!
  - 由于源寄存器不可用使得ADD不能分发
  - 后续的独立指令也无法执行
- •上面两段代码的区别是什么?
  - 答案: Load 延迟是不确定的(在运行时才知道)
  - 这会产生什么影响? (考虑编译器和微体系结构)

39

## 按序执行的流水线



- •问题:一个真正的数据相关会使流水线停止分发新的指令到功能(执行)单元
- 分发: 将指令送入功能单元的动作

38

38

#### 防止分发停顿

- 有很多方法
- 我们提到过三种:
  - 1. 细粒度多线程
  - 2. 预测
  - 3. 运行时指令调度/重排序
- 上述三种方法的缺点是什么?
- 还有其他方法吗?
  - 实际上, 我们介绍过基本的思想
    - 数据流: 当输入准备好时取指和发射指令
  - 问题: 按序分发(调度,或执行)

• 解决方案: 乱序分发 (调度, 或执行)

40

39

#### 乱序执行(动态调度)

- 思路: 让相关的指令离独立的指令远一点(分离)
  - 相关指令的"休息区":保留站
- 监控休息区中每条指令的源"值"
- 当一条指令的所有源"值"可用,则分发该指令执行
  - 指令按数据流序(非控制流)分发
- 好处:
  - 延迟容忍: 允许独立指令在有长延迟操作时执行和完成

41

41

#### 乱序执行的支撑条件

- 1. 需要在"值"的生产者和消费者之间建立连接
  - 寄存器重命名: 给每一个"值"关联一个"标签(tag)"
- 2. 需要缓冲指令直到它们准备好执行
  - 寄存器重命名之后向保留站插入指令
- 3. 指令需要持续跟踪源"值"是否可读
  - 当"值"被生产出来,广播"标签(tag)"
  - •保留站中的指令对比自己的"源标签"和广播标签→如果 匹配,则源值准备好
- 4. 当一条指令的所有源值都准备好,需要分发指令到它的功能执行单元 (FU)
  - 当所有源值准备好,指令唤醒
  - 如果有多条指令被唤醒,需要为每个FU选择一条指令

43

## 按序 vs. 乱序分发

• 按序分发+精确异常:



• 乱序分发+精确异常:



• 16 vs. 12 时钟周期

42

42

# Tomasulo算法

- Robert Tomasulo发明了带寄存器重命名的乱序执行
  - 用于IBM 360/91的浮点运算单元
  - 阅读: Tomasulo, "An Efficient Algorithm for Exploiting Multiple Arithmetic Units," IBM Journal of R&D, Jan. 1967.
- 跟今天的方法有什么主要区别?
  - 精确异常: IBM 360/91不具备
  - Patt, Hwu, Shebanow, "HPS, a new microarchitecture: rationale and introduction," MICRO 1985.
  - Patt et al., "Critical issues regarding HPS, a high performance microarchitecture," MICRO 1985.
- 大多数高性能处理器使用的都是它的变种
  - 最初是在 Intel Pentium Pro, AMD K5
  - Alpha 21264, MIPS R10000, IBM POWER5, IBM z196, Oracle UltraSPARC T4, ARM Cortex A15

44

43





乱序执行处理器一般的组织形式 register file nteger/addres data cache register Smith and Sohi, "The Microarchitecture of Superscalar Processors," Proc. IEEE, Dec. 1995.

46

48

#### 寄存器重命名

- 输出相关和反相关不是真正的相关
  - 为什么? 相同编号的寄存器互相之间并没有什么操作
  - 存在这样的相关是由于ISA允许的寄存器ID数(名字)缺乏
- 寄存器ID被重命名为拥有该寄存器值的保留站条目ID
  - · 寄存器ID→保留站条目ID
  - 体系结构寄存器 ID → 物理寄存器 ID
  - 重命名后,保留站条目ID被用来指向寄存器
- 消除了输出相关和反相关
  - 即使ISA只有少量寄存器,也会产生与拥有大量寄存器差不 多的性能影响

## Tomasulo算法: 重命名

• 寄存器重命名表 (寄存器别名表RAT)

|    | tag | value | valid? |
|----|-----|-------|--------|
| R0 |     |       | 1      |
| R1 |     |       | 1      |
| R2 |     |       | 1      |
| R3 |     |       | 1      |
| R4 |     |       | 1      |
| R5 |     |       | 1      |
| R6 |     |       | 1      |
| R7 |     |       | 1      |
| R8 |     |       | 1      |
| R9 |     |       | 1      |
|    |     |       |        |

49

#### 例子

MUL R3 ← R1, R2 ADD R5 ← R3, R4 ADD R7 ← R2, R6 ADD R10 ← R8, R9 MUL R11 ← R7, R10

ADD R5 ← R5, R11

F D E W

- •假设 ADD (执行阶段4个时钟周期流水), MUL (执行阶段6个时钟周期流水)
- 假设只有一个加法器和乘法器
- 需要多少时钟周期
  - 非流水线机器
  - 非精确异常的按序分发流水线(无转发和全转发)
  - 非精确异常的乱序分发流水线(全转发)

#### Tomasulo算法

- 如果保留站在重命名之前可用
  - 指令 + 重命名的操作数 (源值/标识) 插入保留站
- 如果不可用则停顿
- 在保留站里, 每条指令:
  - 关注公共数据总线 (CDB)上数据源的标签
  - 当看到"自己的"标签,获取源值并保存在保留站
  - 当所有操作数可用, 指令准备分发
- 当指令准备好,向功能单元分发指令
- 指令在功能单元中完成操作之后
  - 进行 CDB 仲裁
  - 将打了标签的值送上CDB (标签广播)
  - · 寄存器堆连接到 CDB
    - 寄存器包含一个标签,标记了最近写寄存器的写入者
    - · 如果寄存器堆中的标签和广播的标签匹配,将广播的值写入寄存器(并且置有效位)
  - 回收重命名标签

50

#### 例子

MUL R3 ← R1, R2 ADD R5 ← R3, R4

ADD R7 ← R2, R6 ADD R10 ← R8, R9 MUL R11 ← R7, R10

ADD R5 ← R5, R11

F D E W

- •假设 ADD (执行阶段4个时钟周期流水), MUL (执行阶段6个时钟周期流水)
- 假设只有一个加法器和乘法器
- 需要多少时钟周期
  - 非流水线机器
  - 非精确异常的按序分发流水线(无转发和全转发)
  - 非精确异常的乱序分发流水线(全转发)

52

52





例子(续2) MUL R3 ← R1, R2 可以有多个时钟周期 ADD R5 ← R3, R4 ADD R7 ← R2, R6 F D E W ADD R10 ← R8, R9 MUL R11 ← R7, R10 MUL 6个时钟周期流水执行 ADD R5 ← R5, R11 ADD 4个时钟周期流水执行 有数据转发时一共需要多少时钟周期? F D 1 2 3 4 5 6 W F D - -- - 1 2 3 4 W F - - - - D 1 2 3 4 W F D 1 2 3 4 W F D - - 1 2 3 4 5 6 W F - - - D - - - 1 2 3 4 W 25个时钟周期

54







周期2 一 从RAT中读取源 MUL R3 ← R1. R2 一 向RAT中写入目标(重命名其目标) → 分配一个保留站条目 → 为它的目标寄存器分配一个标签 一 向分配的保留站条目放入它的源 周期2结束时: V Tag Value V Tag Value V Tag Value R1 1 1 R2 1 2 R3 0 Х R4 1 4 d R11 1 11 - MUL在X条目准备好执行(如果有多条指令同时准备好该怎么办?) 在保留站X条目里的两个源都有效 58





## 练习: 带精确异常的例子

MUL R3  $\leftarrow$  R1, R2 ADD R5  $\leftarrow$  R3, R4 ADD R7  $\leftarrow$  R2, R6 ADD R10  $\leftarrow$  R8, R9 MUL R11  $\leftarrow$  R7, R10 ADD R5  $\leftarrow$  R5, R11

F D E R W

- 假设 ADD (4个时钟周期执行), MUL (6个时钟周期执行)
- 假设只有一个加法器和乘法器
- 需要多少时钟周期
  - 非流水线机器
  - 带ROB的按序分发流水线(无转发和全转发)
  - 带ROB的乱序分发流水线(全转发)

63

#### 周期8

- MUL 的 X 和 ADD 的 b,广播它们的标签和值
- 一 保留站的条目等待这些标签、获取值并相应地设置有效位→ 硬件需要什么结构来实现这些?(CAM 存储广播的标签)
- 一 RAT的条目同样等待这些标签、获取值并相应地设置有效位

62