## EX1 考虑以下 C 代码段

```
for( i = 0 ; i <= 100 ; i++ ){
    A[i] = B[i] + C;
}</pre>
```

假定 A 和 B 是 32 位整数的数组, C 和 i 是 32 位整数。假定所有数据值及其地址都保存在存储器中(A、B、C、i 分别位于地址 1000、3000、5000、7000 处)。 写出 RISC-V 代码,并计算共需要执行多少条指令? 代码大小为多少?

解:实际的汇编指令根据编译器的不同、设计思路的不同而有所差异。此处仅展示手工书写的一种汇编代码方案。(此处不做代码优化,仅考虑完成当前任务,将A、B、C、i 赋以正确的值)

```
addi x1,x0,1750
slli x1, x1, 2
addi x2,x0,1250
slli x2, x2, 2
1w x2,0(x2)
addi x3,x0,1500
slli x3, x3, 1
addi x5, x0, 0
sw x5,0(x1)
addi x6,x0,100
L1:
slli x7, x5, 2
add x8, x7, x3
1 w x8,0(x8)
addi x9, x0, 0
add x9, x8, x2
addi x8,x7,1000
sw x9,0(x8)
addi x5, x5, 1
```

sw x5,0(x1)ble x5,x6,L1

已使用 Ripes 验证其正确性。共计 20 条指令,需要执行  $10 + 10 \times 101 = 1020$  条指令。计算代码大小  $20 \times 32bits = 80bytes$ ,共计 40 字节。

## EX2 对于以下情况,考虑针对指令集体系结构的指令编码

- 1. 处理器的指令长度为 12 位,有 32 个通用寄存器,是否可能拥有如下指令编码?说明理由。
  - 3个两地址指令
  - 30 个单地址指令
  - 45 个零地址指令

解:可行。由于有 32 个通用寄存器,一个寄存器的地址需要  $log_232 = 5$  位。此处展示一种分配方案。

首先考虑两地址指令,其寄存器地址需要  $2 \times 5 = 10$  位,剩下的 2 位 (标记为 AB 位) 刚好用于标记 3 个两地址指令、其它指令共计 4 种情况。记其它指令对应的 AB 取值为 ab

再考虑单地址指令,由于 AB 两位中只有一种取值对应着其它指令,这时还剩下 12-2=10 位的空间供其与零地址指令一同分配,首先寄存器地址需要 5 位,剩下的 5 位记作 CDEFG,共计  $1\times 2^5=32$  种情况,其中 30 种提供给单地址指令,单地址指令分配完毕。剩下两种情况用于标记零地址指令,记作  $cdefg_1$ 、 $cdefg_2$ 。最后考虑零地址指令,考虑 AB=ab, $CDEFG=cdefg_1$  或  $cdefg_2$  的情况,剩下 5 位供其自由分配,那么留给它的可分配空间为  $2\times 2^5=64$ ,完全满足 45 个零地址指令的分配要求。

按照如上叙述的分配方案, 足够为这些指令分配指令编码。故此题答案为可行。

- 2. 假定指令长度和地址段的大小如上所述,判断是否可能拥有如下指令编码?说明理由。
  - 3个两地址指令
  - 31 个单地址指令
  - 35 个零地址指令

解: 不可行。12 位指令共计  $2^{12} = 4096$  种取值。3 个两地址指令总共有  $3 \times 2^5 \times 2^5 = 3072$  种可能,31 个单地址指令总共有  $31 \times 2^5 = 992$  种可能,35 个零地址指令有 35 种可能,三种指令总共 3072 + 992 + 35 = 4099 种可能,编码在 12 位指令里则必有两个不同指令拥有相同编码,超出了 12 位指令的表达上限。

3. 假定指令长度和地址段的大小如上所述,进一步假定已经拥有了 3 个两地址指令和 24 个零地址指令。最多可以为这一处理器编码多少个单地址指令。

解: 最多可以再编码 31 条单地址指令。12 位指令共计  $2^{12} = 4096$  种取值,3 个两地址指令总共有  $3 \times 2^5 \times 2^5 = 3072$  种可能,24 个零地址指令有 24 种可能,余下 4096 - 3072 - 24 = 1000 种,则可编码的单地址指令为  $\lfloor 1000/2^5 \rfloor = 31$  条。

- EX3 一个 16 进制数 434F4D5055544552, 将其存储在 64 位对齐的双字中, 且存储器 按字节编址。内存的物理排列为从左至右, 地址由低到高。
  - 1. 用大端顺序写出要存储的值。接下来,将每个字节翻译为 ASCII 字符,写出存储的字符串

答: 地址由低到高存储依次为:434F4D5055544552。存储的字符串为: COMPUTER。

2. 用小端顺序写出要存储的值。将每个字节翻译为 ASCII 字符,写出存储的字符串

答:地址由低到高存储依次为:52455455504D4F43。存储的字符串为:RETUPMOC。

3. 当以大端顺序存储时,可以从给定的 64 位双字中读取的所有非对齐 2 字节的十六进制数是多少?

答: 4F4D,5055,5445。

4. 当以小端顺序存储时,可以从给定的 64 位双字中读取的所有非对齐 4 字节的十六进制数是多少?

答: 4F4D5055,4D505554,50555445。

- EX4 有一个采用单周期实现的计算机。原机器的时钟周期为 7ns。在流水线分割后,测得的时间数据为: IF,1ns; ID,1.5ns; EX,1ns; MEM,2ns; WB,1.5ns。流水线寄存器的延迟为 0.1ns。
  - 1. 5 级流水化机器的时钟周期时间为多少?

解: 时钟周期时间 T = min各段时间 + 流水线寄存器延迟 = 2ns + 0.1ns = 2.1ns。

2. 如果每 4 条指令有一次停顿, 新机器的 CPI 是多少?

解: 新机器的 CPI = 5/4 = 1.25。

3. 流水化机器相对于单周期机器的加速比是多少?

解:考虑理想情况,不需要停顿,则

加速比 = 
$$\frac{$$
 单周期机器 CPI × 单周期机器时钟周期  
流水化机器 CPI × 流水化机器时钟周期  
=  $\frac{1Circ/Ins \times 7ns/Circ}{1Circ/Ins \times 2.1ns/Circ}$   
 $\approx 3.33$ 

考虑(2)中每4条指令有一次停顿的情况,则

加速比 = 単周期机器 
$$CPI \times$$
 単周期机器时钟周期  
流水化机器  $CPI \times$  流水化机器时钟周期  
=  $\frac{1Circ/Ins \times 7ns/Circ}{1.25Circ/Ins \times 2.1ns/Circ}$   
 $\approx 2.67$ 

- EX5 第一台机器是 5 级流水线,时钟周期为 1ns。第二台机器是 12 级流水线,时钟周期为 0.6ns。由于数据相关,5 级流水线每 5 条指令经历一次 stall,而 12 级流水线每 8 条指令经历三次 stall。此外,分支占全部指令的 20%,两台机器的预测错误率都是 5%。
  - 1. 仅考虑数据相关, 12 级流水线相对于 5 级流水线的加速比为多少?

解: 5 级流水线的 CPI=(5+1)/5=1.2, 12 级流水线的 CPI=(8+3)/8=1.375, 所以

2. 在考虑分支预测错误而导致 stall 的情况下,如果第一台机器的分支预测错误的额外代价为 2 个周期,而第二台机器为 5 个周期,则每种机器的 CPI 为多少?

解: 5 级流水线的 CPI

$$CPI_{5 \ Stages} = (5 \times (1 + 20\% \times 5\% \times 2) + 1)/5$$
  
= 1.22

12 级流水线的 CPI

$$CPI_{12\ Stages} = (8 \times (1 + 20\% \times 5\% \times 5) + 3)/8$$
  
  $\approx 1.425$ 

EX6 有一条静态多功能流水线由 5 段组成,加法用 1,3,4,5 段,乘法用 1,2,5 段,第三段的时间为  $2\Delta t$ ,其余各段时间均为  $\Delta t$ ,而且流水线的输出可以直接返回输入端或暂存于相应的流水寄存器中。现要在该流水线上计算  $\prod_{i=1}^4 (A_i + B_i)$ ,画出时空图,并计算其吞吐率、加速比和效率



图 1: EX6 题目示意图

解: 由题意设置为7个任务, 依次执行。

• 1:  $C_1 = A_1 + B_1$ 

• 2:  $C_2 = A_2 + B_2$ 

• 3:  $C_3 = A_3 + B_3$ 

• 4:  $C_4 = A_4 + B_4$ 

• **5:**  $D_1 = C_1 \times C_2$ 

• **6:**  $D_2 = C_3 \times C_4$ 

• 7:  $D = D_1 \times D_2$ 

## 绘图得



图 2: 时空图

由图算得诸指标如下,

吞吐率 =  $7/(18\Delta t)$ 

加速比 =  $(4 \times (1 + 2 + 1 + 1)\Delta t + 3 \times (1 + 1 + 1)\Delta t)/(18\Delta t) \approx 1.611$ 

各流水段效率:

• 流水段 1: 效率  $e_1 = 7/18$  • 流水段 2: 效率  $e_2 = 3/18$ 

• 流水段 3: 效率  $e_3 = 8/18 = 4/9$  • 流水段 4: 效率  $e_4 = 4/18 = 2/9$ 

• 流水段 5: 效率  $e_5 = 7/18$ 

## 流水线总体效率

$$E = \frac{e_1 + e_2 + e_3 + e_4 + e_5}{5} = 29/90 \approx 32.22\%$$