#### 武汉大学计算机学院

# 2021-2022 学年第一学期 2020 级卓越工程师班/人工智能专业《计算机组成与设计》

#### 期末考试试题 A 卷 (闭卷)

| 学号 | 姓名 | 班级 |
|----|----|----|
|    |    |    |

注意: 所有答题内容必须写在答题纸上, 凡写在试题或草稿纸上的一律无效。

本考试使用的 RISC-V 核心指令格式如下:

|                        | 31 27       | 26 25  | 24 20       | 19 15 | 14 12  | 11 7        | 6 0    |
|------------------------|-------------|--------|-------------|-------|--------|-------------|--------|
| R                      | funct7      |        | rs2         | rs1   | funct3 | rd          | opcode |
| I                      | imm[11:0]   |        |             | rs1   | funct3 | rd          | opcode |
| $\mathbf{S}$           | imm[11:5]   |        | rs2         | rs1   | funct3 | imm[4:0]    | opcode |
| SB                     | imm[12 10:5 | 5]     | rs2         | rs1   | funct3 | imm[4:1 11] | opcode |
| U                      | imm[31:12]  |        |             | rd    | opcode |             |        |
| $\mathbf{U}\mathbf{J}$ |             | imm[20 | 10:1 11 19: | 12]   |        | rd          | opcode |

## 一、 性能计算(共10分)

若有两种机器采用了不同方法来设计条件分支指令:

- (a) P1: 通过比较指令设置条件码, 然后对条件码进行测试以决定分支。
- (b) P2: 分支指令中包含了比较操作。

在两种机器中,除了条件分支指令需要 2 个时钟周期之外,其他所有指令都只需 1 个时钟周期。原始的待执行指令中分支指令占 20%,对于 P1,需增加与分支指令数量相同的比较指令;而对于 P2,则不需要。已知 P2 的时钟周期是 P1 的 1.25 倍,那么:

- (1) P1的CPI是多少? (4分)
- (2) P2的 CPI 是多少? (4分)
- (3) 哪一个机器更快? (2分)

## 二、 指令系统(共27分)

1、(20分)有如下 C 语言程序:

```
int foo()
{
  long long D[4*M];
  int i, j;

  for (i=0; i<N; i++) {
    j=0;
    while (j<M) {
        D[4*j]=i+j;
        j+=1;
    }
}

  return 0;
}</pre>
```

下面的代码是其对应的 RV64 汇编程序。

- (1) 请从上述汇编代码推断出 M 和 N 的值。(2分)
- (2) li 是汇编伪指令,是将一个寄存器的值设置为一个常数,在 RV64 中,可以用哪条指令来实现 li x7,9。(2分)
- (3) 填写出汇编代码中缺失的 12 处内容。(12 分)
- (4) 汇编代码中第3行的作用是什么?为什么需要它?(4分)

2、(7分) 考虑下列 RISC-V 代码(参数传递和结果传递均使用 x10)。



- (1) 假设 C 函数的原型为 long long int func(long long int a),请根据汇编代码写出等价的 C 语言代码。(3分)
- (2) 第一次执行 addi x6, x10, 0 后, 寄存器 x6 的值为多少? (2分)
- (3) 假设传递给 func 函数的实际参数的初始值 4,则循环结束的时候,函数的最后返回结果是多少? (2分)

# 三、 运算器(共10分)

假设有一个虚构的 8 位浮点数标准,称为"minifloat"(如: S E EEMMMM, 其中符号字段 1 位,指数字段 3 位,尾数字段 4 位),其它属性和 IEEE754 标准一样(如: 偏阶,非规格化数值, $\infty$ , NaN,等等)。

- (1) 请问偏阶是多少? 在[1, 4)范围内有多少个 minifloat? (4分)
- (2) 请写出大于 1 的最小 minifloat 数,用十进制数表示。(3分)
- (3) 定义一个 minifloat 类型的数组 A[3],数组在内存的起始地址是 40,如下图所示,请用十进制写出数组每个元素的真值。(3分)



### 四、 CPU (共 26 分)

1、(14 分)为了提高对数据存储器的访问灵活性,现在 RISC-V 中增加一条访存指令,采用"相对基址变址寻址"方式。其指令格式为: mov rd, offset(rs+rt),这里 rd 为目的寄存器,rs 为基址寄存器,rt 为变址寄存器,offset 为字偏移量,其功能为:

$$Reg[rd] = Mem[Reg[rs] + Reg[rt] + offset * 4]$$

现有的单周期 CPU 数据通路如下图:



- (1) 如果要实现这条 mov 指令,现有的单周期 CPU 数据通路能否满足要求?如果不能,需要新增或修改哪些逻辑模块和控制信号?画出新增的模块和控制信号,明确标注出与现有模块的连接,解释这些逻辑模块的作用以及控制信号的取值和含义。(10分)
- (2) 执行新增的 mov 指令时控制单元产生的控制信号分别为什么值? (4分)

2、(12分)在RISC-V 五级流水线上执行下列代码:

add rd, rs, rt

next1

next2

beq rs, rt, label

next3

next4

.....

Label:target1

target2

• • • • • •

为处理分支冒险,将分支比较和目标地址计算提前到 ID 级,并且采用预测机制处理分支冒险。如果总是预测分支发生而且配备 BTB (分支目标缓冲区),请在不考虑任何数据冒险的情况下解答下列问题:

- (1) 如果在BTB中没有检索到该指令并且在ID阶段确定该指令不是分支指令,该如何? 请以 add 指令为例用流水线示意图说明。(3分)
- (2) 如果在BTB中没有检索到该指令并且在ID阶段确定该指令是分支指令,又该如何? 请以 beq 指令为例用流水线示意图说明。(3分)
- (3) 如果在 BTB 中检索到该分支指令并且预测成功,请以 beq 指令为例画出流水线示意图。(3分)
- (4) 如果在 BTB 中检索到该分支指令但是预测失败,该如何?请以 beq 指令为例用流水 线示意图说明。(3分)

# 五、 内存系统(本题 27 分)

- 1、(17分)假设计算机 M 的主存地址为 24位,按字节编址;采用分页存储管理方式,虚拟地址为 32位,页大小为 4KB; TLB采用 2路组相联方式和 LRU 替换策略,共 8组。请回答下列问题。
- (1) M 的虚拟地址中哪几位是 TLB 标记?哪几位是 TLB 组号?如果将 M 中的虚拟地址位数增加到 36位,则 TLB 标记和组号的位数分别是多少位?(4分)
- (2) 假设 TLB 初始时为空,访问虚页号依次为 10、12、16、7、20、4、12、16、20、12,

- 在此过程中,哪一个/些虚页号对应的 TLB 表项被替换?说明理由。(4分)
- (3) 如果将 TLB 改成全相联映射,命中率会有所提高吗?说明理由。如果能提高,但是可能会带来什么负面影响?如果不能,设想一下有什么其他方法能提高命中率。(3分)
- (4) 在该机器上运行一道程序,采用单级页表,部分页表如下表,请将下列虚拟地址转换成物理地址,写出计算过程,所有数字均为十进制,每项的起始编号是 0。(6分)虚拟地址: 0793,9048,12862。

| 有效位 | 虚拟页号 | 物理页号 |          |
|-----|------|------|----------|
| 1   | 0    | 1    |          |
| 1   | 1    | 3    |          |
| 0   | 2    | _    |          |
| 1   | 3    | 0    | 7        |
| 1   | 4    | 2    | <i>y</i> |
| 0   | 5    | //-> |          |

- 2、(10分) 你正在设计处理器的 cache 系统,假设已经准备采用 write-allocate (写分配) 策略,块大小为 64B,所有的 load 和 store 都是针对 8 字节的位置进行的。总线支持 8B 和 64B 的事务处理,也就是从内存既能读写 8B 数据也能读写 64B 的数据。
- (1) 你不确定应该使用 write-back(写回)还是 write-through(直写)策略中的哪一种。 于是你运行了一个 benchmark 程序,它每秒产生 10 亿次写操作而没有读操作,你的 cache 的命中率为 X,那么在程序稳定时,两种写策略的写带宽(bytes/second)分别 应该为多少?(4分)
- (2) 如果想使得写带宽的数值(B/s)尽可能的小,X的值在什么范围时,你会更倾向于使用直写 cache?(2分)
- (3) 假设现在你已经决定采用写回策略了,你想研究块大小对 cache 性能的影响。如果你的主要应用总是采用顺序访问的方式访问地址空间上连续的数据,那么你应该选择较大的块还是较小的块?或者说都没有影响?如果是随机访问呢?所有答案都需要给出你的分析和理由。(4分)