# Lab4-2 優化過程

我們先從未優化前的 waveform 分析!



圖一:waveform

我們可以發現整個 throughput 為 197cycle,但可以發現我們硬體做計算時只有 14cycle 就可以做完,所以問體是卡在 cpu 上,我們可以發現 wb\_addr 會跑去 3800x0000 的位置從 bram 讀取 code,這也導致軟體的部分,也就是 x->y(對應到 c code 中 reg\_fir\_x = i 到 outputsignal[i] = reg\_fir\_y)花費的 cycle 數高達 68 cycle 以及 y->x(對應到 c code 中 outputsignal[i] = reg\_fir\_y 迴圈至 reg\_fir\_x = i)花費的 cycle 數高達 129 cycle。所以我們要想辦法減少這兩部分。剛剛說到我們發現 cpu 會跑去做其他事情,所以我們打開 assembly code 去看有沒有哪部分可以優化。

```
38000000 <fir>
                                                                                                                   38000000:
                                                                                                                                    ff010113
                                                                                                                                                      addi
                                                                                                                                                                       sp,sp,-16
#include <stdint.h:
                                                                                                                   38000004:
                                                                                                                                    00812623
                                                                                                                                                      sw
                                                                                                                                                                        s0.12(sp)
                                                                                                                                    00912423
01010413
                                                                                                                   38000008:
                                                                                                                                                                        s1,8(sp)
 #include <stdbool.h>
                                                                                                                                                      addi
                                                                                                                   3800000c:
                                                                                                                                                                       s0,sp,16
#define N 64
                                                                                                                  38000010:
                                                                                                                                    00000493
                                                                                                                                                                       s1,0
                                                                                                                                     300007b7
                                                                                                                                                                       a5,0x30000
                                                                                                                   38000014:
int outputsignal[N];
                                                                                                                   38000018:
                                                                                                                                    00100713
                                                                                                                                                                        a4.0(a5) # 30000000 < erodata+0x1ffffd10>
                                                                                                                  3800001c:
                                                                                                                                    00e7a023
                                                                                                                                                      sw
#define reg_fir_control (*(volatile uint32_t*)0x30000000)
                                                                                                                                    0580006f
                                                                                                                  38000024:
                                                                                                                                    00000013
                                                                                                                                                      nop
// FIR input X, FIR output Y #define reg_fir_x (*(volatile uint32_t*)0x30000080)
                                                                                                                  38000028:
                                                                                                                                    300007b7
                                                                                                                                                                       a5.0x30000
                                                                                                                   3800002c:
                                                                                                                                    0007a783
                                                                                                                                                                       a5,0(a5) # 30000000 <_erodata+0x1ffffd10>
#define reg_fir_y (*(volatile uint32_t*)0x30000084)
                                                                                                                  38000030:
                                                                                                                                    300007b7
                                                                                                                                                      lui
                                                                                                                                                                       a5,0x30000
                                                                                                                                    08078793
00048713
                                                                                                                   38000034
                                                                                                                                                      addi
                                                                                                                                                                        a5,a5,128 # 30000080 <_erodata+0x1ffffd90>
                                                                                                                   38000038:
                                                                                                                                                      mν
                                                                                                                  3800003c:
                                                                                                                                    00e7a023
                                                                                                                                                      sw
                                                                                                                                                                       a4,0(a5)
                                                                                                                   38000040:
                                                                                                                                    00000013
int^* \_attribute \_ ( ( section ( ".mprjram" ) ) ) fir() \{
                                                                                                                  38000044:
                                                                                                                                    300007b7
                                                                                                                                                                       a5,0x30000
                                                                                                                                                      lui
                 uint8 t register i=0;
                                                                                                                  38000048:
                                                                                                                                    0007a783
                                                                                                                                                                        a5,0(a5) # 30000000 < erodata+0x1ffffd10>
                                                                                                                                     300007b7
                 reg_fir_control = 1; //set ap_start, bit[0] = 1
                                                                                                                                                                       a5,a5,132 # 30000084 < erodata+0x1ffffd94>
                                                                                                                  38000050:
                                                                                                                                    08478793
                                                                                                                                                      addi
                  while(i<N){
                                                                                                                   38000054
                                                                                                                                    0007a783
                                                                                                                                                                       a5,0(a5)
a2,s1
                                                                                                                                                      mν
                      while((reg_fir_control >> 4) & 1 !=1); // external signal x[n] ready, wait until bit[4] = 1
                                                                                                                  3800005c:
                                                                                                                                    00078693
                                                                                                                                                      mv
                                                                                                                                                                       a3.a5
                                                                                                                   38000060:
                                                                                                                                     00400713
                                                                                                                                                                        a4.4
                                                                                                                                    00261793
                                                                                                                                                                        a5,a2,0x2
                      while((reg_fir_control >> 5) & 1!=1); // external signal y[n] ready, wait until bit[5] = 1
                                                                                                                   38000068:
                                                                                                                                    00f707b3
                                                                                                                                                      add
                                                                                                                                                                       a5.a4.a5
                                                                                                                                                                       a3,0(a5)
a5,s1,1
                                    outputsignal[i] = reg_fir_y;
                                                                                                                   3800006c
                                                                                                                                    00d7a023
                                                                                                                                                      sw
addi
                                                                                                                                    00148793
                                                                                                                   38000070:
                                   i=i+1;
                                                                                                                  38000074:
                                                                                                                                    Off7f493
                                                                                                                                                      zext.b
                                                                                                                                                                       s1.a5
                                                                                                                                    03f00793
fa97f4e3
                                                                                                                   38000078:
                  .
while((reg_fir_control >> 1) & 1 != 1); // read ap_done, bit[1] = 1
                                                                                                                                                                       a5,s1,38000024 <fir+0x24>
                                                                                                                  3800007c:
                                                                                                                                                      bgeu
                 return &outputsignal[63];
                                                                                                                  38000080:
                                                                                                                                    00000013
                                                                                                                  38000088:
                                                                                                                                                                       a5,0(a5) # 30000000 < erodata+0x1ffffd10>
                                                                                                                                    0007a783
                                                                                                                                                      lw
                                                                                                                  3800008c
                                                                                                                                    10000793
                                                                                                                                                                       a5,256
                                                                                                                                     00078513
                                                                                                                  38000094:
                                                                                                                                    00c12403
                                                                                                                                                      lw
                                                                                                                                                                       s0,12(sp)
                                                                                                                   38000098:
                                                                                                                                    00812483
                                                                                                                                                      lw
addi
                                                                                                                                                                       s1,8(sp)
sp,sp,16
                                                                                                                                    01010113
                                                                                                                  380000a0:
                                                                                                                                    00008067
```

圖 2:未優化的 assembly code

我們可以發現 assembly code 中 while 迴圈的部分十分的攏長,,也正因為如此他才要再去 3800 讀

取 code。 所以我們利用 -O1(當然也可以用-O2、-O3、-Os 或-Ofast)這些指令來讓編譯器幫我們優化 assembly code(在 run\_sim 中修改如下)

```
rm -f counter_la_fir.hex
       riscv32-unknown-elf-gcc -Wl,--no-warn-rwx-segments -g \
               --save-temps \
               -Xlinker -Map=output.map \
               -march=rv32i -mabi=ilp32 -D__vexriscv__ \
8
               -Wl,-Bstatic,-T,../../firmwar
                                               sections.lds.--strip-discarded \
               -ffreestanding -nostartfiles -O1 -
                                                   counter_la_fir.elf ../../firmware/crt0_vex.S ../../firmware/isr.c fir.c counter_la_fir.c
10
       # -nostartfiles
11
       riscv32-unknown-elf-objcopy -O verilog counter la fir.elf counter la fir.hex
12
       riscv32-unknown-elf-objdump -D counter_la_fir.elf > counter_la_fir.out
13
       # to fix flash base address
14
       sed -ie 's/@10/@00/g' counter la fir.hex
15
16
       iverilog -Ttyp -DFUNCTIONAL -DSIM -DUNIT_DELAY=#1 \
17
18
               -f./include.rtl.list -o counter_la_fir.vvp counter_la_fir_tb.v
19
20
       vvp counter_la_fir.vvp
21
       rm -f counter_la_fir.vvp counter_la_fir.elf counter_la_fir.hexe
```

### 圖 3:run\_sim 修改位置

```
#include <stdint.h>
#define N 64
int outputsignal[N];
#define reg_fir_control (*(volatile uint32_t*)0x30000000)
                                                                                                                              38000000 <fir>:
// FIR input X, FIR output Y
                                                                                                                                                 300007b7
                                                                                                                              38000000:
                                                                                                                                                                                       a5.0x30000
#define reg_fir_x (*(volatile uint32_t*)0x30000080)
#define reg_fir_y (*(volatile uint32_t*)0x30000084)
                                                                                                                                                00100713
00e7a023
                                                                                                                              38000004
                                                                                                                              38000008:
                                                                                                                                                                                       a4,0(a5) # 30000000 <_erodata+0x1ffffe08>
                                                                                                                              3800000c:
                                                                                                                                                 00400693
                                                                                                                                                                                       a3.4
                                                                                                                              38000010:
                                                                                                                                                 00000713
                                                                                                                              38000014:
                                                                                                                                                 04000593
                                                                                                                                                                                       a1.64
                                                                                                                                                 0007a603
08e7a023
                                                                                                                                                                                       a2,0(a5)
a4,128(a5)
int* \_attribute\_ ( ( section ( ".mprjram" ) ) ) fir(){
                                                                                                                              38000018:
                                                                                                                              3800001c:
                                                                                                                                                                    SW
                   uint8 t register i=0;
                                                                                                                              38000020:
                                                                                                                                                 0007a603
                                                                                                                                                                                       a2,0(a5)
a2,132(a5)
                                                                                                                             38000024:
38000028:
                   reg_fir_control = 1; //set ap_start, bit[0] = 1
                                                                                                                                                 00c6a023
                                                                                                                                                                                       a2.0(a3)
                                                                                                                                                                    sw
                                                                                                                             3800002c:
38000030:
                                                                                                                                                 00170713
00468693
                                                                                                                                                                                       a4,a4,1 # 20001 <_fstack+0x1fa01>
a3,a3,4
                   while(i<N){
                                                                                                                                                                    addi
                        while((reg_fir_control >> 4) & 1 !=1); // external signal x[n] ready, wait until bit[4] = 1
                                                                                                                              38000034:
                                                                                                                                                 feb712e3
                                                                                                                                                                                       a4,a1,38000018 <fir+0x18>
                                                                                                                              38000038:
                                                                                                                                                 300007b7
                                                                                                                                                                                       a5,0x30000
                                                                                                                                                                                       a5.0(a5) # 30000000 < erodata+0x1ffffe08>
                                                                                                                              3800003c:
                                                                                                                                                 0007a783
                                                                                                                                                                    lw
                        while ((reg\_fir\_control >> 5) \& 1!=1); // external signal y[n] \ ready, wait until \ bit[5] = 1
                                                                                                                              38000040:
                                                                                                                                                 10000513
                                                                                                                                                                                       a0,256
                                      outputsignal[i] = reg_fir_y;
                                                                                                                              38000044:
                                                                                                                                                 00008067
                   while((reg_fir_control >> 1) & 1 != 1); // read ap_done, bit[1] = 1
                   return &outputsignal[63];
```

### 圖 4: 優化後 assembly code

我們可以發現優化後 assembly code ,也變得更加簡潔。這時再重新觀察 waveform



### 圖 5: 第一次優化後的 waveform:

經由第一次優化後的 x->y 花費的 cycle 數為 29 cycle 以及 y->x 花費的 cycle 數為 72 cycle,整體 throughput 為 101cycle。在這可以明顯的發現 cpu 有些時候不會再跑去 bram 重新讀指令,後面會證 明是由 cache 來運作。除此之外,我們發現 3000x0000 在送 y 值之前讀了兩次,對應到了 while 迴圈 判斷是否可以接收 y,這造成不必要的 cycle 再跑一次至 3000x0000,但我們發現其實可以直接送進去交給硬體判斷,上圖可以發現都是 smtvalid 先拉至 1 後等待 smtready 完成傳遞,但如果我不利用 while 迴圈來判斷,而是直接先給 smtready 拉至 1,然後等待 smtvalid 完成傳遞,這樣可能會花更少的 cycle,故我們需要修改 fir.c 來進行第二次優化:

```
177 38000000 <fir>:
int* attribute ( ( section ( ".mprjram" ) ) ) fir(){
                                                                                        178 38000000:
                                                                                                               300007b7
                                                                                                                                                    a5.0x30000
        uint8_t register i=0;
reg_fir_control = 1; //set ap_start, bit[0] = 1
                                                                                                                                           li
sw
li
                                                                                        179 38000004:
                                                                                                               00100713
                                                                                                                                                    a4,1
a4,0(a5) # 30000000 <_erodata+0x1ffffe08
                                                                                        180 38000008:
181 3800000c:
                                                                                        182 38000010:
                                                                                                               00000793
                                                                                                                                                    a5,0
        while(i<N){
                                                                                        183 38000014:
                                                                                                               300006b7
                                                                                                                                                    a3.0x30000
                                                                                        184 38000018:
                                                                                                               04000593
                                                                                                                                                    a5,128(a3) # 30000080 <_erodata+0x1ffffe88>
                 reg_fir_x = i;
outputsignal[i] = reg_fir_y;
i=i+1;
                                                                                        187 38000024:
                                                                                                               00c72023
                                                                                                                                                    a2,0(a4) # 20000 < fstack+0x1fa00>
                                                                                        188 38000028:
                                                                                                               00178793
                                                                                                                                           addi
                                                                                                                                                    a5.a5.1
                                                                                                                                           addi
bne
lui
                                                                                                                                                    a4,a4,4
a5,a1,3800001c <fir+0x1c>
a5,0x30000
                                                                                        189 3800002c
                                                                                                               00470713
                                                                                                               feb796e3
        while((reg_fir_control >> 1) & 1 != 1); // read ap_done, bit[1] = 1
                                                                                                                                                    a5.0(a5) # 30000000 < erodata+0x1ffffe08>
                                                                                        192 38000038:
                                                                                                               0007a783
        return &outputsignal[63];
                                                                                        193 3800003c:
                                                                                                               10000513
                                                                                                               00008067
                                                                                        194 38000040:
```

圖 6:第二次優化的 fir.c 及對應的 assembly code



圖 7:第二次優化後的 waveform

經由第二次優化後的 x->y 花費的 cycle 數為 15 cycle 以及 y->x 花費的 cycle 數為 16 cycle,整體 throughput 為 31cycle。而且可以發現 cpu 完全不用至 bram 重新讀取指令。然而經由老師的指點,我們可以藉由調整 assembly code 的位置來優化。順帶一題我們可以發現其實 x->y 已經無法再優化主要是受限我們自己的硬體設計,所以我們主要優化 y->x 這段。由老師給我們的想法我們簡單的修改了 fir.c 至使 assembly code 的順序有些改變。

```
38000000 <fir>
                                                                              38000000
                                                                                               300007b7
                                                                                                                                  a5,0x30000
                                                                                                                                   a4,1
a4,0(a5)  # 30000000 <_erodata+0x1ffffe08>
 int* __attribute__ ( ( section ( ".mprjram" ) ) ) fir(){
                                                                                               0807a023
                                                                                                                          sw
li
                                                                                                                                   zero,128(a5)
                                                                              38000010:
                                                                                               00400713
                                                                                                                                   a4.4
         uint8_t register i=0;
reg_fir_control = 1; //set ap_start, bit[0] = 1
reg_fir_x = i;
                                                                              38000014:
                                                                                               00100793
                                                                              38000018:
                                                                                                                                   a3,0x30000
                                                                                                                                   a2,132(a3) # 30000084 <_erodata+0x1ffffe8c>
         while(i<N-1){
                                                                                                                                   a2,0(a4) # 20000 <_fstack+0x1fa00>
                                                                               38000024:
                                                                                               00c72023
                                                                                                                          SW
                  outputsignal[i] = reg_fir_y;
i=i+1;
                                                                              38000028:
                                                                                               08f6a023
                                                                                                                                   a5,128(a3)
                                                                              3800002c:
                                                                                               00178793
                                                                                                                                   a5,a5,1
                   reg_fir_x = i;
                                                                               38000030
                                                                                                00470713
                                                                                                                                   a4,a4,4
a5,a1,38000020 <fir+0x20
                                                                              38000034
                                                                                               300007b7
0847a703
                                                                                                                                   a5,0x30000
a4,132(a5) # 30000084 <_erodata+0x1ffffe8c>
         outputsignal[N-1] = reg_fir_y;
while((reg_fir_control >> 1) & 1 != 1); // read ap_done
                                                                              3800003c:
                                                                                                                          lw
li
                                                                              38000040:
                                                                                               00400513
                                                                                                                                   a4.252(a0)
                                                                              38000044:
                                                                                               0ee52e23
         return &outputsignal[63];
                                                                              38000048:
                                                                                                0007a783
                                                                                                0fc50513
  原先的assembly code
3800001c:
                  08f6a023
                                                        a5,128(a3) # 30000080 <_erodata+0x1ffffe88>
                                                       a2,132(a3)
                                                        a2.0(a4) # 20000 < fstack+0x1fa00>
38000024:
                  00c72023
38000028:
                  00178793
                                               addi
                                                       a5,a5,1
                                                       a5,a1,3800001c <fir+0x1c>
38000030:
                  feb796e3
                                              bne
```

圖 8:第三次優化的 fir.c 及對應的 assembly code 以及對比之前的 assembly code



圖 9:第三次優化後的 waveform

改寫後 x-y 花費的 cycle 數為 15 cycle (這部分受限硬體設計關係)以及 y-x 花費的 cycle 數為 8 cycle(明顯比第二次優化時快 2 倍)。然而除了可以藉由更改 fir.c 來變更 assembly code 我們也可以利用.hex 更改對應指令的順序。

```
38000020:
                0846a603
                                         LW
                                                 a2,132(a3) # 30000084 < eroda
38000024:
                00c72023
                                         SW
                                                 a2,0(a4) # 20000 <_fstack+0x1
38000028:
                08f6a023
                                                 a5,128(a3)
3800002c:
                00178793
                                         addi
                                                 a5,a5,1
38000030:
                00470713
                                         addi
                                                 a4,a4,4
                feb796e3
                                                 a5,a1,38000020 <fir+0x20>
38000034:
                                         bne
```

圖 10:assembly code 對調(sw a2, 0(a4) is stalled thus delays the following write x (sw a5, 128 (a3).)

```
34 @000001F8
                         0 2
35 B7 07 00 30 13 07 10
                              A0 E7 00 23 A0 07 08
36 13 07 40 00 93 07 10
                        0
                          В7
                              06 00 30 93 05 00
37 03 A6 46 08 23 20 C7 00 23 A0 F6 08
                                       93 87
                                              17
38 13 07 47 00 E3 96 B7
                        FE
                           B7
                              07
39 13 05 40 00 23 2E E5 0E 83 A7 07 00 13 05 85 0F
40 67 80 00 00 13 01 01 FE 23 2E
                                 11 00 23 2C 81
                                                 00
41 23 2A 91 00 23 28 21 01 23 26 31 01 B7 07 00 26
```

圖 11:hex file 中指令順序位置



圖 12:第四次優化後的 waveform

所以我們目前可以做到 x->y 為 15 cycles, y->x 為 2 cycles, 整體 throughput 為 15 cycle。

因一開始硬體設計上並沒有加一層 FF,所以每次做完 y 都要等到收到 x 才能繼續,這時極限只能做到 2+14 cycles per data 且在此狀況下還要花時間去設計究竟 x->y 還是 y->x 哪段要比較快來配合硬體。不過感謝台大同學的報告,從中發現加了一層 FF 確實可以再進一步優化。有了 FF 後,我們可以再運算的過程中也可以收 x,所以我們現在只要思考如何讓 smtready 之間的距離縮短即可。所以我試著再去縮短 smtready 之間的 cycle 數,最後做出來整體 throughput 為 12 cycle。

```
38000024:
                0846a603
                                                a2,132(a3) # 30000084 <_erodata+0x1ffffe8c>
                                        addi
38000028:
                00478793
                                                a5,a5,4
                                                a4,128(a3)
3800002c:
                08e6a023
                                        SW
38000030:
                fec7ae23
                                        SW
                                                a2.-4(a5)
38000034:
                                        addi
                                                a4,a4,1
38000038:
                feb796e3
                                        bne
                                                a5,a1,38000024 <fir+0x24>
```

圖 13:第五次優化後的 while 迴圈對應的 assembly code



圖 14:第五次優化後的 waveform

## 補充說明:

1. 剛剛有講到 cpu 沒有再去 bram 抓 code,而我們猜測是由 cache 抓,那我們最後也證實了是由 cache 來運作,如下:



圖 15:cache 的 waveform