# SOC Lab3 – FIR Filter

R11943124 電子所碩二 曾郁瑄

#### Overview

Lab 3 中用 Verilog 去 design FIR filter 的 module, 且要用 2 種不同 interface: AXI Lite 以及 Stream, 並熟悉 control signal 以及 BRAM 的使用。

## 1. Block diagram



圖一

## 2. FIR filter computation

在 fir 計算中,每次輸入一筆新的 data,會與對應的 coefficient 作相乘,直到計算完 11 個相乘,輸出該次計算結果。由於 BRAM 中較難實行 shift data,也觀察到說計算上的規律,可以用 pointer 去指定對應的位置,以下為計算步驟以及圖示:

- a. data ptr 與 tap ptr 初始化位置分別為 data 與 tap 位址=0
- b. 每經過1 cycle, ptr 各指到相應的位置(橘色表示), 作相乘、累加計算
- c. 經過11個 cycle,輸出該次 fir 計算結果
- d. 圖三所示,輸入新的 data 在 1 的位置,此時對應的 tap 則是在 0 的位置,重複 b-c 步驟,完成 fir filter 運算



圖三

## 3. Resource usage

圖四~圖六為 FIR filter 消耗的資源,系統的控制與計算由 LUT 的方法進行。圖五可以看到有使用 DSP,應為 convolution 時的乘法、加法運算時使用。



圖四

| <ol><li>Memory</li></ol> |   |      |       |    |            |           |   |      |
|--------------------------|---|------|-------|----|------------|-----------|---|------|
|                          |   |      |       |    |            |           |   |      |
|                          |   |      |       |    |            |           |   |      |
| +                        | + |      | +     | -+ |            | +         | + |      |
| Site Type                | 1 | Used | Fixed | 1  | Prohibited | Available | 1 | Util |
| +                        | + |      | +     | -+ |            | +         | + |      |
| Block RAM Tile           |   | 0    | 0     |    | 0          | 140       | 1 | 0.00 |
| RAMB36/FIF0*             | 1 | 0    | 0     | 1  | 0          | 140       | - | 0.00 |
| RAMB18                   | 1 | 0    | 0     | 1  | 0          | 280       | 1 | 0.00 |

圖五

|              | 3. DSP       |      |    |       |            |    |           |   |       |
|--------------|--------------|------|----|-------|------------|----|-----------|---|-------|
| 79<br>80     |              |      |    |       |            |    |           |   |       |
| 81<br>82     | Site Type    | Used | +- | Fixed | Prohibited | +- | Available | + | Util% |
| 83 :<br>84 : | +            | 3    | +- | 0     | 0          | +- |           | + | 1.36  |
| 85<br>86     | DSP48El only | 3    | 1  | i     |            | 1  |           | + | i     |

圖六

## 4. Timing Summary

總計從 ap\_start~ap\_done 花費 8400 cycles, 合成時使用 Clock cycle: 6 ns, 可以從 timing report 看到 setup slack: 1.261 ns, 如圖七。

| Setup                        |          | Hold                         |          |  |  |  |  |
|------------------------------|----------|------------------------------|----------|--|--|--|--|
| Worst Negative Slack (WNS):  | 1.261 ns | Worst Hold Slack (WHS):      | 0.143 ns |  |  |  |  |
| Total Negative Slack (TNS):  | 0.000 ns | Total Hold Slack (THS):      | 0.000 ns |  |  |  |  |
| Number of Failing Endpoints: | 0        | Number of Failing Endpoints: | 0        |  |  |  |  |
| Total Number of Endpoints:   | 169      | Total Number of Endpoints:   | 169      |  |  |  |  |

All user specified timing constraints are met.

圖七

圖八可以觀察到 max delay path 的 source 以及 destination, critical path 發生在 read back 的部分, slack: 1.261 ns。

圖八

#### 5. Simulation Waveform

• Coefficient(Tap BRAM write)

在 tap BRAM write 中,coefficient 由 AXI lite interface 輸入,直接寫入 Tap BRAM。可以從圖九觀察到,當 awready 與 awvalid 同時為 1 時,Tap BRAM 會收到要寫入的 address,這時當 wready 與 wvalid 同時為 1 且 BRAM 的 WE 為 4'b1111 時,在下一個 cycle 時 data 會寫入 BRAM(指定位置的值)。



圖九

• Coefficient Read back(Tap BRAM read back)

圖十可以看到從 tap BRAM 中將 coefficient 由 AXI interface 讀出。遵循 protocal,當 arvalid 與 arready 為 1 時,tap BRAM 會收到要讀出的 address,當 rvalid 為 1 時,為 coefficient 已經放入 rdata 上可讀出。



圖十

• Data in stream in

在 Data BRAM write 中,input data 由 AXI stream slave interface 輸入,直接 寫入 Data BRAM。可以從圖十一觀察到,當 ss\_tready 與 ss\_tvalid 皆為 1 時且 BRAM 的 WE 為 4'b1111 時,在下一個 cycle 時 data 會寫入 BRAM,同時,testbench 會輸入下一筆 data。



圖十一

#### • Data out stream out

每當計算完 FIR filter 後,結果會由 AXI stream slave interface 輸出,輸出的 port 為 sm\_tdata,可以由涂十二觀察到。當 sm\_data 上有該次計算結果,則 可以將 sm\_tvalid 設定為 1,此時 testbench 就會讀出結果,與 golden 去比對答案。



圖十二