# University of Calabria, DIMES High Level Synthesis of Digital Systems 2023-2024

# Prof.ssa PERRI Prof. FRUSTACI FIR Filter Analysis

 ${\it Giorgio~Ubbriaco}\atop 247284\\ {\it bbrgrg}00h11d086x@studenti.unical.it}$ 

May 2024

# Index

| 1 | ntroduction                        | 6  |
|---|------------------------------------|----|
|   | .1 LTI Systems                     | 6  |
|   | .2 Causal Systems                  | 6  |
|   | .3 FIR Filter                      | 6  |
|   | .4 High Level Synthesis            | 7  |
| 2 | Tasks to be performed              | 8  |
| 3 | Definitions                        | ξ  |
| 4 | C Simulations                      | 12 |
| 5 | Solutions                          | 17 |
|   | Unoptimized Solution               | 17 |
|   | 5.2 Operation Chaining Solution    |    |
|   | 6.3 Code Hoisting Solution         |    |
|   | Loop Fission Solution              |    |
|   | 5.5 Loop Unrolling Solution        |    |
|   | 5.5.1 Loop Unrolling Factor=2      |    |
|   | 5.5.2 Loop Unrolling Factor=4      |    |
|   | 5.6 Loop Pipelining Solution       |    |
|   | 5.7 Bitwidth Optimization Solution |    |
|   |                                    | 63 |
| 6 | Conclusions                        | 68 |

# Listings

|          | itions/definitions.h                                                                | 9  |
|----------|-------------------------------------------------------------------------------------|----|
| $c\_sir$ | nulations/fir_tb.cpp                                                                | 12 |
| $c\_sin$ | nulations/fir_tb_output.txt                                                         | 14 |
| solu     | tions/unoptimized/fir_unoptimized.cpp                                               | 17 |
| solu     | tions/unoptimized/firConvolutionUnoptimized_top.vhd                                 | 20 |
|          | tions/unoptimized/firConvolutionUnoptimized_tb.vhd                                  | 21 |
|          | tions/unoptimized/clk_constraint.xdc                                                | 22 |
|          | tions/operation_chaining/10ns/clk_constraint.xdc                                    | 26 |
|          | tions/operation_chaining/9ns/clk_constraint.xdc                                     | 26 |
|          | tions/operation_chaining/8ns/clk_constraint.xdc                                     | 26 |
|          | tions/operation_chaining/7ns/clk_constraint.xdc                                     | 26 |
|          | tions/operation_chaining/6ns/clk_constraint.xdc                                     | 26 |
|          | tions/operation_chaining/5ns/clk_constraint.xdc                                     |    |
|          |                                                                                     | 26 |
|          | tions/operation_chaining/4ns/clk_constraint.xdc                                     | 26 |
|          | tions/operation_chaining/3ns/clk_constraint.xdc                                     | 26 |
|          | tions/code_hoisting/fir_code_hoisting.cpp                                           | 31 |
|          | tions/code_hoisting/clk_constraint.xdc                                              | 33 |
|          | tions/loop_fission/fir_loop_fission.cpp                                             | 35 |
|          | tions/loop_fission/clk_constraint.xdc                                               | 37 |
| solu     | tions/loop_unrolling/factor2/fir_loop_unrolling_manual_factor2.cpp                  | 41 |
| solu     | tions/loop_unrolling/factor2/fir_loop_unrolling_automatic_factor2.cpp               | 41 |
| solu     | tions/loop_unrolling/factor2/fir_loop_unrolling_automatic_partiotioning_factor2.cpp | 41 |
|          | tions/loop_unrolling/factor2/clk_constraint.xdc                                     | 44 |
|          | tions/loop_unrolling/factor2/fir_loop_unrolling_manual_factor2_accumulator.cpp      | 48 |
|          | tions/loop_unrolling/factor4/fir_loop_unrolling_manual_factor4.cpp                  | 49 |
|          | tions/loop_unrolling/factor4/fir_loop_unrolling_automatic_factor4.cpp               | 49 |
|          | tions/loop_unrolling/factor4/fir_loop_unrolling_automatic_partiotioning_factor4.cpp | 49 |
|          | tions/loop_unrolling/factor2/clk_constraint.xdc                                     | 52 |
|          | tions/loop_unrolling/factor4/fir_loop_unrolling_manual_factor4_accumulator.cpp      | 55 |
|          |                                                                                     | 58 |
| S01u     | tions/loop_pipelining/fir_loop_pipelining.cpp                                       |    |
| solu     |                                                                                     | 60 |
|          | , 1                                                                                 | 61 |
|          | , , , , , , , , , , , , , , , , , , , ,                                             | 63 |
|          | 1 1                                                                                 | 65 |
| solu     | tions/axi/clk_constraint.xdc                                                        | 66 |
| List     | of Figures                                                                          |    |
|          |                                                                                     | _  |
| 1        | HLS Design Flow                                                                     | 7  |
| 2        | HLS Clock Period from Synthesis Report                                              | 18 |
| 3        | HLS Unoptimized Solution If Statement Analysis                                      | 18 |
| 4        | HLS Unoptimized Solution Else Statement Analysis                                    | 19 |
| 5        | HLS Unoptimized Solution Read Operations Analysis                                   | 19 |
| 6        | HLS Unoptimized Solution Read Operations Analysis                                   | 19 |
| 7        | HLS Unoptimized Solution Write Operations Analysis                                  | 19 |
| 8        | HLS Unoptimized Solution Write Operations Analysis                                  | 19 |
| 9        | Vivado Operation Chaining Solution clk=3ns Timing Constraint Violated               | 27 |
| 10       | Vivado Operation Chaining Solution clk=3ns Timing Constraint Violated               | 27 |
| 11       | Vivado Operation Chaining Utilization Plot                                          | 27 |
| 12       | Vivado Operation Chaining Timing Plot                                               | 28 |
| 13       | Vivado Operation Chaining Power Plot                                                | 30 |
| 14       | HLS Code Hoisting Solution Trip Count Analysis                                      | 32 |
|          |                                                                                     |    |

| 15              | HLS Loop Fission Solution Analysis                                     | 36 |
|-----------------|------------------------------------------------------------------------|----|
| 16              | HLS Array Partitioning                                                 | 39 |
| 17              | HLS Loop Unrolling                                                     | 40 |
| 18              | HLS Loop Unrolling Manual Factor=2 Analysis                            | 43 |
| 19              | HLS Loop Unrolling Automatic Factor=2 Analysis                         |    |
| 20              | Vivado Loop Unrolling Factor=2 Utilization Plot                        |    |
| 21              | Vivado Loop Unrolling Factor=2 Timing Plot                             |    |
| $\frac{1}{2}$   | Vivado Loop Unrolling Factor=2 Dynamic Power Plot                      |    |
| 23              | HLS Loop Unrolling Manual Factor=4 Analysis                            |    |
| $\frac{23}{24}$ | HLS Loop Unrolling Automatic Factor=4 Analysis                         |    |
| 25              | Vivado Loop Unrolling Factor=4 Utilization Plot                        |    |
| 26              | Vivado Loop Unrolling Factor=4 Timing Plot                             |    |
| 27              | HLS Loop Pipelining                                                    |    |
| 28              | AXI4-Stream Protocol                                                   |    |
| 29              | Vivado Solutions Utilization Plot                                      |    |
|                 |                                                                        |    |
| 30              | Vivado Total Dynamic Power and Energy Single Operation Plot            |    |
| 31              | Vivado Solutions Maximum Clock Frequency Plot                          | 71 |
| <b>-</b> .      | 0.7D 1.1                                                               |    |
| List            | of Tables                                                              |    |
|                 |                                                                        |    |
| 1               | HLS Unoptimized Solution Timing Summary (ns)                           |    |
| 2               | HLS Unoptimized Solution Latency Summary (clock cycles)                |    |
| 3               | HLS Unoptimized Solution Latency Loops Summary                         |    |
| 4               | HLS Unoptimized Solution Utilization Estimates Summary                 |    |
| 5               | HLS Unoptimized Solution C/RTL Cosimulation Summary                    |    |
| 6               | HLS Unoptimized Solution Export RTL Resource Usage                     |    |
| 7               | HLS Unoptimized Solution Export RTL Final Timing                       | 20 |
| 8               | Vivado Unoptimized Solution Utilization Report [#]                     |    |
| 9               | Vivado Unoptimized Solution Timing Report                              |    |
| 10              | Vivado Unoptimized Solution Dynamic Power Report [mW]                  | 23 |
| 11              | Vivado Unoptimized Solution Dynamic Power Report [mW]                  | 23 |
| 12              | Vivado Unoptimized Solution Energy Single Operation Report [pJ]        | 23 |
| 13              | HLS Operation Chaining Solution Timing Summary (ns)                    | 24 |
| 14              | HLS Operation Chaining Solution Latency Summary (clock cycles)         | 24 |
| 15              | HLS Operation Chaining Solution Latency Loops Summary                  | 24 |
| 16              | HLS Operation Chaining Solution Utilization Estimates [#]              | 25 |
| 17              | HLS Operation Chaining Solution C/RTL Cosimulation Report              | 25 |
| 18              | HLS Operation Chaining Solution Export RTL Report                      | 26 |
| 19              | Vivado Operation Chaining Solution Utilization Report [#]              | 27 |
| 20              | Vivado Operation Chaining Solution Timing Report                       | 28 |
| 21              | Vivado Operation Chaining Solution Dynamic Power Report [mW]           | 29 |
| 22              | Vivado Operation Chaining Solution Dynamic Power Report [mW]           | 29 |
| 23              | Vivado Operation Chaining Solution Energy Single Operation Report [pJ] | 29 |
| 24              | HLS Code Hoisting Solution Timing Summary (ns)                         | 31 |
| 25              | HLS Code Hoisting Solution Latency Summary (clock cycles)              | 31 |
| 26              | HLS Code Hoisting Solution Latency Loops Summary                       | 31 |
| 27              | HLS Code Hoisting Solution Utilization Estimates Summary               | 32 |
| 28              | HLS Code Hoisting Solution C/RTL Cosimulation Summary                  | 33 |
| 29              | HLS Code Hoisting Solution Export RTL Resource Usage                   | 33 |
| $\frac{25}{30}$ | HLS Code Hoisting Solution Export RTL Final Timing                     | 33 |
| 31              | Vivado Code Hoisting Solution Utilization Report [#]                   | 33 |
| $\frac{31}{32}$ | Vivado Code Hoisting Solution Timing Report                            | 33 |
| $\frac{32}{33}$ | Vivado Code Hoisting Solution Dynamic Power Report [mW]                | 33 |
| 34              | Vivado Code Hoisting Solution Dynamic Power Report [mW]                |    |
| 94              | vivado code moisums portunon dynamie i ower neport [m vv]              | 94 |

| 35 | Vivado Code Hoisting Solution Energy Single Operation Report [pJ]               |    |
|----|---------------------------------------------------------------------------------|----|
| 36 | HLS Loop Fission Solution Timing Summary (ns)                                   |    |
| 37 | HLS Loop Fission Solution Latency Summary (clock cycles)                        | 35 |
| 38 | HLS Loop Fission Solution Latency Loops Summary                                 |    |
| 39 | HLS Loop Fission Solution Utilization Estimates Summary                         |    |
| 40 | HLS Loop Fissiong Solution C/RTL Cosimulation Summary                           | 37 |
| 41 | HLS Loop Fissiong Solution Export RTL Resource Usage                            | 37 |
| 42 | HLS Loop Fissiong Solution Export RTL Final Timing                              | 37 |
| 43 | Vivado Loop Fission Solution Utilization Report [#]                             | 37 |
| 44 | Vivado Loop Fission Solution Timing Report                                      |    |
| 45 | Vivado Loop Fission Solution Dynamic Power Report [mW]                          | 37 |
| 46 | Vivado Loop Fission Solution Dynamic Power Report [mW]                          |    |
| 47 | Vivado Loop Fission Solution Energy Single Operation Report [pJ]                | 37 |
| 48 | HLS Loop Unrolling Factor=2 Solution Timing Summary (ns)                        |    |
| 49 | HLS Loop Unrolling Factor=2 Solution Latency Summary (clock cycles)             |    |
| 50 | HLS Loop Unrolling Factor=2 Solution Latency Loops Summary                      |    |
| 51 | HLS Loop Unrolling Factor=2 Solution Utilization Estimates [#]                  |    |
| 52 | HLS Loop Unrolling Factor=2 Solution C/RTL Cosimulation Report                  |    |
| 53 | HLS Loop Unrolling Factor=2 Solution Export RTL Report                          |    |
| 54 | Vivado Loop Unrolling Factor=2 Solution Utilization Report [#]                  |    |
| 55 | Vivado Loop Unrolling Factor=2 Solution Timing Report                           |    |
| 56 | Vivado Loop Unrolling Factor=2 Solution Dynamic Power Report [mW]               |    |
| 57 | Vivado Loop Unrolling Factor=2 Solution Dynamic Power Report [mW]               |    |
| 58 | Vivado Loop Unrolling Factor=2 Solution Energy Single Operation Report [pJ]     |    |
| 59 | HLS Loop Unrolling Factor=2 Accumulator Solution Timing Summary (ns)            |    |
| 60 | HLS Loop Unrolling Factor=2 Accumulator Solution Latency Summary (clock cycles) |    |
| 61 | HLS Loop Unrolling Factor=2 Accumulator Solution Latency Loops Summary          |    |
| 62 | HLS Loop Unrolling Factor=2 Accumulator Solution Utilization Estimates Summary  |    |
| 63 | HLS Loop Unrolling Factor=4 Solution Timing Summary (ns)                        |    |
| 64 | HLS Loop Unrolling Factor=4 Solution Latency Summary (clock cycles)             |    |
| 65 | HLS Loop Unrolling Factor=4 Solution Latency Loops Summary                      |    |
| 66 | HLS Loop Unrolling Factor=4 Solution Utilization Estimates [#]                  |    |
| 67 | HLS Loop Unrolling Factor=4 Solution C/RTL Cosimulation Report                  |    |
| 68 | HLS Loop Unrolling Factor=4 Solution Export RTL Report                          |    |
| 69 | Vivado Loop Unrolling Factor=4 Solution Utilization Report [#]                  |    |
| 70 | Vivado Loop Unrolling Factor=4 Solution Timing Report                           |    |
| 71 | Vivado Loop Unrolling Factor=4 Solution Dynamic Power Report [mW]               |    |
| 72 | Vivado Loop Unrolling Factor=4 Solution Dynamic Power Report [mW]               |    |
| 73 | Vivado Loop Unrolling Factor=4 Solution Energy Single Operation Report [pJ]     | 54 |
| 74 | HLS Loop Unrolling Factor=4 Accumulator Solution Timing Summary (ns)            | 55 |
| 75 | HLS Loop Unrolling Factor=4 Accumulator Solution Latency Summary (clock cycles) | 55 |
| 76 | HLS Loop Unrolling Factor=4 Accumulator Solution Latency Loops Summary          | 55 |
| 77 | HLS Loop Unrolling Factor=4 Accumulator Solution Utilization Estimates Summary  | 56 |
| 78 | HLS Loop Pipelining Solution Timing Summary (ns)                                | 58 |
| 79 | HLS Loop Pipelining Solution Latency Summary (clock cycles)                     | 58 |
| 80 | HLS Loop Pipelining Solution Latency Loops Summary                              | 58 |
| 81 | HLS Loop Pipelining Solution Utilization Estimates Summary                      | 59 |
| 82 | HLS Loop Pipelining Solution Register Detail Estimates Summary                  | 59 |
| 83 | HLS Loop Pipelining Solution C/RTL Cosimulation Summary                         | 60 |
| 84 | HLS Loop Pipelining Solution Export RTL Resource Usage                          | 60 |
| 85 | HLS Loop Pipelining Solution Export RTL Final Timing                            | 60 |
| 86 | Vivado Loop Pipelining Solution Utilization Report [#]                          | 60 |
| 87 | Vivado Loop Pipelining Solution Timing Report                                   | 60 |
| 88 | Vivado Loop Pipelining Solution Dynamic Power Report [mW]                       | 60 |
| -  |                                                                                 |    |

| 89  |                                                                     | 60 |
|-----|---------------------------------------------------------------------|----|
| 90  | Vivado Loop Pipelining Solution Energy Single Operation Report [pJ] | 60 |
| 91  | HLS Bitwidth Optimization Solution Timing Summary (ns)              | 62 |
| 92  | HLS Bitwidth Optimization Solution Latency Summary (clock cycles)   | 62 |
| 93  | HLS Bitwidth Optimization Solution Latency Loops Summary            | 62 |
| 94  | HLS Bitwidth Optimization Solution Utilization Estimates [#]        | 62 |
| 95  | HLS Bitwidth Optimization Solution C/RTL Cosimulation Report        | 62 |
| 96  | HLS Bitwidth Optimization Solution Export RTL Report                | 62 |
| 97  |                                                                     | 64 |
| 98  | HLS AXI Solution Latency Summary (clock cycles)                     | 64 |
| 99  | HLS AXI Solution Latency Loops Summary                              | 64 |
| 100 | HLS AXI Solution Utilization Estimates Summary                      | 65 |
| 101 | HLS AXI Solution C/RTL Cosimulation Summary                         | 65 |
| 102 |                                                                     | 65 |
| 103 | HLS AXI Solution Export RTL Final Timing                            | 65 |
| 104 | Vivado AXI Solution Utilization Report [#]                          | 66 |
| 105 |                                                                     | 67 |
| 106 |                                                                     | 67 |
| 107 |                                                                     | 67 |
| 108 |                                                                     | 67 |
| 109 |                                                                     | 68 |
| 110 | Vivado Solutions Dynamic Power Report [mW]                          | 69 |
| 111 | Vivado Solutions Total Dynamic Power Report [mW]                    | 69 |
| 112 | Vivado Solutions Energy Single Operation Report [pJ]                | 69 |
| 113 | Vivado Solutions Timing Report                                      | 71 |

#### 1 Introduction

#### 1.1 LTI Systems

Un sistema a tempo discreto (TD) SLS o LTI è un sistema che risulta essere contemporaneamente lineare e stazionario. In particolare, un sistema si dice lineare se ad una combinazione lineare degli ingressi corrisponde la combinazione lineare delle uscite (*Principio di Sovrapposizione degli Effetti*):

$$\alpha x_1 + \beta x_2 \xrightarrow{\tau} \alpha y_1 + \beta y_2 \tag{1}$$

Invece, un sistema TD si dice **stazionario** (o tempo-invariante) se ritardando/anticipando l'ingresso di una quantità  $n_0$  l'uscita viene ritardata/anticipata della stessa quantità:

$$x[n-n_0] \xrightarrow{\tau} y[n-n_0] \tag{2}$$

Un sistema SLS-TD è caratterizzato dalla sua risposta impulsiva h[n]. Essa rappresenta l'uscita del sistema quando all'ingresso viene applicato un impulso discreto.



Conoscendo la risposta impulsiva h[n] e applicando le proprietà di linearità e stazionarietà, è possibile calcolare l'uscita y[n] corrispondente ad un qualunque ingresso x[n]:

$$y[n] = \sum_{k=-\infty}^{+\infty} x[k]h[n-k] = x[n] * h[n]$$
(3)

Pertanto, l'uscita si ottiene effettuando la convoluzione tra l'ingresso e la risposta impulsiva.

#### 1.2 Causal Systems

Un sistema (non necessariamente SLS) si dice causale se l'uscita all'istante n dipende solo dai valori precedenti dell'ingresso:

$$y[n] = \sum_{k = -\infty}^{+\infty} x[k]h[n - k] = \sum_{k = -\infty}^{+\infty} h[k]x[n - k]$$
 (4)

Affinché un sistema SLS-TD sia causale è necessario e sufficiente che:

$$h[k] = 0 \quad \text{per ogni} \quad k < 0 \tag{5}$$

#### 1.3 FIR Filter

I principali filtri digitali sono i filtri FIR (Finite Impulse Response) e IIR (Infinite Impulse Response). In particolare, un filtro FIR è un sistema LTI causale con risposta finita all'impulso, la cui funzione di trasferimento risulta essere un polinomio in  $z^{-1}$ . In particolare, considerando h[n], cioè la sequenza di coefficienti del filtro in questione, e la sequenza di ingresso x[n], l'obiettivo è calcolare l'uscita y[n] mediante convoluzione:

$$y[n] = \sum_{k=0}^{N-1} h[k]x[n-k]$$
 (6)

## 1.4 High Level Synthesis

Il tool Xilinx® Vivado® High-Level Synthesis (HLS) permette di trasformare le specifiche C in un'implementazione RTL (Register Transfer Level) che può essere sintetizzata e implementata in un FPGA. Pertanto, mediante linguaggi di programmazione ad alto livello come C, C++ e SystemC, è possibile descrivere in maniera più semplice e veloce un'architettura hardware complessa rispetto ad un linguaggio descrittivo dell'hardware come il VHDL o il Verilog. Ovviamente, tale vantaggio si traduce in una minore precisione ed efficienza della descrizione hardware in questione rispetto a quella che si otterrebbe mediante linguaggi HDL. Pertanto, la sintesi ad alto livello dei sistemi digitali risulta essere una congiunzione tra il mondo hardware e quello software. In particolare, tale approccio comporta i seguenti vantaggi:

#### • Maggiore produttività per i progettisti hardware

I progettisti di hardware possono lavorare a un livello di astrazione superiore mentre creano hardware ad alte prestazioni.

#### • Migliori prestazioni del sistema per i progettisti di software

Gli sviluppatori di software possono accelerare le parti computazionalmente intensive dei loro algoritmi su un nuovo target di compilazione, cioè l'FPGA.

Inoltre, l'utilizzo di una metodologia di progettazione di sintesi di alto livello consente di:

- Sviluppare algoritmi tramite linguaggi ad alto livello come C e C++ Lavorare a un livello astratto dai dettagli di implementazione, che consumano tempo di sviluppo.
- Verificare il codice mediante compilatori ad alto livello
   Convalidare la correttezza funzionale del progetto in modo più rapido rispetto ai linguaggi di descrizione hardware tradizionali come VHDL e Verilog.
- Controllare il processo di sintesi C attraverso le direttive di ottimizzazione Creare implementazioni hardware specifiche ad alte prestazioni.
- Creare più implementazioni dal codice sorgente C utilizzando le direttive di ottimizzazione Esplorare diversi design per lo stesso progetto permette di trovare implementazioni più efficienti e ottimali.
- Sfruttare tutti i vantaggi di portabilità e ri-usabilità del codice ad alto livello Utilizzare tutte le metodologie ad alto livello basate sull'ingegneria del software e, quindi, risparmiare tempo e costi di progettazione software ulteriori.

Per quanto riguarda l'HLS Design Flow, questo si articola nei seguenti passi:

- 1. Compilare, eseguire (simulare) ed eseguire il debug del codice C o C++.
- 2. Sintetizzare il codice C in un'implementazione RTL, eventualmente utilizzando direttive di ottimizzazione (pragma).
- 3. Generare e analizzare i report corrispondenti
- 4. Packaging dell'implementazione RTL per effettuare l'esportazione dell'IP corrispondente.



Figure 1: HLS Design Flow

# 2 Tasks to be performed

Prendendo come riferimento la struttura del filtro FIR, citato precedentemente, e considerando il tool di sintesi ad alto livello per sistemi digitali, fornito da Xilinx<sup>®</sup> Vivado<sup>®</sup>, cercare di ottimizzare secondo le caratteristiche principali il circuito in questione. In particolare, utilizzare diverse tecniche di progettazione ad alto livello e sfruttare, se possibile, le direttive di ottimizzazazione (pragma) per ottenere valori ottimali in termini di latenza, dissipazione di potenza e utilizzazione delle risorse. Fondamentalmente, implementare le seguenti tecniche nella maniera opportuna:

#### • Unoptimized Solution

Rappresenta la soluzione iniziale (non ottimizzata) del filtro FIR in questione.

#### • Operation Chaining Solution

Rappresenta una soluzione basata sul cambiamento del periodo del clock.

#### • Code Hoisting Solution

Rappresenta una soluzione basata su un'alternativa gestione delle condizioni di controllo.

#### • Loop Fission Solution

Rappresenta una soluzione basata sulla scissione di cicli di operazioni complesse in più loop semplici.

#### • Loop Unrolling Solution

Rappresenta una soluzione basata sul parallelismo delle operazioni.

#### • Loop Pipelining Solution

Rappresenta una soluzione basata sulla scissione di operazioni combinatorie complesse in più procedure semplici.

#### • Bitwidth Optimization Solution

Rappresenta una soluzione basata sull'ottimizzazione del numero di bit utilizzati per ogni tipo di dato.

#### • AXI Solution

Rappresenta una soluzione basata sull'utilizzo dell'interfaccia AXI-Stream.

# 3 Definitions

Qui di seguito vengono riportate le MACRO e le intestazioni dei metodi corrispondenti alle soluzioni implementate per il filtro FIR in questione. In particolare, ogni definizione presenta la documentazione associata.

```
#include "ap_int.h"
#include <ap_axi_sdata.h>
3 #include <hls_stream.h>
4 #include <stdio.h>
  #ifndef DEFINITIONS_H
10
11 /**
* Represents FIR filter size
* @param SIZE FIR filter size
14 */
4 #define SIZE 11
16
17 /**
  * Represents the data type used to store the coefficients of the FIR filter
18
* Cparam coeffsType data type for FIR filter coefficients
20 */
21 typedef int coeffsType;
22
23 /**
^{24} * Represents the data type used to store the filter input samples
* @param samplesType data type for FIR filter input samples
26 */
27 typedef int samplesType;
28
29 /**
  * Represents the data type used to store the intermediate accumulator when calculating the
     filter output.
  * @param accType data type for FIR filter intermediate accumulator
31
32 */
33 typedef int accType;
34
35 /**
  * Unoptimized Design.
36
  * @param inputFilter
37
* @param outputFilter
39 */
40 void firConvolutionUnoptimized(samplesType inputFilter, samplesType* outputFilter);
41
42 /**
* Operation Chaining Design.
* @param inputFilter
  * @param outputFilter
45
46
  */
47 void firConvolutionOperationChaining(samplesType inputFilter, samplesType* outputFilter);
48
49 /**
* Code Hoisting Design.
51
  * @param inputFilter
* @param outputFilter
53 */
54 void firConvolutionCodeHoisting(samplesType inputFilter, samplesType* outputFilter);
55
56 /**
* Loop Fission Design.
* Cparam inputFilter
* Cparam outputFilter
60 */
61 void firConvolutionLoopFission(samplesType inputFilter, samplesType* outputFilter);
```

```
63 /**
   * Loop Unrolling Factor=2 Design.
    * @param inputFilter
65
* @param outputFilter
67 */
68 void firConvolutionLoopUnrollingFactor2(samplesType inputFilter, samplesType* outputFilter);
69
70 /**
* Loop Unrolling Factor=2 with Unrolling Pragma Design.
* @param inputFilter
73
   * @param outputFilter
74 */
75 void firConvolutionLoopUnrollingFactor2Pragma(samplesType inputFilter, samplesType*
76
77 /**
78 * Loop Unrolling Factor=2 with Unrolling Pragma and Partitioning Pragma Design.
* @param inputFilter
80 * @param outputFilter
81 */
82 void firConvolutionLoopUnrollingFactor2PP(samplesType inputFilter, samplesType* outputFilter
83
84 /**
   * Loop Unrolling Factor=4 Design.
85
   * Oparam inputFilter
86
* @param outputFilter
88 */
89 void firConvolutionLoopUnrollingFactor4(samplesType inputFilter, samplesType* outputFilter);
90
91 /**
* Loop Unrolling Factor=4 with Unrolling Pragma Design.
* Cparam inputFilter
94 * @param outputFilter
95 */
96 void firConvolutionLoopUnrollingFactor4Pragma(samplesType inputFilter, samplesType*
      outputFilter);
97
98 /**
99
   * Loop Unrolling Factor=4 with Unrolling Pragma and Partitioning Pragma Design.
   * @param inputFilter
100
* Cparam outputFilter
102 */
103 void firConvolutionLoopUnrollingFactor4PP(samplesType inputFilter, samplesType* outputFilter
104
105 /**
* Loop Pipelining Design.
   * @param inputFilter
107
   * @param outputFilter
109 */
void firConvolutionLoopPipelining(samplesType inputFilter, samplesType* outputFilter);
111
112 /**
113
   * Bitwidth Optimization Design.
* @param inputFilter
* @param outputFilter
116 */
117 void firConvolutionBitwidthOptimization(ap_int<8> inputFilter, ap_int<18+SIZE>* outputFilter
118
119 /**
* Represents the AXI type for AXI-stream interface.
* @param AXI_TYPE AXI type
122 */
typedef ap_axiu<32, 2, 5, 6> AXI_TYPE;
124
125 /**
```

Bisogna, inoltre, specificare che ogni solution (tranne per alcune come verrà appositamente specificato) è stata progettata inizialmente in Xilinx<sup>®</sup> Vivado<sup>®</sup> High-Level Synthesis (HLS) e poi, successivamente, dopo aver esportato l'IP, è stata prevista sintesi e implementazione in Xilinx<sup>®</sup> Vivado<sup>®</sup>.

Oltre a ciò, si specifica che per ogni implementazione, effettuata in Xilinx<sup>®</sup> Vivado<sup>®</sup>, è stato previsto un constraint di clock associato e corrispondente alla solution progettata in Xilinx<sup>®</sup> Vivado<sup>®</sup> High-Level Synthesis (HLS) e, in aggiunta, ogni design implementato è stato simulato considerando input random. Pertanto, generando un file .saif, è stato possibile ottenere dati di potenza dinamica accurati.

## 4 C Simulations

Qui di seguito viene riportato il file testbench per la C Simulation in HLS e il corrispondente output ottenuto. Bisogna precisare che ogni risultato ottenuto è stato verificato dal punto di vista numerico.

```
#include "definitions.h"
# include <stdio.h>
# include "ap_int.h"
4 #include <iostream>
{\scriptsize 7~ {\tt void}~ fir Convolution Unoptimized (samples Type~input Filter, samples Type*~output Filter);}\\
8 void firConvolutionOperationChaining(samplesType inputFilter, samplesType* outputFilter);
9 void firConvolutionLoopFission(samplesType inputFilter, samplesType* outputFilter);
10 void firConvolutionCodeHoisting(samplesType inputFilter, samplesType* outputFilter);
void firConvolutionLoopUnrollingFactor2(samplesType inputFilter, samplesType* outputFilter);
12 void firConvolutionLoopUnrollingFactor2Pragma(samplesType inputFilter, samplesType*
      outputFilter);
13 void firConvolutionLoopUnrollingFactor2PP(samplesType inputFilter, samplesType* outputFilter
     );
14 void firConvolutionLoopUnrollingFactor4(samplesType inputFilter, samplesType* outputFilter);
15 void firConvolutionLoopUnrollingFactor4Pragma(samplesType inputFilter, samplesType*
      outputFilter);
  void firConvolutionLoopUnrollingFactor4PP(samplesType inputFilter, samplesType* outputFilter
      );
17 void firConvolutionLoopPipelining(samplesType inputFilter, samplesType* outputFilter);
18 void firConvolutionBitwidthOptimization(ap_int<8> inputFilter, ap_int<18+SIZE>* outputFilter
19 void firConvolutionAXI(hls::stream<AXI_TYPE> &inputStreamFilter, hls::stream<AXI_TYPE> &
      outputStreamFilter);
20
21
  int main() {
22
23
      samplesType inputFilter[SIZE] = {1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1};
24
      samplesType outputFilter;
25
26
      printf("\n*****firConvolutionUnoptimized******\n");
27
       printf("\%-20s\%-20s\%-20s\%n", "iteration", "inputFilter[i]", "outputFilter[i]"); \\
28
      for( int i=0; i<SIZE; ++i ) {</pre>
29
           firConvolutionUnoptimized( inputFilter[i], &outputFilter );
30
           printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
31
32
33
      printf("\n*****firConvolutionOperationChaining******\n");
34
      for( int i=0; i<SIZE; ++i ) {</pre>
35
           firConvolutionOperationChaining( inputFilter[i], &outputFilter );
36
          printf("\%-20d\%-20d\%-20d\n", i, inputFilter[i], outputFilter);\\
37
38
39
      printf("\n*****firConvolutionCodeHoisting******\n");
40
      for( int i=0; i<SIZE; ++i ) {</pre>
41
          firConvolutionCodeHoisting( inputFilter[i], &outputFilter );
42
          printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
43
      7
44
45
      printf("\n*****firConvolutionLoopFission******\n");
46
      for( int i=0; i<SIZE; ++i ) {</pre>
47
48
           firConvolutionLoopFission( inputFilter[i], &outputFilter );
          printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
49
50
51
      printf("\n******firConvolutionLoopUnrollingFactor2******\n");
52
      for( int i=0; i<SIZE; ++i ) {</pre>
53
          firConvolutionLoopUnrollingFactor2( inputFilter[i], &outputFilter );
54
55
           printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
56
57
```

```
printf("\n******firConvolutionLoopUnrollingFactor2Pragma******\n");
58
       for( int i=0; i<SIZE; ++i ) {</pre>
59
           firConvolutionLoopUnrollingFactor2Pragma( inputFilter[i], &outputFilter );
60
61
           printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
62
63
       printf("\n******firConvolutionLoopUnrollingFactor2PragmaPartitioning******\n");
64
       for( int i=0; i<SIZE; ++i ) {</pre>
65
           firConvolutionLoopUnrollingFactor2PP( inputFilter[i], &outputFilter );
66
           printf("\%-20d\%-20d\%-20d\n", i, inputFilter[i], outputFilter);\\
67
68
69
       printf("\n******firConvolutionLoopUnrollingFactor4******\n");
70
       for( int i=0; i<SIZE; ++i ) {</pre>
71
           firConvolutionLoopUnrollingFactor4( inputFilter[i], &outputFilter );
72
           printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
73
74
75
       printf("\n******firConvolutionLoopUnrollingFactor4Pragma******\n");
76
       for( int i=0; i<SIZE; ++i ) {</pre>
77
78
           firConvolutionLoopUnrollingFactor4Pragma( inputFilter[i], &outputFilter );
           printf("\%-20d\%-20d\%-20d\n", i, inputFilter[i], outputFilter);\\
79
80
81
       printf("\n*****firConvolutionLoopUnrollingFactor4PragmaPartitioning******\n");
82
       for( int i=0; i<SIZE; ++i ) {</pre>
83
           fir {\tt ConvolutionLoopUnrollingFactor 4PP(inputFilter[i], \&outputFilter)};\\
84
           printf("%-20d%-20d%-20d\n", i, inputFilter[i], outputFilter);
85
       }
86
87
       printf("\n*****firConvolutionLoopPipelining******\n");
88
       for( int i=0; i<SIZE; ++i ) {</pre>
89
           firConvolutionLoopPipelining( inputFilter[i], &outputFilter );
90
           printf("\%-20d\%-20d\%-20d\n", i, inputFilter[i], outputFilter);\\
91
92
93
       ap_int <8 > inputFilterAp[SIZE] = {42, 7, 58, 120, -64, 15, -89, -75, 43, 43, -14};
94
95
       ap_int<18+SIZE> outputFilterAp;
       std::cout << "\n*****firConvolutionBitwidthOptimization******\n";</pre>
96
97
       for( int i=0; i<SIZE; ++i ) {</pre>
           firConvolutionBitwidthOptimization( inputFilterAp[i], &outputFilterAp );
98
99
           std::cout << std::left << std::setw(20) << i
                      << std::left << std::setw(20) << inputFilterAp[i]
100
                      << std::left << std::setw(20) << outputFilterAp << "\n";
       }
       hls::stream<AXI_TYPE> inputStreamFilter;
104
       hls::stream<AXI_TYPE> outputStreamFilter;
105
       AXI_TYPE inFilter, outFilter;
106
       for (int i=0; i<SIZE; i++) {</pre>
107
           inFilter.data=inputFilter[i];
108
           inFilter.strb = -1;
           inFilter.keep = 15;
           inFilter.user = 0;
           inFilter.last = (i==SIZE-1) ? 1 : 0;
           inFilter.id = 0;
           inFilter.dest = 0;
114
           inputStreamFilter << inFilter;</pre>
       printf("\n******firConvolutionAXI******\n");
117
       firConvolutionAXI( inputStreamFilter, outputStreamFilter );
118
       for( int i=0; i<SIZE; ++i ) {</pre>
119
           outFilter = outputStreamFilter.read();
120
           printf("%-20d%-20d\n", i, inFilter.data.to_int()), outFilter.data.to_int());\\
121
122
       return 0;
124
125
```

```
126 }
 1 INFO: [SIM 2] *********** CSIM start **********
 2 INFO: [SIM 4] CSIM will launch GCC as the compiler.
      Compiling ../../fir_tb.cpp in debug mode
      Compiling ../../fir_axi.cpp in debug mode
      Compiling \dots/\dots/ fir_bitwidth_optimization.cpp in debug mode
      Compiling ../../fir_code_hoisting.cpp in debug mode
 6
      Compiling ../../fir_loop_fission.cpp in debug mode
     Compiling ../../fir_loop_pipelining.cpp in debug mode
      Compiling ../../fir_loop_unrolling_factor2.cpp in debug mode
      Compiling ../../fir_loop_unrolling_factor2_pp.cpp in debug mode
10
      Compiling ../../fir_loop_unrolling_factor2_pragma.cpp in debug mode
11
      Compiling ../../fir_loop_unrolling_factor4.cpp in debug mode
12
      {\tt Compiling .../.../fir\_loop\_unrolling\_factor4\_pp.cpp \ in \ debug \ mode}
13
14
      Compiling ../../fir_loop_unrolling_factor4_pragma.cpp in debug mode
      Compiling ../../fir_operation_chaining.cpp in debug mode
15
16
      Compiling ../../fir_unoptimized.cpp in debug mode
      Generating csim.exe
17
18
******firConvolutionUnoptimized*****
                                           outputFilter[i]
21 0
                       1
                                           53
22 1
                      1
                                           53
23 2
                      1
                                           -38
24 3
                                           -38
                      1
25 4
                      1
                                           275
26 5
                      1
                                           775
27 6
                                           1088
                      1
28 7
                                           1088
                      1
29 8
                       1
                                           997
30 9
                       1
                                           997
31 10
                       1
                                           1050
32
******firConvolutionOperationChaining******
34 0
                     1
                                          53
35 1
                       1
                                           53
36 2
                       1
                                           -38
37 3
                      1
                                           -38
38 4
                                           275
39 5
                      1
                                           775
                                           1088
40 6
                      1
41 7
                                           1088
                       1
42 8
                       1
                                           997
43 9
                       1
                                           997
44 10
                       1
                                           1050
45
******firConvolutionCodeHoisting******
47 0
                     1
48 1
                       1
49 2
                      1
                                           -38
50 3
                       1
                                           -38
51 4
                                           275
                      1
52 5
                      1
                                           775
                                           1088
53 6
                       1
54 7
                       1
                                           1088
55 8
                                           997
56 9
                       1
                                           997
57 10
                                           1050
*******firConvolutionLoopFission******
60 0
                       1
                                           53
61 1
                       1
62 2
                                           -38
63 3
                                           -38
                       1
64 4
                       1
                                           275
65 5
                       1
                                           775
66 6
                                           1088
```

```
67 7
                                                   1088
                           1
68 8
                           1
                                                   997
69 9
                                                   997
                           1
70 10
                           1
                                                   1050
71
******firConvolutionLoopUnrollingFactor2******
73 0
                           1
74 1
                           1
                                                   53
75 2
                           1
                                                   -38
76 3
                           1
                                                   -38
77 4
                           1
                                                   275
78 5
                           1
                                                   775
79 6
                                                   1088
                           1
 80 7
                           1
                                                   1088
81 8
                                                   997
                           1
82 9
                           1
                                                   997
                                                   1050
83 10
                           1
84
******firConvolutionLoopUnrollingFactor2Pragma******
86 0
                           1
87 1
                           1
88 2
                           1
                                                   -38
89 3
                           1
                                                   -38
90 4
                           1
                                                   275
91 5
                           1
                                                   775
92 6
                           1
                                                   1088
93 7
                                                   1088
                           1
94 8
                           1
                                                   997
95 9
                           1
                                                   997
96 10
                           1
                                                   1050
97
{\tt 98} \ {\tt ******firConvolutionLoopUnrollingFactor2PragmaPartitioning**********}
99 0
                          1
                                                   53
                           1
                                                   53
100 1
101 2
                           1
                                                   -38
102 3
                           1
                                                   -38
103 4
                                                   275
                           1
104 5
                           1
                                                   775
105 6
                           1
                                                   1088
106 7
                           1
                                                   1088
107 8
                                                   997
                           1
108 9
                                                   997
                           1
109 10
                           1
                                                   1050
110
*******firConvolutionLoopUnrollingFactor4*****
112 0
                          1
                                                   53
113 1
                           1
                           1
                                                   -38
114 2
115 3
                                                   -38
                           1
116 4
                           1
                                                   275
117 5
                                                   775
                           1
118 6
                           1
                                                   1088
119 7
                           1
                                                   1088
120 8
                           1
                                                   997
                                                   997
121 9
                           1
                                                   1050
122 10
                           1
123
{\scriptstyle 124} \quad ******fir Convolution Loop Unrolling Factor 4 Pragma******** \\
125 0
                           1
                           1
126 1
                                                   53
127 2
                           1
                                                   -38
128 3
                           1
                                                   -38
129 4
                                                   275
                           1
130 5
                                                   775
                           1
131 6
                           1
                                                   1088
132 7
                                                   1088
                           1
133 8
                           1
                                                   997
134 9
                                                   997
```

```
1
                          1050
135 10
136
******firConvolutionLoopUnrollingFactor4PragmaPartitioning******
138 0
            1
                                           53
139 1
                       1
                                           53
140 2
                       1
                                           -38
141 3
                                           -38
                       1
142 4
                                           275
                       1
143 5
                       1
                                           775
144 6
                       1
                                           1088
145 7
                       1
                                           1088
146 8
                       1
                                           997
147 9
                                           997
                       1
148 10
                       1
                                           1050
149
******firConvolutionLoopPipelining******
151 0
                     1
152 1
                       1
153 2
                       1
                                           -38
154 3
                                           -38
                       1
155 4
                       1
                                           275
156 5
                       1
                                           775
157 6
                       1
                                           1088
158 7
                                           1088
                       1
159 8
                       1
                                           997
160 9
                       1
                                           997
                                           1050
161 10
                       1
162
******firConvolutionBitwidthOptimization******
164 0
                       42
                       7
165 1
                                           371
166 2
                       58
                                           -748
167 3
                      120
                                           5723
168 4
                       -64
                                           4476
169 5
                       15
                                           13066
                       -89
                                           35907
170 6
171 7
                       -75
                                          63411
172 8
                       43
                                           64678
173 9
                       43
                                           18722
174 10
                       -14
                                           -48096
175
******firConvolutionAXI *****
177 0
                      1
                                           53
178 1
                       1
                                           53
179 2
                       1
                                           -38
                                           -38
180 3
                       1
181 4
                                           275
                      1
182 5
                      1
                                           775
                                           1088
183 6
                       1
184 7
                       1
                                           1088
185 8
                                           997
                       1
186 9
                       1
                                           997
187 10
                      1
                                           1050
188 INFO: [SIM 1] CSim done with 0 errors.
189 INFO: [SIM 3] ********* CSIM finish **********
```

# 5 Solutions

Di seguito verranno illustrate e analizzate diverse implementazioni del filtro FIR. In particolare, verranno mostrati i report generati da HLS e Vivado così da effettuare ulteriori considerazioni a riguardo. Bisogna precisare che la prima soluzione presentata, cioè quella iniziale non ottimizzata, verrà discussa approfonditamente così da affrontare e spiegare i parametri di confronto che verranno utilizzati nelle successive sezioni.

#### 5.1 Unoptimized Solution

Qui di seguito viene riportato il codice relativo alla soluzione iniziale (non ottimizzata) del fitro FIR in questione.

```
#include "definitions.h"
  void firConvolutionUnoptimized(samplesType inputFilter, samplesType* outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
      accumulator = 0:
      int i;
      loop: for( i=SIZE-1; i>=0; --i ) {
          if( i==0 ) {
              accumulator += inputFilter * coefficientsFilter[0];
              shiftRegister[0] = inputFilter;
              shiftRegister[i] = shiftRegister[i-1];
14
              accumulator += shiftRegister[i] * coefficientsFilter[i];
16
17
18
      *outputFilter = accumulator;
19
```

In particolare, si può notare come l'input, l'output e i coefficienti utilizzati risultano essere definiti rispettivamente tramite i tipi samples Type, samples Type e coeffs Type, cioè tutti e tre definiti come tipi di dato int come descritto in definitions.h. Bisogna specificare che l'operazione di convoluzione è stata ottenuta mediante il loop qui sopra definito. Tale operazione è data dallo shifting dei valori di input al filtro e, successivamente, dall'accumulo. Quest'ultimo è ottenuto mediante la somma, tra la corrente calcolata e la precedente accumulata, e il prodotto, tra il valore shiftato nella precedente iterazione e il coefficiente i-esimo corrispondente.

Infine, il valore accumulato nella variabile *accumulator* viene assegnato all'output atteso dalla procedura. Effettuando la sintesi è possibile evidenziare il seguente report:

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.510     | 1.25        |

| Late  | ency | Interval |     |  |
|-------|------|----------|-----|--|
| min   | max  | min      | max |  |
| 23 45 |      | 23       | 45  |  |

Table 1: HLS Unoptimized Solution Timing Summary (ns)

Table 2: HLS Unoptimized Solution Latency Summary (clock cycles)

Si può notare come il periodo di clock previsto è pari a 10 ns, come impostato durante la creazione della solution in questione, mentre quello stimato è minore. Questo è dovuto al fatto che il tool stima un'incertezza (assimilabile ad un margine) che permette di calcolare il periodo di clock effettivo utilizzato dal processo di sintesi.



Figure 2: HLS Clock Period from Synthesis Report

In particolare, il periodo di clock effettivo, calcolato dal tool, non deve essere considerato come parametro di progettazione ma come un margine di sicurezza previsto da HLS per il successivo place and route. Nel caso in cui si volesse operare sul periodo di clock della solution come design parameter, si dovrebbe impostare un periodo di clock differente durante la creazione della solution e poi far calcolare automaticamente l'incertezza ed il periodo del clock effettivo dallo stesso tool.

|   | Loop | Latency |     | Iteration Latency | Initiation | n Interval | Trip Count |
|---|------|---------|-----|-------------------|------------|------------|------------|
| 1 | Name | min     | max |                   | achieved   | target     |            |
| - | loop | 22      | 44  | 2~4               | -          | -          | 11         |

Table 3: HLS Unoptimized Solution Latency Loops Summary

Considerando, invece, il loop descritto nel file sorgente, si può notare come esso presenti 11 iterazioni (corrispondenti alla capienza di processing del filtro corrispondente) e una iteration latency (IL), cioè latenza per ogni iterazione, compresa tra 2 e 4 cicli di clock. Si deduce che la latenza totale del loop in questione sia compresa tra 22 e 44 cicli di clock.



Figure 3: HLS Unoptimized Solution If Statement Analysis

In particolare, si può notare come il ciclo di clock in più, previsto nella latenza totale dell'architettura, sia dovuto alla verifica dell'istruzione condizionale, al calcolo dell'accumulo e all'assegnazione in corrispondenza dell'iterazione 0 all'interno del loop. È come se l'if all'interno del ciclo for venga trattato al di fuori dello stesso loop. Questo può essere notato facendo riferimento alle operazioni svolte all'interno del loop.

Inoltre, si può notare come le operazioni di lettura previste all'interno del loop siano svolte in parallelo (come mostrato nel primo gruppo di figure allegato), mentre quelle di scrittura schedulate in differente

maniera (come mostrato nel secondo gruppo di figure allegato).



Figure 4: HLS Unoptimized Solution Else Statement Analysis

Infatti, si può notare come la latenza associata alle operazioni previste nelle rimanenti iterazioni del loop venga correlata alla latency associata al ciclo stesso.



Figure 5: HLS Unoptimized Solution Read Operations Analysis



Figure 7: HLS Unoptimized Solution Write Operations Analysis



Figure 6: HLS Unoptimized Solution Read Operations Analysis



Figure 8: HLS Unoptimized Solution Write Operations Analysis

Qui di seguito, viene allegato l'utilizzazione delle risorse stimata dal processo di sintesi.

| Name            | BRAM_18K | DSP48E | FF     | LUT   |
|-----------------|----------|--------|--------|-------|
| DSP             | -        | -      | -      | -     |
| Expression      | -        | 4      | 0      | 105   |
| FIFO            | -        | -      | _      | -     |
| Instance        | -        | -      | _      | -     |
| Memory          | 0        | -      | 74     | 8     |
| Multiplexer     | -        | -      | _      | 120   |
| Register        | -        | -      | 213    | -     |
| Total           | 0        | 4      | 287    | 233   |
| Available       | 280      | 220    | 106400 | 53200 |
| Utilization (%) | 0        | 1      | ~0     | ~0    |

Table 4: HLS Unoptimized Solution Utilization Estimates Summary

Successivamente effettuando la C/RTL Cosimulation è possibile evidenziare il seguente report:

| RTL  | Status | Latency |     | I   | nterva | al  |     |
|------|--------|---------|-----|-----|--------|-----|-----|
|      |        | min     | avg | max | min    | avg | max |
| VHDL | Pass   | 43      | 43  | 44  | 43     | 43  | 44  |

Table 5: HLS Unoptimized Solution C/RTL Cosimulation Summary

Questa tabella mostra quanti cicli di clock sono necessari affinché venga fornito l'ingresso e l'uscita successivi.

Dopodiché si può procedere con l'Export RTL.

| Resource | VHDL |
|----------|------|
| SLICE    | 81   |
| LUT      | 275  |
| FF       | 160  |
| DSP      | 2    |
| BRAM     | 0    |
| SRL      | 0    |

 $\begin{tabular}{ll} Table 6: HLS Unoptimized Solution Export RTL \\ Resource Usage \\ \end{tabular}$ 

| Timing                          | VHDL   |
|---------------------------------|--------|
| CP required                     | 10.000 |
| CP achieved post-synthesis      | 5.745  |
| CP achieved post-implementation | 6.410  |

Table 7: HLS Unoptimized Solution Export RTL Final Timing

Si può notare come il numero di Flip Flop e di DSP sia diminuito rispetto a quello stimato nel report di sintesi. Questo è dovuto al fatto che, l'Export RTL non è una vera e propria implementazione ma si tratta di un processo durante il quale il tool effettua dei miglioramenti.

Successivamente a tale fase si procede con l'importazione del'IP in Vivado.

```
15 );
16 end firConvolutionUnoptimized_top;
17
18 architecture Behavioral of firConvolutionUnoptimized_top is
      component firConvolutionUnoptimized_0 is
19
          port (
20
               ap_clk : IN STD_LOGIC;
21
               ap_rst : IN STD_LOGIC;
22
               ap_start : IN STD_LOGIC;
23
               ap_done : OUT STD_LOGIC;
24
25
               ap_idle : OUT STD_LOGIC;
               ap_ready : OUT STD_LOGIC;
26
               inputFilter : IN STD_LOGIC_VECTOR (31 downto 0);
27
               outputFilter : OUT STD_LOGIC_VECTOR (31 downto 0);
28
29
               outputFilter_ap_vld : OUT STD_LOGIC
          );
30
31
    end component;
32
33
          firConvolutionUnoptimized_IP : firConvolutionUnoptimized_0 port map(
34
35
               ap_clk => ap_clk,
               ap_rst => ap_rst,
36
               ap_start => ap_start,
37
               ap_done => ap_done,
38
               ap_idle => ap_idle,
39
               ap_ready => ap_ready,
               inputFilter => inputFilter,
41
               outputFilter => outputFilter,
42
               outputFilter_ap_vld => outputFilter_ap_vld
43
      );
44
45 end Behavioral;
1 library IEEE;
use IEEE.STD_LOGIC_1164.ALL;
4 entity firConvolutionUnoptimized_tb is
5 end firConvolutionUnoptimized_tb;
7 architecture Behavioral of firConvolutionUnoptimized_tb is
      component firConvolutionUnoptimized_top is
9
          port (
               ap_clk : IN STD_LOGIC;
10
               ap_rst : IN STD_LOGIC;
11
               ap_start : IN STD_LOGIC;
12
               ap_done : OUT STD_LOGIC;
13
14
               ap_idle : OUT STD_LOGIC;
               ap_ready : OUT STD_LOGIC;
15
               inputFilter : IN STD_LOGIC_VECTOR (31 downto 0);
16
               outputFilter : OUT STD_LOGIC_VECTOR (31 downto 0);
17
18
               outputFilter_ap_vld : OUT STD_LOGIC
          );
19
20
    end component;
21
      constant clk_period : Time := 10 ns;
22
23
      signal ap_clk : STD_LOGIC := '0';
      signal ap_rst : STD_LOGIC;
24
      signal ap_start : STD_LOGIC;
25
      signal ap_done : STD_LOGIC;
26
27
      signal ap_idle : STD_LOGIC;
28
      signal ap_ready : STD_LOGIC;
      signal inputFilter : STD_LOGIC_VECTOR (31 DOWNTO 0);
29
      signal outputFilter : STD_LOGIC_VECTOR (31 DOWNTO 0);
30
      signal outputFilter_ap_vld : STD_LOGIC;
31
      signal cycles: integer := 44;
32
33
      begin
34
35
          uut : firConvolutionUnoptimized_top port map(
              ap_clk,
36
```

```
ap_rst,
37
               ap_start,
38
               ap_done,
39
40
               ap_idle,
41
               ap_ready,
               inputFilter,
42
43
               outputFilter
               outputFilter_ap_vld
44
       );
45
46
47
       clk_process : process
48
               begin
                    wait for clk_period/2;
49
                    ap_clk <= not ap_clk;</pre>
50
51
           end process clk_process;
52
53
       uut_process : process
               begin
54
                    ap_rst <= '1';
           ap_start <= '0';
56
57
           wait for 250ns;
           ap_rst <= '0';
58
           wait for clk_period;
59
60
           ap_start <= '1';
                    inputFilter <= "011011000111111000000011010001110";</pre>
61
                    wait for cycles*clk_period;
62
                    inputFilter <= "10101100001011101011101101100010";
63
                    wait for cycles*clk_period;
64
                    inputFilter <= "11110000011100010010110001111100";</pre>
65
                    wait for cycles*clk_period;
66
                    inputFilter <= "01101101000111100000010100000100";
67
                    wait for cycles*clk_period;
68
                    inputFilter <= "11000100010011111001010011011001";
69
70
                    wait for cycles*clk_period;
                    inputFilter <= "01101001100110010111101010010010";</pre>
71
72
                    wait for cycles*clk_period;
                    inputFilter <= "101101011110111110100000101110011";
73
74
                    wait for cycles*clk_period;
                    inputFilter <= "11110011001101000000001100001010";</pre>
75
76
                    wait for cycles*clk_period;
                    inputFilter <= "01010001001110100111010101001001";
77
                    wait for cycles*clk_period;
78
                    inputFilter <= "10100010011110110010000010011000";
79
                    wait for cycles*clk_period;
80
                    inputFilter <= "11101000110011101001011101010001";
81
                    wait for cycles*clk_period;
82
                    wait;
83
       end process uut_process;
  end Behavioral;
85
```

create\_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get\_ports ap\_clk]

In particolare, impostando un constraint di clock pari a 10 ns (come impostato anche in HLS) e considerando un numero di ciclo di clock pari a quelli ottenuti nel report di C/RTL Cosimulation, è possibile eseguire il processo di sintesi e implementazione.

| $\mathbf{LUT}$ | LUTRAM | FF  | $\mathbf{BRAM}$ | DSP | IO | BUFG |
|----------------|--------|-----|-----------------|-----|----|------|
| 275            | 32     | 160 | 0               | 2   | 71 | 1    |

Table 8: Vivado Unoptimized Solution Utilization Report [#]

| Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock Frequency [Mhz] |
|------------|-----------------------|----------|-------------------------------|
| 44         | 10                    | 3.654    | 157.5795777                   |

Table 9: Vivado Unoptimized Solution Timing Report

Pertanto, dopo aver effettuato la Post-Implementation Timing Simulation e aver inserito il file .saif all'interno dell'Implementation Power Report, è possibile analizzare con dettaglio la potenza dinamica e l'energia per singola operazione associata.

| BRAM | Clock Enable | Clocks      | DSP         | Logic       | Set/Reset [mW] | Data        |
|------|--------------|-------------|-------------|-------------|----------------|-------------|
| 0    | 0.454227469  | 1.215484925 | 0.335011806 | 0.921480532 | 3.57E-03       | 1.007059589 |

Table 10: Vivado Unoptimized Solution Dynamic Power Report [mW]

| Dynamic Total | Energy Single Operation |
|---------------|-------------------------|
| 3.936829417   | 39.36829417             |

Table 11: Vivado Unoptimized Solution Dynamic Power Report [mW]

Table 12: Vivado Unoptimized Solution Energy Single Operation Report [pJ]

Quindi, dopo aver generato i report associati alla soluzione iniziale non ottimizzata, si può procedere con le successive soluzioni che cercheranno di migliorare diversi aspetti dell'architettura appena proposta. In particolare, nelle successive sezioni verranno commentati i risultati in termini di potenza, timing e risorse facendo riferimento alla soluzione iniziale o a quella precedente su cui sarà basata la corrente analizzata.

### 5.2 Operation Chaining Solution

Considerando, ora, la stessa architettura software precedentemente esposta, si potrebbe fare un ragionamento riguardo il periodo di clock considerato. In particolare, si potrebbe pensare di utilizzare un periodo minore per analizzare come il tool gestisce la situazione associata. L'idea è quella di diminuire tale periodo senza andare oltre un margine. Questo vuol dire considerare lo slack associato alla soluzione iniziale e ridurlo fin quando è possibile, cioè fin quando i constraint di timing non sono violati. Ciò che dovremmo aspettarci è che il tool riesca a gestire la stessa architettura con un periodo di clock minore, rispetto a quello della soluzione iniziale non ottimizzata, garantendo in alcuni casi delle ottimizzazioni effettuate dallo stesso tool. L'ideale sarebbe ottenere una soluzione che mi permette di avere un giusto trade-off tra latenza (intesa come cicli di clock per ottenere un risultato), potenza e risorse utilizzate.

Qui di seguito verranno presentati i report associati alla sintesi, C/RTL Cosimulation ed Export RTL considerando un range di periodo di clock pari a [10ns, 3ns]. In particolare, le soluzioni analizzate non sono state considerate con un periodo del clock minore a 3ns dato che, come verrà mostrato e analizzato successivamente, in corrispondenza di un periodo del clock pari a 3ns, la soluzione hardware implementata all'interno di Vivado presenta un WNS negativo comportando, di conseguenza, la violazione dei constraint di timing.

| Solution | Clock  | Target | Estimated | Uncertainty |
|----------|--------|--------|-----------|-------------|
| clk=10ns | ap_clk | 10.00  | 8.510     | 1.25        |
| clk=9ns  | ap_clk | 9.00   | 6.912     | 1.12        |
| clk=8ns  | ap_clk | 8.00   | 6.912     | 1           |
| clk=7ns  | ap_clk | 7.00   | 5.745     | 0.88        |
| clk=6ns  | ap_clk | 6.00   | 4.644     | 0.75        |
| clk=5ns  | ap_clk | 5.00   | 4.321     | 0.62        |
| clk=4ns  | ap_clk | 4.00   | 3.254     | 0.5         |
| clk=3ns  | ap_clk | 3.00   | 2.552     | 0.38        |

| Table 13: HLS Operation | on Chaining Solu- |
|-------------------------|-------------------|
| tion Timing Summary     | (ns)              |

| Solution | Late   | ency | Inte | erval |  |
|----------|--------|------|------|-------|--|
|          | $\min$ | max  | min  | max   |  |
| clk=10ns | 23     | 45   | 23   | 45    |  |
| clk=9ns  | 24     | 57   | 24   | 57    |  |
| clk=8ns  | 24     | 57   | 24   | 57    |  |
| clk=7ns  | 25     | 69   | 25   | 69    |  |
| clk=6ns  | 27     | 93   | 27   | 93    |  |
| clk=5ns  | 27     | 93   | 27   | 93    |  |
| clk=4ns  | 40     | 139  | 40   | 139   |  |
| clk=3ns  | 40     | 139  | 40   | 139   |  |

Table 14: HLS Operation Chaining Solution Latency Summary (clock cycles)

| Solution | Loop   | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|----------|--------|---------|-----|-------------------|---------------------|--------|------------|
|          | Name   | min     | max |                   | achieved            | target |            |
| clk=10ns | - loop | 22      | 44  | $2 \sim 4$        | -                   | -      | 11         |
| clk=9ns  | - loop | 22      | 55  | $2 \sim 5$        | -                   | -      | 11         |
| clk=8ns  | - loop | 22      | 55  | $2 \sim 5$        | -                   | -      | 11         |
| clk=7ns  | - loop | 22      | 66  | $2\sim 6$         | -                   | -      | 11         |
| clk=6ns  | - loop | 22      | 88  | $2 \sim 8$        | -                   | -      | 11         |
| clk=5ns  | - loop | 22      | 88  | $2 \sim 8$        | -                   | -      | 11         |
| clk=4ns  | - loop | 33      | 132 | $3 \sim 12$       | -                   | -      | 11         |
| clk=3ns  | - loop | 33      | 132 | $3 \sim 12$       | -                   | -      | 11         |

Table 15: HLS Operation Chaining Solution Latency Loops Summary

Si può notare come al diminuire del periodo di clock, la latenza totale e la latenza per ogni iterazione aumentano rispettivamente. Questo è dovuto al fatto che, considerando un periodo di clock sempre minore, il tool cerca di garantire il minor tempo di latenza affinché le operazioni presenti all'interno del loop vengano eseguite correttamente. Pertanto, se il periodo del clock diminuisce, questo si traduce in un aumento dei cicli di clock richiesti per ogni iterazione. Bisogna notare che, in corrispondenza di alcune soluzioni, alcuni parametri assumono valori uguali. In particolare, tale situazione si verifica in corrispondenza delle soluzioni aventi periodo del clock pari a 9ns e 8ns e anche in corrispondenza di 6ns e 5ns e, infine, 4ns e 3ns. Questa peculiarità potrebbe essere sfruttata successivamente, considerando ulteriori design parameters di confronto,

per la scelta di un trade-off opportuno. Dal momento che il tool cerca di garantire il soddisfacimento di tali operazioni complesse con un minore periodo di clock, quello che ci si aspetta è una utilizzazione delle risorse stimate e, in particolare, un aumento di quest'ultime al diminuire del periodo di clock.

| Solution | BRAM | DSP | FF  | LUT |
|----------|------|-----|-----|-----|
| clk=10ns | 0    | 4   | 287 | 233 |
| clk=9ns  | 0    | 4   | 619 | 301 |
| clk=8ns  | 0    | 4   | 619 | 301 |
| clk=7ns  | 0    | 4   | 623 | 305 |
| clk=6ns  | 0    | 4   | 725 | 221 |
| clk=5ns  | 0    | 4   | 725 | 221 |
| clk=4ns  | 0    | 4   | 832 | 286 |
| clk=3ns  | 0    | 4   | 832 | 286 |

Table 16: HLS Operation Chaining Solution Utilization Estimates [#]

Si evidenzia quanto citato precedentemente e, inoltre, si può notare come, anche in questo caso, in corrispondenza di alcune soluzioni hardware, l'utilizzazione delle risorse risulta essere la medesima. In particolare, è possibile già effettuare una riflessione riguardo i risultati ottenuti dopo il processo di sintesi. Si può notare come, in corrispondenza delle soluzioni hardware con clk=9ns e clk=8ns si ha lo stessa latency, iteration latency e utilizzazione delle risorse. Ma soprattutto, facendo riferimento alla soluzione con periodo di clock pari a 7ns, la latency e l'iteration latency aumentano di un fattore pari a 11 (rispetto alle altre soluzioni dove i valori sono di gran lunga maggiori) e l'utilizzazione di FF e LUT (dal momento che il numero di BRAM e DSP utilizzati è il medesimo) risulta essere aumentata rispettivamente del 0.6% e del 1.32%. Pertanto, a fronte del processo di sintesi, la soluzione hardware avente periodo di clock pari a 7ns si potrebbe già considerare come candidata al trade-off sopra citato.

| Solution | RTL  | Status | Latency |     |     | Interval |     |     |
|----------|------|--------|---------|-----|-----|----------|-----|-----|
|          |      |        | min     | avg | max | min      | avg | max |
| clk=10ns | VHDL | Pass   | 43      | 43  | 44  | 43       | 43  | 44  |
| clk=9ns  | VHDL | Pass   | 54      | 54  | 55  | 54       | 54  | 55  |
| clk=8ns  | VHDL | Pass   | 54      | 54  | 55  | 54       | 54  | 55  |
| clk=7ns  | VHDL | Pass   | 65      | 65  | 66  | 65       | 65  | 66  |
| clk=6ns  | VHDL | Pass   | 87      | 87  | 88  | 87       | 87  | 88  |
| clk=5ns  | VHDL | Pass   | 87      | 87  | 88  | 87       | 87  | 88  |
| clk=4ns  | VHDL | Pass   | 130     | 130 | 131 | 130      | 130 | 131 |
| clk=4ns  | VHDL | Pass   | 130     | 130 | 131 | 130      | 130 | 131 |
| clk=3ns  | VHDL | Pass   | 130     | 130 | 131 | 130      | 130 | 131 |

Table 17: HLS Operation Chaining Solution C/RTL Cosimulation Report

| Solution | SLICE | LUT | FF  | DSP | BRAM | CP       | CP        | CP             |
|----------|-------|-----|-----|-----|------|----------|-----------|----------------|
|          |       |     |     |     |      | required | achieved  | achieved       |
|          |       |     |     |     |      |          | post-     | post-          |
|          |       |     |     |     |      |          | synthesis | implementation |
| clk=10ns | 81    | 275 | 160 | 2   | 0    | 10       | 5.745     | 6.41           |
| clk=9ns  | 88    | 276 | 226 | 2   | 0    | 9        | 5.745     | 6.059          |
| clk=8ns  | 89    | 276 | 226 | 2   | 0    | 8        | 5.745     | 6.034          |
| clk=7ns  | 75    | 186 | 222 | 2   | 0    | 7        | 5.745     | 5.692          |
| clk=6ns  | 76    | 186 | 241 | 2   | 0    | 6        | 4.823     | 4.364          |
| clk=5ns  | 96    | 186 | 258 | 2   | 0    | 5        | 4.823     | 4.282          |
| clk=4ns  | 114   | 188 | 376 | 2   | 0    | 4        | 3.667     | 3.724          |
| clk=3ns  | 107   | 192 | 377 | 4   | 0    | 3        | 3.667     | 3.627          |

Table 18: HLS Operation Chaining Solution Export RTL Report

Si può notare come la soluzione ottimale precedentemente proposta risulta essere la migliore tra quelle citate. Infatti, è possibile evidenziare che rispetto alle altre soluzioni presenta il minor numero di risorse stimate dopo aver effettuato l'Export RTL in HLS.

Pertanto, si può affermare che il tool, in corrispondenza di un periodo di clock pari a 7ns, è riuscito ad effettuare delle ottimizzazioni che hanno permesso di ottenere un minimo aumento della latenza e una diminuzione delle risorse utilizzate.

Quindi, considerando constraint di clock differenti per ogni IP importato in Vivado, si procede con la sintesi, l'implementazione, la Post-Implementation Timing Simulation e la generazione del file .saif per ogni soluzione corrispondente.

```
create_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get_ports ap_clk]

create_clock -period 9.000 -name myclk -waveform {0.000 4.500} [get_ports ap_clk]

create_clock -period 8.000 -name myclk -waveform {0.000 4.000} [get_ports ap_clk]

create_clock -period 7.000 -name myclk -waveform {0.000 3.500} [get_ports ap_clk]

create_clock -period 6.000 -name myclk -waveform {0.000 3.000} [get_ports ap_clk]

create_clock -period 5.000 -name myclk -waveform {0.000 2.500} [get_ports ap_clk]

create_clock -period 4.000 -name myclk -waveform {0.000 2.500} [get_ports ap_clk]

create_clock -period 3.000 -name myclk -waveform {0.000 1.500} [get_ports ap_clk]
```

In particolare, qui di seguito verranno mostrati e analizzati soltanto i report corrispondenti alle soluzioni avente periodo di clock compreso nell'intervallo [10ns, 4ns]. Infatti, è possibile notare come, in corrrispondenza del periodo di clock pari a 3ns, i constraint di timing siano violati.

[Timing 38-282] The design failed to meet the timing requirements. Please see the timing summary report for details on the timing violations.



Timing

Worst Negative Slack (WNS): -0.432 ns
Total Negative Slack (TNS): -12.766 ns
Number of Failing Endpoints: 60
Total Number of Endpoints: 1026
Implemented Timing Report

Figure 9: Vivado Operation Chaining Solution clk=3ns Timing Constraint Violated

Figure 10: Vivado Operation Chaining Solution clk=3ns Timing Constraint Violated

Pertanto, si procede con l'analisi dei report delle soluzioni hardware implementate in Vivado aventi periodo di clock coompreso nell'intervallo [10ns, 4ns].

| Solution | LUT | LUTRAM | FF  | BRAM | DSP | Ю  | BUFG |
|----------|-----|--------|-----|------|-----|----|------|
| clk=10ns | 275 | 32     | 160 | 0    | 2   | 71 | 1    |
| clk=9ns  | 276 | 32     | 226 | 0    | 2   | 71 | 1    |
| clk=8ns  | 276 | 32     | 226 | 0    | 2   | 71 | 1    |
| clk=7ns  | 186 | 32     | 222 | 0    | 4   | 71 | 1    |
| clk=6ns  | 186 | 32     | 241 | 0    | 4   | 71 | 1    |
| clk=5ns  | 186 | 32     | 258 | 0    | 4   | 71 | 1    |
| clk=4ns  | 188 | 32     | 376 | 0    | 4   | 71 | 1    |

Table 19: Vivado Operation Chaining Solution Utilization Report [#]



Figure 11: Vivado Operation Chaining Utilization Plot

| Solution | Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock Frequency [Mhz] |
|----------|------------|-----------------------|----------|-------------------------------|
| clk=10ns | 44         | 10                    | 3.654    | 157.5795777                   |
| clk=9ns  | 55         | 9                     | 3.06     | 168.3501684                   |
| clk=8ns  | 55         | 8                     | 2.277    | 174.7335314                   |
| clk=7ns  | 66         | 7                     | 1.33     | 176.366843                    |
| clk=6ns  | 88         | 6                     | 1.573    | 225.8866049                   |
| clk=5ns  | 88         | 5                     | 0.374    | 216.1694769                   |
| clk=4ns  | 131        | 4                     | 0.454    | 282.0078962                   |

Table 20: Vivado Operation Chaining Solution Timing Report



Figure 12: Vivado Operation Chaining Timing Plot

Si può notare come in corrispondenza dell'architettura hardware a cui corrisponde un periodo di clock pari a 7ns si ha l'utilizzazione delle risorse minore a meno del numero di LUT e FF che risulta essere aumentato rispettivamente di un'unità e di 66 unità. Questo aumento di risorse può essere giustificato dal momento che,

rispetto alla soluzione iniziale non ottimizzata a 10ns, il periodo del clock risulta essere diminuito e, pertanto, il tool prevede una gestione delle istruzioni in maniera più complessa comportando un'aumento delle risorse stesse. Tanto è vero che al diminuire del periodo di clock, si ha un aumento delle risorse utilizzate e dei cicli di clock considerati per ottenere un nuovo risultato. In particolare, per quanto riguarda la massima frequenza di clock associata ad ogni soluzione proposta in questa sezione, si può notare come quella a cui corrisponde un periodo di clock pari a 7ns, presenta una maximum clock frequency maggiore rispetto a quelle avente periodo maggiore. Questo aumento lo si può, inoltre, evidenziare nelle successive soluzioni aventi periodo di clock ancora minore. Tanto è vero che il WNS, al diminuire del clock constraint, anch'esso diminuisce.

| Solution | Clock Enable | Clocks      | DSP         | Logic       | Set/Reset   | Data        |
|----------|--------------|-------------|-------------|-------------|-------------|-------------|
| clk=10ns | 0.455035944  | 1.215706812 | 0.343570428 | 0.925468281 | 0.00349783  | 1.014495501 |
| clk=9ns  | 0.371109403  | 1.601127908 | 0.308091694 | 0.871003722 | 0.003504661 | 0.845550094 |
| clk=8ns  | 0.432465255  | 1.790320966 | 0.364705513 | 1.03614782  | 0.003386509 | 1.085355412 |
| clk=7ns  | 0.4179838    | 1.991891069 | 0.305155962 | 0.881534419 | 0.002575182 | 0.757947506 |
| clk=6ns  | 0.367850007  | 2.092533279 | 0.244985771 | 0.788475969 | 0.00273619  | 0.666663051 |
| clk=5ns  | 0.556948828  | 3.174162703 | 0.291668839 | 0.943421735 | 0.004532358 | 0.906153    |
| clk=4ns  | 0.57213963   | 3.804846667 | 0.253423554 | 0.799402245 | 0.002476984 | 0.756326073 |

Table 21: Vivado Operation Chaining Solution Dynamic Power Report [mW]

| Solution | Dynamic Total |
|----------|---------------|
| clk=10ns | 3.957774796   |
| clk=9ns  | 4.000387481   |
| clk=8ns  | 4.712381475   |
| clk=7ns  | 4.357087937   |
| clk=6ns  | 4.163244267   |
| clk=5ns  | 5.876887463   |
| clk=4ns  | 6.188615153   |

Table 22: Vivado Operation Chaining Solution Dynamic Power Report [mW]

| Solution | Energy Single Operation |
|----------|-------------------------|
| clk=10ns | 39.57774796             |
| clk=9ns  | 36.00348733             |
| clk=8ns  | 37.6990518              |
| clk=7ns  | 30.49961556             |
| clk=6ns  | 24.9794656              |
| clk=5ns  | 29.38443731             |
| clk=4ns  | 24.75446061             |

Table 23: Vivado Operation Chaining Solution Energy Single Operation Report [pJ]



Figure 13: Vivado Operation Chaining Power Plot

Si può notare come la potenza dinamica aumenti al diminuire del periodo di clock considerato. Questo si evince dal fatto che l'utilizzazione delle risorse (in particolar modo per quello che riguarda i FF) aumenta al diminuire del constraint di clock. Tanto è vero che la potenza dinamica associata all'albero di distribuzione del clock (BUFG) e del clock enable sia di gran lunga maggiore rispetto alla soluzione iniziale dove è stato considerato un constraint pari a 10ns. In particolare, questo aumento di potenza dinamica può essere associato al maggior numero di Flip Flop utilizzato nelle soluzioni aventi periodo di clock sempre minore. Pertanto, considerando i report di utilizzazione delle risorse, di timing, di potenza dinamica ed energia per singola operazione, si può evincere che la soluzione hardware che permette un trade-off ottimale è quella ottenuta in corrispondenza del periodo di clock pari a 7ns.

#### 5.3 Code Hoisting Solution

Considerando, ora, la stessa architettura software precedentemente utilizzata, si potrebbe mettere il luce un possibile problema: impiego di risorse aggiuntive a causa di istruzioni logiche condizionali. In particolare, questo problema è dovuto al fatto che, all'interno del ciclo for, è prevista l'istruzione condizionale if(i==0) che comporta l'utilizzo di risorse hardware addizionali. Bisogna precisare che, istruzioni logiche quali if, else e then rendono i loop inefficienti limitando le performance dal punto di vista hardware. Fondamentalmente, l'istruzione condizionale if(i==0) a livello hardware si traduce nel leggere il valore dell'indice i in una certa struttura dati ed effettuare il confronto, tramite un comparatore, tra tale valore appena citato e il valore zero.

```
#include "definitions.h"
  void firConvolutionCodeHoisting(samplesType inputFilter, samplesType* outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
      accumulator = 0;
      int i;
      loop: for( i=SIZE-1; i>0; --i ) {
9
          shiftRegister[i] = shiftRegister[i-1];
10
          accumulator += shiftRegister[i] * coefficientsFilter[i];
11
      }
13
      accumulator += inputFilter * coefficientsFilter[0];
      shiftRegister[0] = inputFilter;
14
      *outputFilter = accumulator;
15
16 }
```

Pertanto, si potrebbe pensare di eliminare l'if in questione e spostarlo al di fuori del loop. In questo modo, anche l'istruzione condizionale else, che ricopriva il resto delle iterazioni, verrà gestita direttamente all'interno del loop avente quest'ultimo un'iterazione in meno dovuto ai motivi appena citati. Pertanto, quello che ci si aspetta è una diminuzione dal punto di vista della latenza totale, dal punto di vista delle risorse e per ciò che riguarda la potenza dinamica associata alla parte di logica dell'architettura hardware in questione.

Pertanto, si mostrano qui di seguito i report, generati da HLS, riguardo la sintesi, la C/RTL Cosimulation e l'Export RTL.

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.510     | 1.25        |

| Late | ency | Interval |     |  |
|------|------|----------|-----|--|
| min  | max  | min      | max |  |
| 42   | 42   | 42       | 42  |  |

Table 24: HLS Code Hoisting Solution Timing Summary (ns)

Table 25: HLS Code Hoisting Solution Latency Summary (clock cycles)

|   | Loop   | Latency |     | Iteration Latency | Initiation Interva |        | Trip Count |
|---|--------|---------|-----|-------------------|--------------------|--------|------------|
|   | Name   | $\min$  | max |                   | achieved           | target |            |
| Ī | - loop | 40      | 40  | 4                 | -                  | -      | 10         |

Table 26: HLS Code Hoisting Solution Latency Loops Summary

Si può notare come il numero di iterazioni del loop, in questo caso, sia pari a 10 tale che la latenza totale del ciclo risulta essere pari a 40.



Figure 14: HLS Code Hoisting Solution Trip Count Analysis

In particolare, è opportuno fare un'attenta riflessione riguardo la latenza totale dell'architettura hardware in questione. Il report di sintesi, effettivamente, ha restituito una stima di tale valore pari a 42 dal momento bisogna considera una latenza totale del loop pari a 40, un ciclo di latency ulteriore dovuto alla lettura iniziale dell'input (come avviene per ogni soluzione progettata) e, come ultimo, un altro ciclo finale dovuto alle due operazioni in parallelo effettuate: accumulo associato al coefficiente in posizione 0 e scrittura del dato in uscita. Precedentemente, nella soluzione iniziale non ottimizzata, tale latenza finale non era prevista dal momento che il caso i == 0 veniva gestito all'interno del loop mediante istruzione condizionale e la scrittura del dato in uscita veniva effettuata in parallelo all'operazione appena citata.

| Name            | BRAM_18K | DSP48E | FF     | LUT   |
|-----------------|----------|--------|--------|-------|
| DSP             | -        | -      | -      | -     |
| Expression      | -        | 4      | 0      | 140   |
| FIFO            | -        | -      | _      | -     |
| Instance        | -        | -      | _      | -     |
| Memory          | 0        | -      | 74     | 8     |
| Multiplexer     | -        | _      | -      | 92    |
| Register        | -        | _      | 156    | -     |
| Total           | 0        | 4      | 230    | 240   |
| Available       | 280      | 220    | 106400 | 53200 |
| Utilization (%) | 0        | 1      | ~0     | ~0    |

Table 27: HLS Code Hoisting Solution Utilization Estimates Summary

Si può notare come il report di C/RTL Cosimulation evidenzi un ciclo di latenza in meno rispetto alla

soluzione hardware iniziale non ottimizzata. Questo è dovuto al fatto che, come precedentemente citato, il loop presenta un'iterazione in meno tale per cui il numero di cicli di clock, affinché venga processato si abbia un risultato in uscita, è pari a 43 rispetto ai 44 corrispondenti alla soluzione non ottimizzata.

| RTL  | Status | Latency |     |     | I      | nterva | al  |
|------|--------|---------|-----|-----|--------|--------|-----|
|      |        | min     | avg | max | $\min$ | avg    | max |
| VHDL | Pass   | 42      | 42  | 43  | 42     | 42     | 43  |

Table 28: HLS Code Hoisting Solution C/RTL Cosimulation Summary

Inoltre, si può notare come il numero di risorse relative alla soluzione hardware in questione risulta essere pressocché il medesimo tranne per il numero di FF che risulta essere ridotto di circa il 18%.

| Resource | VHDL |
|----------|------|
| SLICE    | 75   |
| LUT      | 270  |
| FF       | 131  |
| DSP      | 2    |
| BRAM     | 0    |
| SRL      | 0    |

TimingVHDLCP required10.000CP achieved post-synthesis5.745CP achieved post-implementation6.847

Table 30: HLS Code Hoisting Solution Export RTL Final Timing

Table 29: HLS Code Hoisting Solution Export RTL Resource Usage

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

create\_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get\_ports ap\_clk]

| LUT | LUTRAM | FF  | $\mathbf{BRAM}$ | DSP | IO | BUFG |
|-----|--------|-----|-----------------|-----|----|------|
| 270 | 32     | 134 | 0               | 2   | 71 | 1    |

Table 31: Vivado Code Hoisting Solution Utilization Report [#]

Dal momento che il WNS è diminuito, si può notare come la maximum clock frequency sia diminuita rispetto alla soluzione non ottimizzata.

| Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock Frequency [Mhz] |
|------------|-----------------------|----------|-------------------------------|
| 43         | 10                    | 3.074    | 144.3834825                   |

Table 32: Vivado Code Hoisting Solution Timing Report

Per quanto riguarda la potenza dinamica e l'energia per singola operazione, si evidenzia un aumento rispetto alla soluzione iniziale. Si può ipotizzare che, dal punto di vista della potenza, il tool riesca meglio ad ottimizzare direttamente tutte le operazioni relative ad accumulo e shifting nello stesso ciclo, anziché avere 10 operazioni all'interno del loop e una fuori dal ciclo.

| BRA | M Clock Enabl | e Clocks    | DSP        | Logic       | Set/Reset [mW] | Data        |
|-----|---------------|-------------|------------|-------------|----------------|-------------|
| 0   | 0.370487687   | 1.756788697 | 0.41467679 | 0.838255044 | 3.35E-03       | 1.381990616 |

Table 33: Vivado Code Hoisting Solution Dynamic Power Report [mW]

| Dynamic Total |
|---------------|
| 4.765546238   |

| <b>Energy Single Operation</b> |  |  |  |  |
|--------------------------------|--|--|--|--|
| 47.65546238                    |  |  |  |  |

Table 34: Vivado Code Hoisting Solution Dynamic Power Report [mW]

Table 35: Vivado Code Hoisting Solution Energy Single Operation Report [pJ]

Pertanto, se da una parte si è ottenuto una piccola diminuzione delle risorse avendo gestito l'overhead di risorse dovuto alle istruzioni condizionali presenti all'interno del loop, dall'altra parte si è ottenuto un aumento di circa il 21% della potenza dinamica rispetto alla soluzione iniziale non ottimizzata.

#### 5.4 Loop Fission Solution

Considerando la soluzione precedente, si può evidenziare come la possibile problematica di overhead delle risorse, dovuta alle istruzioni condizionali presenti all'interno del loop, sia stata risolta. Inoltre, bisogna notare che, all'interno di tale ciclo for, sono presenti istruzioni potenzialmente complesse dal punto di vista computazionale. In particolare, il tool, durante la compilazione del codice, cerca in qualche modo di effettuare qualche tipologia di ottimizzazione al loop in questione. Pertanto, si potrebbe pensare di implementare due loop: uno per l'operazione di shifting ed un altro per l'operazione di accumulo. Quindi, effettuando la scissione del loop, relativo alla soluzione precedente, si potrebbe pensare che il tool possa effettuare tali ottimizzazioni in maniera più efficiente dal momento che le ottimizzazioni verrebbero effettuate su due cicli distinti. Quello che ci si aspetta, però, è un aumento significativo della latenza totale dovuto al fatto che, in questo caso, bisogna considerare la latenza di due loop.

```
#include "definitions.h"
  void firConvolutionLoopFission(samplesType inputFilter, samplesType* outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
      accumulator = 0;
      loopShifting: for( i=SIZE-1; i>0; --i ) {
q
10
           shiftRegister[i] = shiftRegister[i-1];
      shiftRegister[0] = inputFilter;
      accumulator = 0;
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
14
           accumulator += shiftRegister[i] * coefficientsFilter[i];
15
16
      *outputFilter = accumulator;
17
  }
```

Effettuando la sintesi, la C/RTL Cosimulation ed Export RTL si ottengono i seguenti report.

|   | Clock  | Target | Estimated | Uncertainty |
|---|--------|--------|-----------|-------------|
| ſ | ap_clk | 10.00  | 8.510     | 1.25        |

| Late | ency      | Interval |     |  |
|------|-----------|----------|-----|--|
| min  | min   max |          | max |  |
| 66   | 66        | 66       | 66  |  |

Table 36: HLS Loop Fission Solution Timing Summary (ns)

Table 37: HLS Loop Fission Solution Latency Summary (clock cycles)

Si può notare come la latenza sia aumentata rispetto alle soluzioni precedenti in cui era presente un solo loop. Questo può essere, inoltre, analizzato nella tabella "Table 38: HLS Loop Fission Solution Latency Loops Summary" sotto allegata dove è possibile osservare che i due loop vengono riconosciuti come due loop indipendenti tra loro e con una latenza associata. In particolare, "loopShifting" presenta un trip count pari a 10 dal momento che il caso i=0 viene gestito secondo la tecnica del code hoisting, cioè al di fuori del ciclo stesso.

| Loop              | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|-------------------|---------|-----|-------------------|---------------------|--------|------------|
| Name              | min     | max |                   | achieved            | target |            |
| - loopShifting    | 20      | 20  | 2                 | -                   | -      | 10         |
| - loopAccumulator | 44      | 44  | 4                 | -                   | -      | 11         |

Table 38: HLS Loop Fission Solution Latency Loops Summary



Figure 15: HLS Loop Fission Solution Analysis

La scissione del loop nei cicli "loop Shifting" e "loop Accumulator" la si può notare, inoltre, nella figura sopra allegata che mostra la finestra di Analysis. Bisogna di nuovo precisare che, tale tecnica ha l'obiettivo di favorire l'ottimizzazione dei due loop in maniera indipendente effettuando magari uno scheduling delle operazioni differente, attraverso procedure proprietarie, rispetto alle soluzioni precedenti dove era previsto un unico ciclo for.

| Name            | BRAM_18K | DSP48E | $\mathbf{FF}$ | LUT   |
|-----------------|----------|--------|---------------|-------|
| DSP             | -        | -      | -             | -     |
| Expression      | -        | 2      | 0             | 96    |
| FIFO            | -        | -      | -             | -     |
| Instance        | -        | -      | -             | -     |
| Memory          | 0        | -      | 74            | 8     |
| Multiplexer     | -        | -      | -             | 110   |
| Register        | -        | _      | 131           | -     |
| Total           | 0        | 2      | 205           | 214   |
| Available       | 280      | 220    | 106400        | 53200 |
| Utilization (%) | 0        | ~0     | ~0            | ~0    |

Table 39: HLS Loop Fission Solution Utilization Estimates Summary

| RTL  | Status | Latency         |    |     | I      | nterv | al  |
|------|--------|-----------------|----|-----|--------|-------|-----|
|      |        | min   avg   max |    | max | $\min$ | avg   | max |
| VHDL | Pass   | 66              | 66 | 67  | 66     | 66    | 67  |

Table 40: HLS Loop Fissiong Solution C/RTL Cosimulation Summary

| Resource | VHDL |
|----------|------|
| SLICE    | 44   |
| LUT      | 157  |
| FF       | 106  |
| DSP      | 2    |
| BRAM     | 0    |
| SRL      | 0    |

| Timing                          | VHDL     |
|---------------------------------|----------|
| CP required                     | 10.000   |
| CP achieved post-synthesis      | 5.745    |
| CP achieved post-implementation | on 6.363 |

Table 41: HLS Loop Fissiong Solution Export RTL Resource Usage

Table 42: HLS Loop Fissiong Solution Export RTL Final Timing

Si può evidenziare come, dopo aver effettuato l'Export RTL, il numero di cicli di clock affinché un risultato venga processato in uscita sia aumentato a 67 rispetto a quello ottenuto nella soluzione precedente pari a 43. Di fondamentale importanza è la diminuzione dell'utilizzazione delle risorse. Infatti, si può notare, rispetto alla soluzione hardware basata sul code hoisting, come il numero di SLICE sia diminuito di circa il 41%, quello delle LUT di circa il 42% e quello dei FF di circa il 19%.

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

create\_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get\_ports ap\_clk]

| LUT | LUTRAM | FF  | BRAM | DSP | Ю  | BUFG |
|-----|--------|-----|------|-----|----|------|
| 158 | 32     | 106 | 0    | 2   | 71 | 1    |

Table 43: Vivado Loop Fission Solution Utilization Report [#]

Si può notare come l'utilizzazione delle risorse sia minore (-42% LUT e - 21% FF) rispetto alla solution precedente e, inoltre, la maximum clock frequency sia aumentata (dato dal fatto che il WNS è maggiore). Ovviamente, a tali vantaggi corrisponde, come già anticipato precedentemente, un aumento dei cicli di clock necessari (+55.8%) affinchè un risultato venga processato in uscita.

| Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock Frequency [Mhz] |
|------------|-----------------------|----------|-------------------------------|
| 67         | 10                    | 3.464    | 152.998776                    |

Table 44: Vivado Loop Fission Solution Timing Report

| BRAM | Clock Enable | Clocks      | DSP         | Logic       | Set/Reset [mW] | Data        |
|------|--------------|-------------|-------------|-------------|----------------|-------------|
| 0    | 0.292603218  | 1.098937588 | 0.321194879 | 0.590288255 | 0.004160448    | 0.937705627 |

Table 45: Vivado Loop Fission Solution Dynamic Power Report [mW]

| Dynamic Total |
|---------------|
| 3.244890014   |

| Energy Single Operation |
|-------------------------|
| 32.44890014             |

Table 46: Vivado Loop Fission Solution Dynamic Power Report [mW]

Table 47: Vivado Loop Fission Solution Energy Single Operation Report [pJ]

Si evidenzia che, la potenza dinamica totale e l'energia per singola operazione risultano essere diminuite, rispetto alla soluzione hardware precedente, di circa il 32%. In particolare, le maggiori diminuzioni si hanno in corrispondenza dei seguenti contributi: Clocks (-38%), Logic (-30%) e Data (-32%). Infatti, bisogna ricordare che l'utilizzazione delle risorse, come già precedentemente citato, è anch'essa notevolmente diminuita rispetto alla solution precedente.

## 5.5 Loop Unrolling Solution

Considerando l'architettura hardware precedente, è possibile, effettivamente, implementare un approccio più veloce dal punto di vista delle operazioni, cioè una soluzione basata su parallelismo. In particolare, allocando un maggior numero di risorse, è possibile eseguire delle operazioni in parallelo riducendo di conseguenza la latenza, cioè il tempo di esecuzione totale.

Tale approccio è possibile implementarlo in due modi differenti:

#### • Manuale

Unrolling ottenuto tramite rimodulazione software

#### • Automatico

Unrolling ottenuto tramite direttiva proprietaria (pragma)

In particolare, sia l'unrolling manuale sia quello automatico, sono stati ottenuti considerando sia un fattore di parallelismo pari a 2 sia pari a 4. Inoltre, bisogna specificare che, per quanto riguarda l'unrolling automatico (tramite pragma), è stata realizzata un'ulteriore soluzione hardware, tenendo conto sia del fattore 2 sia del fattore 4, dove è stato considerato sia il pragma di unrolling sia il pragma di partitioning. Il partizionamento serve per risolvere un problema tipicamente causato dagli array. Gli array sono implementati come BRAM, solitamente progettate per un dual-port massimo. Questo può limitare il throughput di un algoritmo ad alta intensità di read/write. La larghezza di banda può essere migliorata dividendo l'array (una singola BRAM) in array più piccoli (più BRAM), aumentando di fatto il numero di porte. Gli array vengono partizionati utilizzando la direttiva ARRAY\_PARTITION. Vivado HLS offre tre tipi di partizionamento degli array. I tre tipi di partizionamento sono:

### • block

L'array originale viene suddiviso in blocchi di uguali dimensioni di elementi consecutivi dell'array originale.

#### • cyclic

L'array originale viene suddiviso in blocchi di uguali dimensioni che interlacciano gli elementi dell'array originale.

### • complete

L'operazione predefinita consiste nel dividere l'array nei suoi singoli elementi. Ciò corrisponde alla risoluzione di una memoria in registri.



Figure 16: HLS Array Partitioning

Pertanto, è possibile elencare qui di seguito le soluzioni hardware progettate per l'approccio del parallelismo:

- Unrolling Manuale Fattore=2
- Unrolling Manuale Fattore=4
- Unrolling Automatico Fattore=2
- Unrolling Automatico Fattore=4
- Unrolling Automatico con Partitioning Fattore=2
- Unrolling Automatico con Partitioning Fattore=4





Figure 17: HLS Loop Unrolling

A questo proposito, verranno analizzati i report considerando le soluzioni hardware aventi stesso fattore così da poter effettuare confronti adeguati tra le varie implementazioni. In particolare, è stato considerato un loop unrolling di fattore 2 e un fattore 4. Ovviamente, la figura sopra allegata è solo un esempio per rappresentare meglio il concetto di unrolling e partitioning.

## 5.5.1 Loop Unrolling Factor=2

```
#include "definitions.h"
  void firConvolutionLoopUnrollingFactor2(samplesType inputFilter, samplesType* outputFilter)
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
5
      accType accumulator;
6
      accumulator = 0;
      int i;
9
      loopShifting: for( i=SIZE-1; i>1; i=i-2 ) {
          shiftRegister[i] = shiftRegister[i-1];
10
          shiftRegister[i-1] = shiftRegister[i-2];
11
12
      if( i==1 ) {
13
          shiftRegister[1] = shiftRegister[0];
14
15
      shiftRegister[0] = inputFilter;
16
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
17
          accumulator += shiftRegister[i] * coefficientsFilter[i];
18
19
      *outputFilter = accumulator;
20
21 }
#include "definitions.h"
3 void firConvolutionLoopUnrollingFactor2Pragma(samplesType inputFilter, samplesType*
      outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
6
      accumulator = 0;
      int i:
      loopShifting: for( i=SIZE-1; i>0; --i ) {
9
          #pragma HLS unroll factor=2
10
          shiftRegister[i] = shiftRegister[i-1];
11
      shiftRegister[0] = inputFilter;
13
      accumulator = 0;
14
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
15
          accumulator += shiftRegister[i] * coefficientsFilter[i];
16
17
      *outputFilter = accumulator;
18
19 }
#include "definitions.h"
3 void firConvolutionLoopUnrollingFactor2PP(samplesType inputFilter, samplesType* outputFilter
      ) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
6
      accumulator = 0;
      int i;
      loopShifting: for( i=SIZE-1; i>0; --i ) {
9
10
          #pragma HLS array_partition variable=shiftRegister complete
          #pragma HLS unroll factor=2
11
12
          shiftRegister[i] = shiftRegister[i-1];
      shiftRegister[0] = inputFilter;
14
      accumulator = 0;
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
16
          accumulator += shiftRegister[i] * coefficientsFilter[i];
17
18
      *outputFilter = accumulator;
19
20 }
```

| Solution                    | Clock  | Target | Estimated | Uncertainty |
|-----------------------------|--------|--------|-----------|-------------|
| Manuale                     | ap_clk | 10.00  | 8.510     | 1.25        |
| Automatico                  | ap_clk | 10.00  | 8.510     | 1.25        |
| Automatico con Partitioning | ap_clk | 10.00  | 8.510     | 1.25        |

Table 48: HLS Loop Unrolling Factor=2 Solution Timing Summary (ns)

Si può notare come la latenza associata alla soluzione hardware basata su unrolling manuale sia la medesima di quella basata su unrolling automatico (effettuato mediante pragma). Questo è dovuto al fatto che l'implementazione è la stessa: nel primo caso è effettuato manualmente mentre nel secondo caso è effettuato mediante direttiva proprietaria del tool. Invece, nel caso della soluzione hardware basata su unrolling automatico e partitioning, si riscontra una latenza maggiore.

| Solution                    | Late | Latency |     | erval |
|-----------------------------|------|---------|-----|-------|
|                             | min  | max     | min | max   |
| Manuale                     | 56   | 56      | 56  | 56    |
| Automatico                  | 56   | 56      | 56  | 56    |
| Automatico con Partitioning | 61   | 66      | 61  | 66    |

Table 49: HLS Loop Unrolling Factor=2 Solution Latency Summary (clock cycles)

Si può evidenziare come, nel caso della soluzione hardware con urolling automatico e partizionamento, l'aumento della latenza si ha soltanto in corrispondenza del loop di shifting, cioè proprio dove è stato collocato il pragma di partitioning.

| Solution         | Loop Name         | Latency |     | Iteration Latency | Initiation | Initiation Interval |       |
|------------------|-------------------|---------|-----|-------------------|------------|---------------------|-------|
|                  |                   | min     | max |                   | achieved   | target              | Count |
| Manuale          | - loopShifting    | 10      | 10  | 2                 | -          | -                   | 5     |
|                  | - loopAccumulator | 44      | 44  | 4                 | _          | -                   | 11    |
| Automatico       | - loopShifting    | 10      | 10  | 2                 | -          | -                   | 5     |
|                  | - loopAccumulator | 44      | 44  | 4                 | _          | -                   | 11    |
| Automatico       | - loopShifting    | 15      | 20  | $3 \sim 4$        | -          | -                   | 5     |
| con Partitioning | - loopAccumulator | 44      | 44  | 4                 | -          | -                   | 11    |

Table 50: HLS Loop Unrolling Factor=2 Solution Latency Loops Summary

Considerando la sezione Analysis del tool si può vedere nel dettaglio che, all'interno del loop di shifting, sono presenti 2 shifting in parallelo (dal momento che è stato considerato un fattore di parallelismo pari a 2) sia per la soluzione hardware di unrolling manuale sia per quella di unrolling automatico (mediante pragma).



Figure 18: HLS Loop Unrolling Manual Factor=2 Analysis



Figure 19: HLS Loop Unrolling Automatic Factor=2 Analysis

Analizzando nel dettaglio il report si può notare come il numero di DSP e LUT sia pressocché il medesimo per tutte e tre le soluzioni hardware proposte. Per quanto riguarda, invece, il numero di BRAM utilizzate, le soluzioni basate su unrolling manuale e automatico presentano un'utilizzazione pari a 2, mentre quella basta su unrolling automatico e partitioning presenta un numero di BRAM utilizzato pari a 0. In particolare, impostando la tipologia di partizionamento complete, la direttiva fa in modo che la soluzione hardware impieghi come memoria dei singoli registri, cosí che siano garantiti gli accessi in memoria in parallelo. Tanto è vero che si può notare un aumento considerevole dei FF in corrispondenza dell'architettura basata su unrolling automatico e partizionamento.

| Solution                    | BRAM_18K | DSP48E | FF  | LUT |
|-----------------------------|----------|--------|-----|-----|
| Manuale                     | 2        | 2      | 145 | 236 |
| Automatico                  | 2        | 2      | 141 | 251 |
| Automatico con Partitioning | 0        | 2      | 912 | 289 |

Table 51: HLS Loop Unrolling Factor=2 Solution Utilization Estimates [#]

Qui di seguito vengono riportati i report relativi alla C/RTL Cosimulation, dove è possibile analizzare il numero di cicli di clock che servono per ottenere un risultato in uscita, e quello relativo a Export RTL.

| Solution                    | RTL  | Status | Latency |     | Interval |     |     |     |
|-----------------------------|------|--------|---------|-----|----------|-----|-----|-----|
|                             |      |        | min     | avg | max      | min | avg | max |
| Manuale                     | VHDL | Pass   | 56      | 56  | 57       | 56  | 56  | 57  |
| Automatico                  | VHDL | Pass   | 56      | 56  | 57       | 56  | 56  | 57  |
| Automatico con Partitioning | VHDL | Pass   | 65      | 65  | 66       | 65  | 65  | 66  |

Table 52: HLS Loop Unrolling Factor=2 Solution C/RTL Cosimulation Report

| Solution         | SLICE | LUT | FF  | DSP | BRAM | CP       | CP                         | CP             |
|------------------|-------|-----|-----|-----|------|----------|----------------------------|----------------|
|                  |       |     |     |     |      | required | achieved                   | achieved       |
|                  |       |     |     |     |      |          | $\mathbf{post}$ -          | post-          |
|                  |       |     |     |     |      |          | $\operatorname{synthesis}$ | implementation |
| Manuale          | 31    | 97  | 72  | 2   | 2    | 10       | 5.745                      | 5.692          |
| Automatico       | 29    | 97  | 72  | 2   | 2    | 10       | 5.745                      | 5.692          |
| Automatico       | 294   | 413 | 843 | 2   | 0    | 10       | 5.745                      | 6.188          |
| con Partitioning |       |     |     |     |      |          |                            |                |

Table 53: HLS Loop Unrolling Factor=2 Solution Export RTL Report

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

```
create_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get_ports ap_clk]
```

Analizzando il report di utilizzazione delle risorse generato da Vivado dopo aver effettuato il processo di implementazione, è possibile notare come il numero di risorse stimato dal tool HLS è leggermente variato. Però, si può evidenziare come il cambiamento delle risorse tra le varie soluzioni hardware è il medesimo, cioè il numero di LUT e FF nel caso dell'implementazione con unrolling automatico e partitioning sia aumentato considerevolmente e il numero di BRAM si è ridotto a zero.

| Solution         | LUT | LUTRAM | $\mathbf{FF}$ | BRAM | DSP | IO | BUFG |
|------------------|-----|--------|---------------|------|-----|----|------|
| Manuale          | 98  | 0      | 72            | 1    | 2   | 71 | 1    |
| Automatico       | 98  | 0      | 72            | 1    | 2   | 71 | 1    |
| Automatico       | 413 | 0      | 843           | 0    | 2   | 71 | 1    |
| con Partitioning |     |        |               |      |     |    |      |

Table 54: Vivado Loop Unrolling Factor=2 Solution Utilization Report [#]

Si è, inoltre, analizzato l'utilizzazione delle risorse effettuando un confronto con la soluzione hardware basata sulla scissione del loop dal momento che tali architetture basate su unrolling sono basate sulla prima citata. In particolare, si può notare come il numero di risorse utilizzate sia pressoché il medesimo tra la soluzione hardware basta su loop fission e quelle basate rispettivamente sull'unrolling manuale e automatico di fattore 2. Più nello specifico, considerando le implementazioni basate sul parallelismo manuale e automatico rispetto a quella basata sul loop fission, il numero di LUT è diminuito di circa il 40%, il numero di FF è diminuito di circa il 32% e il numero di BRAM è aumentato di un'unità. Invece, effettuando un confronto tra quella basata su partitioning e quella basata sulla scissione del loop, il numero di LUT è aumentato di circa il 161% e il numero di FF di circa il 695%.



Figure 20: Vivado Loop Unrolling Factor=2 Utilization Plot

Infine, per quanto riguarda il timing, è possibile notare come il numero di cicli sia pressocché il medesimo tra la soluzione basata su unrolling manuale e quella basata su unrolling automatico. Invece, come precedentemente citato, la soluzione basata su partizionamento presenta un numero di cicli di clock, tali per garantire un risultato, maggiore.

| Solution         | Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock   |
|------------------|------------|-----------------------|----------|-----------------|
|                  |            |                       |          | Frequency [MHz] |
| Manuale          | 57         | 10                    | 4.33     | 176.366843      |
| Automatico       | 57         | 10                    | 4.33     | 176.366843      |
| Automatico       | 66         | 10                    | 3.469    | 153.1159087     |
| con Partitioning |            |                       |          |                 |

Table 55: Vivado Loop Unrolling Factor=2 Solution Timing Report

Effettuando un confronto grafico e tenendo conto anche della soluzione basata sulla scissione del loop, è possibile evidenziare un numero di cicli di clock, tali per garantire un risultato, un WNS e una maximum clock frequency pressoché uguali tra l'implementazione basata su loop fission e quella basata su partizionamento. Questo accade dal momento che la soluzione hardware basata su unrolling automatico e partitioning fa

diminuire il numero di cicli di clock tramite il parallelismo e lo fa aumentare allo stesso tempo a causa del partizionamento.



Figure 21: Vivado Loop Unrolling Factor=2 Timing Plot

Per quanto riguarda, invece, la potenza dinamica associata alle tre soluzioni hardware proposte in questa sezione, è possibile notare come i contributi associati al Clock Enable e Clocks risultano essere notevolmente più grandi in corrispondenza dell'implementazione basata su partizionamento. Questo potrebbe essere causato dal notevole aumento dell'utilizzazione dei FF per questa solution.

| Solution     | $\mathbf{BRAM}$ | Clock       | Clocks      | DSP         | Logic       | Set/        | Data        |
|--------------|-----------------|-------------|-------------|-------------|-------------|-------------|-------------|
|              |                 | Enable      |             |             |             | Reset       |             |
| Manuale      | 1.250551548     | 0.096387172 | 0.900532817 | 0.268251897 | 0.260709843 | 0.003146866 | 0.423992984 |
| Automatico   | 1.240851358     | 0.082524632 | 0.960682868 | 0.272355421 | 0.266662013 | 0.00428147  | 0.425589533 |
| Automatico   |                 |             |             |             |             |             |             |
| con          | 0               | 0.325270201 | 2.352835611 | 0.263715046 | 0.575191109 | 0.007010513 | 0.750690058 |
| Partitioning |                 |             |             |             |             |             |             |

Table 56: Vivado Loop Unrolling Factor=2 Solution Dynamic Power Report [mW]

Infatti, è possibile riscontrare un aumento della potenza dinamica totale e dell'energia per singola operazione in corrispondenza dell'architettura basata su unrolling e partitioning. Invece, per quanto riguarda le altre due solution (unrolling manuale e automatico), entrambi i parametri appena citati risultano essere i medesimi.

| Solution         | Dynamic Total |
|------------------|---------------|
| Manuale          | 3.203573127   |
| Automatico       | 3.252947294   |
| Automatico       | 4.274712538   |
| con Partitioning |               |

Table 57: Vivado Loop Unrolling Factor=2 Solution Dynamic Power Report [mW]

| Solution         | Energy Single Operation |
|------------------|-------------------------|
| Manuale          | 32.03573127             |
| Automatico       | 32.52947294             |
| Automatico       | 42.74712538             |
| con Partitioning |                         |

Table 58: Vivado Loop Unrolling Factor=2 Solution Energy Single Operation Report [pJ]

Analizzando graficamente queste tre soluzioni e in aggiunta anche l'implementazione basata sulla scissione del loop, è possibile notare come quella basasta su loop fission presenta un medesimo valore di potenza dinamica totale ed energia per singola operazione rispetto alle due soluzioni di unrolling manuale e automatico.



Figure 22: Vivado Loop Unrolling Factor=2 Dynamic Power Plot

Inoltre, si potrebbe analizzare un ulteriore caso di unrolling. In particolare, potrebbe essere effettuato un unrolling manuale del loop di accumulo. Nello specifico, verrà analizzato soltanto il report di sintesi per

effettuare un confronto con la soluzione basata su unrolling manuale del loop di shifting.

```
#include "definitions.h'
  void firConvolutionLoopUnrollingFactor2(samplesType inputFilter, samplesType* outputFilter)
      {
    coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
    static samplesType shiftRegister[SIZE];
    accType accumulator;
    accumulator = 0;
    int i;
    loopShifting: for( i=SIZE-1; i>1; i=i-2 ) {
10
      shiftRegister[i] = shiftRegister[i-1];
      shiftRegister[i-1] = shiftRegister[i-2];
11
13
    if( i==1 ) {
      shiftRegister[1] = shiftRegister[0];
14
15
    shiftRegister[0] = inputFilter;
    loopAccumulator: for( i=SIZE-1; i>=1; i=i-2 ) {
17
      accumulator += shiftRegister[i] * coefficientsFilter[i];
18
      accumulator += shiftRegister[i-1] * coefficientsFilter[i-1];
19
20
    for(; i>=0; --i) {
21
      accumulator += shiftRegister[i] * coefficientsFilter[i];
22
23
24
    *outputFilter = accumulator;
25 }
```

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.510     | 1.25        |

| Late | ency | Interval |     |  |  |
|------|------|----------|-----|--|--|
| min  | max  | min      | max |  |  |
| 33   | 33   | 33       | 33  |  |  |

Table 59: HLS Loop Unrolling Factor=2 Accumulator Solution Timing Summary (ns)

Table 60: HLS Loop Unrolling Factor=2 Accumulator Solution Latency Summary (clock cycles)

| Loop              | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|-------------------|---------|-----|-------------------|---------------------|--------|------------|
| Name              | min     | max |                   | achieved            | target |            |
| - loopShifting    | 10      | 10  | 2                 | -                   | -      | 5          |
| - loopAccumulator | 20      | 20  | 4                 | -                   | -      | 5          |

Table 61: HLS Loop Unrolling Factor=2 Accumulator Solution Latency Loops Summary

| Name            | ${ m BRAM\_18K}$ | DSP48E | FF     | LUT   |
|-----------------|------------------|--------|--------|-------|
| DSP             | -                | -      | -      | -     |
| Expression      | -                | 6      | 0      | 233   |
| FIFO            | -                | -      | _      | -     |
| Instance        | -                | -      | _      | -     |
| Memory          | 2                | _      | 20     | 2     |
| Multiplexer     | -                | _      | _      | 134   |
| Register        | -                | -      | 240    | -     |
| Total           | 2                | 6      | 260    | 369   |
| Available       | 280              | 220    | 106400 | 53200 |
| Utilization (%) | 0                | 2      | ~0     | ~0    |

Table 62: HLS Loop Unrolling Factor=2 Accumulator Solution Utilization Estimates Summary

In particolare, si può notare come il trip count associato al loopAccumulator risulta essere minore rispetto a quello relativo alla solution basata su unrolling manuale del loopShifting. Inoltre, si può notare che il numero di DSP è aumentato di 4 unità, il numero dei FF è aumentato di circa il 79% e il numero di LUT di circa il 56% dal momento che è stato applicato l'unrolling anche sul loopAccumulator. Ovviamente, anche se l'utilizzazione delle risorse è aumentata, si può evidenziare come la latenza associata sia notevolmente diminuita.

## 5.5.2 Loop Unrolling Factor=4

```
#include "definitions.h"
void firConvolutionLoopUnrollingFactor4(samplesType inputFilter, samplesType* outputFilter)
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
5
      accType accumulator;
      accumulator = 0;
      int i;
      loopShifting: for( i=SIZE-1; i>1; i=i-4 ) {
q
          shiftRegister[i] = shiftRegister[i-1];
10
          shiftRegister[i-1] = shiftRegister[i-2];
11
          shiftRegister[i-2] = shiftRegister[i-3];
12
13
          shiftRegister[i-3] = shiftRegister[i-4];
14
15
      if( i==1 ) {
          shiftRegister[1] = shiftRegister[0];
16
17
      shiftRegister[0] = inputFilter;
18
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
19
           accumulator += shiftRegister[i] * coefficientsFilter[i];
20
21
      *outputFilter = accumulator;
22
23 }
#include "definitions.h"
void firConvolutionLoopUnrollingFactor4Pragma(samplesType inputFilter, samplesType*
      outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
5
      accType accumulator;
6
      accumulator = 0;
      int i;
      loopShifting: for( i=SIZE-1; i>0; --i ) {
9
10
          #pragma HLS unroll factor=4
          shiftRegister[i] = shiftRegister[i-1];
11
12
      shiftRegister[0] = inputFilter;
13
      accumulator = 0;
14
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
15
          accumulator += shiftRegister[i] * coefficientsFilter[i];
16
17
18
      *outputFilter = accumulator;
19 }
#include "definitions.h"
  void firConvolutionLoopUnrollingFactor4PP(samplesType inputFilter, samplesType* outputFilter
      ) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
6
      accumulator = 0;
      int i:
      loopShifting: for( i=SIZE-1; i>0; --i ) {
9
10
          \verb|#pragma| HLS array_partition variable=shiftRegister complete|
          #pragma HLS unroll factor=4
11
          shiftRegister[i] = shiftRegister[i-1];
12
      }
13
14
      shiftRegister[0] = inputFilter;
      accumulator = 0;
15
      loopAccumulator: for( i=SIZE-1; i>=0; --i ) {
16
          accumulator += shiftRegister[i] * coefficientsFilter[i];
17
18
      *outputFilter = accumulator;
```

| Solution                    | Clock  | Target | Estimated | Uncertainty |
|-----------------------------|--------|--------|-----------|-------------|
| Manuale                     | ap_clk | 10.00  | 8.510     | 1.25        |
| Automatico                  | ap_clk | 10.00  | 8.510     | 1.25        |
| Automatico con Partitioning | ap_clk | 10.00  | 8.510     | 1.25        |

Table 63: HLS Loop Unrolling Factor=4 Solution Timing Summary (ns)

| Solution                    | Latency |     | Interval |     |
|-----------------------------|---------|-----|----------|-----|
|                             | min     | max | min      | max |
| Manuale                     | 58      | 58  | 58       | 58  |
| Automatico                  | 62      | 66  | 62       | 66  |
| Automatico con Partitioning | 62      | 64  | 62       | 64  |

Table 64: HLS Loop Unrolling Factor=4 Solution Latency Summary (clock cycles)

| Solution         | Loop Name         | Latency              |     | Latency |          | Iteration Latency | Initiation | n Interval | Trip |
|------------------|-------------------|----------------------|-----|---------|----------|-------------------|------------|------------|------|
|                  |                   | min                  | max |         | achieved | target            | Count      |            |      |
| Manuale          | - loopShifting    | - loopShifting 12 12 |     | 4       | -        | -                 | 3          |            |      |
|                  | - loopAccumulator | 44                   | 44  | 4       | _        | -                 | 11         |            |      |
| Automatico       | - loopShifting    | 15                   | 18  | 5       | -        | -                 | 3          |            |      |
|                  | - loopAccumulator | 44                   | 44  | 4       | _        | -                 | 11         |            |      |
| Automatico       | - loopShifting    | 15                   | 17  | 5       | -        | -                 | 3          |            |      |
| con Partitioning | - loopAccumulator | 44                   | 44  | 4       | _        | -                 | 11         |            |      |

Table 65: HLS Loop Unrolling Factor=4 Solution Latency Loops Summary

In questo caso si può notare come il trip count sia, ovviamente, il medesimo per tutte e tre le soluzioni. Ciò che cambia effettivamente, come nel caso del fattore pari a 2, è la latency associata ai loop. In particolare, analizzando più nel dettaglio, tramite l'interfaccia Analysis, si può evidenziare come il loopShifting, in cui viene implementato un parallelismo pari a 4, viene gestito in maniera differente. Infatti, nel caso del loop unrolling manuale, vengono effettuate in parallelo due read alla volta e poi successivamente vengono eseguite in parallelo due write alla volta. Invece, nel caso della soluzione hardware basata su unrolling automatico, vengono effettuate una read e una write in parallelo per ogni ciclo di latenza. Nello specifico, considerando quattro shifting per ogni iterazione, viene effettuata la read al primo ciclo di latenza e, successivamente, viene eseguita la write corrispondente in parallelo alla read relativo al secondo shifting e così via. Di conseguenza, si avranno cinque colpi di latenza per ogni iterazione come riportato dal valore di iteration latency del report di sintesi.



Figure 23: HLS Loop Unrolling Manual Factor=4 Analysis



Figure 24: HLS Loop Unrolling Automatic Factor=4 Analysis

Analogamente a quanto è stato analizzato e descritto nel caso di parallelismo di fattore pari a 2, anche in questo caso si può notare come l'utilizzazione delle risorse sia quasi la medesima tra il loop unrolling manuale e automatico. Invece, per quanto riguarda il loop unrolling automatico con partitioning, si ha un notevole aumento dell'utilizzazione sia di FF sia di LUT.

| Solution                    | BRAM_18K | DSP48E | $\mathbf{FF}$ | LUT |
|-----------------------------|----------|--------|---------------|-----|
| Manuale                     | 2        | 2      | 221           | 318 |
| Automatico                  | 2        | 2      | 194           | 367 |
| Automatico con Partitioning | 0        | 2      | 928           | 748 |

Table 66: HLS Loop Unrolling Factor=4 Solution Utilization Estimates [#]

Qui di seguito vengono riportati i report relativi alla C/RTL Cosimulation, dove è possibile analizzare il numero di cicli di clock che servono per ottenere un risultato in uscita, e quello relativo a Export RTL.

| Solution                    | RTL  | Status | Latency |     | Interval |     | al  |     |
|-----------------------------|------|--------|---------|-----|----------|-----|-----|-----|
|                             |      |        | $\min$  | avg | max      | min | avg | max |
| Manuale                     | VHDL | Pass   | 58      | 58  | 59       | 58  | 58  | 59  |
| Automatico                  | VHDL | Pass   | 60      | 60  | 61       | 60  | 60  | 61  |
| Automatico con Partitioning | VHDL | Pass   | 58      | 58  | 59       | 58  | 58  | 59  |

Table 67: HLS Loop Unrolling Factor=4 Solution C/RTL Cosimulation Report

| Solution         | SLICE | LUT  | FF  | DSP | BRAM | CP       | CP        | CP             |
|------------------|-------|------|-----|-----|------|----------|-----------|----------------|
|                  |       |      |     |     |      | required | achieved  | achieved       |
|                  |       |      |     |     |      |          | post-     | post-          |
|                  |       |      |     |     |      |          | synthesis | implementation |
| Manuale          | 46    | 160  | 147 | 2   | 2    | 10       | 5.745     | 5.692          |
| Automatico       | 40    | 145  | 93  | 2   | 2    | 10       | 5.745     | 5.692          |
| Automatico       | 412   | 1145 | 864 | 2   | 0    | 10       | 5.745     | 7.109          |
| con Partitioning |       |      |     |     |      |          |           |                |

Table 68: HLS Loop Unrolling Factor=4 Solution Export RTL Report

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

```
create_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get_ports ap_clk]
```

Analogamente all'unrolling di fattore pari a 2, anche in questo caso in corrispondenza della soluzione hardware basata su unrolling e partizionamento si ha un notevole aumento di utilizzazione delle risorse. Inoltre, si può notare come il numero di FF utilizzati per la solution di unrolling automatico risulta essere circa il 37% in meno rispetto a quella basata su unrolling manuale. Evidentemente il tool, tramite la direttiva proprietaria, è riuscito ad effettuare delle ottimizzazione tali da garantire una diminuzione dei Flip Flop.

| Solution         | LUT  | LUTRAM | $\mathbf{FF}$ | BRAM | DSP | IO | BUFG |
|------------------|------|--------|---------------|------|-----|----|------|
| Manuale          | 159  | 0      | 147           | 1    | 2   | 71 | 1    |
| Automatico       | 145  | 0      | 93            | 1    | 2   | 71 | 1    |
| Automatico       | 1145 | 0      | 864           | 0    | 2   | 71 | 1    |
| con Partitioning |      |        |               |      |     |    |      |

Table 69: Vivado Loop Unrolling Factor=4 Solution Utilization Report [#]

Effettuando un confronto grafico e tenendo conto dei dati precedentemente ottenuti per la soluzione basata su scissione del loop, si può notare come l'utilizzazione delle risorse sia pressocché la medesima tra loop fission e loop unrolling automatico.



Figure 25: Vivado Loop Unrolling Factor=4 Utilization Plot

Per quanto riguarda il report di timing, è possibile notare, analogamente a quanto successo per l'unrolling di fattore pari a 2, una diminuzione della maximum clock frequency in corrispondenza della soluzione basata su loop unrolling automatico con partizionamento.

| Solution         | Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock   |
|------------------|------------|-----------------------|----------|-----------------|
|                  |            |                       |          | Frequency [MHz] |
| Manuale          | 59         | 10                    | 4.257    | 174.1250218     |
| Automatico       | 61         | 10                    | 4.33     | 176.366843      |
| Automatico       | 59         | 10                    | 3.097    | 144.8645516     |
| con Partitioning |            |                       |          |                 |

Table 70: Vivado Loop Unrolling Factor=4 Solution Timing Report

Per quanto riguarda, invece, il numero di cicli di clock per garantire un risultato in uscita, in questo caso, per le tre soluzioni basate su unrolling di fattore pari a 4, si è ottenuto un valore minore rispetto alla soluzione basata su scissione del loop.



Figure 26: Vivado Loop Unrolling Factor=4 Timing Plot

Analogamente all'unrolling di fattore pari a 2, anche in questo caso in corrispondenza della soluzione hardware basata su unrolling e partizionamento si ha un notevole aumento del contributo di potenza dinamica relativo al *Clocks* comportando un aumento della potenza dinamica totale.

| Solution     | $\mathbf{BRAM}$ | Clock       | Clocks      | DSP         | Logic       | Set/        | Data        |
|--------------|-----------------|-------------|-------------|-------------|-------------|-------------|-------------|
|              |                 | Enable      |             |             |             | Reset       |             |
| Manuale      | 1.32976193      | 0.382625905 | 0.253616716 | 0.921033497 | 0.543549308 | 0.010887122 | 0.585376518 |
| Automatico   | 1.23103871      | 0.106978332 | 0.972227077 | 0.247065967 | 0.258892891 | 0.002585625 | 0.41881192  |
| Automatico   |                 |             |             |             |             |             |             |
| con          | 0               | 0.328624592 | 2.560390625 | 0.298048515 | 1.146363211 | 0.0030065   | 1.324957004 |
| Partitioning |                 |             |             |             |             |             |             |

Table 71: Vivado Loop Unrolling Factor=4 Solution Dynamic Power Report [mW]

| Solution         | Dynamic Total |
|------------------|---------------|
| Manuale          | 4.026850996   |
| Automatico       | 3.237600523   |
| Automatico       | 5.661390447   |
| con Partitioning |               |

Table 72: Vivado Loop Unrolling Factor=4 Solution Dynamic Power Report [mW]

| Solution         | Energy Single Operation |
|------------------|-------------------------|
| Manuale          | 40.26850996             |
| Automatico       | 32.37600523             |
| Automatico       | 56.61390447             |
| con Partitioning |                         |

Table 73: Vivado Loop Unrolling Factor=4 Solution Energy Single Operation Report [pJ]

Bisogna notare un aspetto molto interessante. La potenza dinamica totale e l'energia per singola operazione associata alla soluzione hardware basata su loop unrolling automatico di fattore pari a 4 risultano essere pressocché le medesime di quelle relative all'unrolling automatico di fattore pari a 2. Questo potrebbe essere dovuto a ottimizzazione effettuate dal tool tramite la direttiva proprietaria dell'unrolling.

Inoltre, si potrebbe analizzare un ulteriore caso di unrolling. In particolare, potrebbe essere effettuato un unrolling manuale del loop di accumulo. Nello specifico, verrà analizzato soltanto il report di sintesi per effettuare un confronto con la soluzione basata su unrolling manuale del loop di shifting.

```
#include "definitions.h"
  void firConvolutionLoopUnrollingFactor4(samplesType inputFilter, samplesType* outputFilter)
      {
    coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
    static samplesType shiftRegister[SIZE];
    accType accumulator;
    accumulator = 0;
    int i;
    loopShifting: for( i=SIZE-1; i>1; i=i-4 ) {
9
10
      shiftRegister[i] = shiftRegister[i-1];
11
      shiftRegister[i-1] = shiftRegister[i-2];
      shiftRegister[i-2] = shiftRegister[i-3];
      shiftRegister[i-3] = shiftRegister[i-4];
13
    }
14
    if( i==1 ) {
15
      shiftRegister[1] = shiftRegister[0];
16
17
    shiftRegister[0] = inputFilter;
18
    loopAccumulator: for( i=SIZE-1; i>=3; i=i-4 ) {
19
      accumulator += shiftRegister[i] * coefficientsFilter[i];
20
      accumulator += shiftRegister[i-1] * coefficientsFilter[i-1];
21
      accumulator += shiftRegister[i-2] * coefficientsFilter[i-2];
22
      accumulator += shiftRegister[i-3] * coefficientsFilter[i-3];
23
24
    for(; i>=0; --i) {
      accumulator += shiftRegister[i] * coefficientsFilter[i];
26
27
    *outputFilter = accumulator;
28
29 }
```

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.510     | 1.25        |

| Late   | ency | Interval |     |  |
|--------|------|----------|-----|--|
| $\min$ | max  | min      | max |  |
| 37     | 37   | 37       | 37  |  |

Table 74: HLS Loop Unrolling Factor=4 Accumulator Solution Timing Summary (ns)

Table 75: HLS Loop Unrolling Factor=4 Accumulator Solution Latency Summary (clock cycles)

| Loop              | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|-------------------|---------|-----|-------------------|---------------------|--------|------------|
| Name              | min     | max |                   | achieved            | target |            |
| - loopShifting    | 12      | 12  | 4                 | -                   | -      | 3          |
| - loopAccumulator | 10      | 10  | 5                 | -                   | -      | 2          |
| - Loop3           | 10      | 10  | 5                 | -                   | -      | 2          |

Table 76: HLS Loop Unrolling Factor=4 Accumulator Solution Latency Loops Summary

| Name            | BRAM_18K | DSP48E | FF     | LUT   |
|-----------------|----------|--------|--------|-------|
| DSP             | -        | -      | -      | -     |
| Expression      | -        | 10     | 0      | 423   |
| FIFO            | -        | -      | _      | -     |
| Instance        | -        | -      | _      | -     |
| Memory          | 2        | _      | 20     | 2     |
| Multiplexer     | -        | _      | _      | 258   |
| Register        | -        | -      | 422    | -     |
| Total           | 2        | 10     | 442    | 683   |
| Available       | 280      | 220    | 106400 | 53200 |
| Utilization (%) | 0        | 4      | ~0     | 1     |

Table 77: HLS Loop Unrolling Factor=4 Accumulator Solution Utilization Estimates Summary

In particolare, si può notare come il trip count associato al loop Accumulator risulta essere minore rispetto a quello relativo alla solution basata su un rolling manuale del loop Shifting. Inoltre, si può notare che il numero di DSP è aumentato di 8 unità, il numero dei FF è aumentato del 100% e il numero di LUT di circa il 115% dal momento che è stato applicato l'un rolling anche sul loop Accumulator. Ovviamente, anche se l'utilizzazione delle risorse è aumentata, si può evidenziare come la latenza associata sia note volmente diminuita.

## 5.6 Loop Pipelining Solution

Il pipelining consente di eseguire operazioni in modo simultaneo: ogni fase di esecuzione non deve completare tutte le operazioni prima di iniziare quella successiva. Pertanto, questo approccio permette di scindere le operazioni complesse in più operazioni semplici. In questo modo si può far lavorare l'architettura con dati temporalmente differenti. Ad esempio, tenendo conto della figura sotto allegata, questa funzione senza pipeline dovrebbe eseguire tutte le iterazioni previste in maniera sequenziale e, quindi, eseguendo read, compute, write, read, compute, write e così via. Considerando, invece, un approccio mediante pipeline, quello che succede è che alla prima iterazione viene eseguita la prima micro-operazione, alla seconda iterazione viene eseguita la seconda micro-operazione e in contemporanea si può eseguire la prima micro-operazione che nel caso precedente senza pipeline era prevista per il quarto ciclo di clock. L'idea è quella di far lavorare l'architettura sfruttando la scissione della logica complessa in più micro-operazioni.



Figure 27: HLS Loop Pipelining

In particolare, è possibile evidenziare due parametri fondamentali per questa tipologia di approccio:

- Iteration Latency (IL)

  Numero di cicli che servono per eseguire un'iterazione del corpo del ciclo.
- Initiation Interval (II) := Throughput

  Numero di cicli di clock fino alla prossima iterazione del loop.

Idealmente, ci si aspetta un throughput pari a 1 perchè corrisponderebbe al caso migliore per il pipelining. Ovviamente non sempre è possibile ottenere un throughput pari a 1 ma in questo caso l'obiettivo è quello di ottenerlo.

Il pipelining in HLS è possibile implementarlo mediante una direttiva proprietaria che permette, inoltre, di specificare l'Initiation Interval desiderato. Tanto è vero che all'interno del report di sintesi viene specificato l'II target, cioè quello specificato nella direttiva, e l'II raggiunto dal tool. Teoricamente, si dovrebbe ottenere II\_target=II\_achieved. Se così non fosse allora il tool non è riuscito a raggiungere l'obiettivo prefissato. Pertanto, si potrebbe modificare il codice per vedere se effettivamente il problema può essere risolto nella seguente maniera.

```
#include "definitions.h"
  void firConvolutionLoopPipelining(samplesType inputFilter, samplesType* outputFilter) {
      coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
      static samplesType shiftRegister[SIZE];
      accType accumulator;
      accumulator = 0;
      int i;
      loop: for( i=SIZE-1; i>=0; --i ) {
          #pragma HLS pipeline II=1
          #pragma HLS array_partition variable=shiftRegister complete
           if( i==0 ) {
               accumulator += inputFilter * coefficientsFilter[0];
               shiftRegister[0] = inputFilter;
14
          } else {
               shiftRegister[i] = shiftRegister[i-1];
16
               accumulator += shiftRegister[i] * coefficientsFilter[i];
17
18
19
      *outputFilter = accumulator;
20
21
```

In questo caso, la soluzione hardware presa come riferimento è stata quella iniziale non ottimizzata. In particolare, all'interno del loop è stata definita sia la direttiva di pipeline, specificando un II=1, sia la direttiva di partizionamento. Nello specifico, è stato considerato il pragma di partitioning al fine di realizzabilità della soluzione in questione. Questo è dovuto al fatto che, senza considerare tale direttiva, si otterrebbe un II\_achieved differente da un II\_target. Infatti, utilizzare lo shift register vuol dire non poter accedere ai dati intermedi ma soltanto a quelli finali. Pertanto, per far fronte a questo problema si potrebbe pensare di realizzare tali shift register mediante Flip Flop (tramite la direttiva di partizionamento). Effettuando la sintesi si ottengono i seguenti report.

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.510     | 1.25        |

| Late      | ency | Inte      | erval |
|-----------|------|-----------|-------|
| min   max |      | min   max |       |
| 15 15     |      | 15        | 15    |

Table 78: HLS Loop Pipelining Solution Timing Summary (ns)

Table 79: HLS Loop Pipelining Solution Latency Summary (clock cycles)

Si può notare come la latenza totale del loop sia notevolmente diminuita rispetto alla soluzione iniziale non ottimizzata. Inoltre, si può evidenziare come l'Initiation Interval raggiunto sia il medesimo di quello target, cioè pari a 1. Questo è stato possibile per i motivi precedentemente citati.

In particolare, considerando il valore di Iteration Latency, il valore del Trip Count e il valore di Initiation Interval, è possibile ricavare il valore della latenza relativa al loop:

$$IL + [(N-1)*II] - 1 = 4 + [(11-1)*1] - 1 = 4 + [10*1] - 1 = 4 + 10 - 1 = 13$$
 (7)

| Loop   | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|--------|---------|-----|-------------------|---------------------|--------|------------|
| Name   | min     | max |                   | achieved            | target |            |
| - loop | 13      | 13  | 4                 | 1                   | 1      | 11         |

Table 80: HLS Loop Pipelining Solution Latency Loops Summary

Per quanto riguarda l'utilizzazione stimata delle risorse, si può notare come il numero di FF sia aumentato rispetto alla soluzione non ottimizzata dal momento che è stato utilizzato il pragma di partizionamento.

| Name            | ${ m BRAM\_18K}$ | DSP48E | FF     | LUT   |
|-----------------|------------------|--------|--------|-------|
| DSP             | -                | -      | -      | -     |
| Expression      | -                | 4      | 0      | 480   |
| FIFO            | -                | -      | -      | -     |
| Instance        | -                | -      | _      | -     |
| Memory          | 0                | _      | 10     | 2     |
| Multiplexer     | -                | _      | _      | 75    |
| Register        | -                | -      | 700    | 64    |
| Total           | 0                | 4      | 710    | 621   |
| Available       | 280              | 220    | 106400 | 53200 |
| Utilization (%) | 0                | 1      | ~0     | 1     |

Table 81: HLS Loop Pipelining Solution Utilization Estimates Summary

In particolare, si può notare come la direttiva proprietaria di partitioning ha partizionato shiftRegister in 10 strutture da 32 FF ciascuna.

| Name                              | FF  | LUT | Bits | Const Bits |
|-----------------------------------|-----|-----|------|------------|
| accumulator_reg_114               | 32  | 0   | 32   | 0          |
| ap_CS_fsm                         | 3   | 0   | 3    | 0          |
| ap_enable_reg_pp0_iter0           | 1   | 0   | 1    | 0          |
| ap_enable_reg_pp0_iter1           | 1   | 0   | 1    | 0          |
| ap_enable_reg_pp0_iter2           | 1   | 0   | 1    | 0          |
| ap_enable_reg_pp0_iter3           | 1   | 0   | 1    | 0          |
| ap_phi_reg_pp0_iter1_p_pn_reg_138 | 32  | 0   | 32   | 0          |
| ap_phi_reg_pp0_iter2_p_pn_reg_138 | 32  | 0   | 32   | 0          |
| ap_phi_reg_pp0_iter3_p_pn_reg_138 | 32  | 0   | 32   | 0          |
| coefficientsFilter1_1_reg_458     | 10  | 0   | 10   | 0          |
| i_reg_127                         | 5   | 0   | 5    | 0          |
| shiftRegister_0                   | 32  | 0   | 32   | 0          |
| shiftRegister_1                   | 32  | 0   | 32   | 0          |
| shiftRegister_2                   | 32  | 0   | 32   | 0          |
| shiftRegister_3                   | 32  | 0   | 32   | 0          |
| shiftRegister_4                   | 32  | 0   | 32   | 0          |
| shiftRegister_5                   | 32  | 0   | 32   | 0          |
| shiftRegister_6                   | 32  | 0   | 32   | 0          |
| shiftRegister_7                   | 32  | 0   | 32   | 0          |
| shiftRegister_8                   | 32  | 0   | 32   | 0          |
| shiftRegister_9                   | 32  | 0   | 32   | 0          |
| shiftRegister_load_p_reg_453      | 32  | 0   | 32   | 0          |
| $tmp_1reg_426$                    | 1   | 0   | 1    | 0          |
| tmp_2_reg_417                     | 32  | 0   | 32   | 0          |
| $tmp_4reg_430$                    | 4   | 0   | 4    | 0          |
| $tmp_6_reg_463$                   | 32  | 0   | 32   | 0          |
| $tmp\_reg\_422$                   | 1   | 0   | 1    | 0          |
| $tmp_1reg_426$                    | 64  | 32  | 1    | 0          |
| $tmp\_reg\_422$                   | 64  | 32  | 1    | 0          |
| Total                             | 700 | 64  | 574  | 0          |

Table 82: HLS Loop Pipelining Solution Register Detail Estimates Summary

Effettuando la C/RTL Cosimulation ed Export RTL si ottengono i seguenti report.

| RTL  | Status | Latency |     |     | I   | nterv | al  |
|------|--------|---------|-----|-----|-----|-------|-----|
|      |        | min     | avg | max | min | avg   | max |
| VHDL | Pass   | 15      | 15  | 16  | 15  | 15    | 16  |

Table 83: HLS Loop Pipelining Solution C/RTL Cosimulation Summary

| Resource | VHDL |
|----------|------|
| SLICE    | 204  |
| LUT      | 311  |
| FF       | 455  |
| DSP      | 2    |
| BRAM     | 0    |
| SRL      | 0    |

| Timing                          | VHDL   |
|---------------------------------|--------|
| CP required                     | 10.000 |
| CP achieved post-synthesis      | 5.745  |
| CP achieved post-implementation | 6.512  |

Table 84: HLS Loop Pipelining Solution Export RTL Resource Usage

Table 85: HLS Loop Pipelining Solution Export RTL Final Timing

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

```
create_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get_ports ap_clk]
```

Si può notare come, rispetto alla soluzione iniziale non ottimizzata, si è ottenuto un aumento di circa il 13% delle LUT e un aumento di circa il 186% dei FF.

| LUT | LUTRAM | FF  | BRAM | DSP | Ю  | BUFG |
|-----|--------|-----|------|-----|----|------|
| 311 | 0      | 458 | 0    | 2   | 71 | 1    |

Table 86: Vivado Loop Pipelining Solution Utilization Report [#]

Inoltre, si può evidenziare come la maximum clock frequency sia aumentata di circa 15MHz rispetto alla soluzione non ottimizzata di riferimento. Tanto è vero che il WNS, relativo alla soluzione realizzata mediante approccio di pipelining, risulta essere leggermente maggiore.

| $\mathbf{Cycles}\ [\#]$ | Clock Constraint [ns] | $\mathbf{WNS}$ [ns] | Maximum Clock Frequency [Mhz] |
|-------------------------|-----------------------|---------------------|-------------------------------|
| 16                      | 10                    | 4.208               | 172.6519337                   |

Table 87: Vivado Loop Pipelining Solution Timing Report

In particolare, si può notare come, rispetto alla soluzione hardware iniziale non ottimizzata, i contributi di potenza dinamica sono aumentati tale da far aumentare l'energia per singola operazione. Nello specifico, si ha un aumento del contributo *Clocks* di circa il 46% dovuto principalmente all'aumento delle risorse associato alla solution in questione.

| BRAM | Clock Enable | Clocks      | DSP         | Logic       | Set/Reset [mW] | Data        |
|------|--------------|-------------|-------------|-------------|----------------|-------------|
| 0    | 0.196236724  | 1.778833685 | 0.814738101 | 1.275097136 | 0.012051522    | 1.206569896 |

Table 88: Vivado Loop Pipelining Solution Dynamic Power Report [mW]

| Dynamic Total |
|---------------|
| 5.283527065   |

| Energy S | Single  | Operation |
|----------|---------|-----------|
| 52       | 2.83527 | 7065      |

Table 89: Vivado Loop Pipelining Solution Dynamic Power Report [mW]

Table 90: Vivado Loop Pipelining Solution Energy Single Operation Report [pJ]

## 5.7 Bitwidth Optimization Solution

In questa sezione verrà discussa il possibile sovradimensionamento riguardo i tipi di dato relativi alle variabili utilizzate nelle varie architetture proposte. Effettivamente, nelle soluzioni hardware precedentemente citate, è stato principalmente utilizzato il tipo di dato int anche in casi in cui bastava utilizzare un numero di bit notevolmente minore. Quello che si potrebbe fare è utilizzare tipi di dato aventi un numero di bit inferiore come, ad esempio, char o short. In alcuni casi, potrebbe accadere che il numero di bit richiesto è ulteriormente inferiore a questi tipi di dato disponibili negli ambienti C-like. A tale proposito, nel contesto dei linguaggi ad alto livello C e C++, è disponibile una libreria, ap\_int.h che permette di modellare il tipo di dato int scegliendo opportunamente il numero di bit da riservare per una determinata variabile. Pertanto, si potrebbe implementare una Bitwidth Optimization Solution dove venga efficientemente allocato un numero di bit per le variabili al fine di ridurre l'utilizzazione delle risorse corrispondente. Ovviamente, utilizzare un numero ben preciso di bit per ogni variabile, vuol dire avere una soluzione custom per un certo range di bit e, nel caso in cui si debba utilizzare, ad esempio, un input che non sia incluso nel range di bit previsto, si dovrebbe, pertanto, implementare una nuova architettura con un numero di bit differente per le variabili corrispondenti. Ovviamente, in generale, si è considerato un numero di bit maggiorato di un'unità, dal momento che ap\_int.h è una libreria che prevede un tipo di dato con segno.

```
#include "definitions.h"
  #include "ap_int.h"
  void firConvolutionBitwidthOptimization(ap_int<8> inputFilter, ap_int<18+SIZE>* outputFilter
    ap_int<10> coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
    static ap_int <8> shiftRegister[SIZE];
    ap_int <18+SIZE > accumulator;
    accumulator = 0;
    ap int <5> i:
    loop: for( i=SIZE-1; i>0; --i ) {
      shiftRegister[i] = shiftRegister[i-1];
      accumulator += shiftRegister[i] * coefficientsFilter[i];
12
13
    accumulator += inputFilter * coefficientsFilter[0];
14
    shiftRegister[0] = inputFilter;
15
    *outputFilter = accumulator;
17 }
```

In particolare, la soluzione hardware proposta prevede un input ad 8 bit ed un output corrispondente a 18 + SIZE = 18 + 11 = 29 bit. La scelta del numero di bit relativi all'*inputFilter* è arbitrario. Ovviamente, al variare di tale valore, il numero di bit previsto per le variabili interne cambierà di conseguenza.

Per quanto riguarda, invece, il numero di bit previsto per gli elementi presenti in coefficientsFilter, sono stati considerati il valore massimo e minimo previsti all'interno dell'array. Riguardo l'array shiftRegister, la bitwidth scelta è la medesima dell'input dal mommento che tale struttura dati viene utilizzata soltanto per lo shifting dei valori in ingresso all'architettura. Viceversa, la variabile accumulator prevede un numero di bit uguale a quello dell'uscita del metodo. Infatti, tale variabile prevede, per ogni iterazione all'interno del ciclo for, una moltiplicazione e una somma. In particolare, la moltiplicazione richiede un numero di bit fisso, cioè 8+10 bit, mentre la somma, che viene effettuata sempre sulla medesima variabile in questione, richiede un numero di bit sempre maggiore per ogni iterazione. Quindi, tenendo conto che le iterazioni sono pari a SIZE=11, allora il numero di bit previsto per la variabile accumulator è pari a 8+10+SIZE=8+10+11=29. Infine, per quanto riguarda il numero di bit associato alla variabile indice i è relazionato al numero di iterazioni da effettuare che sono pari a SIZE=11.

In particolare, l'architettura di riferimento utilizzata è basata sulla Code Hoisting Solution. Pertanto, considerando i risultati ottenuti in corrispondenza della soluzione hardware citata ed effettuando la sintesi, la C/RTL Cosimulation e l'Export RTL della Bitwidth Optimization Solution, è possibile effettuare i seguenti confronti.

Si può notare come, dopo aver effettuato la sintesi, il numero di risorse, rispetto alla soluzione basata su Code Hoisting, presenti una diminuzione di circa il 65% dei FF e di circa il 55% delle LUT. Il numero dei DSP stimati è diminuito di 2 unità. Inoltre, si può notare come la latenza stimata è diminuita di 10 cicli rispetto alla soluzione presa come riferimento. Ovviamente il Trip Count è il medesimo dal momento

che l'architettura proposta nella Bitwidth Optimization Solution è equivalente a quella proposta nel Code Hoisting Solution.

| Solution      | Clock  | Target | Estimated | Uncertainty |
|---------------|--------|--------|-----------|-------------|
| Code Hoisting | ap_clk | 10.00  | 8.510     | 1.25        |
| Bitwidth Opt. | ap_clk | 10.00  | 6.38      | 1.25        |

Table 91: HLS Bitwidth Optimization Solution Timing Summary (ns)

| Solution      | Late | ency | Interval |     |  |
|---------------|------|------|----------|-----|--|
|               | min  | max  | min      | max |  |
| Code Hoisting | 42   | 42   | 42       | 42  |  |
| Bitwidth Opt. | 31   | 31   | 31       | 31  |  |

Table 92: HLS Bitwidth Optimization Solution Latency Summary (clock cycles)

| Solution      | Loop Name | Latency |     | Iteration Latency | Initiation Interval |        | Trip  |
|---------------|-----------|---------|-----|-------------------|---------------------|--------|-------|
|               |           | $\min$  | max |                   | achieved            | target | Count |
| Code Hoisting | - loop    | 40      | 40  | 4                 | -                   | -      | 10    |
| Bitwidth Opt. | - loop    | 30      | 30  | 3                 | -                   | -      | 10    |

Table 93: HLS Bitwidth Optimization Solution Latency Loops Summary

| Solution      | ${ m BRAM\_18K}$ | DSP48E | $\mathbf{FF}$ | LUT |
|---------------|------------------|--------|---------------|-----|
| Bitwidth Opt. | 0                | 4      | 230           | 240 |
| Code Hoisting | 0                | 2      | 81            | 107 |

Table 94: HLS Bitwidth Optimization Solution Utilization Estimates [#]

| Solution      | RTL  | Status | Latency |     | Interval |        | al  |     |
|---------------|------|--------|---------|-----|----------|--------|-----|-----|
|               |      |        | min     | avg | max      | $\min$ | avg | max |
| Code Hoisting | VHDL | Pass   | 42      | 42  | 43       | 42     | 42  | 43  |
| Bitwidth Opt. | VHDL | Pass   | 31      | 31  | 32       | 31     | 31  | 32  |

Table 95: HLS Bitwidth Optimization Solution C/RTL Cosimulation Report

Analizzando il report dell'Export RTL si può notare come l'utilizzazione delle risorse è notevolmente diminuita. Tanto è vero che il numero delle LUT e dei FF è diminuito di circa l'82%. Questo decremento dell'utilizzazione delle risorse prevista è dovuto al fatto che nella *Bitwidth Optimization Solution* sono stati utilizzati dei tipi di dato con un numero di bit custom per la soluzione in questione.

| Solution      | SLICE | LUT | FF  | DSP | BRAM | CP       | CP        | CP             |
|---------------|-------|-----|-----|-----|------|----------|-----------|----------------|
|               |       |     |     |     |      | required | achieved  | achieved       |
|               |       |     |     |     |      |          | post-     | post-          |
|               |       |     |     |     |      |          | synthesis | implementation |
| Code Hoisting | 75    | 270 | 131 | 2   | 0    | 10       | 5.745     | 6.847          |
| Bitwidth Opt. | 15    | 50  | 24  | 2   | 0    | 10       | 5.745     | 5.692          |

Table 96: HLS Bitwidth Optimization Solution Export RTL Report

## 5.8 AXI4-Stream

In questa sezione verrà discussa una possibile implementazione di una soluzione hardware basata su un approccio non ottimizzato (medesimo a quello iniziale) in cui è stato considerato il protocollo AXI4-Stream. Pertanto, tale solution, come si vedrà in seguito, può essere considerata come un'ottimizzazione dal punto di vista della latenza ma non è da considerare come possibile ottimizzazione dal punto di vista dell'utilizzazione delle risorse e della potenza dinamica rispetto alle precedenti. Anzi potrebbe essere considerata come un esempio di utilizzo dello standard in corrispondenza di una delle solution precedentemente citate. In particolare, come già citato per semplicità si farà riferimento alla *Unoptimized Solution*.

Il protocollo AXI4-Stream è utilizzato come interfaccia standard per collegare componenti che desiderano scambiare dati. L'interfaccia può essere utilizzata per collegare un singolo master, che genera dati, a un singolo slave, che riceve dati. Il protocollo può essere utilizzato anche per collegare un numero maggiore di componenti master e slave. In particolare, con l'interfaccia Stream si garantisce un nuovo dato in input ad ogni colpo di clock. In questo caso specifico, quindi, ci si aspetta che lo standard garantisca 11 dati in input per 11 colpi di clock così da essere processati ed essere messi in uscita.



Figure 28: AXI4-Stream Protocol

Nello specifico, il tipo di pacchetto includerà il segnale corrispondente al dato effettivo e tutti gli altri segnali che servono per lo standard corrispondente.

```
#include "definitions.h"
  void firConvolutionAXI(hls::stream<AXI_TYPE> &inputStreamFilter, hls::stream<AXI_TYPE> &
      outputStreamFilter) {
    #pragma HLS INTERFACE ap_ctrl_none port=return
    #pragma HLS INTERFACE axis port=inputStreamFilter
    #pragma HLS INTERFACE axis port=outputStreamFilter
    AXI_TYPE inFilter, outFilter;
    coeffsType coefficientsFilter[SIZE] = {53, 0, -91, 0, 313, 500, 313, 0, -91, 0, 53};
    static samplesType shiftRegister[SIZE];
    while( inputStreamFilter.read_nb(inFilter) ) {
      #pragma HLS pipeline II=1
      accType accumulator;
13
      accumulator = 0;
      loop: for( int i=SIZE-1; i>=0; i-- ) {
14
        if( i == 0 ) {
          accumulator += inFilter.data*coefficientsFilter[0];
17
           shiftRegister[0] = inFilter.data;
        } else {
18
          shiftRegister[i] = shiftRegister[i-1];
19
          accumulator += shiftRegister[i] * coefficientsFilter[i];
20
```

```
outFilter.data=(accumulator);
23
       outFilter.strb = 15;
24
      outFilter.keep = 15;
25
26
       outFilter.user = 1;
       outFilter.last = inFilter.last;
27
       outFilter.id = 0;
28
       outFilter.dest = 0;
29
       outputStreamFilter.write(outFilter);
30
31
32 }
```

In particolare, inputStreamFilter e outputStreamFilter sono rispettivamente lo stream di ingresso e lo stream di uscita all'architettura.

Per quanto riguarda, invece, le direttive specificate inizialmente, la prima fa riferimento al fatto che il tool non deve sintetizzare i segnali  $ap\_ctrl$  tranne quella relativa a inputStreamFilter e outputStreamFilter e i segnali relativi allo standard, mentre la seconda e la terza rispettivamente fanno riferimento al fatto che inputStreamFilter e outputStreamFilter devono essere mappati secondo lo standard Stream.

Inoltre, si può notare come, all'interno del ciclo while, sia stato specificato un approccio non blocking, cioè in riferimento al fatto che non si sa a priori la quantità di dati entranti nel buffer.

In aggiunta, si evidenzia l'utilizzo della direttiva di pipeline dove viene specificato II=1. Questo pragma è di fondamentale utilizzo per garantire le performance che ci si aspetta dallo standard in questione e, in particolare, un throughput unitario affinché la latenza totale sia la minima possibile. Infatti, come verrà analizzato e spiegato in seguito, in corrispondenza di tale solution si riesce a garantire un numero di cicli di latenza pari alla capacità del filtro corrispondente.

Effettuando la sintesi, la C/RTL Cosimulation e l'Export RTL si ottengono i seguenti report.

| Clock  | Target | Estimated | Uncertainty |
|--------|--------|-----------|-------------|
| ap_clk | 10.00  | 8.742     | 1.25        |

| Late   | ency | Interval |     |  |  |
|--------|------|----------|-----|--|--|
| $\min$ | max  | min      | max |  |  |
| ?      | ?    | ?        | ?   |  |  |

Table 97: HLS AXI Solution Timing Summary (ns)

Table 98: HLS AXI Solution Latency Summary (clock cycles)

Si può notare come la latenza totale e quella relativa al ciclo for presentano un valore pari a ?, cioè un valore di latenza non noto, dovuto al fatto che l'architettura presenta un approccio *non blocking*. Inoltre, dal momento che è stata prevista una direttiva di pipeline, si può notare come sia stato raggiunto un Initiation Interval pari a 1.

| Loop   | Latency |     | Iteration Latency | Initiation Interval |        | Trip Count |
|--------|---------|-----|-------------------|---------------------|--------|------------|
| Name   | min     | max |                   | achieved            | target |            |
| - loop | ?       | ?   | 4                 | 1                   | 1      | ?          |

Table 99: HLS AXI Solution Latency Loops Summary

| Name            | BRAM_18K | DSP48E | $\mathbf{FF}$ | LUT   |
|-----------------|----------|--------|---------------|-------|
| DSP             | -        | -      | -             | -     |
| Expression      | -        | 14     | 0             | 380   |
| FIFO            | -        | -      | _             | -     |
| Instance        | -        | -      | _             | -     |
| Memory          | 0        | _      | _             | -     |
| Multiplexer     | -        | _      | _             | 171   |
| Register        | -        | -      | 767           | 32    |
| Total           | 0        | 14     | 767           | 583   |
| Available       | 280      | 220    | 106400        | 53200 |
| Utilization (%) | 0        | 6      | ~0            | 1     |

Table 100: HLS AXI Solution Utilization Estimates Summary

| RTL  | Status | Latency |     |     | I   | nterva | al  |
|------|--------|---------|-----|-----|-----|--------|-----|
|      |        | min     | avg | max | min | avg    | max |
| VHDL | Pass   | 13      | 13  | 13  | NA  | NA     | NA  |

Table 101: HLS AXI Solution C/RTL Cosimulation Summary

| Resource | VHDL |
|----------|------|
| SLICE    | 231  |
| LUT      | 739  |
| FF       | 699  |
| DSP      | 0    |
| BRAM     | 0    |
| SRL      | 0    |

| Timing                          | VHDL   |
|---------------------------------|--------|
| CP required                     | 10.000 |
| CP achieved post-synthesis      | 7.269  |
| CP achieved post-implementation | 8.202  |

Table 103: HLS AXI Solution Export RTL Final Timing

Table 102: HLS AXI Solution Export RTL Resource Usage

Pertanto, importando l'IP in Vivado e impostando un clock constraint pari a 10ns è possibile analizzare i seguenti report di risorse, timing, potenza dinamica ed energia per singola operazione.

```
1 library IEEE;
use IEEE.STD_LOGIC_1164.ALL;
  entity firConvolutionAXI_top is
    port(
      ap_clk : IN STD_LOGIC;
      ap_rst_n : IN STD_LOGIC;
      inputStreamFilter_TDATA : IN STD_LOGIC_VECTOR (31 downto 0);
      inputStreamFilter_TVALID : IN STD_LOGIC;
      inputStreamFilter_TREADY : OUT STD_LOGIC :
      inputStreamFilter_TKEEP : IN STD_LOGIC_VECTOR (3 downto 0);
11
      inputStreamFilter_TSTRB : IN STD_LOGIC_VECTOR (3 downto 0);
12
      inputStreamFilter_TUSER : IN STD_LOGIC_VECTOR (1 downto 0);
13
      inputStreamFilter_TLAST : IN STD_LOGIC_VECTOR (0 downto 0);
14
      inputStreamFilter_TID : IN STD_LOGIC_VECTOR (4 downto 0);
15
      inputStreamFilter_TDEST : IN STD_LOGIC_VECTOR (5 downto 0);
      outputStreamFilter_TDATA : OUT STD_LOGIC_VECTOR (31 downto 0);
17
      outputStreamFilter_TVALID : OUT STD_LOGIC;
18
19
      outputStreamFilter_TREADY : IN STD_LOGIC;
      outputStreamFilter_TKEEP : OUT STD_LOGIC_VECTOR (3 downto 0);
20
      outputStreamFilter_TSTRB : OUT STD_LOGIC_VECTOR (3 downto 0);
21
      outputStreamFilter_TUSER : OUT STD_LOGIC_VECTOR (1 downto 0);
      outputStreamFilter_TLAST : OUT STD_LOGIC_VECTOR (0 downto 0);
23
      outputStreamFilter_TID : OUT STD_LOGIC_VECTOR (4 downto 0);
```

```
outputStreamFilter_TDEST : OUT STD_LOGIC_VECTOR (5 downto 0)
25
    );
27 end firConvolutionAXI_top;
29 architecture Behavioral of firConvolutionAXI_top is
    component firConvolutionAXI_0 is
30
      port (
31
        ap_clk : IN STD_LOGIC;
32
        ap_rst_n : IN STD_LOGIC;
33
        inputStreamFilter_TDATA : IN STD_LOGIC_VECTOR (31 downto 0);
34
        inputStreamFilter_TVALID : IN STD_LOGIC;
35
        inputStreamFilter_TREADY : OUT STD_LOGIC;
36
        inputStreamFilter_TKEEP : IN STD_LOGIC_VECTOR (3 downto 0);
37
        inputStreamFilter_TSTRB : IN STD_LOGIC_VECTOR (3 downto 0);
38
39
        inputStreamFilter_TUSER : IN STD_LOGIC_VECTOR (1 downto 0);
        inputStreamFilter_TLAST : IN STD_LOGIC_VECTOR (0 downto 0);
40
        inputStreamFilter_TID : IN STD_LOGIC_VECTOR (4 downto 0)
41
        inputStreamFilter_TDEST : IN STD_LOGIC_VECTOR (5 downto 0);
42
        outputStreamFilter_TDATA : OUT STD_LOGIC_VECTOR (31 downto 0);
43
        outputStreamFilter_TVALID : OUT STD_LOGIC;
44
45
        outputStreamFilter_TREADY : IN STD_LOGIC;
        outputStreamFilter_TKEEP : OUT STD_LOGIC_VECTOR (3 downto 0);
46
        outputStreamFilter_TSTRB : OUT STD_LOGIC_VECTOR (3 downto 0);
47
        outputStreamFilter_TUSER : OUT STD_LOGIC_VECTOR (1 downto 0);
48
        outputStreamFilter_TLAST : OUT STD_LOGIC_VECTOR (0 downto 0);
49
        outputStreamFilter_TID : OUT STD_LOGIC_VECTOR (4 downto 0);
50
        outputStreamFilter_TDEST : OUT STD_LOGIC_VECTOR (5 downto 0)
52
53
    end component;
54
55
      firConvolutionAXI_IP : firConvolutionAXI_0 port map(
56
        ap_clk => ap_clk,
57
58
        ap_rst_n => ap_rst_n,
        inputStreamFilter_TDATA => inputStreamFilter_TDATA,
59
        inputStreamFilter_TVALID => inputStreamFilter_TVALID;
60
        inputStreamFilter_TREADY => inputStreamFilter_TREADY,
61
62
        inputStreamFilter_TKEEP => inputStreamFilter_TKEEP
        inputStreamFilter_TSTRB => inputStreamFilter_TSTRB,
63
64
        inputStreamFilter_TUSER => inputStreamFilter_TUSER,
        inputStreamFilter_TLAST => inputStreamFilter_TLAST,
65
        inputStreamFilter_TID => inputStreamFilter_TID,
66
        inputStreamFilter_TDEST => inputStreamFilter_TDEST,
67
        outputStreamFilter_TDATA => outputStreamFilter_TDATA;
68
        outputStreamFilter_TVALID => outputStreamFilter_TVALID
69
        outputStreamFilter_TREADY => outputStreamFilter_TREADY,
70
        outputStreamFilter_TKEEP => outputStreamFilter_TKEEP,
71
        outputStreamFilter_TSTRB => outputStreamFilter_TSTRB,
72
        outputStreamFilter_TUSER => outputStreamFilter_TUSER,
        outputStreamFilter_TLAST => outputStreamFilter_TLAST,
74
        outputStreamFilter_TID => outputStreamFilter_TID,
75
        outputStreamFilter_TDEST => outputStreamFilter_TDEST
76
      );
77
  end Behavioral;
```

create\_clock -period 10.000 -name myclk -waveform {0.000 5.000} [get\_ports ap\_clk]

In particolare, si può effettuare un confronto rispetto alla soluzione iniziale non ottimizzata, considerata come riferimento per questa implementazione, per valutare gli effetti dell'introduzione del protocollo AXI nell'architettura in questione. Si può notare un aumento dell'utilizzazione delle LUT circa pari al 169% e un aumento del numero di FF circa pari al 337%.

| LUT | LUTRAM | FF  | BRAM | DSP | IO | BUFG |
|-----|--------|-----|------|-----|----|------|
| 739 | 0      | 699 | 0    | 0   | 93 | 1    |

Table 104: Vivado AXI Solution Utilization Report [#]

Si può evidenziare come il numero di cicli utile per garantire un risultato in uscita sia pari a 1. Questo vuol dire che ad ogni colpo di clock ogni verrà processato in uscita un risultato parziale. Pertanto, in corrispondenza dell'11esimo colpo di clock si avrà il risultato finale corrispondente come citato precedentemente.

| Cycles [#] | Clock Constraint [ns] | WNS [ns] | Maximum Clock Frequency [Mhz] |
|------------|-----------------------|----------|-------------------------------|
| 1          | 10                    | 1.369    | 115.8614297                   |

Table 105: Vivado AXI Solution Timing Report

Per quanto riguarda la potenza dinamica totale e l'energia per singola operazione, si può notare un aumento rispetto alla soluzione dove non è presente la logica di controllo relativa al protocollo AXI. In particolare, notevoli aumenti si hanno in corrispondenza dei contributi di *Clocks, Logic* e *Data*.

| BRAM | Clock Enable | Clocks      | DSP | Logic       | Set/Reset [mW] | Data       |
|------|--------------|-------------|-----|-------------|----------------|------------|
| 0    | 0.361682673  | 2.409646753 | 0   | 7.963255048 | 0.008282737    | 5.53872576 |

Table 106: Vivado AXI Solution Dynamic Power Report [mW]

| Dynamic Total |  |
|---------------|--|
| 16.28159297   |  |

Table 107: Vivado AXI Solution Dynamic Power Report [mW]

| Energy Single Operation |  |
|-------------------------|--|
| 162.8159297             |  |

Table 108: Vivado AXI Solution Energy Single Operation Report [pJ]

# 6 Conclusions

Si può notare che le soluzioni aventi il minor numero di risorse utilizzate risultano essere la "Loop Unrolling Factor=2 Manual Solution" e la "Loop Unrolling Factor=2 Automatic Solution". In particolare, entrambe presentano, rispetto alla soluzione iniziale non ottimizzata, una diminuzione di circa il 64% in corrispondenza delle LUT e del 55% in corrispondenza dei FF. Inoltre, si può evidenziare un andamento crescente del numero dei FF al diminuire del periodo di clock in corrispondenza delle soluzioni hardware basate sulla tecnica dell'Operation Chaining. Infine, si possono notare i picchi di utilizzazione delle risorse in corrispondenza rispettivamente delle soluzioni hardware "Loop Unrolling Factor=2 Automatic and Partitioning Solution" e "Loop Unrolling Factor=4 Automatic and Partitioning Solution".

| Solution        | LUT  | LUTRAM | FF  | BRAM | DSP | Ю  | BUFG |
|-----------------|------|--------|-----|------|-----|----|------|
| Unopt           | 275  | 32     | 160 | 0    | 2   | 71 | 1    |
| Code Hoist      | 270  | 32     | 134 | 0    | 2   | 71 | 1    |
| Loop Fiss       | 158  | 32     | 106 | 0    | 2   | 71 | 1    |
| Unr2 Man        | 98   | 0      | 72  | 1    | 2   | 71 | 1    |
| Unr2 Auto       | 98   | 0      | 72  | 1    | 2   | 71 | 1    |
| Unr2 Auto Part. | 413  | 0      | 843 | 0    | 2   | 71 | 1    |
| Unr4 Man        | 159  | 0      | 147 | 1    | 2   | 71 | 1    |
| Unr4 Auto       | 145  | 0      | 93  | 1    | 2   | 71 | 1    |
| Unr4 Auto Part  | 1145 | 0      | 864 | 0    | 2   | 71 | 1    |
| Op Chain 10ns   | 275  | 32     | 160 | 0    | 2   | 71 | 1    |
| Op Chain 9ns    | 276  | 32     | 226 | 0    | 2   | 71 | 1    |
| Op Chain 8ns    | 276  | 32     | 226 | 0    | 2   | 71 | 1    |
| Op Chain 7ns    | 186  | 32     | 222 | 0    | 4   | 71 | 1    |
| Op Chain 6ns    | 186  | 32     | 241 | 0    | 4   | 71 | 1    |
| Op Chain 5ns    | 186  | 32     | 258 | 0    | 4   | 71 | 1    |
| Op Chain 4ns    | 188  | 32     | 376 | 0    | 4   | 71 | 1    |
| Loop Pipe       | 311  | 0      | 458 | 0    | 2   | 71 | 1    |
| AXI             | 739  | 0      | 699 | 0    | 0   | 93 | 1    |

Table 109: Vivado Solutions Utilization Report [#]



Figure 29: Vivado Solutions Utilization Plot

Per quanto riguarda la potenza dinamica totale e l'energia per singola operazione, i valori minori si hanno in corrispondenza delle soluzioni hardware basate sul loop unrolling di fattore pari a 2 manuale e automatico e di fattore pari a 4 automatico. Inoltre, si può evidenziare un andamento crescente al diminuire del periodo di clock in corrispondenza delle soluzioni hardware basate sulla tecnica dell'Operation Chaining. Infine, si può notare come i massimi valori si hanno in corrispondenza della soluzione AXI poiché, come precedentemente citato, si tiene conto della logica di controllo associata all'interfaccia.

| Solution       | BRAM        | Clock       | Clocks      | DSP         | Logic       | Set/        | Data        |
|----------------|-------------|-------------|-------------|-------------|-------------|-------------|-------------|
|                |             | Enable      |             |             |             | Reset       |             |
| Unopt          | 0           | 0.454227469 | 1.215484925 | 0.335011806 | 0.921480532 | 3.57E-03    | 1.007059589 |
| Code Hoist     | 0           | 0.370487687 | 1.756788697 | 0.41467679  | 0.838255044 | 3.35E-03    | 1.381990616 |
| Loop Fiss      | 0           | 0.292603218 | 1.098937588 | 0.321194879 | 0.590288255 | 0.004160448 | 0.937705627 |
| Unr2 Man       | 1.250551548 | 0.096387172 | 0.900532817 | 0.268251897 | 0.260709843 | 0.003146866 | 0.423992984 |
| Unr2 Auto      | 1.240851358 | 0.082524632 | 0.960682868 | 0.272355421 | 0.266662013 | 0.00428147  | 0.425589533 |
| Unr2 Auto Part | 0           | 0.325270201 | 2.352835611 | 0.263715046 | 0.575191109 | 0.007010513 | 0.750690058 |
| Unr4 Man       | 1.32976193  | 0.382625905 | 0.253616716 | 0.921033497 | 0.543549308 | 0.010887122 | 0.585376518 |
| Unr4 Auto      | 1.23103871  | 0.106978332 | 0.972227077 | 0.247065967 | 0.258892891 | 0.002585625 | 0.41881192  |
| Unr4 Auto Part | 0           | 0.328624592 | 2.560390625 | 0.298048515 | 1.146363211 | 0.0030065   | 1.324957004 |
| Op Chain 10ns  | 0           | 0.455035944 | 1.215706812 | 0.343570428 | 0.925468281 | 0.00349783  | 1.014495501 |
| Op Chain 9ns   | 0           | 0.371109403 | 1.601127908 | 0.308091694 | 0.871003722 | 0.003504661 | 0.845550094 |
| Op Chain 8ns   | 0           | 0.432465255 | 1.790320966 | 0.364705513 | 1.03614782  | 0.003386509 | 1.085355412 |
| Op Chain 7ns   | 0           | 0.4179838   | 1.991891069 | 0.305155962 | 0.881534419 | 0.002575182 | 0.757947506 |
| Op Chain 6ns   | 0           | 0.367850007 | 2.092533279 | 0.244985771 | 0.788475969 | 0.00273619  | 0.666663051 |
| Op Chain 5ns   | 0           | 0.556948828 | 3.174162703 | 0.291668839 | 0.943421735 | 0.004532358 | 0.906153    |
| Op Chain 4ns   | 0           | 0.57213963  | 3.804846667 | 0.253423554 | 0.799402245 | 0.002476984 | 0.756326073 |
| Loop Pipe      | 0           | 0.196236724 | 1.778833685 | 0.814738101 | 1.275097136 | 0.012051522 | 1.206569896 |
| AXI            | 0           | 0.361682673 | 2.409646753 | 0           | 7.963255048 | 0.008282737 | 5.53872576  |

Table 110: Vivado Solutions Dynamic Power Report [mW]

| Solution       | Total Dynamic Power |
|----------------|---------------------|
| Unopt          | 3.936829            |
| Code Hoist     | 4.765546            |
| Loop Fiss      | 3.24489             |
| Unr2 Man       | 3.203573            |
| Unr2 Auto      | 3.252947            |
| Unr2 Auto Part | 4.274713            |
| Unr4 Man       | 4.026851            |
| Unr4 Auto      | 3.237601            |
| Unr4 Auto Part | 5.66139             |
| Op Chain 10ns  | 3.957775            |
| Op Chain 9ns   | 4.000387            |
| Op Chain 8ns   | 4.712381            |
| Op Chain 7ns   | 4.357088            |
| Op Chain 6ns   | 4.163244            |
| Op Chain 5ns   | 5.876887            |
| Op Chain 4ns   | 6.188615            |
| Loop Pipe      | 5.283527            |
| AXI            | 16.28159297         |

Table 111: Vivado Solutions Total Dynamic Power Report [mW]

| Solution        | Energy Single Operation |
|-----------------|-------------------------|
| Unopt           | 39.36829                |
| Code Hoist      | 47.65546                |
| Loop Fiss       | 32.4489                 |
| Unr2 Man        | 32.03573                |
| Unr2 Prag       | 32.52947                |
| Unr2 Pragm Part | 42.74713                |
| Unr4 Man        | 40.26851                |
| Unr4 Prag       | 32.37601                |
| Unr4 Pragm Part | 56.6139                 |
| Op Chain 10ns   | 39.57775                |
| Op Chain 9ns    | 36.00349                |
| Op Chain 8ns    | 37.69905                |
| Op Chain 7ns    | 30.49962                |
| Op Chain 6ns    | 24.97947                |
| Op Chain 5ns    | 29.38444                |
| Op Chain 4ns    | 24.75446                |
| Loop Pipe       | 52.83527                |
| AXI             | 162.8159297             |

Table 112: Vivado Solutions Energy Single Operation Report [pJ]



Figure 30: Vivado Total Dynamic Power and Energy Single Operation Plot

Per quanto riguarda il report di timing, si può notare come il minor numero di cicli, utili per ottenere un risultato, si ha in corrispondenza della soluzione "AXI Solution" poiché, come già citato precedentemente, viene garantito un risultato parziale per ogni ciclo di clock a differenza delle altre solution che garantivano un risultato parziale con un numero di cicli nettamente maggiore (nel caso del "Loop Pipelining Solution", ad esempio, pari a 16). Tanto è vero che nella tabella, sotto allegata, in corrispondenza di "AXI Solution" il numero di cicli è pari a 1. Inoltre, si può evidenziare un andamento crescente al diminuire del periodo di clock in corrispondenza delle soluzioni hardware basate sulla tecnica dell'Operation Chaining. In particolare, in corrispondenza di un clock pari a 4ns si ha la soluzione hardware che presenta il maggior valore di cicli.

Riguardo, invece, la Maximum Clock Frequency, il massimo valore si ha in corrispondenza della soluzione "Operation Chaining clk=4ns Solution" che presenta un valore pari a circa 282MHz. In particolare, nel caso della tecnica Operation Chaining, al diminuire del periodo del clock il WNS diminuisce e la massima frequenza aumenta.

| Solution      | Cycles | Clock Constraint | WNS   | Maximum Clock   |
|---------------|--------|------------------|-------|-----------------|
|               | [#]    | [ns]             | [ns]  | Frequency [MHz] |
| Unopt         | 44     | 10               | 3.654 | 157.5795777     |
| Code Hoist    | 43     | 10               | 3.074 | 144.3834825     |
| Loop Fiss     | 67     | 10               | 3.464 | 152.998776      |
| Unr2 Man      | 57     | 10               | 4.33  | 176.366843      |
| Unr2 Prag     | 57     | 10               | 4.33  | 176.366843      |
| Unr2 Part     | 66     | 10               | 3.469 | 153.1159087     |
| Unr4 Man      | 59     | 10               | 4.257 | 174.1250218     |
| Unr4 Prag     | 61     | 10               | 4.33  | 176.366843      |
| Unr4 Part     | 59     | 10               | 3.097 | 144.8645516     |
| Op Chain 10ns | 44     | 10               | 3.654 | 157.5795777     |
| Op Chain 9ns  | 55     | 9                | 3.06  | 168.3501684     |
| Op Chain 8ns  | 55     | 8                | 2.277 | 174.7335314     |
| Op Chain 7ns  | 66     | 7                | 1.33  | 176.366843      |
| Op Chain 6ns  | 88     | 6                | 1.573 | 225.8866049     |
| Op Chain 5ns  | 88     | 5                | 0.374 | 216.1694769     |
| Op Chain 4ns  | 131    | 4                | 0.454 | 282.0078962     |
| Loop Pipe     | 16     | 10               | 4.208 | 172.6519337     |
| AXI           | 1      | 10               | 1.369 | 115.8614297     |

Table 113: Vivado Solutions Timing Report



Figure 31: Vivado Solutions Maximum Clock Frequency Plot

Tenendo conto delle analisi e dei confronti effettuati, si possono evidenziare alcune tecniche che presentano

dei trade-off interessanti. In particolare, per quanto riguarda la tecnica dell'Operation Chaining, come già precedentemente citato, il periodo di clock ottimale è pari a 7ns. Infatti, confrontandola con la soluzione iniziale non ottimizzata, in corrispondenza di tale soluzione hardware si ha un leggero incremento del numero di cicli ma allo stesso tempo presenta un aumento della Maximum Clock Frequency e una diminuzione delle risorse utilizzate. Ovviamente bisogna anche tenere presente di un leggero aumento della potenza dinamica totale e dell'energia per singola operazione. Bisogna notare che una soluzione migliore rispetto a quella appena citata si ha in corrispondenza delle "Loop Unrolling Factor=2 Manual Solution" e "Loop Unrolling Factor=2 Automatic Solution". Tanto è vero che esse presentano, rispetto alla soluzione iniziale non ottimizzata, una diminuzione notevole delle risorse, una diminuzione della potenza dinamica totale e dell'energia per singola operazione e un aumento della Maximum Clock Frequency. Bisogna notare, però, che in corrispondenza di tali soluzioni si ha un leggero aumento del numero di cicli utili per ottenere un risultato. Ovviamente, nel caso in cui si debba ottenere il minor numero di cicli, bisognerebbe scegliere, come già precedentemente citato, la soluzione basata su AXI poiché permette di avere in uscita un risultato parziale per ogni ciclo di clock. Ad ogni modo, si avrebbe, in corrispondenza di tale soluzione hardware, un aumento dell'utilizzazione delle risorse, un aumento della potenza dinamica totale e dell'energia per singola operazione dovuti alla logica di controllo associata allo standard.