# Modellazione e Sintesi di un Moltiplicatore Floating-point Single Precision

Enrico Sgarbanti - VR446095

Sommario—Questo documento mostra la realizzazione di un moltiplicatore in virgola mobile a precisione singola realizzato in VHDL, Verilog e SystemC ed un componente che permetta di eseguire due moltiplicazioni in parallelo. Il tutto è accompagnato da testbench, sintesi dei componenti VHDL e verilog ed un confronto con l'High-level-Synthesis di un moltiplicatore scritto in c++.

#### I. Introduzione

Il progetto consiste nella realizzaione in hardware di un sistema che esegue due moltiplicazioni in virgola mobile a precisione singola (quindi 32 bit) in parello secondo lo standard IEEE754. Esso deve essere sintetizzabile sulla scheda FPGA "xc7z020clg400-1" che possiede solo 125 porte, quindi si potranno avere a disposizione solo 64 bit per gli input e 32 per l'output. Di conseguenza bisogna serializzare input e output e usare il protocollo di handshake per gestire la comunicazione fra i vari componenti.

Il moltiplicatore sarà realizzato sia in Verilog che VHDL al fine di comprendere meglio le differenze e i pro e contro dei due linguaggi. L'intero sistema sarà poi tradotto anche in SystemC per fare un confronto anche con quel tipo di progettazione. Infine si analizzeranno i risultati e li si confronteranno con l'high level syntesis del codice in c++.

L'approccio utilizzato è bottom-up, cioè partendo dal moltiplicatore per poi arrivare al top level. L'implementazione è preceduta dall'analisi dei requisiti e la stesura della EFSM. La stesura dell'EFSM è la parte più importante perchè qui viene tradotto l'algoritmo, descritto il flusso e scelti i vari segnali e registri necessari. Una buona EFSM permette di evitare di scrivere varie righe di codice per poi accorgersi in simulazione che qualcosa non funziona.

Il progetto è piccolo quindi ci si aspetta che occupi una minima parte della FPGA e che la versione RTL sia

Ci si aspetta che la versione RTL sia significativamente più performante di quella con l'high level syntesis, motivo per cui ha senso usare questo tipo di approccio quando non si hanno stretti vincoli di tempo da rispettare per realizzare il progetto. Ci si aspetta anche che occupi una minima parte della FPGA in quanto è un progetto molto piccolo.

#### II. BACKGROUND

## A. Progettazione hardware

Per la realizzazione di componenti hardware si possono utilizzare diverse tecniche e linguaggi. Un primo approccio è descrivere i componenti a livello RT utilizzando linguaggi di descrizione hardware (HDL) come VHDL e Verilog. Un HDL

è un linguaggio specializzato per la descrizione della struttura e del comportamento di circuiti elettronici, in particolare circuiti logici digitali, e la loro analisi e simulazione. Permette inoltre la sintesi di una descrizione HDL in una netlist (una specifica di componenti elettronici fisici e il modo in cui sono collegati insieme), che può quindi essere posizionata e instradata per produrre l'insieme di maschere utilizzate per creare un circuito integrato[1].

Un secondo approccio è descrivere le funzionalità del componente con linguaggi più ad alto livello come C, C++ o SystemC[2] e fare High Level Syntesis (HLS) per ottenere una descrizione dell'hardware a livello RT[3].

Entrambi gli approcci hanno vantaggi e svantaggi. In particolare HLS riduce i tempi, ma la descrizione hardware generata sarà meno ottimizzata rispetto a quella che si potrebbe ottenere usando HDL.

#### B. IEEE 754 single-precision binary floating-point format

Questo standard definisce il formato per la rappresentazione dei numeri in virgola mobile (compreso  $\pm 0$  e i numeri denormalizzati; gli infiniti e i NaN, "not a number"), ed un set di operazioni effettuabili su questi.

In particolare la versione a precisione singola descrive il numero con 32 bit: 1 bit per segno (sign), 8 bit per l'esponente (esp) e 23 bit per la mantissa (mant)[4].



Figura 1. IEEE 754 single precision

Per la codifica in numero binario:

- Dal segno si ricava il bit più significativo (1 se negativato 0 altrimenti).
- Si converte il numero in binario.
- Si sposta la virgola a sinistra fino ad avere un numero nella forma 1, ... · 2<sup>E</sup>.
- La mantissa è la parte a destra della virgola, riempita con zeri a destra fino a riempire i 23 bit.
- L'esponente è 127+E dove E è l'esponente ricavato dallo shift.

Per la decodifica del numero binario:

$$(-1)^{sign} \cdot 2^{(esp-127)} \cdot (1 + \sum_{i=1}^{23} b_{23-i} \cdot 2^{-i})$$

1

| Categoria             | Esp.  | Mantissa  |
|-----------------------|-------|-----------|
| Zeri                  | 0     | 0         |
| Numeri denormalizzati | 0     | non zero  |
| Numeri normalizzati   | 1-254 | qualunque |
| Infiniti              | 255   | 0         |
| Nan (not a number)    | 255   | non zero  |

Figura 2. IEEE 754 special case

## C. Moltiplicazione di due numeri floating-point

Qui è riportato l'algoritmo usato per la moltiplicazione fra floating point. Guardare qui per ulteriori dettagli[5].



Figura 3. IEEE 754 multiplication

# III. METODOLOGIA APPLICATA

Il primo passo è stato la realizzazione della EFSM di *multiplier* e *double\_multiplier* che ha portato ad aquisire una visisione generale.

Dopo si è passati all'implementazione a livello RT con Vivado[6] del *multiplier* sia in Verilog che in VHDL. Un primo test è stato fatto con TLC-script osservando gli output a determinati input.

Consolidati questi moduli è stato poi possibile realizzato in Verilog il *double\_multiplier* che prende i due componenti e li usa per calcolare due moltiplicazioni. A questo punto è stato realizzato un test più accurato in verilog controllando tutti i casi particalari per poi passare alla sintesi.

È anche stato rifatto tutto in SystemC dove si è potuto fare un testbench più fine grazie alla potenza del c++.

Infine si è provato a fare l'high level syntesis da un semplice codice c++ per confrontare i risultati ottenuti.

#### A. Vincoli ed Architettura

Il progetto a diversi vincoli:

- Il multiplier deve essere scritto in VHDL, verilog e systemC.
- Il double\_multiplier deve essere scritto in systemC e un linguaggio a scelta tra VHDL e verilog.
- Gli operandi e il risultato devono essere a 32 bit.
- I due componenti devono essere sintetizzabili sulla FPGA "xc7z020clg400-1" la quale ha a disposizione solo 125 porte.

Per far fronte al limite delle porte logiche è stato utilizzato il protocollo di handshake. Vengono quindi utilizzati gli stessi 32 bit per il risultato e altri 64 bit per le due coppie di operandi. Al primo ciclo di clock, con il flag "ready" uguale a 1, verranno trasmessi i primi due operandi e al ciclo successivo gli altri due. Dopodichè si aspetterà il complementanto delle moltiplicazioni, segnalato col flag "done" uguale a 1, per poi trasmettere il primo risultato, e il secondo al ciclo di clock successivo.

L'architettura con VHDL e Verilog è mostrata in figura 4. Quella per SystemC è analoga.

I segnali intermedi sono stati omessi da questa figura, ma vengono descritti nelle sezioni successive. La FSMD è realizzata



Figura 4. Architettura RTL

con due processi:

- **fsm:** processo asincrono attivato con la variazione di qualche segnale interno. Esso ha il compito di calcolare e aggiornare lo stato prossimo.
- datapath: processo sincrono che ha il compito di aggiornare lo stato attuale, elaborare gli output. Esso viene anche attivato dal fronte di salita del reset al fine di riportare lo stato a quello iniziale.

## B. multiplier

Questo componente esegue la moltiplicazione tra numeri floating point a precisione singola.

L'interfaccia è mostrata in figura 4 ed è la stessa per tutte le implementazioni VHDL, Verilog e SystemC:

- op1 (32 bit input): primo operando.
- op2 (32 bit input): secondo operando.
- clk (1 bit input): segnale di clock.
- rst (1 bit input): segnale di reset. Riporta il sistema allo stato iniziale.
- **ready** (1 bit input): segnale che permette al sistema di uscire dallo stato iniziale. Nello specifico indica che il prossimo ciclo di clock ci sarà il primo operando in *op1* e il ciclo di clock successivo in *op2*. (?)
- **done** (1 bit output): segnale che indica che il valore su *res* è il risultato.
- res (32 bit output): risultato.

Gli altri segnali/registri intermedi utilizzati sono:

- **norm\_again** (1 bit): indica che il numero ha bisogno di essere ulteriormente normalizzato.
- res\_type (2 bit): indicare il tipo del risultato. Solo nel caso in cui sia un numero si procede all'elaborazione, mentre negli altri casi si passa direttamente allo stato finale. Il caso del numero denormalizzato è gestito come se fosse normalizzato.
- STATE e NEXT\_STATE (4 bit): rappresentano lo stato attuale e lo stato prossimo.
- op1\_type e op2\_type (2 bit): per indicare il tipo degli operandi ovvero 0, NaN, ∞ oppure un numero. Solo se sono entrambi sono dei numeri res\_type sarà un numero.
- **esp\_tmp** (10 bit): permette di eseguire le operazioni per ricavare l'esponente finale senza perdere informazioni.
- mant\_tmp (48 bit): permette di eseguire le operazioni per ricavare la mantissa finale senza perdere informazioni.
- sign1, sign2, esp1, esp2, mant1, mant2: rappresentano le componenti dei due operandi.

L'algoritmo della moltiplicazione è descritto grazie alla EFSM [Figura 5] la quale è formata 14 stati:

- ST\_START: pone *done* e *norm\_again* a 0 ed estre le informazioni di segno, esponente e mantissa dei due operandi. Si rimane qui finchè *ready* vale 0 altrimensi si passa a *ST\_EVAL1*. Se in qualsiasi stato si riceve *reset* uguale a 1 allora si passa a questo stato.
- ST\_EVAL1 e ST\_EVAL2: ricava rispettivamente il tipo di op1 e op2 fra T\_ZER, T\_INF, T\_NAN e T\_NUM
- ST\_EVAL3: ricava il tipo del risultato in base al tipo di op1 e op2.
- **ST\_CHECK1:** controlla se *res\_type* è uguale a T\_NUM e in tal caso passa a *ST\_ELAB* altrimenti a *ST\_FINISH*.
- ST\_ELAB: esegue la somma tra i due esponenti e la sottrazione di 127 in quanto entrambi, per lo standard, sono incrementati di 127: (esp+127) = (esp1+127) + (esp2+127) 127. Per compiere la somma è necessario usare una variabile  $esp\_tmp$  di 10 bit perchè altrimenti con 8 bit si andrebbe in overflow con valori che dopo la sottrazione sarebbero rappresentabili con 8 bit e quindi validi. Viene poi eseguita anche la moltiplicazione delle due mantisse, che essendo a 23 bit più un bit che vale sempre 1, necessita di una variabile  $mant\_tmp$  di almeno 48 bit
- **ST\_UNDERF:** controlla se *esp\_tmp* è in uno stato di underflow, ovvero guardando se il bit *esp\_tmp*[9], che

- nel complemento a 2 indica il segno, è 1. Infatti i valori disponibili per l'esponente vanno da 0 a 255. Il controllo dell'overflow viene fatto in seguito all'arrotondamento per evitare di farlo due volte.
- ST\_CHECK2: passa allo stato ST\_FINISH se res\_type
  è diverso da T\_NUM, perchè diventato T\_ZER per l'underflow.
- ST\_NORM1: compie la normalizzazione della mantissa che deve sempre essere della forma *1.bits*. Essendo la virgola posta tra il 46esimo bit e il 45esimo, si verificano due casi: Se il 47esimo bit vale 1 bisogna incrementare l'esponente, altrimenti il valore è già corretto, ma viene effettuato uno shift a sinistra per trattare allo stesso modo i due casi durante l'arrotondamento.
- ST\_ROUND: effettua l'eventuale arrotondamento dovuto al fatto che il valore della mantissa è attualmente a 48 bit, ma bisogna portarlo a 24 bit. L'arrotondamento è fatto per eccesso, quindi si incrementera mant\_tmp[47:24] solo se mant\_tmp[23:00] è ≥ a "01..1". L'arrotondamento effettivo verrà fatto nello stato ST\_NORM2, qui ci si limita a porre norm\_again uguale a 1 per poterci andare.
- ST\_CHECK3: passa allo stato ST\_NORM2 se norm è uguale a 1 oppure allo stato ST\_OVERF se norm è uguale a 0.
- ST\_NORM2: effettua il vero arrotondamento della mantissa. Bisogna tenere conto del caso in cui sia della forma "1..1" e che quindi con l'incremento vada a "0..0" e venga incrementato l'esponente.
- ST\_OVERF: verifica se l'esponente del risultato è in uno stato di overflow, ovvero guardando se il bit esp\_tmp[8] vale 1 ovvero se corrisponde ad un valore maggiore di 255.
- **ST\_FINISH:** pone *done* uguale 1 e ricava *res[31]*, ovvero il segno del risultato facendo lo XOR fra i segni degli operandi. In base al valore di *res\_type* si ricavano gli altri bits e si torna allo stato iniziale.

## C. double\_multiplier

Questo componente esegue due moltiplicazioni tra numeri floating point a precisione singola.

La scelta di realizzarlo in verilog è stata del tutto arbitraria. L'interfaccia è mostrata in figura 4 ed è la stessa sia per l'implementazione Verilog che quella SystemC:

- op1 (32 bit input): primo operando.
- op2 (32 bit input): secondo operando.
- clk (1 bit input): segnale di clock.
- **rst** (1 bit input): segnale di reset. Riporta il sistema allo stato iniziale.
- **ready** (1 bit input): segnale che permette al sistema di uscire dallo stato iniziale. Nello specifico indica che in questo ciclo di clok *op1* e *op2* contengono gli operandi della prima moltiplicazione e nel ciclo di clock successivo ci saranno gli altri. (?)
- done (1 bit output): segnale che indica che il valore su res è il risultato.
- res (32 bit output): risultato.

Gli altri segnali/registri intermedi utilizzati sono:

- **ready1:** (1 bit) segnale che pone il *ready* del primo multiplier (quello in Verilog) a 1.
- **ready2:** (1 bit) segnale che pone il *ready* del secondo multiplier (quello in VHDL) a 1.
- **done1:** (1 bit) segnale che indica che il valore su *res1* è il risultato della prima moltiplicazione.
- **done2:** (1 bit) segnale che indica che il valore su *res2* è il risultato della seconda moltiplicazione.
- op1\_tmp1, op2\_tmp1, op1\_tmp2, op2\_tmp2: (32 bit) che servono a memorizzare temporaneamente gli operandi che arrivano nei vari cicli di clock. (?)

L'algoritmo è descritto grazie alla EFSM [Figura 6] la quale è formata 8 stati:

- ST\_START: pone *done*, *ready1* e *ready2* uguali a 0 e inizializza *op1\_tmp1* e *op2\_tmp1* rispettivamenete con i valori di *op1* e *op2* i quali serviranno per il primo moltiplicatore. Si rimane qui finchè *ready* vale 0 altrimensi si passa a *ST\_RUN1*. Se in qualsiasi stato si riceve *reset* uguale a 1 allora si passa a questo stato e si pone *rst* uguale a 1 entrambi i *rst* dei multiplier.
- **ST\_RUN1:** pone *ready1* uguale a 1, attivando quindi il primo moltiplicatore, e inizializza *op1\_tmp2* e *op2\_tmp2* rispettivamenete con i valori di *op1* e *op2* i quali serviranno per il secondo moltiplicatore.
- **ST\_RUN2:** pone *ready1* uguale a 0 e *ready2* uguale a 1, attivando quindi il secondo moltiplicatore.
- **ST\_WAIT:** pone *ready2* uguale a 0. Si rimane in questo stato finchè *done1* = 1 e in quel caso si passa a *ST\_WAIT2* oppure che *done2* = 1 passando a ST\_WAIT1. Nel caso in cui sia *done1* = 1 che *done2* = 1 allora si passa direttamente a *ST\_RET1*.
- ST\_WAIT1: si resta qui finchè non finisce anche il primo moltiplicatore, cioè finchè *ready1* = 0.
- **ST\_WAIT2:** si resta qui finchè non finisce anche il secondo moltiplicatore, cioè finchè *ready2* = 0.
- **ST\_RET1:** pone *done* uguale a 1 e *res* uguale al risultato del primo moltiplicatore cioè *res1*.
- ST\_RET2: pone *res* uguale al risultato del secondo moltiplicatore cioè *res2* e ritorna allo stato iniziale.

#### D. Implementazione RTL con Verilog e VHDL

## In **verilog\_multiplier** e *double\_multiplier*

- Sono definiti come "wire" tutti i segnali collegati alle porte di input mentre come "reg" tutti i registri collegati alle porte di output e quelli intermedi.
- Gli stati e *op1\_type*, *op2\_type*, *res\_type* sono stati definiti come "parameter".

## In vhdl\_multiplier:

- Sono usate le librerie "IEEE.STD\_LOGIC\_1164.ALL" per abilitare i tipi std\_logic e "use IEEE.NUMERIC\_STD.ALL" per usare funzioni aritmetiche con valori signed e unsigned
- Sono definiti come "signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "signal" tutti i segnali interni di communicazione per la FSM.

- Sono definite come "variable" sign1, sign2, esp1, esp2, esp\_tmp, mant1, mant2, mant\_tmp, op1\_type, op2\_type perchè utilizzati solo all'interno del processo "datapath".
- Gli stati e op1\_type, op2\_type, res\_type sono stati definiti all'interno del package rispettivamente come "MULT\_STATE" e "MULT\_TYPE".
- L'architettura utilizzata segue lo stile "behavioral", cioè quello più "program-like" in quanto più semplice e chiaro per descrivere una FSMD con due processi.

#### E. Implementazione RTL con SystemC

Si creano i seguenti files e directory:

- Makefile: tool per la compilazione automatica del progetto. Richiede che la variabile d'ambiente SY-STEMC\_HOME contenga il path alla libreria di SystemC.
- **bin:** directory che contiene l'eseguibile double\_multiplier\_RLT.x (generato dopo la compilazione) e wave.vcd (generato dopo l'esecuzione dell'eseguibile).
- obj: directory che contiene i files oggetto (generati dopo la compilazione)
- include: directory che contiene gli headers double\_multiplier\_RTL.hh, multiplier\_RTL.hh, testbench\_RTL.hh. Qui sono definite tutte le porte, segnali, variabili ed enumerazioni dei vari componenti
- **testbench:** directory che contiene i files sorgenti double\_multiplier\_RTL.cc, multiplier\_RTL.cc, testbench\_RTL.cc e main\_RTL.cc.

# In double\_multiplier\_RTL.hh

- Sono definiti come "sc\_signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "sc\_signal" tutti i segnali interni di communicazione per la FSM.
- Gli stati sono stati definiti come "enumerazioni".

#### In multiplier RTL.hh

- Sono definiti come "sc\_signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "sc\_signal" tutti i segnali interni di communicazione per la FSM.
- Sono definite come variabili di SystemC sign1, sign2, esp1, esp2, esp\_tmp, mant1, mant2, mant\_tmp, op1\_type, op2\_type perchè utilizzati solo all'interno del processo "datapath".
- Gli stati e op1\_type, op2\_type, res\_type sono stati definiti come "enumerazioni".

A differenza di verilog e VHDL, in SystemC è necessario un file "main" che contenga il metodo *sc\_main* e che permetta di collegare il componente da testare con il testbench. In esso si utilizza *sc\_create\_vcd\_trace\_file* per salvare le tracce necessarie a lanciare una simulazione con tools come gtkwave.

## IV. TESTBENCH

Il **testbench in Verilog**, [Figura 7], aspetta un po di tempo, perchè altrimenti si verificherebbero problemi dovuti allo startup della FPGA nella simulazione post-sintesi, e poi esegue due volte il *double\_multiplier*, prima con due coppie

di operandi che danno come risultato dei numeri normali, e poi con due coppie di operandi che danno come risultati dei casi speciali.

Il **testbench in SystemC** mette a disposizione tre thread da attivare togliendo i commenti nel costruttore del "TestbenchModule":

- targeted\_test: analogo a quello in Verilog. [Figura 8].
- **rnd\_test:** che prova *TESTS\_NUM* moltiplicazioni generate casualmente tra un intervallo modificabile. [Figura 9].
- run\_all: che prova tutte le possibili combinazioni cioè 2<sup>32</sup> \* 2<sup>32</sup>. Si può limitare il numero di combinazioni evitando di contare il bit del segno, in quanto il calcolo è un semplice xor. Poi si possono escludere tutti i numeri denormalizzati. In ogni caso risulta troppo pesante per essere eseguito.

# V. RISULTATI

# VI. CONCLUSIONI

#### RIFERIMENTI BIBLIOGRAFICI

- [1] "Hdl," https://en.wikipedia.org/wiki/Hardware\_description\_language.
- [2] Accellera Systems Initiative et al., "Systemc," Online, December, 2013.
- [3] "Hls," https://en.wikipedia.org/wiki/High-level\_synthesis.
- [4] "Ieee 754," https://en.wikipedia.org/wiki/IEEE\_754.
- [5] "leee 754 multiplication," https://en.wikipedia.org/wiki/Single-precision\_floating-point\_format.
- [6] "Vivado," https://www.xilinx.com/products/design-tools/vivado.html.

## APPENDICE



Figura 5. EFSM del multiplier



Figura 6. EFSM del double\_multiplier



Figura 7. Simulazione in Verilog



Figura 8. Simulazione in SystemC con targeted\_test



Figura 9. Simulazione in SystemC con rnd\_test