## Indice

| 1                                | Introduzione al calcolo parallelo |                   |                                               | 3  |
|----------------------------------|-----------------------------------|-------------------|-----------------------------------------------|----|
|                                  | 1.1                               | Dipen             | denza dei dati e corsa sui dati               | 3  |
|                                  |                                   | 1.1.1             | Soluzioni                                     | 4  |
|                                  | 1.2 Strategie di design hardware  |                   |                                               | 4  |
|                                  |                                   | 1.2.1             | Aumenare la frequenza                         | 4  |
|                                  |                                   | 1.2.2             | Pipelining                                    | 4  |
|                                  |                                   | 1.2.3             | Operazioni multiple in una singola istruzione | 5  |
|                                  |                                   | 1.2.4             | Aumentare il numero di core                   | 5  |
| 1.3 Strategie di design software |                                   | Strate            | egie di design software                       | 6  |
|                                  |                                   | 1.3.1             | Istruzioni SIMD                               | 6  |
|                                  |                                   | 1.3.2             | Sfruttare core multipli                       | 7  |
| <b>2</b>                         | Field Programmable Gate Array     |                   |                                               |    |
|                                  | 2.1                               | Introd            | luzione                                       | 9  |
|                                  | 2.2                               | Architettura FPGA |                                               | 9  |
|                                  |                                   | 2.2.1             | Clock                                         | 12 |
|                                  |                                   | 2.2.2             | IP-core                                       | 13 |
|                                  |                                   | 2 2 3             | Frequenza e performance                       | 13 |

2 INDICE

## 1 — Introduzione al calcolo parallelo

Most real world problems need fast, often real time, solutions.

#### How to speed up computations

There are multiple strategies, tipically not mutually exclusive, to speed-up computations. One of the most effective ones consists of executing multiple operations simultaneously, in **parallel** or concurrently.

Although there are multiple techniques to achieve parallel computing, the main goal is to overlap the execution of multiple operations or tasks.



#### 1.1 Dipendenza dei dati e corsa sui dati

 $\acute{\rm E}$  necessario introdurre concetti base utili durante l'implementazione di operazioni concorrente o parallele.

#### Dipendenza dei dati

La dipendenza dei dati accade quando un'operazione è dipendente dall'output di un'altra, nel caso di esecuzione sequenziale, questo non è un problema, ma lo diventa in operazioni parallele in quanto una operazione deve rimanere bloccata fino a quando non ha tutti i dati necessari per essere eseguita, magari fornita da operazioni concorrenti.

#### Corsa sui dati

Quando thread multipli accedono alla stessa memoria in modo concorrente, e almeno uno la modifica, si può incorrere in una **corsa sui dati**. Il risultato non è predicibil, in quanto è influenzato dal timing tra i thread.

#### 1.1.1 Soluzioni

Esistono diverse strategie, che agiscono a livello hardware o software, ma nella maggior parte dei casi, è il design dell'hardware a porre limiti al software.

#### Hardware

- aumentare la frequenza
- sfruttare pipelining o altre tecniche
- permettere operazioni multiple in una singola istruzone
- aumentare il numero di core

#### Software

- eseguire operazioni multiple nella stessa istruzione
- distribuire la computazione su CPU multiple
- ridurre la dimensione dei dati o effettuare calcoli meno intensi

### 1.2 Strategie di design hardware

#### 1.2.1 Aumenare la frequenza

La soluzione più semplice consiste nell'aumentare la frequenza del clock della CPU.

L'idea è semplice: più alta la frequenza, minore il tempo di esecuzione; tuttavia questo comporta un maggiore consumo di energia, deve quindi essere usata cautamente.

#### 1.2.2 Pipelining

È una soluzione molto efficace che permette di eseguire istruzioni multiple concorrenti, anche se non allo stesso "stadio" di esecuzione (non effettivamente in parallelo). Si ottiene un CPI (Cycles Per Instruction) minore rispetto alla stessa CPU senza pipelining, tuttavia la sua implementazione richiede più componenti.

In questo caso la dipendenza dei dati diventa un problema, risolvibile però facilmente dalla forwarding unit.



#### 1.2.3 Operazioni multiple in una singola istruzione

Questa strategia consiste nell'eseguire operazioni (identiche) multiple in una singola istruzione, un singolo registro contiene dati multipli sui quali eseguire l'operazione in parallelo.



Single Instruction Multiple Data (SIMD) è una tecnica molto potente e al contempo leggera a livello di implementazione.

#### 1.2.4 Aumentare il numero di core

Consiste nel distribuire il calcolo su più unità di esecuzioni, che siano core o complete CPU.

Questa strategia può essere più efficace e meno costosa rispetto all'aumento della frequenza, tuttavia non è sempre implementabile e sono frequenti i problemi relativi ai dati.

#### 1.3 Strategie di design software

#### 1.3.1 Istruzioni SIMD

Un buon compilatore è capace di inferire dal codice le possibili computazione parallele per istruzioni SIMD, tuttavia non è facile.

La migliore performance può essere ottenuta organizzando le strutture dati per le SIMD e aggiungere codice assembly nel linguaggio ad alto livello utilizzato, è consigliato applicare questa strategia soltanto alle porzioni più intense del codice.

Questa strategia è efficace quando:

- i dati sono organizzati in modo adeguato in memoria
- la stessa operazione è applicabile a dati multipli

Adatta principalmente all'elaborazione di immagini, contenuti multimediali e segnali, anche se può essere utile anche in altri contesti, come gli algoritmi di sorting.

Se i dati sono appropriamente organizzati in memoria, una singola istruzione può caricare più operandi in un singolo registro multimediale.





Una volta caricati dati impacchettati in registri multimediali, una singola operazione può essere applicata a tutti gli operandi.



Ovviamente, un MM register più grande significa un maggiore incremento nella velocità (Intel/AMD up to 512 bit).

#### 1.3.2 Sfruttare core multipli

Invece di agire a livello dell'isruzione/dato è possibile aumentare il parallelismo a livello dei thread, eseguendo sottotask multiple in modo concorrente.

Sfortunatamente, eseguire su core multipli in modo concorrente può risultare in dipendenza dei dati e corsa sui dati portando a risultati non predicibili.

Il motivo risiede nel fatto che ogni thread lavora in modo indipendenta ma su una memoria condivisa che potrebbe contere input, risultati intermedi e risultati di operazioni.



# $egin{array}{lll} 2 & - & ext{Field Programmable Gate Ar-} \ & ext{ray} \end{array}$

#### 2.1 Introduzione



Una FPGA è composta da Configurable Logic Blocks (CLB) che possono essere connessi con linguaggi ad alto livello (HDL o HDS).

Sono riprogrammabili sul campo e hanno un costo molto contenuto, sono supportate inoltre da linguaggio di alto livello come C, C++ o Python.

Sono la soluzione ideale per lo sviluppo veloce di prototipi e introdurli sul mercato in poco tempo. Un'altro grande vantaggio delle FPGA consiste nel fatto che hanno un consumo energetico molto basso.

Permettono in generale un alto livello di astrazione, consentendo l'implementazione di reti logiche e algoritmi a livello hardware.

#### 2.2 Architettura FPGA

Una FPGA è composta da migliaia di CLB, le funzioni e connessioni di ognuno di questi possono essere completamente progettate e riadattate sul campo dallo sviluppatore, che può generare nuove architetture molteplici volte.

Altre caratteristiche:

- spesso le FPGA contengono anche RAM integrata (qualche KB)
- alcuni CLB sono dedicate alla gestione dell'I/O

 $\bullet\,$  numerosi adder, multiplier etc.

FPGA prodotte da diversi produttori si distinguono grazie a due aspetti:

- Tecnologia usata per le connessioni
  - fusibili
  - memorie flash
  - memorie SRAM

#### • Struttura dei CLB

La figura sotto mostra la rete logica di una Logic Cell che implementa un CLB.



Il blocco LUT è una rete combinatoria programmabile, può essere configurate per agire come uno shift-register o una memoria (RAM distribuita).

Tipicamente le Logic Cell sono raggruppate in **slice**, queste slice possono poi essere organizzate ulteriormente in gruppi per andare a formare un completo CLB.



La struttura effettiva di una FPGA, oltre ai CLB, comprende anche altre unità come la RAM e i multiplier:



#### 2.2.1Clock

Le FPGA sono solitamente configurate per implementare reti sincrone, quindi almeno un segnale di clock è necessario, usato per Sequential Synchronous Networks.

Spesso più domini di clock possono coesistere in uno stesso progetto, ad esempio ognuno dedicate a un particolare modulo, questo tuttavia crea problemi in caso sia necessario comunicare tra domini. Per generare questi segnali clock a una frequenza prefissata, i produttori mettono a disposizione componenti specifici, chiamati DCM e PLL.

Il clock è afflitto da due imprecisioni principali: lo skew e il jitter. Lo skew produce uno sfasamento del del segnale mentre il jitter causa una imprecisione dinamica nella frequenza del clock.

Figura 2.1: Skew e jitter



Per ovviare a questi problemi si utilizzano i sopracitati DCM e PLL, aiutano a gestire il segnale del clock permettendo di:

- generare segnali stabili, partendo da un segnale periodico esterno
- ridurre skew e jitter
- generare segnali con uno shift dato rispetto al segnale di reference

#### 2.2.2 IP-core

Nelle FPGA è possibile utilizzare dispositivi comuni tramite gli **IP-core**, la controparte hardware delle librerie software).

Spesso questi IP-core sono basati su funzioni logice cablate nei circuiti dell'FPGA dai produttori (DCM e PLL sono alcuni di questi), alcuni esempi:

- <u>Memory controllers</u>, permettono di trasferire dati con dispositivi di memoria esterni
- <u>Serializer/Deserializer</u> (SERDES), dispositivi per convertire segnali ad alta frequenza da seriale a parallelo (e viceversa)
- <u>Communication controllers</u>, dispositivi per gestire trasferimenti ad alta larghezza di banda

Un IP-core configura una FPGA per implementare una specifica funzionalità, come per il software possono essere a pagamento, possono essere copiati tramite attacchi (SRAM) ma esistono comunque meccanismi di protezione.

#### 2.2.3 Frequenza e performance

Le FPGA non hanno frequenze di clock alte, ottengono pero ottime performance grazie a