## Alma Mater Studiorum Università degli Studi di Bologna

## Facoltà di Ingegneria

Corso di Laurea in Ingegneria Informatica Progetto di Calcolatori Elettronici M

# Progetto di una memoria cache per il processore DLX

Componenti Gruppo:
Andrea Grandi
Filippo Malaguti
Massimiliano Mattetti
Gabriele Morlini
Thomas Ricci

Anno Accademico 2009/2010

# Indice

| In | trodu | uzione   | ,                                | 5    |
|----|-------|----------|----------------------------------|------|
|    | 1     | Obie     | ettivi del progetto              | . 6  |
| 1  | Ca    | ratteris | stiche della memoria cache       | 7    |
|    | 1     | Politi   | ica di rimpiazzamento            | . 8  |
|    | 2     | Strut    | tura e interfacce                | . 9  |
| 2  | Red   | alizzazi | ione del componente              | 15   |
|    | 1     | Strut    | ture dati                        | . 15 |
|    | 2     | Imple    | ementazione                      | . 17 |
|    |       | 2.1      | cache_dlx                        | . 17 |
|    |       | 2.2      | cache_ram                        | . 19 |
|    |       | 2.3      | cache_snoop                      | . 19 |
|    |       | 2.4      | cache_replace                    | . 20 |
|    |       | 2.5      | Comunicazione tra processi       | . 21 |
|    | 3     | Proc     | edure interne                    | . 22 |
|    |       | 3.1      | cache_replace_line               | . 23 |
|    |       | 3.2      | cache_hit_on                     |      |
|    |       | 3.3      | cache_inv_on                     | . 24 |
|    |       | 3.4      | get_way                          | . 24 |
|    | 4     | Diag     | grammi temporali                 |      |
|    | 5     | _        | olematiche principali affrontate |      |
| 3  | Inte  | grazio   | one con DLX                      | 25   |
|    | 1     | Ram      | n_cmp                            | . 25 |
|    | 2     | Sche     | emi a blocchi                    | . 25 |

| 4 | Indice |
|---|--------|
|   |        |

|     | 3     | Diagrammi temporali                                       | 25 |
|-----|-------|-----------------------------------------------------------|----|
| 4   | Tes   | tbench                                                    | 27 |
|     | 1     | Testbench del componente                                  | 27 |
|     | 2     | Assembler per DLX                                         | 27 |
| 5   | Blo   | ck RAM                                                    | 29 |
|     | 1     | Caratteristiche e segnali della Block Ram                 | 29 |
|     | 2     | Configurazione della Block Ram                            | 32 |
|     | 3     | Operazioni della Block Ram                                | 37 |
|     | 4     | Conflitti d'accesso in Block Ram Dual-Port                | 38 |
|     | 5     | Possibili utilizzi della Block Ram in un progetto su FPGA | 41 |
|     | 6     | Realizzazione di un progetto d'esempio                    | 42 |
| C   | oncli | usioni                                                    | 45 |
| Bil | oliog | yrafia                                                    | 47 |

## Introduzione

La necessità di introdurre cache per un processore deriva dal noto problema del collo di bottiglia rappresentato dall'accesso a dispositivi di memoria. Un processore durante il suo funzionamento tende ad accedere in scrittura o a reperire dati in lettura provenienti dalla memoria a valle e tale operazione richiede tipicamente diversi cicli di clock che costringono il processore (più veloce della memoria) ad attendere il dato. Ciò comporta l'introduzione di cicli di wait che ovviamente causano un peggioramento delle performace del processore, il quale attende che la memoria gli presenti il dato richiesto segnalato dal segnale di ready.

Per superare tale problema si utilizzano pertanto delle memorie cache, vicine al processore, di piccole dimensioni e molto veloci (tanto che possono avere tempi d'accesso simili a quelli dei registri interni al processore) da cui vengono reperiti i dati necessari all'esecuzione, consentendo in caso di HIT, ovvero nel caso in cui il dato si trovi in cache, di recuperarlo quasi senza ritardo.

Le cache si posizionano nella gerarchia delle memorie (insieme ai registri) tra i livelli più prossimi al processore e ciò comporta da un lato la rapidità nell'accesso e dall'altro le dimensioni limitate che fanno sì che una cache contenga un subset delle linee di memoria del dispositivo a valle (memoria o un livello superiore di cache se presente).

Pertanto quando si accede a una cache possono capitare due casi:

1. il dato si trova nella cache (HIT):

6 Introduzione

2. il dato non è presente e deve essere recuperato da un dispositivo a valle (MISS).

Ovviamente in caso di MISS si deve pagare un costo temporale per il reperimento del dato assente, detto miss penalty, dato dalla somma del tempo d'accesso al dispositivo a valle e dal tempo di trasferimento della linea col dato cercato.

Ciononnostante, è dimostrato che l'hit rate e quindi l'efficienza delle cache è tipicamente molto alta (oltre il 95%) grazie alla validità del Principio di Località spaziale e temporale, per il quale un programma in esecuzione tende ad eseguire temporalmente istruzioni eseguite di recente e ad accedere a dati acceduti di recente. Quindi sulla base di tali considerazioni, l'uso di cache contenenti le linee di memoria più recentemente accedute (working set) consente di migliorare notevolmente il tempo di reperimento dei dati necessari all'esecuzione, evitando quindi i ritardi che si avrebbero per ogni accesso diretto in memoria.

Abbiamo scelto questo progetto per approfondire le tematiche e le problematiche legate alla progettazione di un componente cache da affiancare al processore DLX visto a lezione.

### 1 Obiettivi del progetto

L'attività di progetto svolta si prefigge i seguenti obiettivi

- 1. **Realizzazione memoria cache:** progetto di un component VHDL che realizza il funzionamento di una memoria cache generica.
- 2. **Testbench del component:** progetto di una suite di test per il component.
- 3. **Integrazione con DLX:** modifica del progetto DLX per consentire l'integrazione del component realizzato con il processore

# Caratteristiche della memoria cache

Si è scelto di progettare una cache di tipo set-associative, la cui schematizzazione è mostrata in Fig. 3. Questa tipologia di cache rappresenta un buon compromesso tra flessibilità e costo in termini di silicio.



Figura 1.1: Schematizzazione di una cache set-associative

L'indirizzo di partenza del blocco è diviso in TAG (parte alta), IN-DEX e OFFSET (parte bassa). Il TAG consente di identificare univocamente una linea all'interno di un un sottoinsieme di linee, detto SET. L'INDEX individua immediatamente il SET all'interno del quale è possibile recupeare la linea corrente tramite il confronto del TAG. In questo modo si limita il numero di confronti tra TAG accettando il fatto che ogni linea possa appartenere ad un singolo set. La parte meno significativa dell'indirizzo rappresenta l'OFFSET che consente di individuare il dato all'interno di una linea.

Per garantire maggiore flessibilità si è scelto di parametrizzare alcune delle caratteristiche statiche della cache, quali ad esempio:

- la dimensione dei blocchi
- il numero di vie
- il numero di linee

## 1 Politica di rimpiazzamento

Nel caso in cui si debba caricare una nuova linea e tutte le vie siano occupate è necessario determinare quale linea rimpiazzare. Un buon algoritmo di rimpiazzamento dovrebbe cercare di individuare la linea vittima che meno probabilmente verrà riutilizzata in seguito. Il criterio scelto per effettuare il rimpiazzamento è basato su contatori, che implementa una politica LRU (Least Recently Used). Tale politica è tipicamente implementata poichè statisticamente si verifica principio di località. È quindi presente un contatore per ogni via di ogni set tramite il quale si tiene traccia di quanto recentemente si è acceduti a ciascuna linea: un valore basso del contatore indica un accesso vetusto. Evidentemente la linea candidata al rimpiazzamento risulta essere quella alla quale è associato il contatore di valore più elevato.

Nel caso di HIT su una linea, sono incrementati i valori di contatori

più basso rispetto al valore di quello della linea HIT mentre quest'ultimo viene resettato. Nel caso di MISS si procede con un rimpiazzamento e poi si agisce come nel caso di HIT sulla nuova linea. Infine, in caso di invalidazione di una linea, si porta al valore massimo il contatore della linea invalidata e si decrementano di 1 tutti i contatori con valore più elevato di quello della linea invalidata.

#### 2 Struttura e interfacce

La memoria cache si interfaccia con i dispositivi esterni attraverso 4 tipi di interfacce, come mostrato in Fig. 1.2.



Figura 1.2: Interfacce della memoria cache

L'interfaccia verso il microprocessore, mostrata in Fig. 1.3, consente a quest'ultimo di accedere ai dati memorizzati all'interno della cache.



Figura 1.3: Interfaccia della memoria cache verso il processore DLX

In particolare sono presenti i seguenti segnali:

- ch\_baddr(31-2): indirizzi a 32 bit emessi dal microprocessore
- ch\_bdata(32-0): bus dati con parallelismo 32bit
- **ch\_memwr**: segnale per il comando di scrittura in cache
- **ch\_memrd**: segnale per il comando di lettura da cache
- **ch\_ready**: segnale che indica il termine dell'operazione di lettura/scrittura corrente

Per quanto riguarda gli scambi di dati tra processore e memoria cache, si ipotizza che siano sempre lette e scritte parole di lunghezza fissa a 32 bit.

Anche se la memoria cache progettata non verrà impiegata in sistemi multimaster, si è comunque deciso di affrontare alcune delle problematiche inerenti alla presenza di un controllore di memoria. Tramite l'opportuna interfaccia è ad esempio possibile effettuare l'invalidazione delle linee e lo snooping dei dati presenti in cache.

L'interfaccia verso il controllore di memoria, mostrata in Fig. 1.4, consente di testare e modificare lo stato delle linee.



Figura 1.4: Interfaccia della memoria cache verso il controllore di memoria

In particolare sono presenti i seguenti segnali:

- ch\_eads: inizia il ciclo di snoop
- ch\_inv: richiede l'invalidazione della linea
- ch\_hit: indica che la linea richiesta è presente in memoria

- ch\_hitm: indica che la linea richiesta è presente in memoria in stato modified
- **ch\_flush**: scarica il contenuto della cache sulla RAM (tutto o solo un blocco?, funziona?)

L'interfaccia verso la RAM è mostrata in Fig. 1.5 e consente alla cache di recuperare i blocchi dal livello sottostante.



Figura 1.5: Interfaccia della memoria cache verso la RAM

In particolare sono presenti i seguenti segnali:

- ram\_address(31-2): indirizzi a 32 bit emessi dalla cache
- ram\_data\_out(32-0): bus dati di uscita con parallelismo pari alla dimensione di una linea
- ram\_data\_in(32-0): bus dati di ingresso con parallelismo pari alla dimensione di una linea
- ram\_we: segnale per il comando di scrittura in RAM

- ram\_oe: segnale per il comando di lettura dalla RAM
- ram\_ready: segnale che indica il termine dell'operazione di lettura/scrittura corrente

Si noti che la cache non è a conoscenza del componente posto al livello superiore. Vista la simmetria delle due interfacce è quindi teoricamente possibile sostituire la RAM con un ulteriore livello di cache, inserendo più livelli di cache all'interno del processore.

È presente infine una quarta interfaccia verso l'esterno, utilizzata per monitorare lo stato interno della cache e poter quindi eseguire il debug.

Tale interfaccia, mostrata in Fig. 1.6, non è indispensabile per il corretto funzionamento del dispositivo.



Figura 1.6: Interfaccia utilizzata per il debug della memoria cache

# Realizzazione del componente

La cache è stata realizzata come componente indipendente, detto Cache\_cmp.

In questo capitolo saranno mostrate le caratteristiche principali di tale componente.

#### 1 Strutture dati

I tipi di dati utilizzati sono definiti nel file Cache\_lib.vhd.

Listing 2.1: Costanti e tipi di dato definiti nel file Cache\_lib.vhd

```
CONSTANT OFFSET_BIT : natural := 5;
CONSTANT INDEX_BIT : natural := 2;
CONSTANT TAG_BIT : natural := PARALLELISM - INDEX_BIT -
    OFFSET_BIT;
CONSTANT NWAY : natural := 2;

CONSTANT MESI_M : natural := 3;
CONSTANT MESI_E : natural := 2;
CONSTANT MESI_S : natural := 1;
CONSTANT MESI_I : natural := 0;

TYPE data_line IS ARRAY (0 to 2**OFFSET_BIT - 1) of
    STD_LOGIC_VECTOR (7 downto 0);
```

```
TYPE cache_line IS
    RECORD
    data : data_line;
    status : natural;
    tag : STD_LOGIC_VECTOR (TAG_BIT-1 downto 0);
    Iru_counter : natural;
END RECORD;
```

**TYPE**  $set_ways$  **IS ARRAY** (0 to NWAY - 1) of cache\_line;

TYPE cache\_type IS ARRAY (natural range <>) of set\_ways;

Il numero di bit di offset, indice e tag è stato parametrizzato per rendere più flessibile l'utilizzo del componente.

All'interno di Cache\_lib.vhd sono poi stati definiti i seguenti tipi di dati:

- data\_line: contiene i dati per una linea della cache, la cui dimensione è calcolata in base al numero di bit di offset;
- cache\_line: record contenente le informazioni su dati e stato di una linea;
- set\_ways: array di NWAY linee che compongono una via;
- cache\_type: array di vie, costituisce l'intera cache ??? (non so come scrivere...:S).

Per ogni cache\_line si tiene quindi traccia di:

- data: data\_line relativa alla linea corrente;
- status: indica lo stato MESI della linea;
- taq: bit dell'indirizzo che rappresentano il tag della linea;
- 1ru\_counter: contatore usato dalla politica di rimpiazzamento.

In Fig. 2.1 è mostrata una schematizzazione delle strutture dati utilizzate all'interno della cache.



Figura 2.1: Schematizzazione delle strutture dati della cache

## 2 Implementazione

Il componente Cache\_cmp può concettualmente essere diviso in tre parti, ognuna delle quali si interfaccia rispettivamente con DLX, RAM e controllore di memoria.

Per questo motivo si è deciso di implementare il componente con 3 process indipendenti, i quali utilizzano segnali interni per sincronizzarsi, più un quarto processo che si occupa nello specifico di eseguire il rimpiazzamento delle linee.

#### 2.1 cache\_dlx

Il process cache\_dlx si occupa dell'interfacciamento con il DLX eseguendo le operazioni di lettura e scrittura richieste attraverso gli opportuni segnali di controllo . I compiti di questo process riguardano quindi i seguenti aspetti:

- gestione della lettura di dati dalla cache;
- gestione della scrittura dei dati provenienti dal DLX nella cache;
- attivazione del meccanismo di rimpiazzamento di una linea;
- generazione del segnale di ready per il DLX;

La sensitivity list del processo comprende sia segnali esterni provenienti dal DLX, che segnali interni utilizzati per la sincronizzazione tra i diversi process.

In particolare sono preseti:

- ch\_memrd: segnale esterno per una richiesta di lettura;
- ch\_memwr: segnale esterno per una richiesta di scrittura;
- ch\_reset: segnale esterno per effettuare il reset del contenuto della cache;
- line\_ready: segnale interno che indica il termine di un rimpiazzamento;
- rdwr\_done: segnale interno che indica, in caso di write-through,
   il completamento della scrittura in RAM.

I passi seguito durante una lettura sono:

- 1. Lettura dell'indirizzo dal bus separando index, tag e offset;
- Verifica della presenza della linea in cache attraverso get\_way();
- 3. In caso di MISS, attivazione del process per la politica di rimpiazzamento;
- 4. Aggiornamento dei contatori attraverso cache\_hit\_on();
- 5. Lettura del dato dalla cache ed emissione sul bus ch\_bdata\_- out.

Per quanto riguarda invece la scrittura, si eseguono le seguenti operazioni:

1. Lettura dell'indirizzo dal bus separando index, tag e offset;

2.2.2 cache\_ram 19

 Verifica della presenza della linea in cache attraverso get\_way();

- 3. In caso di MISS, attivazione del process per la politica di rimpiazzamento;
- 4. Scrittura del dato presente in ch\_bdata\_in nella cache;
- 5. Aggiornamento dei contatori attraverso cache\_hit\_on();
- 6. Aggiornamento del bit di stato ed eventuale write-through.

Listing 2.2: Codice VHDL del process cache\_process
Codice del process? Forse diventa un po' lungo...

#### 2.2 cache ram

Questo process si occupa dell'intefacciamento con la RAM. In particolare, attraverso segnali interni di controllo, possono essere attivati i meccanismi di scrittura e di lettura di un dato.

Durante la realizzazione si è ipotizzato che fosse disponibile un segnale di ram\_ready proveniente dall'esterno per indicare il completamento dell'operazione richiesta. Tale segnale è importante poichè le istruzioni all'interno di uno stesso process vengono eseguite in modo parallelo. Nel nostro caso non sarebbe quindi possibile emettere l'indirizzo per la RAM e leggere immediatamente di seguito i dati sul bus ram\_data\_in.

Nel nostro progetto si è supposto che tutti i componenti, compresa la RAM, eseguissero le operazioni in tempo nullo. Tuttavia il segnale ram\_ready diviene indispensabile nel caso in cui si decida di tenere in considerazione i ritardi introdotti da una RAM reale.

#### 2.3 cache\_snoop

Il process cache\_snoop si attiva con il segnale esterno ch\_eads proveniente dal controllore di memoria e consente a quest'ultimo di

operare sullo stato delle linee.

In particolare è possibile sapere se una determinata linea si trova in cache e se il suo stato è MESI\_M.

Tramite il segnale ch\_inv il controllore di memoria può inoltre forzare l'invalidazione di una particolare linea.

Il process cache\_snoop ha il seguente comportamento: se l'indirizzo richiesto non è presente in cache i segnali ch\_hit e ch\_hitm vengo-no portati al valore logico '0'. In caso contrario il comportamento varia in base allo stato della linea che contiene l'indirizzo:

- stato MESI\_E: ch\_hit viene portato al valore '1' e la linea passa in stato MESI\_S;
- stato MESI\_S: ch\_hit viene portato al valore '1' e lo stato della linea resta invariato;

Nel caso in cui il segnale ch\_inv sia attivo il comportamento resta invariato, ma lo stato della linea diventa sempre MESI\_I.

## 2.4 cache\_replace

I meccasmi per il rimpiazzamento delle linee sono eseguiti dal process cache\_replace. In particolare questo process implementa la politica rimpiazzamento basata sui contatori, stabilendo di volta in volta quale linea rimpiazzare.

Il meccanismo non può eseguire tutte le operazioni in un unico ciclo, quindi per poter effettuare la sostituzione di una linea in cache con dei dati presenti in RAM è stato realizzato un *sequencer* che compie le seguenti operazioni:

1. determina la riga da sostituire;

- 2. nel caso in cui tale linea sia in stato MESI\_M effettua il writeback sulla RAM;
- 3. attende eventualmente il termine della scrittura:
- 4. attiva il process per la lettura della nuova linea dalla RAM;
- 5. attende il termine della lettura;
- comunica attraverso il segnale interno line\_ready che il rimpiazzamento è terminato.

#### 2.5 Comunicazione tra processi

I quattro processi si scambiano segnali che consentono la sincronizzazione delle operazioni da svolgere.



Figura 2.2: Collegamenti tra processi

La Fig. 2.2 mostra come sono collegati i seguenti segnali:

 replace\_line: attiva il processo che gestisce il rimpiazzamento di una linea;

- write\_through: attiva la scrittura di una linea in stato MESI\_S in memoria RAM;
- replace\_write: attiva la scrittura di una linea da rimpiazzare in stato MESI\_M in memoria RAM;
- snoop\_write: attiva la scrittura di una linea in stato MESI\_S in memoria RAM in seguito ad uno snoop.

Ogni processo notifica il completamento dell'operazione richiesta attivando un opportuno segnale di ready, come mostrato in Fig. 2.3



Figura 2.3: Collegamenti tra processi

## 3 Procedure interne

Di seguito saranno brevemente descritte le procedure invocate all'interno dei diversi process. (alcune non ci sono più e saranno da cavare)

#### 3.1 cache\_replace\_line

#### Parametri di output:

 selected\_way: via sulla quale è stato caricato il dato rimpiazzato

#### Descrizione:

- Individua la linea da rimpiazzare, cioè quella con lru\_counter massimo
- 2. Controlla se la linea ha stato MESI\_M e in tal caso ne fa il writeback invocando ram\_write ()
- 3. Carica il nuovo blocco nella cache sovrascrivendo il vecchio
- 4. Modifica il bit di stato in base al valore di WT\_WB
- 5. Restituisce il numero della via sulla quale è presente il dato appena caricato

#### 3.2 cache\_hit\_on

#### Parametri di input:

- 1. hit\_index: indice al quale si è verificato l'hit
- 2. hit\_way: via nella quale si è verificato l'hit

#### Descrizione:

Applica la politica di invecchiamento aggiornando i contatori, in particolare:

- incrementa i contatori di valore più basso della via corrente specificata da hit\_way
- 2. resetta il contatore della via corrente

#### 3.3 cache inv on

#### Parametri di input:

• inv\_index: indice da invalidare

• inv\_way: via da invalidare

#### Descrizione:

Applica la politica di invecchiamento aggiornando i contatori, in particolare:

- decrementa i contatori di valore più alto della via corrente specificata da inv\_way
- 2. porta al valore massimo il contatore della via corrente

#### 3.4 get\_way

#### Parametri di input:

1. index: indice

2. tag: tag da controllare

#### Parametri di output:

• way: via nella quale è presente il dato

#### Descrizione:

- 1. Verifica se il dato è in cache, cioè se esiste una linea con tag uguale a quello specificato il cui stato è diverso da MESI\_I
- 2. Se il dato non è presente restituisce way = -1
- 3. Se il dato è presente restituisce il numero della via

## 4 Diagrammi temporali

## 5 Problematiche principali affrontate

(metteri anche tutti i problemi relativi al bus bidirezionale)

# Integrazione con DLX

## 1 Ram\_cmp

Per poter effettuare i test, è stato necessario realizzare una semplice RAM da collegare alla cache...ecc...

Metterei qui una veloce descrizione del componente

- 2 Schemi a blocchi
- 3 Diagrammi temporali

# **Testbench**

Per morlins

## 1 Testbench del componente

I tipi di dati utilizzati sono definiti nel file Cache\_lib.vhd.

Listing 4.1: Costanti e tipi di dato definiti nel file Cache\_lib.vhd

codice...

## 2 Assembler per DLX

## **Block RAM**

Mentre nel nostro progetto per semplicità abbiamo considerato nulli i tempi d'accesso alla cache e alla memoria principale, ovviamente ciò non accade nella realtà dove la struttura gerarchica delle memorie impone vincoli di dimensione e tempi d'accesso per i vari livelli di memoria. Per tale motivo abbiamo voluto approfondire le problematiche relative alle temporizzazioni per gli accessi in memoria che un progetto tradizionale impone. Per far ciò abbiamo considerato ciò che una tipica FPGA dà a disposizione ad un progettista per implementare una memoria ram e gestirne gli accessi in lettura e scrittura.

Nel nostro caso abbiamo analizzato le caratteristiche dell'FPGA della famiglia Spartan-3E di Xilinx, che per gestire la memorizzazione di dati utilizza le Block Ram.

### 1 Caratteristiche e segnali della Block Ram

La memoria RAM presente su una FPGA Spartan-3 viene implementata tramite una serie di Block Ram ripartite in colonne il cui numero e capacità dipende dalle caratteristiche stesse della scheda utilizzata. Dal punto di vista implementativo le Block Ram sono realizzate tramite 18,432 celle di memoria SRAM che consentono pertanto di memorizzare 18 Kbits di cui 16 Kbits di dato e 2 Kbits utilizzati tipica-

30 Block RAM

mente per memorizzare i bit di parità relativi ai dati memorizzati o in alternativa come spazio di memorizzazione aggiuntivo.

L'accesso alla block ram può avvenire o in modalità Single-Port utilizzando una sola porta dati (A o B) oppure in Dual-Port tramite 2 porte indipendenti A e B che consentono di effettuare operazioni di lettura e scrittura su zone diverse del dispositivo.



- Notes:
- w<sub>A</sub> and w<sub>B</sub> are integers representing the total data path width (i.e., data bits plus parity bits) at ports A and B, respectively. See Table 4-8 and Table 4-9.
- 2.  $p_A$  and  $p_B$  are integers that indicate the number of data path lines serving as parity bits.
- 3.  $r_A$  and  $r_B$  are integers representing the address bus width at ports A and B, respectively.
- 4. The control signals CLK, WE, EN, and SSR on both ports have the option of inverted polarity.

Figura 5.1: Pinout Block Ram Single-Port e Dual-Port

Ogni porta della block ram si interfaccia con due bus dati (distinti per l'input e per l'output), con il bus degli indirizzi e dispone di una serie di segnali di comando atti ad abilitare il dispositivo (EN in Single-Port) e a gestire operazioni di lettura (EN) o scrittura (WE). La seguente tabella racchiude i principali segnali illustrati nella figura precedente sia in Single-Port che in Dual-Port. Segnali di comando:

 EN = Enable consente di abilitare il dispositivo e qualora non siano asseriti WE(write enable) o SSR (reset), il segnale comanda a default la lettura della cella di memoria all'indirizzo specificato sul bus degli indirizzi ADDR sul fronte positivo del clock.

|                                                                              |             | Dual   | Port   | Direction |  |
|------------------------------------------------------------------------------|-------------|--------|--------|-----------|--|
| Signal Description                                                           | Single Port | Port A | Port B |           |  |
| Data Input Bus                                                               | DI          | DIA    | DIB    | Input     |  |
| Parity Data Input Bus (available only for byte-wide and wider organizations) | DIP         | DIPA   | DIPB   | Input     |  |
| Data Output Bus                                                              | DO          | DOA    | DOB    | Output    |  |
| Parity Data Output (available only for byte-wide and wider organizations)    | DOP         | DOPA   | DOPB   | Output    |  |
| Address Bus                                                                  | ADDR        | ADDRA  | ADDRB  | Input     |  |
| Write Enable                                                                 | WE          | WEA    | WEB    | Input     |  |
| Clock Enable                                                                 | EN          | ENA    | ENB    | Input     |  |
| Synchronous Set/Reset                                                        | SSR         | SSRA   | SSRB   | Input     |  |
| Clock                                                                        | CLK         | CLKA   | CLKB   | Input     |  |
| Synchronous/AsynchronousSet/Reset<br>(Spartan-3A DSP FPGA only)              | N/A         | RSTA   | RSTB   | Input     |  |
| Output Register<br>(Spartan-3A DSP FPGA only)                                | N/A         | REGCEA | REGCEB | Input     |  |

Figura 5.2: Segnali della Block Ram Single-Port e Dual-Port

- WE = Write Enable consente di comandare un ciclo di scrittura in memoria all'indirizzo specificato sul bus degli indirizzi AD-DR (con EN asserito), tale operazione in base al valore settato nell'attributo WRITE\_MODE può essere affiancata da una lettura contemporanea del dato alla stessa locazione di memoria che viene portato nel buffer di output sul bus DO (della stessa porta).
- SSR = Syncronous Set/Reset consente di settare '1' o resettare '0' i registri di ouput sul bus dati in accordo col valore dell'attributo SRVAL.
- REGCE = Output Register Enable consente in fase di lettura da ram di salvare il dato letto in un output register.
- CLK = è il clock e si può configurare se la memoria debba essere sensibile ai fronti di salita o di discesa.

32 Block RAM

• GSR = Global Set/Reset segnale di sistema utilizzato per in fase di inizializzazione del sistema (non disponibile all'esterno su un pin).

C'é inoltre la possibilità di configurare le polarità di ogni segnale di comando se da considerarsi asserito alto o basso. Interfacciamento ai bus:

- ADDR = bus degli indirizzi la cui larghezza (#:0) dipende dalla configurazione della block ram.
- DI = Data Input Bus (#:0) (l'ampiezza del dato da trasferire dipende dalla configurazione della block ram).
- DO = Data Output Bus
- DIP = Data Input Parity Bus (nei bit più significative del Bus Dati di Input)
- DOP = Data Output Parity Bus (nei bit più significative del Bus Dati di Output)

Possibili configurazioni e organizzazioni della Block Ram sono illustrate in Fig. 5.3.

Nel nostro caso, dal momento che il DLX è un processore a 32 bit, la configurazione necessaria per la block ram è la 512x36. Tale configurazione da la possibilità di accedere fino a 36 bit di dato contemporaneamente, di cui 32 bit di dato veri e 4 di parità posti sui bit più significativi del bus dati. Con tale configurazione la block ram (di 18 Kbit) conterrà 512 entry (memory-depth) da 36 bit (infatti 512x36 bit = 18 Kbits).

## 2 Configurazione della Block Ram

La configurazione della Block Ram avviene tramite una serie di attributi propri dei componenti ram disponibili nelle librerie di sistema



Figura 5.3: Possibili organizzazioni interne della Block Ram

tramite i quali si può settare in base alle specifiche di progetto l'organizzazione interna, la dimensione e diverse altre modalitÀ di funzionamento che la Block Ram offre all'utente.

34 Block RAM

Generalmente il numero di porte della ram e la sua organizzazione interna possono essere specificati utilizzando Xilinx Core Generator che consente di configurare tramite un wizard la Block Ram ottenendo direttamente il codice VHDL del componente ram desiderato oppure si possono utilizzare i tipi VHDL già associati alla Block Ram RAMB16\_Sn dove n corrisponde all'ampiezza del dato + parità.

| Organization | Memory<br>Depth | Data<br>Width | Parity<br>Width | DI/DO  | DIP/DOP | ADDR   | Single-Port<br>Primitive | Total RAM<br>Kbits |
|--------------|-----------------|---------------|-----------------|--------|---------|--------|--------------------------|--------------------|
| 512x36       | 512             | 32            | 4               | (31:0) | (3:0)   | (8:0)  | RAMB16_836               | 18K                |
| 1Kx18        | 1024            | 16            | 2               | (15:0) | (1:0)   | (9:0)  | RAMB16_S18               | 18K                |
| 2Kx9         | 2048            | 8             | 1               | (7:0)  | (0:0)   | (10:0) | RAMB16_S9                | 18K                |
| 4Kx4         | 4096            | 4             | -               | (3:0)  | -       | (11:0) | RAMB16_S4                | 16K                |
| 8Kx2         | 8192            | 2             |                 | (1:0)  | -       | (12:0) | RAMB16_S2                | 16K                |
| 16Kx1        | 16384           | 1             | -               | (0:0)  | -       | (13:0) | RAMB16_S1                | 16K                |

Figura 5.4: La tabella mostra le diverse tipologie di RAMB\_Sn ottenibili dalla Block Ram in base all'organizzazione interna desiderata

• INIT\_XX - INITP\_XX A default la block ram è inizializzata a tutti 0, ma è possibile in inizializzarne il contenuto in diversi modi o direttamente tramite Core Generator al momento della configurazione del componente oppure tramite opportuni attributi VHDL come INIT\_XX e INITP\_XX (per inizializzare i bit di parità). Nel primo caso si passa direttamente un file di coefficienti (.coe) che definisce in primo luogo la base numerica dei dati da inserire e in seguito l'elenco dei dati elencati a partire dalla parte bassa della memoria fino agli indirizzi alti. Un esempio della struttura di tale file è il seguente:

memory\_inizialization\_radix=16; memory\_inizialization\_vector=80, 0F, 00, 0B, ..., 82;

Altrimenti si utilizzano direttamente 64 attributi VHDL INIT\_xx (da INIT\_00 a INIT\_3F) che consentono di inizializzare le 64 zone da 256bit con cui è ripartita la memoria. Gli indirizzi del blocco di memoria da inizializzare identificati da xx sono calcolabili nel seguente modo dopo aver convertito l'indirizzo esadecimale xx nel corrispondente indirizzo decimale yy:

indirizzo iniziale del blocco xx = ((yy+1)\*256) - 1

indirizzo finale del blocco xx = yy\*256

| Attribute | From  | То    |
|-----------|-------|-------|
| INIT_00   | 255   | 0     |
| INIT_01   | 511   | 256   |
| INIT_02   | 767   | 512   |
|           |       |       |
| INIT_3F   | 16383 | 16128 |

Figura 5.5: Attributi di Inizializzazione del contenuto della Block Ram

INITP\_xx sono attributi analoghi che consentono di inizializzare i bit di parit à presenti in memoria (da INITP\_00 a INITP\_07).

- INIT è l'attributo utilizzato in fase di inizializzazione per settare il valore iniziale del registro di output quando viene asserito il segnale GSR.
- WRITE\_MODE è l'attributo che consente di settare il comportamento dei registri in output (relativamente ad una porta) che forniscono il dato sull'Output Data Bus durante un ciclo di scrittura in memoria.

36 Block RAM

WRITE\_FIRST è il valore di default e comporta un comportamento Read after Write della memoria, ovvero durante un ciclo di scrittura il dato in input viene contemporaneamente scritto alla locazione di memoria indicata dall'indirizzo e portato nel registro di output. Nel caso di utilizzo in Dual-Port si ha l'invalidazione del contenuto del registro di output dell'altra porta.



- 2. READ\_FIRST determina un comportamento Read before Write, ovvero prima si carica nel buffer di output il dato (passato) presente alla locazione di memoria specificata dall'indirizzo e poi si sovrascrive tale zona di memoria col dato in ingresso (si effettua la scrittura in memoria).
- NO\_CHANGE determina un comportamento classico di scrittura in memoria senza alcun aggiornamento del dato contenuto nel registro in output. Nel caso di utilizzo in Dual-Port si ha come side-effect l'invalidazione del contenuto del registro di output dell'altra porta.





## 3 Operazioni della Block Ram

Di seguito viene riportato l'elenco delle operazioni che la Block Ram è in grado di gestire e dei relativi segnali impiegati:

- Global Set/Reset: segue la fase di inizializzazione iniziale del contenuto della Block Ram in cui si inizializza la ram o a tutti zeri (default) o ai valori impostati con gli attributi INIT\_xx.
   Tale segnale serve per inizializzare lo stato dei flipflop e registri di output che vengono settati in base al valore specificato dall'attributo INIT (0 a default).
- RAM Disabled: se il segnale EN non è asserito la ram mantiene il proprio stato. Ogni operazione prevede che EN venga asserito affinchè la ram sia attiva.

38 Block RAM

Synchronous Set/Reset: è l'operazione conseguente all'asserzione contemporanea dei segnali EN e SSR. Tale operazione comporta la re inizializzazione dei registri di output al valore specificato dall'attributo SRVAL.

- WE + SSR comporta un ciclo di scrittura in cui il dato in input viene salvato in memoria all'indirizzo presente sul bus degli indirizzi, mentre il registro di output viene impostate al valore SRVAL.
- READ: la lettura sulla block ram avviene in modo sincrono, quindi sul fronte positivo del clock qualora sia asserito il solo segnale di EN.
- WRITE: la scrittura sulla block ram avviene in modo sincrono sul fronte positivo del clock e qualora siano asseriti contemporaneamente EN + WE. La scrittura del dato in input sui pin dell'Input Data Bus avviene all'indirizzo specificato e tale operazione è affiancata contemporaneamente dalla lettura del dato alla stessa locazione di memoria che viene reso disponibile in lettura e caricato sui registri di output (naturalmente la politica con la quale avviene tale operazione di scrittura e lettura simultanea è definita dal valore dell'attributo WRITE\_MODE visto in precedenza).

La seguente tabella racchiude quanto detto in precedenza e associa ad ogni operazione i valori dei segnali associati.

#### 4 Conflitti d'accesso in Block Ram Dual-Port

Utilizzando la block ram in modalità Dual-Port si ha la possibilità di utilizzare contemporaneamente le due porte per accedere alla memoria sia in lettura e scrittura e mentre da un lato ciò consente di aumentare lo throughput complessivo dei dati trasferiti, dall'altro vi sono potenziali problemi di conflitto negli accessi simultanei alle stesse celle di memoria.

Le condizioni di potenziale conflitto si hanno nei seguenti casi:

|     |    | Ir       | put S | ignals |         |         |               | Output             | Signals     | RAM C                      | ontents              |
|-----|----|----------|-------|--------|---------|---------|---------------|--------------------|-------------|----------------------------|----------------------|
| GSR | EN | SSR/RST  | WE    | CLK    | ADDR    | DIP     | DI            | DOP                | DO          | Parity                     | Data                 |
|     |    |          |       |        | In      | nmedia  | tely At       | ter Configurati    | on          |                            |                      |
|     |    | Loaded D | uring | Confi  | guratio | n       |               | X                  | X           | INITP_xx <sup>2</sup>      | INIT_xx <sup>2</sup> |
|     |    | v        |       | Glo    | obal Se | t/Reset | Immed         | dately after Co    | nfiguration |                            |                      |
| 1   | Х  | X        | Х     | Х      | Х       | Х       | X             | INIT <sup>3</sup>  | INIT        | No Chg                     | No Chg               |
|     |    |          |       |        |         |         | RAM           | disabled           |             |                            |                      |
| 0   | 0  | X        | Х     | Х      | Х       | Х       | X             | No Chg             | No Chg      | No Chg                     | No Chg               |
|     |    |          |       |        | 100     | Syn     | chrono        | us Set/Reset       |             | •                          |                      |
| 0   | 1  | 1        | 0     | 1      | Х       | Х       | X             | SRVAL <sup>4</sup> | SRVAL       | No Chg                     | No Chg               |
|     |    | •        |       |        | Ounch   |         | Catho         | not during this    | to DAM      | •                          | •                    |
|     |    |          |       |        | synchi  | ronous  | <b>Setrie</b> | set during Wri     |             |                            |                      |
| 0   | 1  | 1        | 1     | 1      | addr    | pdata   | Data          | SRVAL              | SRVAL       | RAM(addr)<br>+pdata        | RAM(addr<br>data     |
|     |    |          | 9 0   | 10     | F       | lead RA | M, no         | Write Operation    | n           |                            |                      |
| 0   | 1  | 0        | 0     | 1      | addr    | Х       | Х             | RAM(pdata)         | RAM(data)   | No Chg                     | No Chg               |
|     |    | 00       | 0.00  | - 1    | Write F | RAM, SI | multan        | eous Read Op       | eration     |                            |                      |
| 0   | 1  | 0        | 1     | 1      | addr    | pdata   | Data          | WRIT               | E_MODE = W  | RITE_FIRST <sup>5</sup> (d | efault)              |
|     |    |          |       | ***    |         |         |               | pdata              | data        | RAM(addr)<br>+pdata        | RAM(addr<br>data     |
|     |    |          |       |        |         |         |               | WRITE_N            | MODE - READ | _FIRST <sup>6</sup> (recon | nmended)             |
|     |    |          |       |        |         |         |               | RAM(data)          | RAM(data)   | RAM(addr)<br>+pdata        | RAM(addr<br>+pdata   |
|     |    |          |       |        |         |         |               | W                  | RITE_MODE   | NO_CHANG                   | E7                   |
|     |    |          |       |        |         |         |               | No Chg             | No Chg      | RAM(addr)                  | RAM(addr             |

1. Scrittura simultanea sulle due porte alla stessa locazione di memoria.

Tale situazione non ha un meccanismo di arbitraggio per far fronte ad accessi in scrittura simultanei, ma l'effetto prodotto Ã" quello di comportare l'invalidazione del contenuto dell'area di memoria coinvolta.

2. Conflitti per temporizzazioni clock-to-clock tra le due porte. Ciò accade a causa dei clock diversi che comandano le operazioni tra le due porte che sono troppo ravvicinati tra loro e il clock della porta in lettura non rispetta i tempi di setup per l'accesso in scrittura al dispositivo (arriva troppo presto quan**40** Block RAM

do ancora non la scrittura in memoria non ha terminato). Un esempio è il seguente:



Nel primo caso, la porta B inizia la scrittura in memoria all'indirizzo aa del dato 3333 e poco dopo, prima che la scrittura abbia terminato, arriva il fronte del CLK\_A che fa iniziare la lettura allo stesso indirizzo aa violando il tempo di setup necessario per scrivere il dato in memoria. Nel secondo caso invece si ha la scrittura da parte della porta B all'indirizzo bb del dato 4444 e in questo caso CLK\_A rispetta le temporizzazioni di scrittura e la porta A legge il dato correttamente scritto in memoria.

3. Scrittura e Lettura contemporanea sulla stessa zona di memoria in funzione del WRITE\_MODE impostato.
Nei casi di scrittura su una porta e lettura sull'altra, se si utilizza WRITE\_MODE= NO\_CHANGE o WRITE\_FIRST, la scrittura su una porta invalida automaticamente il contenuto del registro di output (in lettura) dell'altra porta, per tale motivo è consi-

gliabile la modalit à di scrittura READ\_FIRST per evitare conflitti sulla porta in lettura.

|     |      |        | Input  | Signals |          |          |        |         | Output   | Signals |        |
|-----|------|--------|--------|---------|----------|----------|--------|---------|----------|---------|--------|
|     | Por  | Port A |        |         | Port B   |          |        | Por     | rt A     | Port B  |        |
| WEA | CLKA | DIPA   | DIA    | WEB     | CLKB     | DIPB     | DIB    | DOPA    | DOA      | DOPB    | DOB    |
|     |      |        |        | ١       | VRITE_M  | DDE_A=N  | O_CHA  | NGE     |          |         |        |
| 1   | 1    | DIPA   | DIA    | 0       | 1        | DIPB     | DIB    | No Chg  | No Chg   | ?       | ?      |
| 10  |      |        |        | ١       | VRITE_M  | DDE_B=N  | O_CHA  | NGE     |          |         |        |
| 0   | 1    | DIPA   | DIA    | 1       | 1        | DIPB     | DIB    | ?       | ?        | No Chg  | No Chg |
|     |      |        |        | V       | VRITE_MC | DE_A=W   | RITE_F | IRST    |          |         |        |
| 1   | 1    | DIPA   | DIA    | 0       | 1        | DIPB     | DIB    | DIPA    | DIA      | ?       | ?      |
|     |      |        |        | V       | VRITE_MC | DE_B=W   | RITE_F | IRST    |          |         |        |
| 0   | 1    | DIPA   | DIA    | 1       | 1        | DIPB     | DIB    | ?       | ?        | DIPB    | DIB    |
| 78  |      | W      | RITE_M | ODE_A   | WRITE_F  | IRST, WR | ITE_MC | DE_B=WR | TE_FIRST |         |        |
| 1   | 1    | DIPA   | DIA    | 1       | 1        | DIPB     | DIB    | ?       | ?        | ?       | ?      |

Per semplicità implementativa la Block Ram non implementa un sistema di arbitraggio per gestire tali conflitti che sono lasciati a cura del progettista e comunque in caso di conflitto dovuto a scritture contemporanee non si verificano danni fisici al dispositivo di memoria.

## 5 Possibili utilizzi della Block Ram in un progetto su FPGA

La Block Ram può essere utilizzata in un progetto su FPGA per implementare una serie di funzionalità che coinvolgano la memorizzazione di dati. I principali possibili utilizzi sono i seguenti:

- RAM utilizzata da un microprocessore integrato sull'FPGA per memorizzare dati accessibili in lettura e scrittura.
- 2. ROM realizzata attraverso l'inizializzazione del suo contenuto all'avvio del sistema e accessibile in sola lettura.
- 3. Memorie FIFO.

42 Block RAM

## 6 Realizzazione di un progetto d'esempio

Tipicamente per utilizzare la block ram all'interno di un progetto si procede come segue:

- 1. Si crea un componente Block Ram configurandolo in base alle specifiche di progetto, settando il numero di porte volute, l'ampiezza dei dati da trasferire, la dimensione della ram voluta, etc. Tale operazione può essere fatta o ricorrendo ad una serie di template presenti tra i Language Templates Ram di ISE oppure tramite una configurazione ad hoc tramite Xilinx Core Generator che tramite un wizard consente di personalizzare il componente Ram di cui si ottiene infine il codice VHDL.
- 2. Si integra il componente all'interno del progetto dichiarandolo nell'Architecture del componente finale e creandone un istanza tramite il port mapping.
- Si utilizza il componente che rappresenta la Block Ram comandando i segnali di input e gestendo opportunamente i valori in output.

Al fine di testare il funzionamento della Block Ram e approfondire le problematiche che vi sarebbero state nel progettare una cache reale che si interfaccia con una Ram esterna il cui tempo di accesso non è nullo, abbiamo realizzato un componente Ram ad hoc. Tale componente rappresenta una memoria Ram sincrona (il cui funzionamento è scandito dal clock in ingressso) realizzato con lo scopo di interfacciarsi con il nostro componente cache. Per comodità abbiamo ipotizzato che il nuovo componente, BlockRam\_cmp, si interfacci alla cache sempre tramite un bus dati dell'ampiezza della linea di memoria da trasferire. Tale ipotesi che ovviamente è semplificativa e porta ad una potenziale complessità del cablaggio del bus dati è tuttavia lecita dal momento che i trasferimenti tra cache e ram coinvolgono sempre linee di memoria. Ciò detto, il nuovo componente prevede l'utilizzo al suo interno di un componente BRAM16\_s9 capace di leggere e scrivere sulla Block Ram dati

da 8 bit (+ 1 bit di parità che non abbiamo considerato). La scelta di tale componente Block Ram Ã" derivata dall'ipotesi che le linee di memoria sono di dimensione sempre multipla di 1 Byte e quindi il componente BlockRam\_cmp ad ogni operazione di lettura o scrittura di una linea dovrà provvedere ad un ciclo di trasferimento dei singoli Byte costitutivi la linea a partire dall'indirizzo specificato in ingresso sul bus degli indirizzi che ad ogni accesso dovrà essere incrementato opportunamente. In particolare i casi gestiti sono due:

- Scrittura di una linea in Block Ram: deve prevedere il campionamento della linea in ingresso al bus dati di input e provvedere al trasferimento della linea byte per byte su block ram tramite una serie di scritture.
- 2. Lettura di una linea da Block Ram: deve prevedere un buffer (una variabile VHDL mem\_line) che viene riempito man mano attraverso n letture di byte dalla Block Ram (dove n è il numero di byte che compongono una linea); Al termine la linea letta deve essere data in uscita sul bus dati di output verso la cache.

Naturalmente l'accesso alla Block Ram non è istantaneo ma comporta un tempo d'accesso necessario che deve essere considerato per generare opportunamento il segnale di ready laddove l'operazione di scrittura/lettura dell'intera linea di memoria ha terminato, segnalando ciò al processore e alla cache.

# Conclusioni

Non dimentichiamoci di fare le conclusioni.

# Bibliografia