# 4/2/2014

# ESERCIZIO 2 (pt 23, PROGETTO): DMAC, Task e Cache

Un sistema S con bus di memoria da 64 bit e bus di I/O da 8 bit dispone di 3 Porte Parallele di ingresso da 8 bit P\_IN1, P\_IN2, P\_IN3 gestite in DMA, una porta seriale di uscita S\_OUT0 gestita anch'essa in DMA, un Pentium P, un PIC e memoria costituita da 1 MB di EPROM (mappata agli indirizzi fisici alti) e 1 MB di RAM (mappata agli indirizzi bassi).

Il Pentium dispone di una cache dati a 2 vie da 8KB complessivi e linee da 32 byte, gestita con stato MESI e con politica di scrittura Write-Around in caso di miss.

Il sistema S funziona con memoria virtuale disabilitata e l'applicazione dispone di un unico segmento dati SD mappato all'indirizzo fisico 10000 H. Nel segmento sono memorizzati a indirizzi adiacenti 4 vettori di 2KB l'uno, denominati rispettivamente A1, A3, A4 e RIS (A1 parte dall'indirizzo 10000 H).

**S** riceve in DMA dalle 3 porte parallele P\_INi i 3 vettori Ai, quindi esegue la seguente operazione vettoriale:

#### RIS = (A1 OR A2) AND A3

Completata l'elaborazione, il vettore RIS viene trasmesso in DMA sulla porta di uscita S\_OUT0. I dati arrivano sulle 3 porte di ingresso con tre flussi concorrenti e con una cadenza approssimativa di 2 KB/s per canale. La porta seriale S\_OUT0 è una UART funzionante a 9600b/s. Un unico task T0 gestisce le tre porte parallele ed esegue l'elaborazione una volta completata la ricezione su tutti e tre i canali che, come già detto, avviene con flussi di dati concorrenti. Ad avvenuta elaborazione, viene fatto partire il task T1 che si incarica di trasmettere sulla seriale il vettore RIS appena elaborato e, al termine della trasmissione, ciclicamente, fa ripartire la ricezione dalle tre porte di ingresso.

Si risponda ai seguenti quesiti, motivando le risposte:

- 1. Si disegni lo schema a blocchi di S, si disegni la mappa della memoria che mostra il segmento dati SD con i suoi componenti, si definisca il data segment SD e se ne costruisca il desdrittore. (punti 2)
- 2. Su integrino nel sistema le porte di ingresso e uscita, il DMAC, il PIC e **la memoria** e si indichi quali canali di DMA si utilizzano e quanti e quali segnali di *interrupt request* vengono generati. Si dica come vengono programmati il DMAC e i registri esterni del DMAC e **si disegni il contenuto della IDT.** (punti 5)
- 3. Si disegnino con cura le flow chart dei tast T0, T1 e Idle (indicando per bene le operazioni di controllo sui dispositivi mappati in I/O) e si indichi la sequenza dei task running, ci si fermi al termine della prima trasmissione di RIS alla seriale. Come si fa a essere sicuri che non si perdano interrupt e, al tempo stesso, che l'arrivo di un interrupt non faccia partire il task T0 quando questo è BUSY? Si faccia l'ipotesi che il PIC sia programmato in positive edge triggered mode. (punti 5)
- 4. Impiegando le informazioni precedenti, si indichi approssimativamente dopo quanto tempo termina la trasmissione del primo messaggio a S\_OUTO. Durante questo periodo cosa fa principalmente la CPU? (punti -2...1)

- 5. Per 10 punti si analizzi la dinamica della **cache** dati e si risponda in modo il più possibile **conciso e tabellare** ai seguenti quesiti:
  - (a) Quali sono gli indici di set e i tag associati ai vettori A1, A2, A3 e RIS?
  - (b) Qual è lo stato della cache al termine della prima ricezione dei 3 vettori A1, A2, A3?
  - (c) Si scriva la sequenza di operazioni elementari con cui si esegue l'elaborazione (si scriva la prima iterazione usando ad esempio l'assembler del DLX), quindi se ne calcoli la miss rate. Si riesce a ottenere una miss rate complessiva inferiore al 2.5%? Qual è la più bassa miss rate ottenibile e qual è la sequenza di istruzioni con cui la si ottiene? E in questo caso quanti sono gli accessi?
  - (d) Nella soluzione prescelta al punto precedente, vale il principio di località temporale? E quello di località spaziale? Quanto incidono (qualitativamente= questi principi sulla miss rate?
  - (e) Qual è lo stato della cache negli istanti di fine elaborazione e fine trasmissione di RIS alla seriale?
  - (f) Avrei ottenuto miss rate diverse con cache di 16KB? E con cache di 4KB? (Si considerino solo cache con due vie e linee di 32 byte)

# 0.1 Esercizio 1 - Punti 2

Lo schema a blocchi è quello in figura 1, mentre il segmento dati SD è mappato in memoria secondo la tabella 1.



Figura 1: Schema a blocchi di  ${\bf S}$ .

Tabella 1: Mappa della memoria del segmento SD.

|                            | Banco 7   | Banco 6   | Banco 5 | Banco 4 | Banco 3 | Banco 2 | Banco 1 | Banco 0   |                            |
|----------------------------|-----------|-----------|---------|---------|---------|---------|---------|-----------|----------------------------|
|                            |           |           |         |         |         |         |         |           |                            |
| $11\mathrm{FFF}\mathrm{H}$ | RIS(2K-1) | RIS(2K-2) |         |         |         |         |         | RIS(2K-8) | 11FF8H                     |
|                            | •••       |           |         |         |         | •••     | •••     |           |                            |
| $11807\mathrm{H}$          | RIS(7)    | RIS(6)    |         |         |         |         |         | RIS(0)    | $11800\mathrm{H}$          |
| $117\mathrm{FF}\mathrm{H}$ | A3(2K-1)  | A3(2K-2)  |         |         |         |         |         | A3(2K-8)  | $117\mathrm{F}8\mathrm{H}$ |
|                            |           |           |         |         |         |         |         |           |                            |
| $11007\mathrm{H}$          | A3(7)     | A3(6)     |         |         |         |         |         | A3(0)     | $11000\mathrm{H}$          |
| $10\mathrm{FFF}\mathrm{H}$ | A2(2K-1)  | A2(2K-2)  |         |         |         |         |         | A2(2K-8)  | $10\mathrm{FF}8\mathrm{H}$ |
|                            |           |           |         |         |         |         |         |           |                            |
| $10807\mathrm{H}$          | A2(7)     | A2(6)     |         |         |         |         |         | A2(0)     | $10800\mathrm{H}$          |
| $107\mathrm{FF}\mathrm{H}$ | A1(2K-1)  | A1(2K-2)  |         |         |         |         |         | A1(2K-8)  | 10FF8H                     |
|                            |           |           |         |         |         |         |         |           |                            |
| $10007\mathrm{H}$          | A1(7)     | A1(6)     |         |         |         |         |         | A1(0)     | $10000\mathrm{H}$          |
|                            |           |           |         |         |         |         |         |           |                            |

In codice assembly il segmento è così definito:

SD segment at 10000H
 A1 w 1024dup
 A2 w 1024dup
 A3 w 1024dup
 RIS w 1024dup
SD ends

Il segmento parte all'indirizzo  $1\,0000\,\mathrm{H}$  ed è composto da 4 vettori di 2KB l'uno, per un totale 8KB. L'offset del segmento è quindi:

$$[8KB]_H - 1H = 20000H - 1H = 1FFFH$$

Il descrittore, perciò, è quello riportato in tabella 2.

Tabella 2: Descrittore di SD. W G H 000 В 0 AVL 0 HDPL 0 1 Α  $01\,\mathrm{H}$  $0000 \, \mathrm{H}$ 1FFFH

# 0.2 Esercizio 2 - Punti 5

Nel sistema abbiamo tre porte d'ingresso parallele e una porta d'uscita seriale. Per porta UART (Universal Asynchronous Receiver-Transmitter) non si intende altro che un dispositivo che converte un flusso di bit da una porta parallela in un formato seriale asincrono (o viceversa) con il quale si interfaccia al sistema. Per i nostri scopi, perciò, è da considerare come una qualunque porta seriale. Difatti, la porta 8250 è una UART.

Fissato ciò, passiamo a interfacciare i dispositivi con il sistema. È importante ricordare che tutti i dispositivi sono gestiti in DMA. La nostra, fortuna, in questo caso, è che i dispositivi sono "solo" quattro (tre porte parallele e una seriale), perciò un unico DMAC a quattro canali sarà sufficiente per gestirli tutti. In caso contrario, avremmo dovuto utilizzarne almeno tre: uno in cascade mode al quale ne sarebbero stati collegati almeno altri due in demand mode o single mode. Ma non è questo il nostro caso.

#### 0.2.1 Indirizzamento

Preoccupiamoci, prima ancora di affrontare l'interfacciamento al sistema, di indirizzare ogni componente di esso. La tabella 3 organizza tutti gli indirizzi, la loro decodifica semplificata e i nomi dei segnali di *chip select*.

#### 0.2.2 Encoder

Come prologo al nostro interfacciamento, è utile preporre l'encoder in figura 2 nella pagina seguente che traduce i segnali BE[7...0]# in BA[2..0] per indirizzare i dispositivi di I/O.

Tabella 3: Tabella degli indirizzi di tutti i dispositivi

| Dispositive | o M/IO | Indirizzo iniziale        | Indirizzo finale          | Decodifica semplificata                                                                  | Segnali di comando    | Nome del CS |
|-------------|--------|---------------------------|---------------------------|------------------------------------------------------------------------------------------|-----------------------|-------------|
| RAM         | M      | 0000 0000 H               | 000F FFFF H               | $\overline{\mathrm{BA31}}$                                                               | MEMRDC#, MEMWRC#      | CS_RAM      |
| EPROM       | M      | $\mathrm{FFF00000H}$      | FFFFFFFFH                 | BA31                                                                                     | MEMRDC#               | CS_EPROM    |
| DMAC        | IO     | $0100\mathrm{H}$          | 010FH                     | $\overline{BA12} \cdot \overline{BA11} \cdot \overline{BA10} \cdot BA9$                  | IORDC#, IOWRC#        | $CS_DMAC$   |
| PIC         | IO     | $0200\mathrm{H}$          | $0201\mathrm{H}$          | $\overline{BA12} \cdot \overline{BA11} \cdot BA10 \cdot \overline{BA9}$                  | IORDC#, IOWRC#, INTA# | CS_PIC      |
| P_IN0       | IO     | $0300  \mathrm{H}$        | 0303  H                   | $\overline{BA12} \cdot \overline{BA11} \cdot BA10 \cdot BA9$                             | IORDC#                | CS_P_IN0    |
| P_IN1       | IO     | $0400\mathrm{H}$          | $0403  \mathrm{H}$        | $\overline{BA12} \cdot BA11 \cdot \overline{BA10} \cdot \overline{BA9}$                  | IORDC#                | CS_P_IN1    |
| $P_{-}IN2$  | IO     | $0500\mathrm{H}$          | $0503\mathrm{H}$          | $\overline{BA12} \cdot BA11 \cdot \overline{BA10} \cdot BA9$                             | IORDC#                | $CS_P_IN2$  |
| $S\_OUT0$   | IO     | $0600  \mathrm{H}$        | $0607\mathrm{H}$          | $\overline{\text{BA12}} \cdot \text{BA11} \cdot \cdot \overline{\text{BA9}}$             | IOWRC#                | $CS_S_OUT0$ |
| HL0         | IO     | $0700\mathrm{H}$          | $0700\mathrm{H}$          | $\overline{\mathrm{BA12}}{\cdot}\mathrm{BA11}{\cdot\cdot}\mathrm{BA10}\cdot\mathrm{BA9}$ | IOWRC#                | $CS_HL0$    |
| $_{ m HH0}$ | IO     | $0800  \mathrm{H}$        | $0800\mathrm{H}$          | $BA12 \cdot \overline{BA11} \cdot \overline{BA10} \cdot \overline{BA9}$                  | IOWRC#                | CS_HH0      |
| HL1         | IO     | $0900  \mathrm{H}$        | $0900  \mathrm{H}$        | $BA12 \cdot \overline{BA11} \cdot \overline{BA10} \cdot BA9$                             | IOWRC#                | $CS_HL1$    |
| HH1         | IO     | $0A00\mathrm{H}$          | $0A00\mathrm{H}$          | $BA12 \cdot \overline{BA11} \cdot BA10 \cdot \overline{BA9}$                             | IOWRC#                | CS_HH1      |
| HL2         | IO     | $0\mathrm{B}00\mathrm{H}$ | $0\mathrm{B}00\mathrm{H}$ | $BA12 \cdot \overline{BA11} \cdot BA10 \cdot BA9$                                        | IOWRC#                | $CS_HL2$    |
| HH2         | IO     | $0C00\mathrm{H}$          | $0C00\mathrm{H}$          | $BA12 \cdot BA11 \cdot \overline{BA10} \cdot \overline{BA9}$                             | IOWRC#                | $CS\_HH2$   |
| HL3         | IO     | 0D00H                     | $0\mathrm{D}00\mathrm{H}$ | $BA12 \cdot BA11 \cdot \overline{BA10} \cdot BA9$                                        | IOWRC#                | CSHL3       |
| HH3         | IO     | 0E00 H                    | 0E00 H                    | $BA12 \cdot BA11 \cdot BA10 \cdot \overline{BA9}$                                        | IOWRC#                | CS_HH3      |



Figura 2: Schema a blocchi dell'encoder.

## 0.2.3 Porte parallele P\_INi

Tutte le porte parallele si interfacciano allo stesso modo. Notare, in figura 3, che i segnali CS\_P\_IN, BA0 e BA1 non sono direttamente interfacciati con la porta, ma in *multiplexing* con DACKi il *chip select* e con la massa i BA[0,1]. Tutti i multiplexer sono controllati dal segnale HOLDA inviato dalla CPU. Questo per far sì che il dispositivo sia attivo solo quando il DMAC ha ottenuto il controllo del bus. Infine, il segnale SRQ è inviato al DREQi del DMAC. Se le porte fossero state gestite ad interrupt, i segnali sarebbero dovuti essere inviati ai piedini IRi del PIC. Ma, ancora una volta, **non è questo il nostro caso**.



Figura 3: Schema a blocchi delle porte parallele P\_INi.

#### 0.2.4 Porta Seriale S\_OUT0

L'interfacciamento della porta seriale è analogo a quello delle porte parallele, con le ovvie differenze nei segnali di comando, SRQ e *chip select*. In figura 4 nella pagina seguente, lo schema circuitale.

#### 0.2.5 RAM

La RAM è formata da 8 banchi di  $\frac{1\text{MB}}{8}=\frac{2^{20}\text{B}}{2^3}=2^{17}\text{B}=128\text{KB}$  ciascuno. Un i-esimo banco è interfacciato con il sistema come in figura 5 nella pagina successiva.



Figura 4: Schema a blocchi della porta seriale S<sub>-</sub>OUT0.



Figura 5: Schema a blocchi dell'i-esimo banco di RAM.

#### 0.2.6 EPROM

La EPROM è organizzata esattamente come la RAM, anch'essa in banchi da 128KB. L'unica differenza, come si evince dalla figura 6, è solo nel fatto che, per sua natura, la EPROM è una memoria read only e perciò non è presente alcun pin WR\*.



Figura 6: Schema a blocchi dell'i-esimo banco di EPROM.

### 0.2.7 DMAC

Il DMAC è il componente più laborioso da interfacciare. Per semplicità, dividiamo il problema in due parti. Una prima parte riguarda effettivamente il DMAC e i componenti ad esso più direttamente connessi (figura 7 nella pagina successiva). La seconda parte riguarda i latches a 8 bit che interfacciano l'IOB con il BA (figura 8 nella pagina seguente). È necessaria una coppia per ogni canale del DMAC perché questo è stato progettato per sistemi con bus di indirizzi a 8 bit, mentre il nostro sistema prevede un bus indirizzi a ben 32 bit. Per sopperire a questa discrepanza, si utilizzano dei latches opportunamente programmati dalla CPU.

## Programmazione del DMAC

Il DMAC utilizza quattro canali, ognuno associato ad un dispostivo di I/O e ad una coppia di *latches*. Ogni dispositivo si occupa del trasferimento di un vettore di 2KB, conseguentemente si avranno 2K trasferimenti per ogni canale DMA, avendo il bus di I/O un parallelismo di 1 byte. Per ogni canale del DMAC dobbiamo programmare:

- BAR (Base Address Register): indica l'indirizzo iniziale da trasferire;
- BCR (Base Counter Register): indica l'offset di indirizzo dopo tutti i trasferimenti;
- LATCH\_HH e LATCH\_HL: sono programmati per indirizzare i 16 MSB di indirizzo;
- MR[7...0] (Mode Register): registro a 8 bit identifica la modalità di funzionamento del canale.

In particolare, i bit del mode register, assumono i seguenti significati:

MR[7,6] MODE: 00: demand mode; 01: single mode; 02: block mode; 03: cascade mode.

MR[5] Vale 0 se si vuole lavorare a indirizzi crescenti, 1 altrimenti.



Figura 7: Schema a blocchi del DMAC.



Figura 8: Schema a blocchi dei latches HH e HL.

Tabella 4: I valori con cui programmare il DMAC

| Channel | BAR              | BCR                        | LATCH_HL       | LATCH_HH       | MR[70]   |
|---------|------------------|----------------------------|----------------|----------------|----------|
| 0       | $0000\mathrm{H}$ | $07 \mathrm{FF}\mathrm{H}$ | 01 H           | 00 H           | 01000100 |
| 1       | $0800\mathrm{H}$ | $07 \mathrm{FF}\mathrm{H}$ | $01\mathrm{H}$ | $00\mathrm{H}$ | 01000101 |
| 2       | $1000\mathrm{H}$ | $07 \mathrm{FF}\mathrm{H}$ | $01\mathrm{H}$ | $00\mathrm{H}$ | 01000110 |
| 3       | $1800\mathrm{H}$ | $07 \mathrm{FF}\mathrm{H}$ | $01\mathrm{H}$ | $00\mathrm{H}$ | 01001011 |

MR[4] Vale 1 se è abilitato l'autoinit, 0 altrimenti.

MR[3,2] 00: verify; 01: write; 10: read 11: illegale; XX se in cascade mode.

MR[1,0] CHANNEL SELECT: indica quale canale si sta utilizzando

Vengono riportati in tabella 4 i valori della programmazione.

#### 0.2.8 PIC

Il PIC richiede un interfacciamento leggermente complesso. Ogni entrata per gli *interrupt* IRi è attivata dall'OR dei segnali EOP# e DACKi#. Questo interfacciamento ci permette di non perdere gli interrupt e non far partire un task inopportuno nel caso arrivino contemporaneamente più richieste. I dettagli saranno esaminati in dettaglio nel prossimo punto dell'esame. Per ora, si faccia riferimento allo schema a blocchi in figura 9.



Figura 9: Schema a blocchi del PIC.

## IDT

La IDT contiene due task gate per gestire i due tipi di interrupt possibili:

- Interrupt proveniente dal DMAC in conseguenza dell'avvenuto trasferimento dalle porte parallele alla memoria e inviato su IR0, IR1 e IR2 (INT\_TYPE=30 H);
- Interrupt proveniente dal DMAC in conseguenza dell'avvenuto trasferimento dalla memoria alla porta seriale e inviato su IR3 (INT\_TYPE=31 H).

Tabella 5: Descrittore del task gate.

|                                           |   | $85\mathrm{H}$ |   |    |       |     |   |          |
|-------------------------------------------|---|----------------|---|----|-------|-----|---|----------|
| Reserved                                  | 1 | DPL            | 0 | 0  | 1     | 0   | 1 | Reserved |
| Activating task TSS descriptor's selector |   |                |   | Re | eserv | red |   |          |

In tabella 5 il descrittore del task gate e di seguito il codice assembly del descrittore della IDT:

```
IDT_START:
DESCRITTORI gate 030H dup(?)

30H TO_GATE task_gate <0,2,0,85H,0>
31H T1_GATE task_gate <0,3,0,85H,0>
IDT_END
```

## 0.3 Esercizio 3 - Punti 5

Le flow chart sono di facile realizzazione, purché si tengano bene a mente i seguenti punti:

- Ogni canale del DMAC possiede le proprie coppie di registri BAR, CAR, BCR e CCR, perciò non è necessario riprogrammarli ogniqualvolta venga terminato un singolo trasferimento.
- Operando in *single mode*, il DMAC rilascia il bus ogniqualvolta venga terminato un trasferimento elementare da un qualsiasi canale; questo genera sicuramente *overhead*, ma data la mole dei dati da trasferire, riduciamo l'altrimenti alto rischio di *starvation* della CPU.
- Il DMAC genera il segnale EOP solo dopo il trasferimento dell'ultimo byte su un canale.
- Dopo la generazione di EOP, il canale corrispondente si maschera automaticamente.

#### 0.3.1 Flow chart dei task Idle, T0 e T1

In figura 10 è rappresentata la *flow chart* del task **Idle** che non merita alcun particolare commento: esso si preoccupa solamente di mantenere in attesa e a basso consumo energetico la CPU.

Figura 10: Flow chart del task Idle



In figura 11 nella pagina successiva è rappresentata la *flow chart* del task di ricezione **T0**. Dopo aver opportunamente programmato il DMAC e smascherato i canali e gli interrupt necessari, inizializza i trasferimenti e si pone in attesa di un *interrupt* dovuto ad un EOP generato da un *qualsiasi canale DMAC tra CH0*, *CH1 e CH2*. Ricevuto uno qualsiasi di questi, incrementa una variabile interna e attende il prossimo. Quando la variabile interna raggiunge il valore 3, cioè quando sono stati ricevuti tutti e tre i vettori, maschera gli *interrupt*, esegue le operazioni e trasferisce il controllo al task T1.



La flow chart del task **T1** è rappresentata in figura 12. Il comportamento è analogo al task T0, ad eccezione del fatto che si deve preoccupare solo del canale DMAC CH3 e delle richieste di interrupt da IR3. Non deve operare su alcuna variabile interna, poiché il trasferimento è su una sola porta, né fare alcun altro tipo di operazione. Di conseguenza, al termine della trasmissione, restituisce il controllo al task T0.



La sequenza dei task running, infine, è la seguente:

$$T_I \to T_0 \to \underbrace{T_I \to T_0}_{\times 3} \to T_1 \to T_I \to T_1 \to T_0 \to \dots$$

#### 0.3.2 Gestione degli interrupt

Gli interrupt non possono essere persi grazie all'interfacciamento che abbiamo dotato e alla capacità del PIC di funzionare in positive edge triggered mode, ovvero di riconoscere un'interrupt quando su un piedino IRi **non mascherato** vi è un fronte di salita, anziché riconoscerlo quando è presente un 1 logico. Utilizzando come input per IRi l'OR tra EOP# e DACKi#, questo è sempre garantito, poiché per avere un fronte positivo bisogna avere prima entrambi i segnali attivi bassi, dopodiché se ne deve disattivare uno. Nel nostro caso, ovviamente, EOP# si pone attivo basso solo se il corrispondente DACKi# è già attivo basso, portandosi poi al livello logico alto e facendo avvenire il fronte di salita sul piedino IRi del PIC. Nel grafico in figura 13 nella pagina successiva è esemplificato il caso in cui due canali terminino la loro transizione. Anche se DACK1# è attivo basso, nessun interrupt viene inviato al PIC finché non avviene il trasferimento dell'ultimo byte e viene generato il segnale EOP#. Quando in  $t_1$  il segnale EOP# torna alto, avviene un fronte positivo sul piedino IR1 del PIC e viene servito il corrispondente interrupt. Stesso discorso può farsi per il canale CH0, con il segnale DACK0# e EOP#.



Figura 13: Segnali in ingresso al PIC.

Se i trasferimenti in scrittura sono tutti ultimati, il task T0 maschera IR0, IR1 e IR2 e nessuno di questi interrupt verrà più servito.

#### 0.3.3 Note e possibili errori

Questa parte di esercizio è oscura in alcuni punti. Mi sono personalmente venuti in mente degli errori o dei modi diversi per risolverlo. Finché non avverrà la correzione ufficiale dell'esame, sottopongo le mie perplessità e gli eventuali modi alternativi di procedere.

- In linea teorica, credo si potesse configurare il DMAC anche in *block mode*. Secondo me, però, avrebbe minato la concorrenza delle operazioni.
- È corretto utilizzare un unico interrupt per tutti i trasferimenti in scrittura dalle porte parallele? Il notevole dubbio che mi è venuto in mente è il seguente: se, ad esempio, la porta P\_IN0 finisce il suo trasferimento molto prima delle altre due, IR0 rimane smascherato e le probabilità che giungano nuovi dati sono tutt'altro che nulle. Quindi si attiverebbe una seconda transazione sul canale CH0, sovrascrivendo il dato precedente. Invece, dovremmo attendere che tutte le scritture siano terminate e che siano state svolte le operazioni vettoriali. La mia idea, quindi, era di utilizzare un INT\_TYPE differente per ogni canale. In tal caso...come cambia la flow chart? Personalmente non so come rappresentare la seguente sequenza di istruzioni (in pseudocodice):

```
while(N_T < 3)
do
    IRET;
    waitFor(interrupt);
    int channel <- interrupt.type-30H;
    maskInterruptChannel(channel);
    N_T <- N_T+1
od;
RIS=(A1+A2)*A3;
CALL T1;
E0I;
IRET:</pre>
```

Ogni proposta è ben accetta!!!

# 0.4 Esercizio 4 - Punti -2...1

La ricezione avviene in maniera *concorrente* e **non parallela**. È importante non fare confusione tra i due concetti, perché avendo un unico bus che viene ceduto *a turno* a ogni canale del DMAC, la ricezione avviene comunque serialmente.

Siano  $v_P = 2\text{KB/s}$  la velocità della porta parallela e  $v_S = 9600\text{b/s}$  la velocità della porta seriale, il tempo totale T per la ricezione di tre vettori tramite porta parallela e la trasmissione di un quarto vettore sulla porta seriale, tutti della stessa dimensione d = 2KB è:

$$T = \frac{3d}{v_P} + \frac{d}{v_S} = \frac{6 \cdot 2^{10}}{2 \cdot 2^{10}} + \frac{2 \cdot 2^{10}}{9600} = 3,21s$$

Durante le trasmissioni/ricezioni la CPU è in stato di *HALT*, ovvero viene sospesa in attesa della prossima interruzione esterna.

**N.B.:** sembra che questa risposta al professore non basti e valga "solo" 0.5 punti su 1. Attendo una segnalazione da qualcuno del perché o direttamente la correzione del prof.

### 0.5 Esercizio 5

# 0.5.1 Punto (a)

Siano:

 $N_O$  Il numero di bit del campo OFFSET

 $N_{\mathrm{SID}}$  Il numero di bit del campo  $SET\_ID$ 

 $N_T$  Il numero di bit del campo TAG

|l| La lunghezza, in byte, di una linea di cache

|C| La dimensione totale, in byte, della cache

 $N_S$  Il numero di set della cache.

Valgono le seguenti relazioni:

$$\begin{split} N_O &= \log_2 |l| \\ N_{\rm SID} &= \log_2 \left[ \frac{|C|}{|l|N_S} \right] \\ N_T &= 32 - N_O - N_{\rm SID} \end{split}$$

Nel nostro caso abbiamo quindi:

$$N_O = 5$$
 $N_{\rm SID} = 7$ 
 $N_T = 20$ 

In tabella 6 nella pagina seguente vengono riportati tutti i campi per il primo e l'ultimo byte di A1, A2, A3 e RIS: è facile notare che A1 e A2 riempiono tutti le linee di una via di cache. A3 e RIS hanno gli stessi *SET\_ID* di A1 e A2, ma essendo la nostra cache a *due vie*, saranno memorizzata nella seconda via di cache senza sovrascrivere il contenuto della via precedentemente riempita da A1 e A2.

Tabella 6: Campi di cache per i vettori A1, A2, A3 e RIS

|           | Hex value                     |      |      | TAG  |      |      | SET  | '_ID | OF | FFSET |
|-----------|-------------------------------|------|------|------|------|------|------|------|----|-------|
| A1(0)     | 0001 0000 H                   | 0000 | 0000 | 0000 | 0001 | 0000 | 0000 | 000  | 0  | 0000  |
| A1(2K-1)  | $000107\mathrm{FF}\mathrm{H}$ | 0000 | 0000 | 0000 | 0001 | 0000 | 0111 | 111  | 1  | 1111  |
| A2(0)     | $00010800\mathrm{H}$          | 0000 | 0000 | 0000 | 0001 | 0000 | 1000 | 000  | 0  | 0000  |
| A2(2K-1)  | $00010\mathrm{FFF}\mathrm{H}$ | 0000 | 0000 | 0000 | 0001 | 0000 | 1111 | 111  | 1  | 1111  |
| A3(0)     | $00011000\mathrm{H}$          | 0000 | 0000 | 0000 | 0001 | 0001 | 0000 | 000  | 0  | 0000  |
| A3(2K-1)  | $000117\mathrm{FF}\mathrm{H}$ | 0000 | 0000 | 0000 | 0001 | 0001 | 0111 | 111  | 1  | 1111  |
| RIS(0)    | $00011800\mathrm{H}$          | 0000 | 0000 | 0000 | 0001 | 0001 | 1000 | 000  | 0  | 0000  |
| RIS(2K-1) | $00011\mathrm{FFF}\mathrm{H}$ | 0000 | 0000 | 0000 | 0001 | 0001 | 1111 | 111  | 1  | 1111  |

## 0.5.2 Punto (b)

La risposta a questa domanda è semplice: la cache è tutta vuota e in stato *I* (*Invalid*). Questo è vero indipendentemente dal tipo di politica adottata dalla cache. Il motivo è che i vettori A1, A2 e A3 vengono scritti in DMA, e il DMAC non può accedere in alcun modo alla cache interna della CPU. Perciò, se assumiamo che il sistema sia stato appena avviato, la cache permano nel suo stato *I*.

## 0.5.3 Punto (c)

I problemi iniziano qui. Di primo acchito, il codice DLX-assembly, in cui con \* indicheremo esplicitamente un accesso in memoria, per eseguire le operazioni vettoriali (o, per meglio dire, per fare l'operazione sul primo byte, supponendo le altre 2047 praticamente uguali) è il seguente:

```
lb ax, A1(0)*
or bx, ax, A2(0)*
and cx, bx, A3(0)*
sb RIS(0)*, cx
```

Analizziamo il codice per calcolarne la miss rate. Le istruzioni 1b, or e and causano 3 read miss. Quello che accade è semplice, cioè vengono caricate in cache le rispettive linee, quindi tutti gli elementi dei vettori con gli indici da 0 a 31. Fin qui, tutto ok, quando giungeremo all'indice 32 si ripeterà la stessa operazione con gli indici da 32 a 63 e così via fino alla fine dei vettori. Per ora, abbiamo una miss ogni 32 letture, mantenendo una read miss rate  $M_R(R) = \frac{1}{32} = 3.125\%$ .

L'operazione sb è una trappola (figura 14).

Figura 14: It's a trap!



Saremmo tentati di pensare che la CPU, non trovando RIS(0) in cache, importi nella linea i byte da RIS(0) a RIS(32). Ma non è così!. Infatti, se controlliamo il testo dell'esame, è stato specificato che stiamo lavorando in politica write-around in caso di write miss. Questo significa che se un dato da scrivere non viene trovato in cache, viene aggiornato direttamente il dato in memoria. Nessuna linea di cache viene caricata. Questo, ahinoi, è un problema. Perché significa che tutte le istruzioni sb generano una write miss. Su 32 operazioni, avremo 32 scritture e 32 miss, quindi il write miss rate sarà, ovviamente,  $M_R(W) = 100\%$ . Il miss rate totale sarà la media pesata del read miss rate e del write miss rate. Ogni quattro accessi in memoria, avremo 3 accessi in lettura e 1 in scrittura, perciò:

$$M_R = \frac{3M_R(R) + M_R(W)}{4} = \frac{9.375\% + 100\%}{4} \approx 27.34\%$$

Più di una volta su quattro, abbiamo una miss, una situazione molto indesiderabile. Come risolviamo il problema?

Una soluzione potrebbe essere quella di cambiare la politica in caso di write miss. Questo funzionerebbe ma potrebbe non essere possibile se, ad esempio, la macchina per la quale dobbiamo scrivere il programma non è in nostro possesso oppure se per altri motivi progettuali dobbiamo tenerci la politica di write around. Ci serve una strada alternativa.

La nostra via d'uscita risiede nel fatto che non ci è stato specificato alcun vincolo sulle politiche in caso di write hit. Questo è un bene, perché abbiamo libertà di scelta. E la nostra scelta ricadrà su una politica di tipo write back, cioè scriveremo un dato solo in cache nel caso questo vi sia già presente. Il nostro compito sarà quindi di fare in modo che il vettore RIS sia presente in cache quando andiamo a sovrascriverlo. L'unico modo, è quello di forzare una read sul vettore RIS costringendo la macchina a importarlo in cache. Questo è fattibile aggiungendo un'istruzione 1b cx, RIS(0). Il codice diventa il seguente:

```
1b ax, A1(0)*
or bx, ax, A2(0)*
1b cx, RIS(0)*
and cx, bx, A3(0)*
sb RIS(0)*, cx
```

Come è reso evidente dal codice, questa volta abbiamo 5 accessi in memoria per ogni operazione su byte. In compenso, avremo solo 4 miss ogni 32 operazioni su byte, ovvero il più piccolo numero di miss possibile. Questo perché anche nella più ottimistica della cache, dobbiamo avere una miss per ogni linea di cache, cioè la miss che causerà il caricamento della linea stessa. Ricordando che ogni vettore è composto da 2<sup>11</sup>B, il miss rate totale, calcolato come il rapporto tra il numero di miss e il numero di accessi totali è:

$$M_R = \frac{4\frac{2^{11}}{32}}{5 \cdot 2^{11}} = \frac{4 \cdot 2^6}{2^{11}} = \frac{2^8}{5 \cdot 2^1 1} = \frac{1}{5} 2^{-3} = \frac{1}{40} = 2.5\%$$

Ed ecco a noi il miss rate richiesto dalla traccia che, in base alle precedenti osservazioni, è anche il minimo possibile. Senza fare le semplificazioni aritmetiche, il numero di miss  $N_M$  e il numero di accessi totali in memoria  $N_A$  sono:

$$N_M = 4\frac{2^{11}}{32} = 4 \cdot 2^6 = 2^8 = 256$$
  
 $N_A = 5 \cdot 2^{11} = 10240$ 

# 0.5.4 Punto (d)

Il principio di località temporale in questo caso è rispettato ma molto poco influente. Quando effettuiamo la lb cx, RIS(0), il principio di località temporale ci permette di riutilizzare la cache poco dopo con l'istruzione sb RIS(0), cx. La natura del problema in realtà nasconde questa proprietà, che è stata introdotta da noi artificialmente per permettere un uso più efficiente della cache riducendo gli accessi in memoria. Senza questo artificio, la località temporale sarebbe stata completamente ininfluente in quanto ogni vettore viene utilizzato solo una volta.

N.B.: se tutta l'operazione viene ripetuta una seconda volta, le linee di cache che contengono RIS sono ancora valide e l'istruzione 1b cx, RIS(0) non genera più una miss. Rifacendo i calcoli, si può verificare che la miss rate, restando così il codice, scende all'1.875% proprio grazie al principio di località temporale. Se invece volessimo sfruttare, dalla seconda operazione in poi, un secondo programma che elimina l'istruzione 1b cx, RIS(0), la miss rate salirebbe al 2.34% ma in realtà le prestazioni aumenterebbero perché diminuirebbero sia il numero di miss che il numero di accessi totali. Questa seconda soluzione è comunque sconsigliata perché richiede un secondo programma e perché nel caso in cui le linee di cache in cui risiede il vettore RIS andassero sovrascritte da un altro programma esterno, si riavrebbe il caso di partenza con una serie continua di write miss.

Il principio di località spaziale, invece, vale e viene ampliamente sfruttato. Tutti i byte su cui andiamo ad operare si trovano a indirizzi contigui, perciò ogniqualvolta importiamo una linea di cache, tutti i byte che stiamo importando saranno effettivamente utilizzati in un futuro prossimo.

#### 0.5.5 Punto (e)

Rispetto ai punti precedenti, questo è di una semplicità disarmante. L'unico caso in cui si renderanno necessari cicli di write back è all'inizio della trasmissione di RIS sulla porta seriale. Quando il DMAC cerca di trasferire il dato, la CPU riporta in memoria tutte le linee di cache in cui risiede RIS. Ogni ciclo di write back porta in memoria 8B e risiedendo tutti i 2KB del vettore RIS in cache, saranno necessari  $N_{\rm WB} = \frac{2^{11}}{2^3} = 2^8 = 256$  cicli di write back.

# 0.5.6 Punto (f)

Con una cache da 16KB la situazione non avrebbe subito alcuna modifica. 8KB di cache sono già sufficiente a gestire tutti e 4 i vettori senza alcuna sovrascrittura.

Diverso sarebbe il caso con una cache da 4KB. Le sovrascritture avrebbero reso praticamente inutile la cache, perché si potrebbero mantenere contemporaneamente in cache solo 2 vettori alla volta (a causa della presenza di due sole vie), diciamo A1 e A2, dovendo sovrascrivere ogni linea ogni volta che si caricano i due successivi vettori A3 e RIS. Questo nel corso della stessa operazione. Al byte successivo A1 e A2 sovrascrirrebbero di precedenti A3 e RIS perché sarebbero sulla stessa linea di cache. Avremmo una miss rate del 100% o quasi. L'ultima istruzione di sb in realtà potrebbe andare a buon fine in cache, ma andrebbe fatto poco dopo un write back perché quella linea andrebbe sovrascritta poco dopo. Solo una volta su 32 non sarà richiesto il write back, cioè quando si opera sull'ultimo byte in linea di cache e si passa alla successiva. Tanto varrebbe utilizzare il assembly codice originale per ridurre le istruzioni, visto che gli accessi in memoria passerebbero da circa 5 per operazione a 4 per operazione. Ancora meglio sarebbe disabilitare la cache, visto la sua completa inutilità in questo caso.

Per un'idea più precisa dell'evoluzione della cache in questo caso, si faccia riferimento alla tabella 7 nella pagina successiva che esprime, anche se non richiesto dall'esame, anche l'evoluzione degli stati *MESI*.

| OD 1 11 💳  | T 1 ·      | 1 11   | 1     | 1      |       | 00 |               | 1 .  |
|------------|------------|--------|-------|--------|-------|----|---------------|------|
| Tabella (* | Evoluzione | della. | cache | ner le | prime | 33 | operazioni su | byte |
|            |            |        |       |        |       |    |               |      |

| Code                      | M/H   | Set | $\operatorname{Set}_{\operatorname{ID}}$ | Offset         | TAG            | L/WB                       | MESI                             |
|---------------------------|-------|-----|------------------------------------------|----------------|----------------|----------------------------|----------------------------------|
| lb ax, A1(0)              | RM    | 0   | 00 H                                     | 00 H           | 20 H           | L[A1(0-31)]                | $I \to E$                        |
| or bx, ax, A2(0)          | RM    | 1   | $00\mathrm{H}$                           | $00\mathrm{H}$ | $20\mathrm{H}$ | L[A2(0-31)]                | $I \to E$                        |
| 1b cx, RIS(0)             | RM    | 0   | $00\mathrm{H}$                           | $00\mathrm{H}$ | $20\mathrm{H}$ | L[RIS(0-31)]               | $\mathbf{E}$                     |
| and cx, bx, A3(0)         | RM    | 1   | $00\mathrm{H}$                           | $00\mathrm{H}$ | $20\mathrm{H}$ | L[A3(0-31)]                | ${ m E}$                         |
| sb RIS(0), cx             | WH    | 0   | $00\mathrm{H}$                           | $00\mathrm{H}$ | $20\mathrm{H}$ | . , , , ,                  | $\to M$                          |
| lb ax, A1(1)              | RM    | 0   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | WB(00 H, 0)                | $\mathbf{M} \to \!\! \mathbf{S}$ |
|                           |       |     |                                          |                |                | L[A1(0-31)]                | $S\to\!\! E$                     |
| or bx, ax, A2(1)          | RM    | 1   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | L[A2(0-31)]                | $\mathbf{E}$                     |
| lb cx, RIS(1)             | RM    | 0   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | L[RIS(0-31)]               | $\mathbf{E}$                     |
| and $cx$ , $bx$ , $A3(1)$ | RM    | 1   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | L[A3(0-31)]                | $\mathbf{E}$                     |
| sb RIS(1), cx             | WH    | 0   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ |                            | $\to M$                          |
| lb ax, A1(2)              | RM    | 0   | $00\mathrm{H}$                           | $02\mathrm{H}$ | $20\mathrm{H}$ | WB(00H,0)                  | $M \rightarrow S$                |
|                           |       |     |                                          |                |                | L[A1(0-31)]                | $S \to E$                        |
| or bx, ax, A2(2)          | RM    | 1   | $00\mathrm{H}$                           | $02\mathrm{H}$ | $20\mathrm{H}$ | L[A2(0-31)]                | $\mathbf{E}$                     |
| lb cx, RIS(2)             | RM    | 0   | $00\mathrm{H}$                           | $02\mathrm{H}$ | $20\mathrm{H}$ | L[RIS(0-31)]               | $\mathbf{E}$                     |
| and $cx$ , $bx$ , $A3(2)$ | RM    | 1   | $00\mathrm{H}$                           | $02\mathrm{H}$ | $20\mathrm{H}$ | L[A3(0-31)]                | $\mathbf{E}$                     |
| sb RIS(2), cx             | WH    | 0   | $00\mathrm{H}$                           | $02\mathrm{H}$ | $20\mathrm{H}$ |                            | $\to M$                          |
| lb ax, A1(1)              | RM    | 0   | $00\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | WB(00H,0)                  | $M \rightarrow S$                |
|                           |       |     |                                          |                |                | L[A1(0-31)]                | $S \to E$                        |
| lb ax, A1(31)             | RM    | 0   | 00 H                                     | <br>1F H       | 20 H           | WB(00 H,0)                 | $M \rightarrow S$                |
| 10 dx, H1(01)             | 10101 | U   | 0011                                     | 11. 11         | 2011           | L[A1(0-31)]                | $S \rightarrow E$                |
| or bx, ax, A2(31)         | RM    | 1   | $00\mathrm{H}$                           | 1F H           | $20\mathrm{H}$ | L[A1(0.31)]<br>L[A2(0.31)] | E                                |
| lb cx, RIS(31)            | RM    | 0   | 00 H                                     | 1F H           | $20\mathrm{H}$ | L[RIS(0-31)]               | E                                |
| and cx, bx, A3(31)        | RM    | 1   | 00 H                                     | 1F H           | $20\mathrm{H}$ | L[A3(0-31)]                | E                                |
| sb RIS(31), cx            | WH    | 0   | 00 H                                     | 1F H           | 20 H           | 2[110(0 01)]               | $E \rightarrow M$                |
| lb ax, A1(32)             | RM    | 0   | 01 H                                     | 00 H           | 20 H           | L[A1(32-63)]               | $I \rightarrow E$                |
| or bx, ax, $A2(32)$       | RM    | 1   | 01 H                                     | 00 H           | 20 H           | L[A2(0-31)]                | $I \rightarrow E$                |
| 1b cx, RIS(32)            | RM    | 0   | 01 H                                     | 00 H           | 20 H           | L[RIS(0-31)]               | $I \rightarrow E$                |
| and cx, bx, A3(32)        | RM    | 1   | 01 H                                     | 00 H           | $20\mathrm{H}$ | L[A3(0-31)]                | $I \to E$                        |
| sb RIS(32), cx            | WH    | 0   | 01 H                                     | 00 H           | 20 H           | [ ( )]                     | $E \rightarrow M$                |
| lb ax, A1(33)             | RM    | 0   | 01 H                                     | 01 H           | $20\mathrm{H}$ | WB(01 H,0)                 | $M \rightarrow S$                |
| ,                         |       |     |                                          |                |                | L[A1(32-63)]               |                                  |
| or bx, ax, A2(33)         | RM    | 1   | $01\mathrm{H}$                           | $01\mathrm{H}$ | $20\mathrm{H}$ | L[A2(32-63)]               | $\mathbf{E}$                     |
| • • •                     |       |     |                                          |                |                |                            | • • • •                          |