# 8' Esercitazione <a href="https://politecnicomilano.webex.com/meet/gianenrico.conti">https://politecnicomilano.webex.com/meet/gianenrico.conti</a> 13 maggio 2021

# Gian Enrico Conti Gerarchia di memoria, Cache

Architettura dei Calcolatori e Sistemi Operativi 2020-21



## **Outline**

#### Memorie Cache

- Struttura
- Problemi
- Tipologie di memorie cache
  - Indirizzamento diretto
  - Completamente associativa
  - Set associativa a N vie

### **Memorie Cache**

■ La memoria cache è una memoria veloce relativamente piccola, non visibile al software che memorizza i dati più recentemente usati della memoria principale del sistema.

# Qualche rif. ai tempi (Intel 2016)

#### Table 1

| L2 cache                                    | 256 KB                  | 4 nanoseconds                          | 1 TB/second<br>Sometimes shared by two cores |  |
|---------------------------------------------|-------------------------|----------------------------------------|----------------------------------------------|--|
| L3 cache                                    | 8 MB or more            | 10x slower than L2                     | >400 GB/second                               |  |
| MCDRAM                                      |                         | 2x slower than L3                      | 400 GB/second                                |  |
| Main memory on DDR DIMMs                    | 4 GB-1 TB               | Similar to MCDRAM                      | 100 GB/second                                |  |
| Main memory on<br>Intel Omni-Path<br>Fabric | Limited only<br>by cost | Depends on distance                    | Depends on distance and hardware             |  |
| I/O devices on<br>memory bus                | 6 TB                    | 100x-1000x slower than memory          | 25 GB/second                                 |  |
| I/O devices on PCIe<br>bus                  | Limited only<br>by cost | From less than milliseconds to minutes | GB-TB/hour Depends on distance and hardware  |  |

### **Memorie Cache**

- Il funzionamento della Cache Memory si basa principalmente su due principi di località:
  - Località temporale
    - Dati recentemente usati hanno un'alta probabilità di essere nuovamente usati a breve.
  - Località spaziale
    - Se un dato viene referenziato, è molto probabile che dati adiacenti siano a breve a loro volta acceduti.
- Accesso al dato in Cache:
  - Cache Hit Dato presente in cache
  - Cache Miss
     Dato non presente in cache

### Struttura di Cache

- Ogni linea di cache contiene, in aggiunta al blocco di dati:
  - Tag identica univocamente un blocco in cache
  - D (dirty bit) quando e settato ad 1, indica che il blocco in cache e stato modificato, e viceversa (facoltativo)
  - V (validity bit) quando e settato ad 1, indica che il blocco in cache e valido, e viceversa

| <b>BLOCCO DATI</b> | TAG | D | V |         |
|--------------------|-----|---|---|---------|
|                    |     |   |   | Linea 1 |
|                    |     |   |   | Linea 2 |
|                    |     |   |   | Linea 3 |
|                    | ••• |   |   |         |
|                    |     |   |   |         |

### **Problemi Essenziali**

#### Dove (block placement)

— Dove caricare un blocco proveniente da un livello gerarchico inferiore?



- Come (block identication)
  - Come individuare un blocco in un livello gerarchico superiore?



### **Problemi Essenziali**

#### Quale (block replacement)

- Quale blocco sostituire in caso di miss per fare posto ad un blocco del livello gerarchico sottostante?
  - FIFO
  - LRU
  - RANDOM

#### Politica di Scrittura (write policy)

- Come gestire le modiche dei blocchi?
  - Write back
  - Write through

#### Cache a Indirizzamento Diretto

- Ciascun blocco di RAM va mappato su un preciso blocco di cache
- Struttura dell'indirizzo di RAM:



#### DOVE (block placement)

- (indirizzo blocco) MOD (numero blocchi in cache)
- Equivale a considerare il campo INDICE dell'indirizzo in RAM

#### COME (block identication)

 Dato l'indirizzo in RAM, si considera il campo INDICE, che indichera il blocco di cache in cui cercare il dato. Se in quel blocco il tag e uguale al tag dell'indirizzo in RAM e il validity bit e settato ad 1, allora il dato e presente in cache ed e valido.

[Oss: il dato va cercato in una sola linea di cache!]

### **Cache a Indirizzamento Diretto MIPS**



Word: 4 byte

Tag: 20

Quindi...

# **Cache Completamente Associativa**

- Ciascun blocco di RAM puo essere mappato in qualsiasi blocco di cache
- Struttura dell'indirizzo di RAM:



#### DOVE (block placement)

In qualsiasi blocco di cache

#### COME (block identication)

— Dato l'indirizzo in RAM, si considera il campo TAG, che indichera il blocco di RAM da cercare in cache. Tale campo deve essere confrontato con l'omonimo campo in tutte le linee di cache. Se si trova un matching sul campo TAG e il validity bit e settato ad 1, allora il dato e presente in cache ed e valido.

[Oss: il dato va cercato in tutte le linee di cache!]

### **Cache Set Associativa**

- Ciascun blocco di RAM va mappato in uno qualsiasi dei blocchi di un preciso set nella cache
- Struttura dell'indirizzo di RAM:



#### DOVE (block placement)

- (indirizzo blocco) MOD (numero set in cache)
- Equivale a considerare il campo SET dell'indirizzo in RAM

#### COME (block identication)

— Dato l'indirizzo in RAM, si considera il campo SET, che indichera il set nella cache in cui cercare il dato. All'interno del set individuato, bisogna effettuare una ricerca associativa sul campo TAG di tutte le linee di cache in quel set. Se si trova un matching sul campo TAG e il validity bit e settato ad 1, allora il dato e presente in cache ed è valido. [Oss: il dato va cercato in tutti i blocchi di un solo set!]

Dato un sistema con:

TAG INDICE OFFSET

BLOCCO Parola nel Byte blocco nella parola

- 8 blocchi
- Ogni blocco da 1 byte (word == byte)

Calcolare in quale blocco ed in quale posizione viene mappato l' indirizzo 22

- 8 blocchi
- Ogni blocco da 1 byte (word == byte)



- non ho offset
- $8 \text{ blocchi} = 2^3 = 3 \text{ bit x identificare blocco}$

Quindi indice = 3 bit

• • •

- 8 blocchi
- Ogni blocco da 1 byte (word == byte)
- non ho offset
- 8 blocchi = 2^3 = 3 bit x identificare blocco
- Quindi indice = 3 bit



10

110

blocco 6, nessuna pos. (Byte!)

- 8 blocchi
- Ogni blocco da 1 byte (word == byte)
- non ho offset
- 8 blocchi =  $2^3$  = 3 bit x identificare blocco
- Quindi indice = 3 bit

| TAG    | INDICE |  |  |
|--------|--------|--|--|
|        |        |  |  |
| BLOCCO |        |  |  |

|   | INDICE |  |
|---|--------|--|
| 3 | LOCCO  |  |

10

110

| Index | V | Tag | Data       |
|-------|---|-----|------------|
| 000   | N |     |            |
| 001   | N |     |            |
| 010   | N |     |            |
| 011   | N |     |            |
| 100   | N |     |            |
| 101   | N |     |            |
| 110   | Υ | 10  | Mem[10110] |
| 111   | N |     |            |

blocco 6, nessuna pos. (Byte!)

Dato un sistema a 32 bit con:

- 64 blocchi
- Ogni blocco da 16 bytes

Calcolare in quale blocco ed in quale posizione viene mappato l' indirizzo 1200

Dato un sistema a 32 bit, con:

- 64 blocchi
- Ogni blocco da 16 bytes

Calcolare in quale blocco ed in quale posizione viene mappato l' indirizzo 1200 = 0100 1011 0000

16 byte x blocco -> 4 bit x offset 64 blocchi -> 6 bits x Index ... 22 x tag.

| 31      | 10 9 | 4      | 3 0    |
|---------|------|--------|--------|
| Tag     |      | Index  | Offset |
| 22 bits |      | 6 bits | 4 bits |

Dato un sistema a 32 bit, con:

- 64 blocchi
- Ogni blocco da 16 bytes

Calcolare in quale blocco ed in quale posizione viene mappato l' indirizzo 1200 = 01 001011 0000

64 blocchi -> 6 bits x offset 16 byte x blocco -> 4 bit x offset

TOLGO Offset (i.e.) cancello 4 bit "bassi" i.e. SHIFTO x 4... Index = 75

"(indirizzo blocco) MOD (numero blocchi in cache)"75 MOD 64 = 11MOD: al max 64... e cerco...

#### **Ex 1**

#### Sia data un'architettura con:

- RAM da 1GB,
- cache da 1MB e blocchi da 512 byte, indirizzata al byte
- 1) Specificare la struttura dell'indirizzo di memoria nel caso di cache ad indirizzamento diretto, completamente associativa e set associativa a 4 vie.
- 2) Calcolare la dimensione totale della cache nei tre casi indicati al punto 1, sapendo che la cache `e stata ottimizzata con l'aggiunta del dirty bit.
- 3) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache per 3 volte di seguito una sequenza di 800KB di dati, memorizzati in modo consecutivo a partire dall'inzirizzo 0 di RAM. Sapendo che la politica di sostituzione dei blocchi `e LRU, quale delle 3 soluzioni di cache indicate al punto 1 `e piu` conveniente?

### Ex 1.1 direct address

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

 $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE  $\rightarrow$  1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice

### Ex 1.1 direct address

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

 $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE  $\rightarrow$  1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice

#bit tag = #bit indirizzo – #bit offset – #bit indice = 30 - 9 - 11 = 10

### Ex 1.1 direct address

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

 $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE  $\rightarrow$  1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice

#bit tag = #bit indirizzo – #bit offset – #bit indice = 30 - 9 - 11 = 10

TAG (10 bit) INDICE (11 bit) OFFSET (9 bit)

BLOCCO (21 bit)

# Ex 1.1 fully associative

Sia data un'architettura con: RAM da 1GB, cache da 1MB e blocchi da 512 byte, indirizzata al byte  $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE 
$$\rightarrow$$
 1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

(Come sopra..)

#### NO INDEX..

#bit tag = #bit indirizzo – #bit offset – #bit indice = 30 - 9 = 21

TAG (21 bit)

BLOCCO (21 bit)

Parola nel Byte blocco nella parola

# Ex 1.1 fully associative 4 ways

Sia data un'architettura con: RAM da 1GB, cache da 1MB e blocchi da 512 byte, indirizzata al byte  $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE 
$$\rightarrow$$
 1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

(Come sopra..)

$$dim.set = #vie * dim.blocco = 2^2 * 2^9 = 2^{11}$$

# Ex 1.1 fully associative 4 ways

Sia data un'architettura con: RAM da 1GB, cache da 1MB e blocchi da 512 byte, indirizzata al byte  $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE 
$$\rightarrow$$
 1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

(Come sopra..)

$$dim.set = #vie * dim.blocco = 2^2 * 2^9 = 2^{11}$$

#set in cache = dim.cache/dim.set =  $2^{20}/2^{11} = 2^9 \rightarrow 9$  bit per set in cache

# Ex 1.1 fully associative 4 ways

Sia data un'architettura con: RAM da 1GB, cache da 1MB e blocchi da 512 byte, indirizzata al byte  $RAM \rightarrow 1GB = 2^{30} \rightarrow 30$  bit per l'indirizzo

CACHE 
$$\rightarrow$$
 1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

(Come sopra..)

```
dim.set = #vie * dim.blocco = 2^2 * 2^9 = 2^{11}
#set in cache = dim.cache/dim.set = 2^{20}/2^{11} = 2^9 \rightarrow 9 bit per set in cache
```

#bit tag = #bit indirizzo – #bit offset – #bit set = 30 - 9 - 9 = 12



### Ex 1.2

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

2) Calcolare la dimensione totale della cache nei tre casi indicati al punto 1, sapendo che la cache `e stata ottimizzata con l'aggiunta del dirty bit.

• • •

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

10 bit di tag.

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice

2 bit x Dirty e validity:

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit)

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

10 bit di tag.

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice

2 bit x Dirty e validity

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit)

dim.tot. (in byte) =  $2^{11}$  \* ( $2^{9}$ byte + 10bit + 2bit)

Raccolgo...

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

10 bit di tag.

#blocchi in cache = dim.Cache/dim.Blocco =  $2^{20}/2^9 = 2^{11} \rightarrow 11$  bit per Indice 2 bit x Dirty e validity

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit) dim.tot. (in byte) =  $2^{11}$  \* ( $2^9$ byte + 10bit + 2bit)

Raccolgo...

dim.tot. (in byte) =  $2^{11}$  \* ( $2^{9}$ byte + 10bit + 2bit) =

 $2^{20}$  byte +  $2^{11}$ \* (10bit + 2bit) = ....

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

$$= 220$$
byte +  $(2^{11}$ byte \* 12bit) =

$$= 1MB + 2^{11} * (2^3bit + 2^2bit) =$$

$$= 1MB + 2^{14}bit + 2^{13}bit =$$

$$= 1MB + 2^{11}byte + 2^{10}byte =$$

$$= 1MB + 2KB + 1KB = 1024KB = 1,003MB$$

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit)

#### Era:

CACHE 
$$\rightarrow$$
 1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

CACHE  $\rightarrow$  1MB =  $2^{20}$ 

blocco  $\rightarrow$  512byte =  $2^9 \rightarrow 9$  bit per l'offset

#blocchi in RAM = dim.RAM/dim.Blocco =  $2^{30}/2^9 = 2^{21} \rightarrow 21$  bit per blocco in RAM

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit)

 $= 2^{11} * (2^9 byte + 21bit + 2bit)$ 

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

```
dim.tot. = #blocchi * (dim.Blocco + dim.Tag + 2bit)
= 2^{11} * (2^9 byte + 21bit + 2bit) =
= 2^{20}byte + (2^{11} * 23bit) =
.. un po' di passaggi...
= 1MB + 2^{11} * (2^4bit + 2^2bit + 2bit + 1bit) =
= 1MB + 2^{15}bit + 2^{13}bit + 2^{12}bit + 2^{11}bit =
= 1MB + 2^{12}byte + 2^{10}byte + 2^{9}byte + 2^{8}byte =
= 1MB + 4KB + 1KB + 512byte + 256byte =
= 1005,768KB \approx 1,006MB
```

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

```
.. un po' di passaggi...

= 1MB +2<sup>11</sup> *(2<sup>4</sup>bit +2<sup>2</sup>bit +2bit +1bit) =

= 1MB + 2<sup>15</sup>bit + 2<sup>13</sup>bit + 2<sup>12</sup>bit + 2<sup>11</sup>bit =

= 1MB + 2<sup>12</sup>byte + 2<sup>10</sup>byte + 2<sup>9</sup>byte + 2<sup>8</sup>byte =

= 1MB +4KB +1KB +512byte +256byte =
```

= 1005,768KB  $\approx 1,006$ MB

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

2) Calcolare la dimensione totale della cache nei tre casi indicati al punto 1, sapendo che la cache `e stata ottimizzata con l'aggiunta del dirty bit.

• • •

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

2) Calcolare la dimensione totale della cache nei tre casi indicati al punto 1, sapendo che la cache `e stata ottimizzata con l'aggiunta del dirty bit.

dim.tot. = #blocchi \* (dim.Blocco + dim.Tag + 2bit) =

per questo caso valeva:

```
dim.set = #vie * dim.blocco = 2^2 * 2^9 = 2^{11}
#set in cache = dim.cache/dim.set = 2^{20}/2^{11} = 2^9 \rightarrow 9 bit per set in cache
```

• • •

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

```
dim.set = #vie * dim.blocco = 2^2 * 2^9 = 2^{11}

#set in cache = dim.cache/dim.set = 2^{20}/2^{11} = 2^9 \rightarrow 9 bit per set in cache

#bit tag = ..... = 12
```

dim.tot. = #set \* (dim.Blocco + dim.Tag + 2bit) = 
$$2^{11}$$
 \* ( $2^9$ byte +  $12$ bit +  $2$ bit) =

•••

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

```
\dim.\text{set} = \#\text{vie} * \dim.\text{blocco} = 2^2 * 2^9 = 2^{11}
#set in cache = dim.cache/dim.set = 2^{20}/2^{11} = 2^9 \rightarrow 9 bit per set in cache
#bit tag = ..... = 12
dim.tot. = #set * (dim.Blocco + dim.Tag + 2bit) =
= 2^{11} * (2^{9}byte + 12bit + 2bit) =
= 2^{20}byte + (2^{11} * 14bit) =
= 1MB + 2^{11}*(2^{3}bit + 2^{2}bit + 2bit) =
= 1MB + 2^{14}bit + 2^{13}bit + 2^{12}bit =
= 1MB + 2^{11}byte + 2^{10}byte + 2^{9}byte =
= 1MB + 2KB + 1KB + 512byte =
= 1003, 512KB \approx 1,035MB
```

Sia data un'architettura con: - RAM da 1GB, - cache da 1MB e blocchi da 512 byte, indirizzata al byte

3) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache per 3 volte di seguito una sequenza di 800KB di dati, memorizzati in modo consecutivo a partire dall'inzirizzo 0 di RAM. Sapendo che la politica di sostituzione dei blocchi `e LRU, quale delle 3 soluzioni di cache indicate al punto 1 `e piu` conveniente?

• • •

3) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache per 3 volte di seguito una sequenza di 800KB di dati, memorizzati in modo consecutivo a partire dall'indirizzo 0 di RAM. Sapendo che la politica di sostituzione dei blocchi `e LRU, quale delle 3 soluzioni di cache indicate al punto 1 `e piu` conveniente?

#### **OSS:**

- a) va calcolato il cache miss (inizio "vuota)
- b) x ogni caso blocco = 512byte =  $2^9 \rightarrow 9$  bit per l'offset

Calcoliamo quanti blocchi...

3) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache per 3 volte di seguito una sequenza di 800KB di dati, memorizzati in modo consecutivo a partire dall'indirizzo 0 di RAM. Sapendo che la politica di sostituzione dei blocchi `e LRU, quale delle 3 soluzioni di cache indicate al punto 1 `e piu` conveniente?

#### **OSS:**

- a) va calcolato il cache miss (inizio "vuota)
- b) x ogni caso blocco = 512byte =  $2^{9} \rightarrow 9$  bit per l'offset

Calcoliamo quanti blocchi...

- = 800KB/512byte = 1562.5
- → 1563 blocchi dalla RAM alla cache.
- .. Ci stanno in CACHE?

3) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache per 3 volte di seguito una sequenza di 800KB di dati, memorizzati in modo consecutivo a partire dall'indirizzo 0 di RAM. Sapendo che la politica di sostituzione dei blocchi `e LRU, quale delle 3 soluzioni di cache indicate al punto 1 `e piu` conveniente?

#### **OSS:**

- a) va calcolato il cache miss (inizio "vuota)
- b) x ogni caso blocco = 512byte =  $2^{\circ} \rightarrow 9$  bit per l'offset

blocchi =  $800KB/512byte = \rightarrow 1563$  blocchi dalla RAM alla cache.

Ci stanno in CACHE?

La cache puo' contenere fino a:

1MB/512byte = 1953, 125  $\rightarrow$  1953 blocchi , OK!

#### Ex 1.3 direct access

Prima sequenza di caricamento:

Tutti i 1563 blocchi causano miss in quanto la cache era inizialmente vuota

Nota: tutti i blocchi hanno una precisa posizione in cache, e andranno memorizzati dalla linea 0 alla linea 1562 di cache.

### Ex 1.3 direct access

Prima sequenza di caricamento:

Tutti i 1563 blocchi causano miss in quanto la cache era inizialmente vuota

2' sequenza di caricamento:

I 1563 blocchi sono gi`a in cache → nessun miss

3' sequenza di caricamento:

I 1563 blocchi sono gi`a in cache → nessun miss

### Ex 1.3 direct access

1' sequenza di caricamento:

Tutti i 1563 blocchi causano miss in quanto la cache era inizialmente vuota

2' sequenza di caricamento:

I 1563 blocchi sono gi`a in cache → nessun miss

3' sequenza di caricamento:

I 1563 blocchi sono gi`a in cache → nessun miss

Totale: 1563 miss

## Ex 1.3 fully associative

Prima sequenza di caricamento:

Tutti i 1563 blocchi causano **miss** in quanto la cache era inizialmente vuota.

I blocchi possono essere mappati in qualsiasi posizione in cache.

Supponendo di memorizzare ciascun blocco di RAM nella prima linea di cache libera, abbiamo 1563 miss "a freddo".

# Ex 1.3 fully associative

1' sequenza di caricamento:

Tutti i 1563 blocchi causano miss in quanto la cache era inizialmente vuota.

I blocchi possono essere mappati in qualsiasi posizione in cache.

Supponendo di memorizzare ciascun blocco di RAM nella prima linea di cache libera, abbiamo 1563 miss

"a freddo".

Seconda e terza sequenza di caricamento: I 1563 blocchi sono gi`a in cache → nessun miss

Totale: 1563 miss

Prima sequenza di caricamento:

Tutti i 1563 blocchi causano **miss** in quanto la cache era inizialmente vuota

#### Nota:

i blocchi possono essere mappati in qualsiasi posizione di un **preciso** set in cache.

In cache ci sono:  $2^9 = 512$  set.

Quindi, i blocchi di RAM 0, 512, 1024 e 1536 vanno nel set 0, ...

#### Nota:

i blocchi possono essere mappati in qualsiasi posizione di un **preciso** set in cache. In cache ci sono:  $2^9 = 512$  set.

blocchi di RAM 0, 512, 1024 e 1536 vanno nel set 0 i blocchi di RAM 26, 538, 1050 e **1562** vanno nel set 26 i blocchi di RAM 27, 539 e 1051 vanno nel set 511

• • •

(1562 ultimo)

Nota:

•

Sui set dallo 0 al 26 sono mappati 4 blocchi di RAM, mentre dal 27 al 511 sono mappati 3 blocchi di RAM.

Supponendo di memorizzare ciascun blocco di RAM nella prima linea di cache libera del set associato, abbiamo 1563 miss a freddo.

Seconda e terza sequenza di caricamento:

I 1563 blocchi sono già in cache → nessun miss

Totale: 1563 miss

## Ex 1.3 4 final thoughts

#### NOTA:

era possibile arrivare alla stessa soluzione osservando che la quantità di dati da caricare in cache (800 KB) è inferiore alla capacità totale della cache

quindi, a prescindere dalla politica scelta, a partire dalla 2' sequenza di caricamento, i dati sono già **tutti** in cache.

In conclusione, in questo caso specifico le tre soluzioni di cache sono equivalenti in quanto causano lo stesso numero di cache miss.

Sia data un'architettura composta da una memoria RAM da 4KB, cache da 512 byte e blocchi da 128 byte.

Si consideri la seguente sequenza di richieste di lettura (R) e scrittura (W) della memoria:

R 00000010010

R 00000010011

R 100100010100

W 000011111111

W 111110001010

W 011110010010

W 11000000110

Specificare il contenuto della cache a seguito delle richieste indicate, nei seguenti casi:

1 cache ad indirizzamento diretto, politica di sostituzione FIFO e politica di scrittura write back (con dirty bit). Cosa cambierebbe cambiando la politica di sostituzione in questo caso?

2 cache completamente associativa, politica di sostituzione LRU e politica di scrittura write back (con dirty bit)

3 cache set associativa a 2 vie, politica di sostituzione RANDOM e politica di scrittura write through

Iniziamo con un po' di calcoli:

RAM da 4KB  $\rightarrow$  12 bit per indirizzo blocchi da 128 byte = 2^7 byte  $\rightarrow$  7 bit per offset

#### Iniziamo con un po' di calcoli:

RAM da 4KB  $\rightarrow$  12 bit per indirizzo blocchi da 128 byte  $\rightarrow$  7 bit per offset

#Blocchi in cache = dim.Cache/dim.Blocco = 512/128 =

$$29/27 = 22$$

→ 2 bit per l'indice nel caso di cache ad **indirizzamento diretto**.

Iniziamo con un po' di calcoli:

dim.Set=#vie\*dim.Blocco = 2\*128==2\*27=28

# set in cache = dim.Cache/dim.Set =  $2^9/2^8 = 2$ 

→ 1 bit per set nel caso di cache set-associativa a 2 vie

OSS: nulla da calcolare x fully assoc.

## Ex 2: Struttura indirizzo - tag indici offset

cache ad indirizzamento diretto: Tag=3bit, Indice=2bit, Offset=7bit

cache completamente associativa: Tag=5bit, Offset=7bit (no index..)

cache set-associativa a 2 vie: Tag=4bit, Set=1bit, Offset=7bit

Soliti tricks coi bit disponibili... 12 bit.

# Ex 2: Struttura indirizzo - tag indici offset

cache ad indirizzamento diretto: Tag=3bit, Indice=2bit, Offset=7bit

cache completamente associativa: Tag=5bit, Offset=7bit (no index..)

cache set-associativa a 2 vie: Tag=4bit, Set=1bit, Offset=7bit

Soliti tricks coi bit disponibili... 12 bit.

### **Ex 2:**

Cache ad indirizzamento diretto, politica di sostituzione FIFO e politica di scrittura write back

|                |   |             | BL | оссо ( | o    |   | BL | оссо : | 1    |   | BL | оссо | 2    |   | BL | оссо | 3    |                           |
|----------------|---|-------------|----|--------|------|---|----|--------|------|---|----|------|------|---|----|------|------|---------------------------|
| Richiesta      | Ε | <b>&gt;</b> | D  | TAG    | dato | ٧ | D  | TAG    | dato | ٧ | D  | TAG  | dato | ٧ | D  | TAG  | dato | NOTE                      |
| R 00000010010  | Μ | 1           | 0  | 000    | 0    | 0 | 0  | •      | -    | 0 | 0  | -    | -    | 0 | 0  | -    | 1    |                           |
| R 00000010011  | H | 1           | 0  | 000    | 0    | 0 | 0  | 1      | -    | 0 | 0  | -    | -    | 0 | 0  | •    | 1    |                           |
| R 100100010100 | М | 1           | 0  | 000    | 0    | 0 | 0  | •      | -    | 1 | 0  | 100  | 18   | 0 | 0  | •    | •    |                           |
| W 000011111111 | М | 1           | 0  | 000    | 0    | 1 | 1  | 000    | 1    | 1 | 0  | 100  | 18   | 0 | 0  | •    | •    |                           |
| W 111110001010 | М | 1           | 0  | 000    | 0    | 1 | 0  | 000    | 1    | 0 | 0  | 100  | 18   | 1 | 1  | 111  | 31   |                           |
| W 011110010010 | М | 1           | 0  | 000    | 0    | 1 | 0  | 000    | 1    | 0 | 0  | 100  | 18   | 1 | 1  | 011  | 15   | Copia blocco<br>31 in RAM |
| W 11000000110  | Μ | 1           | 1  | 110    | 24   | 1 | 0  | 000    | 1    | 0 | 0  | 100  | 18   | 1 | 1  | 111  | 15   |                           |

### **Ex 2:**

Cache completamente associativa, politica di sostituzione LRU e politica di scrittura write back

|                |   |   |   | BLOC  | CO 0 |   |   | BLOCO | 0 1  |   |   | BLOCCO | 2    |   |   | BLOCCO S | 3    |       |
|----------------|---|---|---|-------|------|---|---|-------|------|---|---|--------|------|---|---|----------|------|-------|
| Richiesta      | Ε | ٧ | D | TAG   | dato | ٧ | D | TAG   | dato | ٧ | D | TAG    | dato | ٧ | D | TAG      | dato | NOTE  |
| R 00000010010  | М | 1 | 0 | 00000 | 0    | 0 | 0 | -     | -    | 0 | 0 | ı      | -    | 0 | 0 | -        | -    |       |
| R 00000010011  | н | 1 | 0 | 00000 | 0    | 0 | 0 | -     | •    | 0 | 0 | •      | -    | 0 | 0 | -        | -    |       |
| R 100100010100 | М | 1 | 0 | 00000 | 0    | 1 | 0 | 10010 | 18   | 0 | 0 | -      | -    | 0 | 0 | -        | -    |       |
| W 000011111111 | М | 1 | 0 | 00000 | 0    | 1 | 0 | 10010 | 18   | 1 | 1 | 00001  | 1    | 0 | 0 | -        | -    |       |
| W 111110001010 | М | 1 | 0 | 00000 | 0    | 1 | 0 | 10010 | 18   | 1 | 1 | 00001  | 1    | 1 | 1 | 111      | 31   |       |
| W 011110010010 | М | 1 | 1 | 00000 | 15   | 1 | 0 | 10010 | 18   | 0 | 0 | 00001  | 1    | 1 | 1 | 111      | 31   | (LRU) |
| W 11000000110  | М | 1 | 1 | 00000 | 15   | 1 | 1 | 11000 | 24   | 0 | 0 | 00001  | 1    | 1 | 1 | 111      | 15   | (LRU) |

### **Ex 2:**

Cache set associativa a 2 vie, politica di sostituzione RANDOM e politica di scrittura write through

|                |   |                   | SET 0 |          |   |      |          |   |      |      |   |      |      |                           |
|----------------|---|-------------------|-------|----------|---|------|----------|---|------|------|---|------|------|---------------------------|
|                |   | BLOCCO 0 BLOCCO 1 |       | BLOCCO 2 |   |      | BLOCCO 3 |   |      |      |   |      |      |                           |
| Richiesta      | E | ٧                 | TAG   | dato     | ٧ | TAG  | dato     | > | TAG  | dato | ٧ | TAG  | dato | NOTE                      |
| R 00000010010  | М | 1                 | 0000  | 0        | 0 | -    | -        | 0 | 1    | -    | 0 | -    | -    |                           |
| R 00000010011  | н | 1                 | 0000  | 0        | 0 | -    | -        | 0 | -    | -    | 0 | -    | -    |                           |
| R 100100010100 | М | 1                 | 0000  | 0        | 1 | 1001 | 18       | 0 | 1    | -    | 0 | -    | 1    |                           |
| W 000011111111 | М | 1                 | 0000  | 0        | 1 | 1001 | 18       | 1 | 0000 | 1    | 0 | -    | 1    | Copia blocco 1<br>in RAM  |
| W 111110001010 | М | 1                 | 0000  | 0        | 1 | 1001 | 18       | 1 | 0000 | 1    | 1 | 1111 | 31   | Copia blocco<br>31 in RAM |
| W 011110010010 | М | 1                 | 0000  | 0        | 1 | 1001 | 18       | 1 | 0111 | 15   | 1 | 1111 | 31   | Copia blocco<br>15 in RAM |
| W 11000000110  | М | 1                 | 1100  | 24       | 1 | 1001 | 18       | 1 | 0111 | 15   | 1 | 1111 | 31   | Copia blocco<br>24 in RAM |

#### Ex 3:

Data la seguente tabella:

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

Calcolare il tempo di accesso TA nel caso di architettura rispettivamente con singolo e doppio livello di cache.

- 2 Quale MissPenalty deve avere L1 perchè il tempo di accesso dell'architettura con singolo livello di cache sia pari a 13ns, lasciando invariati tutti gli altri parametri?
- 3 Quale HitRate deve avere L2 perch'e il tempo di accesso dell'architettura con due livelli di cache sia pari a 4 ns, lasciando invariati tutti gli altri parametri?

### **Ex 3:**

Con singolo livello di cache:

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

 $T_A = hit time_{L1} + miss rate_{L1} * miss penalty_{L1}$ 

$$= 1$$
ns +  $(1 - 0.8) * 10$ ns  $= 3$ ns

### **Ex 3:**

### Con doppio livello di cache:

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

 $T_A = \text{hit time}_{L1} + \text{miss rate}_{L1} * (\text{hit time}_{L2} + \text{miss rate}_{L2} * \text{miss penalty}_{L2}) =$ 

1ns +0.2\*(27ns +0.1\*750ns)

= 21.4ns

#### Ex 3.2:

Quale MissPenalty deve avere L1 perchè il tempo di accesso dell'architettura con singolo livello di cache sia pari a 13ns, lasciando invariati tutti gli altri parametri?

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

 $T_A = \text{hit time}_{L1} + \text{miss rate}_{L1} * \text{miss penalty}_{L1} = 13 \text{ns} \rightarrow$ 

 $1\text{ns} + (1 - 0.8) * \text{miss penalty}_{L1} = 13\text{ns} \rightarrow$ 

miss penalty $L_1 = 12/0.2 = 60$ ns

#### Ex 3.3:

Quale HitRate deve avere L2 perchè il tempo di accesso dell'architettura con due livelli di cache sia pari a 4 ns, lasciando invariati tutti gli altri parametri?

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

Imponiamo 4 ns nella formula:

 $T_A = \text{hit time}_{L1} + \text{miss rate}_{L1} * (\text{hit time}_{L2} + \text{miss rate}_{L2} * \text{miss penalty}_{L2}) = 4\text{ns}$ 

### Ex 3.3:

Quale HitRate deve avere L2 perchè il tempo di accesso dell'architettura con due livelli di cache sia pari a 4 ns, lasciando invariati tutti gli altri parametri?

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

Imponiamo 4 ns nella formula:

 $T_A = \text{hit time}_{L1} + \text{miss rate}_{L1} * (\text{hit time}_{L2} + \text{miss rate}_{L2} * \text{miss penalty}_{L2}) = 4ns$ Sostituiamo:

$$1ns+0.2*(27ns+(1-hit rate_{L2})*750ns) = 4ns$$

 $27 \text{ns} + (1 - \text{hit rate}_{L2}) * 750 \text{ns} = 1 ...$ 

Altri passaggi..

#### Ex 3.3:

hit rate<sub>L2</sub> = 1 + 12/750 > 100%!!!

|             | L1    | L2     |
|-------------|-------|--------|
| SIZE        | 32 KB | 1MB    |
| HitRate     | 80%   | 90%    |
| HitTime     | 1ns   | 27ns   |
| MissPenalty | 10ns  | 750 ns |

Quindi non è possibile ottenere un tempo di accesso con doppio livello di cache pari a 4 ns modificando solo l'hit rate L2.

#### Ex 4:

Sia data un'architettura composta da CPU e cache, avente miss penalty pari a 6 cicli di clock, CPI ideale pari a 8.5 cicli di clock e miss rate pari a 11%.

Supponendo che per ciascuna istruzione siano necessari 2 accessi in memoria per recuperare i dati, calcolare il CPI reale, lo speedup del sistema ideale rispetto a quello reale, il CPI del sistema privo di cache e lo speedup del sistema privo di cache rispetto a quello dotato di cache.

#### Ex 4:

Sia data un'architettura composta da CPU e cache, avente miss penalty pari a 6 cicli di clock, CPI ideale pari a 8.5 cicli di clock e miss rate pari a 11%. Supponendo che per ciascuna istruzione siano necessari 2 accessi in memoria per recuperare i dati, calcolare il CPI reale, lo speedup del sistema ideale rispetto a quello reale, il CPI del sistema privo di cache e lo speedup del sistema privo di cache rispetto a quello dotato di cache.

#### **Soluzione:**

CPI<sub>REALE</sub> = CPI IDEALE + miss rate \* miss penalty \* #riferimenti memoria = 8.5 + 0.11 \* 6 \* 3 = 10.48

speedupideale vs reale =  $(CPI_{REALE} * IC * f)/(CPI_{IDEALE} * IC * f) =$ 

 $10.48/8.5 \approx 1.23$ 

CPI<sub>NO CACHE</sub> = CPI IDEALE + miss penalty \* #riferimenti memoria = 8.5 + 6 \* 3 = 26.5

speedupnocache vs reale = (CPIREALE \* IC \* f ) / (CPINO CACHE \* IC \* f ) =  $10.48/26.5 \approx 0.39$ 

#### Ex 5:

Sia data un'architettura composta da una memoria RAM da 4Mparole, indirizzata a parole, una cache da 1Kparola e blocchi da 64 parole, dove ogni parola è composta da 4 byte.

- A) Strutturare gli indirizzi di memoria nel caseo di cache ad indirizzamento diretto, cache completamente associativa e cache set associativa a 2 vie.
- B) Ipotizzando la cache inizialmente vuota, si consideri il caso in cui la CPU debba caricare in cache 1025 parole memorizzate in modo adiacente nella memoria RAM a partire dall'indirizzo 0, ripetendo la sequenza di caricamento per 5 volte consecutive. Calcolare il numero di cache miss in caso di cache ad indirizzamento diretto e di cache completamente associativa, con politica di sostituzione LRU.

#### Ex 5:

#### 1' parte:

dim.RAM = 4Mparole =  $2^{22}$ parole  $\rightarrow$  22 bit per l'indirizzo dim.Cache = 1Kparola =  $2^{10}$ parole

dim.Blocco = 64parole =  $2^6$ parole  $\rightarrow 6$  bit per offset

#blocchi in<sub>c</sub>ache =  $2^{10}/2^6 = 2^4 \rightarrow 4$  bit per campo indice in caso di cache ad indirizzamento diretto

dim.Set =  $2*2^6 = 2^7$ 

#set in cache =  $2^{10}/2^7 = 2^3 \rightarrow 3$  bit per campo set in caso di cache set-associativa a 2 vie

Struttura dell'indirizzo in presenza di cache ad inbdirizzamento diretto: Tag=12 bit, Indice=4 bit, Offset=6 bit

Struttura dell'indirizzo in presenza di cache completamente associativa: Tag=16 bit, Offset=6 bit

Struttura dell'indirizzo in presenza di cache set-associativa a 2 vie: Tag=13 bit, Set=3 bit, Offset=6 bit

#### Ex 5:

#### 2' parte:

Bisogna caricare 1025 parole, memorizzate a partire dall'indirizzo 0 di memoria, per 5 volte consecutive.

1025 parole = 1024 + 1 parole = (210 + 1) parole

Dato che ciascun blocco `e grande 26 parole:

 $210/26 = 24 \rightarrow 210$  parole stanno in 24 blocchi, piu` un blocco per l'ultima parola.

Se la cache `e ad indirizzamento diretto risulta:

10 ciclo: 1024 miss a freddo + 1 miss per sostituzione (la 1025a parola prende il posto della prima)

20, 30, 40, 50 ciclo: 1 miss per la prima parola che prende il posto della 1025a + un miss per la 1025a parola che prende il posto della prima

Totale: 1025 + 2\*4 = 1033 miss

#### Ex 5 Osservazioni:

Quando la memoria è indirizzata a word, la parola è la più piccola unità di memoria indirizzabile. Questa soluzione ha il vantaggio di utilizzare indirizzi di memoria piu` compatti, che occuperanno meno spazio nella memoria istruzioni.

Quando invece la memoria `e indirizzata al byte, l'unit`a di risoluzione della memoria `e il byte. Le parole possono comunque essere indirizzate, ma l'indirizzo di memoria richiede alcuni bit aggiuntivi rispetto al caso precedente. L'approccio piu` diffuso `e quello in cui la dimensione di una parola `e un multiplo intero della dimensione del byte.