



# Gerenciamento de cache Arquitetura de Computadores

Bruno Prado

Departamento de Computação / UFS

- Por que usar a hierarquia de memória?
  - Compromisso entre capacidade e desempenho
  - Redução do custo de armazenamento dos dados



- Por que usar a hierarquia de memória?
  - A tecnologia da memória cache possui o melhor desempenho, funcionando como interface rápida para as memórias mais lentas



- O que é uma memória cache?
  - Alto desempenho e baixa latência
  - Tamanho limitado por causa do custo elevado
  - ► Método de acesso associativo



- O que é uma memória cache?
  - Alto desempenho e baixa latência
  - ▶ Tamanho limitado por causa do custo elevado
  - Método de acesso associativo



Por que a hierarquia de memória funciona?

- Por que a hierarquia de memória funciona?
  - Os princípios de <u>localidade espacial e temporal</u> que definem que várias regiões da memória são repetidamente e sequencialmente acessadas em um determinado intervalo de tempo
    - Execução sequencial das instruções do software
    - Repetição através de controles iterativos

- Localidade espacial
  - A execução do software é iterativa e sequencial
  - É feito o acesso recorrente para um conjunto pequeno e repetido de instruções e dados

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for (i = 0; i < 1024; i++) {
           a = 2 * a:
10
       // Retorno sem erros
11
       return 0:
12
13
```

- Localidade espacial
  - A execução do software é iterativa e sequencial
  - É feito o acesso recorrente para um conjunto pequeno e repetido de instruções e dados

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for (i = 0; i < 1024; i++) {
           a = 2 * a;
       }
10
11
       // Retorno sem erros
       return 0;
12
13
```

#### Instruções do controle iterativo

- Localidade espacial
  - A execução do software é iterativa e sequencial
  - É feito o acesso recorrente para um conjunto pequeno e repetido de instruções e dados

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for (i = 0; i < 1024; i++) {
           a = 2 * a;
10
11
       // Retorno sem erros
       return 0:
12
13
```

#### Dados acessados nas iterações

- Localidade temporal
  - Quando uma determinada posição de memória é referenciada (instrução ou dado), provavelmente ela será acessada novamente pelo fluxo de execução

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for(i = 0; i < 1024; i++) {
           a = 2 * a:
10
       // Retorno sem erros
11
       return 0:
12
13
```

- Localidade temporal
  - Quando uma determinada posição de memória é referenciada (instrução ou dado), provavelmente ela será acessada novamente pelo fluxo de execução

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
5
       uint32_t a = 1, i;
       // Controle iterativo
       for (i = 0; i < 1024; i++) {
           a = 2 * a;
10
11
       // Retorno sem erros
       return 0:
12
13
```

### Inicialização de variáveis

- Localidade temporal
  - Quando uma determinada posição de memória é referenciada (instrução ou dado), provavelmente ela será acessada novamente pelo fluxo de execução

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for(i = 0; i < 1024; i++) {
9
           a = 2 * a;
10
11
          Retorno sem erros
       return 0:
12
13
```

Repetição da operação por 1024 vezes

- Localidade temporal
  - Quando uma determinada posição de memória é referenciada (instrução ou dado), provavelmente ela será acessada novamente pelo fluxo de execução

```
// Biblioteca de E/S padrão
   #include <stdio.h>
   // Função principal
   int main() {
       // Variáveis inteiras
       uint32_t a = 1, i;
       // Controle iterativo
       for (i = 0; i < 1024; i++) {
           a = 2 * a;
10
11
       // Retorno sem erros
       return 0:
12
13
```

#### Finalização da execução

Qual é o papel da memória cache na implementação da hierarquia de memória?

- Qual é o papel da memória cache na implementação da hierarquia de memória?
  - É a memória que possui menor latência, armazenando as instruções e os dados de acordo com os princípios de localidade, e realiza o acesso por associação do endereço da memória principal

- Qual é o papel da memória cache na implementação da hierarquia de memória?
  - ▶ É a memória que possui menor latência, armazenando as instruções e os dados de acordo com os princípios de localidade, e realiza o acesso por associação do endereço da memória principal
  - O gerenciamento de cache vai explorar estes conceitos para aumentar disponibilidade dos dados na cache e o desempenho do sistema
    - Estrutura de armazenamento
    - Mapeamento dos endereços
    - Algoritmos de substituição
    - Política de escrita dos dados
    - Análise de desempenho

- Estrutura de armazenamento
  - ► Linhas x Endereços
  - Blocos x Palavras



- Estrutura de armazenamento
  - A cache possui *L* linhas com blocos de B = 4 palavras
  - A memória principal de 32 GiB possui  $M = \frac{2^{33}}{B}$  blocos

- Estrutura de armazenamento
  - A cache possui *L* linhas com blocos de B = 4 palavras
  - A memória principal de 32 GiB possui  $M = \frac{2^{33}}{B}$  blocos



- Estrutura de armazenamento
  - A cache possui *L* linhas com blocos de B = 4 palavras
  - A memória principal de 32 GiB possui  $M = \frac{2^{33}}{B}$  blocos



- Estrutura de armazenamento
  - A cache possui *L* linhas com blocos de B=4 palavras
  - A memória principal de 32 GiB possui  $M = \frac{2^{33}}{B}$  blocos



Esta cache de 16 MiB armazena  $4 \times 2^{20} \div 2^{31} \approx 0,2\%$  do conteúdo total da memória principal de 32 GiB

#### Estrutura de armazenamento

| Cache separada             | Cache unificada                                   |
|----------------------------|---------------------------------------------------|
| Duas caches distintas para | Uma única cache para                              |
| instruções e dados         | instruções e dados                                |
| Permite o acesso paralelo  | A capacidade da cache é                           |
| das informações            | melhor aproveitada                                |
| Replicação de              | Somente um componente<br>é utilizado e controlado |
| componentes e da lógica    |                                                   |
| de controle                |                                                   |

- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Cada bloco da memória possui um identificador
  - Este identificador é usado para verificar se o dado está armazenado em alguma linha da cache



- Fluxo de leitura de um dado da cache
  - Se o dado solicitado para leitura pelo processador estiver disponível na cache, ocorre um acerto (hit)
    - Não existe retenção do processador
    - Os níveis inferiores da hierarquia não são acessados

- Fluxo de leitura de um dado da cache
  - Se o dado solicitado para leitura pelo processador estiver disponível na cache, ocorre um acerto (hit)
    - Não existe retenção do processador
    - Os níveis inferiores da hierarquia não são acessados
  - Caso o dado requisitado pelo processador não esteja armazenado na cache, ocorre uma falta (miss)
    - Ocorre a retenção de execução no processador
    - O bloco é buscado nos níveis inferiores da hierarquia

- Fluxo de leitura de um dado da cache
  - Se o dado solicitado para leitura pelo processador estiver disponível na cache, ocorre um acerto (hit)
    - Não existe retenção do processador
    - Os níveis inferiores da hierarquia não são acessados
  - Caso o dado requisitado pelo processador não esteja armazenado na cache, ocorre uma falta (miss)
    - Ocorre a retenção de execução no processador
    - O bloco é buscado nos níveis inferiores da hierarquia
      - $\uparrow$  %Acerto  $\longleftrightarrow$   $\uparrow$  Desempenho

- ► Tipos de falta em cache
  - Compulsória
    - É decorrente do processo de inicialização da cache, enquanto os dados estão sendo armazenados em posições ainda sem nenhum dado

- Tipos de falta em cache
  - Compulsória
    - É decorrente do processo de inicialização da cache, enquanto os dados estão sendo armazenados em posições ainda sem nenhum dado
  - Conflito
    - Dependendo das técnicas de endereçamento da cache, ocorrem colisões de endereços já utilizados que causam substituição dos dados

- Tipos de falta em cache
  - Compulsória
    - É decorrente do processo de inicialização da cache, enquanto os dados estão sendo armazenados em posições ainda sem nenhum dado
  - Conflito
    - Dependendo das técnicas de endereçamento da cache, ocorrem colisões de endereços já utilizados que causam substituição dos dados
  - Capacidade
    - São faltas que ocorrem pela necessidade de substituição por falta de espaço disponível dos dados armazenados que serão referenciados futuramente

- Mapeamento dos endereços
  - Define como os endereços de instruções e de dados solicitados pelo processador para a memória principal são mapeados nas linhas da cache
    - Direto
    - Totalmente associativo
    - Associativo por conjunto

- Mapeamento direto
  - É a técnica mais simples para associação de endereços na cache, consistindo na aplicação de uma função de módulo (hash) para determinar qual linha da cache deve ser indexada

$$i = j \mod L$$

- A linha da cache é endereçada pela variável i
  - A variável j representa o endereço do bloco
  - O número total de linhas da cache é descrito por L

- Mapeamento direto
  - A cache possui 8 linhas de dados
  - Cada linha armazena um bloco com 4 palavras



- Mapeamento direto
  - ▶ O identificador (*ID*) possui N NL NP 2 bits, onde  $NL = \log_2 L = 3$  e  $NP = \log_2 B = 2$  são o número de bits para indexar as linhas e as palavras, respectivamente



Memória (32 KiB)

- Mapeamento direto
  - O endereço é usado para indexar linhas e palavras
  - O bit de validade indica se o dado está disponível



- Mapeamento direto
  - ▶ Solicitação de endereço 00000000|000|000|00
  - ▶ Identificador = 00000000, Linha = 000 e Palavra = 00



- Mapeamento direto
  - ▶ Solicitação de endereço 00000000|000|000|00
  - ▶ Identificador = 00000000, Linha = 000 e Palavra = 00



- Mapeamento direto
  - ➤ Solicitação de endereço 00000000|000|000|00
  - ▶ Identificador = 00000000, Linha = 000 e Palavra = 00

A palavra é obtida pelo processador e o bloco é armazenado na memória cache

| 00               | 0 5      | , | 00000000      | 0     | 1       | 2     | 3        |
|------------------|----------|---|---------------|-------|---------|-------|----------|
| 00               | 1 \      | 1 |               |       |         |       |          |
| 01               | 0 \      | 1 |               |       |         |       |          |
| 01               | 1 \      | 1 |               |       |         |       |          |
| 10               | 0 \      | 1 |               |       |         |       |          |
| 10               | 1 \      | 1 |               |       |         |       |          |
| 11               | 0 \      | 1 |               |       |         |       |          |
| 11               | 1        | 1 |               |       |         |       |          |
| المراجعة المادات | 1        |   | <b>↑</b>      | 1     | Ť       | 1     | <b>†</b> |
| Linha            | Validade |   | Identificador | $P_O$ | $P_{l}$ | $P_2$ | $P_3$    |

- Mapeamento direto
  - ➤ Solicitação de endereço 00000000|000|11|00
  - ▶ Identificador = 00000000, Linha = 000 e Palavra = 11

A palavra está disponível (acerto na memória cache)

| 000                                   | S        | 00000000      | 0     | 1        | 2     | 3        |
|---------------------------------------|----------|---------------|-------|----------|-------|----------|
| 001                                   | 7        |               |       |          |       |          |
| 010                                   | 7        |               |       |          |       |          |
| 011                                   | 7        |               |       |          |       |          |
| 100                                   | 7        |               |       |          |       |          |
| 101                                   | 7        |               |       |          |       |          |
| 110                                   | N        |               |       |          |       |          |
| 111                                   | 7        |               |       |          |       |          |
| , , , , , , , , , , , , , , , , , , , | 1        | <b>†</b>      | Ť     | <b>†</b> | 1     | <i>†</i> |
| Linha                                 | /alidade | Identificador | $P_O$ | $P_{l}$  | $P_2$ | $P_3$    |

- Mapeamento direto
  - ► Solicitação de endereço 00000001|000|01|00
  - ▶ Identificador = 00000001, Linha = 000 e Palavra = 01

Apesar da linha da cache ser válida, o identificador não corresponde ao endereço (falta por conflito)



- Mapeamento direto
  - Solicitação de endereço 00000001|000|01|00
  - ▶ Identificador = 00000001, Linha = 000 e Palavra = 01

É feita a leitura do Bloco 8 da memória



- Mapeamento direto
  - ➤ Solicitação de endereço 00000001|000|01|00
  - ▶ Identificador = 00000001, Linha = 000 e Palavra = 01

A palavra é obtida pelo processador e o bloco é armazenado na memória cache



- Mapeamento direto
  - Cenário ideal
    - Acesso sequencial e repetitivo da memória
    - Todas as linhas são utilizadas sem substituição

Após todos os Blocos serem referenciados, não ocorrem mais faltas na memória cache

|        | 000 | S        | 00000000      | 0     | ı       | 2        | 3     |
|--------|-----|----------|---------------|-------|---------|----------|-------|
|        | 001 | S        | 00000000      | 4     | 5       | 6        | 1     |
|        | 010 | S        | 00000000      | 8     | 9       | Ю        | II    |
|        | 011 | S        | 00000000      | 12    | 13      | 14       | 15    |
|        | 100 | S        | 00000000      | 16    | П       | 18       | 19    |
|        | 101 | S        | 00000000      | 20    | 21      | 22       | 23    |
|        | 110 | S        | 00000000      | 24    | 25      | 26       | 27    |
|        | 111 | S        | 00000000      | 28    | 29      | 30       | 31    |
| Linha  | *   | †        | <b>†</b>      | 1     | †       | <b>†</b> | •     |
| Cir Ma |     | Validade | Identificador | $P_O$ | $P_{l}$ | $P_2$    | $P_3$ |

- Mapeamento direto
  - ✓ Implementação de baixo custo e simples
  - A indexação depende somente da seleção de bits do endereço de memória solicitado

- Mapeamento direto
  - ✓ Implementação de baixo custo e simples
  - A indexação depende somente da seleção de bits do endereço de memória solicitado
  - Todos os blocos podem ser mapeados na mesma linha da cache (falta por conflito)
  - X A substituição dos blocos aumentam as faltas que degradam o desempenho do sistema

- Mapeamento totalmente associativo
  - Todos os identificadores são comparados em paralelo
  - Somente as palavras do bloco são indexadas



Memória (32 KiB)

- Mapeamento totalmente associativo
  - Redução de colisões de mapeamento
  - Escolha da política de substituição

Todos os identificadores são comparados em paralelo

| S        | 0000000000    | 0     | I       | 2     | 3        |
|----------|---------------|-------|---------|-------|----------|
| S        | 0000000000    | 32    | 33      | 34    | 35       |
| S        | 0000000000    | 64    | 65      | 66    | 67       |
| S        | 00000011000   | 12.8  | 129     | 130   | 131      |
| S        | 00000100000   | 160   | 6       | 162   | 163      |
| S        | 00000101000   | 196   | 197     | 198   | 199      |
| S        | 00000  0000   | 224   | 225     | 226   | 227      |
| S        | 00000111000   | 256   | 251     | 258   | 259      |
| 1        | <u>†</u>      | 1     | †       | †     | <b>†</b> |
| Validade | ldentificador | $P_O$ | $P_{l}$ | $P_2$ | $P_3$    |

- Mapeamento totalmente associativo
   Não existe conflito de endereçamento, uma
  - √ vez que os blocos podem ser associados a qualquer linha da cache

- Mapeamento totalmente associativo
   Não existe conflito de endereçamento, uma
  - vez que os blocos podem ser associados a qualquer linha da cache
  - Alto custo de comparação paralela de todos os identificadores armazenados nas linhas

- Mapeamento associativo por conjunto
  - Compromisso entre o mapeamento direto (simples) e o totalmente associativo (sem conflitos)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - Grau de associatividade 1 (mapeamento direto)



- Mapeamento associativo por conjunto
  - ► Grau de associatividade 2



- Mapeamento associativo por conjunto
  - ► Grau de associatividade 2



- Mapeamento associativo por conjunto
  - ► Grau de associatividade 2



- Mapeamento associativo por conjunto
  - ► Grau de associatividade 2



- Mapeamento associativo por conjunto
  - Grau de associatividade 4



- Mapeamento associativo por conjunto
  - Grau de associatividade 4



- Mapeamento associativo por conjunto
  - ► Grau de associatividade 8 (totalmente associativo)



- Substituição de dados da cache
  - Somente é aplicável para mapeamento associativo por conjunto ou totalmente associativo

- Substituição de dados da cache
  - Somente é aplicável para mapeamento associativo por conjunto ou totalmente associativo
  - É necessário realizar a substituição devido a capacidade limitada de armazenamento e para manter o dado disponível o máximo de tempo

- Substituição de dados da cache
  - Somente é aplicável para mapeamento associativo por conjunto ou totalmente associativo
  - É necessário realizar a substituição devido a capacidade limitada de armazenamento e para manter o dado disponível o máximo de tempo
  - Define qual será o critério ou a política adotada para substituir o dado armazenado na cache
    - First-In First-Out (FIFO)
    - Last Frequently Used (LFU)
    - Last Recently Used (LRU)
    - Randômico

- Algoritmos de substituição
  - ► FIFO
    - O bloco mais antigo sempre é substituído, independente de quantas referências são realizadas
    - Pode ser implementado utilizando uma estrutura de fila

- ► Algoritmos de substituição
  - ► FIFO
    - O bloco mais antigo sempre é substituído, independente de quantas referências são realizadas
    - Pode ser implementado utilizando uma estrutura de fila
  - ► LFU
    - O bloco que é menos frequentemente acessado pelo processador é substituído na cache
    - É feito um controle na linha da cache para medir a frequência de acesso (contador)

- Algoritmos de substituição
  - ► LRU
    - O bloco que foi referenciado a mais tempo pelo processador é substituído na cache
    - Cada linha possui um controle de idade que é reinicializado a cada acesso e incrementado caso não seja referenciado

- Algoritmos de substituição
  - ► LRU
    - O bloco que foi referenciado a mais tempo pelo processador é substituído na cache
    - Cada linha possui um controle de idade que é reinicializado a cada acesso e incrementado caso não seja referenciado
  - Randômico
    - Os blocos são aleatoriamente substituídos
    - Necessita de um gerador de números aleatórios para calcular a posição que será descartada

- Política de escrita dos dados
  - Quando uma solicitação de escrita é realizada pelo processador, este dado é armazenado na cache

- Política de escrita dos dados
  - Quando uma solicitação de escrita é realizada pelo processador, este dado é armazenado na cache
  - Assim como ocorre na leitura, o objetivo é reduzir a latência das operações de acesso a memória

- Política de escrita dos dados
  - Quando uma solicitação de escrita é realizada pelo processador, este dado é armazenado na cache
  - Assim como ocorre na leitura, o objetivo é reduzir a latência das operações de acesso a memória
  - Já foi visto que a cache possui capacidade limitada e que os dados armazenados podem ser substituídos ao longo da execução do software

- Política de escrita dos dados
  - Quando uma solicitação de escrita é realizada pelo processador, este dado é armazenado na cache
  - Assim como ocorre na leitura, o objetivo é reduzir a latência das operações de acesso a memória
  - Já foi visto que a cache possui capacidade limitada e que os dados armazenados podem ser substituídos ao longo da execução do software

Quais são as formas de escrever os dados na memória antes que sejam substituídos?

- Política de escrita dos dados
  - Escrita direta (write through)
    - Toda vez que uma operação de escrita é realizada, o dado é imediatamente transferido para a memória

- Política de escrita dos dados
  - Escrita direta (write through)
    - Toda vez que uma operação de escrita é realizada, o dado é imediatamente transferido para a memória
    - ▶ É a técnica mais simples para garantir que os valores estejam consistentes em todos os níveis da hierarquia

- Política de escrita dos dados
  - Escrita direta (write through)
    - Toda vez que uma operação de escrita é realizada, o dado é imediatamente transferido para a memória
    - É a técnica mais simples para garantir que os valores estejam consistentes em todos os níveis da hierarquia
    - A grande desvantagem desta técnica é o tráfego intenso com a memória que pode gerar retenção nos acessos ao barramento do sistema

- Política de escrita dos dados
  - Escrita atrasada (write back)
    - Todos os dados são escritos somente na cache até que seja feita a substituição da linha

- Política de escrita dos dados
  - Escrita atrasada (write back)
    - Todos os dados são escritos somente na cache até que seja feita a substituição da linha
    - Para evitar perda de dados durante a operação de substituição, existe um campo de uso na linha da cache para indicar que o dado ainda não foi escrito nos níveis inferiores da hierarquia de memória

- Política de escrita dos dados
  - Escrita atrasada (write back)
    - Todos os dados são escritos somente na cache até que seja feita a substituição da linha
    - Para evitar perda de dados durante a operação de substituição, existe um campo de uso na linha da cache para indicar que o dado ainda não foi escrito nos níveis inferiores da hierarquia de memória
    - Reduz o tráfego com a memória e a retenção, uma vez que todas as operações são realizadas na cache

- Política de escrita dos dados
  - Escrita atrasada (write back)
    - Todos os dados são escritos somente na cache até que seja feita a substituição da linha
    - Para evitar perda de dados durante a operação de substituição, existe um campo de uso na linha da cache para indicar que o dado ainda não foi escrito nos níveis inferiores da hierarquia de memória
    - Reduz o tráfego com a memória e a retenção, uma vez que todas as operações são realizadas na cache

Não pode ser utilizada em operações de E/S mapeada em memória!

- Política de escrita dos dados em caso de falta
  - Escrita com alocação (write allocate)
    - É feita a requisição de leitura do bloco da memória
    - A palavra endereçada está disponível na cache

- Política de escrita dos dados em caso de falta
  - Escrita com alocação (write allocate)
    - ▶ É feita a requisição de leitura do bloco da memória
    - A palavra endereçada está disponível na cache
    - Escrita sem alocação (no write allocate)
      - O dado é atualizado diretamente na memória
      - Evita que blocos inteiros sejam carregados em rotinas de inicialização que escrevem zeros na memória

- Análise qualitativa de desempenho
  - ► Tamanho da cache
    - Uma maior capacidade de armazenamento reduz as substituições de dados até um certo limite
    - A adoção de múltiplos níveis de cache (L1, L2 e L3) colabora para a redução da penalidade que é o tempo de acesso em caso de falta

- Análise qualitativa de desempenho
  - Tamanho da cache
    - Uma maior capacidade de armazenamento reduz as substituições de dados até um certo limite
    - A adoção de múltiplos níveis de cache (L1, L2 e L3) colabora para a redução da penalidade que é o tempo de acesso em caso de falta
  - Grau de associatividade
    - Quanto maior a associatividade, menor o número de colisões e o número de substituições
    - A política de substituição impacta diretamente na taxa de faltas da cache (desempenho)

- Análise qualitativa de desempenho
  - Tamanho da cache
    - Uma maior capacidade de armazenamento reduz as substituições de dados até um certo limite
    - A adoção de múltiplos níveis de cache (L1, L2 e L3) colabora para a redução da penalidade que é o tempo de acesso em caso de falta
  - Grau de associatividade
    - Quanto maior a associatividade, menor o número de colisões e o número de substituições
    - A política de substituição impacta diretamente na taxa de faltas da cache (desempenho)
  - Política de escrita
    - A escrita direta simplifica a coerência, mas aumenta o tráfego com barramento e a memória
    - Com a escrita atrasada, a latência e o tráfego são reduzidos, mas é preciso controlar as substituições

- Análise quantitativa de desempenho
  - ► Tempo de acerto da cache (*TA*)
  - ► Taxa de falta da cache (TF)
  - Medição da penalidade (P) para acessar os níveis inferiores da hierarquia de memória

Latência média =  $TA + TF \times P$ 

- Análise quantitativa de desempenho
  - Frequência de operação de 2 GHz
  - ► Tempo de acerto de 3 ciclos (cache)
  - Penalidade com tempo de 10 ciclos (memória)
  - Taxa de falta de 5%

Latência média = 
$$3+0.05 \times 10$$
  
=  $3.5$  ciclos  
=  $1.75$  ns

- Análise quantitativa de desempenho
  - Frequência de operação de 2 GHz
  - ▶ Tempo de acerto de 3 ciclos (cache)
  - Penalidade com tempo de 10 ciclos (memória)
  - Taxa de falta de 5%

Latência média = 
$$3+0.05 \times 10$$
  
=  $3.5$  ciclos  
=  $1.75$  ns

A cache proporciona um aumento médio de  $10 \ ciclos \div 3, 5 \ ciclos \approx 3 \ vezes no desempenho$ 

## Exercício

Implemente duas caches separadas para dados (D) e instruções (I), com capacidade de 256 bytes, blocos de 4 palavras e associatividade de grau 2



Implemente a política LRU com escrita direta (write through) sem alocação (no write allocate), excluindo os endereços mapeados em montro de mon

#### Exercício

Os eventos de acerto ou de falta nos acessos às caches devem ser exibidos durante a execução de cada uma das instruções, com as taxas de acerto de das caches D e I no final da execução

```
[START OF SIMULATION]
0x???????: ?_read_hit [u]->[u]
                                  ID=0x??????.DATA={...}
                                  [u] {VAL=u, AGE=u, ID=0x??????},...
0x???????: ?_read_miss [u]
0x???????: ?_write_hit [u]->[u] ID=0x??????,DATA={...}
0x???????: ?_write_miss [u]
                                  [u]{VAL=u, AGE=u, ID=0x??????},...
[CACHE]
D_hit_rate: ?.??%
I_hit_rate: ?.??%
[END OF SIMULATION]
```