## Gabarito

### Exercício 1

Considere os seguintes três processadores (X, Y e Z) que são fabricados em uma área constante de silício de 16A. Assuma que uma thread simples em um core tem um desempenho que cresce com a raiz quadrada da sua área.



Em cada um dos três processadores, nós vamos executar um programa onde **a fração S do trabalho é serial e a fração 1-S do trabalho é infinitamente paralelizável**. Em função de S, plote o tempo de execução do programa em cada um dos três processadores. Assuma que o programa leva o tempo T para ser executado usando apenas um pequeno core do processador Z. Mostre a reta de tempo, indicando o valor onde o eixo y é interceptado e a inclinação.

## (a) Processador X



Para S = 0: T/4 Para S = 1: T/4 Inclinação é 0

(b) Processador Y

Tempo de Execução



Para S = 0: T/8 Para S = 1: T/2 Inclinação é 3T/8

# (c) Processador Z

Tempo de Execução



Para S = 0: T/16 Para S = 1: T Inclinação é 15T/16

(d) Tipicamente, para um programa realístico, a fração paralela não é infinitamente paralelizável. Cite três razões para isso.

### Exercício 2

(a) Em um multiprocessador com uma cache privada L1 e cache compartilhada L2, se dados compartilhados (shared) são lidos por todos os cores todos os ciclos, mas escritos apenas uma vez em 1000 ciclos por um core, qual tipo de protocolo de coerência devo usar? Update ou Invalidate?

## Por quê?

# Update. Porque o número de escritas é considerado baixo.

(b) Considere uma máquina multiprocessada com 3-cores. Assuma que cada processador possui uma cache com associatividade completa com 4 blocos de 2 palavras. Na tabela abaixo, considere o estado de cada bloco, na respectiva linha, como C (compartilhado), I (Invalido) e E (Exclusivo). Quando apenas uma cache possui o bloco, considere como C. Indique também quem fornece o dado e se o compartilhamento é verdadeiro ou falso, quando for o caso. Considere todas as caches vazias inicialmente e o protocolo Snoopy.

Obs.: considere que os blocos sempre apresentam palavras em pares. p.ex: w0 e w1; w2 e w3; w4 e w5 ....

| Ação do Processador | C-<br>P1 | C-<br>P2 | C-<br>P3 | Ação do<br>Barramento | Fornecedor<br>do dado | Compartilha -mento |
|---------------------|----------|----------|----------|-----------------------|-----------------------|--------------------|
| P1 lê w3            | С        |          |          |                       | M                     |                    |
| P1 lê w5            | С        |          |          |                       | M                     |                    |
| P2 lê w3            | С        | С        |          |                       | C1 ou M               |                    |
| P3 lê w4            | С        |          | С        |                       | C1 ou M               |                    |
| P3 escreve w1       |          |          | Е        |                       | M                     |                    |
| P1 escreve w3       | E        | I        |          |                       | C1                    |                    |
| P3 lê w4            | С        |          | С        |                       | C3                    |                    |
| P2 lê w3            | С        | С        |          |                       | C1                    | V                  |
| P2 escreve w5       | I        | E        | I        |                       | C1, C3 ou M           |                    |
| P2 escreve w2       | I        | E        |          |                       | C2                    |                    |
| P1 lê w4            | С        | С        | С        |                       | C2                    | F                  |

### Exercício 3

(a) Você precisa executar o código abaixo na arquitetura "VMIPS adaptada". Assuma o comprimento de vetor máximo igual a 128. Mostre o diagrama de pipeline deste código sendo executando em uma arquitetura de uma raia que tem uma unidade independente de load, uma de store, uma de multiplicação e uma de ALU. Loads demoram 3 ciclos (L0, L1, L2), store 2 ciclos (S0, S1), multiplicação 5 (Y0, Y1, Y2, Y3, Y4) e operações da ALU 2 ciclos (X0, X1). Assuma que há pipeline total nas unidades funcionais. O pipeline tem estágios dedicados de leitura e escrita de registradores, mas só há uma porta de leitura e uma de escrita no registrador de arquivo. Não há encaminhamento.

Código "VMIPS adaptada"

| LDI      | VLR, 4     |
|----------|------------|
| LV       | V1, R4     |
| MULVS.DI | V3, V1, 7  |
| LV       | V2, R5     |
| ADD      | V4, V3, V2 |
| SV       | R6, V4     |

(b) Repita do diagrama do pipeline acima considerando que o pipeline tem agora duas portas de escrita e duas de leitura no registrador de arquivo por raia. Assuma também que a arquitetura possui duas raias (duas fontes duplicadas de unidades funcionais).

```
4a)
         FDRL0L1L2W
               R L0 L1 L2 W
                  R L0 L1 L2 W
                     R L0 L1 L2 W
MULVS.DI F D D D D R Y0 Y1 Y2 Y3 Y4 W

R Y0 Y1 Y2 Y3 Y4 W
             FFFFDDDDDDRL0L1L2W
                                           R L0 L1 L2 W
                                              R L0 L1 L2 W
                                                 R L0 L1 L2 W
ADD
                       FFFFFDDDDDRX0X1W
                                                            R X0 X1 W
                                                              R X0 X1 W
                                         FFFFDDDDRS0S1W
SV
                                                                     R S0 S1 W
                                                                        R S0 S1 W
                                                                           R S0 S1 W
4b)
         FDRL0L1L2W
IV
               R LO L1 L2 W
            R LO L1 L2 W
               R L0 L1 L2 W
                            R Y0 Y1 Y2 Y3 Y4 W
                         R Y0 Y1 Y2 Y3 Y4 W
                            R Y0 Y1 Y2 Y3 Y4 W
             F F F F D R LO L1 L2 W
                               R L0 L1 L2 W
                             R L0 L1 L2 W
                               R L0 L1 L2 W
                            D D D D D R X0 X1 W R X0 X1 W
ADD
                                          R X0 X1 W
                                             R X0 X1 W
                                             D D
                                                        R S0 S1 W
                                                     R S0 S1 W
                                                        R S0 S1 W
```

## Exercício 4

Para um computador com 64-bits de endereço virtual, qual o tamanho da tabela de página se apenas um nível de tabela de página é usado? Assuma que cada página tem 4KB e que cada entrada da tabela de página tem 8 bytes e que o processador é endereçável por byte.