# Architecture des ordinateurs: TD3

# Université de Tours

# Département informatique de Blois

Processeur et jeu d'instructions

\* \*

## Problème 1

Un processeur possède les registres  $\mathbf{r}_{i \in \{0,\dots,9\}}$ . On souhaite calculer l'expression suivante :

$$\mathbf{r}_0 \leftarrow 2\left(\frac{\mathbf{r}_1 + \mathbf{r}_2}{\mathbf{r}_3 - \mathbf{r}_4} + \mathbf{r}_5 \times \mathbf{r}_6\right) + (\mathbf{r}_1 + \mathbf{r}_2) \times (\mathbf{r}_3 - \mathbf{r}_4)$$

1. Écrire une suite d'instructions qui calcule cette expression à l'aide des mnémoniques ci-dessus en minimisant le nombre de commandes possibles. On précise que l'on dispose au maximum des registres  $\mathbf{r}_0$  à  $\mathbf{r}_9$ .

Combien d'accès mémoire sont effectués?

2. Le processeur possède un registre accumulateur acc qui est la source et destination de toutes les opérations arithmétiques et logiques. On donne les nouvelles instructions suivantes :

• add  $r_x$  (acc  $\leftarrow$  acc  $+ r_x$ )

• div  $r_x$  (acc  $\leftarrow$  acc/ $r_x$ )

ullet sub  $\mathtt{r}_x$   $\left(\mathtt{acc} \leftarrow \mathtt{acc} - \mathtt{r}_x
ight)$ 

• load  $r_x$  (acc  $\leftarrow r_x$ )

ullet mul  $\mathtt{r}_x$   $(\mathtt{acc} \leftarrow \mathtt{acc} imes \mathtt{r}_x)$ 

• store  $r_x (r_x \leftarrow acc)$ 

Écrire une suite d'instructions correspondant au calcul voulu à l'aide des mnémoniques ci-dessus en minimisant le nombre de commandes. Le résultat sera placé dans  $\mathbf{r}_0$ . Combien d'accès mémoire sont effectués? Justifier l'utilité de l'accumulateur.

#### Problème 2

Soit la suite de Fibonacci  $(\mathcal{F}_n)_{n\in\mathbb{N}}$  définie telle que :

$$\begin{cases} \mathcal{F}_0 &= 0 \\ \mathcal{F}_1 &= 1 \\ \mathcal{F}_{n+2} &= \mathcal{F}_{n+1} + \mathcal{F}_n \end{cases}$$

- 1. Donner la forme linéaire de l'algorithme du calcul de  $\mathcal{F}_n$  sous forme itérative.
- 2. Donner le programme assembleur MIPS correspondant au calcul itératif de  $\mathcal{F}_n$ .
- 3. On s'intéresse au calcul de la suite de Fibonacci sous selon la version récursive.
  - (a) Donner le programme assembleur MIPS correspondant au calcul récursif de  $\mathcal{F}_n$ .
  - (b) Dessiner l'évolution mémoire de la pile pour l'exécution du programme pour n=3.

#### Problème 3

On considère un ensemble d'instructions  $\mathcal{I}$  correspondant à l'exécution d'un programme. On suppose  $|\mathcal{I}| = n$ . La table suivante décrit les caractéristiques de ce dernier et de l'ensemble  $\mathcal{I}$ :

| Instruction i  | Proportion $p_i$ | Nb cycles $C_i$ |  |  |
|----------------|------------------|-----------------|--|--|
| Opérations UAL | 0.43             | 1               |  |  |
| Chargement     | 0.21             | 2               |  |  |
| Stockage       | 0.12             | 2               |  |  |
| Branchement    | 0.24             | 2               |  |  |

On suppose que le programme s'exécute sur une machine dont la période de cycle horloge est de 20ns.

- 1. Calculer le MIPS et le CPU TIME du programme non-optimisé.
- 2. Pour optimiser le programme, le compilateur réduit de 50% la fréquence d'utilisation des opérations UAL de  $\mathcal{I}$  cependant, il ne réduit pas le nombre de chargements, stockages ou branchements.
  - (a) Calculer les nouvelles proportions d'utilisation  $p_i$  des unités.
  - (b) Calculer le MIPS et le CPU TIME du code optimisé. Que constatez-vous?

## Problème 4

Comme nous l'avons vu, un processeur fonctionne par cycles de temps cadencés par une horloge. Bien entendu, pour des raisons de performance, en pratique un processeur ne se contente par d'effectuer une tâche par cycle.

Plusieurs tâches peuvent ainsi être effectuées de manière concurrente (en même temps) ou parallèle (par des circuits différents).

Clairement, la longueur d'un cycle est fortement influencée par la longueur des tâches effectuées en parallèle. Ainsi, si une tâche A demande beaucoup plus de temps que d'autres pour être effectuée, il s'en suit un asynchronisme qui ne sera réglé qu'au prochain cycle suivant la fin de l'exécution de A.

Pour s'assurer de l'uniformité des tâches à exécuter (et donc d'une utilisation optimale du processeur), on recourt au pipelining.

Concrètement, il s'agit de "découper" chaque tâche en plusieurs sous-tâches, celles-ci pouvant être traitées par des parties différentes du hardware. Cela permet notamment de fixer la longueur du cycle d'horloge : il suffit alors de se référer aux sous-tâches demandant le plus grand temps d'exécution.

Le nombre de sous-tâches résultant du pipelining dépend de l'architecture considérée. Ici, nous nous fixons un découpage de chaque instruction en certaines des sous-instructions (ou étages) ci-dessous.

- Instruction Fetch (IF) : l'instruction suivante est placée dans le registre d'instruction depuis la mémoire;
- Instruction Decode (ID) : les registres nécessaires sont lus ;
- Execution (EXE) : l'opération de calcul de l'instruction est effectuée (l'UAL pour une opération arithmétique ou logique, calcul d'adresse mémoire, etc.);
- Memory Access (MEM) : si l'instruction concerne la mémoire (écriture/lecture), celle-ci est exécutée;

• Write Back (WB) : les registres-cibles sont mis à jour.

Les sous-tâches doivent alors être exécutées suivants les deux règles suivantes :

- Chaque étage s'exécute en un cycle.
- Un étage exécute au plus une instruction par cycle.
- 1. On considère l'exécution suivante :

| Instr - Cycle | 1  | 2  | 3   | 4   | 5   | 6   | 7   | 8  |  |
|---------------|----|----|-----|-----|-----|-----|-----|----|--|
| lb \$r1, \$r2 | IF | ID | EXE | MEM | WB  |     |     |    |  |
| $i_1$         |    | IF | ID  | EXE | MEM | WB  |     |    |  |
| $i_2$         |    |    | IF  | ID  | EXE | MEM | WB  |    |  |
| $i_3$         |    |    |     | IF  | ID  | EXE | MEM | WB |  |

Quel est le problème? Proposer une solution

- 2. Deux instructions peuvent utiliser les mêmes données. Plusieurs types de dépendances peuvent alors survenir :
  - (a) Read-After-Write (RAW) : dépendance vraie,
  - (b) Write-After-Read (WAR): anti-dépendance,
  - (c) Write-After-Write (WAW) : dépendance de sortie,
  - $(\mbox{\bf d})$ Read-After-Read  $(\mbox{\bf RAR})$  : dépendance d'entrée.

Pour chaque type de dépendance, donner un exemple concret la faisant apparaître. Indiquer si ce type de dépendance pose problème. 2. Comment peut-on résoudre ce(s) problème(s)?

- 3. Dans le cas d'une instruction de branchement ou de saut, à quel étage a-t-on déterminé l'adresse de destination? Combien de cycles sont donc perdus? Proposer une solution.
- 4. Pour chacun des codes MIPS ci-dessous,
  - (a) Déterminer les dépendances.
  - (b) Dessiner le pipeline simplifié.

```
add $r3, $r2, $r1
j $r3
```

```
lw $r3, 0($r5)
add $r5, $r4, $r3
```

```
lw $r3, 0($r5)
beq $r3, $r0, etiq
```

(c) Soit le programme suivant :

```
lw $r3, 0($r5)
addi $r8, $r8, 1
all $r3, $r3, 1
sw $r3, 0($r5)
bne $r3, $r9, loop
addi $r5, $r5, 4
```

Déterminer les dépendances et dessiner le pipeline puis calculer le MIPS et le  $CPU_Time$  pour un processeur cadencé à 1.6~GHz.

On considèrera que les instructions UAL consomment 1 cycle, les chargements et stockage 2 cycles et les branchements 1 cycle.

## Problème 5

1. On considère le calcul Y=aX+Y où X et Y sont deux vecteurs de dimension n>0 et  $a\in\mathbb{F}$  une constante flottante.

On donne le programme suivant  $SAXPY^1$ :

```
1. void SAXPY(float[] X, float[] Y, float a, unsigned int n) {
2.  int i;
3.  for(i = 0; i < n; i++) {
4.     Y[i] = Y[i] + a * X[i];
5.  }
6. }</pre>
```

On considère l'état des registres suivants :  $r_8$  : i;  $r_0$  : X;  $r_1$  : Y;  $r_2$  : n;  $F_0$  : a;

De plus on considère que les registres flottants  $F_1, F_2, F_3, F_4$  sont libres.

Traduire le programme ci-dessus en une suite d'instructions assembleur en utilisant le jeu d'instructions MIPS décrit dans le cours.

On précise que les instructions flottantes utilisent des mnémoniques similaires que ceux vus pour les entiers mais sont caractérisées par le suffixe .s.

Ex: add \$t0, \$t1, \$t2 devient pour les flottants add.s \$F0, \$F1, \$F2.

2. Décrire les aléas pipeline produits lors son l'exécution pour une division  $\mathcal{E}$  en cinq étages telle que décrite dans le **Problème 4**.

<sup>&</sup>lt;sup>1</sup>Ce programme standard d'algèbre linéaire est très souvent utilisé lors des benchmark pour évaluer les performances des cartes graphiques.