## Exécution superscalaire Exécution dans le désordre

SEOC3A - CEAMC

Arthur Perais (arthur.perais@univ-grenoble-alpes.fr)

## Rappel Pipelining

- Parallélisme de pipeline en découpant l'exécution d'une instruction en plusieurs étapes
- Implémentation pipelinée introduit des dépendances structurelles
  - Sur les données -> Limitées via le réseau de bypass
  - · Sur le contrôle -> Limitées via la prédiction de branchement



## Rappel Pipelining

- Parallélisme de pipeline en découpant l'exécution d'une instruction en plusieurs étapes
- Implémentation pipelinée introduit des dépendances structurelles
  - Sur les données -> Limitées via le réseau de bypass
  - Sur le contrôle -> Limitées via la prédiction de branchement
- Autre(s) limitation(s) structurelle(s) du pipeline?

## Rappel Pipelining

- Parallélisme de pipeline en découpant l'exécution d'une instruction en plusieurs étapes
- Implémentation pipelinée introduit des dépendances structurelles
  - Sur les données -> Limitées via le réseau de bypass
  - Sur le contrôle -> Limitées via la prédiction de branchement
- Autre(s) limitation(s) structurelle(s) du pipeline?
  - Chaque étage traite une seule instruction par cycle : pipeline scalaire
    - Performance crête: 1 IPC

• Dupliquer les ressources pour tirer parti du parallélisme d'instruction (ILP)

add x2, x3, x4 add x5, x6, x7

- · Pas de dépendances de données
  - On peut les exécuter en même temps tout en respectant l'exécution dans l'ordre du programme

• Dupliquer les ressources pour tirer parti du parallélisme d'instruction (ILP)

| add x2, x3, x4 | IF | ID | EXE | MEM | WB  |    |
|----------------|----|----|-----|-----|-----|----|
| add x5, x6, x7 | IF | ID | EXE | MEM | WB  |    |
|                |    | IF | ID  | EXE | MEM | WB |
|                |    | IF | ID  | EXE | MEM | WB |

« superscalaire degré 2 »

Latence: 5 CPI

Débit : 2 IPC

- Degré 4, 8, 16 mais...
  - · Dès qu'une instruction bloque, tout le monde attend

I0 add x1, x5, x5
I1 add x2, x1, x1
I2 add x4, x3, x3

| IF | ID | EXE   | MEM | WB  |    |
|----|----|-------|-----|-----|----|
| IF | ID | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | EXE | MEM | WB |

- Degré 4, 8, 16 mais...
  - · Dès qu'une instruction bloque, tout le monde attend

| I0 add x1, x5, x | <b>κ</b> 5 |
|------------------|------------|
| I1 add x2, x1, x | κ1         |
| I2 add x4, x3, x | κ3         |

| IF | ID | EXE   | MEM | WB  |    |
|----|----|-------|-----|-----|----|
| IF | ID | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | EXE | MEM | WB |

- Dépendance de donnée architecturale entre I0 et I1 sur x1
  - 1 cycle entre I0 et I1 : OK
- · Pas de dépendance de donnée architecturale entre I2 et I1
  - 0 cycle entre I2 et I1 : OK
- Pas de dépendance de donnée architecturale entre I2 et I0
  - Pourtant, 1 cycle entre I2 et I0
  - · Dépendance de contrôle (exécution dans l'ordre du programme)

#### Exercice:

- · Quelle exécution en pipeline superscalaire de dégré 3 pour le code suivant ?
- Dépendance(s) structurelle(s) vs. architecturale(s)?

```
I0 add x1, x5, x5
```

I1 add x2, x1, x1

I2 add x4, x3, x3

I3 ld x8, 0(x10)

I4 add **x**11, x8, x8

I5 sub x15, x14, x14

I6 sd x1, 0(x17)

I7 sll x9, x8, x8

I8 srl x12, x5, x5

#### Exercice:

- · Quelle exécution en pipeline pour le code suivant ?
- Dépendance(s) structurelle(s) vs. architecturale(s)?

I0 add x1, x5, x5

I1 add x2, x1, x1

I2 add x4, x3, x3

| 14 | aaa A  | 1, 20, 20 |
|----|--------|-----------|
| I3 | ld x8, | 0(x10)    |

| IF | ID | EXE   | MEM | WB  |    |
|----|----|-------|-----|-----|----|
| IF | ID | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | EXE | MEM | WB |

I4 add 11 v8 v

I5 sub x15, x14, x14

I6 sd x1, 0(x15)

I7 sll x9, x8, x8

I8 srl x12, x5, x5

#### Exercice:

- · Quelle exécution en pipeline pour le code suivant ?
- Dépendance(s) structurelle(s) vs. architecturale(s)?

| I0 add x1, x5, x5  | IF | ID | EXE   | MEM | WB    |     |     |    |
|--------------------|----|----|-------|-----|-------|-----|-----|----|
| I1 add x2, x1, x1  | IF | ID | Bulle | EXE | MEM   | WB  |     |    |
| I2 add x4, x3, x3  | IF | ID | Bulle | EXE | MEM   | WB  |     |    |
| I3 ld x8, 0(x10)   |    | IF | ID    | EXE | MEM.  | WB  |     |    |
| I4 add x11, x8, x8 |    | IF | Bulle | ID  | Bulle | EXE | MEM | WB |

I5 sub x15, x14, x14

I6 sd x1, 0(x17)

I7 sll x9, x8, x8

I8 srl x12, x5, x5

#### Exercice:

- · Quelle exécution en pipeline pour le code suivant ?
- Dépendance(s) structurelle(s) vs. architecturale(s)?

| I0 add x1, x5, x5   | IF | ID | EXE   | MEM | WB    |       |     |     |    |
|---------------------|----|----|-------|-----|-------|-------|-----|-----|----|
| I1 add x2, x1, x1   | IF | ID | Bulle | EXE | MEM   | WB    |     |     |    |
| I2 add x4, x3, x3   | IF | ID | Bulle | EXE | MEM   | WB    |     |     |    |
| I3 ld x8, 0(x10)    |    | IF | ID    | EXE | MEM   | WB    |     |     |    |
| I4 add x11, x8, x8  |    | IF | Bulle | ID  | Bulle | EXE   | MEM | WB  |    |
| I5 sub x15, x14, x1 | 4  | IF | Bulle | ID  | Bulle | EXE   | MEM | WB  |    |
| I6 sd x1, $0(x17)$  |    |    | IF    | ID  | Bulle | EXE   | MEM | WB  |    |
| I7 sll x9, x8, x8   |    |    |       | IF  | ID    | Bulle | EXE | MEM | WB |
| I8 srl x12, x5, x5  |    |    |       | IF  | ID    | Bulle | EXE | MEM | WB |

# Bulle Bulle

Arch. contrôle

Arch. donnée

µarch. ressource

#### Exercice:

- Quelle exécution en pipeline pour le code suivant ?
- · Dépendance(s) structurelle(s) vs. architecturale(s)?

| I0 add x1, x5, x5            | IF | ID | EXE   | MEM | WB    |       |     |     |    |
|------------------------------|----|----|-------|-----|-------|-------|-----|-----|----|
| I1 add x2, x1, x1            | IF | ID | Bulle | EXE | MEM   | WB    |     |     |    |
| I2 add x4, x3, x3            | IF | ID | Bulle | EXE | MEM   | WB    |     |     |    |
| I3 ld x8, 0(x10)             |    | IF | ID    | EXE | MEM   | WB    |     |     |    |
| I4 add x11, x8, x8           |    | IF | Bulle | ID  | Bulle | EXE   | MEM | WB  |    |
| I5 sub x15, x14, x1          | 4  | IF | Bulle | ID  | Bulle | EXE   | MEM | WB  |    |
| I6 sd $x1, 0(x17)$           |    |    | IF    | ID  | Bulle | EXE   | MEM | WB  |    |
| I7 sll x9, x8, x8            |    |    |       | IF  | ID    | Bulle | EXE | MEM | WB |
| $I8 \ srl \ x12, \ x5, \ x5$ |    |    |       | IF  | ID    | Bulle | EXE | MEM | WB |

- On a augmenté la performance crête via le superscalaire
  - Degré 3 => max 3 IPC
- Cependant, on met en lumière des dépendances qui empêchent de l'atteindre

Bulle

· Architecturale (contrôle) : Si Ix apparaît **avant** Iy dans le programme, alors Iy s'éxécute au plus tôt **en même temps** que Ix

| I0         | add | x1, | x5, | <b>x</b> 5 |
|------------|-----|-----|-----|------------|
| I1         | add | x2, | x1, | x1         |
| <b>I</b> 2 | add | x4. | x3. | <b>x</b> 3 |

| IF | ID | EXE   | MEM | WB  |    |
|----|----|-------|-----|-----|----|
| IF | ID | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | EXE | MEM | WB |

- · On a augmenté la performance crête via le superscalaire
  - Degré 3 => max 3 IPC
- Cependant, on met en lumière des dépendances qui empêchent de l'atteindre

Bulle

 Architecturale (contrôle) : Si Ix apparaît avant Iy dans le programme, alors Iy s'éxécute au plus tôt en même temps que Ix

Bulle

• Microarchitecturale (ressource) : Au plus degré superscalaire instructions peuvent être traitées par un étage lors d'un cycle donnée

| I1 add x2, x1, x1    | IF | ID    | Bulle |
|----------------------|----|-------|-------|
| I2 add x4, x3, x3    | ID | Bulle |       |
| I3 ld x8, 0(x10)     |    | IF    | ID    |
| I4 add x11, x8, x8   | IF | Bulle |       |
| I5 sub x15, x14, x14 |    | IF    | Bulle |

I4, I5 bloquées dans IF car I1, I2, I3 dans ID à cause de dépendances architecturales

- · On a augmenté la performance crête via le superscalaire
  - Degré 3 : performance crête : 3 IPC
- On peut limiter les dépendances structurelles en améliorant la microarchitecture
  - Augmenter le degré superscalaire pour minimiser les dépendances structurelles sur les ressources. Exemple, degré 6

I0 add x1, x5, x5
I1 add x2, x1, x1
I2 add x4, x3, x3
I3 ld x8, 0(x10)
I4 add x11, x8, x8
I5 sub x15, x14, x14

| IF | ID | EXE   | MEM   | WB    |     |     |    |
|----|----|-------|-------|-------|-----|-----|----|
| IF | ID | Bulle | EXE   | MEM   | WB  |     |    |
| IF | ID | Bulle | EXE   | MEM   | WB  |     |    |
| IF | ID | Bulle | EXE   | MEM . | WB  |     |    |
| IF | ID | Bulle | Bulle | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | Bulle | Bulle | EXE | MEM | WB |

- · On a augmenté la performance crête via le superscalaire
  - Degré 3 => max 3 IPC
- On a bien enlevé les dépendances structurelles sur les ressources (ici dans ID)
  - Mais une utilisation des ressources limitée, e.g., EXE, MEM, WB à cause des dépendances de contrôle et de données

I0 add x1, x5, x5
I1 add x2, x1, x1
I2 add x4, x3, x3
I3 ld x8, 0(x10)
I4 add x11, x8, x8
I5 sub x15, x14, x14

| IF | ID | EXE   | MEM   | WB    |     |     |    |
|----|----|-------|-------|-------|-----|-----|----|
| IF | ID | Bulle | EXE   | MEM   | WB  |     |    |
| IF | ID | Bulle | EXE   | MEM   | WB  |     |    |
| IF | ID | Bulle | EXE   | MEM . | WB  |     |    |
| IF | ID | Bulle | Bulle | Bulle | EXE | MEM | WB |
| IF | ID | Bulle | Bulle | Bulle | EXE | MEM | WB |

- · On a augmenté la performance crête via le superscalaire
  - Degré 3 => max 3 IPC
- · Autre dépendance de contrôle : branchements
  - Prédiction de branchement permet de récupérer la cible **au prochain cycle**, pas **pendant le même cycle**
  - · Ici, même exécution que superscalaire degré 3!

I0 add x1, r0, r0
I1 add x2, x1, x1
I2 bnez x4, label
I3 ld x8, 0(x10)
I4 add x11, x8, x8
I5 sub x15, x14, x14

| IF    | ID | EXE   | MEM   | WB    |     |     |    |
|-------|----|-------|-------|-------|-----|-----|----|
| IF    | ID | Bulle | EXE   | MEM   | WB  |     |    |
| IF    | ID | Bulle | EXE   | MEM   | WB  |     |    |
| Bulle | IF | ID    | EXE   | MEM . | WB  |     |    |
| Bulle | IF | ID    | Bulle | Bulle | EXE | MEM | WB |
| Bulle | IF | ID    | Bulle | Bulle | EXE | MEM | WB |

- · On a augmenté la performance crête via le superscalaire
  - Degré 3 => max 3 IPC
- On peut limiter les dépendances structurelles en améliorant la microarchitecture
  - Augmenter le degré superscalaire minimise les dépendances structurelles sur les ressources.
  - ➤ Au final peu rentable à cause des dépendances de données/contrôle
- Retour à la case départ : Que spécifient vraiment les dépendances de contrôle ?
  - · Les instructions sont exécutées dans l'ordre du programme

#### Dépendances de contrôle

· « Les instructions sont exécutées dans l'ordre du programme »

I0 add x1, x5, x5

I1 add x2, x1, x1

I2 add x4, x3, x3

I3 ld x8, 0(x10)

I4 add **x**11, x8, x8

I5 sub x15, x14, x14

16 sd x1, 0(x17)

I7 sll x9, x8, x8

I8 srl x12, x6, x6

Si on observe l'état architectural après l'exécution d'une instruction Ix, alors :

- Les effets de toutes les instructions précédant Ix ont été appliqués à l'état architectural
- Les effets des instructions suivant Ix n'ont pas été appliqués à l'état architectural

#### Dépendances de contrôle

· « Les instructions sont exécutées dans l'ordre du programme »

I0 add x1, x5, x5

I1 add x2, x1, x1

I2 add x4, x3, x3

I3 ld x8, 0(x10)

I4 add x11, x8, x8

I5 sub x15, x14, x14

16 sd x1, 0(x17)

I7 sll x9, x8, x8

I8 srl x12, x6, x6

Si on observe l'état architectural après l'exécution d'une instruction Ix, alors :

- Les effets de toutes les instructions précédant Ix ont été appliqués à l'état architectural
- Les effets des instructions suivant Ix n'ont pas été appliqués à l'état architectural

Exemple si on observe l'état arch. après I4:

- x1 contient r0 + r0 (I0), x2 contient x1 + x1 (I1), x3 contient x3 + x3 (I3), x8 contient [x10 + 0] (I4)
- x11 ne contient pas encore x8 + x8 (I5), etc.

#### Dépendances de contrôle

· « Les instructions sont exécutées dans l'ordre du programme »

I0 add x1, x5, x5

I1 add x2, x1, x1

I2 add x4, x3, x3

I3 ld x8, 0(x10)

I4 add x11, x8, x8

I5 sub x15, x14, x14

I6 sd x1, 0(x17)

I7 sll x9, x8, x8

I8 srl x12, x6, x6

Si on observe l'état architectural après l'exécution d'une instruction Ix, alors :

- Les effets de toutes les instructions précédant Ix ont été appliqués à l'état architectural
- Les effets des instructions suivant Ix n'ont pas été appliqués à l'état architectural
- ➤ La clé est « observe »
  - La microarchitecture peut garder un état microarchitectural qui ne respecte pas la contrainte d'ordre, tant que cet état n'est pas **observable** par le logiciel

#### Etat architectural vs. microarchitectural

- Etat architectural observable et manipulable par le logiciel
  - Manipulations contraintes par la spécification (notamment ordre du programme)



#### Etat architectural vs. microarchitectural

- Etat architectural observable et manipulable par le logiciel
  - Manipulations contraintes par la spécification (notamment ordre du programme)
- Etat microarchitectural **non-observable** par le logiciel
  - · Par exemple, les registres de pipeline
  - · Donc non tenu de respecter la spécification...
  - ...tant qu'un état architectural **correct** peut-être extrait quand nécessaire



#### Etat architectural vs. microarchitectural

- Etat architectural observable et manipulable par le logiciel
  - Manipulations contraintes par la spécification (notamment ordre du programme)
- Etat microarchitectural **non-observable** par le logiciel
  - · Par exemple, les registres de pipeline
  - · Donc non tenu de respecter la spécification...
  - ...tant qu'un état architectural **correct** peut-être extrait quand nécessaire
- Utiliser un état microarchitectural pour exécuter les instructions sans respecter l'ordre du programme
  - « Migrer » les modifications de l'état microarchitectural vers l'état architectural dans l'ordre du programme pour toujours avoir un état architectural correct à « montrer » au logiciel
- > On le faisait déjà avec la prédiction de branchement, en ne respectant pas la dépendance de contrôle sur les branchements

Concept

- 1<sup>er</sup> essai, on tente de minimiser les modifications du pipeline
  - Exécution dès que possible => EXE dans le désordre
  - · Résultats rendus visibles au logiciel dans l'ordre => WB dans l'ordre

Exercice : Superscalaire degré 4. Quelle exécution ? Exécution correcte ?

```
I0 ld x2, 42(x1)
I1 addi x3, x2, 1
I2 li x2, 152
I3 ld x5, 16(x2)
```

- 1<sup>er</sup> essai, on tente de minimiser les modifications du pipeline
  - Exécution dès que possible => EXE dans le désordre
  - Résultats rendus visibles au logiciel dans l'ordre => WB dans l'ordre

Exercice : Superscalaire degré 4. Quelle exécution ? Exécution correcte ?

| I0 ld x2, 42(x1)  |
|-------------------|
| I1 addi x3, x2, 1 |
| I2 li x2, 152     |
| I3 ld x5, 16(x2)  |

| IF | ID | EXE   | MEM   | WB    |       |    |
|----|----|-------|-------|-------|-------|----|
| IF | ID | Bulle | Bulle | EXE   | MEM   | WB |
| IF | ID | EXE   | MEM   | Bulle | Bulle | WB |
| IF | ID | Bulle | EXE   | MEM   | Bulle | WB |

Etat arch.

- x2 contient [x1 + 42]

#### Etat uarch.

- Reg pipeline MEM[I2] contient x2 = 152
- Reg pipeline MEM[I3] contient x5 = [152 + 16]

- Problème : x2 produit par *li x2*, 152 présent sur le bypass avant x2 de
  - add x3, x2, 1 s'exécute avec la mauvaise valeur de x2 (152 et non [x1 + 42])
  - Pourtant, WB dans l'ordre

| I0 ld x2, 42(x1)  |
|-------------------|
| I1 addi x3, x2, 1 |
| I2 li x2, 152     |
| I3 ld x5, 16(x2)  |

| IF | ID | EXE   | MEM×2     | WB    |       |    |
|----|----|-------|-----------|-------|-------|----|
| IF | ID | Bulle | x2<br>EXE | MEM   | WB    |    |
| IF | ID | EXE   | MEM       | Bulle | Bulle | WB |
| IF | ID | Bulle | EXE       | MEM   | Bulle | WB |

- Problème : De nouvelles dépendances de données architecturales sont révélées par l'exécution dans le désordre
  - On connaît producteur-consommateur (Read-after-Write, RaW)

ld x2, 42(x1)
addi x3, x2, 1
li x2, 152
ld x5, 16(x2)

- Problème : De nouvelles dépendances de données architecturales sont révélées par l'exécution dans le désordre
  - On connaît producteur-consommateur (Read-after-Write, RaW)
- · Avec exécution dans le désordre, autres dépendances à respecter
  - · consommateur-producteur (Write-after-Read, WaR)

ld x2, 42(x1)
addi x3, x2, 1
li x2, 152
ld x5, 16(x2)

- Problème : De nouvelles dépendances de données architecturales sont révélées par l'exécution dans le désordre
  - On connaît producteur-consommateur (Read-after-Write, RaW) ----
- · Avec exécution dans le désordre, autres dépendances à respecter
  - consommateur-producteur (Write-after-Read, WaR)
  - producteur-producteur (Write-after-Write, WaW) ----



- 1er essai, on tente de minimiser les modifications au pipeline
  - Exécution dès que possible => EXE dans le désordre
  - Résultats rendus visibles au logiciel dans l'ordre => WB dans l'ordre
  - En respectant WaR/WaW en plus de RaW

| ld x2, 42(x1)  | IF                  | ID | EXE   | MEM   | WB    |     |       |       |    |
|----------------|---------------------|----|-------|-------|-------|-----|-------|-------|----|
| addi x3, x2, 1 | IF                  | ID | Bulle | Bulle | EXE   | MEM | WB    |       |    |
| li x2, 152     | $\operatorname{IF}$ | ID | Bulle | Bulle | EXE   | MEM | Bulle | Bulle | WB |
| ld x5, 16(x2)  | IF                  | ID | Bulle | Bulle | Bulle | EXE | MEM   | Bulle | WB |

Aucune exécution dans le désordre...

- · Admettons que le compilateur ne génère pas de WaW/WaR
  - Exécution dès que possible => EXE dans le désordre
  - Résultats rendus visibles au logiciel dans l'ordre => WB dans l'ordre

Exercice : Superscalaire degré 4. Quelle exécution ? Exécution correcte ?

```
1d x_2, 42(x_1)
```

ld x3, 16(x2)

1d x4, 16(x3)

ld x5, 16(x4)

li x12, 159

li x13, 159

li x14, 159

li x15, 159

#### Deadlock matériel :

- Instructions plus jeunes attendent que ld x4, 16(x3) quitte WB pour avancer dans WB
- ld x4, 16(x3) ne peut pas entrer dans MEM. **Pourquoi?**

| ld x2, 42(x1) | IF | ID         | EXE   | MEM   | WB    |       |       |       |       |       |       |
|---------------|----|------------|-------|-------|-------|-------|-------|-------|-------|-------|-------|
| ld x3, 16(x2) | IF | ID         | Bulle | Bulle | EXE   | MEM   | WB    |       |       |       |       |
| ld x4, 16(x3) | IF | ID         | Bulle | Bulle | Bulle | Bulle | EXE   | MEM   |       |       |       |
| ld x5, 16(x4) | IF | ID         | Bulle | Bulle | Bulle | Bulle | Bulle | Bulle | EXE   | MEM   |       |
| li x12, 159   |    | IF         | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | Bulle | Bulle | WB    |
| li x13, 159   |    | IF         | Bulle | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | Bulle | WB    |
| li x14, 159   |    | $_{ m IF}$ | Bulle | Bulle | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | WB    |
| li x15, 159   |    | IF         | Bulle | Bulle | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | Bulle |

#### Deadlock matériel :

· Car on conserve les résultats calculés dans les registres de pipeline de EXE/MEM en attendant WB



#### Deadlock matériel :

- · Car on conserve les résultats calculés dans les registres de pipeline de EXE/MEM en attendant WB
- Si ld x4, 16(x3) écrit par-dessus li x12, 159, la nouvelle valeur de x12 est perdue
- li x12, 159 ne peut pas écrire x12 car ld x4, 16(x3) n'a pas encore écrit x4



- Exécuter dans le désordre mais écriture des registres dans l'ordre
  - Performance fortement limitée par les dépendances de données WaR/WaW quand présentes
  - · On doit garder les résultats dans le bypass (EXE et MEM) en attendant WB
  - **Deadlock matériel** : ld ne peut pas entrer dans MEM car les 4 emplacements sont occupés par des instructions plus récentes
- Une solution serait d'empêcher une instruction plus jeune d'entrer dans EXE (resp. MEM) si elle prend le dernier emplacement ET qu'une instruction plus vieille n'est pas encore passée par EXE (resp. MEM)

• Si on empêche une instruction plus jeune de prendre le dernier emplacement dans les registres de pipeline

| ld x2, 42(x1) | IF | ID | EXE   | MEM   | WB    |       |       |       |       |       |     |
|---------------|----|----|-------|-------|-------|-------|-------|-------|-------|-------|-----|
| ld x3, 16(x2) | IF | ID | Bulle | Bulle | EXE   | MEM   | WB    |       |       |       |     |
| ld x4, 16(x3) | IF | ID | Bulle | Bulle | Bulle | Bulle | EXE   | MEM   |       |       |     |
| ld x5, 16(x4) | IF | ID | Bulle | Bulle | Bulle | Bulle | Bulle | Bulle | EXE   | MEM   | WB  |
| li x12, 159   |    | IF | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | Bulle | Bulle | WB  |
| li x13, 159   |    | IF | Bulle | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | Bulle | WB  |
| li x14, 159   |    | IF | Bulle | Bulle | ID    | EXE   | MEM   | Bulle | Bulle | Bulle | WB  |
| li x15, 159   |    | IF | Bulle | Bulle | ID    | EXE   | Bulle | Bulle | Bulle | Bulle | MEM |

- Exécuter dans le désordre mais écriture des registres dans l'ordre
  - Performance fortement limitée par les dépendances de données WaR/WaW quand présentes
  - · On doit garder les résultats dans le bypass (EXE et MEM) en attendant WB
  - **Deadlock matériel** : ld ne peut pas entrer dans MEM car les 4 emplacements sont occupés par des instructions plus récentes
- Une solution serait d'empêcher une instruction plus jeune d'entrer dans EXE si elle prend le dernier emplacement ET qu'une instruction plus vieille n'est pas encore passée par EXE
  - · Limite encore l'exécution dans le désordre
  - Ne résout pas le problèmes des dépendances WaW/WaR

#### • Concrètement :

- WaW/WaR : Il peut exister plusieurs version d'un même registre architectural dans le pipeline, mais aucune façon des les différencier, donc on bloque si WaW/WaR
- Deadlock : il peut y avoir plus de résultats en vol attendant d'être écrit dans WB que de registres de pipelines pour un étage donné

#### · Concrètement :

- WaW/WaR : Il peut exister plusieurs version d'un même registre architectural dans le pipeline, mais aucune façon des les différencier, donc on bloque si WaW/WaR
- Deadlock : il peut y avoir plus de résultats en vol attendant d'être écrit dans WB que de registres de pipelines pour un étage donné
- Les deux problèmes se résolvent en donnant à chaque instruction son propre espace de stockage physique où écrire son résultat, qui a un *identifiant (nom)* qui lui est propre
  - · Registres arch. renommés en registres microarch. (physiques)
  - · Permet d'effectuer WB dans le désordre sans deadlock
  - Permet d'ignorer WaR/WaW : Les versions différentes d'un registre arch. sont identifiables via leur *nom*

#### · Concrètement :

- WaW/WaR : Il peut exister plusieurs version d'un même registre architectural dans le pipeline, mais aucune façon des les différencier, donc on bloque si WaW/WaR
- Deadlock : il peut y avoir plus de résultats en vol attendant d'être écrit dans WB que de registres de pipelines pour un étage donné
- Les deux problèmes se résolvent en donnant à chaque instruction son propre espace de stockage physique ou écrire son résultat, qui a un *identifiant (nom)* qui lui est propre
  - · Registres arch. renommés en registres microarch. (physiques)
  - · Permet d'effectuer WB dans le désordre sans deadlock
  - Permet d'ignorer WaR/WaW : Les versions différentes d'un registre arch. sont identifiables via leur *nom*
- On doit toujours copier le registre temporaire vers le registre architectural dans l'ordre du programme

- On ajoute un fichier de registre microarchitectural (U-PRF)
  - Chaque instruction obtient un registre microarchitectural où écrire à ID, et le libère dans COMMIT (après copie dans le registre architectural)
  - ID détermine dynamiquement si le registre doit être lu depuis le fichier architectural ou microarchitectural



- On ajoute un fichier de registre microarchitectural
  - On doit aussi garder une trace des instructions pour pouvoir les traiter dans l'ordre => ROB (structure First In First Out)



- · On ajoute un fichier de registre microarchitectural
  - On doit aussi garder une trace des instructions pour pouvoir les traiter dans l'ordre => ROB (structure First In First Out)
  - On peut fusionner le ROB et le U-PRF : chaque instruction écrit son résultat dans son entrée du ROB qui fait donc office de U-PRF



- On admet pour le moment que chaque instruction détermine le nom des ses registres physiques sources (= numéro de l'entrée du producteur dans le ROB) dans ID
  - · Plus de détails sur ce mécanisme de **renommage** à venir
- Plus de WaW/WaR

ld x2, 42(x1)

ld x3, 16(x2)

li x2, 152

ld x5, 16(x2)

- On admet pour le moment que chaque instruction détermine le nom des ses registres physiques sources (= numéro de l'entrée du producteur dans le ROB) dans ID
  - · Plus de détails sur ce mécanisme de **renommage** à venir
- Plus de WaW/WaR
  - Car ld x2, 42(x1) et li x2, 152 écrivent dans leurs propres registres microarchitecturaux

 $1d x_2, 42(x_1)$ 

ld x3, 16(x2)

li x2, 152

1d x5, 16(x2)

- On admet pour le moment que chaque instruction détermine le nom des ses registres physiques sources (= numéro de l'entrée du producteur dans le ROB) dans ID
  - · Plus de détails sur ce mécanisme de **renommage** à venir
- Plus de WaW/WaR
  - Car ld x2, 42(x1) et li x2, 152 écrivent dans leurs propres registres microarchitecturaux
  - · ld x3, 16(x2) lit le registre microarchitectural écrit par ld x2, x42(x1)

```
ld x2, 42(x1)
```

ld x3, 16(x2)

li x2, 152

ld x5, 16(x2)

- On admet pour le moment que chaque instruction détermine le nom des ses registres physiques sources (= numéro de l'entrée du producteur dans le ROB) dans ID
  - · Plus de détails sur ce mécanisme de **renommage** à venir
- Plus de WaW/WaR
  - Car ld x2, 42(x1) et li x2, 152 écrivent dans leurs propres registres microarchitecturaux
  - · ld x3, 16(x2) lit le registre microarchitectural écrit par ld x2, x42(x1)
  - ld x5, 16(x2) lit le registre microarchitectural écrit par li x2, 152

```
ld x2, 42(x1)
ld x3, 16(x2)
```

li x2, 152 ld x5, 16(x2)

- On admet pour le moment que chaque instruction détermine le nom des ses registres physiques sources (= numéro de l'entrée du producteur dans le ROB) dans ID
  - · Plus de détails sur ce mécanisme de **renommage** à venir

#### • Plus de WaW/WaR

- Car ld x2, 42(x1) et li x2, 152 écrivent dans leurs propres registres microarchitecturaux
- ld x3, 16(x2) lit le registre microarchitectural écrit par ld x2, x42(x1)
- ld x5, 16(x2) lit le registre microarchitectural écrit par li x2, 152

| ld x2, 42(x1) | IF                  | ID | EXE   | MEM   | WB  | COM |     |     |
|---------------|---------------------|----|-------|-------|-----|-----|-----|-----|
| ld x3, 16(x2) | IF                  | ID | Bulle | Bulle | EXE | MEM | WB  | COM |
| li x2, 152    | $\operatorname{IF}$ | ID | EXE   | MEM   | WB  | ROB | ROB | COM |
| ld x5, 16(x2) | IF                  | ID | Bulle | EXE   | MEM | WB  | ROB | COM |

- Meilleure utilisation des ressources (étage EXE et MEM non bloqués)
- Toujours pas idéal car les instructions plus jeunes sont bloquées si 4 instructions plus vieilles attendent leurs opérandes dans ID

| ld x2, 42(x1) | IF | ID                  | EXE   | MEM   | WB    | COM   |       |       |     |     |     |
|---------------|----|---------------------|-------|-------|-------|-------|-------|-------|-----|-----|-----|
| ld x3, 16(x2) | IF | ID                  | Bulle | Bulle | EXE   | MEM   | WB    | COM   |     |     |     |
| ld x4, 16(x3) | IF | ID                  | Bulle | Bulle | Bulle | Bulle | EXE   | MEM   | WB  | COM |     |
| ld x5, 16(x4) | IF | ID                  | Bulle | Bulle | Bulle | Bulle | Bulle | Bulle | EXE | MEM | WB  |
| li x12, 159   |    | IF                  | ID    | EXE   | MEM   | WB    | ROB   | ROB   | ROB | ROB | ROI |
| li x13, 159   |    | $\operatorname{IF}$ | Bulle | ID    | EXE   | MEM   | WB    | ROB   | ROB | ROB | ROI |
| li x14, 159   |    | IF                  | Bulle | Bulle | ID    | EXE   | MEM   | WB    | ROB | ROB | ROI |
| li x15, 159   |    | IF                  | Bulle | Bulle | ID    | EXE   | MEM   | WB    | ROB | ROB | ROI |
| li x16, 159   |    |                     | IF    | Bulle | Bulle | ID    | EXE   | MEM   | WB  | ROB | ROI |

- On veut limiter la dépendance structurelle liée à l'étage ID
  - On introduit une mémoire afin de découpler ID et EXE : **l'ordonnanceur** (« Instruction Queue »)
  - Chaque cycle, Dispatch (DSP) insère 4 instructions, et IQ sélectionne jusqu'à 4 instructions prêtes



#### Exécution dans le désordre – 3ème itération

- Tant que l'ordonnanceur n'est pas plein, on peut continuer à insérer des instructions dans le pipeline
- On note cependant l'élongation du pipeline : latence et pénalité de mauvaise prédiction de branchement plus élevée

| ld x2, 42(x1) | IF         | ID | DSP | IQ  | EXE | MEM | WB  | COM |     |     |     |
|---------------|------------|----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| ld x3, 16(x2) | IF         | ID | DSP | IQ  | IQ  | IQ  | EXE | MEM | WB  | COM |     |
| ld x4, 16(x3) | $_{ m IF}$ | ID | DSP | IQ  | IQ  | IQ  | IQ  | IQ  | EXE | MEM | WE  |
| ld x5, 16(x4) | IF         | ID | DSP | IQ  | EXI |
| li x12, 159   |            | IF | ID  | DSP | IQ  | EXE | MEM | WB  | ROB | ROB | ROI |
| li x13, 159   |            | IF | ID  | DSP | IQ  | EXE | MEM | WB  | ROB | ROB | ROI |
| li x14, 159   |            | IF | ID  | DSP | IQ  | EXE | MEM | WB  | ROB | ROB | ROI |
| li x15, 159   |            | IF | ID  | DSP | IQ  | EXE | MEM | WB  | ROB | ROB | ROI |
| li x16, 159   |            |    | IF  | ID  | DSP | IQ  | EXE | MEM | WB  | ROB | ROI |

## Exécution dans le désordre – Hétérogénéité

- En général, on implémente des unités fonctionnelles différentes en fonctions des besoins, avec des latences différentes (accès mémoire)
  - MEM se fond dans l'étage d'exécution



## Exécution dans le désordre – Hétérogénéité

- Certains étages plus larges que d'autres : par exemple, ID/DSP 4, IQ/EXE 6
  - · Degré superscalaire : étage le moins large, dicte la performance max



# Exécution dans le désordre - Avantages

- Efficacité du pipeline augmente (moins de bulles)
  - · Bien plus performant que l'exécution dans l'ordre
- Même si aucune instruction n'est prête, on peut continuer à récupérer de nouvelles instructions, tant que l'ordonnanceur n'est pas plein
  - Si plein, on bloque les étages précédents en attendant que des places se libèrent

# Exécution dans le désordre - Renommage

• Jusqu'ici, on considère qu'une instruction obtient le « nom » (= index dans le ROB/PRF) de son opérande source dans ID. Comment ?

I0 ld x1, 0(x2)
I1 addi x2, x2, 8
I2 sd x1, 8(x3)
I3 addi x3, x3, 8
I4 ld x1, 0(x2)
I5 addi x2, x2, 8
I6 sd x1, 8(x3)
I7 addi x3, x3, 8





Dépendances RaW (prod-cons)

- La microarchitecture implémente n registres physiques, avec
   n >> #regs\_archs (U-PRF)
  - En plus du fichier de registre arch. qui a lui #regs\_archs registres (A-PRF)
  - Pour le moment, U-PRF lié au ROB

- La microarchitecture implémente n registres physiques, avec
   n >> #regs\_archs (U-PRF)
  - En plus du fichier de registre arch. qui a lui #regs\_archs registres (A-PRF)
  - · Pour le moment, U-PRF lié au ROB
- Chaque instruction se voit attribuer un nouveau registre physique pour écrire son résultat (insertion dans le ROB)
  - · On crée une nouvelle « version » du registre architectural
  - Supprime les fausses dépendances (WaR et WaW)

- La microarchitecture implémente n registres physiques, avec
   n >> #regs\_archs (U-PRF)
  - En plus du fichier de registre arch. qui a lui #regs\_archs registres (A-PRF)
  - · Pour le moment, U-PRF lié au ROB
- Chaque instruction se voit attribuer un nouveau registre physique pour écrire son résultat (insertion dans le ROB)
  - · On crée une nouvelle « version » du registre architectural
  - Supprime les fausses dépendances (WaR et WaW)
- Une table associe un registre architectural (logique) à sa version la plus récente (physique)
  - · Afin qu'une instruction puisse déterminer quelle entrée du ROB contient son opérande source

Physical Register File (PRF, ici fait parti du ROB)



Chaque instruction capture ces associations lors du renommage

# Renommage des registres sources



**x**3

pr42

# Renommage du registre de destination

• On crée une nouvelle version de x0, et on invalide l'ancienne dans la RMT



# Renommage du registre de destination

Insertion dans ROB au Dispatch (pour conserver l'ordre des instructions)



add pr128, pr127, pr90

Inséré dans l'ordonnanceur après le renommage

# Renommage du registre de destination

Insertion dans ROB au Dispatch (pour conserver l'ordre des instructions)



#### En substance:

- Toutes les instructions plus vieilles que add iront lire la valeur de x3 dans pr42
- Toutes les instructions plus jeunes que add iront lire la valeur de x3 dans pr128

# Renommage de registres : RaW

#### ROB/PRF

| ••• |       | add x0, x2,<br>x1 |  |  |
|-----|-------|-------------------|--|--|
| ••• | pr128 | pr127             |  |  |



# Renommage de registres : RaW



# Renommage de registres : WaW



pr42

**x**3

# Renommage de registres : WaR



La dépendance WaR disparaît : add lira sa version de x1 dans pr90, alors que sub écrire la nouvelle version dans pr128. Pas de risque de collision.



Exercice

```
memcpy_loop:
I0 ld x1, 0(x2)
I1 sd x1, 0(x3)
I2 ld x1, 8(x2)
I3 sd x1, 8(x3)
I4 addi, x2, x2, 16
I5 addi, x3, x3, 16
I6 subi, x4, x4, 2
I7 bnez x4, memcpy_loop
```

- · Faire apparaître les dépendances arch.
  - · Calculer l'IPC maximum sur une machine OoO avec des ressources illimitées et prédiction de branchement parfaite
- Calculer l'IPC une fois le pipeline rempli
  - superscalaire degré 4, dans l'ordre
  - superscalaire degré 4, dans le désordre

· Dépendances arch.



#### Données

→ RaW → WaR

→ WaW

Contrôle

--- Ordre

#### memcpy\_loop:

I0 ld x1, 0(x2)

I1 sd x1, 0(x3)

I2 ld x1, 8(x2)

I3 sd x1, 8(x3)

I4 addi, x2, x2, 16

I5 addi, x3, x3, 16

I6 subi, x4, x4, 2

I7 bnez x4, memcpy\_loop

· Dépendances arch.



#### Données

→ RaW

→ WaR → WaW

Contrôle

→ Ordre (omis)

#### memcpy\_loop:

I0 ld x1, 0(x2)

I1 sd x1, 0(x3)

I2 ld x1, 8(x2)

I3 sd x1, 8(x3)

I4 addi, x2, x2, 16

I5 addi, x3, x3, 16

I6 subi, x4, x4, 2

I7 bnez x4, memcpy\_loop

• IPC maximum sur machine OoO illimitée (= uniquement RaW) : on ordonnance

| Cycle | Instructions |
|-------|--------------|
| 0     |              |
| 1     |              |
| 2     |              |
| 3     |              |
| 4     |              |
| 5     |              |

• IPC maximum sur machine OoO illimitée (= uniquement RaW) : on ordonnance

| Cycle | Instructions   |
|-------|----------------|
| 0     | I5_0 I2_0      |
| 1     |                |
| 2     | 15_2 12_2 13_1 |
| 3     | 15_3 13_2      |
| 4     | 15_4 I2_4 I3_3 |
| 5     | I5_5 I2_5 I3_4 |

• IPC maximum sur machine OoO illimitée (= uniquement RaW) : on ordonnance

| Cycle | Instructions                                          |
|-------|-------------------------------------------------------|
| 0     | I4_0 I0_0 I5_0 I2_0                                   |
| 1     | $\begin{array}{c ccccccccccccccccccccccccccccccccccc$ |
| 2     | $\begin{array}{c ccccccccccccccccccccccccccccccccccc$ |
| 3     | $\begin{array}{c ccccccccccccccccccccccccccccccccccc$ |
| 4     | $\begin{array}{c ccccccccccccccccccccccccccccccccccc$ |
| 5     | $\begin{array}{c ccccccccccccccccccccccccccccccccccc$ |

• IPC maximum sur machine OoO illimitée (= uniquement RaW) : on ordonnance



IPC max (intrinsèque à l'algorithme) = 8









- Jusqu'ici, on a considéré une exécution qui se passe correctement
  - Pas de mauvaise prédiction de branchement
- Exécution dans l'ordre et mauvaise prédiction :
  - On vide les étages plus jeunes (= à gauche) pour enlever les instructions sur le mauvais chemin
- Exécution dans le désordre :
  - On vide les étages plus jeunes (qui sont dans l'ordre, IF, ID, DSP)
  - Et ensuite?

- Jusqu'ici, on a considéré une exécution qui se passe correctement
  - Pas de mauvaise prédiction de branchement
- Exécution dans l'ordre et mauvaise prédiction :
  - On vide les étages plus jeunes (= à gauche) pour enlever les instructions sur le mauvais chemin
- Exécution dans le désordre :
  - On vide les étages plus jeunes (qui sont dans l'ordre, IF, ID, DSP)
  - Et ensuite?
    - Réparer la RMT
    - Enlever les instructions plus jeunes dans l'Ordonnanceur, le ROB et les registres de pipeline IQ/EXE/MEM



Lors du renommage de la destination, une entrée est allouée dans la Active List (ici incluse dans le ROB)

L'AL contient l'association arch/phy précédente







Active List (ROB)

| add    | subi    | mul    |  |  |
|--------|---------|--------|--|--|
| x0/px8 | x0/pr12 | x4/pr2 |  |  |

Br mispred (bnez x0, A)

RMT

x0 x4

| px8 | px8 | pr12 | pr19 | pr19 |
|-----|-----|------|------|------|
| pr2 | pr2 | pr2  | pr2  | pr13 |

| pr19 | pr19 | pr19 |
|------|------|------|
| pr13 | pr13 | pr13 |

add x0, x2, x1 subi x0, x0, 1 bnez x0, A sub x0, x12, x1 mul x4, x0, x1

| ID | REN | RR  | DSP | IQ  | EXE | WB  | CO  |
|----|-----|-----|-----|-----|-----|-----|-----|
| ID | REN | RR  | DSP | IQ  | IQ  | EXE | WB  |
| IF | ID  | REN | RR  | DSP | IQ  | IQ  | EXE |
| IF | ID  | REN | RR  | DSP | IQ  | EXE | WB  |
|    | IF  | ID  | REN | RR  | DSP | IQ  | EXE |

subi et mul renommée sur le mauvais chemin

Après le branchement, on devrait avoir :

$$x0 = pr12$$
$$x1 = pr2$$

On a: x0 = pr19x1 = pr13









On reprend ensuite l'exécution



- En parcourant le ROB, qui contient ici la Active List, on répare la RMT de manière active
  - On invalide l'entrée du ROB (=> enlever l'instruction du pipeline) après avoir réparé la RMT
  - On cherche aussi l'instruction dans l'ordonnanceur et les registres de pipeline IQ/EXE/WB pour l'enlever
- Processus itératif : peut prendre plusieurs cycles
- Plusieurs algorithmes possibles selon les variations microarchitecturales

## Recyclage de registres physiques

- Jusqu'ici, on a parlé de l'attribution des registres physiques
  - En même temps que l'insertion de l'instruction dans le ROB
- Libération du registre?
  - En même temps que l'instruction quitte le ROB, au Commit
  - Copie du registre vers le fichier de registres architectural
  - Variations possibles (pas discutées ici)













#### Lecture des sources

- Pipeline dans l'ordre:
  - Dans ID
  - Sur le bypass
- Dans le désordre :
  - Dans REN/DSP, après avoir renommé les sources
  - Sur le bypass
- L'ordonnanceur doit aussi capturer les résultats qui arrivent sur le réseau de bypass, sinon le résultat est perdu pour les consommateurs



- L'opérande est lue depuis un registre arch. ou uarch. dans DSP si le registre est prêt
  - La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch.



- L'opérande est lue depuis un registre arch. ou uarch. dans DSP si le registre est prêt
  - La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch.
- Sinon, le registre est produit alors que le consommateur attend dans IQ



- L'opérande est lue depuis un registre arch. ou uarch. dans DSP si le registre est prêt
  - La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch.
- Sinon, le registre est produit alors que le consommateur attend dans IQ
- Avec l'éxécution OoO, une instruction prête n'est pas forcément exécutée immédiatement



- L'opérande est lue depuis un registre arch. ou uarch. dans DSP si le registre est prêt
  - La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch.
- Sinon, le registre est produit alors que le consommateur attend dans IQ
- Avec l'éxécution OoO, une instruction prête n'est pas forcément exécutée immédiatement
- Les entrées de l'IQ observent le réseau de bypass et « capturent » les opérandes à mesure qu'ils sont produits

- « L'opérande est lue depuis un registre arch. ou uarch. dans DSP si le registre est prêt »
- Nouvelle structure lue dans REN/DSP, le *Scoreboard* 
  - 1 bit par registre physique (1 = prêt, 0 = non prêt)
  - Mis à 0 lorsque le registre est alloué
  - Mis à 1 lorsque le registre est produit (instruction exécutée)
- Permet à REN/DSP de déterminer si l'opérande source
  - Doit être lu depuis les fichiers de registres (arch ou uarch)
  - Sera capturé par l'entrée de l'IQ/directement lu sur le bypass

• « La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch. »

#### ROB/PRF/AL

| ••• | sub x2, x8, x9 |
|-----|----------------|
| ••• | pr2            |
| ••• | x2/pr12        |

sub x2, x8, x9 est la plus vieille instruction dans le pipeline, est exécutée

| arch       | phy  |
|------------|------|
| x0         | pr4  |
| x1         | pr90 |
| x2         | pr2  |
| <b>x</b> 3 | pr42 |

• « La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch. »

#### ROB/PRF/AL

| ••• | Invalid |   |
|-----|---------|---|
| ••• | pr2     | ŀ |
| ••• | Invalid |   |

sub x2, x8, x9 est la plus vieille instruction dans le pipeline, est exécutée

- Commit:
  - pr2 copié dans x2

| arch       | phy  |
|------------|------|
| x0         | pr4  |
| x1         | pr90 |
| x2         | pr2  |
| <b>x</b> 3 | pr42 |



• « La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch. »

#### ROB/PRF/AL

| ••• | Invalid |
|-----|---------|
| ••• | pr2     |
| ••• | Invalid |

| arch       | phy  |
|------------|------|
| x0         | pr4  |
| x1         | pr90 |
| x2         | x2   |
| <b>x</b> 3 | pr42 |

- sub x2, x8, x9 est la plus vieille instruction dans le pipeline, est exécutée
- Commit:
  - pr2 copié dans x2
  - Si pr2 est la version la plus récente de x2, la RMT doit pointer vers x2, et plus vers pr2

• « La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch. »

#### ROB/PRF/AL

| addi x2, x1, 1 |     |
|----------------|-----|
| pr256          | ••• |
| x2/x2          | ••• |

#### Rename Map Table (RMT)

| arch       | phy   |
|------------|-------|
| <b>x</b> 0 | pr4   |
| x1         | pr90  |
| <b>x</b> 2 | pr256 |
| <b>x</b> 3 | pr42  |

- sub x2, x8, x9 est la plus vieille instruction dans le pipeline, est exécutée
- Commit:
  - pr2 copié dans x2
  - Si pr2 est la version la plus récente de x2, la RMT doit pointer vers x2, et plus vers pr2

Si une nouvelle instruction écrivant x2 est renommée, la RMT pointe de nouveau vers un registre microarchitectural

• « La RMT informe si la valeur est toujours dans un registre uarch. ou a été copiée dans un registre arch. »

#### ROB/PRF/AL

| Invalid |     |
|---------|-----|
| pr256   | ••• |
| Invalid | ••• |

| arch       | phy        |  |
|------------|------------|--|
| x0         | <b>x0</b>  |  |
| x1         | <b>x</b> 1 |  |
| <b>x</b> 2 | <b>x2</b>  |  |
| <b>x</b> 3 | <b>x</b> 3 |  |

- sub x2, x8, x9 est la plus vieille instruction dans le pipeline, est exécutée
- Commit:
  - pr2 copié dans x2
  - Si pr2 est la version la plus récente de x2, la RMT doit pointer vers x2, et plus vers pr2
- Si une nouvelle instruction écrivant x2 est renommée, la RMT pointe de nouveau vers un registre microarchitectural
- Quand le pipeline est complètement vide, tous les registre sont dans le fichiers de registres architectural

# Renommage de registres



# Renommage de registres



# Travaux pratiques

#### ROB/AL/U-PRF

| Invalid |
|---------|---------|---------|---------|---------|---------|---------|---------|
| pr7     | pr6     | pr5     | pr4     | pr3     | pr2     | pr1     | pr0     |

#### $\mathbf{RMT}$

| x0         | x0 | 1 |
|------------|----|---|
| x1         | x1 | 1 |
| x2         | x2 | 1 |
| <b>x</b> 3 | x3 | 1 |
| x4         | x4 | 1 |
| x5         | x5 | 1 |
| x6         | x6 | 1 |
| x7         | x7 | 1 |

#### Code

I1: add x1, x0, x0
I2: add x2, x1, x1
I3: add x4, x3, x3
I4: sub x5, x6, x7
I5: add x3, x4, x2
I6: sub x1, x1, x2
I7: or x1, x0, x0
I8: sll x6, x4, x7
I9: srl x7, x6, x0

Pointeur de tête : on commence à insérer les instructions ici

#### **Questions:**

- Par quels états passent la RMT et le ROB/AL\* lors de l'exécution des instructions ?
- Quel est l'état de la RMT une fois que I9 a passé Commit ?

\*On considère que le ROB est rempli avant que I1 passe Commit

# Exécution dans le désordre

Mémoire

#### Exécution dans le désordre et accès mémoires

• Jusqu'ici, on s'est intéressé uniquement à la gestion des registres et aux dépendances de données via les registres

- · Pas suffisant pour les accès mémoires
  - Ecritures
  - Lectures

· Quand peut-on écrire une donnée dans la mémoire?

sd x4, 16(x1)



- La mémoire fait partie de l'état architectural (que le programmeur peut observer)
- Tant qu'une instruction n'a pas passé le Commit, elle est spéculative : elle sera peut-être jetée du pipeline

- Ecrire dans la mémoire spéculativement = effets du store observables architecturalement avant Commit
  - Ne respecte pas le contrat!

- Exécuter les stores au Commit
  - Dans l'ordre donc on ne peut pas cacher la latence d'exécution via exécution dans le désordre

- On introduit donc une nouvelle mémoire matérielle : La Store Queue (FIFO)
  - Peut être vue comme un sous-ensemble du ROB spécialisé pour les stores
  - Stocke l'adresse et les données de chaque store « en vol » (spéculatif)

sd x4, 16(x1)



IQ

EXE

WB

COM

# Renommage de registres



- La Store Queue fournit un endroit unique à chaque store pour écrire leur « résultat »
  - Les stores s'exécutent dans le désordre et modifient l'état microarchitectural (SQ)
  - · Modifications de l'état architectural (mémoire) au Commit
- · Similaire au renommage de registres
  - · Pas de WaW : Exécution store-store dans le désordre
  - · Pas de WaR : Exécution load-store dans le désordre

- · Quand peut-on écrire une donnée dans la mémoire?
  - · Store Queue
- · Quand peut-on lire une donnée depuis la mémoire?
  - Spéculativement, tant que c'est la bonne donnée : Dépendance RaW potentielle avec les instructions stores plus vieilles

• On a parlé des dépendances de données entre registres, mais les données passent aussi par la mémoire

I1 : sd x3, 0(x1)

I2 : sd x4, 16(x2)

I3 : Id x5, 0(x6)



• Quelle est la bonne valeur pour x5?

• On a parlé des dépendances de données entre registres, mais les données passent aussi par la mémoire

I1 : sd x3, 0(x1)

I2 : sd x4, 16(x2)

I3 : Id x5, 0(x6)



- Quelle est la bonne valeur pour x5?
  - Dépend de si (x2 + 16) == x1 et si x1 == x6, ce qu'on ne sait pas avant d'avoir exécuté les instructions

- · Via les registres, une dépendances RaW existe toujours, indépendamment de la valeur du registre
  - Dépendance connue lors du décodage/renommage : **avant** d'avoir choisi une instruction à exécuter

- Via la mémoire, existe seulement si les registres utilisés pour calculer les adresses ont des valeurs spécifiques
  - Dépendance découverte à l'exécution, une fois les adresses connues : **après** avoir choisi une instruction à exécuter

- Problème 1 : une instruction ne peut s'exécuter que si ses dépendances sont satisfaites, i.e. :
  - · Après l'exécution de tous les stores plus vieux

- Problème 1 : une instruction ne peut s'exécuter que si ses dépendances sont satisfaites, i.e. :
  - · Après l'exécution de tous les stores plus vieux

- >Un load ne peut s'exécuter que si tout les stores plus vieux sont exécutés ?
  - Limite fortement l'exécution dans le désordre...
  - Présence de dépendance même pas garantie, on peut attendre puis découvrir qu'en fait aucun store ne stocke à la même adresse que le load

- Prédiction de dépendances mémoire :
  - Gros grains : Prédire qu'un load dépend d'un ou plusieurs stores sans savoir le(s)quel(s)
  - Grains fins : Prédire le(s) producteur(s) précis d'un load
- Solution prédictive => spécule qu'une dépendance RaW potentielle est artificielle ou bien réelle

- Prédiction de dépendances mémoire :
  - Gros grains : Prédire qu'un load dépend d'un ou plusieurs stores sans savoir le(s)quel(s)
  - Grains fins : Prédire le(s) producteur(s) précis d'un load
- Solution prédictive => spécule qu'une dépendance RaW potentielle est artificielle ou bien réelle
  - Artificielle: Load ne dépend pas de stores plus vieux, dépendances RaW via la mémoire immédiatement satisfaite (spéculativement)

- Prédiction de dépendances mémoire :
  - Gros grains : Prédire qu'un load dépend d'un ou plusieurs stores sans savoir le(s)quel(s)
  - Grains fins : Prédire le(s) producteur(s) précis d'un load
- Solution prédictive => spécule qu'une dépendance RaW potentielle est artificielle ou bien réelle
  - Artificielle: Load ne dépend pas de stores plus vieux, dépendances RaW via la mémoire immédiatement satisfaite (spéculativement)
  - Réelle : Load dépend de store plus vieux, dépendance RaW via la mémoire satisfaite quand ces stores seront exécutés

- Prédiction de dépendances mémoire :
  - Gros grains : Prédire qu'un load dépend d'un ou plusieurs stores sans savoir le(s)quel(s)
  - Grains fins : Prédire le(s) producteur(s) précis d'un load
- Solution prédictive => spécule qu'une dépendance RaW potentielle est artificielle ou bien réelle

- On peut se tromper :
  - Comment détecter une erreur ?
  - Comment réparer une erreur ?

# Dépendances mémoire – Load Queue

- Comme pour les stores, on introduit une FIFO pour les loads « en vol » (spéculatifs) : La Load Queue
  - Contient notamment l'adresse accédée par le load, une fois calculée





- Lorsqu'un store s'exécute, il scanne toutes les entrées de la Load Queue qui :
  - Contiennent une adresse valide (load exécuté)
  - Sont plus jeunes
- Si l'adresse contenue dans l'entrée de la LQ correspond à l'adresse du store, alors la RaW *potentielle* est réelle, et n'a pas été respectée
  - On vide le pipeline depuis le load (inclus), comme pour une mauvaise prédiction de branchement\*
- Si aucune correspondance, la RaW potentielle entre ce store et les loads plus jeunes déjà exécutés était artificielle



- Problème 1 : une instruction ne peut s'exécuter que si ses dépendances sont satisfaites
  - \* Un load a une dépendance RaW potentielle sur tous les stores plus vieux en vol dans le pipeline, ce qui limite fortement l'exécution dans le désordre
  - >Spéculation + store accède LQ pour détecter les mauvaises prédictions
- Problème 2 : Exécution dans l'ordre mais dépendance RaW avec un store encore en vol (spéculatif)
  - Comment identifier la dépendance ?

- Même si un load s'exécute après un store à la même adresse, il faut quand même détecter l'existence de la dépendance RaW
  - On le fait via la RMT pour les registres, mais pour la mémoire ?

- Même si un load s'exécute après un store à la même adresse, il faut quand même détecter l'existence de la dépendance RaW
  - On le fait via la RMT pour les registres, mais pour la mémoire ?
- Dual de la technique précédente
  - Chaque load qui s'exécute scanne les entrées de la SQ qui
    - Contiennent une adresse valide (store exécuté)
    - Sont plus vieilles



- Même si un load s'exécute après un store à la même adresse, il faut quand même détecter l'existence de la dépendance RaW
  - On le fait via la RMT pour les registres, mais pour la mémoire ?
- Dual de la technique précédente
  - Chaque load qui s'exécute scanne les entrées de la SQ qui
    - Contiennent une adresse valide (store exécuté)
    - Sont plus vieilles
- Si correspondance, alors RaW potentielle est réelle
  - Load doit attendre que le store écrive dans la mémoire ?

#### Dépendances mémoire - Spéculation

- Même si un load s'exécute après un store à la même adresse, il faut quand même détecter l'existence de la dépendance RaW
  - On le fait via la RMT pour les registres, mais pour la mémoire ?
- Dual de la technique précédente
  - Chaque load qui s'exécute scanne les entrées de la SQ qui
    - Contiennent une adresse valide (store exécuté)
    - Sont plus vieilles
- Si correspondance, alors RaW potentielle est avérée
  - Load doit attendre que le store écrive dans la mémoire ?
  - Autant récupérer la donnée depuis la SQ directement
    - Store-to-Load Forwarding (STLDF)

### Dépendances mémoire - Spéculation



### Dépendances mémoire - Spéculation



#### STLDF = Bypass mais pour la mémoire



Avec STLDF Écrit SQ REN/D IQIF ID EXE WB sd x1, 16(x2)SP REN/D IQ IQIF ID ld x4, 16(x2) EXE WB SPLit SQ

#### Exécution dans le désordre – Mémoire

- Problème 1 : une instruction ne peut s'exécuter que si ses dépendances sont satisfaites
  - \* Un load a une dépendance RaW potentielle sur tous les stores plus vieux en vol dans le pipeline, ce qui limite fortement l'exécution dans le désordre
  - > Spéculation + store accède LQ pour identifier les RaW mémoire non respectées (mauvaises prédictions de dépendance)
- Problème 2 : Exécution dans l'ordre mais dépendance RaW avec un store encore en vol (spéculatif)
  - \* Le load doit de toute façon attendre que le store écrive la mémoire (= Commit) avant de lire la mémoire
  - Load accède SQ pour identifier les RaW mémoire réelles
  - Si RaW réelle et respectée (prédiction de dépendance correcte) récupére la donnée depuis la SQ (STLDF)

# Exécution dans le désordre

Un mot sur l'ordonnanceur

#### Ordonnanceur

• Jusqu'ici, on a considéré que les instructions rentraient dans l'ordonnanceur dans l'ordre, puis attendaient que leur opérandes sources soient disponibles pour s'exécuter au plus tôt

• A quoi ressemble l'ordonnanceur?

#### Ordonnanceur

• Jusqu'ici, on a considéré que les instructions rentraient dans l'ordonnanceur dans l'ordre, puis attendaient que leur opérandes sources soient disponibles pour s'exécuter au plus tôt

• A quoi ressemble l'ordonnanceur ?

- Deux responsabilitiés, chaque cycle
  - · Wakeup: Déterminer si une instruction est prête à être exécutée
  - Select : Choisir n instructions prêtes et les envoyer aux unités fonctionelles

## Ordonnanceur – Wakeup



Chaque cycle, les reg. phy. Nouvellement prêts sont envoyés à chaque entrée de l'ordonnanceur

Chaque reg. est comparé à chaque opérande source et met à jour le ready bit correspondant

```
#Comparateurs =
#SrcOpParInst *
#EntréesOrdo *
#RésultatsParCycle
(ex. 2 * 90 * 6 = 1080)
```

Design associatif (CAM)

#### Ordonnanceur – Select



Chaque cycle, les instructions prêtes envoient une requête à l'arbitre. L'arbitre sélectionne une ou plusieurs instructions à exécuter ("grant"), selon des critères :

- Structurels:
  - Unité fonctionnelle disponible
- Heuristique:
  - Instruction plus vieille d'abord
  - Load d'abord
  - etc.

Les instructions sélectionnées seront exécutées au cycle suivant, et diffuseront leur preg dest. pour réveiller les instructions dépendantes lors de la phase de *Wakeup* suivante.

# Exécution dans le désordre

Conclusion

## Une question de dépendances

- Un programme doit être exécutée en respectant un certains nombres de contraintes ou *dépendances* 
  - Ces dépendances limitent grandement la performance d'une implémentation matérielle simple

- · On a donc cherché à s'affranchir de certaines dépendances
  - Au niveau microarchitectural uniquement
  - On offre au logiciel une vue de l'état architectural correcte, càd qui respecte toutes les dépendances spécifiées par le jeu d'instructions

| Technique matérielle                                                          | Etat microarchitectural potentiellement incorrect            | Etat architectural rendu<br>correct                                                                 |
|-------------------------------------------------------------------------------|--------------------------------------------------------------|-----------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements) | Instructions sur le mauvais chemin rentrent dans le pipeline | Détection d'une prédiction<br>incorrecte et suppression des<br>instructions incorrectes du pipeline |
|                                                                               |                                                              |                                                                                                     |
|                                                                               |                                                              |                                                                                                     |
|                                                                               |                                                              |                                                                                                     |
|                                                                               |                                                              |                                                                                                     |

| Technique matérielle                                                          | Etat microarchitectural potentiellement incorrect            | Etat architectural rendu<br>correct                                                                 |
|-------------------------------------------------------------------------------|--------------------------------------------------------------|-----------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements) | Instructions sur le mauvais chemin rentrent dans le pipeline | Détection d'une prédiction<br>incorrecte et suppression des<br>instructions incorrectes du pipeline |
| Superscalaire                                                                 | _                                                            | _                                                                                                   |
|                                                                               |                                                              |                                                                                                     |
|                                                                               |                                                              |                                                                                                     |
|                                                                               |                                                              |                                                                                                     |

| Technique matérielle                                                          | Etat microarchitectural potentiellement incorrect                             | Etat architectural rendu<br>correct                                                                                         |
|-------------------------------------------------------------------------------|-------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements) | Instructions sur le mauvais chemin rentrent dans le pipeline                  | Détection d'une prédiction<br>incorrecte et suppression des<br>instructions incorrectes du pipeline                         |
| Superscalaire                                                                 | _                                                                             | _                                                                                                                           |
| Exécution dans le désordre<br>1 (pas de renommage, WB<br>dans l'ordre)        | Non respect des dépendances RaW<br>à cause des WaW/WaR<br>Deadlock structurel | Exécuter dans le désordre<br>seulement dans certains cas<br>spécifiques (Pas de WaW/WaR ni<br>deadlock structurel possible) |
|                                                                               |                                                                               |                                                                                                                             |
|                                                                               |                                                                               |                                                                                                                             |
|                                                                               |                                                                               |                                                                                                                             |
|                                                                               |                                                                               |                                                                                                                             |

| Technique matérielle                                                          | Etat microarchitectural potentiellement incorrect                             | Etat architectural rendu<br>correct                                                                                         |
|-------------------------------------------------------------------------------|-------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements) | Instructions sur le mauvais chemin<br>rentrent dans le pipeline               | Détection d'une prédiction<br>incorrecte et surpression des<br>instructions incorrectes du pipeline                         |
| Superscalaire                                                                 | <del>-</del>                                                                  | <del>-</del>                                                                                                                |
| Exécution dans le désordre<br>1 (pas de renommage, WB<br>dans l'ordre)        | Non respect des dépendances RaW<br>à cause des WaW/WaR<br>Deadlock structurel | Exécuter dans le désordre<br>seulement dans certains cas<br>spécifiques (Pas de WaW/WaR ni<br>deadlock structurel possible) |
| Exécution dans le désordre<br>2 (renommage, WB dans le<br>désordre)           | Non respect de l'ordre du programme                                           | Reorder Buffer (ROB) + Commit                                                                                               |
|                                                                               |                                                                               |                                                                                                                             |
|                                                                               |                                                                               |                                                                                                                             |

| Technique matérielle                                                              | Etat microarchitectural potentiellement incorrect                             | Etat architectural rendu correct                                                                                            |
|-----------------------------------------------------------------------------------|-------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements)     | Instructions sur le mauvais chemin rentrent dans le pipeline                  | Détection d'une prédiction<br>incorrecte et suppression des<br>instructions incorrectes du pipeline                         |
| Superscalaire                                                                     | _                                                                             |                                                                                                                             |
| Exécution dans le désordre<br>1 (pas de renommage, WB<br>dans l'ordre)            | Non respect des dépendances RaW<br>à cause des WaW/WaR<br>Deadlock structurel | Exécuter dans le désordre<br>seulement dans certains cas<br>spécifiques (Pas de WaW/WaR ni<br>deadlock structurel possible) |
| Exécution dans le désordre<br>2 (renommage, WB dans le<br>désordre)               | Non respect de l'ordre du programme                                           | Reorder Buffer (ROB) + Commit                                                                                               |
| Exécution dans le désordre<br>3 (renommage, WB dans le<br>désordre, Ordonnanceur) | Non respect de l'ordre du programme                                           | Reorder Buffer (ROB) + Commit                                                                                               |
|                                                                                   |                                                                               |                                                                                                                             |

| Technique matérielle                                                              | Etat microarchitectural potentiellement incorrect                             | Etat architectural rendu correct                                                                                            |
|-----------------------------------------------------------------------------------|-------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| Prédiction de branchement<br>(dépendance de contrôle<br>sur les branchements)     | Instructions sur le mauvais chemin rentrent dans le pipeline                  | Détection d'une prédiction<br>incorrecte et supression des<br>instructions incorrectes du pipeline                          |
| Superscalaire                                                                     | _                                                                             | _                                                                                                                           |
| Exécution dans le désordre<br>1 (pas de renommage, WB<br>dans l'ordre)            | Non respect des dépendances RaW<br>à cause des WaW/WaR<br>Deadlock structurel | Exécuter dans le désordre<br>seulement dans certains cas<br>spécifiques (Pas de WaW/WaR ni<br>deadlock structurel possible) |
| Exécution dans le désordre<br>2 (renommage, WB dans le<br>désordre)               | Non respect de l'ordre du programme                                           | Reorder Buffer (ROB) + Commit                                                                                               |
| Exécution dans le désordre<br>3 (renommage, WB dans le<br>désordre, Ordonnanceur) | Non respect de l'ordre du programme                                           | Reorder Buffer (ROB) + Commit                                                                                               |
| Exécution dans le désordre<br>3 + Load/Store dans le<br>désordre                  | Ecriture mémoire OoO<br>Non respect des dépendances RaW<br>Ld/St              | SQ + écriture mémoire au Commit<br>Store scanne LQ pour détecter RaW<br>non respectées                                      |

# Questions?

# Exécution superscalaire Exécution dans le désordre

SEOC3A - CEAMC

Arthur Perais (arthur.perais@univ-grenoble-alpes.fr)

### Renommage de registres

I1: add x1.v1, x0, x0 I2: add x2, x1.v1, x1.v1 I3: add x4, x3, x3 I4: ld x8, 0(x12.v0) I5: add x12, x4.v0, x10.v0 I6: sub x1.v2, x14.v0, x14.v0 I7: sd x1.v2, 0(x0.v0) I8: lsl x9, x8, x8 I9: lsr x12, x0, x0

Chaque écrivain de x1 (I1, I6) obtient un registre physique afin d'écrire une nouvelle version de x1. Durant sa durée de vie, un registre physique est écrit une fois, lu *n* fois



