# SE201: Projet 1

Lucie Molinié, Isaïe Muron, Florian Tarazona

# Partie 1 - Jeu d'instruction RISC-V

# Le programme

Pour traduire ce programme : - On traduit d'abord les instructions hexadécimales en binaires - On identifie le format des instructions et leur mnémonique à l'aide de la documentation RISC-V (p.130) et de la dernière page du sujet

On obtient le résultat suivant :

```
0:
    0000 0000 0000 0101 0000 1000 1001 0011 ADDI a7, a0, #0
                                                             (I)
4:
    0000 0000 0000 0110 1000 0101 0001 0011 ADDI a0, a3, #0
                                                             (I)
8:
    0000 0100 0000 1000 1000 0000 0110 0011
                                            BEQ a7, \times 0, #64
                                                             (SB)
    0000 0100 0000 0101 1000 0010 0110 0011
                                            BEQ a1, x0, #68
                                                             (SB)
c:
    0000 0100 0000 0110 0000 0000 0110 0011
10:
                                            BEQ a2, x0, #64
                                                             (SB)
14:
    0000 0100 1101 0000 0101 0000 0110 0011
                                            BGE x0, a3, #64
                                                             (SB)
18:
    0000 0000 0000 1000 1000 0111 1001 0011 ADDI a5, a7, #0
                                                             (I)
    0000 0000 0010 0110 1001 0111 0001 0011 SLLI a4, a3, #2
1c:
                                                             (I)
20:
    0000 0000 1110 1000 1000 1000 1011 0011
                                            ADD a7, a7, a4
                                                             (R)
24:
    0000 0000 0000 0111 1010 0111 0000 0011
                                             LW a4, a5, #0
                                                             (I)
28:
    0000 0000 0000 0101 1010 1000 0000 0011
                                             LW a6, a1, #0
                                                             (I)
2c:
    0000 0001 0000 0111 0000 0111 0011 0011
                                                             (R)
                                            ADD a4.
                                                    a4,
    0000 0000 1110 0110 0010 0000 0010 0011
30:
                                             SW a2, a4, #0
                                                             (S)
    0000 0000 0100 0111 1000 0111 1001 0011 ADDI a5, a5, #4
34:
                                                             (I)
38:
    0000 0000 0100 0101 1000 0101 1001 0011 ADDI al, al, #4
                                                             (I)
    0000 0000 0100 0110 0000 0110 0001 0011 ADDI a2, a2, #4
3c:
                                                             (I)
    1111 1111 0001 0111 1001 0010 1110 0011
40:
                                            BNE a5. a7. #-28
                                                             (SB)
44:
    0000 0000 0000 0000 1000
                            0000 0110 0111 JALR x0, x1, #0
                                                              (I)
48:
    1111 1111 1111 0000 0000 0101 0001 0011 ADDI a0, x0, #-1
                                                             (I)
4c:
    (I)
50:
    1111 1111 1111 0000 0000 0101 0001 0011 ADDI a0, x0, #-1
                                                              (I)
54:
    (I)
```

On peut organiser le code en plusieurs parties et l'annoter pour mettre en avant les branchements :

```
Initialisations
              ADDI a7, a0, #0
         0:
         4:
              ADDI a0, a3, #0
 Retours
         Vérifications des arguments
prématurés
              BEQZ a7, 0x48
         8:
              BEQZ al, 0x50
         c:
         10:
              BEQZ a2, 0x50
         14:
               BGE x0, a3, 0x54
         Initialisation d'une boucle
         18:
              ADDI a5, a7, #0
              SLLI a4, a3, #2
         1c:
         20:
               ADD a7, a7, a4
         Itération
         24:
                 LW a4, a5, #0
         28:
                 LW a6, a1, #0
         2c:
               ADD a4, a4, a6
         30:
                 SW a2, a4, #0
         Incréments de boucle
                                     BOUCLE
              ADDI a5, a5, #4
         34:
         38:
              ADDI al, al, #4
         3c:
              ADDI a2, a2, #4
 sortie de
         Branchement de la boucle
  boucle
               BNE a5, a7, 0x24-
         40:
         Retours
         44:
               RET
         48:
               MOV a0, #-1
         4c:
               RET
         50:
               MOV a0, #-1
         54:
               RET
```

Les incréments multiples de 4 pour a1, a2 et a5 suggèrent que ces registres contiennent des adresses. Cela est confirmé par leurs utilisations dans les instructions d'accès mémoire.

Le corps de la boucle charge deux valeurs, les additionne puis stocke le résultats dans une autre partie de la mémoire : la fonction est un additionneur vectoriel. Donnons finalement l'usage de la fonction :

int add\_vector(sc1\_array, sc2\_array, dst\_array, size);

- sc1\_array, sc2\_array sont les deux vecteurs à additionner.
- dst\_array est le vecteur dans lequel on met le résultat.

• size est la taille des vecteurs

La fonction renvoie -1 si l'un des vecteurs dst, sc1, sc2 a une adresse nulle, size sinon.

# Les Branch Delay Slots

Dans tous les processeurs dont l'architecture est basée sur un pipeline, les instructions de branchement impliquent de casser le pipeline.

En effet, prenons l'exemple d'un processeur RISC-V, basé sur un pipeline à 5 étages comme vu en cours, qui exécute l'instruction

# bge a0, a1, #20

Supposons que a0 < a1. Le processeur ne pourra s'en rendre compte qu'à l'étage d'EXÉCUTION du pipeline. À ce moment, l'instruction suivante dans la mémoire sera déjà dans l'étage de DÉCODAGE. Au coup d'horloge suivant, cette dernière, alors qu'elle vient d'être décodée, sera tuée par le processeur. Cela fait perdre au processeur un coup d'horloge.

Dans des architectures assez anciennes comme *MIPS*, la technique des branch delay slots était employée. Elle consiste simplement à exécuter l'instruction suivant une instruction de branchement. **C'était au programmeur de prêter attention à ce qu'il faisait.** Il pouvait toutefois profiter de cette instruction afin de prévoir par exemple une instruction pour aller chercher une donnée. Il pouvait concevoir des optimisation très fines, mais le code devenait moins lisible et les compilateurs plus difficiles à optimiser.

RISC-V, au contraire, prend le parti de ne pas nécessairement exécuter une instruction suivant un branchement. Cela permet au programmeur de gérer son code de manière plus naturelle. Toutefois, il est possible d'implémenter au sein du processeur un système de prédiction de branchement qui permettra de tenter de charger directement la bonne instruction.

# Partie 2 - Outils de compilation RISC-V

Voici un programme d'addition vectorielle en C:

# Compilation avec -00

Une première compilation avec gcc sans optimisation donne le code assembleur suivant :

```
file format elf32-littleriscv
1 add_vector-00.o:
 2
 3
 4 Disassembly of section .text:
 6 00000000 <add_vector>:
          fd010113
                                   addi
                                            sp,sp,-48
 8
     4:
           02812623
                                   SW
                                           s0,44(sp)
 9
     8:
          03010413
                                   addi
                                           s0,sp,48
10
                                           a0,-36(s0)
          fca42e23
     c:
                                   SW
11
    10:
          fcb42c23
                                           a1,-40(s0)
                                           a2,-44(s0)
           fcc42a23
12
    14:
                                   SW
           fcd42823
                                           a3,-48(s0)
13
    18:
                                   SW
           fdc42783
                                           a5,-36(s0)
14
    1c:
                                   lw
                                   beqz
15
    20:
          00078a63
                                           a5,34 <.L2>
16
    24:
           fd842783
                                   lw
                                            a5,-40(s0)
                                           a5,34 <.L2>
           00078663
17
    28:
                                   beqz
18
    2c:
           fd442783
                                           a5,-44(s0)
19
    30:
          00079663
                                   bnez
                                           a5,3c <.L3>
20
21 00000034 <.L2>:
22
    34:
          fff00793
                                   li
                                           a5,-1
23
    38:
           0680006f
                                           a0 <.L4>
24
25 0000003c <.L3>:
26
    3c:
          fe042623
                                   SW
                                           zero,-20(s0)
27
    40:
          0500006f
                                   j
                                           90 <.L5>
28
29 00000044 <.L6>:
30
    44:
          fec42783
                                   lw
                                           a5,-20(s0)
                                           a5,a5,0x2
    48:
           00279793
                                   slli
31
           fdc42703
                                            a4,-36(s0)
32
    4c:
                                   lw
                                   add
33
    50:
          00f707b3
                                           a5,a4,a5
                                           a3,0(a5)
34
    54:
          0007a683
                                   lw
35
    58:
           fec42783
                                   lw
                                           a5,-20(s0)
36
    5c:
           00279793
                                   slli
                                           a5,a5,0x2
37
    60:
           fd842703
                                   lw
                                            a4,-40(s0)
           00f707b3
                                           a5,a4,a5
38
    64:
                                   add
           0007a703
                                           a4,0(a5)
39
    68:
                                   lw
40
    6c:
           fec42783
                                   lw
                                           a5,-20(s0)
41
    70:
           00279793
                                   slli
                                           a5,a5,0x2
42
    74:
           fd442603
                                   lw
                                           a2,-44(s0)
43
    78:
          00f607b3
                                   add
                                           a5,a2,a5
44
    7c:
           00e68733
                                   add
                                           a4,a3,a4
                                           a4,0(a5)
45
    80:
           00e7a023
                                   SW
46
    84:
           fec42783
                                           a5,-20(s0)
                                   lw
47
    88:
           00178793
                                   addi
                                           a5,a5,1
48
    8c:
           fef42623
                                   SW
                                           a5,-20(s0)
```

```
49
50 00000090 <.L5>:
51
     90:
            fec42703
                                       lw
                                                a4,-20(s0)
52
     94:
            fd042783
                                       lw
                                                a5,-48(s0)
53
     98:
            faf746e3
                                       blt
                                                a4,a5,44 <.L6>
54
55 0000009c <.LBE2>:
            fd042783
56
     9c:
                                       lw
                                                a5,-48(s0)
57
58 000000a0 <.L4>:
59
            00078513
     a0:
                                                a0,a5
                                       mν
60
                                                s0,44(sp)
     a4:
            02c12403
                                       lw
61
            03010113
     a8:
                                       addi
                                                sp, sp, 48
62
     ac:
            00008067
                                       ret
```

Nous pouvons encore distinguer plusieurs parties :

- l'initialisation de la stack
- les vérifications et retours prématurés : 0x20, 0x28, 0x30, .L2, .L3
- le retour de la fonction :  $.\mathbf{L4}$

Nous pouvons constater plusieurs points qui diffèrent de la première version présentée :

• L'utilisation d'instructions d'accès mémoire est systématique pour la lecture et l'écriture des variables. On peut par exemple reconnaître la suite d'instructions implémentant l'accès en lecture v[i]. Pour l'accès en écriture, il suffit de remplacer le dernier LW par SW.

```
a5. -20(s0)
1w
                    //Chargement de i dans a5
                    //depuis la stack
slli a5, a5, 0x2
                    //Multiplication de i pour être
                    //compatible avec une adresse
1 w
     a4, -36(s0)
                    //Chargement de v dans a4
                    //depuis la stack
     a5, a4, a5
                    //Calcul de l'adresse v + i
add
     a3, 0(a5)
                    //Chargement de la valeur v[i]
1w
```

• L'utilisation de la pile, alors que la première version se contentait de travailler avec les registres de travail a0 - a7.

Une remarque surprenante est que la stack est initialisée avec une taille nettement supérieure aux besoins de la fonction : 12 mots-mémoire, mais seulement 6 utilisés. On peut représenter la stack ainsi :



Pour des raisons d'optimisation, gcc essaie d'aligner les éléments de la stack, comme l'indique ce thread sur GitHub. On peut modifier cela en utilisant l'argument -mpreferred-stack-boundary=3. On obtient alors :



• La gestion des branchements est également différente : on constate la présence d'un préambule  $.\mathbf{L2}$  menant directement à  $.\mathbf{L4}$  après avoir mis la valeur de retour à -1.

# Compilation avec -03

```
1 add_vector-03.o:
                         file format elf32-littleriscv
 3
 4 Disassembly of section .text:
 6 00000000 <add_vector>:
     0:
           00050793
                                    mν
                                             a5,a0
           04050063
                                            a0,44 <.L8>
 8
     4:
                                    beaz
 9
     8:
           02058e63
                                    beqz
                                             a1,44 <.L8>
10
     c:
           02060c63
                                    beqz
                                             a2,44 <.L8>
11
12 00000010 <.LBB2>:
                                    slli
                                             a7,a3,0x2
13
    10:
           00269893
    14:
           011508b3
                                             a7.a0.a7
14
                                    add
15
    18:
           02d05263
                                    blez
                                             a3.3c <.L5>
16
17 0000001c <.L4>:
                                    lw
                                             a4.0(a5)
18
    1c:
           0007a703
    20:
           0005a803
                                             a6,0(a1)
19
                                    lw
20
    24:
           00478793
                                    addi
                                             a5,a5,4
                                    addi
21
    28:
           00458593
                                             al,al,4
22
    2c:
           01070733
                                    add
                                             a4,a4,a6
23
           00e62023
                                             a4,0(a2)
    30:
                                    SW
                                    addi
                                             a2,a2,4
           00460613
24
    34:
25
    38:
           ff1792e3
                                    bne
                                             a5,a7,1c <.L4>
26
27 0000003c < .15>:
28
    3c:
           00068513
                                             a0,a3
29
30 00000040 <.LVL3>:
31
    40:
          00008067
                                    ret
32
33 00000044 <.L8>:
34
    44:
          fff00513
                                    li
                                             a0,-1
36 00000048 <.LVL5>:
    48:
          00008067
                                    ret
```

On retrouve un code bien plus proche de la première version. On constate cependant quelques différences :

- Certaines instructions ne sont pas présentes, en particulier au début de la fonction ou à la fin. La structure est conservée néanmoins.
- Les incréments d'adresses sont effectués de manière plus rapprochée de l'instruction d'accès mémoire qui utilise l'adresse.

On peut essayer d'expliquer cela comme une optimisation pour éviter de se retrouver confronté à une obligation de **stall** les instructions suivant directement les accès mémoire. En effet, dans le premier code, l'instruction 0x2C devait être retardée car elle utilisait a6 directement après sa lecture depuis la mémoire

On avait un potentiel problème également avec l'instruction 0x30 qui utilisait a4 directement après y avoir stocké un résultat de l'ALU. On peut éviter de retarder l'instruction en utilisant une technique de data-forwarding, en permettant à l'étage d'EXÉCUTION du processeurs de prendre en entrée la valeur calculée au coup d'horloge précédent.

Ici, les adresses peuvent être incrémentées sans attendre, et ces instructions permettent d'attendre la ressource en faisant quelque chose d'utile.

# Partie 3 - Architecture RISC-V

# Flot d'exécution

L'exécution pas à pas de la fonction avec les paramètres (0x200, 0x200, 0x200, 0x20) donne :

| PC   | Instruction         | a0    | a1    | a2    | а3  | a4   | a5    | a6   | a7    | Explication                                                                                |
|------|---------------------|-------|-------|-------|-----|------|-------|------|-------|--------------------------------------------------------------------------------------------|
| INIT |                     | 0x200 | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x0   |                                                                                            |
| 0x00 | addi a7, a0,<br>#0  | 0x200 | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | copie la valeur de a0 dans a7                                                              |
| 0x04 | addi a0, a3,<br>#0  | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | copie la valeur de a3 dans a0                                                              |
| 0x08 | beqz a7,<br>0x48    | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | vérifie que le 1er argument (addresse du 1er vecteur) n'est<br>pas <b>null</b>             |
| 0x0c | beqz a1,<br>0x50    | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | vérifie que le 2e argument (addresse du 2e vecteur) n'est pas <b>null</b>                  |
| 0x10 | beqz a2,<br>0x50    | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | vérifie que le 3e argument (addresse du vecteur de destination) n'est pas <b>null</b>      |
| 0x14 | bge x0, a3,<br>0x54 | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x0   | 0x0  | 0x200 | vérification sur la taille du vecteur ? non nulle ?                                        |
| 0x18 | addi a5, a7,<br>#0  | 0x2   | 0x200 | 0x200 | 0x2 | 0x0  | 0x200 | 0x0  | 0x200 | copie la valeur de a7 dans a5                                                              |
| 0x1c | slli a4, a3,<br>#2  | 0x2   | 0x200 | 0x200 | 0x2 | 0x8  | 0x200 | 0x0  | 0x200 | effectue un shift left (2bits) sur la valeur de a3 , met le résultat dans a4               |
| 0x20 | add a7, a7,<br>a4   | 0x2   | 0x200 | 0x200 | 0x2 | 0x8  | 0x200 | 0x0  | 0x208 | met a7+a4 dans a7                                                                          |
| 0x24 | lw a4, a5,<br>#0    | 0x2   | 0x200 | 0x200 | 0x2 | 0x61 | 0x200 | 0x0  | 0x208 | charge a4 avec la valeur située à l'adresse [a5] (0x61 pour la 1e itération)               |
| 0x28 | lw a6, a1,<br>#0    | 0x2   | 0x200 | 0x200 | 0x2 | 0x61 | 0x200 | 0x61 | 0x208 | charge <b>a6</b> avec la valeur située à l'adresse <b>[a1]</b> (0x61 pour la 1e itération) |
| 0x2c | add a4, a4,<br>a6   | 0x2   | 0x200 | 0x200 | 0x2 | 0хс2 | 0x200 | 0x61 | 0x208 | met a6+a4 dans a4                                                                          |
| 0x30 | sw a2, a4,<br>#0    | 0x2   | 0x200 | 0x200 | 0x2 | 0xc2 | 0x200 | 0x61 | 0x208 | écrit a4 dans la case mémoire d'adresse a2                                                 |
| 0x34 | addi a5, a5,<br>#4  | 0x2   | 0x200 | 0x200 | 0x2 | 0xc2 | 0x204 | 0x61 | 0x208 | incrémente la valeur de a5 (adresse de l'élément suivant<br>du 1er vecteur)                |

| 0x38         addi a1, a1, a1, a4         0x2         0x204         0x20         0x22         0x204         0x61         0x208 dure du 2 vecteur)         cincrémente la valeur de a1 (adresse de l'élément suivant du 2e vecteur)           0x3c         addi a2, a2, a2, a4, a4, a5, a7, ox2         0x204         0x20         0x204         0x61         0x208 dure du certur de destination)         0x204 du vecteur de destination)           0x41         lw a4, a5, a7, ox2         0x204         0x20         0x204 ovecteur)         0x208 de la le adresse hors vecteur), on saute en 0x24 (nouvelle itération)           0x281         lw a6, a1, a1, a1, a2, a2, a4, a5, a7, a2, a4, a6, a1, a2, a2, a4, a6, a1, a6, a1, a6, a1, a6, a2, a2, a4, a6, a1, a6, a2, a2, a4, a2, a2, a2, a2, a2, a2, a2, a2, a2, a2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |       |     |     |       |       |     |      |       |      |       |                                                               |
|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------|-----|-----|-------|-------|-----|------|-------|------|-------|---------------------------------------------------------------|
| 0x36                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | 0x38  |     | 0x2 | 0x204 | 0x200 | 0x2 | 0xc2 | 0x204 | 0x61 | 0x208 |                                                               |
| 0x40         Dne as, al, al, ox2d         0x2d         0x2d<                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | 0x3c  |     | 0x2 | 0x204 | 0x204 | 0x2 | 0xc2 | 0x204 | 0x61 | 0x208 |                                                               |
| 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | 0x40  |     | 0x2 | 0x204 | 0x204 | 0x2 | 0xc2 | 0x204 | 0x61 | 0x208 | de la 1e adresse hors vecteur), on saute en 0x24 (nouvelle    |
| Weight   W | 0x24' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x20 | 0x204 | 0x61 | 0x208 |                                                               |
| 0x2c'         a6         0x2         0x204         0x208         0x208         0x200         0x208         incrémente la valeur de al (adresse de l'élément suivant du 2e vecteur)           0x3c'         addi a2, a2, a2, #4         0x2         0x204         0x20         0x40         0x208         0x20         0x208         incrémente la valeur de al (adresse de l'élément suivant du 2e vecteur)           0x3c'         #4         0x2         0x204         0x208         0x20         0x208         0x208         0x208         0x208         0x208         incrémente la valeur de al (adresse de l'élément suivant du 2e vecteur)           0x40         bne a5, a7, 0x24         0x204         0x208         0x20         0x208         0x20         0x208         0x208                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 0x28' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x20 | 0x204 | 0x20 | 0x208 |                                                               |
| 0x30'                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | 0x2c' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x40 | 0x204 | 0x20 | 0x208 | met a6+a4 dans a4                                             |
| 0x34'         #4         0x2         0x204         0x2         0x40         0x208         0x208 </td <td>0x30'</td> <td></td> <td>0x2</td> <td>0x204</td> <td>0x204</td> <td>0x2</td> <td>0x40</td> <td>0x204</td> <td>0x20</td> <td>0x208</td> <td>écrit a4 dans la case mémoire d'adresse a2</td>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | 0x30' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x40 | 0x204 | 0x20 | 0x208 | écrit a4 dans la case mémoire d'adresse a2                    |
| 0x38''     #4     0x2     0x204     0x204     0x2     0x40     0x208     0x20     0x208     0x20                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | 0x34' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x40 | 0x208 | 0x20 | 0x208 |                                                               |
| 0x3c #4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | 0x38' |     | 0x2 | 0x204 | 0x204 | 0x2 | 0x40 | 0x208 | 0x20 | 0x208 |                                                               |
| 0x40                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | 0x3c' |     | 0x2 | 0x204 | 0x208 | 0x2 | 0x40 | 0x208 | 0x20 | 0x208 |                                                               |
| 0x44 ret 0x2 0x204 0x208 0x2 0x40 0x208 0x20 0x208 La fonction retourne a0, c'est à dire la taille des vecteurs.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 0x40  |     | 0x2 | 0x204 | 0x208 | 0x2 | 0x40 | 0x208 | 0x20 | 0x208 | on a a5 == a7 , on ne saute pas en 0x24                       |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 0x44  | ret | 0x2 | 0x204 | 0x208 | 0x2 | 0x40 | 0x208 | 0x20 | 0x208 | La fonction retourne a0, c'est à dire la taille des vecteurs. |

# **Pipelining**

Afin d'illustrer les problématiques d'aléas, nous traçons partiellement les diagrammes de pipeline.

En temps normal (sans aléa), le diagramme est simplement le suivant :

| 0x34 addi a5, | a5, #4 | IF | ID | EX | MEM | WB  |     |    |
|---------------|--------|----|----|----|-----|-----|-----|----|
| 0x38 addi a1, | a1, #4 |    | IF | ID | EX  | MEM | WB  |    |
| 0x3c addi a2, | a2, #4 |    |    | IF | ID  | EX  | MEM | WB |

Le premier aléa ayant lieu dans l'exécution du programme se produit à la première vérification (instruction 0x08):

L'instruction beqz a7, 0x48 a besoin de la valeur de a7, mais celle-ci n'a pas encore été réécrite par l'instruction 0x00 qui en est encore à l'étape WRITEBACK. Cette étape peut simplement **forwarder** la valeur de a7 à l'étape d'EXÉCUTION.

Un  $deuxi\`eme$  aléa se présente à l'instruction 0x2c:

À l'étape d'EXÉCUTION, l'instruction 0x2c (add a4, a4, a6) requiert les valeurs de a4 et a6. a4 est mis à jour par l'instruction 0x24 (1w a4, a5, #0), qui a fini de lire la mémoire. L'étape WRITEBACK peut alors forwarder la valeur. Cependant, l'instruction 0x28 (1w a6, a1, #0) n'a pas fini de récupérer la valeur de a6 dans la mémoire.

Dans ce cas, aucun **forwarding** n'est envisageable : la pipeline est **stalled**, mise en attente jusqu'à ce que WRITEBACK puisse **forwarder** la valeur de a6.

L'instruction 0x30 (sw a2, a4, #0) requiert durant la phase d'ACCÈS MÉMOIRE la valeur de a4, qui vient d'être modifiée par l'instruction 0x2c. L'étape de WRITEBACK forward la valeur de a4.

Imaginons le cas où l'instruction 0x2c avait effectué un calcul sur a2. Dans ce cas, l'instruction 0x30 aurait eu besoin de cette nouvelle valeur durant l'étape d'EXÉCUTION qui se charge du calcul de l'adresse. L'étape d'ACCÈS MÉMOIRE aurait alors forwardé la valeur de a2 à l'étape d'EXÉCUTION.

Enfin, le cas d'un branchement pris est visible à l'instruction 0x40. C'est le troisième aléa :

À l'étape d'EXÉCUTION l'instruction 0x40 (bne a5, a7, 0x24) détermine qu'il faut effectuer un branchement sur l'instruction 0x24. Les deux instructions suivantes, qui viennent d'être chargées de la mémoire, sont flushées et l'instruction 0x24 est fetched (l'adresse a été calculée lors de l'étape d'EXÉCUTION par l'instruction de branchement).

# Partie 4 - Processor Design

#### Instruction Set Architecture

#### Instruction Set

Dans un premier temps, nous imaginons un set d'instruction codées sur **16 bits**. La difficulté est alors de **compacter** les informations. L'instruction de **branchement conditionnelle beqz** devant avoir un immédiat de **10 bits** et un numéro de registre codé sur **4 bits**, il ne reste que **2 bits** afin de définir un **opcode** pour différencier l'instruction.

En considérant un opcode de 2 bits, on ne pourrait alors définir que 4 instructions.

Pour pallier à ce problème, on définit, pour d'autres types d'instructions, **1 à 2 bits** dits "de fonction" permettant de différencier plusieurs instructions appartenant à une même catégorie.

Cependant deux instructions de même opcode n'ont pas toujours le même format. Ci-dessous est décrit le jeu d'instructions que nous avons imaginé :

| 15 | 12       | 11 8    | 7          | 4      | 3 | 2  | 1 | 0    |   |
|----|----------|---------|------------|--------|---|----|---|------|---|
|    | rs2      | rs1     | rd         | 1      | 1 | 10 |   | add  | A |
|    | rs2      | rs1     | rd         | 1      | 0 | 10 |   | nand |   |
|    | rs2      | rs1     | rd         | 0      | 1 | 10 |   | sub  |   |
|    | imm[7:0] |         | rd         | 00     |   | 10 |   | mov  | L |
| 0  | iı       | nm[6:0] | rd         | 00     |   | 00 |   | sht  | S |
|    | imm[6:3] | rs1     | rd         | imm[2] | 0 | 01 |   | str  | M |
|    | imm[6:3] | rs1     | rd         | imm[2] | 1 | 01 |   | ldr  |   |
|    | imm[8:5] | rs1     | imm[4:0 9] |        |   | 11 |   | bnez | В |
|    | 0000     | rs1     | 0000       | 1      | 0 | 00 |   | jmp  | J |
|    | imm[8:5] | 0000    | imm[4:1 9] |        | 1 | 00 |   | call | С |

Nous détaillons les instructions.

# 1 - Instructions arithmétiques - format A

Le jeu d'instructions dispose de 3 instructions artihmétiques :

| rs2 | rs1 | rd | 11 | 10 | add  |
|-----|-----|----|----|----|------|
| rs2 | rs1 | rd | 01 | 10 | sub  |
| rs2 | rs1 | rd | 10 | 10 | nand |

add rd, rs1, rs2 effectue la somme de rs1 et rs2, puis la stocke dans rd. Les opérandes sont signées.

$$rd \leftarrow rs1 + rs2$$

sub rd, rs1, rs2 effectue la différence entre rs1 et rs2, puis la stocke dans rd. Les opérandes sont signées.

nand rd, rs1, rs2 effectue l'opération logique and bit à bit entre rs1 et rs2, puis stocke la négation de ce résultat dans rd.

Le choix d'avoir implémenter nand permet de calculer toute opération logique par universalité de nand.

#### 2 - Instructions de chargement - format L

La compacité du jeu d'instructions ne nous permet pas d'avoir des opérations arithmétiques avec opérandes immédiates. Afin de pallier à cela, nous implémentons une instruction mov :

| imm[7:0] rd 00 m |
|------------------|
|------------------|

mov rd, imm charge imm dans le registre rd. L'immédiat est un octet. Il est chargé dans l'octet de poids faible.

# 3 - Instruction de décalage - format S

L'instruction de chargement d'immédiat ne permet de stocker qu'un octet. Afin de remplir un registre avec une valeur immédiate de 32 bits, nous implémentons une instruction de décalage :

| 0 | imm[6:0] | rd | 00 | 00 | sht |  |
|---|----------|----|----|----|-----|--|
|---|----------|----|----|----|-----|--|

sht rd, imm effectue un décalage logique de la valeur du registre rd. L'immédiat est signé, de sorte que le décalage puisse être fait vers la gauche ou la droite.

Le stockage dans un registre d'un immédiat de 32 bit doit se faire octet par octet, en partant de l'octet de poids fort :

```
mov r0, byte0; sht r0, #24
mov r0, byte1; sht r0, #16
mov r0, byte2; sht r0, #8
mov r0, byte3
```

# 4 - Instructions d'interaction mémoire - format M

Afin d'accéder à la mémoire de données, le jeu d'instructions dispose d'instructions de load et store :

| imm[6:3] | rs1 | rd | imm[2] | 1 | 01 | ldr |
|----------|-----|----|--------|---|----|-----|
| imm[6:3] | rs1 | rd | imm[2] | 0 | 01 | str |

ldr rd, rs1, imm charge la valeur située à l'adresse rs1 + imm dans le registre rd. La valeur de rs1 est non signée, celle de l'immédiat est signée.

```
rd ← data_memory[rs1 + imm
```

str rd, rs1, imm charge la valeur située à l'adresse rs1 + imm dans le registre rd. La valeur de rs1 est non signée, celle de l'immédiat est signée.

```
data memory[rs1 + imm] ← rs1
```

La valeur de l'immédiat respecte l'alignement sur 32 bits\*\* des valeurs en mémoire. De la même manière, les deux bits de poids faible de rs1 sont ignorés.

#### 5 - Instruction de branchement - format B

Nous fournissons une instruction de branchement conditionnel :

| imm[8:5] | rs1 | imm[4:0 9] | 11 | bnez |
|----------|-----|------------|----|------|
|          |     |            |    |      |

bnez rs1, imm teste si la valeur du registre rs1 est non nulle. Si elle l'est, elle effectue alors un saut à l'adresse pc + imm\*2. La valeur de rs1 et de l'immédiat sont signées.

L'immédiat n'est pas aligné sur 16 bits (1 instruction). Il représente le nombre d'instructions dont on se décale par rapport à l'instruction en cours.

Si la branche est prise, l'instruction suivant le branchement est exécutée. Si cette instruction est un saut (J), un branchement (B) ou un appel (C), ses effets sont ignorés.

# 6 - Instruction de saut inconditionnel - format J

Le jeu d'instruction permet également d'effectuer un saut inconditionnel :

| 0000 | rs1 | 0000 | 10 | 00 | jmp |
|------|-----|------|----|----|-----|
|------|-----|------|----|----|-----|

jmp rs1 charge la valeur de rs1 dans pc.

Le bit de poids faible de rs1 est ignoré afin de respecter l'alignement sur 16 bits.

L'instruction suivant le saut est exécutée. Si cette instruction est un saut (J), un branchement (B) ou un appel (C), ses effets sont ignorés.

# 7 - Instruction d'appel de fonction (format C)

Nous fournissons une instruction simplifiant l'appel de fonctions :

| imm[8:5] | 0000 | imm[4:1 9] | 1 | 00 | call |  |
|----------|------|------------|---|----|------|--|

call imm enregistre la valeur de pc dans lr puis charge la valeur de l'immédiat dans pc. L'immédiat est signé.

La valeur de l'immédiat est alignée sur 16 bits.

# 8 - Instruction nop

Le jeu d'instructions ne propose pas d'instruction **nop** spécifique. Néanmoins nous pouvons utiliser l'instruction de décalage afin de trouver une instruction qui n'effectue aucun changement sur les registres.

Il s'agit de l'instruction nulle 0x0000 qui n'est autre que sht r0, #0. Cette instruction décale la valeur de r0 de 0 bits, i.e. n'effectue aucun changement.

# Registers

Le processeur dispose de 16 registres, dont certains ont des fonctions particulières :

| Registre(s) | Utilisation               |
|-------------|---------------------------|
| r0          | return value              |
| r0 - r3     | function arguments        |
| r0 - r12    | general purpose registers |
| r13 (sp)    | stack pointer             |
| r14 (lr)    | link register             |
| r15 (pc)    | program counter           |

Un programmeur **ne devrait pas écrire directement dans 1r ou pc**. Il devrait pour cela utiliser les instructions de branchement.

Lors d'un **appel de fonction**, la fonction appelante donne ses arguments à la fonction appelée dans les registres r0 - r3. La fonction appelée est à même de modifier tout registre de travail (r0 - r12). Elle doit donc sauvegarder les registres qu'elle utilise dans la stack grâce à sp, en particulier le link register.

La fonction appelante exécute enfin l'instruction call. Cette instruction effectue un saut inconditionnel vers l'adresse contenue dans le registre d'opérande. Elle sauvegarde également l'instruction suivante de la fonction appelante dans le link register.

La fonction appelée s'exécute et se termine par la libération de la stack qu'elle a prise puis une instruction jmp sur le link register. La fonction appelante restore ses registres depuis la stack.

Donnons un exemple :

```
callee:
```

```
mov r12, #4
   sub sp, sp, r12
   add r0, r0, r1
   add r0, r0, r2
   add sp, sp, r12
    jmp lr
caller:
   //On souhaite sauvegarder r4, r5, r6
   mov r0, #0
   mov r1, #4
   mov r2, #5
   mov r12, #12
   sub sp, sp, r12
   str r4, sp
   str r5, sp, #4
   str r6, sp, #8
   call callee
   ldr r4, sp
   ldr r5, sp, #4
   ldr r6, sp, #8
   add sp, sp, r12
```

#### Application

Nous pouvons à l'aide de nos nouvelles instructions réécrire la fonction d'addition vectorielle. Nous rappelons la définition de ses arguments :

- r0 : Adresse du premier vecteur
- r1 : Adresse du deuxième vecteur
- r2 : Adresse du vecteur somme
- r3 : Taille du vecteur

Pour commencer nous pouvons définir un registre à 0 en une seule instruction de décalage : le décalage étant logique, il suffit de décaler un registre de 32 bits. Nous utiliserons r4, premier registre de travail non réservé aux arguments :

```
0x00 sht r4, #32
```

Il faut ensuite effectuer des vérifications sur la non-nullité des adresses des vecteurs. Nous utilisons l'instruction bnez. Si le branchement est effectué, cela signifie que l'adresse est non nulle, donc valide. Cela signifie que nous aurons trois branchements dans une exécution normale de la fonction. Les performances en seront réduites mais nous verront par la suite comment faire usage du branch delay slot afin de limiter cela.

```
0x02 bnez r0, 0x08
0x04 bnez r1, 0x0c
0x06 bnez r2, 0x10
```

Il nous faut ensuite vérifier la validité de la taille du vecteur. Un branchement doit être effectué vers le retour de la fonction si la taille est positive ou nulle. Pour cela on regarde d'abord si la taille est négative en regardant son bit de poids fort. Puis on teste si elle vaut 0 en lui retranchant 1 et en vérifiant si ce résultat est négatif de la même manière. Il faut tout d'abord avoir transféré la taille demandée dans r0, en cas de retour prématuré.

```
//Transfert de la taille dans r0, on sauvegarde dans r5
80x0
            add r5, r4, r0
0x0a
            add r0, r4, r3
//On crée un masque pour sélectionner le bit de poids fort
0x0c
            mov r6, #80
0x0e
            sht r6, #24
//On sélectionne le bit de poids fort de r3 avec un and
//(deux nand successifs)
0x10
            nand r7, r3, r6
0x12
            nand r7, r7, r7
//On teste si r3 était négatif
            bnez r7, ... (retour)
0x14
//On crée une variable temporaire à -1 dans r8
//(r8 \leftarrow 0xffffffff)
0x16
            sht r8, #32
            nand r8, r8, r8
0x18
//On teste la nullité de r3
            add r7, r3, r8
0x1a
0x1c
            nand r7, r7, r6
            nand r7, r7, r7
0x1e
0x20
            bnez r7, ... (retour)
```

On peut désormais entamer la boucle. Pour gérer les indices nous allons utiliser r3, décrémenter sa valeur à chaque itération jusqu'à son annulation.

```
//On crée une variable à 4
0x22
            sht r9, #32
0x24
            mov r9, #4
//Corps de la boucle
0x26
            ldr r10, r5
0x28
            add r5, r5, r9
0x2a
            ldr r11, r1
0x2c
            add r1, r1, r9
            add r3, r3, r8
0x2e
0x30
            add r10, r10, r11
0x32
            str r10, r2
0x34
            add r2, r2, r9
            bnez r3, ... (début de boucle, 0x4c)
0x36
```

On termine enfin par les instructions de retours : un retour normal ainsi qu'un retour à -1.

Nous allons maintenant apporter quelques modifications et présenter un code plus lisible. Tout d'abord, nous avons pu remarqué que deux valeurs constantes sont utilisées dans la fonction : 0, -1 et 4. Nous allons les définir dès le début de la fonction dans les registres r4, r5, r6.

Ensuite, nous utilisons les branch delay slots en plaçant une instruction à la suite de chaque instruction de branchement. Cette instruction sera toujours exécutée.

# define\_constants:

```
0x00 sht r4, #32 //r4 ← 0
0x02 sht r5, #32
0x04 nand r5, r5, r5 //r5 ← -1
0x06 sht r6, #32
0x08 mov r6, #4 //r6 ← 4
```

# check\_addresses:

#### check\_size:

```
0x16 sht r8, #24
0x18 nand r9, r3, r8
0x1a nand r9, r9, r9
0x1c bnez r9, #14 <ret>
0x1e add r9, r3, r5
0x20 nand r9, r9, r8
0x22 nand r9, r9, r9
```

```
0x24
                bnez r9, #10 <ret>
loop:
    //Nous n'avons plus besoin de r8 et r9, nous nous en
    //servons pour récupérer les valeurs de la mémoire
    0x26
                ldr r8, r7, #0
    0x28
                add r7, r7, r6
    0x2a
                ldr r9, r1, #0
    0x2c
                add r1, r1, r6
    0x2e
                add r8, r8, r9
    0x30
                str r8, r2, #0
                add r3, r3, r5
    0x32
    0x34
                bnez r3, \#-7 <loop>
    0x36
                add r2, r2, r6
ret:
    0x38
                jmp lr
invalid_ret:
                add r0, r4, r5
    0x3a
    0x3c
                jmp lr
```

# **Pipelining**

# Processor diagram

En utilisant pour référence le processeur abordé en classe et en l'adaptant à notre jeu d'instructions, on obtient le diagramme suivant :



Comme indiqué dans l'énoncé, le processeur fait usage d'un pipeline à 3 étages :

- Le premier étage, Instruction Fetch, est inchangé par rapport au cours
- Le deuxième étage, Instruction Decode, inclut désormais l'exécution des instructions modifiant le PC (bnez, jmp, call). Pour effectuer ce changement, le bloc de calcul a été ramené avant la bascule D associée (ID/EX). Cela est possible car notre seule instruction de saut conditionnel teste si un registre donné est non-nul. Il n'y a donc pas besoin d'attendre un calcul de l'ALU pour obtenir notre condition, on peut directement faire la vérification à la sortie du bloc REGISTER FILES. On peut noter le rôle important du bloc opératoire SHIFT, assurant l'alignement de l'adresse à laquelle on saute.
- Le troisième étage, Execute, comprend désormais toutes les étapes des accès mémoire (calcul d'adresse, lecture, écriture). Il n'y a pas de bascule D sur les signaux RgWE, RgWId, RgWSel : l'écriture des registres se fait au début de EX, tandis que sa lecture à la fin de l'étape ID.

Les signaux décodés sont mis à jour selon l'instruction reçue. Un signal restant inchangé d'une instruction précédente implique qu'il n'est pas utilisé ou qu'il sera ignoré par l'instruction courante. Voici un tableau explicatif des signaux :

| Nom du signal | Taille en bits | Description                                                                      |
|---------------|----------------|----------------------------------------------------------------------------------|
| branch        | 1              | Indique si l'instruction est un saut (1 pour bnez,jmp, 0 sinon)                  |
| RgWE          | 1              | Indique l'accès en mode                                                          |
| RgWId         | 4              | écriture à <b>REGISTER FILE</b><br>Sélectionne le registre dans<br>lequel écrire |

| Nom du signal | Taille en bits | Description                                               |  |  |
|---------------|----------------|-----------------------------------------------------------|--|--|
| RgWSel        | 1              | Sélectionne la source de la donnée à écrire en mémoire (1 |  |  |
| . •           | ,              | pour ldr, 0 sinon)                                        |  |  |
| operation     | 4              | Sélectionne la bonne opération<br>au niveau de l'ALU      |  |  |
| RgRId1        | 4              | Premier registre lié à                                    |  |  |
|               |                | l'opération                                               |  |  |
| RgRId2        | 4              | Second registre lié à                                     |  |  |
|               |                | l'opération                                               |  |  |
| imm           | 12             | Immédiat lié à l'opération                                |  |  |
| ALUsrc        | 1              | Sélectionne le deuxième<br>argument fourni à l'ALU        |  |  |

# call instruction

# Rappel sur l'instruction call:

| imm[8:5] | 0000 | imm[4:1 9] | 1 | 00 | call |
|----------|------|------------|---|----|------|

On utilise un immédiat pour donner sa nouvelle valeur au registre pc, l'ancienne étant stockée dans le registre lr.

**Hazards, flushing logic** Notre processeur ne nécessite pas de logique pour flush les instructions. Ceci est le résultat de deux facteurs :

- L'exécution des sauts se fait à l'étape ID du pipeline. Ceci implique qu'une seule instruction aura vu son traitement débuter lors du saut. Il y a donc potentiellement une instruction à flush.
- Notre architecture implémente *un* branch delay slot. Autrement dit, une unique instruction suivant un saut est exécutée plutôt que d'être *flush*.