## M1 SESI 2017-2018

# Architecture Multi-Processeurs

TP7: Contrôleur DMA

Kevin Mambu

April 11, 2018

## A) Objectifs

Le but de ce TP est d'analyser le fonctionnement d'un périphérique plus complexe que ceux analysés dans le TP6. Un périphérique possédant une capacité DMA (Direct Memory Access) se comporte à la fois comme un maître capable de lire ou d'écrire directement en mémoire, et comme une cible capable - comme n'importe quel périphérique - de recevoir des commandes provenant du système d'exploitation.

On utilise la même architecture que dans le TP5 et le TP6, mais on instanciera un seul processeur, et on activera le contrôleur DMA. On utilisera des caches possédant une capacité de 2 Koctets (lignes de 16 octets, 4 niveaux d'associativité, 32 sets).

## B) Contrôleur DMA



### Question B1

| Registres adressables du contrôleur DMA |           |                                                                                                                                                                                                                                                                               |  |  |  |  |  |
|-----------------------------------------|-----------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--|--|--|--|--|
| SOURCE                                  | 0x00 (RW) | Adresse de base du tampon source                                                                                                                                                                                                                                              |  |  |  |  |  |
| DEST                                    | 0x04 (RW) | Adresse de base du tampon destinataire                                                                                                                                                                                                                                        |  |  |  |  |  |
| NWORDS/STATUS                           | 0x08 (RW) | <ul> <li>si écriture → démarre un transfert DMA pour le nombre de mots spécifié.</li> <li>si lecture → contient le statut de retour du transfert DMA :         <ul> <li>DMA_IDLE</li> <li>DMA_SUCCESS</li> <li>DMA_READ_ERROR</li> <li>DMA_WRITE_ERROR</li> </ul> </li> </ul> |  |  |  |  |  |
| RESET                                   | 0x0C (R)  | Reset logiciel, écrire dans<br>ce registre pour acquitter<br>l'interruption du contrôleur<br>DMA.                                                                                                                                                                             |  |  |  |  |  |
| IRQ_DISABLED                            | 0x10 (RW) | IRQ désactivée si $\neq 0$                                                                                                                                                                                                                                                    |  |  |  |  |  |

• L'adresse de base du segment associé au contrôleur DMA en tant que cible doit être alignée sur une frontière de bloc de 32 octets par souci d'alignement (segment de 32 octets).

#### Question B2

burst est l'argument permettant de spécifier le nombre maximal de mots qui peuvent être transferés lors d'une rafale (Burst).

#### Question B3

Le coprocesseur DMA requiert deux automates MASTER\_FSM et TARGET\_FSM afin de pouvoir :

- Recevoir des commandes d'autres maîtres (en qualité de cible).
- Initier des transactions mémoires (en qualité de maître).

Ces deux tâches doivent pouvoir se faire simultanément.

### Question B4

La bascule r\_stop est une bascule commandée par l'automate TARGET\_FSM. Elle est en popsition basse lors d'un transfert DMA (e.g. lorsque MASTER\_FSM est à l'état DMA\_IDLE) et est positionnée à true à la fin d'un transfert DMA par le bais du registre RESET.

## Question B5



| Transitions de MASTER_FSM |                                                                                         |  |  |  |  |  |
|---------------------------|-----------------------------------------------------------------------------------------|--|--|--|--|--|
| A'                        | $\overline{R\_STOP}$                                                                    |  |  |  |  |  |
| A                         | $R\_STOP$                                                                               |  |  |  |  |  |
| В'                        | $\overline{GNT}$                                                                        |  |  |  |  |  |
| В                         | GNT                                                                                     |  |  |  |  |  |
| С                         | true                                                                                    |  |  |  |  |  |
| D'                        | WAIT                                                                                    |  |  |  |  |  |
| D                         | $\overline{WAIT}$                                                                       |  |  |  |  |  |
| E',1                      | $\overline{ERROR} \bullet READY \bullet R\_STOP$                                        |  |  |  |  |  |
| Е                         | $\overline{ERROR} \bullet READY \bullet \overline{R\_STOP}$                             |  |  |  |  |  |
| F                         | ERROR                                                                                   |  |  |  |  |  |
| G                         | $\overline{READY} + \overline{ERROR}$                                                   |  |  |  |  |  |
| Н'                        | $\overline{READ}$                                                                       |  |  |  |  |  |
| Н                         | READ                                                                                    |  |  |  |  |  |
| I                         | true                                                                                    |  |  |  |  |  |
| J'                        | $\overline{READY}$                                                                      |  |  |  |  |  |
| J                         | READY                                                                                   |  |  |  |  |  |
| K'¹                       | $\overline{ERROR} \bullet READY \bullet R\_STOP$                                        |  |  |  |  |  |
| K                         | $\overline{ERROR} \bullet READY \bullet \overline{R\_STOP} \bullet R\_COUNT$            |  |  |  |  |  |
| L                         | ERROR                                                                                   |  |  |  |  |  |
| M                         | $\overline{ERROR} \bullet READY \bullet \overline{R\_STOP} \bullet \overline{R\_COUNT}$ |  |  |  |  |  |
| N                         | $\overline{READY} + \overline{ERROR}$                                                   |  |  |  |  |  |
| O', P', Q'                | $\overline{R\_STOP}$                                                                    |  |  |  |  |  |
| O, P, Q                   | $R\_STOP$                                                                               |  |  |  |  |  |

[1]: Ces transitions n'apparaissent pas sur le graphe du sujet, mais servent de point de retour en cas d'erreur: si le maître responsable de la transaction se fait tué avant la fin de cette dernière, le contrôleur DMA avorte alors son transfert puis retourne dans l'état IDLE. Uniquement à la fin d'un transfert sur le PIBUS (XXX\_DT), sinon ce dernier se retrouverait bloqué!

## C) Architecture matérielle

### Question C1

• Par défault, la longeur d'une rafale de mots 32 bits est de 16 mots.

- Utiliser de grosses rafales permet de réduire le nombre de réquisitions du Pibus, plusieurs mots transferés pour une réquisition du bus.
- Dans la description *pibus\_dma.cpp*, on peut voir que le burst est borné entre 0 et 128. Augmenter la longeur maximale d'une rafale augmenterait la taille des tampons internes du périphérique DMA.

### Question C2

- L'adresse de base du segment associé au périphérique DMA est 0x93000000.
- L'index de cible vis-à-vis du BCU est DMA\_INDEX, égal à 6.
- Son numéro de maître est à nprocs + 1. Sur notre, architecture mono-processeur, son index de maître est alors à 2.
- La ligne d'interruption IRQ contrôlée par le périphérique DMA est relié au port d'entrée IRQ\_IN[0] du composant ICU.

## D) Application logicielle

### Question D1

- Lors de la fonction fb\_sync\_write, le processeur exécutant cette fonction est à la charge de l'écriture du tampon dans le segment réservé au FrameBuffer, par l'intermédiaire du appel système.
- Cet appel est alors naturellement bloquant car, rappelons le, parmi les requêtes d'accès mémoire, les écritures en Tampon d'Écriture Postées sont les plus prioritaires et la donnée à écrire l'est dans un segment non-cachable.

#### Question D2

|              | Damier 5 | Damier 4 | Damier 3 | Damier 2 | Damier 1 | Moyenne |
|--------------|----------|----------|----------|----------|----------|---------|
| Display (cy) | 117148   | 117161   | 117161   | 117175   | 117353   | 117200  |
| Build (cy)   | 717883   | 713813   | 717827   | 717822   | N.C.     | 716837  |

#### Question D3

La fonction fb\_sync\_write() force une attente active jusqu'à la fin de l'écriture vers le FrameBuffer tandis que fb\_write() déclenche l'écriture de manière non-bloquante, via le coprocesseur DMA. La vérification de la fin du transfert se fait grâce à la fonction fb\_completed().

#### Question D4

|              | Damier 5 | Damier 4 | Damier 3 | Damier 2 | Damier 1 | Moyenne |
|--------------|----------|----------|----------|----------|----------|---------|
| Display (cy) | 4199     | 4199     | 4199     | 4260     | 4036     | 4179    |

#### Question D5

Sur le bord gauche de l'image affichée, on peut observer une portion de cases appartenant au damier de l'itération suivante. Cela est dû au fait que faute de synchronisation sur la bonne écriture du buffer, les premières cases du buffer ont le temps d'être écrasées avant d'être envoyées au FrameBuffer.

#### Question D6

- – Dans \_fb\_completed(), tant que la variable \_dma\_busy est différente de 0, le processeur est bloqué.
  - Dans \_fb\_write(), tant que \_dma\_busy est différente de 0, le processeur attend une période pseudo-aléatoire, une fois que \_dma\_busy est égale à 0, le processeur la remet à 1.
- La routine d'interruption \_isr\_dma est la fonction qui remet à 0 le flag \_dma\_busy.
- Le vecteur de flags \_dma\_busy est stocké dans le segment seg\_unckdata.

## E) Pipe-line logiciel

#### Question E1

Pour pouvoir passer de la période (n) à la période (n+1), il faut que le transfert du DMA au Framebuffer soit terminé à la période (n). Nous utiliserons la fonction \_fb\_completed.

### Question E2

|              | Damier 5 | Damier 4 | Damier 3 | Damier 2 | Damier 1 | Moyenne |
|--------------|----------|----------|----------|----------|----------|---------|
| Display (cy) | 3979     | 4086     | 3984     | 4240     | 3690     | 3996    |
| Build (cy)   | 716739   | 716789   | 716901   | 716871   | N.C.     | 716825  |

- Le gain apporté par le parallelisme pipeline par rapport à une exécution séquentielle est de 183 cycles, ce qui est bien maîgre gain comparé au coût de l'implémentation (ajout d'un if, ajout d'un tampon).
- Ce chiffre est significatif d'une chose : le temps de construction d'un damier est négligeable par face au temps de transfert d'un damier via le contrôleur DMA.

### F) Traitement des erreurs

#### Question F1

fb\_read() et fb\_write() sont des fonctions qui font des accès mémoire, en ce sens il ne faut pas que le tampon source ou destination soit de la zone mémoire privilégiée :

- fb\_read() a la possibilité de permettre de l'injection de données dans le système d'exploitation.
- fb\_write() a la possibilité de dévoiler des portions de l'espace système auquel l'utilisateur ne devrait pas avoir accès.

Une fois la requête envoyée au contrôleur DMA, plus aucun contrôle de droits ou de sécurité n'est effectué. Cette vérification doit être fait a priori.

#### Question F2

- À l'échelle du composant Pibus\_DMA, en cas d'erreur le composant passe dans l'état DMA\_XXXXX\_ERROR, puis lève une interruption.
- À l'échelle de la routine \_isr\_dma, la routine sauvegarde dans le registre \_dma\_status la cause de la levée d'interruption.
- À l'échelle de \_fb\_completed(), si le \_dma\_status est différent de 0, la fonction retourne 1 (cas d'erreur).

#### Question F3

- fb\_sync\_write
  - sys\_call(FB\_SYNC\_WRITE...
  - syscall
  - \_fb\_write(...
  - C'est dans la fonction de driver que la vérification des arguments se fait :

```
if (((unsigned int) buffer >= 0x80000000)
|| (((unsigned int)buffer + length) >= 0x80000000)
| return 1;
```

```
#include "stdio.h"
  #define NPIXEL 128
  #define NLINE 128
      main function
  .
.
  __attribute__ ((constructor)) void main()
                    BUF1[NPIXEL*NLINE];
    unsigned char
                    BUF2[NPIXEL*NLINE];
    unsigned char
13
    unsigned int line;
    unsigned int
                  pixel;
    unsigned int
                 step;
17
    /**** Prologue ****/
    tty\_printf("\n*** damier 1 ***\n\n");
    for(pixel = 0 ; pixel < NPIXEL ; pixel++)</pre>
21
      for (line = 0; line < NLINE; line++)
23
      {
        if ( ( (pixel>>step & 0x1) && !(line>>step & 0x1)) || (!(pixel>>step & 0x1) && (line>>step & 0x1)) )
          BUF2[NPIXEL*line + pixel] = 0xFF;
25
        else
          BUF2[NPIXEL*line + pixel] = 0x0;
27
      }
29
    tty_printf(" - build OK at cycle %d\n", proctime());
31
    /**** Software pipelining ****/
    for (step = 2; step < 6; step++)
35
      if(((step\%2) == 0) \&\& (step < 5)) {
        if(fb_write(0, BUF2, NLINE*NPIXEL) != 0)
          tty_printf("\n!!! error in fb_syn_write syscall !!!\n");
          exit();
39
        tty_printf(" - display OK at cycle %d\n", proctime());
41
        tty_printf("\n*** damier %d ***\n\n", step);
        for(pixel = 0 ; pixel < NPIXEL ; pixel++)</pre>
43
          for(line = 0 ; line < NLINE ; line++)
          {
            if( ((pixel>>step & 0x1) && !(line>>step & 0x1)) || (!(pixel>>step & 0x1) && (line>>step & 0x1
47
      ))))
              BUF1[NPIXEL*line + pixel] = 0xFF;
            else
              BUF1[NPIXEL*line + pixel] = 0x0;
51
          }
        tty_printf(" - build OK at cycle %d\n", proctime());
53
      else
        if(fb_write(0, BUF1, NLINE*NPIXEL) != 0)
          tty_printf("\n!!! error in fb_syn_write syscall !!!\n");
59
          exit();
        tty_printf(" - display OK at cycle %d\n", proctime());
        tty_printf("\n*** damier %d ***\n\n", step);
        for(pixel = 0 ; pixel < NPIXEL ; pixel++)</pre>
65
          for (line = 0; line < NLINE; line++)
67
            if( ( (pixel>>step & 0x1) && !(line>>step & 0x1)) || (!(pixel>>step & 0x1) && (line>>step & 0x1
      ))))
              BUF2[NPIXEL*line + pixel] = 0xFF;
            else
              BUF2[NPIXEL*line + pixel] = 0x0;
        }
```

```
tty_printf(" - build OK at cycle %d\n", proctime());
}
if(fb_completed() != 0)
{
    tty_printf("\n!!! error in fb_completed syscall !!!\n");
    exit();
}

/***** Epilogue *****/
if(fb_write(0, BUF1, NLINE*NPIXEL) != 0)
{
    tty_printf("\n!!! error in fb_syn_write syscall !!!\n");
    exit();
}

tty_printf(" - display OK at cycle %d\n", proctime());
    tty_printf("\nFin du programme au cycle = %d\n\n", proctime());
    exit();
}
// end main
```

 $./main\_pipe.c$