



## Programmation CUDA

S. Puechmorel

2023





Historique

Architecture des GPUs

Programmation

Sy:Wnchronisation et parallélisme dynamique





#### Années 1980 : contrôleurs video

Ces circuits permettaient d'afficher sur un tube cathodique des informations stockées en mémoire. Ils fournissaient des fonctionnalités de base, essentiellement orientées autour de la gestion de la mémoire vidéo et de la génération des signaux de synchronisation.



Figure: Le contrôleur vidéo MC6845. 1

https://commons.wikimedia.org/w/index.php?curid=976920





## Contrôleurs graphiques

Apparus vers la fin des années 1980, ils apportent des fonctionnalités graphiques, telles le tracé de segment, et gèrent une mémoire distincte de celle de l'unité centrale.





Figure: Contrôleurs graphiques.





### Les processeurs graphiques 3D.

Disponibles pour le grand public depuis le milieu des années 1990, ils incluent des fonctionnalités d'affichage en trois dimensions. Parallèlement, des bibliothèques logicielles font leur apparition (OpenGL, Direct3D). L'affichage d'une scène est réalisé à travers un pipeline graphique : transformation de sommets, projection, traçage.



Figure: Contrôleur 3D ATI Rage.





### Les processeurs progammables

En 2001, la société NVIDIA introduit sur le marché la gamme de processeurs graphiques GeForce 3 qui permettent de programmer les étapes du pipeline graphique.



Figure: Contrôleur 3D programmable.



Fin 2006, NVIDIA lance la gamme GeForce 8 et l'environnement de développement CUDA qui permet d'exploiter la puissance de calcul des cartes graphiques pour des applications générales. Les performances théoriques sont impressionnantes : de l'ordre de celles obtenues avec un superordinateur, mais pour une enveloppe énergétique bien inférieure.



Figure: Carte graphique CUDA.





Année

Carte

# Synthèse de l'évolution des cartes NVIDIA

Cœurs

**RAM** 

**Puissance** 

| 1995 | NV1         | Dizaines de µm    | ?      | 4 Mo  | 2 Watts   |
|------|-------------|-------------------|--------|-------|-----------|
|      |             |                   |        |       |           |
| 2017 | GTX 1080 Ti | Volta 16 nm       | 3584   | 11 Go | 257 W     |
| 2019 | GTX 2080 Ti | Turing 12 nm      | 4352   | 11 Go | 290 W     |
| 2020 | RTX 3090    | Ampere 8 nm       | 10 496 | 24 Go | 350 W     |
| 2022 | RTX 4090    | Ada Lovelace 5 nm | 18 000 | 24 Go | 450-600 W |
|      |             |                   |        |       |           |

**Architecture** 







## Les multiprocesseurs de flux (SM)

- Héritier du pipeline graphique, le multiprocesseur de flux ("Streaming multiprocessor", SM) est une entité de traitement comportant des séquenceurs, plusieurs unités de traitement numérique et une mémoire locale.
- Un processeur graphique (GPU) regroupe plusieurs multiprocesseurs.
- Les multiprocesseurs exécutent des blocs de processus de façon indépendante et peuvent accéder à une mémoire partagée.
- Pour un développeur sur une architecture conventionnelle, un multiprocesseur s'apparente à un cœur de calcul vectoriel.







### Les multiprocesseurs de flux (SM)

- À l'intérieur d'un multiprocesseur, les processus s'exécutent de façon concurrente, mais peuvent communiquer via la mémoire locale ou être synchronisés.
- Les processus sont regroupés par blocs, appelés "warps" (chaînes), qui se voient affecter le même séquenceur d'instructions.
- ► Le modèle associé est dit "SIMT" pour "Single Instruction Multiple Thread".







## Architecture matérielle

#### Les unités de calcul

- Le nombre d'unités de calcul par multiprocesseur dépend des générations de cartes. Pour l'architecture Ampère, on trouve 64 ou 128 unités flottantes 32bits, 32 ou 2 unités flottantes 64bits, 64 unités de calcul entier sur 32 bits, 16 unités spéciales (fonctions transcendantes), 4 cœurs de calcul tensoriel et 4 ordonnanceurs.
- Un ordonnanceur est affecté à une chaîne. Tous les processus de la chaîne exécutent la même Instruction au même moment.
- ► En cas d'instruction conditionnelle, il peut y avoir divergence de code à l'intérieur d'une chaîne, ce qui se traduit par la mise en attente d'un ou plusieurs processus dont l'exécution se poursuivra après celle de la branche principale.



## Architecture matérielle

### L'ordonnancement des processus

- Le code à exécuter sur le GPU est appelé noyau ("kernel".)
- ► Le programmeur décide du nombre de processus affectés à un même noyau et les répartit en blocs.
- Un bloc sera pris en charge par un multiprocesseur libre.
- ▶ Dans un bloc, des chaînes de 32 processus identifiés par des entiers consécutifs sont constituées.
- Depuis l'architecture Volta, chaque processus possède ses propres compteur de programme et pile d'appel, ce qui permet un contrôle plus fin, en particulier en cas de divergence.





## Architecture matérielle

#### La mémoire

- Chaque multiprocesseur possède une mémoire locale très rapide, pouvant être partagée entre les processus d'un même bloc. Elle est organisée en 32 banques pouvant être utilisées simultanément. Idéalement, chaque processus d'une chaîne accède à sa propre banque. La capacité de cette mémoire varie entre 64kB et 228kB selon les générations.
- Les multiprocesseurs partagent une mémoire globale, plus lente, mais en mesure de stocker beaucoup plus de données. Les cartes de dernière génération, comme la RX4090, embarquent 24Gb de RAM.
- L'architecture 9.0 introduit la notion de cluster de blocs et de mémoire partagée distribuée.





## Les mémoires spécialisées

#### La mémoire de textures

- Les GPUs étant initialement conçus pour des applications de rendu graphique 3D, certaines mémoires dédiées sont présentes.
- ▶ La mémoire de textures est particulièrement intéressante lorsque l'on cherche à stocker des données bidimensionnelles que l'on souhaite ensuite interpoler.
- Cette mémoire, chargée par le CPU, ne peut être modifiée par un programme CUDA.





#### Le GPU

- Un bloc est affecté à un multiprocesseur, les processus d'une même chaîne exécutent la même Instruction en parallèle.
- Il faut donc penser avant tout en termes de chaînes (32 processus).
- Un branchement dans un même chaîne entraîne l'inactivation temporaire de processus.

#### La mémoire

- Privilégier l'utilisation de la mémoire partagée, bien plus rapide que la mémoire globale.
- S'efforcer d'avoir des accès contigus pour les processus d'une même chaîne.
- Penser à utiliser la mémoire des textures si nécessaire.





### Un dialecte de C/C++

- ▶ Le GPU se programme en C/C++ avec des directives spécifiques reconnues par nvcc, le compilateur de NVIDIA.
- ▶ Placées devant un nom de variable ou de fonction, elles permettent d'en spécifier l'emplacement.
- Le fichier devant être compilé avec nvcc doit avoir l'extension .cu.
- CMake reconnaît CUDA comme un langage à part entière, détecte l'environnement de développement NVIDIA et génère les projets en conséquence.







### Avant la déclaration d'une fonction

| Directive | Effet                                                                                                     |
|-----------|-----------------------------------------------------------------------------------------------------------|
| global    | La fonction est un noyau. Elle est compilée pour le GPU, mais peut être appelée depuis le CPU.            |
| device    | La fonction est compilée pour le GPU et ne peut être appelée que depuis le GPU.                           |
| host      | La fonction est compilée pour le CPU et ne peut être appelée que depuis le CPU (comportement par défaut). |







### Avant la déclaration d'une variable

| Directive | Effet                                                                  |  |  |
|-----------|------------------------------------------------------------------------|--|--|
| device    | La variable est stockée dans la mémoire globale.                       |  |  |
| constant  | La variable est stockée dans la mémoire globale des constantes.        |  |  |
| shared    | La variable est stockée dans la mémoire partagée d'un multiprocesseur. |  |  |





### Lancement d'un noyau

- ▶ Une fonction fun déclarée avec la directive \_\_global\_\_ est éligible à une exécution parallèle sur le GPU.
- ► La directive de lancement prend la forme suivante: <<<gridDim,blockDim,sharedMen=0,stream=NULL>>>fun(args)
- gridDim est une structure de 3 entiers, gridDim.x, gridDim.y, gridDim.z déterminant la taille de la grille de blocs.
- blocDim est une structure de 3 entiers, blocDim.x, blocDim.y, blocDim.z déterminant la taille d'un bloc de threads.
- sharedMem est la taille totale en octets de mémoire partagée allouée dynamiquement.
- stream est un pointeur vers un objet de type stream qui permet de gérer le parallélisme.





#### Dimensions de bloc

- Un bloc de processus est affecté à un multiprocesseur et ne peut pas excéder une certaine valeur.
- Pour des raisons de flexibilité lors du codage, une tel bloc peut être organisé en un tableau à une, deux ou trois dimensions.
- La première coordonnée est particulière : elle peut recevoir l'intégralité du bloc.





### Dimensions de grille

- Les processus lancés sont d'abord organisés en blocs, puis les blocs en grille.
- ➤ Tout comme précédemment, les grilles possèdent trois dimensions, la première pouvant adresser tous les blocs.





#### Obtention des valeurs maximales

- La fonction cudaDeviceGetAttribute permet de connaître les valeurs maximales pour les dimensions de grilles et de blocs.
- Sa signature est: \_host\_\_\_device\_ cudaError\_t
  cudaDeviceGetAttribute ( int\* value, cudaDeviceAttr attr,
  int device )
- De nombreuses caractéristiques du GPU référencé par l'attibut device peuvent être obtenues.
- ▶ Pour les dimensions, attr prendra les valeurs: cudaDevAttrMaxBlockDimX,...,cudaDevAttrMaxGridDimX,...







## Le produit matriciel sur CPU

```
void host_matmul(int lda, int ncol, float* a,
    int ldb , float* b , float* res ) {
    double s;
    for (int i = 0; i < Ida; i++) {
        for (int j = 0; j < k; j++) {
            s = 0.0:
            for (int k = 0; k < ldb; k++)
                s += a[i * Ida + k] * b[k * Idb + j];
       c[i * Ida + j] = s;
```







### Passage sur GPU

- On remarque que l'écriture dans C peut être asynchrone.
- Les deux boucles de niveau supérieur sont remplacées par des appels parallèles.
- La boucle interne est exécutée par chaque processus.
- Un bloc reçoit une sous-matrice de C à calculer.
- Pour une écriture plus simple des calculs, on choisira d'organiser la grille et les blocs en deux dimensions.







### Noyau de calcul

- L'élément à calculer est obtenu à partir des coordonnées de bloc (blockIdx), puis de processus (threadIdx).
- Seule la boucle interne est conservée.
- Chaque processus opère sur une ligne et une colonne de la matrice



## Exemple de programme

#### Exécution

```
_void device_matmul(int lda, int ncola, float* a, int ncolb, float* b, float* c) {
     int nbx. nbv:
     // compute required numvber of blocs in each direction
     nbx = (lda + BLOCK DIM - 1) / BLOCK DIM:
     nby = (ncolb + BLOCK_DIM - 1) / BLOCK_DIM;
     // allocate device memory
     float* da, * db, * dc;
     cudaMalloc(&da. lda * ncola * sizeof(float)):
     cudaMalloc(&db, ncolb * ncola * sizeof(float));
     cudaMalloc(&dc, lda * ncolb * sizeof(float));
     cudaMemcpy(da, a, lda * ncola * sizeof(float), cudaMemcpyHostToDevice);
     cudaMemcpy(db, b, ncolb * ncola * sizeof(float), cudaMemcpyHostToDevice);
     matmul <<< dim3(nbx. nbv. 1), dim3(BLOCK DIM, BLOCK DIM, 1) >>> (lda, ncola, da, ncolb, db, dc):
     cudaDeviceSynchronize();
     cudaMemcpy(c, dc, lda * ncolb * sizeof(float), cudaMemcpyDeviceToHost);
     cudaFree(da);
     cudaFree(db)
     cudaFree(dc);
```

- La fonction cudaMalloc permet d'allouer de la mémoire sur le GPU.
- Elle est libérée par cudaFree.
- Les données sont transférées par cudaMemcpy.







#### Vitesse d'exécution

- Deux matrices 1000x1000 sont multipliées.
- Sur la configuration de référence, on relève, pour le GPU, une performance de 55 GFlops.
- Pour le CPU, elle est de 1 Gflops.
- Peut-on améliorer la vitesse de calcul ?





## Produit matriciel simple

#### Accès mémoire



Figure: Accès linéaire.

- Seule la mémoire globale est utilisée.
- Tous les processus de même numéro de ligne (resp. colonne) accèdent aux mêmes données dans A (resp. B).



#### améliorer l'utilisation des données

Le produit de deux matrices peut s'effectuer par blocs:

$$\begin{pmatrix} A_{1,1} & A_{1,2} & \dots & A_{1,n} \\ \vdots & \vdots & \vdots & \vdots \\ A_{i,1} & A_{i,2} & \dots & A_{i,n} \\ \vdots & \vdots & \vdots & \vdots \\ A_{m,1} & A_{m,2} & \dots & A_{m,n} \end{pmatrix} \begin{pmatrix} B_{1,1} & \dots & B_{1,j} & \dots & B_{1,p} \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ B_{n,1} & B_{n,2} & B_{n,j} & \dots & B_{n,p} \end{pmatrix}$$

$$= \begin{pmatrix} C_{1,1} & \dots & C_{1,p} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ C_{m,1} & \dots & C_{m,p} \end{pmatrix}, \quad C_{i,j} = \sum_{k=1}^{n} A_{i,k} B_{k,j}$$





#### Accès mémoire



Figure: Accès par blocs.

- Les données d'un même bloc peuvent résider en mémoire partagée.
- Tous les processus d'une même chaîne peuvent effectuer un chargement simultané.





Codage

Figure: Accès par blocs.

- Chaque processus charge un élément en mémoire partagée.
- Les éléments invalides sont mis à 0.
- Les blocs externes sont traités spécialement.





#### Performances

- ▶ Avec une dimension de bloc de 8 (soit 64 processus), on atteint 350 Gflops sur des matrices de taille 10000.
- ► En comparaison, le CPU ne dépasse pas 2 GFlops.
- Il est possible d'optimiser encore le code, en particulier en améliorant la gestion des blocs situés en périphérie de la grille.
- ► Le produit matriciel est toutefois un exemple simple, le code GPU étant assez similaire à son homologue CPU.







## Opérations asynchrones

- Par défaut, les exécutions de noyaux sur le GPU sont indépendantes du déroulement du programme sur CPU, sauf pour les transferts mémoire ou les lancements de grilles de processus.
- Dans de nombreux cas, il pourrait être bénéfique de s'affranchir de cette limitation.
- Les flux d'exécution ont été introduits pour permettre à des noyaux différents ou à des opérations de transfert entre hôte et GPU de se dérouler concurremment.







### Transferts mémoire asynchrones

- ▶ Un flux d'exécution est créé par un appel à la fonction cudaStreamCreate(cudaStream\_t \*stream)
- Il est supprimé en appelant cudaStreamDestroy(cudaStream\_t stream)
- Un transfert mémoire associé à un flux est réalisé à l'aide de la fonction cudaMemcpyAsync().
- ► Il est indépendant de l'ordre d'appel sur l'hôte, mais est synchronisé sur le flux.