# Solveur de Jacobi : Modèles de programmation Multi-GPU
Ce notebook présente 12 versions progressives d’un solveur de Jacobi 2D. Chaque section explique le modèle ou l’optimisation, compile la version, exécute et collecte les métriques Nsight.

```markdown
## Modules Spack à charger

Avant de compiler ou d’exécuter les différentes étapes, il est recommandé de charger les modules nécessaires via Spack. Par exemple :

```bash
spack load cuda@12.6
spack load nvidia-nsight-systems@2024.6.1
spack load nvhpc@24.11 
spack load cudnn@9.2.0.82-12
```

Adaptez la version de chaque module selon la configuration de votre cluster.
```

## etape1_cpu
**Description :** Solveur Jacobi CPU de base : implémentation mono-thread. Utile pour valider la correction et les petites tailles de problème ; met en évidence la limite de calcul CPU.

**Intérêt :** Baseline : évalue la limite CPU pour établir une référence.

In [39]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6
cd etape1_cpu
make clean all

rm -f main
gcc -O2 -o main main.c


In [40]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6
cd etape1_cpu
nsys profile --stats=true --force-overwrite true -o main ./main

Error while terminating subprocess (pid=2550785): 


Collecting data...
Generating '/tmp/nsys-report-709b.qdstrm'


SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain NV Tools Extension (NVTX) data.
SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain OS Runtime trace data.
SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain CUDA trace data.
SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain CUDA kernel data.
SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain GPU memory data.
SKIPPED: /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain GPU memory data.


[3/8] Executing 'nvtx_sum' stats report
[4/8] Executing 'osrt_sum' stats report
[5/8] Executing 'cuda_api_sum' stats report
[6/8] Executing 'cuda_gpu_kern_sum' stats report
[7/8] Executing 'cuda_gpu_mem_time_sum' stats report
[8/8] Executing 'cuda_gpu_mem_size_sum' stats report
Generated:
    /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.nsys-rep
    /gpfs/home/colevalet/Cours/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite


## etape2_cpu_gpu
**Description :** 1 CPU + 1 GPU + 1 stream : le CPU pilote le GPU via un unique stream CUDA. Le calcul Jacobi est entièrement délégué au GPU, le CPU ne fait que l’orchestration.

**Intérêt :** Met en évidence l'écart de performance CPU vs GPU lorsque la grille est suffisamment grande, dans un contexte réaliste d’utilisation d’un seul GPU et d’un seul stream.

### Compilation et exécution (1 CPU + 1 GPU + 1 stream)

In [54]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6
cd etape2_cpu_gpu
make clean all

rm -f app
nvcc -O2 -o app main.cu kernel.cu


In [42]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6
cd etape2_cpu_gpu
nsys profile -t cuda --stats=true --force-overwrite true -o main ./app

Terminé etape2_cpu_gpu (1CPU + 1GPU + 1stream)
GPU time: 48.874808 seconds
Collecting data...
Generating '/tmp/nsys-report-a648.qdstrm'
[3/6] Executing 'cuda_api_sum' stats report

 Time (%)  Total Time (ns)  Num Calls    Avg (ns)       Med (ns)     Min (ns)    Max (ns)     StdDev (ns)            Name         
 --------  ---------------  ---------  -------------  -------------  ---------  -----------  -------------  ----------------------
     88.2      42956795360          3  14318931786.7  20899479424.0   46286208  22011029728  12372962251.6  cudaMemcpyAsync       
     11.4       5554665760       1001      5549116.6      5513056.0       1824     10656032       460412.7  cudaStreamSynchronize 
      0.3        155750016          1    155750016.0    155750016.0  155750016    155750016            0.0  cudaStreamCreate      
      0.0         23931008          2     11965504.0     11965504.0   11949984     11981024        21948.6  cudaMalloc            
      0.0         13004960       

## etape3_mpi_gpus
**Description :** MPI + GPUs : domaine réparti sur plusieurs rangs MPI, chacun pilotant un GPU. Illustrations des défis de mise à l'échelle multi-nœuds et des communications inter-rangs.

**Intérêt :** Test de montée en charge inter-nœuds et coût MPI sur cluster multi-GPU.

**Step :** 
- Initialiser MPI, déterminer le rang et le nombre de processus.
- Associer chaque rang à un GPU différent.
- Diviser la grille entre les rangs (découpage 1D vertical).
- Gérer les échanges d’halos entre rangs voisins avec MPI_Sendrecv.
- Synchroniser les échanges à chaque itération.
- Nettoyer MPI à la fin.

In [60]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
cd etape3_mpi_gpus
make clean all

rm -f app
nvcc -O2 -lcudart -lmpi -lnccl -lstdc++ -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/include -Xlinker --no-as-needed -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/lib64 -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib -o app main.cu kernel.cu


In [61]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
export LD_LIBRARY_PATH=/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib:/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib:$LD_LIBRARY_PATH
unset OPAL_PREFIX
unset PMIX_INSTALL_PREFIX
cd etape3_mpi_gpus
nsys profile -t mpi,cuda --stats=true --force-overwrite true -o main mpirun -np 4 ./app

Lancement de l'étape 3 : MPI + multi-GPU
Grille de taille 4096 x 4096, T = 1000 itérations
Terminé etape3_mpi_gpus (MPI + multi-GPU) rank 0/4
Max GPU time: 0.580814 seconds rank 0/4
Collecting data...
Generating '/tmp/nsys-report-bbef.qdstrm'


SKIPPED: No data available.


[3/7] Executing 'nvtx_sum' stats report
[4/7] Executing 'cuda_api_sum' stats report

 Time (%)  Total Time (ns)  Num Calls  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)           Name         
 --------  ---------------  ---------  --------  --------  --------  --------  -----------  ----------------------
     84.6        782673472      12012   65157.6    8192.0      3136  90009984    2251672.8  cudaMemcpy            
     12.9        119267680       4000   29816.9   29792.0     19584     64736       1799.0  cudaDeviceSynchronize 
      1.5         13830432       4000    3457.6    2816.0      2016    502304      13913.4  cudaLaunchKernel      
      0.6          5358016          8  669752.0  658880.0    568896    810272      72805.9  cudaFree              
      0.4          3682240          8  460280.0  490320.0    222464    675776     158586.3  cudaMalloc            
      0.1           505216       1652     305.8     224.0        32      3584        288.7  cuGetProcAddress_v

### À partir de quelle taille de matrice le recouvrement communication/calcul devient-il rentable ?

Le recouvrement (overlap) communication/calcul devient généralement rentable lorsque :
- Le temps de communication (MPI + transferts host/device) devient significatif devant le temps de calcul local.
- La partie du calcul qui peut être effectuée pendant la communication (hors bords) est suffisamment grande pour masquer la latence réseau.

Pour une grille Jacobi 2D, la taille critique dépend :
- De la bande passante et latence réseau,
- Du nombre de rangs MPI,
- De la rapidité des transferts CUDA Host/Device,
- De la puissance du GPU.

**Sur la plupart des clusters modernes, le recouvrement commence à être rentable pour des matrices de l’ordre de 16k×16k à 32k×32k (voire plus),** surtout si le nombre de rangs est élevé (≥4) et que la communication devient un vrai goulot d’étranglement.

**Pour une matrice 8k×8k,** le calcul local reste souvent dominant, donc le surcoût du overlap (copies, synchronisations) peut masquer le gain.  
**Essayez avec 16k×16k ou 32k×32k** pour voir un bénéfice, surtout si vous augmentez le nombre de rangs MPI (et donc la proportion de communication).

**Résumé :**  
- < 8k×8k : overlap rarement utile  
- 16k×16k : commence à être intéressant  
- 32k×32k et + : overlap souvent rentable, surtout sur cluster multi-nœuds

## etape4_mpi_overlap
**Description :** MPI + recouvrement : recouvrements des échanges d’halo non-bloquants avec le calcul Jacobi local. Réduit l'impact de la latence réseau.

**Intérêt :** Cache la latence réseau en recouvrant communication et calcul local.

In [58]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
cd etape4_mpi_overlap
make clean all

rm -f app
nvcc -O2 -lcudart -lmpi -lnccl -lstdc++ -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/include -Xlinker --no-as-needed -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/lib64 -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib -o app main.cu kernel.cu


In [59]:
%%bash 
cd etape4_mpi_overlap
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
export LD_LIBRARY_PATH=/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib:/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib:$LD_LIBRARY_PATH
unset OPAL_PREFIX
unset PMIX_INSTALL_PREFIX
nsys profile -t mpi,cuda --stats=true --force-overwrite true -o main mpirun -np 4 ./app

Début de l'itération Jacobi multi-GPU avec chevauchement des flux...
Rank 3 terminé
Rank 0 terminé
Rank 2 terminé
Rank 1 terminé
Temps total (Jacobi multi-GPU overlap, 4 rangs): 0.081824 secondes
Collecting data...
Generating '/tmp/nsys-report-5681.qdstrm'


SKIPPED: No data available.


[3/7] Executing 'nvtx_sum' stats report
[4/7] Executing 'cuda_api_sum' stats report

 Time (%)  Total Time (ns)  Num Calls  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)           Name         
 --------  ---------------  ---------  --------  --------  --------  --------  -----------  ----------------------
     91.8        787002976      12008   65539.9    9232.0      2592  88237760    2253220.4  cudaMemcpyAsync       
      4.4         37327456      16000    2333.0    1760.0      1280    153664       1893.1  cudaStreamSynchronize 
      2.5         21089536       4000    5272.4    4384.0      2848    819744      22815.9  cudaLaunchKernel      
      0.6          5020416          8  627552.0  636688.0    384832    782912     130806.6  cudaFree              
      0.4          3475744          4  868936.0  891504.0    782912    909824      58604.9  cudaMemcpy            
      0.3          2399968          8  299996.0  301392.0    228544    386304      49745.0  cudaMalloc        

## etape5_nccl
**Description :** NCCL : utilisation de la NVIDIA Collective Communications Library pour les échanges GPU à GPU. Montre les gains via NVLink ou PCIe haute bande passante.

**Intérêt :** Exploite automatiquement le topologie NVLink/PCIe pour des échanges GPU efficaces.

### Introduction à NCCL

NCCL (NVIDIA Collective Communications Library) permet des communications collectives efficaces entre plusieurs GPU, en exploitant la topologie matérielle (NVLink, PCIe).  
Dans un contexte Jacobi multi-GPU, NCCL peut être utilisé pour échanger les halos entre GPUs sans repasser par le CPU.

**Exemple minimal d'utilisation de NCCL pour un échange entre deux GPU :**

In [74]:
%%bash
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
cd etape5_nccl
make clean all

rm -f app
nvcc -O2 -lnccl -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/include -I/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/include -Xlinker --no-as-needed -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/cuda/12.6/lib64 -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib -L/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib -o app main.cu kernel.cu


In [None]:
%%bash 
spack load nvidia-nsight-systems@2024.6.1 cuda@12.6 nvhpc@24.11
cd etape5_nccl
export LD_LIBRARY_PATH=/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/12.6/hpcx/hpcx-2.20/ompi/lib:/apps/2025/manual_install/nvhpc/24.11/Linux_aarch64/24.11/comm_libs/nccl/lib:$LD_LIBRARY_PATH
unset OPAL_PREFIX
unset PMIX_INSTALL_PREFIX
nsys profile -t cuda --stats=true --force-overwrite true -o main ./app

## etape6_nccl_overlap
**Description :** NCCL + recouvrement : superposition des collectifs NCCL avec le calcul sur GPU, cachant le coût de communication.

**Intérêt :** Essentiel à forte densité GPU pour maintenir les cœurs occupés.

In [None]:
%%bash 
cd etape6_nccl_overlap
make all

In [None]:
%%bash 
cd etape6_nccl_overlap 
nv-nsight-cu-cli --csv --report-file rapport_etape6_nccl_overlap.csv ./main
cat rapport_etape6_nccl_overlap.csv

## etape7_nccl_graphs
**Description :** NCCL + CUDA Graphs : capture et relecture des séquences Jacobi/échange pour réduire le surcoût des lancements.

**Intérêt :** Réduit l’overhead de lancement grâce aux CUDA Graphs.

In [None]:
%%bash 
cd etape7_nccl_graphs
make all

In [None]:
%%bash 
cd etape7_nccl_graphs
nv-nsight-cu-cli --csv --report-file rapport_etape7_nccl_graphs.csv ./main
cat rapport_etape7_nccl_graphs.csv

## etape8_nvshmem
**Description :** NVSHMEM : modèle PGAS à accès mémoire unilatéral GPU, simplifiant les mises à jour d’halo.

**Intérêt :** Simplifie les échanges via modèle PGAS unilatéral.

In [None]:
%%bash 
cd etape8_nvshmem
make all

In [None]:
%%bash 
cd etape8_nvshmem
nv-nsight-cu-cli --csv --report-file rapport_etape8_nvshmem.csv ./main
cat rapport_etape8_nvshmem.csv

## etape9_nvshmem_lt
**Description :** NVSHMEM + LTO : ajout de l’optimisation link-time pour inliner les fonctions critiques et réduire le coût des appels.

**Intérêt :** Optimisation link-time pour inliner les sections critiques.

In [None]:
%%bash cd etape9_nvshmem_lt
make all

In [None]:
%%bash 
cd etape9_nvshmem_lt
nv-nsight-cu-cli --csv --report-file rapport_etape9_nvshmem_lt.csv ./main
cat rapport_etape9_nvshmem_lt.csv

## etape10_vshmem_neighborhood_lto
**Description :** vshmem neighborhood_sync + LTO : synchronisation fine-grain de voisinage et optimisations link-time O2.

**Intérêt :** Synchronisation fine et LTO pour boucles serrées.

In [None]:
%%bash 
cd etape10_vshmem_neighborhood_lto
make all

In [None]:
%%bash 
cd etape10_vshmem_neighborhood_lto
nv-nsight-cu-cli --csv --report-file rapport_etape10_vshmem_neighborhood_lto.csv ./main 
cat rapport_etape10_vshmem_neighborhood_lto.csv

## etape11_nvshmem_norm_overlap_neighborhood_sync_lto
**Description :** Combinaison : NVSHMEM avec recouvrement, synchrone de voisinage, et LTO pour maximiser la concurrence.

**Intérêt :** Combinaison des meilleures pratiques pour un binaire ultra-optimisé.

In [None]:
%%bash cd etape11_nvshmem_norm_overlap_neighborhood_sync_lto
make all

In [None]:
%%bash cd etape11_nvshmem_norm_overlap_neighborhood_sync_lto
nv-nsight-cu-cli --csv --report-file rapport_etape11_nvshmem_norm_overlap_neighborhood_sync_lto.csv ./main
cat rapport_etape11_nvshmem_norm_overlap_neighborhood_sync_lto.csv

## etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1
**Description :** Tuning étendu : paramètres ajustables (taille de tuile, ordre de boucles) et hooks de benchmark.

**Intérêt :** Ajout de paramètres de tuning et hooks de benchmarking.

In [None]:
%%bash 
cd etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1 
make all

In [None]:
%%bash 
cd etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1 
nv-nsight-cu-cli --csv --report-file rapport_etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1.csv ./main
cat rapport_etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1.csv