# Solveur de Jacobi : Modèles de programmation Multi-GPU
Ce notebook présente 12 versions progressives d’un solveur de Jacobi 2D. Chaque section explique le modèle ou l’optimisation, compile la version, exécute et collecte les métriques Nsight.

## etape1_cpu
**Description :** Solveur Jacobi CPU de base : implémentation mono-thread. Utile pour valider la correction et les petites tailles de problème ; met en évidence la limite de calcul CPU.

**Intérêt :** Baseline : évalue la limite CPU pour établir une référence.

In [24]:
%%bash
cd etape1_cpu
make all

gcc -O2 -o main main.c


In [25]:
%%bash 
cd etape1_cpu
nsys profile -t openacc --stats=true --force-overwrite true -o main ./main



Terminé etape1_cpu
CPU time: 18.183735 seconds
Collecting data...
Generating '/tmp/nsys-report-9a69.qdstrm'


SKIPPED: /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain CUDA trace data.
SKIPPED: /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain CUDA kernel data.
SKIPPED: /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain GPU memory data.
SKIPPED: /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain GPU memory data.
SKIPPED: /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite does not contain OpenACC event data.


[3/7] Executing 'cuda_api_sum' stats report
[4/7] Executing 'cuda_gpu_kern_sum' stats report
[5/7] Executing 'cuda_gpu_mem_time_sum' stats report
[6/7] Executing 'cuda_gpu_mem_size_sum' stats report
[7/7] Executing 'openacc_sum' stats report
Generated:
    /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.nsys-rep
    /home/corentin/Documents/Cours/M2/CHPS0904/CHPS0904_RENDU/MultiGPU Programming Model/etape1_cpu/main.sqlite


## etape2_cpu_gpu
**Description :** 1 CPU + 1 GPU + 1 stream : le CPU pilote le GPU via un unique stream CUDA. Le calcul Jacobi est entièrement délégué au GPU, le CPU ne fait que l’orchestration.

**Intérêt :** Met en évidence l'écart de performance CPU vs GPU lorsque la grille est suffisamment grande, dans un contexte réaliste d’utilisation d’un seul GPU et d’un seul stream.

### Compilation et exécution (1 CPU + 1 GPU + 1 stream)

In [7]:
%%bash 
cd etape2_cpu_gpu
make all

nvcc -O2 -o app main.cu kernel.cu




In [8]:
%%bash 
cd etape2_cpu_gpu
nsys profile -t cuda --stats=true --force-overwrite true -o main ./app

Terminé etape2_cpu_gpu (1CPU + 1GPU + 1stream)
GPU time: 1.904882 seconds
Collecting data...
Generating '/tmp/nsys-report-be73.qdstrm'
[1/6] [0%                          ] main.nsys-repCollecting data...
Generating '/tmp/nsys-report-be73.qdstrm'
[3/6] Executing 'cuda_api_sum' stats report

 Time (%)  Total Time (ns)  Num Calls    Avg (ns)      Med (ns)     Min (ns)    Max (ns)   StdDev (ns)            Name         
 --------  ---------------  ---------  ------------  ------------  ----------  ----------  ------------  ----------------------
     84,0    1 417 336 177      1 001   1 415 920,0   1 350 272,0       6 430   1 823 165     115 798,0  cudaStreamSynchronize 
      6,0      116 607 603          3  38��869 201,0  20 446 896,0  20 401 455  75 759 252  31 947 729,0  cudaMemcpyAsync       
      5,0       85 895 550          1  85 895 550,0  85 895 550,0  85 895 550  85 895 550           0,0  cudaStreamCreate      
      3,0       58 791 543      1 000      58 791,0       3 130,0   

## etape3_mpi_gpus
**Description :** MPI + GPUs : domaine réparti sur plusieurs rangs MPI, chacun pilotant un GPU. Illustrations des défis de mise à l'échelle multi-nœuds et des communications inter-rangs.

**Intérêt :** Test de montée en charge inter-nœuds et coût MPI sur cluster multi-GPU.

In [None]:
%%bash 
cd etape3_mpi_gpus
make all

In [None]:
%%bash 
cd etape3_mpi_gpus
nv-nsight-cu-cli --csv --report-file rapport_etape3_mpi_gpus.csv ./main
cat rapport_etape3_mpi_gpus.csv

## etape4_mpi_overlap
**Description :** MPI + recouvrement : recouvrements des échanges d’halo non-bloquants avec le calcul Jacobi local. Réduit l'impact de la latence réseau.

**Intérêt :** Cache la latence réseau en recouvrant communication et calcul local.

In [None]:
%%bash 
cd etape4_mpi_overlap
make all

In [None]:
%%bash 
cd etape4_mpi_overlap
nv-nsight-cu-cli --csv --report-file rapport_etape4_mpi_overlap.csv ./main
cat rapport_etape4_mpi_overlap.csv

## etape5_nccl
**Description :** NCCL : utilisation de la NVIDIA Collective Communications Library pour les échanges GPU à GPU. Montre les gains via NVLink ou PCIe haute bande passante.

**Intérêt :** Exploite automatiquement le topologie NVLink/PCIe pour des échanges GPU efficaces.

In [None]:
%%bash
cd etape5_nccl
make all

In [None]:
%%bash 
cd etape5_nccl
nv-nsight-cu-cli --csv --report-file rapport_etape5_nccl.csv ./main
cat rapport_etape5_nccl.csv

## etape6_nccl_overlap
**Description :** NCCL + recouvrement : superposition des collectifs NCCL avec le calcul sur GPU, cachant le coût de communication.

**Intérêt :** Essentiel à forte densité GPU pour maintenir les cœurs occupés.

In [None]:
%%bash 
cd etape6_nccl_overlap
make all

In [None]:
%%bash 
cd etape6_nccl_overlap 
nv-nsight-cu-cli --csv --report-file rapport_etape6_nccl_overlap.csv ./main
cat rapport_etape6_nccl_overlap.csv

## etape7_nccl_graphs
**Description :** NCCL + CUDA Graphs : capture et relecture des séquences Jacobi/échange pour réduire le surcoût des lancements.

**Intérêt :** Réduit l’overhead de lancement grâce aux CUDA Graphs.

In [None]:
%%bash 
cd etape7_nccl_graphs
make all

In [None]:
%%bash 
cd etape7_nccl_graphs
nv-nsight-cu-cli --csv --report-file rapport_etape7_nccl_graphs.csv ./main
cat rapport_etape7_nccl_graphs.csv

## etape8_nvshmem
**Description :** NVSHMEM : modèle PGAS à accès mémoire unilatéral GPU, simplifiant les mises à jour d’halo.

**Intérêt :** Simplifie les échanges via modèle PGAS unilatéral.

In [None]:
%%bash 
cd etape8_nvshmem
make all

In [None]:
%%bash 
cd etape8_nvshmem
nv-nsight-cu-cli --csv --report-file rapport_etape8_nvshmem.csv ./main
cat rapport_etape8_nvshmem.csv

## etape9_nvshmem_lt
**Description :** NVSHMEM + LTO : ajout de l’optimisation link-time pour inliner les fonctions critiques et réduire le coût des appels.

**Intérêt :** Optimisation link-time pour inliner les sections critiques.

In [None]:
%%bash cd etape9_nvshmem_lt
make all

In [None]:
%%bash 
cd etape9_nvshmem_lt
nv-nsight-cu-cli --csv --report-file rapport_etape9_nvshmem_lt.csv ./main
cat rapport_etape9_nvshmem_lt.csv

## etape10_vshmem_neighborhood_lto
**Description :** vshmem neighborhood_sync + LTO : synchronisation fine-grain de voisinage et optimisations link-time O2.

**Intérêt :** Synchronisation fine et LTO pour boucles serrées.

In [None]:
%%bash 
cd etape10_vshmem_neighborhood_lto
make all

In [None]:
%%bash 
cd etape10_vshmem_neighborhood_lto
nv-nsight-cu-cli --csv --report-file rapport_etape10_vshmem_neighborhood_lto.csv ./main 
cat rapport_etape10_vshmem_neighborhood_lto.csv

## etape11_nvshmem_norm_overlap_neighborhood_sync_lto
**Description :** Combinaison : NVSHMEM avec recouvrement, synchrone de voisinage, et LTO pour maximiser la concurrence.

**Intérêt :** Combinaison des meilleures pratiques pour un binaire ultra-optimisé.

In [None]:
%%bash cd etape11_nvshmem_norm_overlap_neighborhood_sync_lto
make all

In [None]:
%%bash cd etape11_nvshmem_norm_overlap_neighborhood_sync_lto
nv-nsight-cu-cli --csv --report-file rapport_etape11_nvshmem_norm_overlap_neighborhood_sync_lto.csv ./main
cat rapport_etape11_nvshmem_norm_overlap_neighborhood_sync_lto.csv

## etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1
**Description :** Tuning étendu : paramètres ajustables (taille de tuile, ordre de boucles) et hooks de benchmark.

**Intérêt :** Ajout de paramètres de tuning et hooks de benchmarking.

In [None]:
%%bash 
cd etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1 
make all

In [None]:
%%bash 
cd etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1 
nv-nsight-cu-cli --csv --report-file rapport_etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1.csv ./main
cat rapport_etape12_nvshmem_norm_overlap_neighborhood_sync_lto_ext1.csv