# DLO-JZ : Parallélisation du calcul de pi - Jour 2 

*Notebook rédigé par l'équipe assistance IA de l'IDRIS - 02/2024*

*TP inspiré du cours MPI de l'IDRIS (TP3) : http://www.idris.fr/media/formations/mpi/idrismpi.pdf*

------------------------

Ce notebook est prévu pour être exécuté depuis un noeud de calcul Jean-Zay. Le *hostname* doit être `jean-zay-iamXX`.

In [None]:
!hostname

Un module PyTorch doit avoir été chargé pour le bon fonctionnement de ce Notebook. `pytorch-gpu/py3/2.1.1` est conseillé :

In [None]:
!module list

In [None]:
from idr_pytools import display_slurm_queue, gpu_jobs_submitter, search_log
MODULE = 'pytorch-gpu/py3/2.1.1'
account = 'for@a100'
name = 'pseudo'   ## Pseudonyme à choisir

assert name != 'pseudo' and name != '', 'please choose a pseudo'

------------------------------------

## Consigne

Le but de ce TP est de paralléliser le calcul de $\pi$ par intégration numérique en utilisant la librairie [torch.distributed](https://pytorch.org/docs/stable/distributed.html) de PyTorch.

Pour rappel, une approximation de $\pi$ est la suivante : 
$$
\pi = \int_0^1 \frac{4}{1 + x^2 }\ dx
$$

Celle-ci peut être calculée par intégration numérique grâce à la méthode des rectangles (ou méthode du point milieu) :
$$
\pi = \sum_{i=0}^{N-1} f(x_i) * h
$$
avec $N$ le nombre d'intervalles de discrétisation, $x_i$ les coordonnées centrales des intervalles, $h$ la longueur des intervalles, et $f(x) =  4 / (1 + x^2)$.
<div>
<img src="figures/int_num_rect.png" width="300"/>
</div>

## Exécution séquentielle du code

Dans le script initial [compute_pi.py](compute_pi.py), vous trouverez une version séquentielle du calcul de $\pi$. Vérifions qu'elle calcule juste.

In [None]:
n_gpu = 1
command = './compute_pi.py'
jobid = gpu_jobs_submitter(command, n_gpu, MODULE, name=name,
                   account=account, time_max='00:10:00')
print(f'jobid = {jobid}')

In [None]:
#jobid = ['967093']

In [None]:
display_slurm_queue(name)

In [None]:
%cat {search_log(contains=jobid[0])[0]}

In [None]:
#%cat {search_log(contains=jobid[0], with_err=True)['stderr'][0]}

## Exécution parallèle du code

En complétant les balises `TODO` dans le code [compute_pi.py](compute_pi.py), parallélisez le calcul de $\pi$ et lancez le calcul sur 4 processus.

<details>
    <summary><b>Aide</b> <i>TODO_0: import torch.distributed and initialize parallel environment</i></summary>
    <a href="https://pytorch.org/docs/stable/distributed.html#torch.distributed.init_process_group">https://pytorch.org/docs/stable/distributed.html#torch.distributed.init_process_group</a>    
</details>

<details>
    <summary><b>Aide</b> <i>TODO_4: make ranks communicate so that each rank stores the value pi</i></summary>    
    <a href="https://pytorch.org/docs/stable/distributed.html#torch.distributed.all_reduce"> https://pytorch.org/docs/stable/distributed.html#torch.distributed.all_reduce</a>
</details>

In [None]:
n_gpu = 4
command = './compute_pi.py'
jobid = gpu_jobs_submitter(command, n_gpu, MODULE, name=name,
                   account=account, time_max='00:10:00')
print(f'jobid = {jobid}')

In [None]:
#jobid = ['967359']

In [None]:
display_slurm_queue(name)

In [None]:
# afficher le log
%cat {search_log(contains=jobid[0])[0]}

In [None]:
# afficher les log d'erreur
#%cat {search_log(contains=jobid[0], with_err=True)['stderr'][0]}