# Maîtriser l’utilisation des serveurs de calcul
## Bien choisir les ressources
Il y a plusieurs ressources disponibles à Calcul Canada :
* Humaines
  * NOIRN, Calcul Canada, Calcul Québec, analyste local
* Infonuagique
  * Arbutus, Béluga, Cedar, Graham
* Calcul haute performance
  * Béluga, Cedar, Graham, Niagara
* Stockage
  * Temporaire, projet, *nearline*, dépôt de données de recherche

Le principal but de ce chapitre est de vous permettre d'analyser vos besoins en **ressources de calcul haut-performance**, et ce, dans le but de choisir les ressources nécessaires pour votre projet. Les différents espaces de stockage seront vus au [chapitre suivant](stockage.ipynb).

## Ressources humaines (rappel)
Voici un rappel de qui fait quoi et des ressources humaines auxquelles vous avez access :
* **[NOIRN](https://engagedri.ca/fr)** : la nouvelle organisation de l’infrastructure de recherche numérique (NOIRN) du Canada est un organisme national à but non lucratif qui a pour vision d’harmoniser et d’améliorer l’accès aux outils et aux services numériques à destination des chercheurs canadiens. En somme, c'est le regroupement de [Canarie](https://www.canarie.ca/fr/) (réseau), [Calcul Canada](https://www.computecanada.ca/about/?lang=fr) (calcul) et [Portage](https://portagenetwork.ca/fr/) (gestion des données).
* **[Calcul Canada](https://www.computecanada.ca/about/?lang=fr)** : de concert avec les organisations régionales que sont [ACENET](https://www.ace-net.ca/who-we-are/acenet/), [Calcul Québec](https://www.calculquebec.ca/a-propos/qui-sommes-nous/), [Compute Ontario](https://www.computeontario.ca/) et [WestGrid](https://www.westgrid.ca/about_westgrid/what_we_do), Calcul Canada favorise une accélération de l’innovation scientifique en déployant des systèmes de calcul informatique de pointe (CIP), des installations de stockage et des solutions logicielles.
* **[Calcul Québec](https://www.calculquebec.ca/a-propos/qui-sommes-nous/)** : la mission de Calcul Québec est de procurer au milieu universitaire ainsi qu’à la communauté de la recherche des environnements informatiques de pointe ainsi que des expertises, afin de contribuer à l’avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié capable d’exploiter efficacement les systèmes informatiques modernes.
* **[Employés locaux](https://www.calculquebec.ca/a-propos/personnel/)** : analystes (soutien technique, documentation, formation), administrateurs (soutien technique avec accès privilégié).

### Soutien technique
Pour l'instant, [le soutien technique](https://docs.computecanada.ca/wiki/Technical_support/fr) est offert à l'échelle nationale via Calcul Canada, mais un employé local ou un expert est responsable de répondre à la demande :
* globus@calculcanada.ca -- pour des questions sur les services de transfert de fichiers Globus
* cloud@calculcanada.ca -- pour des questions sur comment utiliser nos ressources infonuagiques
* accounts@calculcanada.ca -- pour des questions sur les comptes de Calcul Canada
* renewals@calculcanada.ca -- pour des questions sur le renouvellement des comptes de Calcul Canada
* **support@calculcanada.ca** -- pour toute autre question

## Ressources infonuagiques (survol rapide)
Ces ressources sont idéales pour des **portails Web** et pour des applications qui ne peuvent techniquement pas fonctionner dans le cadre des ressources de calculs haute-performance.

Alors que l'infonuagique consiste à créer des **serveurs virtuels**, il est donc question de :
* Processeurs virtuels
* Mémoire allouée
* Volumes de stockage
* Adresses IP publiques
* Administration par l'équipe du groupe de recherche

Ces différentes ressources informatiques sont offertes à [différents sites à Calcul Canada](https://docs.computecanada.ca/wiki/Cloud_resources/fr) :
* Arbutus (C-B)
* Béluga (Québec)
* Cedar (C-B)
* Graham (Ontario)

La documentation concernant les services infonuagiques débute à la page : https://docs.computecanada.ca/wiki/Cloud/fr

## Calcul haute performance
* Lorsqu'il est question de lancer une **grande quantité de calculs** (séquentiels ou parallèles) ou de **traitements de données**, l'utilisation d'une grappe de calcul haute performance devient nécessaire.
* Puisque les **ressources sont partagées** et en grande demande, chaque tâche doit être soumise à un ordonnanceur de tâches.
* Il devient donc nécessaire **d'estimer à l'avance les ressources** qui seront réservées lors de l'exécution d'un calcul.

### Rappel d'un script de tâche
Un script de tâche est typiquement un script Bash dans lequel on retrouve :
* Le [shebang](https://fr.wikipedia.org/wiki/Shebang). Par exemple : `#!/bin/bash`
* Les options `#SBATCH` en entête pour les besoins de la tâche. Les options en entête seront lues par la commande de soumission de tâche [`sbatch`](https://slurm.schedmd.com/sbatch.html)
* [Chargement des modules](https://docs.computecanada.ca/wiki/Utiliser_des_modules) requis
* Commande Bash exécutant automatiquement la tâche de calcul

Exemple (à voir dans le Terminal) : [scripts/mpi_allo.sh](scripts/mpi_allo.sh)

Documentation : [Exécuter des tâches](https://docs.computecanada.ca/wiki/Running_jobs/fr)

### Gestionnaire des tâches locales
* Utilisation CPU
* Mémoire résidente (réellement utilisée)
* Mémoire virtuelle (allouée)

#### Sous Windows
* [Gestionnaire des tâches Windows](https://fr.wikipedia.org/wiki/Gestionnaire_des_t%C3%A2ches_Windows)
![Test](images/win-task-manager.png)

#### Sous Mac OS
* [Moniteur d’activité](https://support.apple.com/fr-ca/guide/activity-monitor/actmntr1001/mac)
![Afficher les informations](https://help.apple.com/assets/5FDCF1894EB74318147EC0CF/5FDCF18A4EB74318147EC0D6/fr_CA/ad6337d66061aa27122e75521960fc5a.png)

#### Sous Linux
* [Commande `top`](https://man7.org/linux/man-pages/man1/top.1.html) (`q` pour quitter)
![Capture de top](images/linux-top.png)

* [Commande `htop`](https://man7.org/linux/man-pages/man1/htop.1.html) (`q` pour quitter)
![Capture de htop](images/linux-htop.png)

### Vérifier l'utilisation du GPU local
* [Commande `nvidia-smi`](https://developer.nvidia.com/nvidia-system-management-interface)
![Capture nvidia-smi](images/nvidia-smi.png)

* [Commande `nvtop`](https://github.com/Syllo/nvtop)
![Capture nvtop](https://raw.githubusercontent.com/Syllo/nvtop/master/screenshot/NVTOP_ex1.png)

#### Comparer la vitesse CPU vs GPU
Si votre application ne fait pas bon usage d'un GPU ou n'est pas du tout conçue pour fonctionner avec un accélérateur, il n'y a aucun avantage à soumettre une tâche en demandant un ou plusieurs GPUs.
* Avant d'utiliser un GPU, il faut tout d'abord que l'application puisse démontrer une *bonne performance* en utilisant plusieurs processeurs en parallèle.
 * La métrique à noter et à comparer est le **temps écoulé**, et non le temps CPU.
 * **Accélération** = (temps avec un processeur) / (temps avec plusieurs processeurs)
 * **Efficacité** = (Accélération) / (nombre de processeurs)
* Le coût d'un noeud GPU étant de quatre à cinq fois supérieur à celui d'un noeud régulier, l'utilisation d'un seul GPU doit permettre une accélération d'au moins quatre fois (4x) la vitesse de huit (8) à dix (10) processeurs.

#### Exercice - Calcul d'accélération et d'efficacité
* Télécharger et compiler le programme N-Body en exécutant :
```
bash scripts/installer-nbody.sh
```
* Soumettre le script `scripts/executer-nbody.sh` avec la commande `sbatch` :
```
sbatch scripts/executer-nbody.sh
```
* Modifier le script `scripts/executer-nbody.sh` pour utiliser 4 processeurs
* Soumettre le script modifié
* Attendre que les deux tâches se terminent (après les états `PD` et `R`) :
```
squeue -u $USER
```
 * Les résultats seront dans les fichiers `slurm-JOBID.out`
 * Pour une exécution valide, tous les fichiers `*.mol` doivent être "`OK`"
 * Le temps écoulé est donné à la dernière ligne du fichier `slurm-JOBID.out`
* Mettre à jour le code ci-dessous avec les deux temps écoulés mesurés
 * Maj+Entrée pour exécuter la cellule ci-dessous

In [None]:
n_proc = 4  # processeurs
temps = {1: 61.8,      # secondes avec 1 processeur
         n_proc: 16.8  # secondes avec N processeurs
        }

acceleration = temps[1] / temps[n_proc]
efficacite = acceleration / n_proc

print(f'Accélération: {acceleration:.3f}x')
print(f'Efficacité: {efficacite * 100:.2f}%')

### Prévoir les ressources de calcul
#### Efficacité cible du calcul parallèle
Une efficacité de 80%, voire 90%, devrait être un seuil minimal pour les tâches parallèles. Il reste donc à **déterminer le nombre maximal de processeurs** pour notre application.

Nous allons utiliser la [loi d'Amdahl](https://fr.wikipedia.org/wiki/Loi_d%27Amdahl). Voici quelques définitions :
* $T_s$: temps requis pour une exécution avec un seul processeur (donc 100% séquentiel)
* $P$ : fraction de $T_s$ correspondant à des opérations **parallèles**, donc **divisible** par $n$ processeurs.
* $S$ : fraction de $T_s$ correspondant à des opérations **séquentielles**, donc non-divisible par $n$ processeurs.
 * Exemples d'opérations séquentielles : lecture-écriture d'un fichier, communications, synchronisation, etc.
* Dans ce modèle, $P + S = 1$, donc $S = 1 - P$

$$T_p(n) = T_s * \left(S + \frac{P}{n}\right) = T_s * \left(1 - P + \frac{P}{n}\right)$$

* De là, on peut redéfinir l'accélération $A(n)$ selon $n$ processeurs et isoler $P$ pour éventuellement le calculer :

$$A(n) = \frac{T_p(1)}{T_p(n)} = \frac{T_s * \left(1 - P + \frac{P}{1}\right)}{T_s * \left(1 - P + \frac{P}{n}\right)} = \frac{1 - P + P}{1 - P + \frac{P}{n}} = \frac{1}{1 - P + \frac{P}{n}}$$

$$\frac{1}{A(n)} = 1 - P + \frac{P}{n} = 1 - P * \left(1 - \frac{1}{n}\right) \implies P * \left(1 - \frac{1}{n}\right) = 1 - \frac{1}{A(n)}$$

$$P = \frac{1 - \frac{1}{A(n)}}{1 - \frac{1}{n}}$$

* Pour finalement imposer une efficacité $E(n)$ minimale $e$ afin de calculer le $n$ maximal :

$$E(n) = \frac{A(n)}{n} \geq e \implies A(n) \geq e * n \implies \frac{1}{1 - P + \frac{P}{n}} \geq e * n$$

$$1 \geq e * n * \left(1 - P + \frac{P}{n} \right) = e * (1 - P) * n + e * P$$

$$1 - e * P \geq (e - e * P) * n \implies \frac{1 - e * P}{e - e * P} \geq n$$

$$n \leq \frac{\frac{1}{e} - P}{1 - P}$$

* De là, c'est possible de calculer $n$ lorsque $e = 0.8$, par exemple.

**Exercice - Taille maximale d'une tâche parallèle**

In [None]:
fraction_p = (1 - 1 / acceleration) / (1 - 1 / n_proc)

print(f'P = {fraction_p * 100:.2f}%')

In [None]:
import math

e = 0.8
n_max = (1 / e - fraction_p) / (1 - fraction_p)

print(f'n_max = {n_max :.2f} processeurs')
print(f'En pratique: {math.floor(n_max)} processeurs')

#### Taille des données, nombre de fichiers à traiter
Il y a deux métriques à considérer :
* La **quantité** totale en octets (ou Go)
* Le **nombre** total de fichiers

Pour obtenir ces informations :
* **Sous Windows** : dans l'explorateur Windows (raccourcis clavier : Windows + E)
  * Sélectionner un dossier ou plusieurs fichiers
  * Bouton droit de la souris -> *Propriétés*

![Windows data properties](images/win-data-size.png)

* **Sous Mac OS** : dans *Finder*
  * Sélectionner un dossier ou plusieurs fichiers
  * Bouton droit de la souris -> *Get Info*
  * Autrement : avec l'affichage *Par liste*
    * [Activer *Calculer toutes les tailles*](https://www.solutionenligne.org/comment-afficher-taille-dossiers-fichiers-dans-finder-mac-os/)

* **Sous Linux** :
  * L'environnement graphique peut offrir le même genre d'outils, mais tout dépend de la distribution et du bureau.
  * La commande `du -bs DOSSIER` (`b` : taille apparente en octets, `s` : somme totale) calcule récursivement et affiche la taille totale en octets. La taille apparente est celle qui importe lors d'un transfert ou d'une sauvegarde de données.
  * La commande `find DOSSIER | wc -l` compte récursivement et affiche le nombre de fichiers et de sous-dossiers.

#### Stockage en mémoire selon les types de base
En ayant une idée de la taille des données à traiter, il devient aussi possible d'estimer la place que les données peuvent prendre en mémoire-vive.

* Dans un fichier texte, **chaque caractère** prend de un (1) à deux (2) octets, en moyenne. Cependant, pour certaines langues, l'encodage [UTF-8](https://fr.wikipedia.org/wiki/UTF-8#Description) peut se rendre jusqu'à quatre (4) octets par caractère. Pour les langues latines et germaniques, on peut considérer **(2) octets** par caractère.

* Les **nombres entiers** prennent typiquement 1 octet (8 bits), 2 octets (16 bits), 4 octets (32 bits) ou 8 octets (64 bits) chacun. Tout dépend de la [plage de valeurs souhaitée](https://fr.wikipedia.org/wiki/Types_de_donn%C3%A9e_du_langage_C#Types_principaux):
 * 1 octet : 256 valeurs de 0 à 255, ou de -128 à 127
 * 2 octets : ~65 milles valeurs de $0$ à $(2^{16}-1)$, ou de $-2^{15}$ à $(2^{15}-1)$
 * 4 octets : ~4 milliards de valeurs de 0 à $(2^{32}-1)$ ou de $-2^{31}$ à $(2^{31}-1)$
 * 8 octets : ~18 trillions de valeurs de 0 à $(2^{64}-1)$ ou de $-2^{63}$ à $(2^{63}-1)$

* Les **nombres à virgule flottante** prennent typiquement 4 octets (32 bits) ou 8 octets (64 bits) chacun, mais on voit de plus en plus [différents types de données à 16 bits (2 octets)](https://en.wikipedia.org/wiki/Bfloat16_floating-point_format) dans des applications d'apprentissage-machine. Il se peut néanmoins que les données soient initialement en simple ou double précision:
 * [simple précision](https://en.wikipedia.org/wiki/Single-precision_floating-point_format) : 4 octets, une résolution de 23 bits (~7 décimales), une échelle de 8 bits (${10}^{-38}$ à ${10}^{38}$)
 * [double précision](https://en.wikipedia.org/wiki/Double-precision_floating-point_format) : 8 octets, une résolution de 52 bits (~16 décimales), une échelle de 11 bits (${10}^{-308}$ à ${10}^{308}$)

* Certains langages prennent systématiquement **8 octets** (64 bits) par nombre.
* [Certains compilateurs et certaines bibliothèques](https://en.wikipedia.org/wiki/Quadruple-precision_floating-point_format) peuvent calculer des valeurs représentées avec 128 bits [ou plus](https://gmplib.org/).
* Pour les nombres complexes, on multiplie l'espace mémoire par deux (2).

Exercice de calcul de l'espace-mémoire :

In [None]:
nb_matrices = 3        # Trois matrices C = prod_mat(A, B)
taille = 25000         # Matrices carrées
octets_par_nombre = 8  # Double précision

memoire = nb_matrices * taille**2 * octets_par_nombre

print(f'Mémoire requise = {memoire / 1000**3:.1f} Go')

#### La complexité des algorithmes
La question qui se pose : en augmentant la ou les dimensions du problème, quelle devrait être la durée du calcul? Une [analyse de la complexité de l'algorithme principal](https://fr.wikipedia.org/wiki/Analyse_de_la_complexit%C3%A9_des_algorithmes) permettrait de connaître l'ordre $O$ du calcul en fonction de la taille $n$ des données :

* $O(n)$: proportionnel à $n$
* $O(n*m)$: représente un calcul à deux (2) dimensions indépendantes
* $O(n^3)$: calcul d'ordre cubique
* $O(n*m*k^2)$: par exemple, un filtre de taille $k*k$ sur une image $n*m$
* $O(n*log(n))$: typique de certains algorithmes de tri où il y a $n$ éléments à trier en $log_2(n)$ étapes.

Une analyse détaillée du code (s'il est disponible) n'est pas nécessaire pour déterminer le type de calcul qui est fait.
* Vous pouvez vous inspirer des données en entrées pour deviner l'ordre du calcul principal. 
* Vous pouvez mesurer le temps d'exécution en fonction de la taille du problème. En extrapolant les résultats, il serait possible de prévoir le comportement du programme sur une grappe de calcul.

#### Exercice - Complexité de l'algorithme
* Soumettre le script `scripts/executer-inv-mat.sh` avec la commande `sbatch` :
```
sbatch scripts/executer-inv-mat.sh
```
* Suivre l'évolution du calcul avec `squeue -u $USER`
* Le résultat sera sauvegardé dans le fichier `temps_inv.csv`

In [None]:
# Ajuster le chemin du fichier CSV, si nécessaire
resultats = pd.read_csv('temps_inv.csv')
resultats

In [None]:
resultats.plot(x='n', y='temps')

In [None]:
resultats['n2'] = resultats['n'] ** 2
resultats['n3'] = resultats['n'] ** 3
resultats

In [None]:
# Régression linéaire sur n^2 et n^3
coeff = np.linalg.lstsq(
    resultats[['n2', 'n3']].to_numpy(),
    resultats['temps'].to_numpy(), rcond=None)[0]
print(coeff)

# Vérifier les coefficients avec n
resultats['pred_temps'] = \
    coeff[0] * resultats['n2'] + \
    coeff[1] * resultats['n3']
resultats

In [None]:
# Faire une prédiction avec une grande taille n
n = 10000
n2 = n ** 2
n3 = n ** 3
pred_temps = coeff[0] * n2 + coeff[1] * n3
print(f'temps(n={n}) = {pred_temps:.2f} secondes')

## Principales différences entre les grappes de calcul
* À propos des grappes :

| | [Béluga](https://docs.computecanada.ca/wiki/B%C3%A9luga) | [Cedar](https://docs.computecanada.ca/wiki/Cedar/fr) | [Graham](https://docs.computecanada.ca/wiki/Graham/fr) | [Niagara](https://docs.computecanada.ca/wiki/Niagara/fr) |
|-----------------------:|:---------:|:---------:|:---------:|:----------:|
| **Mise en production** | Mars 2019 | Juin 2017 | Juin 2017 | Avril 2018 |
|              **Ville** | Montréal  |  Burnaby  | Waterloo  |   Toronto  |
|           **Province** |  Québec   |    C.-B.  |  Ontario  |   Ontario  |

* Nombre de processeurs (coeurs CPU) selon le cas :

| Processeur Intel | [Béluga](https://docs.computecanada.ca/wiki/B%C3%A9luga) | [Cedar](https://docs.computecanada.ca/wiki/Cedar/fr) | [Graham](https://docs.computecanada.ca/wiki/Graham/fr) | [Niagara](https://docs.computecanada.ca/wiki/Niagara/fr) |
|----------------------:|:--------:|:--------:|:--------:|:---------:|
|      Broadwell (avx2) |          | 724 * 32 | 983 * 32 |           |
|      Skylake (avx512) | 802 * 40 | 640 * 48 |          | 1548 * 40 |
| Cascade Lake (avx512) |          | 768 * 48 |  72 * 44 |  468 * 40 |

| Mémoire par proc. | [Béluga](https://docs.computecanada.ca/wiki/B%C3%A9luga) | [Cedar](https://docs.computecanada.ca/wiki/Cedar/fr) | [Graham](https://docs.computecanada.ca/wiki/Graham/fr) | [Niagara](https://docs.computecanada.ca/wiki/Niagara/fr) |
|-------:|:-----:|:-----:|:-----:|:-----:|
|  2400M |  6400 |       |       |       |
|  4000M |       | 86016 | 28896 |       |
|  4400M |       |       |  3168 |       |
|  4800M | 23560 |       |       | 80960 |
|  8000M |       |  3072 |  1792 |       |
| 16000M |       |   768 |   768 |       |
| 19200M |  2120 |       |       |       |
| 48000M |       |   768 |   192 |       |
| 96000M |       |   128 |       |       |

* [Nombre de GPUs](https://docs.computecanada.ca/wiki/Using_GPUs_with_Slurm) selon le cas :

| Accélérateurs | [Béluga](https://docs.computecanada.ca/wiki/B%C3%A9luga) | [Cedar](https://docs.computecanada.ca/wiki/Cedar/fr) | [Graham](https://docs.computecanada.ca/wiki/Graham/fr) | [Mist (Power9)](https://docs.scinet.utoronto.ca/index.php/Mist) |
|----------------:|:---:|:---:|:---:|:---:|
| NVIDIA P100 12G |     | 456 | 320 |     |
| NVIDIA P100 16G |     | 128 |     |     |
|   NVIDIA T4 16G |     |     | 144 |     |
| NVIDIA V100 16G | 688 |     |  54 |     |
| NVIDIA V100 32G |     | 768 |  16 | 216 |

* Réseau haute-performance et ordonnancement :

| | [Béluga](https://docs.computecanada.ca/wiki/B%C3%A9luga) | [Cedar](https://docs.computecanada.ca/wiki/Cedar/fr) | [Graham](https://docs.computecanada.ca/wiki/Graham/fr) | [Niagara](https://docs.computecanada.ca/wiki/Niagara/fr) |
|------------------------:|:----------:|:-----------:|:----------:|:----------:|
|        Connexion rapide | InfiniBand |   OmniPath  | InfiniBand | InfiniBand |
|               Topologie |  En arbre  |   En arbre  |  En arbre  | DragonFly+ |
|     Taille îlots (proc) | 640 à 1200 | 1024 à 1536 |    1024    |    17280   |
|     Facteur de blockage |   max 5:1  |   max 2:1   |   max 8:1  |   max 2:1  |
| Granularité des tâches  | /proc /GPU |  /proc /GPU | /proc /GPU |   /noeud   |
|         Durée maximale  |   7 jours  |   28 jours  |  28 jours  |   1 jour   |

* Stockage : le tout sera décrit au [chapitre suivant...](stockage.ipynb)