# Cours Accéléré de Python
## Configuration de Votre Environnement
Comme vous le savez probablement, configurer votre environnement peut être l'une des parties les plus difficiles lors de l'apprentissage d'un nouvel outil. Heureusement, Python le rend très facile grâce à son gestionnaire de paquets intégré `pip`. D'autres gestionnaires de paquets existent également, tels que `conda`, qui est très souvent utilisé.

Il est recommandé de maintenir **un environnement isolé** pour chaque projet, afin d'éviter les conflits avec l'environnement système de base. Dans la première partie de ce tutoriel, nous verrons comment faire cela pour :
- Google Colab
- un environnement local sur votre poste de travail
- une configuration de base pour un environnement SLURM (par exemple, ARNC / Calcul Canada)

Dans Google Colab, nous n'avons pas besoin de choisir quel gestionnaire de paquets utiliser, car il est préconfiguré avec `pip` et crée automatiquement un nouvel environnement pour chaque session (ce qui est à la fois une bénédiction et une malédiction).

Pour un environnement local sur votre poste de travail, `conda` est recommandé car il s'agit d'un gestionnaire de paquets plus puissant que `pip`, et il permet d'utiliser facilement différentes versions de Python pour différents projets. Conda prend en charge les commandes `conda install` ainsi que `pip install`.

Dans un environnement SLURM, il est généralement recommandé de créer votre environnement avec `virtualenv` plutôt qu'avec `conda`, car il est plus léger. Les paquets peuvent ensuite être installés avec `pip`. ARNC / Calcul Canada fournit d'excellentes instructions pour [configurer un environnement Python sur leur cluster.](https://docs.alliancecan.ca/wiki/Python)

### Configuration dans Google Colab
Heureusement, Google Colab est livré avec la plupart des bibliothèques dont nous avons besoin pour l'apprentissage machine et la science des données préinstallées. Cependant, il arrive que nous ayons besoin d'accéder à des bibliothèques de code ou à des ensembles de données qui ne sont pas préinstallés. Dans ce cas, Colab facilite leur installation, bien que la méthode soit légèrement différente de celle utilisée pour installer des bibliothèques localement.

Google Colab est basé sur les Jupyter Notebooks, qui ont une syntaxe spéciale pour exécuter des commandes système. Nous pouvons exécuter des commandes bash en utilisant la syntaxe `!command`. Par exemple, nous pouvons vérifier la liste des paquets actuellement installés :

In [None]:
!pip list

Nous pouvons également installer et gérer des bibliothèques logicielles en utilisant pip de la même manière. Cependant, il est préférable d'utiliser la commande spéciale `%pip`, car cela permettra de s'assurer que tout fonctionne correctement avec l'environnement Jupyter notebook.

In [None]:
# Nous pouvons installer PyTorch Geometric qui sera utilisé pendant le tutoriel sur les GNN
%pip install torch_geometric

Souvent, nous ne souhaitons pas voir les journaux d'exécution du processus d'installation, car cela encombre simplement nos notebooks. Nous pouvons utiliser la commande "magie" de cellule `%%capture` pour désactiver l'affichage des journaux d'exécution:

In [None]:
%%capture
%pip install torch_geometric

### Configuration sur votre Poste de Travail Local
Nous allons maintenant voir comment configurer un environnement sur votre poste de travail local. Tout d'abord, nous allons installer `conda`. Si vous n'avez pas encore de version de `conda` installée, suivez les [instructions officielles](https://docs.anaconda.com/miniconda/install/) pour installer Miniconda3. **REMARQUE** Afin d'éviter toute interférence avec l'environnement Colab ou Jupyter, les extraits de code ci-dessous ne sont pas exécutables.

Par exemple, pour une installation sur Linux, nous pouvons copier la commande d'installation rapide fournie par Miniconda :
```bash
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm ~/miniconda3/miniconda.sh
```

Ensuite, nous pouvons activer l'environnement pour la première fois et le configurer pour qu'il s'active automatiquement lors des futures sessions terminal :
```bash
source ~/miniconda3/bin/activate
conda init --all
```

Ensuite, nous pouvons créer un nouvel environnement pour ce projet :
```bash
conda create -n gnn python=3.11
```
Cela créera un nouvel environnement conda appelé `gnn` utilisant Python 3.11. Nous pouvons ensuite activer l'environnement et installer les bibliothèques nécessaires sans interférer avec d'autres projets.
```bash
conda activate gnn
```

Il est conseillé de garder une trace des bibliothèques nécessaires à votre code en utilisant un fichier `requirements.txt`. Ce fichier liste chaque bibliothèque pip (et facultativement leurs versions) requise sur une ligne distincte. Par exemple, nous pouvons définir un fichier requirements pour le tutoriel GNN comme suit :

```
# requirements.txt
emmet
matplotlib
mp-api
networkx
numpy
pymatgen
scikit-learn
torch
torch_geometric
```

Ensuite, nous pouvons installer ces bibliothèques dans notre environnement conda (après avoir exécuté `conda activate gnn`) avec la commande suivante :
```bash
pip install -r requirements.txt
```

## Notions de Base en Python
### Importation de Modules
L'un des éléments distinctifs de Python est son système de modules. Python facilite grandement le chargement et l'utilisation de bibliothèques logicielles. Certaines bibliothèques sont intégrées, tandis que d'autres doivent être installées auprès de tiers. De plus, il est possible de diviser votre code en plusieurs fichiers et d'"importer" du code depuis un autre fichier.

```
import numpy as np  # ici, nous importons la bibliothèque tierce "numpy" sous l'alias "np"
import torch

# math est une bibliothèque intégrée
from math import sin # nous pouvons importer des fonctions spécifiques en utilisant "from ... import ..."

np.sum([0, 1, 2]), sin(np.pi / 2), torch.rand(1)  # nous pouvons maintenant utiliser les fonctionnalités de numpy, torch ou la fonction "sin" de "math"
```

Python vérifiera d'abord le répertoire actuel pour trouver un fichier correspondant, puis il vérifiera parmi les bibliothèques installées et les modules intégrés.

In [None]:
import numpy as np  # ici, nous importons la bibliothèque tierce "numpy" sous l'alias "np"
import torch

# math est une bibliothèque intégrée
from math import sin # nous pouvons importer des fonctions spécifiques en utilisant "from ... import ..."

np.sum([0, 1, 2]), sin(np.pi / 2), torch.rand(1)  # nous pouvons maintenant utiliser les fonctionnalités de numpy, torch ou la fonction "sin" de "math"

Python vérifiera d'abord le répertoire actuel pour trouver un fichier correspondant, puis il vérifiera parmi les bibliothèques installées et les modules intégrés.

### Variables et Types de Données
Comme dans d'autres langages de programmation, Python nous permet de créer et de stocker des données dans des **variables**. Il est important de considérer une variable comme un **conteneur** de données. Les données elles-mêmes peuvent exister même sans la variable, ou être référencées par plusieurs conteneurs. Comprendre ce concept vous aidera à éviter de nombreux bugs courants dans votre code.

En Python, tout est un _objet_ qui peut stocker des données et contenir des méthodes agissant sur ces données. Cela signifie qu'il n'existe **pas de types primitifs** en Python. De plus, Python utilise le concept de **duck typing** ("si ça cancane comme un canard, alors c'est un canard"). Cela signifie que les programmes, en général, ne doivent pas dépendre de types spécifiques, mais plutôt d'objets implémentant des méthodes spécifiques. Nous verrons que de nombreuses fonctions intégrées en Python suivent cette idée.

Nous pouvons créer des variables pour contenir certains des types de données courants en Python comme suit :

Par convention, nous utilisons le format `snake_case` pour les noms de variables en Python.

Remarquez que nous n'avons jamais "déclaré" le type de nos variables. Cela s'explique par le fait que Python n'est pas un langage strictement typé. Nous pouvons même attribuer différents types à une variable au cours du programme. Parfois, cela est utile, mais souvent, cela peut nuire à la lisibilité de nos programmes.

In [None]:
a = 5  # Nombre, spécifiquement un "int"
b = 3.14  # Nombre, spécifiquement un "float"
c = "hello world"  # "string"
d = 'a'  # Aussi un "string", Python n'a pas de type "char"
e = ["a", "list", "of", "strings"]  # Les listes utilisent des crochets [ ]
f = [1, 3.14, "string"]  # Les listes peuvent mélanger différents types (chaque entrée est juste un "conteneur")
g = True  # Un "bool" prend les valeurs True / False
h = None  # Utilisé de manière similaire à "null" dans d'autres langages
i = { "Drew": 28, "Jama": None}
type(a), type(b), type(c), type(d), type(e), type(f), type(g), type(h), type(i)

Par convention, nous utilisons le format `snake_case` pour les noms de variables en Python.

Remarquez que nous n'avons jamais "déclaré" le type de nos variables. Cela s'explique par le fait que Python n'est pas un langage strictement typé. Nous pouvons même attribuer différents types à une variable au cours du programme. Parfois, cela est utile, mais souvent, cela peut nuire à la lisibilité de nos programmes.

In [None]:
a = "yikes"  # maintenant, la variable `a` contient un "string" au lieu d'un entier
type(a)

Depuis Python 3.5, il est possible d'inclure des annotations de type pour les variables. Ces annotations sont utilisées pour améliorer la lisibilité et aider l'IDE avec l'autocomplétion, mais elles ne sont pas (en général) appliquées à l'exécution.

In [None]:
a: int = 5

### Opérations de Base
Python prend en charge les opérations arithmétiques de base sur les nombres.


In [None]:
a = 1
b = 3
c = a + b  # l'addition d'entiers produit un "int"
c, type(c)

In [None]:
a = 1.5
b = 4
c = b - a # les opérations avec des "float" produisent un "float"
c, type(c)

In [None]:
a = 7
b = 3
c = a / b  # la division d'entiers produira naturellement un "float"
c, type(c)

In [None]:
a = 7
b = 3
c = a // b # nous pouvons effectuer une division entière avec le symbole //
c, type(c)

In [None]:
a = 6
b = 8
c = a * b  # la multiplication utilise le symbole *
c, type(c)

In [None]:
a = 2
b = 4
c = a ** b # l'exponentiation utilise le symbole **
c

**REMARQUE** Python implémente également le symbole `^`, mais cela effectue un XOR au niveau du bit et non une exponentiation.

In [None]:
a ^ b

L'opérateur modulo / reste est implémenté en utilisant le symbole `%`:


In [None]:
a = 10
b = 3
c = a % b  # 10 mod 3
c

Python nous permet également de définir des nombres en notation scientifique, hexadécimale ou binaire:

In [None]:
a = 1880  # notation standard
a = 1_880 # nous pouvons séparer les milliers avec un _ pour améliorer la lisibilité
b = 1.88e3  # notation scientifique
c = 0b11101011000 # en binaire
d = 0x758 # en hexadécimal
a == b == c == d

### Structure de contrôle et Boucles
Python propose plusieurs structures pour le contrôle de flux, mais peut-être pas autant que certains autres langages.

La structure la plus basique est l'exécution conditionnelle de code avec des instructions `if`, ce qui veut dire "si".

In [None]:
# Valeur absolue
x = 32
if x >= 0:
  y = x
else:
  y = -x
y

In [None]:
# Valeur absolue
x = -16
if x >= 0:
  y = x
else:
  y = -x
y

In [None]:
animal = 'dog'
if animal == 'cat':
  print('Meow!')
elif animal == 'dog':
  print('Bark!')
elif animal == 'frog':
  print('Ribbit!')
else:
  print('Grrr...')

Notez qu'avec la construction `if-elif-else` (si, sinon si, sinon), _exactement_ un bloc est exécuté.

Une autre structure utile pour la structure de contrôle est la boucle. Python propose des boucles du type "foreach" et "while".

In [None]:
names = ["drew", "jama", "ameer", "mehdi",]
for name in names:  # itérer sur chaque élément de la liste
  print("hello", name.capitalize())

Il n'existe pas de structure comme `for (int i=0; i < 6; i++)` en Python. À la place, la manière idiomatique de faire ce genre de boucle est :

In [None]:
for i in range(6):
  print(i)

Encore mieux, nous pouvons utiliser la fonction `enumerate` :

In [None]:
for i, name in enumerate(names):
  print("Hello", name.capitalize(), "you're number", i)

Nous pouvons également exécuter un bloc de code de manière répétée tant qu'une condition est vraie :

In [None]:
names = ["drew", "jama", "ameer", "mehdi",]
while len(names) > 0:
  print(names.pop(), len(names))  # retirer et retourner le dernier élément de `names`

### Définir des Fonctions

Souvent, nous voulons réutiliser du code. Nous pouvons le faire en définissant des fonctions qui acceptent des paramètres et retournent un résultat.

In [None]:
def square(x):
  return x * x

for i in range(10):
  print(i, '->', square(i))

Les fonctions peuvent accepter des arguments positionnels ainsi que des arguments nommés :

In [None]:
def power(x, p=1):
  return x ** p

x = 2
for i in range(4):
  print(power(x, p=i))

Il est également possible de définir des fonctions anonymes appelées "fonctions lambda" :

In [None]:
x = [-3, 4, 12, -2, 8, 0, 1, 7]
sorted(x, key=lambda x: abs(x)) # trier par valeur absolue

### Définir des Classes
Les classes sont des objets personnalisés. Elles regroupent des données et des méthodes qui opèrent sur ces données. Elles constituent un excellent moyen d'améliorer la lisibilité et la réutilisabilité de votre code. Nous utiliserons des classes personnalisées tout le temps dans PyTorch pour définir de nouveaux modèles :


In [None]:
from torch import nn

class CustomModel(nn.Module):  # nous "héritons" de Module, ce qui signifie que nous réutilisons ses fonctionnalités

  def __init__(self, in_size, out_size): # la méthode __init__ sert à initialiser une nouvelle instance, comme un constructeur
    # "super" nous permet d'appeler des méthodes de l'implémentation de base, dans ce cas nn.Module
    super().__init__()

    # self est un paramètre spécial qui fait référence à l'instance actuelle, ici
    # nous l'utilisons pour stocker des données personnalisées sur l'instance
    self.in_size = in_size
    self.out_size = out_size

    self.fc = nn.Linear(in_size, out_size)
    self.act = nn.ReLU()

  # "forward" est une méthode attendue par nn.Module
  def forward(self, x):
    # Nous pouvons accéder aux données ou aux méthodes du module avec `self.`
    x = self.fc(x)
    x = self.act(x)

    return x

### Quelques Autres Fonctionnalités
Comme dans la plupart des langages, il est possible que des opérations lèvent des erreurs lorsqu'elles rencontrent des entrées inattendues ou d'autres problèmes. Nous pouvons encapsuler le code susceptible de lever des erreurs dans un bloc `try` et les capturer avec `except`. Cela nous permet d'écrire du code qui gère les erreurs de manière élégante.


In [None]:
try:
  x = 10 / 0
except ZeroDivisionError:
  print("Oups, impossible de diviser par 0...")
  x = 0
except:
  print("quelque chose s'est mal passé")
  x = -1
x  # la valeur de x est maintenant 0

Python prend en charge nativement l'idée de "gestionnaires de contexte". Cela nous permet d'exécuter un code spécifique au début d'un bloc de code et, à nouveau, lorsque le programme quitte le bloc (peu importe si des erreurs sont levées) :

In [None]:
with open('/content/sample_data/README.md') as f:  # un certain code est exécuté ici, et le résultat est fourni dans la variable "f"
  txt = f.readline()

# une logique de sortie est exécutée implicitement ici

print(txt)

Dans ce cas, en entrant dans le contexte `with`, nous ouvrons le fichier spécifié et retournons une référence à l'objet fichier dans la variable `f`. Lorsque nous quittons le contexte `with`, `f.close()` sera appelé automatiquement.

Nous verrons souvent ce modèle `with` dans PyTorch comme suit :
```python
with torch.no_grad():  # le calcul des gradients est désactivé, ce qui économise de la mémoire
  model.eval()
  ... # évaluer notre modèle
# le calcul des gradients est maintenant réactivé (s'il était activé avant d'entrer dans le bloc)
```

En interne, le contexte `with` fonctionne en appelant les méthodes `__enter__` et `__exit__` sur l'objet qui lui est transmis. Cela signifie que vous pouvez définir vos propres gestionnaires de contexte personnalisés en implémentant ces méthodes dans votre classe.

### Numpy et PyTorch
Numpy et PyTorch sont deux bibliothèques très utiles en apprentissage automatique.

Numpy implémente des "arrays" qui sont une forme plus efficace et multidimensionnelle de liste. De plus, elle définit de nombreuses opérations mathématiques utiles.

In [None]:
# Tout d'abord, nous nous assurons que numpy est importé
import numpy as np

In [None]:
x = np.zeros((6, 6)) # nous pouvons créer une matrice 6x6 de zéros
x

In [None]:
x.shape, x.dtype # la forme est 6 lignes par 6 colonnes, le type de donnée est un float de 64 bits par défaut

In [None]:
x = np.ones((3, 8, 8)) # nous ne sommes pas limités aux tableaux à 2 dimensions...
x

In [None]:
x = np.random.rand(3, 4, 4) # crée un tableau 3x4x4 de nombres aléatoires entre [0, 1]
x

In [None]:
y = x.sum(axis=0) # somme le long du premier axe (3 éléments)
y.shape, y

In [None]:
x.mean() # retourne la valeur moyenne de tous les éléments, nous nous attendons à ce que cela soit proche de 0.5

Numpy (et PyTorch) prennent en charge l'indexation avancée pour les arrays / tenseurs :

In [None]:
x[:, 0] # retourne le premier élément le long de la 2e dimension

In [None]:
x[..., :3]  # retourne uniquement les 3 premiers éléments le long de la dernière dimension

In [None]:
x[[True, False, False]] # Indexation booléenne

In [None]:
x[:, [1, 2, 0], :]  # Indexation avec des int

PyTorch prend en charge de nombreuses opérations similaires à Numpy avec une interface très proche. Cependant, PyTorch fournit des fonctionnalités supplémentaires très utiles pour l'apprentissage automatique.

Dans PyTorch, ce qui était appelé un "array" dans Numpy est désormais appelé un "tensor". Les tenseurs peuvent exister sur différents appareils, notamment le CPU ou le GPU (cuda). Cela nous permet de tirer parti des capacités de parallélisme extrême des GPU pour nos opérations sur les tenseurs.


In [None]:
import torch


# REMARQUE : pour utiliser "cuda", nous avons besoin d'un GPU disponible. Cela peut être fait en modifiant le
#            runtime dans Google Colab en allant sur Runtime -> Change Runtime Type
device = "cuda" if torch.cuda.is_available() else "cpu"

x = torch.rand((3, 4, 4))
x

In [None]:
x = x.to(device) # nous pouvons déplacer le tenseur sur un autre appareil, si disponible
x

In [None]:
x.sum(dim=1)  # "axis" est maintenant appelé "dim" dans pytorch

De plus, PyTorch prend en charge la **différentiation automatique** (autograd) pour calculer automatiquement les gradients, et inclut de nombreuses classes et fonctions utiles pour l'apprentissage profond. La fonctionnalité autograd est activée en définissant `requires_grad=True` sur un tenseur. Nous pourrons ensuite appliquer la **rétropropagation du gradient (backpropagation)** pour calculer le gradient d'une fonction par rapport à ce tenseur. Les modules dans `torch.nn` définissent automatiquement cela pour leurs paramètres :


In [None]:
x = torch.randn((3, 5, 5), requires_grad=True)  # distribution normale moyenne=0, std=1
loss = (x**2).mean()
loss.backward() # calcule les gradients par rapport à "x"
x.grad


Autograd nous permet de construire des architectures de modèles avancées et de les entraîner avec l'algorithme du **descente de gradient** sans nous soucier du calcul manuel des gradients.

Divers optimisateurs (par exemple, `SGD`, `Adam`, etc.) sont inclus dans le module `torch.optim` et peuvent être utilisés pour optimiser une liste de `nn.Parameter` (encapsule un tenseur pour que PyTorch sache que nous voulons l'optimiser) appartenant à un modèle.

Les modules les plus utiles dans PyTorch sont :

- `torch.nn` : Implémente de nombreuses couches de réseaux de neurones et des fonctions utiles. `nn.Module` forme la base de tous les réseaux neuronaux que nous concevons.
- `torch.optim` : Implémente diverses variantes de descente de gradient.
- `torch.utils.data` : Implémente une interface standard pour `Dataset` et fournit `DataLoader` pour itérer dynamiquement sur les données par lots.

Quelques autres bibliothèques utiles incluent :
- `torch_geometric` : Implémente les réseaux neuronaux graphiques. Nous utiliserons cela dans l'atelier GNN !
- `torchvision` : Utile pour les tâches de vision par ordinateur
- `torchaudio` : Utile pour les tâches audio et de traitement du signal
- `matplotlib` / `seaborn` : Bibliothèques communes pour les graphiques
- `pandas` : Travailler avec des données tabulaires
- `dask` : Big data, traitement parallèle sur CPU (avec prise en charge de divers clusters HPC)