# Atelier Python en astrophysique

## Notre laboratoire scientifique : la simulation *Extreme Horizon*
Cet atelier permet de s'initier au langage de programmation Python en manipulant des données issues d'une simulation numérique en astrophysique, réalisées par des chercheurs du [CEA-IRFU](https://irfu.cea.fr/) :

<img src="./imgs/logosCEA_Irfu.png" alt="CEA-Irfu"/>

Cette simulation, baptisée ``Extreme Horizon`` et réalisée en 2020 sur le supercalculateur `Joliot-Curie` du CEA, a nécessité l'utilisation de plus de 25600 processeurs travaillant en parallèle et a totalisé près de 50 millions d'heures de calcul pour modéliser numériquement une portion de notre univers, en 3D, sur toute son histoire, soit près de 14 milliards d'années.

Les données produites par cette simulation représentent de très importantes volumétries. Une sauvegarde unique de l'état de la simulation faite à un instant donné de l'évolution dynamique de cet univers virtuel représente près de 5 To de données. De très nombreuses sauvegardes ont été faites à des moments clés de l'evolution de notre univers virtuel, totalisant plusieurs centaines de téraoctets d'espace disques, et sur lesquels les chercheurs s'appuient pour étudier les processus de formation des étoiles, des galaxies et des grandes structures cosmologiques et tenter d'apporter des éléments de réponse aux questions que posent l'evolution de notre Univers.

Voir aussi :

 - [La simulation Extreme Horizon (CEA-IRFU)](https://irfu.cea.fr/Projets/COAST/extreme_horizon.html)

### Aperçu de la simulation Extreme Horizon
Ci-dessous, vous pouvez explorer une tranche de la simulation `Extreme Horizon` en vous déplaçant dans cette carte interactive, réalisée à partir d'une sauvegarde de la simulation numérique, faite lorsque l'univers n'était agé que de quelques milliards d'années. Sur cette carte, plusieurs quantités physiques peuvent être visualisées, liées au gaz (principalement de l'hydrogène, majoritairement sous forme monoatomique, élément le plus abondant dans notre univers) :

 - La densité du gaz,
 - L'entropie du gaz,
 - La teneur en métaux (éléments plus lourds, issus de l'explosion des supernovae),
 - La vitesse du gaz,
 - les lignes de champ de vitesse du gaz.

Vous pouvez déplacer la carte par simple glisser/déposer et zoomer dans la carte à plus haute résolution en utilisant la molette :

In [1]:
# Appuyer sur Shift + Entrée pour éxecuter la cellule courante
from IPython.display import IFrame, display
display(IFrame("http://www.galactica-simulations.eu/EH_L50/index.html", "100%", "600px"))

## Introduction au Python

### Un langage interprété
Le Python est un langage de programmation inventé fin 1989. Les langages d'usage courant de l'époque comme le C et le Fortran, sont des langages *compilés*. Pour ces langages, un programme spécifique, appelé *compilateur*, est chargé de transformer un fichier de texte écrit par un humain (en C ou en Fortran) en un programme exécutable, contenant des instructions en langage machine, compréhensibles par l'ordinateur. Cet exécutable doit, dans un deuxième temps, être lancé par l'utilisateur pour que son programme s'exécute.

À l'inverse, le langage Python est doté d'un programme unique en charge de la compilation (à la volée) et l'éxécution des commandes écrites par un être humain. Ce programme est appelé *interpréteur* et permet l'éxécution immédiate des commandes utilisateurs, sans passer par une phase de compilation, on parle alors de langage *interprété*.

En bref, Python est un langage :
    
   - **Interprété** : pas d'étape de compilation,
   - **Orienté Objet** : Objet: structures de données complexes possédant des attributs et des méthodes,
   - de **haut niveau** : niveau d'abstraction élevé, ergonomique, pour faire exécuter des tâches complexes à un ordinateur,
   - **Dynamique**: les variables peuvent changer à la volée de contenu, de sens,
   - **Autoportant** : peu de dépendances extérieurs requises,
   - doté de **Structures de données** : moyens pour stocker/manipuler les données,
   - **de scripting** : du code python peut contrôler d'autres programmes, s'interfacer avec du code C/Fortran,
   - dont les variables sont **Typées** : différents types de variables (int, string, float),
   - qui suit une **syntaxe** : des règles de grammaire difinissent le language,
   - **Extensible** : sous forme de librairies, qui forment des collections de code réutilisable par la communauté,


### Différentes façons d'exécuter du code Python
#### 1. L'interpréteur en ligne de commande **python**

Dans un shell, en ligne de commande, utilisez directement l'interpréteur **python** pour exécutér des commandes :

```python
$ python
> print("Salut !")
Salut !
```

#### 2. Éditer un script Python (fichier ``.py``)

Créez un fichier texte portant l'extension ``.py`` :

``mon_programme.py``:
```python
print("Salut !")
```

Dans un shell, exécutez ce script avec l'interpréteur **python** :
```shell
$ python mon_programme.py
Salut !
```

#### 3. L'interpréteur de commande amélioré ipython

**ipython** fournit un interpréteur en ligne de commande amélioré. Il s'utilise comme l'interpréteur **python** standard, mais fournit des fonctionnalités supplémentaires, comme l'autocomplétion, l'aide en ligne, les [commandes magiques](https://ipython.readthedocs.io/en/stable/interactive/magics.html), etc.

Pour l'exécuter, tapez ``ipython``:

```ipython
$ ipython
> run mon_programme.py
Salut!
```

#### 5. Les notebooks Jupyter(Lab)

les notebooks [jupyter](https://docs.jupyter.org/en/latest/index.html) sont des interfaces web permettant d'exécuter de manière interactive des commandes python, directement en ligne. Ils se présentent sous la forme de fichier portant une extension `.ipynb`.

Pour lancer un serveur jupyter en local :

```shell
$ jupyter notebook
~/AtelierPythonAstro/venv/bin/python -m jupyter notebook --no-browser --notebook-dir=~/AtelierPythonAstro
[I 10:09:34.474 NotebookApp] Serving notebooks from local directory: ~/AtelierPythonAstro
[I 10:09:34.474 NotebookApp] Jupyter Notebook 6.4.11 is running at:
[I 10:09:34.474 NotebookApp] http://localhost:8888/?token=3254e6c8b0a5fefb04b669d1d33e2fa5a6562d970a3ec60a
[I 10:09:34.474 NotebookApp]  or http://127.0.0.1:8888/?token=3254e6c8b0a5fefb04b669d1d33e2fa5a6562d970a3ec60a
[I 10:09:34.474 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
...
```

Puis sélectionner dans votre navigateur à l'URL indiquée le notebook que vous souhaitez ouvrir (le fichier ``.ipynb``)

Cet atelier se présente sous la forme d'un notebook jupyter !

##### Note importante :

Pour exécuter le contenu d'une cellule du notebook, positionnez votre curseur dans la cellule et appuyez sur **Shift+Entrée**.


#### 6. Environnements de développement intégrés pour Python

Il existe des logiciels dédiés aux développeurs Python appelés `Environnements de développement intégrés` (IDE) qui permettent d'apporter une grande quantité de fonctionnalités complémentaires pour accroître la productivité des développeurs informatiques, notamment ceux qui travaillent en Python.

Ces fonctionnalités peuvent être diverses : correcteur syntaxique, navigation dans le code source, auto-complétion, debugging, gestion de versions, exécution de différentes configurations d'exécution python, intégration de tests, génération de documentation, configuration de la distribution python, etc.

On pourra citer, à titre d'exemple, quelques IDEs :

   - [Spyder](https://www.spyder-ide.org/),
   - [PyCharm](https://www.jetbrains.com/pycharm/),
   - [Eclipse+PyDev](https://www.pydev.org/),
   - [VisualStudioCode](https://code.visualstudio.com/),
   - [IDLE](https://docs.python.org/fr/3/library/idle.html).

### Importer un paquet

Même si la librairie standard du [Python](https://docs.python.org/fr/3/) propose une grande richesse de structures de données et de fonctionnalités de base, la force de Python réside dans son extensibilité. Il est très simple d'importer des librairies tierces pour utiliser des fonctionnalités spécifiques supplémentaires requises par l'utilisateur. En Python, ces librairies tierces portent le nom de ``paquets``, et il en existe des centaines de milliers, pour répondre à une grande diversité de besoins (visualisation de données, lecture de formats de fichiers, calcul scientifique, intelligence artificielle, graphiques scientifique, application web, etc.)

Pour être accessible à tous, la plupart des paquets qui ne font pas directement partie de la librairie standard Python (ceux-si ne nécessitent aucune installation, ils sont fournis avec la distribution Python) sont disponibles directement depuis l'index de paquets Python [PyPI](https://pypi.org/), d'où ils sont installables très rapidement à l'aide de la commande ``pip``:

```bash
$ pip install numpy
Collecting numpy
  Using cached numpy-1.22.3-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.8 MB)
Installing collected packages: numpy
Successfully installed numpy-1.22.3
$ python
Python 3.8.10 (default, Mar 15 2022, 12:22:08) 
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
```

In [2]:
import numpy
arr = numpy.array([1, 2, 3])
arr.sum()

6

Parmi les paquets les plus connus et les plus utilisés, citons :

   - [Matplotlib](https://matplotlib.org/) : graphiques scientifiques,
   - [pandas](https://pandas.pydata.org/) : analyse de données tabulées,
   - [Numpy](https://numpy.org/install/) : manipulation de tableaux multidimensionnels et calcul scientifique,
   - [Scipy](https://scipy.org/) : algorithmique, algèbre linéaire, optimisation, équations différentielles,
   - [Pillow](https://pillow.readthedocs.io/en/stable/) : traitement d'images,
   - [Scikit-learn](https://scikit-learn.org/stable/index.html) : apprentissage automatique, IA.
   

#### Arborescence d'un paquet Python

Un paquet Python est un répertoire contenant des fichiers python (``.py``) appelés ``modules`` ou d'autres répertoires (sous-paquets formant une arborescence de fichiers) dans lesquels sont implémentées des fonctionalités particulières sous formes de classes (orienté objet), de fonctions ou de variables Python.

  - Pour importer un paquet ``nom_du_paquet``:
```python
>>> import nom_du_paquet
```

  - Pour importer un sous-paquet (sous-répertoire ``sub``) depuis ce paquet:
 
```python
   from nom_du_paquet import sub
```

  - Pour importer un ``module`` (par exemple le fichier ``simple.py``) depuis ce sous-paquet :
```python
>>> from nom_du_paquet.sub import simple
```

  - Pour importer une *variable* ou une *classe* ``A`` depuis ce module :
```python
>>> from nom_du_paquet.sub.simple import A
```

le ``.`` joue ici le rôle de séparateur permettant de descendre dans l'arborescence du paquet pour aller importer un élément précis.

### Types de données standards

Python offre tous les types les plus standards de données : entiers (``int``), nombre à virgule flottante (``float``), booléen (``bool``), nombre complexe (``complex``), chaîne de caractères (``str``) :


In [None]:
a = 2
type(a)

In [None]:
b = 3.14159
type(b)

In [None]:
c = True
type(c)

In [None]:
z = 2.0 + 5.0j
type(z)

In [None]:
s = "du texte"
type(s)

Toutes les variables en Python sont des ``objets``, c'est-à-dire des instances d'une ``classe`` (au sens programmation orientée-objet) :

  - un objet a des **méthodes** (fonctions  qui s'appliquent à l'objet lui-même) et des **propriétés** (données internes à l'objet),
  - on a accès aux méthodes et aux propriétés de l'objet via l'opérateur ``.`` : ``obj.methode()``, ou ``obj.propriete``,
  - dans l'environnement interactif d'un notebook, les propriétés et méthodes accessibles d'un objet peuvent être suggérees par **tab-complétion**.

In [None]:
s.upper()

In [None]:
b.is_integer()

In [None]:
c.bit_length()

In [None]:
c.real

### Opérateurs logiques, comparateurs et ``None``

Les opérateurs logiques de Python suivent une syntaxe simple : ``or`` (*ou* logique), ``and`` (*et* logique) et ``not`` (*non* logique).

In [None]:
v = True
f = False
v or f

In [None]:
v and f

In [None]:
not v

La variable spéciale ``None`` (aucun) permet de déclarer des variables dans un état nul ou vide est est très utilisée pour définir les valeurs par défaut des méthodes ou des fonctions par exemple.

L'opérateur d'identité ``is`` permet de tester si deux objets sont les même, alors que l'opérateur d'égalité ``==`` (resp. ``!=``) va tester si ils sont égaux (resp. inégaux). Les comparateurs ``<``, `<=`,  et ``>``, `>=` permettent de tester les relations d'ordre :

In [None]:
s2 = "dev"
s2 is None

In [None]:
b is not None

In [None]:
c == s2

In [None]:
b == 3.14159

In [None]:
b > a

In [None]:
a <= 2

### Collections

#### tuples

les ``tuples`` sont des conteneurs :
  - **ordonnés**: l'ordre des éléments est conservé,
  - **non-mutables** : on ne peut ni ajouter ni retirer des éléments après l'initalisation,
  - contenant des données pouvant être de **types hétérogènes**.

Ils sont très utilisés pour grouper ou dégrouper des variables, notamment dans les valeurs d'entrée ou de sortie des méthodes ou des fonctions ou plus généralement pour transporter des variables que l'on souhaite ne pas pouvoir modifier. Ils s'initialisent avec des parenthèses ``()``, peuvent être concaténés avec ``+`` et permettent l'accès en lecture à ses éléments avec l'opérateur ``[]``:

In [None]:
t = (a, "encore du texte", False, z)
t

In [None]:
type(t)

In [None]:
t[1]

In [None]:
t[2] = "autre texte" # Erreur => non-mutable

In [None]:
# Concaténation de plusieurs tuples = un nouveau tuple
t2 = t + (23, "bcd")
t2

In [None]:
# Valeurs de retour multiples d'une fonction => tuple
def ajoute_un(i):
    j = i+1
    k = j+1
    m = k+1
    t = (j,k,m)
    return t

ajoute_un(5)

#### Listes

un objet ``list`` est quant à lui **mutable**, (en plus d'être **ordonné** et contenant des **types hétérogènes**).
Pour initialiser une liste ou accédér à un élément d'une liste, utiliser l'opérateur ``[]``. Il est possible d'effectuer une ``coupe`` dans une liste pour ne sélectionner que quelques éléments, à l'aide de ``:``:

In [None]:
l = [1,2,3,4,5]
l

In [None]:
type(l)

In [None]:
# Longueur d'une liste
len(l)

In [None]:
l[2] = 100 # Mutable => pas d'erreur
l

In [None]:
l[-1] # Dernier élément d'une liste

In [None]:
l[1:3] # éléments d'indice 1 (inclus) à 3 (exclus)

In [None]:
l[::2] # éléments d'indices pairs (0, 2 et 4)

In [None]:
# Parcours d'éléments d'une liste
for i in l:
    print(i + 3)

In [None]:
# Liste en compréhension
[i + 5 for i in l if i < 50]  # tous les éléments de la liste l si ils sont inférieurs à 50, auxquels on ajoute 5

#### Sets

les objets ``set`` sont des conteneurs qui regroupent des ensembles d'éléments uniques. Deux éléments identiques ne peuvent se trouver répétés dans un ``set``. Ils sont définis avec l'opérateur ``{}`` :

In [None]:
st = {"orange", "blue", "red", "green", "black", "orange"}  # 2 fois orange !
st

#### Dictionnaires

Les dictionnaires (objets ``dict``) sont les collections les plus puissantes et les plus utilisées dans le langage Python. Ils définissent une table d'association de paires ``clé``/``valeur``, **non ordonnée**, **mutable**, avec laquelle il est possible d'accéder aux éléments en requérant directement leur ``clé``, de manière très optimisée.
un ``dict`` s'initialise avec l'opérateur ``{}``, en déclarant une paire selon la syntaxe ``clé:valeur`` :

In [None]:
dct = {"blue": 1, "red": 2, "green": 3}
dct

In [None]:
type(dct)

In [None]:
dct['red']

In [None]:
dct.get("green")

In [None]:
# Ajout d'une paire
dct["yellow"] = 4
dct

In [None]:
# Itération sur les paires d'un dictionnaire
for cle, valeur in dct.items():
    print(cle, "=> ", valeur)

In [None]:
# Itération sur les clés d'un dictionnaire
for cle in dct:
    print(cle)

### L'opérateur ``in``

l'opérateur ``in`` permet de tester si une valeur appartient à une collection :

In [None]:
print(l)
print("2 :", 2 in l)
print("300 :", 300 not in l)

In [None]:
# Dans le cas d'un dictionnaire, on teste l'appartenance à la liste des clés
print("red" in dct)
print("pink" in dct)

### Contrôles de flux

#### ``if``, ``else``, ``elif``, ``for`` et ``while``

Les opérateurs de contrôle de flux ``if`` (si), ``for`` (boucle), ``while`` (boucle tant que), ``else`` (sinon), ``elif`` (sinon si) doivent **toujours** être suivis de ``:``. Ils précèdent des blocs qui doivent **obligatoirement** être indentés pour que l'interpréteur puisse identifier le contenu du bloc conditionnel. À l'inverse du langage C, le Python est un langage où l'indentation est importante, ce qui oblige les dévelopeurs à respecter une certaine ergonomie dans la syntaxe même du langage.

In [None]:
if v:
    # Indentation obligatoire
    a = 5 # Bloc de code à exécuter si v est vrai
else:
    a = 0 # Bloc à exécuter sinon
    
# Sortie de la condition (désindentation), tout le temps exécuté
print(a)

In [None]:
for i in l:
    print("la valeur de i =", i)

#### ``break``, ``continue`` et ``pass``

les instructions spéciales ``break``, 

#### Sets

les objets ``set`` sont des conteneurs qui regroupent des ensembles d'éléments uniques. Deux éléments identiques ne peuvent se trouver répétés dans un ``set``. Ils sont définis avec l'opérateur ``{}`` :

In [33]:
st = {"orange", "blue", "red", "green", "black", "orange"}  # 2 fois orange !
st

{'black', 'blue', 'green', 'orange', 'red'}

#### Dictionnaires

Les dictionnaires (objets ``dict``) sont les collections les plus puissantes et les plus utilisées dans le langage Python. Ils définissent une table d'association de paires ``clé``/``valeur``, **non ordonnée**, **mutable**, avec laquelle il est possible d'accéder aux éléments en requérant directement leur ``clé``, de manière très optimisée.
un ``dict`` s'initialise avec l'opérateur ``{}``, en déclarant une paire selon la syntaxe ``clé:valeur`` :

In [34]:
dct = {"blue": 1, "red": 2, "green": 3}
dct

{'blue': 1, 'red': 2, 'green': 3}

In [35]:
type(dct)

dict

In [36]:
dct['red']

2

In [37]:
dct.get("green")

3

In [38]:
# Ajout d'une paire
dct["yellow"] = 4
dct

{'blue': 1, 'red': 2, 'green': 3, 'yellow': 4}

In [39]:
# Itération sur les paires d'un dictionnaire
for cle, valeur in dct.items():
    print(cle, "=> ", valeur)

blue =>  1
red =>  2
green =>  3
yellow =>  4


In [40]:
# Itération sur les clés d'un dictionnaire
for cle in dct:
    print(cle)

blue
red
green
yellow


### L'opérateur ``in``

l'opérateur ``in`` permet de tester si une valeur appartient à une collection :

In [64]:
print(l)
print("2 :", 2 in l)
print("300 :", 300 not in l)

[1, 2, 100, 4, 5]
2 : True
300 : True


In [67]:
# Dans le cas d'un dictionnaire, on teste l'appartenance à la liste des clés
print("red" in dct)
print("pink" in dct)

True
False


### Contrôles de flux

#### ``if``, ``else``, ``elif``, ``for`` et ``while``

Les opérateurs de contrôle de flux ``if`` (si), ``for`` (boucle), ``while`` (boucle tant que), ``else`` (sinon), ``elif`` (sinon si) doivent **toujours** être suivis de ``:``. Ils précèdent des blocs qui doivent **obligatoirement** être indentés pour que l'interpréteur puisse identifier le contenu du bloc conditionnel. À l'inverse du langage C, le Python est un langage où l'indentation est importante, ce qui oblige les dévelopeurs à respecter une certaine ergonomie dans la syntaxe même du langage.

In [69]:
if v:
    # Indentation obligatoire
    a = 5 # Bloc de code à exécuter si v est vrai
else:
    a = 0 # Bloc à exécuter sinon
    
# Sortie de la condition (désindentation), tout le temps exécuté
print(a)

5


In [70]:
for i in l:
    print("la valeur de i =", i)

la valeur de i = 1
la valeur de i = 2
la valeur de i = 100
la valeur de i = 4
la valeur de i = 5


#### ``break``, ``continue`` et ``pass``

les instructions spéciales ``break``, 

In [41]:
# Paquets de la librairie standard
import pickle
import bz2

map_512 = {"temperature": None, "density": None, "metallicity": None, "entropy": None}

with bz2.BZ2File("data/temperature.pkl.bz2", 'rb') as f:
    map_512["temperature"] = pickle.load(f)
with bz2.BZ2File("data/metal.pkl.bz2", 'rb') as f:
    map_512["metallicity"] = pickle.load(f)
with bz2.BZ2File("data/density.pkl.bz2", 'rb') as f:
    map_512["density"] = pickle.load(f)
with bz2.BZ2File("data/entropy.pkl.bz2", 'rb') as f:
    map_512["entropy"] = pickle.load(f)