## Introduction aux notebooks Jupyter

Les notebooks Jupyter sont très utilisés dans le monde de la science des données.
En mélangeant le code et le texte, les notebooks Jupyter sont très pratiques pour exécuter des petits bouts de code, visualiser des données ou encore écrire des tutoriels.
On peut même écrire un livre à partir de notebooks Jupyter (voir [Jupyter Book](https://jupyterbook.org/en/stable/intro.html)) !

Les énoncés de ce TP sont tous des notebooks Jupyter.
L'objectif de ce TP est de vous familiariser avec les notebooks Jupyter et de découvrir quelques bibliothèques Python très couramment utilisées en science des données, et pour lesquelles les notebooks Jupyter sont vraiment pratiques, telles que `pandas` et `matplotlib`.

Il existe différentes interfaces utilisateur, les deux plus populaires étant [Jupyter Notebook](https://jupyter-notebook.readthedocs.io) et [JupyterLab](https://jupyterlab.readthedocs.io).
Sur https://clust-n4.ensai.fr/, vous aurez accès à JupyterLab.

Un notebook Jupyter est constitué de **cellules**.
Il existe deux principaux types de cellules : les cellules de type **code** et les cellules de type **Markdown**.
Les cellules de type code contiennent du code qui peut être exécuté et éventuellement affiché une sortie, tandis que les cellules de type Markdown contiennent des informations telles que du texte, des liens hypertextes, des images, des tableaux, des équations, etc.

### Comment changer le type de cellule ?

Une nouvelle cellule créée est toujours de type code.
Pour changer le type d'une cellule, deux manières sont possibles. Après avoir sélectionné la cellule correspondante, il faut :
* soit cliquer sur la liste d'options en haut (`Code`) et choisir `Markdown`,
* soit appuyer sur la touche d'échappement (`esc`) pour passer en mode commande, puis sur la touche `M`.

### Fonctionnalités des cellules et raccourcis clavier

La deuxième manière fait appel aux **raccourcis clavier**.
Quand on a un peu d'expérience, ces raccourcis sont très pratiques car ils font gagner du temps : plus besoin d'aller déplacer la souris dans le menu en haut et d'appuyer sur l'option désirée dans le bon onglet.
Pour utiliser les raccourcis clavier, il faut passer en **mode commande**.
Pour ce faire, il suffit d'appuyer sur la touche d'échappement (`esc`).
Avec la souris, il faut cliquer **à gauche de la cellule** (et non sur la cellule, c'est-à-dire à l'intérieur du rectangle gris).

Voici quelques raccourcis clavier qu'il peut être intéressant de retenir :
* Exécuter la cellule et passer à la suivante : touches `Maj + Entrée`
* Exécuter la cellule et rester sur cette cellule : touches `Ctrl + Entrée` (Windows/Linux) ou  `Cmd + Entrée` (macOS)
* Sauvegarder le notebook : touche `S`
* Afficher/masquer les numéros de ligne de la cellule : touche `L`
* Convertir une cellule au type Markdown : touche `M`
* Convertir une cellule au type code : touche `Y`
* Ajouter une cellule au-dessous : touche `B` (pour *below*)
* Ajouter une cellule au-dessus : touche `A` (pour *above*)
* Copier une cellule : touche `C`
* Coller une cellule (en dessous de la cellule actuelle)  : touche `V`
* Supprimer une cellule : touche `X`
* Annuler la suppresion de cellule : touche `Z`
* Chercher et remplacer du texte dans la cellule : touche `F`

Toutes ces fonctionnalités sont également disponibles en utilisant l'interface graphique (en cliquant sur le symbole ou l'entrée correspondante dans le bon onglet).

## Les cellules Markdown

### Qu'est-ce que Markdown ?

Commençons par citer l'entrée Wikipedia de [Markdown](https://fr.wikipedia.org/wiki/Markdown) :

> **Markdown** est un  langage de balisage léger créé en 2004 par John Gruber, avec l'aide d'Aaron Swartz, avec l'objectif d'offrir une syntaxe, facile à lire et à écrire, en l'état, sans formatage.

Nous allons voir ici les principales fonctionnalités disponibles en Markdown dans les notebooks Jupyter.

### Organisation

* Les titres sont des lignes commençant par un ou plusieurs dièses (#), le nombre de dièses indiquant le niveau du titre.
* Les listes numérotées sont générées à partir d'un paragraphe où chaque ligne commence par un numéro, un point et un espace (par exemple `1. `).
* Les listes numérotées sont générées à partir d'un paragraphe où chaque ligne commence par un symbole `-`, `*` ou `+` puis un espace.
* Il est possible de faire des sous-listes à l'intérieur de listes en utilisant des tabulations.

Par exemple, le texte ci-dessous situé entre les deux traits horizontaux :

---
# 1. Titre
## 1.1 Sous-titre
### 1.1.1 Sous-sous-titre

Voici une liste numérotée :
1. Point 1
    - Un point
    - Un autre point
        + Premier sous-sous-point
        + Second sous-sous point
    - Encore un autre point
2. Point 2
3. Point 3

Voici une liste non-numérotée :
- Un point
- Un autre point
- Encore un autre point
---

a été généré avec le code suivant :

```
# 1. Titre
## 1.1 Sous-titre
### 1.1.1 Sous-sous-titre

Voici une liste numérotée :
1. Point 1
    - Un point
    - Un autre point
        + Premier sous-sous-point
        + Second sous-sous point
    - Encore un autre point
2. Point 2
3. Point 3

Voici une liste non-numérotée :
- Un point
- Un autre point
- Encore un autre point
```

### Mise en avant du texte

Le texte peut être mis en avant avec les syntaxes suivantes :
* Le texte se trouvant soit entre deux tirets bas (p.ex. `_Hello_)` soit entre deux étoiles (p.ex. `*Hello*`) est en italique.
* Le texte se trouvant soit entre quatre tirets bas (p.ex. `__Hello__)` soit entre quatre étoiles (p.ex. `**Hello**`) est en gras.
* Le texte se trouvant entre deux tildes (p.ex. `~Hello~`) est barré.
* Le texte entre les balises HTML `<mark>` et `</mark>` est surligné.
* Une ligne commençant par `> ` (une flèche vers la droite puis un espace) est un bloc de citation.

Par exemple, le texte ci-dessous situé entre les deux traits horizontaux :

---
> **Rennes** est une <mark>ville</mark> de *France*, et plus particulièrement de ~Normandie~ **_Bretagne_**.
---

a été généré avec le code suivant :
```
> **Rennes** est une <mark>ville</mark> de *France*, et plus particulièrement de ~Normandie~ **_Bretagne_**.
```

### Équations mathématiques

Les notebooks Jupyter permettent l'affichage d'équations mathématiques écrites en $\LaTeX$ grâce à [MathJax](https://www.mathjax.org) :
* Le code situé entre deux symboles dollar correspond à une **équation en ligne**.
* Le code situé entre quatre symboles dollar correspond à une **équation affichée sur sa propre ligne**.

Par exemple, le texte ci-dessous situé entre les deux traits horizontaux :

---

Les solutions complexes de l'équation du second degré $az^2 + bz + c = 0$ sont :

$$
    z_1 = \frac{-b - \sqrt{b^2 - 4ac}}{2a} \qquad\text{et}\qquad z_2 = \frac{-b + \sqrt{b^2 - 4ac}}{2a}
$$

---

a été généré avec le code suivant :
```
Les solutions complexes de l'équation du second degré $az^2 + bz + c = 0$ sont :

$$
    z_1 = \frac{-b - \sqrt{b^2 - 4ac}}{2a} \qquad\text{et}\qquad z_2 = \frac{-b + \sqrt{b^2 - 4ac}}{2a}
$$
```

### Mise en avant du code

Comme pour les équations mathématiques écrites en $\LaTeX$, il existe deux manières d'afficher du code :
* Le code situé entre deux ou quatre symboles de *citation arrière* (accent grave) correspond à du **code en ligne**.
* Le code situé dans un paragraphe débutant par une ligne contenant trois symboles de citation arrière et se terminant par une ligne contenant trois symboles de citation arrière correspond à un **bloc de code**.
* Pour les blocs de code, il est possible d'ajouter de la **coloration syntaxique** en indiquant le **nom du langage** sur la première ligne après les trois symboles de citation arrière.

Par exemple, le texte ci-dessous situé entre les deux traits horizontaux :

---
La fonction Python `factorielle` définie ci-dessous correspond à une implémentation récursive de la fonction mathématique factorielle :

```python
def factorielle(n: int) -> int:
    if not (isinstance(n, int) and n >= 0):
        raise ValueError("n doit être un entier naturel.")
    if n == 0:
        return 1
    else:
        return n * factoriel(n - 1)
```
---

a été généré avec le code suivant :

Pour afficher le code ayant généré ce texte, on a été obligé d'utiliser une cellule de type **raw** (brut en anglais), qui affiche le texte tel quel.

### Insertion

Il est possible d'ajouter des liens hypertextes, des images et des tableaux dans une cellule Markdown.

Un lien hypertexte est automatiquement créé en fournissant une URL, par exemple https://jupyter.org. Pour ajouter un lien hypertexte à du texte, la syntaxe est la suivante : `[texte à afficher](URL)`. Par exemple, le lien du site internet de jupyter se trouve [ici](https://jupyter.org), grâce à la commade `[ici](https://jupyter.org)`.

Pour afficher une image, il suffit de fournir son URL avec la syntaxe suivante : `![](URL)`. On utilise cette syntaxe pour afficher le logo de l'ENSAI affiché sur le site internet de l'ENSAI grâce à la commande `![](https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png)` :

![](https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png)

En combinant les deux, on peut également ajouter un lien hypertexte à une image. Par exemple, cliquer sur l'image ci-dessous envoie sur le site web de l'ENSAI grâce à la commande `[![](https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png)](https://ensai.fr)` :

[![](https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png)](https://ensai.fr)

Pour afficher un tableau, il suffit de respecter la syntaxe suivante :
* Chaque ligne de texte correspond à une ligne du tableau.
* Pour chaque ligne, les colonnes sont séparées par des traits verticaux `|`
* Si la première ligne est une ligne de titres des colonnes, il faut ajouter une ligne où le texte de chaque cellule est remplacé par des tirets `-`. On peut spécifier l'alignement de la colonne en rajoutant un `:` au début (alignement à gauche), un `:` à la fin (alignement à droite) ou un `:` au début et à la fin (centré).

Par exemple, le tableau suivant :

| Titre | Auteur | Genre |
|:----- |:------:| -----:|
| Le Seigneur des anneaux | J. R. R. Tolkien | Fantasy |
| 2001 : l'Odyssée de l'espace | Arthur C. CLarke | Science-fiction |
| Le Trône de fer | George R. R. Martin | Fantasy |
| Le Guide du voyageur galactique | Douglas Adams | Science-fiction |
| L'Assassin royal | Robin Hobb | Fantasy |

a été généré avec le code suivant :

```
| Titre | Auteur | Genre |
|:----- |:------:| -----:|
| Le Seigneur des anneaux | J. R. R. Tolkien | Fantasy |
| 2001 : l'Odyssée de l'espace | Arthur C. CLarke | Science-fiction |
| Le Trône de fer | George R. R. Martin | Fantasy |
| Le Guide du voyageur galactique | Douglas Adams | Science-fiction |
| L'Assassin royal | Robin Hobb | Fantasy |
```

### Support partiel du HTML

Certains éléments de HTML sont supportés avec les notebooks Jupyter.
On a par exemple montré l'utilisation de la balise `<mark>` pour surligner du texte.
On peut également utiliser la balise `<img>` pour afficher et redimensionner une image.
Par exemple, l'image ci-dessous est générée par la commande suivante : `<img width=200 src="https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png">`.

<img width=200 src="https://ensai.fr/wp-content/uploads/2019/05/Ensai-logo.png">

L'utilisation du HTML dans les cellules Markdown d'un notebook Jupyter n'étant pas particulièrement liée à la science des données, on ne fournira pas davantage de détails à ce sujet.

## Cellules de code

Bien que les cellules Markdown soient très utiles pour fournir des informations complémentaires, l'intérêt principal d'un notebook reste d'exécuter des cellules de code.
La cellule ci-dessous définie une fonction Python implémentant la fonction factorielle de manière récursive.

In [1]:
def factorielle_recursive(n: int) -> int:
    if n == 0:
        return 1
    else:
        return n * factorielle_recursive(n - 1)

Après avoir exécuté cette cellule, la fonction est définie et peut donc être appelée. Appelons là dans la cellule suivante.

In [2]:
factorielle_recursive(6)

720

La sortie est affichée en-dessous de la cellule.
Cependant, seule la sortie de la dernière ligne est affichée et seulement si cette ligne ne se trouve pas dans une boucle.
Pour explicitement afficher un résultat, il faut utiliser la fonction native [`print()`](https://docs.python.org/fr/3.13/library/functions.html#print).

In [3]:
factorielle_recursive(6)
factorielle_recursive(5)
factorielle_recursive(4)

24

In [4]:
factorielle_recursive(6), factorielle_recursive(5), factorielle_recursive(4)

(720, 120, 24)

In [5]:
for i in range(8):
    factorielle_recursive(i)

In [6]:
for i in range(8):
    print(f"{i}! = {factorielle_recursive(i)}")

0! = 1
1! = 1
2! = 2
3! = 6
4! = 24
5! = 120
6! = 720
7! = 5040


Le code exécuté est *sauvegardé en mémoire* tant que le **noyau** est actif. Mais qu'est-ce qu'un noyau ?

Les [noyaux](https://docs.jupyter.org/en/stable/projects/kernels.html) (*kernels* en anglais) sont des processus spécifiques à un langage de programmation qui s'exécutent indépendamment et interagissent avec les applications Jupyter et leurs interfaces utilisateur. [ipykernel](https://github.com/ipython/ipykernel) est le noyau Jupyter de référence construit au-dessus d'[IPython](https://ipython.org), fournissant un environnement puissant pour le calcul interactif en Python.

### Exécution de commandes (bash) dans le terminal 

À noter qu'il est possible d'exécuter une commande dans le terminal (dans le répertoire où se trouve le notebook) en démarrant la ligne de code correspondante par un `!` :

In [7]:
! date

Lun 28 avr 2025 14:02:50 CEST


Pour du code bash contenant plusieurs commandes, une possibilité est d'utiliser la [commande magique](https://ipython.readthedocs.io/en/stable/interactive/magics.html) [`%%bash`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#cellmagic-bash) :

In [8]:
%%bash

date
python --version

Lun 28 avr 2025 14:02:51 CEST
Python 3.10.13


### Les commandes magiques [`%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit) et [`%%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit)

Quand on implémente une fonctionnalité, il est courant d'avoir les connaissances nécessaires pour pouvoir implémenter cette fonctionnalité de plusieurs manières différentes.
Dans ce cas de figure, une question fréquente est de savoir quelle implémentation est la plus rapide.

On pourrait faire les comparaisons soi-même en faisant des boucles for (pour exécuter l'implémentation plusieurs fois) et en utilisant la fonction [`time.time()`](https://docs.python.org/fr/3/library/time.html#time.time). Un inconvénient de cette méthode est le nombre d'exécutions, qui doit être défini par le développeur.

Les commandes magiques [`%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit) et [`%%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit) répondent à ce besoin. La commande magique `%timeit` s'utilise en une seule ligne, tandis que la commande magique `%%timeit` s'utilise pour toute la cellule. On peut spécifier le nombre d'exécutions, mais il est pratique de leur laisser déterminer automatiquement le nombre de répétitions (autant que possible du moment que le résultat final est renvoyé en quelques secondes).

In [9]:
%timeit 1 + 3

4.48 ns ± 0.0649 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)


In [10]:
%%timeit

a = 1
b = 3
a + b

17.4 ns ± 0.11 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)


Implémentons la factorielle d'une manière non récursive.

In [11]:
def factorielle_nonrecursive(n: int) -> int:
    res = 1
    for i in range(2, n + 1):
        res *= i
    return res

In [12]:
factorielle_recursive(6), factorielle_nonrecursive(6)

(720, 720)

Comparons les temps d'exécution pour différentes valeurs de $n$ : $n \in [3, 30, 300]$

In [13]:
%timeit factorielle_recursive(3)

228 ns ± 5.2 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [14]:
%timeit factorielle_nonrecursive(3)

151 ns ± 0.833 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [15]:
%timeit factorielle_recursive(30)

2.4 µs ± 24.1 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [16]:
%timeit factorielle_nonrecursive(30)

957 ns ± 7.61 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [17]:
%timeit factorielle_recursive(300)

43.3 µs ± 568 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [18]:
%timeit factorielle_nonrecursive(300)

21.9 µs ± 177 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


On remarque que l'implémentation non récursive est un peu plus rapide que celle récursive.
De plus, la version récursive ne va pas marcher pour de grandes valeurs de $n$ car il existe un nombre maximum de récursions possibles en Python.

In [19]:
import sys; sys.getrecursionlimit()

3000

Aucune erreur n'est levée avec l'implémentation non récursive (on supprime l'affichage du nombre car il contient trop de chiffres, une erreur est levée sinon).

In [20]:
_ = factorielle_nonrecursive(sys.getrecursionlimit())

Avec l'implémentation récursive, une erreur est bien levée si on dépasse cette valeur.

In [21]:
_ = factorielle_recursive(sys.getrecursionlimit())

RecursionError: maximum recursion depth exceeded in comparison

## Informations à garder en tête


### Attendus d'un notebook Jupyter


* **Les cellules d'un notebook Jupyter sont exécutées une par une, de la première à la dernière, dans l'ordre.**


### Liste non-exhaustive de bêtises possibles


* **Exécuter les cellules dans le désordre** : Si le code d'une cellule précédente dépend d'une cellule suivante, vous n'aurez peut-être pas d'erreur en exécutant d'abord la cellule suivante puis la cellule précédente. En revanche, après redémarrage du noyau, exécuter les cellules dans l'ordre lévera une erreur.

* **Supprimer une cellule précédemment exécutée** : Les variables, fonctions et classes définies dans cette cellule restent disponibles tant que le noyau n'est pas éteint ou redémarré. Si une autre cellule dépendait du code contenu dans la cellule supprimée, une erreur sera forcément levée lors de la prochaine exécution après redémarrage du noyau.


### Règle à respecter avant de fermer un notebook


* **Redémarrer le noyau puis exécuter tout le notebook** (`Run > Restart Kernel and Run All Cells` sur JupyerLab, `Noyau > Redémarrer & tout exécuter` sur Jupyter Notebook) **et vérifier que tout le notebook s'exécute bien dans sa totalité et que la sortie de chaque cellule correspond bien à la sortie attendue.**