# Appliquer les concepts étudiés à un projet de data science

Un rapport innovant

Romain Avouac et Lino Galiana

L’objectif de cette mise en application est d’**illustrer les
différentes étapes qui séparent la phase de développement d’un projet de
celle de la mise en production**. Elle permettra de mettre en pratique
les différents concepts présentés tout au long du cours.

Nous nous plaçons dans une situation initiale correspondant à la fin de
la phase de développement d’un projet de data science. On a un notebook
un peu monolithique, qui réalise les étapes classiques d’un *pipeline*
de *machine learning* :

-   Import de données ;
-   Statistiques descriptives et visualisations ;
-   *Feature engineering* ;
-   Entraînement d’un modèle ;
-   Evaluation du modèle

**L’objectif est d’améliorer le projet de manière incrémentale jusqu’à
pouvoir le mettre en production, en le valorisant sous une forme
adaptée.**

> **Important**
>
> Il est important de bien lire les consignes et d’y aller
> progressivement. Certaines étapes peuvent être rapides, d’autres plus
> fastidieuses ; certaines être assez guidées, d’autres vous laisser
> plus de liberté. Si vous n’effectuez pas une étape, vous risquez de ne
> pas pouvoir passer à l’étape suivante qui en dépend.
>
> Bien que l’exercice soit applicable sur toute configuration bien
> faite, nous recommandons de privilégier l’utilisation du [SSP
> Cloud](https://datalab.sspcloud.fr/home), où tous les outils
> nécessaires sont pré-installés et pré-configurés.

# Partie 1 : application des bonnes pratiques

Cette première partie vise à **rendre le projet conforme aux bonnes
pratiques** présentées dans le cours.

Elle fait intervenir les notions suivantes :

-   Utilisation du **terminal** (voir [Linux
    101](/chapters/linux-101.html)) ;
-   **Qualité du code** (voir [Qualité du
    code](/chapters/code-quality.html)) ;
-   **Architecture de projets** (voir [Architecture des
    projets](/chapters/projects-architecture.html)) ;
-   **Contrôle de version** avec `Git` (voir [Rappels
    `Git`](/chapters/git.qmd)) ;
-   **Travail collaboratif** avec `Git` et `GitHub` (voir [Rappels
    `Git`](/chapters/git.qmd)).

Le plan de la partie est le suivant :

1.  0️⃣ *Forker* le dépôt et créer une branche de travail
2.  1️⃣ S’assurer que le *notebook* s’exécute correctement
3.  2️⃣ Modularisation : mise en fonctions et mise en module
4.  3️⃣ Utiliser un `main` script
5.  4️⃣ Appliquer les standards de qualité de code
6.  5️⃣ Adopter une architecture standardisée de projet
7.  6️⃣ Fixer l’environnement d’exécution
8.  7️⃣ Stocker les données de manière externe
9.  8️⃣ Nettoyer le projet `Git`
10. 9️⃣ Ouvrir une *pull request* sur le dépôt du projet.

Nous allons partir de ce *Notebook* `Jupyter`, que vous pouvez
prévisualiser voire tester en cliquant sur l’un des liens suivants:

<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=false&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fensae-reproductibilite-website%2Fmaster%2Fpreview-notebook.sh%C2%BB" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20notebook%20sur%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a>
<a href="http://colab.research.google.com/github/linogaliana/ensae-reproductibilite-application/blob/main/titanic.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>

## Etape 0: forker le dépôt d’exemple et créer une branche de travail

-   Ouvrir un service `VSCode` sur le [SSP
    Cloud](https://datalab.sspcloud.fr/home). Vous pouvez aller dans la
    page `My Services` et cliquer sur `New service`. Sinon, vous pouvez
    lancer le service en cliquant directement
    [ici](https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=false).

-   Générer un jeton d’accès (*token*) sur `GitHub` afin de permettre
    l’authentification en ligne de commande à votre compte. La procédure
    est décrite
    [ici](https://docs.sspcloud.fr/onyxia-guide/controle-de-version#creer-un-jeton-dacces-token).
    Garder le jeton généré de côté.

-   Forker le dépôt `Github` :
    https://github.com/linogaliana/ensae-reproductibilite-application

-   Clôner **votre** dépôt `Github` en utilisant le terminal depuis
    `Visual Studio` (`Terminal > New Terminal`) :

``` shell
$ git clone https://<TOKEN>@github.com/<USERNAME>/ensae-reproductibilite-application.git
```

où `<TOKEN>` et `<USERNAME>` sont à remplacer, respectivement, par le
jeton que vous avez généré précédemment et votre nom d’utilisateur.

-   Se placer avec le terminal dans le dossier en question :

``` shell
$ cd ensae-reproductibilite-application
```

-   Créez une branche `nettoyage` :

``` shell
$ git checkout -b nettoyage
Switched to a new branch 'nettoyage'
```

## Etape 1 : s’assurer que le script s’exécute correctement

On va partir du fichier `notebook.py` qui reprend le contenu du
*notebook*[1] mais dans un script classique.

La première étape est simple, mais souvent oubliée : **vérifier que le
code fonctionne correctement**.

> **Application 1: corriger les erreurs**
>
> -   Ouvrir dans `VSCode` le script `titanic.py` ;
> -   Exécuter le script ligne à ligne pour détecter les erreurs ;
> -   Corriger les deux erreurs qui empêchent la bonne exécution ;
> -   Vérifier le fonctionnement du script en utilisant la ligne de
>     commande
>
> ``` shell
> python titanic.py
> ```

Il est maintenant temps de *commit* les changements effectués avec
`Git`[2] :

``` shell
$ git add titanic.py
$ git commit -m "Corrige l'erreur qui empêchait l'exécution"
$ git push
```

> **Checkpoint**
>
> [Script
> *checkpoint*](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application1/titanic.py)

## Etape 2: utiliser un *linter* puis un *formatter*

On va maintenant améliorer la qualité de notre code en appliquant les
standards communautaires. Pour cela, on va utiliser le *linter*
classique [`PyLint`](https://pylint.readthedocs.io/en/latest/).

> **Note**
>
> N’hésitez pas à taper un code d’erreur sur un moteur de recherche pour
> obtenir plus d’informations si jamais le message n’est pas clair !

Pour appliquer le *linter* à un script `.py`, la syntaxe à entrer dans
le terminal est la suivante :

``` shell
$ pylint mon_script.py
```

> **Important**
>
> [`PyLint`](https://pylint.readthedocs.io/en/latest/) et
> [`Black`](https://black.readthedocs.io/en/stable/) sont des *packages*
> `Python` qui s’utilisent principalement en ligne de commande.
>
> Si vous avez une erreur qui suggère que votre terminal ne connait pas
> [`PyLint`](https://pylint.readthedocs.io/en/latest/) ou
> [`Black`](https://black.readthedocs.io/en/stable/), n’oubliez pas
> d’exécuter la commande `pip install pylint` ou `pip install black`.

Le *linter* renvoie alors une série d’irrégularités, en précisant à
chaque fois la ligne de l’erreur et le message d’erreur associé (ex :
mauvaise identation). Il renvoie finalement une note sur 10, qui estime
la qualité du code à l’aune des standards communautaires évoqués dans la
partie [Qualité du code](/chapters/code-quality.html).

> **Application 2: rendre lisible le script**
>
> -   Diagnostiquer et évaluer la qualité de `titanic.py` avec
>     [`PyLint`](https://pylint.readthedocs.io/en/latest/). Regarder la
>     note obtenue.
> -   Utiliser `black titanic.py --diff --color` pour observer les
>     changements de forme que va induire l’utilisation du *formatter*
>     [`Black`](https://black.readthedocs.io/en/stable/)
> -   Appliquer le *formatter*
>     [`Black`](https://black.readthedocs.io/en/stable/)
> -   Réutiliser [`PyLint`](https://pylint.readthedocs.io/en/latest/)
>     pour diagnostiquer l’amélioration de la qualité du script et le
>     travail qui reste à faire.
> -   Comme la majorité du travail restant est à consacrer aux imports:
>     -   Mettre tous les *imports* ensemble en début de script
>     -   Retirer les *imports* redondants en s’aidant des diagnostics
>         de votre éditeur
>     -   Réordonner les *imports* si
>         [`PyLint`](https://pylint.readthedocs.io/en/latest/) vous
>         indique de le faire
>     -   Corriger les dernières fautes formelles suggérées par
>         [`PyLint`](https://pylint.readthedocs.io/en/latest/)
> -   Délimiter des parties dans votre code pour rendre sa structure
>     plus lisible

Le code est maintenant lisible, il obtient à ce stade une note formelle
proche de 10. Mais il n’est pas encore totalement intelligible ou
fiable. Il y a notamment beaucoup de redondance de code auxquelles nous
allons nous attaquer par la suite. Néanmoins, avant cela, occupons-nous
de mieux gérer certains paramètres du script: jetons d’API et chemin des
fichiers.

> **Checkpoint**
>
> [`titanic.py`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/titanic.py)

## Etape 3: gestion des paramètres

L’exécution du code et les résultats obtenus dépendent de certains
paramètres. L’étude de résultats alternatifs, en jouant sur des
variantes des paramètres, est à ce stade compliquée car il est
nécessaire de parcourir le code pour trouver ces paramètres. De plus,
certains paramètres personnels comme des jetons d’API ou des mots de
passe n’ont pas vocation à être présents dans le code.

Il est plus judicieux de considérer ces paramètres comme des variables
d’entrée du script. Cela peut être fait de deux manières:

1.  Avec des arguments optionnels appelés depuis la ligne de commande.
    Cela peut être pratique pour mettre en oeuvre des tests
    automatisés[3] mais n’est pas forcément pertinent pour toutes les
    variables. Nous allons montrer cet usage avec le nombre d’arbres de
    notre *random forest* ;
2.  En utilisant un fichier de configuration dont les valeurs sont
    importées dans le script principal. Nous allons le mettre en oeuvre
    pour deux types de fichiers: les éléments de configuration à
    partager et ceux à conserver pour soi mais pouvant servir.

> **Paramétrisation du script**
>
> 1.  En s’inspirant de [cette
>     réponse](https://stackoverflow.com/a/69377311/9197726), créer une
>     variable `n_trees` qui peut éventuellement être paramétrée en
>     ligne de commande et dont la valeur par défaut est 20.
> 2.  Tester cette paramétrisation en ligne de commande avec la valeur
>     par défaut puis 2, 10 et 50 arbres
> 3.  Repérer le jeton d’API dans le code. Retirer le jeton d’API du
>     code et créer à la racine du projet un fichier YAML nommé
>     `secrets.yaml` où vous écrivez ce secret sous la forme
>     `key: value`
> 4.  Pour éviter d’avoir à le faire plus tard, créer une fonction
>     `import_yaml_config` qui prend en argument le chemin d’un fichier
>     `YAML` et renvoie le contenu de celui-ci en *output*. Vous pouvez
>     suivre le conseil du chapitre sur la [Qualité du
>     code](/chapters/code-quality.html) en adoptant le *type hinting*.
> 5.  Créer la variable `API_TOKEN` ayant la valeur stockée dans
>     `secrets.yaml`.
> 6.  Tester en ligne de commande que l’exécution du fichier est
>     toujours sans erreur
> 7.  Refaire un diagnostic avec
>     [`PyLint`](https://pylint.readthedocs.io/en/latest/) et corriger
>     les éventuels messages.
> 8.  Créer un fichier `config.yaml` stockant trois informations: le
>     chemin des données d’entraînement, des données de test et la
>     répartition train/test utilisée dans le code. Créer les variables
>     correspondantes dans le code après avoir utilisé
>     `import_yaml_config`
> 9.  Créer un fichier `.gitignore`. Ajouter dans ce fichier
>     `secrets.yaml` car il ne faut pas committer ce fichier.
> 10. Créer un fichier `README.md` où vous indiquez qu’il faut créer un
>     fichier `secrets.yaml` pour pouvoir utiliser l’API.
>
> <details>
>
> <summary>
>
> Indice si vous ne trouvez pas comment lire un fichier `YAML`
>
> </summary>
>
> Si le fichier s’appelle `toto.yaml`, vous pouvez l’importer de cette
> manière:
>
> ``` python
> with open("toto.yaml", "r", encoding="utf-8") as stream:
>     dict_config = yaml.safe_load(stream)
> ```
>
> </details>

> **Checkpoint**
>
> -   [`titanic.py`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/titanic.py)
> -   [`README.md`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/readme.md)
> -   [`config.yaml`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/config.yaml)
> -   [`secrets.yaml`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/secrets.yaml)
> -   [`.gitignore`](https://raw.githubusercontent.com/linogaliana/ensae-reproductibilite-application/main/checkpoints/application2/.gitignore)

## Etape 2 : Modularisation - mise en fonctions et mise en module

Nous allons **mettre en fonctions les parties importantes de l’analyse,
et les mettre dans un module afin de pouvoir les importer directement
depuis le notebook**. En reformattant le code présent dans le notebook :

-   créer une fonction qui importe les données d’entraînement
    (`train.csv`) et de test (`test.csv`) et renvoie des `DataFrames`
    pandas
-   créer une (ou plusieurs) fonction(s) pour réaliser les étapes de
    *feature engineering*
-   créer une fonction qui réalise le *split train/test* de validation
-   créer une fonction qui entraîne et évalue un classifieur
    `RandomForest`, et qui prend en paramètre le nombre d’arbres
    (`n_estimators`). La fonction doit imprimer à la fin la performance
    obtenue et la matrice de confusion.
-   mettre ces fonctions dans un module `functions.py`
-   importer les fonctions via le module dans le notebook et vérifier
    que l’on retrouve bien les différents résultats en utilisant les
    fonctions.

{{% box status=“warning” title=“Warning” icon=“fa
fa-exclamation-triangle” %}} Attention à bien **spécifier les
dépendances** (packages à importer) dans le module pour que les
fonctions puissent faire leur travail indépendamment du notebook ! {{%
/box %}}

## Etape 3 : utiliser un `main` script

Fini le temps de l’expérimentation : on va maintenant essayer de se
passer complètement du notebook. Pour cela, on va utiliser un `main`
script, c’est à dire un script qui reproduit l’analyse en important et
en exécutant les différentes fonctions dans l’ordre attendu.

-   créer un script `main.py` (convention de nommage pour les `main`
    scripts en Python)
-   importer les fonctions nécessaires à partir du module
    `functions.py`. Ne pas faire d’ `import *`, ce n’est pas une bonne
    pratique ! Appeler les fonctions une par une en les séparant par des
    virgules
-   programmer leur exécution dans l’ordre attendu dans le script
-   vérifier que tout fonctionne bien en exécutant le `main` script à
    partir de l’exécutable Python :

``` shell
$ python main.py
```

Si tout a correctement fonctionné, la performance du `RandomForest` et
la matrice de confusion devraient s’afficher dans la console.

## Etape 5 : adopter une architecture standardisée de projet

On va maintenant modifier l’architecture de notre projet pour la rendre
plus standardisée. Pour cela, on va utiliser le package *cookiecutter*
qui génère des templates de projet. En particulier, on va choisir le
[template
datascience](https://drivendata.github.io/cookiecutter-data-science/)
développé par la communauté pour s’inspirer de sa structure.

{{% box status=“tip” title=“Note” icon=“fa fa-hint” %}} L’idée de
*cookiecutter* est de proposer des templates que l’on utilise pour
initialiser un projet, afin de bâtir à l’avance une structure évolutive.
La syntaxe à utiliser dans ce cas est la suivante :

``` shell
$ pip install cookiecutter
$ cookiecutter https://github.com/drivendata/cookiecutter-data-science
```

Ici, on a déjà un projet, on va donc faire les choses dans l’autre sens
: on va s’inspirer de la structure proposée afin de réorganiser celle de
notre projet selon les standards communautaires. {{% /box %}}

-   analyser et comprendre la [structure de
    projet](https://drivendata.github.io/cookiecutter-data-science/#directory-structure)
    proposée par le template
-   créer les dossiers qui vous semblent pertinents pour contenir les
    différents éléments de notre projet selon le modèle
-   vous aller devoir séparer le module `functions.py` en différents
    modules afin de pouvoir entrer dans la structure suggérée dans le
    dossier `src` (le dossier destiné à contenir le code source de votre
    package)
-   vous devriez arriver à une structure semblable à celle-ci :

``` shell
ensae-reproductibilite-projet
├── data
│   └── raw
│       ├── test.csv
│       └── train.csv
├── main.py
├── notebooks
│   └── titanic.ipynb
├── README.md
└── src
    ├── data
    │   ├── import_data.py
    │   └── train_test_split.py
    ├── features
    │   └── build_features.py
    └── models
        └── train_evaluate.py
```

{{% box status=“tip” title=“Note” icon=“fa fa-hint” %}} Il est normal
d’avoir des dossiers `__pycache__` qui traînent : ils se créent
automatiquement à l’exécution d’un script en Python. On verra comment
les supprimer définitivement à l’étape 8. {{% /box %}}

## Etape 6 : fixer l’environnement d’exécution

Afin de favoriser la portabilité du projet, il est d’usage de “fixer
l’environnement”, c’est à dire d’indiquer dans un fichier toutes les
dépendances utilisées ainsi que leurs version. Il est
conventionnellement localisé à la racine du projet.

Sur le VSCode du SSP Cloud, on se situe dans un environnement `conda`.
La commande pour exporter un environnement `conda` est la suivante :

``` shell
$ conda env export > environment.yml
```

Vous devriez à présent avoir un fichier `environement.yml` à la racine
de votre projet, qui contient les dépendances et leurs versions.

{{% box status=“tip” title=“Note” icon=“fa fa-hint” %}} En réalité, on
aun peu triché : on a exporté l’environnement de base du VSCode SSP
Cloud, qui contient beaucoup plus de packages que ceux utilisés par
notre projet. On verra dans la [Partie 2](#partie2) de l’application
comment fixer proprement les dépendances de notre projet. {{% /box %}}

## Etape 7 : stocker les données de manière externe

{{% box status=“warning” title=“Warning” icon=“fa
fa-exclamation-triangle” %}} Cette étape n’est pas facile. Vous devrez
suivre la [documentation du SSP
Cloud](https://docs.sspcloud.fr/onyxia-guide/stockage-de-donnees) pour
la réaliser. Une aide-mémoire est également disponible dans le cours de
[Python pour les
data-scientists](https://linogaliana-teaching.netlify.app/reads3/#) {{%
/box %}}

Comme on l’a vu dans le cours, les données ne sont pas censées être
versionnées sur un projet Git. L’idéal pour éviter cela tout en
maintenant la reproductibilité est d’utiliser une solution de stockage
externe. On va utiliser pour cela `MinIO`, la solution de stockage de
type `S3` offerte par le SSP Cloud.

-   créer un dossier `ensae-reproductibilite` dans votre bucket
    personnel via l’[interface
    utilisateur](https://datalab.sspcloud.fr/mes-fichiers)
-   modifier votre fonction d’import des données pour qu’elle récupère
    les données à partir de MinIO. Elle devra prendre en paramètres le
    nom du bucket et le dossier dans lequel sont contenues les données
    sur MinIO.
-   modifier le `main` script pour appeler la fonction avec les
    paramètres propres à votre compte
-   supprimer les fichiers `.csv` du dossier `data` de votre projet, on
    n’en a plus besoin vu qu’on les importe de l’extérieur
-   vérifier le bon fonctionnement de votre application

[1] L’export dans un script `.py` a été fait avec
[`Jupytext`](https://jupytext.readthedocs.io/en/latest/index.html).
Comme cela n’est pas vraiment l’objet du cours, nous passons cette étape
et fournissons directement le script. Mais n’oubliez pas que cette
démarche, fréquente quand on a démarré sur un *notebook* et qu’on désire
consolider en faisant la transition vers des scripts, nécessite d’être
attentif pour ne pas risquer de faire une erreur.

[2] Essayez de *commit* vos changements à chaque étape de l’exercice,
c’est une bonne habitude à prendre.

[3] Nous le verrons lorsque nous mettrons en oeuvre l’intégration
continue.

## Etape 8 : nettoyer le dépôt Git

Des dossiers parasites `__pycache__` se sont glissés dans notre projet.
Ils se créent automatiquement à l’exécution d’un script en Python, afin
de rendre plus rapide les exécutions ultérieures. Ils n’ont cependant
pas de raison d’être versionnés, vu que ce sont des fichiers locaux
(spécifiques à un environnement d’exécution donné).

-   supprimer les différents dossiers `__pycache__` du projet
-   ajouter le [fichier .gitignore adapté à
    Python](https://github.com/github/gitignore/blob/main/Python.gitignore)
    à la racine du projet
-   ajouter le dossier `data/` au `.gitignore` pour éviter tout ajout
    involontaire de données au dépôt Git

{{% box status=“tip” title=“Note” icon=“fa fa-hint” %}} En pratique,
mieux vaut adopter l’habitude de toujours mettre un `.gitignore`,
pertinent selon le langage du projet, dès le début du projet. `GitHub`
offre cette option à l’initialisation d’un projet. Le site
[gitignore.io](https://www.toptal.com/developers/gitignore) propose des
modèles selon le langage que vous utilisez qui peuvent être utiles. {{%
/box %}}

## Etape 9 : ouvrir une *pull request* sur le dépôt du projet

Enfin terminé ! Enfin presque… On s’est donné beaucoup de mal à nettoyer
ce dépôt et le mettre aux standards, autant valoriser ce travail. On va
pour cela faire une *pull request* sur le [dépôt du projet
initial](https://github.com/avouacr/ensae-reproductibilite-projet),
c’est à dire proposer à l’auteur d’intégrer tous les changements que
vous avez effectué en committant à chaque étape.

Suivre la procédure décrite dans la [documentation
GitHub](https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/proposing-changes-to-your-work-with-pull-requests/creating-a-pull-request-from-a-fork)
pour créer une *pull request* à partir de votre *fork*. Pour la branche
*upstream* (le dépôt cible), on va choisir `master`. Par contre, pour la
branche locale (celle sur votre dépôt), on va choisir la branche
`nettoyage`.

Si tout s’est bien passé, vous devriez à présent voir votre *pull
request* sur le dépôt cible
([ici](https://github.com/avouacr/ensae-reproductibilite-projet/pulls)).
Bravo, vous venez de faire votre première contribution à l’open source !

{{% box status=“warning” title=“Warning” icon=“fa
fa-exclamation-triangle” %}} Faire une *pull request* via la branche
`master` d’un *fork* est très mal vu. En effet, il faut souvent faire
des contorsionnements pour réussir à faire coïncider deux histoires qui
n’ont pas de raison de coïncider. On s’évite beaucoup de problèmes en
prenant l’habitude de toujours faire ses *pull requests* à partir d’une
autre branche que `master`. {{% /box %}}

# Partie 2 : construction d’un projet portable et reproductible

Dans la partie précédente, on a appliqué de manière incrémentale de
nombreuses bonnes pratiques vues tout au long du cours. Ce faisant, on
s’est déjà considérablement rapprochés d’une possible mise en production
: le code est lisible, la structure du projet est normalisée et
évolutive, et le code est proprement versionné sur un dépôt `GitHub`
<i class="fab fa-github"></i>.

A présent, nous avons une version du projet qui est largement
partageable. Du moins en théorie, car la pratique est souvent plus
compliquée : il y a fort à parier que si vous essayez d’exécuter votre
projet sur un autre environnement (typiquement, votre ordinateur
personnel), les choses ne se passent pas du tout comme attendu. Cela
signifie qu’**en l’état, le projet n’est pas portable : il n’est pas
possible, sans modifications coûteuses, de l’exécuter dans un
environnement différent de celui dans lequel il a été développé**.

Dans cette seconde partie, nous allons voir comment **normaliser
l’environnement d’exécution afin de produire un projet portable**. On
sera alors tout proche de pouvoir mettre le projet en production. On
progressera dans l’échelle de la reproductibilité de la manière
suivante: - 1️⃣ [**Gérer des variables d’environnement hors du
code**](#configyaml) ; - 2️⃣ [**Environnements virtuels**](#anaconda) ; -
3️⃣ [**Images et conteneurs `Docker`**](#docker).

## Etape 1: créer un répertoire de variables servant d’input

### Enjeu

Lors de l’[étape 7](#stockageS3), nous avons amélioré la qualité du
script en séparant stockage et code. Cependant, peut-être avez-vous
remarqué que nous avons introduit un nom de *bucket* personnel dans le
script (voir [le fichier
`main.py`](https://github.com/linogaliana/ensae-reproductibilite-projet-1/blob/v7/main.py#L9)).
Il s’agit typiquement du genre de petit vice caché d’un script qui peut
générer une erreur: vous n’avez pas accès au bucket en question donc si
vous essayez de faire tourner ce script en l’état, vous allez rencontrer
une erreur.

Une bonne pratique pour gérer ce type de configuration est d’utiliser un
fichier `YAML` qui stocke de manière hiérarchisée les variables globales
[1].

En l’occurrence, nous n’avons besoin que de deux éléments pour pouvoir
dé-personnaliser ce script :

-   le nom du bucket
-   l’emplacement dans le bucket

### Application

Dans `VSCode`, créer un fichier nommé `config.yaml` et le localiser à la
racine de votre dépôt. Voici, une proposition de hiérarchisation de
l’information que vous devez adapter à votre nom d’utilisateur :

``` yaml
input:
  bucket: "lgaliana"
  path: "ensae-reproductibilite"
```

Dans `main.py`, importer ce fichier et remplacer la ligne précédemment
évoquée par les valeurs du fichier. Tester en faisant tourner `main.py`
<!-----
https://github.com/linogaliana/ensae-reproductibilite-projet-1/commit/4a9d935223b6af366d4cf2a2a208d98a25407fc6
----->

## Etape 2 : créer un environnement conda à partir du fichier `environment.yml`

L’environnement `conda` créé avec `conda env export` ([étape
6](#conda-export)) contient énormément de dépendances, dont de
nombreuses qui ne nous sont pas nécessaires (il en serait de même avec
`pip freeze`). Nous n’avons en effet besoin que des *packages* présents
dans la section `import` de nos scripts et les dépendances nécessaires
pour que ces *packages* soient fonctionnels.

Vous allez chercher à obtenir un `environment.yml` beaucoup plus
parcimonieux que celui généré par `conda env export`

{{< panelset class=“simplification” >}}

{{% panel name=“Approche générale 🐨” %}}

Le tableau récapitulatif présent dans la [partie
portabilité](/portability/#aide-mémoire) peut être utile dans cette
partie. L’idée est de partir *from scratch* et figer l’environnement qui
permet d’avoir une appli fonctionnelle.

-   Créer un environnement vide avec `Python 3.10` <!---
    conda create -n monenv python=3.10.0
    ---->

-   Activer cet environnement

-   Installer en ligne de commande avec `pip` les packages nécessaires
    pour faire tourner votre code

[1] Le format `YAML` est un format de fichier où les informations sont
hiérarchisées. Avec le *package* `YAML` on peut très facilement le
transformer en `dict`, ce qui est très pratique pour accéder à une
information.

-   Faire un `pip freeze > requirements.txt` ou
    `conda env export > environment.yml` (privilégier la deuxième
    option)

-   Retirer la section `prefix` (si elle est présente) et changer la
    section `name` en `monenv`

{{% /panel %}}

{{% panel name=“Approche fainéante 🦥” %}}

Nous allons générer une version plus minimaliste grâce à l’utilitaire
[`pipreqs`](https://github.com/bndr/pipreqs)

-   Installer `pipreqs` en `pip install`
-   En ligne de commande, depuis la racine du projet, faire `pipreqs`
-   Ouvrir le `requirements.txt` automatiquement généré. Il est beaucoup
    plus minimal que celui que vous obtiendriez avec `pip freeze` ou
    l’`environment.yml` obtenu à [l’étape 6](#conda-export).
-   Remplacer toute la section `dependencies` du `environment.yml` par
    le contenu du `requirements.txt` (⚠️ ne pas oublier l’indentation et
    le tiret en début de ligne)
-   ⚠️ Modifier le tiret à `scikit learn`. Il ne faut pas un
    *underscore* mais un tiret
-   Ajouter la version de python (par exemple `python=3.10.0`) au début
    de la section `dependencies`
-   Retirer la section `prefix` du fichier `environment.yml` (si elle
    est présente) et changer le contenu de la section `name` en `monenv`
-   Créer l’environnement ([voir le tableau récapitulatif dans la partie
    portabilité](/portability/#aide-mémoire))

{{% /panel %}}

{{% /panelset %}}

Maintenant, il reste à tester si tout fonctionne bien dans notre
environnement plus minimaliste:

-   Activer l’environnement
-   Tester votre script en ligne de commande
-   Faire un `commit` quand vous êtes contents

## Etape 3: conteneuriser avec Docker <i class="fab fa-docker"></i>

### Préliminaire

-   Se rendre sur l’environnement bac à sable [Play with
    Docker](https://labs.play-with-docker.com)
-   Dans le terminal `Linux`, cloner votre dépôt `Github`
    <i class="fab fa-github"></i>
-   Créer via la ligne de commande un fichier `Dockerfile`. Il y a
    plusieurs manières de procéder, en voici un exemple:

``` shell
echo "#Dockerfile pour reproduire mon super travail" > Dockerfile
```

-   Ouvrir ce fichier via l’éditeur proposé par l’environnement bac à
    sable.

### Création d’un premier Dockerfile

-   1️⃣ Comme couche de départ, partir d’une image légère comme
    `ubuntu:20.04`
-   2️⃣ Dans une deuxième couche, faire un `apt get -y update` et
    installer `wget` qui va être nécessaire pour télécharger `Miniconda`
    depuis la ligne de commande
-   3️⃣ Dans la troisième couche, nous allons installer `Miniconda` :
    -   Télécharger la dernière version de `Miniconda` avec `wget`
        depuis l’url de téléchargement direct
        https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    -   Installer `Miniconda` dans le chemin
        `/home/coder/local/bin/conda`
    -   Effacer le fichier d’installation pour libérer de la place sur
        l’image
-   4️⃣ En quatrième couche, on va installer `mamba` pour accélérer
    l’installation des packages dans notre environnement.
-   5️⃣ En cinquième couche, nous allons créer l’environnement `conda`:
    -   Utiliser `COPY` pour que `Docker` soit en mesure d’utiliser le
        fichier `environment.yml` (sinon `Docker` renverra une erreur)
    -   Créer l’environnement vide `monenv` (présentant uniquement
        `Python` 3.10) avec la commande `conda` adéquate
    -   Mettre à jour l’environnement en utilisant `environment.yml`
        avec `mamba`
-   6️⃣ Utiliser `ENV` pour ajouter l’environnement `monenv` au `PATH` et
    utiliser le *fix* suivant:

``` python
RUN echo "export PATH=$PATH" >> /home/coder/.bashrc  # Temporary fix while PATH gets overwritten by code-server
```

-   7️⃣ Exposer sur le port `5000`
-   8️⃣ En dernière étape, utiliser `CMD` pour reproduire le comportement
    de `python main.py`

{{% box status=“hint” title=“Hint: `mamba`” icon=“fa fa-lightbulb” %}}
`mamba` est une alternative à `conda` pour installer des *packages* dans
un environnement `Miniconda`/`Anaconda`. `mamba` n’est pas obligatoire,
`conda` peut suffire. Cependant, `mamba` est beaucoup plus rapide que
`conda` pour installer des packages à installer ; il s’agit donc d’un
utilitaire très pratique. {{% /box %}}

{{< panelset class=“nommage” >}}

{{% panel name=“Indications supplémentaires” %}}

Cliquer sur les onglets ci-dessus 👆 pour bénéficier d’indications
supplémentaires, pour vous aider. Cependant, essayez de ne pas les
consulter immédiatement: n’hésitez pas à tâtonner.

{{% /panel %}}

{{% panel name=“Installation de Miniconda” %}}

``` shell
# INSTALL MINICONDA -------------------------------
ARG CONDA_DIR=/home/coder/local/bin/conda
RUN wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
RUN bash Miniconda3-latest-Linux-x86_64.sh -b -p $CONDA_DIR
RUN rm -f Miniconda3-latest-Linux-x86_64.sh
```

{{% /panel %}}

{{% panel name=“Installation de mamba” %}}

``` shell
ENV PATH="/home/coder/local/bin/conda/bin:${PATH}"
RUN conda install mamba -n base -c conda-forge
```

{{% /panel %}}

{{% panel name=“Création de l’environnement” %}}

``` shell
COPY environment.yml .
RUN conda create -n monenv python=3.10
RUN mamba env update -n monenv -f environment.yml
```

{{% /panel %}}

{{< /panelset >}}

### Construire l’image

Maintenant, nous avons défini notre recette. Il nous reste à faire notre
plat et à le goûter

-   Utiliser `docker build` pour créer une image avec le tag
    `my-python-app`
-   Vérifier les images dont vous disposez. Vous devriez avoir un
    résultat proche de celui-ci

``` shell
REPOSITORY      TAG       IMAGE ID       CREATED         SIZE
my-python-app   latest    c0dfa42d8520   6 minutes ago   2.23GB
ubuntu          20.04     825d55fb6340   6 days ago      72.8MB
```

### Tester l’image: découverte du cache

Il ne reste plus qu’à goûter la recette et voir si le plat est bon.

Utiliser `docker run` avec l’option `it` pour pouvoir appeler l’image
depuis son tag

⚠️ 💣 🔥 `Docker` ne sait pas où trouver le fichier `main.py`.
D’ailleurs, il ne connait pas d’autres fichiers de notre application qui
sont nécessaires pour faire tourner le code: `config.yaml` et le dossier
`src`

-   Avant l’étape `EXPOSE` utiliser plusieurs `ADD` et/ou `COPY` pour
    que l’application dispose de tous les éléments minimaux pour être en
    mesure de fonctionner

-   Refaire tourner `docker run` <!---
    docker run -it my-python-app
    --->

{{% box status=“tip” title=“Note” icon=“fa fa-hint” %}} Ici, le *cache*
permet d’économiser beaucoup de temps. Par besoin de refaire tourner
toutes les étapes, `Docker` agit de manière intelligente en faisant
tourner uniquement les nouvelles étapes. {{% /box %}}

### Corriger une faille de reproductibilité

Vous devriez rencontrer une erreur liée à la variable d’environnement
`AWS_ENDPOINT_URL`. C’est normal, elle est inconnue de cet environnement
minimaliste. D’ailleurs, `Docker` n’a aucune raison de connaître votre
espace de stockage sur le `S3` du `SSP-Cloud` si vous ne lui dites pas.
Donc cet environnement ne sait pas comment accéder aux fichiers présents
dans votre `minio`.

Vous allez régler ce problème avec les étapes suivantes, :

-   1️⃣ Naviguer dans l’[interface du
    SSP-Cloud](https://datalab.sspcloud.fr/mes-fichiers) pour retrouver
    les liens d’accès direct de vos fichiers
-   2️⃣ Dans `VSCode`, les mettre dans `config.yaml` (faire de nouvelles
    clés)
-   3️⃣ Dans `VSCode`, modifier la fonction d’import pour s’adapter à ce
    changement.
-   4️⃣ Faire un `commit` et pusher les fichiers
-   5️⃣ Dans l’environnement bac à sable, faire un `pull` pour récupérer
    ces modifications
-   6️⃣ Tester à nouveau le `build` (là encore le *cache* est bien
    pratique !)

🎉 A ce stade, la matrice de confusion doit fonctionner. Vous avez créé
votre première application reproductible !

# Partie 3 : mise en production

Une image `Docker` est un livrable qui n’est pas forcément intéressant
pour tous les publics. Certains préféreront avoir un plat bien préparé
qu’une recette. Nous allons donc proposer d’aller plus loin en proposant
plusieurs types de livrables. Cela va nous amener à découvrir les outils
du CI/CD (*Continuous Integration / Continuous Delivery*) qui sont au
coeur de l’approche `DevOps`. Notre approche appliquée au *machine
learning* va nous entraîner plutôt du côté du `MLOps` qui devient une
approche de plus en plus fréquente dans l’industrie de la *data
science*.

Nous allons améliorer notre approche de trois manières:

-   Automatisation de la création de l’image `Docker` et tests
    automatisés de la qualité du code ;
-   Production d’un site *web* automatisé permettant de documenter et
    valoriser le modèle de *Machine Learning* ;
-   Mise à disposition du modèle entraîné par le biais d’une API pour ne
    pas le ré-entraîner à chaque fois et faciliter sa réutilisation ;

A chaque fois, nous allons d’abord tester en local notre travail puis
essayer d’automatiser cela avec les outils de `Github`.

On va ici utiliser l’intégration continue pour deux objectifs distincts:

-   la mise à disposition de l’image `Docker` ;
-   la mise en place de tests automatisés de la qualité du code sur le
    modèle de notre `linter` précédent

Nous allons utiliser `Github Actions` pour cela.

## Etape préliminaire

Pour ne pas risquer de tout casser sur notre branche `master`, nous
allons nous placer sur une branche nommée `dev`:

-   si dans l’étape suivante vous appliquez la méthode la plus simple,
    vous allez pouvoir la créer depuis l’interface de `Github` ;
-   si vous utilisez l’autre méthode, vous allez devoir la créer en
    local ( via la commande `git checkout -b dev`)

## Etape 1: mise en place de tests automatisés

Avant d’essayer de mettre en oeuvre la création de notre image `Docker`
de manière automatisée, nous allons présenter la logique de
l’intégration continue en généralisant les évaluations de qualité du
code avec le `linter`

{{< panelset class=“nommage” >}}

{{% panel name=“Utilisation d’un *template* `Github` 🐱” %}}

**Methode la plus simple: utilisation d’un *template* Github**

Si vous cliquez sur l’onglet `Actions` de votre dépôt, `Github` vous
propose des *workflows* standardisés reliés à `Python`. Choisir l’option
`Python Package using Anaconda`.

warning: Nous n’allons modifier que deux éléments de ce fichier.

1️⃣ La dernière étape (`Test with pytest`) ne nous est pas nécessaire car
nous n’avons pas de tests unitaires Nous allons donc remplacer celle-ci
par l’utilisation de `pylint` pour avoir une note de qualité du package.

-   Utiliser `pylint` à cette étape pour noter les scripts ;
-   Vous pouvez fixer un score minimal à 5 (option `--fail-under=5`)

2️⃣ Mettre entre guillements la version de `Python` pour que celle-ci
soit reconnue.

3️⃣ Enfin, finaliser la création de ce script:

-   En cliquant sur le bouton `Start Commit`, choisir la méthode
    `Create a new branch for this commit and start a pull request` en
    nommant la branche `dev`
-   Créer la `Pull Request` en lui donnant un nom signifiant

{{% /panel %}}

{{% panel name=“Méthode manuelle” %}}

⚠️ On est plutôt sur une méthode de galérien. Il vaut mieux privilégier
l’autre approche

On va éditer depuis `VisualStudio` nos fichiers.

-   Créer une branche `dev` en ligne de commande
-   Créer un dossier `.github/workflows` via la ligne de commande ou
    l’explorateur de fichier <!---mkdir .github/workflows -p ---->
-   Créer un fichier `.github/workflows/quality.yml`.

Nous allons construire, par étape, une version simplifiée du
`Dockerfile` présent dans [ce
post](https://medium.com/swlh/enhancing-code-quality-with-github-actions-67561c6f7063)
et dans [celui-ci](https://autobencoder.com/2020-08-24-conda-actions/)

1️⃣ D’abord, définissons des paramètres pour indiquer à `Github` quand
faire tourner notre script:

-   Commencez par nommer votre *workflow* par exemple `Python Linting`
    avec la clé `name`
-   Nous allons faire tourner ce *workflow* dans la branche `master` et
    dans la branche actuelle (`dev`). Ici, nous laissons de côté les
    autres éléments (par exemple le fait de faire tourner à chaque *pull
    request*). La clé `on` est dédiée à cet usage

2️⃣ Ensuite, défnissons le contexte d’exécution des tâches (`jobs`) de
notre script dans les options de la partie `build`:

-   Utilisons une machine `ubuntu-latest`. Nous verrons plus tard
    comment améliorer cela.

3️⃣ Nous allons ensuite mélanger des étapes pré-définies (des actions du
*marketplace*) et des instructions que nous faisons :

-   Le *runner* `Github` doit récupérer le contenu de notre dépôt, pour
    cela utiliser l’action `checkout`. Par rapport à l’exemple, il
    convient d’ajouter, pour le moment, un paramètre `ref` avec le nom
    de la branche (par exemple `dev`)
-   ~~On installe ensuite `Python` avec l’action `setup-python`~~ Pas
    besoin d’installer `Python`, on va utiliser l’option
    `conda-incubator/setup-miniconda@v2`
-   Pour installer `Python` et l’environnement `conda`, on va plutôt
    utiliser l’astuce de [ce
    blog](https://autobencoder.com/2020-08-24-conda-actions/) avec
    l’option `conda-incubator/setup-miniconda@v2`
-   On utilise ensuite `flake8` et `pylint` (option `--fail-under=5`)
    pour effectuer des diagnostics de qualité

Il ne reste plus qu’à faire un `commit` et espérer que cela fonctionne.
Cela devrait donner le fichier suivant :

``` yaml
name: Python Linting
on:
  push:
    branches: [master, dev]
jobs:
  build:
    runs-on: ubuntu-latest    
    steps:
      - uses: actions/checkout@v3
        with:
          ref: "dev"
      - uses: conda-incubator/setup-miniconda@v2
        with:
          activate-environment: monenv
          environment-file: environment.yml
          python-version: '3.10'
          auto-activate-base: false
      - shell: bash -l {0}
        run: |
          conda info
          conda list
      - name: Lint with flake8
        run: |
          pip install flake8
          flake8 src --count --select=E9,F63,F7,F82 --show-source --statistics
          flake8 src --count --max-complexity=10 --max-line-length=79 --statistics
      - name: Lint with Pylint
        run: |
          pip install pylint
          pylint src
```

{{% /panel %}}

{{< /panelset >}}

Maintenant, nous pouvons observer que l’onglet `Actions` s’est enrichi.
Chaque `commit` va entraîner une action pour tester nos scripts.

Si la note est mauvaise, nous aurons une croix rouge (et nous recevrons
un mail). On pourra ainsi détecter, en développant son projet, les
moments où on dégrade la qualité du script afin de la rétablir
immédiatemment.

{{% box status=“hint” title=“Un `linter` sous forme de *hook*
pre-commit” icon=“fa fa-lightbulb” %}}

`Git` offre une fonctionalité intéressante lorsqu’on est puriste: les
*hooks*. Il s’agit de règles qui doivent être satisfaites pour que le
fichier puisse être committé. Cela assurera que chaque `commit`
remplisse des critères de qualité afin d’éviter le problème de la
procrastination.

La [documentation de
pylint](https://pylint.pycqa.org/en/latest/user_guide/pre-commit-integration.html)
offre des explications supplémentaires.

{{% /box %}}

## Etape 2: Automatisation de la livraison de l’image `Docker`

Maintenant, nous allons automatiser la mise à disposition de notre image
sur `DockerHub`. Cela facilitera sa réutilisation mais aussi des
valorisations ultérieures.

Là encore, nous allons utiliser une série d’actions pré-configurées.

1️⃣ Pour que `Github` puisse s’authentifier auprès de `DockerHub`, il va
falloir d’abord interfacer les deux plateformes. Pour cela, nous allons
utiliser un jeton (*token*) `DockerHub` que nous allons mettre dans un
espace sécurisé associé à votre dépôt `Github`. Cette démarche sera là
même ultérieurement lorsque nous connecterons notre dépôt à un autre
service tiers, à savoir `Netlify`:

-   Se rendre sur https://hub.docker.com/ et créer un compte.
-   Aller dans les paramètres (https://hub.docker.com/settings/general)
    et cliquer, à gauche, sur `Security`
-   Créer un jeton personnel d’accès, ne fermez pas l’onglet en
    question, vous ne pouvez voir sa valeur qu’une fois.
-   Dans votre dépôt `Github`, cliquer sur l’onglet `Settings` et
    cliquer, à gauche, sur `Actions`. Sur la page qui s’affiche, cliquer
    sur `New repository secret`
-   Donner le nom `DOCKERHUB_TOKEN` à ce jeton et copier la valeur.
    Valider
-   Créer un deuxième secret nommé `DOCKERHUB_USERNAME` ayant comme
    valeur le nom d’utilisateur que vous avez créé sur `Dockerhub`

2️⃣ A ce stade, nous avons donné les moyens à `Github` de s’authentifier
avec notre identité sur `Dockerhub`. Il nous reste à mettre en oeuvre
l’action en s’inspirant de
https://github.com/docker/build-push-action/#usage. On ne va modifier
que trois éléments dans ce fichier. Effectuer les actions suivantes:

-   Créer depuis `VSCode` un fichier `.github/workflows/docker.yml` et
    coller le contenu du *template* dedans ;
-   Changer le nom en un titre plus signifiant (par exemple *“Production
    de l’image Docker”*)
-   Ajouter `master` et `dev` à la liste des branches sur lesquelles
    tourne le pipeline ;
-   Changer le tag à la fin pour mettre
    `<username>/ensae-repro-docker:latest` où `username` est le nom
    d’utilisateur sur `DockerHub`;
-   Faire un `commit` et un `push` de ces fichiers

4️⃣ Comme on est fier de notre travail, on va afficher ça avec un badge
sur le `README`. Pour cela, on se rend dans l’onglet `Actions` et on
clique sur un des scripts en train de tourner.

-   En haut à droite, on clique sur `...`
-   Sélectionner `Create status badge`
-   Récupérer le code `Markdown` proposé
-   Copier dans le `README` depuis `VSCode`
-   Faire de même pour l’autre *workflow*

5️⃣ Maintenant, il nous reste à tester notre application dans l’espace
bac à sable:

-   Se rendre sur l’environnement bac à sable
-   Créer un fichier `Dockerfile` ne contenant que l’import et le
    déploiement de l’appli:

``` yaml
FROM <username>/ensae-repro-docker:latest

EXPOSE 5000
CMD ["python", "main.py"]
```

-   Comme précédemment, faire un *build*
-   Tester l’image avec `run`

🎉 La matrice de confusion doit s’afficher ! Vous avez grandement
facilité la réutilisation de votre image.

## Etape 3: création d’un rapport automatique

Maintenant, nous allons créer et déployer un site web pour valoriser
notre travail. Cela va impliquer trois étapes:

-   Tester en local le logiciel `quarto` et créer un rapport minimal qui
    sera compilé par `quarto` ;
-   Enrichir l’image docker avec le logiciel `quarto` ;
-   Compiler le document en utilisant cette image sur les serveurs de
    `Github` ;
-   Déployer ce rapport minimal pour le rendre disponible à tous sur le
    *web*.

Le but est de proposer un rapport minimal qui illustre la performance du
modèle est la *feature importance*. Pour ce dernier élément, le rapport
qui sera proposé utilise `shap` qui est une librairie dédiée à
l’interprétabilité des modèles de *machine learning*

### 1. Rapport minimal en local

1️⃣ La première étape consiste à installer `quarto` sur notre machine
`Linux` sur laquelle tourne `VSCode`:

-   Dans un terminal, installer `quarto` avec les commandes suivantes:

``` shell
QUARTO_VERSION="0.9.287"
wget "https://github.com/quarto-dev/quarto-cli/releases/download/v${QUARTO_VERSION}/quarto-${QUARTO_VERSION}-linux-amd64.deb"
sudo apt install "./quarto-${QUARTO_VERSION}-linux-amd64.deb"
```

-   S’assurer qu’on travaille bien depuis l’environnement `conda`
    `monenv`. Sinon l’activer

2️⃣ Il va être nécessaire d’enrichir l’environnement `conda`. Certaines
dépendances sont nécessaires pour que `quarto` fonctionne bien avec
`Python` (`jupyter`, `nbclient`…) alors que d’autres ne sont nécessaires
que parce qu’ils sont utilisés dans le document (`seaborn`, `shap`…).
Changer la section `dependencies` avec la liste suivante:

``` yaml
dependencies:
  - python=3.10.0
  - ipykernel==6.13.0
  - jupyter==1.0.0
  - matplotlib==3.5.1
  - nbconvert==6.5.0
  - nbclient==0.6.0
  - nbformat==5.3.0
  - pandas==1.4.1
  - PyYAML==6.0
  - s3fs==2022.2.0
  - scikit-learn==1.0.2
  - seaborn==0.11.2
  - shap==0.40.0
```

3️⃣ Créer un fichier nommé `report.qmd`

```` markdown



---
title: "Comprendre les facteurs de survie sur le Titanic"
subtitle: "Un rapport innovant"
format:
  html:
    self-contained: true
  ipynb: default
jupyter: python3
---




Voici un rapport présentant quelques intuitions issues d'un modèle 
_random forest_ sur le jeu de données `Titanic` entraîné et 
déployé de manière automatique. 

Il est possible de télécharger cette page sous format `Jupyter Notebook` <a href="report.ipynb" download>ici</a>


```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
import main
X_train = main.X_train
y_train = main.y_train
training_data = main.training_data
rdmf = RandomForestClassifier(n_estimators=20)
rdmf.fit(X_train, y_train)
```

# Feature importance

La @fig-feature-importance représente l'importance des variables :

```python
feature_imp = pd.Series(rdmf.feature_importances_, index=training_data.iloc[:,1:].columns).sort_values(ascending=False)
```

```python
#| label: fig-feature-importance
#| fig-cap: "Feature importance"
plt.figure(figsize=(10,6))
sns.barplot(x=feature_imp, y=feature_imp.index)
# Add labels to your graph
plt.xlabel('Feature Importance Score')
plt.ylabel('Features')
plt.title("Visualizing Important Features")
plt.tight_layout()
plt.show()
```

Celle-ci peut également être obtenue grâce à la librairie
`shap`:

```python
#| echo : true
import shap
shap_values = shap.TreeExplainer(rdmf).shap_values(X_train)
shap.summary_plot(shap_values, X_train, plot_type="bar", feature_names = training_data.iloc[:,1:].columns)
```

On peut également utiliser cette librairie pour
interpréter la prédiction de notre modèle:


```python
# explain all the predictions in the test set
explainer = shap.TreeExplainer(rdmf)
# Calculate Shap values
choosen_instance = main.X_test[15]
shap_values = explainer.shap_values(choosen_instance)
shap.initjs()
shap.force_plot(explainer.expected_value[1], shap_values[1], choosen_instance, feature_names = training_data.iloc[:,1:].columns)
```

# Qualité prédictive du modèle

La matrice de confusion est présentée sur la
@fig-confusion

```python
#| label: fig-confusion
#| fig-cap: "Matrice de confusion"
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(main.y_test, rdmf.predict(main.X_test))
plt.figure(figsize=(8,5))
sns.heatmap(conf_matrix, annot=True)
plt.title('Confusion Matrix')
plt.tight_layout()
```

Ou, sous forme de tableau:


```python
pd.DataFrame(conf_matrix, columns=['Predicted','Observed'], index = ['Predicted','Observed']).to_html()
```
````

4️⃣ On va tenter de compiler ce document

-   Le compiler en local avec la commande `quarto render report.qmd`

-   Vous devriez rencontrer l’erreur suivante:

``` python
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
Input In [1], in <cell line: 6>()
      4 from sklearn.ensemble import RandomForestClassifier
      5 import main
----> 6 X_train = main.X_train
      7 y_train = main.y_train
      8 training_data = main.training_data

AttributeError: module 'main' has no attribute 'X_train'
AttributeError: module 'main' has no attribute 'X_train'
```

-   Refactoriser `main.py` pour que toutes les opérations, à l’exception
    du print de la matrice de confusion ne soient plus dans la section
    `__main__` afin qu’ils soient systématiquement exécutés.

-   Tenter à nouveau `quarto render report.qmd`

-   Deux fichiers ont été générés:

    -   un `Notebook` que vous pouvez ouvrir et dont vous pouvez
        exécuter des cellules
    -   un fichier `HTML` que vous pouvez télécharger et ouvrir

5️⃣ On a déjà un résultat assez esthétique en ce qui concerne la page
`HTML`. Cependant, on peut se dire que certains paramètres par défaut,
comme l’affichage des blocs de code, ne conviennent pas au public ciblé.
De même, certains paramètres de style, comme l’affichage des tableaux
peuvent ne pas convenir à notre charte graphique. On va remédier à cela
en deux étapes:

-   enrichir le *header* d’options globales contrôlant le comportement
    de `quarto`
-   créer un fichier `CSS` pour avoir de beaux tableaux

6️⃣ Changer la section `format` du *header* avec les options suivantes:

``` yaml
format:
  html:
    echo: false
    code-fold: true
    self-contained: true
    code-summary: "Show the code"
    warning: false
    message: false
    theme:
      - cosmo
      - css/custom.scss
  ipynb: default
```

7️⃣ Créer le fichier `css/custom.scss` avec le contenu suivant:

``` css
/*-- scss:rules --*/

table {
    border-collapse: collapse;
    margin: 25px 0;
    font-size: 0.9em;
    font-family: sans-serif;
    min-width: 400px;
    box-shadow: 0 0 20px rgba(0, 0, 0, 0.15);  
}

thead tr {
    background-color: #516db0;
    color: #ffffff;
    text-align: center;
}

th, td {
    padding: 12px 15px;
}

tbody tr {
    border-bottom: 1px solid #dddddd;
}

tbody tr:nth-of-type(even) {
    background-color: #f3f3f3;
}

tbody tr:last-of-type {
    border-bottom: 2px solid #516db0;
}

tbody tr.active-row {
    font-weight: bold;
    color: #009879;
}
```

8️⃣ Compiler à nouveau et observer le changement d’esthétique du `HTML`

9️⃣ Commit des nouveaux fichier `report.qmd`, `custom.scss` et des
fichiers déjà existants.

{{% box status=“hint” title=“Un `linter` sous forme de *hook*
pre-commit” icon=“fa fa-lightbulb” %}}

On ne `commit` pas les *output*, ici le notebook et le fichier html. Les
mettre sur le dépôt `Github` n’est pas la bonne manière de les mettre à
disposition. On va le voir, on va utiliser l’approche CI/CD pour cela.

Idéalement, on ajoute au `.gitignore` les fichiers concernés, ici
`report.ipynb` et `report.html`

{{% /box %}}

### 3. Enrichir l’image `Docker`

On va vouloir mettre à jour notre image pour automatiser, à terme, la
production de nos livrables (le notebook et la page web).

Pour cela, il est nécessaire que notre image intègre le logiciel
`quarto`.

1️⃣ A partir du script précédent d’installation de `quarto`, enrichir
l’image `Docker`[1]

[1] Le `sudo` n’est pas nécessaire puisque vous êtes déjà en `root`

### 4. Automatisation avec `Github Actions`

1️⃣ Créer un nouveau fichier `.github/workflows.report.yml`

Si les dépendances et l’image ont bien été enrichis, cette étape est
quasi directe avec

{{< panelset class=“simplification” >}}

{{% panel name=“Version autonome 🚗” %}}

-   Donner comme nom `Deploy as website`
-   Effectuer cette action à chaque `push` sur les branches `main`,
    `master` et `dev`
-   Le job doit tourner sur une machine `ubuntu`
-   Cependant, il convient d’utiliser comme `container` votre image
    Docker
-   Les `steps`:
    -   Récupérer le contenu du dossier avec `checkout`
    -   Faire un `quarto render`
    -   Récupérer le notebook sous forme d’artefact

{{% /panel %}}

{{% panel name=“Version guidée :map:” %}}

``` yaml
name: Deploy as website

on:
  push:
    branches:
      - main
      - master
      - dev

jobs:
  build:
    runs-on: ubuntu-latest
    container: linogaliana/ensae-repro-docker:latest
    steps:
      - uses: actions/checkout@v3
      - name: Render site
        run: quarto render report.qmd
      - uses: actions/upload-artifact@v1
        with:
          name: Report
          path: report.ipynb
```

{{% /panel %}}

{{< /panelset >}}

Si vous êtes fier de vous, vous pouvez ajouter le badge de ce workflow
sur le `README` 😎

Cette étape nous a permis d’automatiser la construction de nos
livrables. Mais la mise à disposition de ce livrable est encore assez
manuelle: il faut aller chercher à la main la dernière version du
notebook pour la partager.

On va améliorer cela en déployant automatiquement un site *web*
présentant en page d’accueil notre rapport et permettant le
téléchargement du notebook.

## Etape 4: Déploiement de ce rapport automatique sur le web

1️⃣ Dans un premier temps, nous allons connecter notre dépôt `Github` au
service tiers `Netlify`

-   Aller sur https://www.netlify.com/ et faire `Sign up` (utiliser son
    compte `Github`)
-   Dans la page d’accueil de votre profil, vous pouvez cliquer sur
    `Add new site > Import an existing project`
-   Cliquer sur `Github`. S’il y a des autorisations à donner, les
    accorder. Rechercher votre projet dans la liste de vos projets
    `Github`
-   Cliquer sur le nom du projet et laisser les paramètres par défaut
    (nous allons modifier par la suite)
-   Cliquer sur `Deploy site`

2️⃣ A ce stade, votre déploiement devrait échouer. C’est normal, vous
essayez de déployer depuis `master` qui ne comporte pas de html. Mais le
rapport n’est pas non plus présent dans la branche `dev`. En fait,
aucune branche ne comporte le rapport: celui-ci est généré dans votre
*pipeline* mais n’est jamais présent dans le dépôt car il s’agit d’un
*output*. On va désactiver le déploiement automatique pour privilégier
un déploiement depuis `Github Actions`:

-   Aller dans `Site Settings` puis, à gauche, cliquer sur
    `Build and Deploy`
-   Dans la section `Build settings`, cliquer sur `Stop builds` et
    valider

On vient de désactiver le déploiement automatique par défaut. On va
faire communiquer notre dépôt `Github` et `Netlify` par le biais de
l’intégration continue.

3️⃣ Pour cela, il faut créer un jeton `Netlify` pour que les serveurs de
`Github`, lorsqu’ils disposent d’un rapport, puissent l’envoyer à
`Netlify` pour la mise sur le *web*. Il va être nécessaire de créer deux
variables d’environnement pour connecter `Github` et `Netlify`:
l’identifiant du site et le *token*

-   Pour le token :
    -   Créer un jeton en cliquant, en haut à droite, sur l’icone de
        votre profil. Aller dans `User settings`. A gauche, cliquer sur
        `Applications` et créer un jeton personnel d’accès avec un nom
        signifiant (par exemple `PAT_ENSAE_reproductibilite`)
    -   Mettre de côté (conseil : garder l’onglet ouvert)
-   Pour l’identifiant du site:
    -   cliquer sur `Site Settings` dans les onglets en haut
    -   Garder l’onglet ouvert pour copier la valeur quand nécessaire
-   Il est maintenant nécessaire d’aller dans le dépôt `Github` et de
    créer les secrets (`Settings > Secrets > Actions`):
    -   Créer le secret `NETLIFY_AUTH_TOKEN` en collant la valeur du
        jeton d’authentification `Netlify`
    -   Créer le secret `NETLIFY_SITE_ID` en collant l’identifiant du
        site

4️⃣ Nous avons effectué toutes les configurations nécessaires. On va
maintenant mettre à jour l’intégration continue afin de mettre à
disposition sur le *web* notre rapport. On va utiliser l’interface en
ligne de commande (CLI) de `Netlify`. Celle-ci attend que le site *web*
se trouve dans un dossier `public` et que la page d’accueil soit nommée
`index.html`:

{{< panelset class=“simplification” >}}

{{% panel name=“Vision d’ensemble” %}}

-   une installation de `npm`
-   une étape de déploiement via la CLI de netlify

``` yaml
- name: Install npm
  uses: actions/setup-node@v2
  with:
    node-version: '14'
- name: Deploy to Netlify
  # NETLIFY_AUTH_TOKEN and NETLIFY_SITE_ID added in the repo's secrets
  env:
    NETLIFY_AUTH_TOKEN: ${{ secrets.NETLIFY_AUTH_TOKEN }}
    NETLIFY_SITE_ID: ${{ secrets.NETLIFY_SITE_ID }}
  run: |
    mkdir -p public
    mv report.html public/index.html
    mv report.ipynb public/report.ipynb
    npm install --unsafe-perm=true netlify-cli -g
    netlify init
    netlify deploy --prod --dir="public" --message "Deploy master"
```

{{% /panel %}}

{{% panel name=“Détails npm” %}}

{{< highlight yaml “hl_lines=1-4” >}}

-   name: Install npm uses: actions/setup-node@v2 with: node-version:
    ‘14’

{{< / highlight >}}

`npm` est le gestionnaire de paquet de JS. Il est nécessaire de le
configurer, ce qui est fait automatiquement grâce à l’action
`actions/setup-node@v2`

{{% /panel %}}

{{% panel name=“Détails `Netlify CLI`” %}}

-   On rappelle à `Github Actions` nos paramètres d’authentification
    sous forme de variables d’environnement. Cela permet de les garder
    secrètes

{{< highlight yaml “hl_lines=3-5” >}}

-   name: Deploy to Netlify \# NETLIFY_AUTH_TOKEN and NETLIFY_SITE_ID
    added in the repo’s secrets env: NETLIFY_AUTH_TOKEN: \${{
    secrets.NETLIFY_AUTH_TOKEN }} NETLIFY_SITE_ID: \${{
    secrets.NETLIFY_SITE_ID }} run: \| mkdir -p public mv report.html
    public/index.html mv report.ipynb public/report.ipynb npm install
    –unsafe-perm=true netlify-cli -g netlify init netlify deploy –prod
    –dir=“public” –message “Deploy master”

{{< / highlight >}}

-   On déplace les rapports de la racine vers le dossier `public`

{{< highlight yaml “hl_lines=7-9” >}}

-   name: Deploy to Netlify \# NETLIFY_AUTH_TOKEN and NETLIFY_SITE_ID
    added in the repo’s secrets env: NETLIFY_AUTH_TOKEN: \${{
    secrets.NETLIFY_AUTH_TOKEN }} NETLIFY_SITE_ID: \${{
    secrets.NETLIFY_SITE_ID }} run: \| mkdir -p public mv report.html
    public/index.html mv report.ipynb public/report.ipynb npm install
    –unsafe-perm=true netlify-cli -g netlify init netlify deploy –prod
    –dir=“public” –message “Deploy master”

{{< / highlight >}}

-   On installe et initialise `Netlify`

{{< highlight yaml “hl_lines=10-11” >}}

-   name: Deploy to Netlify \# NETLIFY_AUTH_TOKEN and NETLIFY_SITE_ID
    added in the repo’s secrets env: NETLIFY_AUTH_TOKEN: \${{
    secrets.NETLIFY_AUTH_TOKEN }} NETLIFY_SITE_ID: \${{
    secrets.NETLIFY_SITE_ID }} run: \| mkdir -p public mv report.html
    public/index.html mv report.ipynb public/report.ipynb npm install
    –unsafe-perm=true netlify-cli -g netlify init netlify deploy –prod
    –dir=“public” –message “Deploy master”

{{< / highlight >}}

-   On déploie sur l’url par défaut (`-- prod`) depuis le dossier
    `public`

{{< highlight yaml “hl_lines=10-12” >}}

-   name: Deploy to Netlify \# NETLIFY_AUTH_TOKEN and NETLIFY_SITE_ID
    added in the repo’s secrets env: NETLIFY_AUTH_TOKEN: \${{
    secrets.NETLIFY_AUTH_TOKEN }} NETLIFY_SITE_ID: \${{
    secrets.NETLIFY_SITE_ID }} run: \| mkdir -p public mv report.html
    public/index.html mv report.ipynb public/report.ipynb npm install
    –unsafe-perm=true netlify-cli -g netlify init netlify deploy –prod
    –dir=“public” –message “Deploy master”

{{< / highlight >}}

{{% /panel %}}

{{< /panelset >}}

Au bout de quelques minutes, le rapport est disponible en ligne sur
l’URL `Netlify` (par exemple
https://spiffy-florentine-c913b9.netlify.app)