---
title: "Application"
description: |
  Une application fil rouge pour illustrer l'int√©r√™t d'appliquer graduellement les bonnes pratiques dans une optique de mise en production d'une application de data science.
order: 10
href: chapters/application.html
image: /rocket.png
---





<details>
<summary>
D√©rouler les _slides_ ci-dessous ou [cliquer ici](https://ensae-reproductibilite.github.io/slides/#/title-slide)
pour afficher les slides en plein √©cran.
</summary>


<div class="sourceCode" id="cb1"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre><iframe class="sourceCode yaml code-with-copy" src="https://ensae-reproductibilite.github.io/slides/#/title-slide"></iframe></div>

</details>

L'objectif de cette mise en application est d'**illustrer les diff√©rentes √©tapes qui s√©parent la phase de d√©veloppement d'un projet de celle de la mise en production**. Elle permettra de mettre en pratique les diff√©rents concepts pr√©sent√©s tout au long du cours.

Celle-ci est un tutoriel pas √† pas pour avoir un projet reproductible et disponible sous plusieurs livrables.
Toutes les √©tapes ne sont pas indispensables √† tous les projets de _data science_.

Nous nous pla√ßons dans une situation initiale correspondant √† la fin de la phase de d√©veloppement d'un projet de data science.
On a un _notebook_ un peu monolithique, qui r√©alise les √©tapes classiques d'un *pipeline* de *machine learning* :

- Import de donn√©es ;
- Statistiques descriptives et visualisations ;
- *Feature engineering* ;
- Entra√Ænement d'un mod√®le ;
- Evaluation du mod√®le.

**L'objectif est d'am√©liorer le projet de mani√®re incr√©mentale jusqu'√† pouvoir le mettre en production, en le valorisant sous une forme adapt√©e.**


<details>
<summary>
Illustration de notre point de d√©part
</summary>
![](/drawio/starting_point.png)
</details>

<details>
<summary>
Illustration de l'horizon vers lequel on se dirige
</summary>
![](/drawio/end_point.png)
</details>

::: {.callout-important}
Il est important de bien lire les consignes et d'y aller progressivement.
Certaines √©tapes peuvent √™tre rapides, d'autres plus fastidieuses ;
certaines √™tre assez guid√©es, d'autres vous laisser plus de libert√©.
Si vous n'effectuez pas une √©tape, vous risquez de ne pas pouvoir passer √†
l'√©tape suivante qui en d√©pend.

Bien que l'exercice soit applicable sur toute configuration bien faite, nous
recommandons de privil√©gier l'utilisation du [SSP Cloud](https://datalab.sspcloud.fr/home), o√π tous les
outils n√©cessaires sont pr√©-install√©s et pr√©-configur√©s. Le service `VSCode`
ne sera en effet que le point d'entr√©e pour l'utilisation d'outils plus exigeants
sur le plan de l'infrastructure: _Argo_, _MLFLow_, etc.
:::


# Partie 0 : initialisation du projet


::: {.callout-tip}
## Application pr√©liminaire: forker le d√©p√¥t d'exemple

Les premi√®res √©tapes consistent √† mettre en place son environnement de travail sur `Github`:

- G√©n√©rer un jeton d'acc√®s (*token*) sur `GitHub` afin de permettre l'authentification en ligne de commande √† votre compte.
La proc√©dure est d√©crite [ici](https://docs.sspcloud.fr/onyxia-guide/controle-de-version#creer-un-jeton-dacces-token).
__Vous ne voyez ce jeton qu'une fois, ne fermez pas la page de suite__.

- Mettez de c√¥t√© ce jeton en l'enregistrant dans un gestionnaire de mot de passe ou dans
l'espace _["Mon compte"](https://datalab.sspcloud.fr/account/third-party-integration)_
du `SSP Cloud`.

- Forker le d√©p√¥t `Github` : [https://github.com/ensae-reproductibilite/application](https://github.com/ensae-reproductibilite/application) en faisant attention √† une option :
    + **D√©cocher la case _"Copy the `main` branch only"_** afin de copier √©galement les _tags_ `Git` qui nous permettront de faire les _checkpoint_.


<details>

<summary>
Ce que vous devriez voir sur la page de cr√©ation du _fork_
</summary>

![](/fork-example.png)

</details>

Il est maintenant possible de ce lancer dans la cr√©ation de l'environnement de travail:

- Ouvrir un service `VSCode` sur le [SSP Cloud](https://datalab.sspcloud.fr/home). Vous pouvez aller
dans la page `My Services` et cliquer sur `New service`. Sinon, vous
pouvez initialiser la cr√©ation du service en cliquant directement [ici](https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=false). __Modifier les options suivantes__:
    + Dans l'onglet `Role`, s√©lectionner le r√¥le `Admin` ;
    + Dans l'onglet `Networking`, cliquer sur _"Enable a custom service port"_ et laisser la valeur par d√©faut 5000 pour le num√©ro du port

- Cl√¥ner __votre__ d√©p√¥t `Github` en utilisant le
terminal depuis `Visual Studio` (`Terminal > New Terminal`) et
en passant directement le token dans l'URL selon cette structure:

```{.bash filename="terminal"}
git clone https://$TOKEN@github.com/$USERNAME/application.git
```

o√π `$TOKEN` et `$USERNAME` sont √† remplacer, respectivement,
par le jeton que vous avez g√©n√©r√© pr√©c√©demment et votre nom d'utilisateur.

:::



# Partie 1 : qualit√© du script

Cette premi√®re partie vise √† **rendre le projet conforme aux bonnes pratiques** pr√©sent√©es dans le cours.

Elle fait intervenir les notions suivantes :

- Utilisation du **terminal** (voir [Linux 101](/chapters/linux-101.qmd)) ;
- **Qualit√© du code** (voir [Qualit√© du code](/chapters/code-quality.qmd)) ;
- **Architecture de projets** (voir [Architecture des projets](/chapters/projects-architecture.html)) ;
- **Contr√¥le de version** avec `Git` (voir [Rappels `Git`](/chapters/git.qmd)) ;
- **Travail collaboratif** avec `Git` et `GitHub` (voir [Rappels `Git`](/chapters/git.qmd)).


Le plan de la partie est le suivant :

1. S'assurer que le script fonctionne ;
2. Nettoyer le code des scories formelles avec un _linter_ et un _formatter_ ;
3. Param√©trisation du script ;
4. Utilisation de fonctions.


## √âtape 1 : s'assurer que le script s'ex√©cute correctement

On va partir du fichier `notebook.py` qui reprend le contenu
du _notebook_[^jupytext] mais dans un script classique.
Le travail de nettoyage en sera facilit√©.

[^jupytext]: L'export dans un script `.py` a √©t√© fait
        directement depuis `VSCode`. Comme
        cela n'est pas vraiment l'objet du cours, nous passons cette √©tape et fournissons
        directement le script expurg√© du texte interm√©diaire. Mais n'oubliez
        pas que cette d√©marche, fr√©quente quand on a d√©marr√© sur un _notebook_ et
        qu'on d√©sire consolider en faisant la transition vers des
        scripts, n√©cessite d'√™tre attentif pour ne pas risquer de faire une erreur.

La premi√®re √©tape est simple, mais souvent oubli√©e : **v√©rifier que le code fonctionne correctement**.
Pour cela, nous recommandons de faire un aller-retour entre le script ouvert dans `VSCode`
et un terminal pour le lancer.



::: {.callout-tip}
## Application 1: corriger les erreurs

- Ouvrir dans `VSCode` le script `titanic.py` ;
- Ex√©cuter le script en ligne de commande (`python titanic.py`)[^interactivite] pour d√©tecter les erreurs ;
- Corriger les deux erreurs qui emp√™chent la bonne ex√©cution ;
- V√©rifier le fonctionnement du script en utilisant la ligne de commande:

```{.bash filename="terminal"}
python titanic.py
```

Le code devrait afficher des sorties.

<details>
<summary>
Aide sur les erreurs rencontr√©es
</summary>

La premi√®re erreur rencontr√©e est une alerte `FileNotFoundError`,
la seconde est li√©e √† un _package_. 

</details>


Il est maintenant temps de *commit* les changements effectu√©s avec `Git`[^2] :


```{.bash filename="terminal"}
git add titanic.py
git commit -m "Corrige l'erreur qui emp√™chait l'ex√©cution"
git push
```

<!---- 
Temps estim√©: 3mn
------>

:::

[^interactivite]: Il est √©galement possible avec `VSCode` d'ex√©cuter le script ligne √† ligne
de mani√®re interactive ligne √† ligne (<kbd>MAJ</kbd>+<kbd>ENTER</kbd>). N√©anmoins, cela n√©cessite
de s'assurer que le _working directory_ de votre console interactive est le bon. Celle-ci se
lance selon les param√®tres pr√©configur√©s de `VSCode` et les votres ne sont peut-√™tre pas les
m√™mes que les notres. Vous pouvez changer le _working directory_ dans le script
en utilisant le _package_ `os` mais peut-√™tre allez vous d√©couvrir ult√©rieurement qu'il
y a de meilleures pratiques...
[^2]: Essayez de *commit* vos changements √† chaque √©tape de l'exercice, c'est une bonne habitude √† prendre.


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli1
```
1. Pour annuler les modifications depuis le dernier _commit_

![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## √âtape 2: utiliser un _linter_ puis un _formatter_

On va maintenant am√©liorer la qualit√© de notre code en appliquant les standards communautaires.
Pour cela, on va utiliser le *linter* classique [`PyLint`](https://pylint.readthedocs.io/en/latest/)
et le _formatter_ [`Black`](https://github.com/psf/black).
Si vous d√©sirez un outil deux en un, il est possible d'utiliser [`Ruff`](https://github.com/astral-sh/ruff-vscode)
en compl√©ment ou substitut.

Ce nettoyage automatique du code permettra, au passage, de restructurer notre
script de mani√®re plus naturelle.

::: {.callout-important}
[`PyLint`](https://pylint.readthedocs.io/en/latest/) et [`Black`](https://black.readthedocs.io/en/stable/)
sont des _packages_ `Python` qui
s'utilisent principalement en ligne de commande.

Si vous avez une erreur qui sugg√®re
que votre terminal ne connait pas [`PyLint`](https://pylint.readthedocs.io/en/latest/)
ou [`Black`](https://black.readthedocs.io/en/stable/),
n'oubliez pas d'ex√©cuter la commande `pip install pylint` ou `pip install black`.
:::


Le _linter_ renvoie alors une s√©rie d'irr√©gularit√©s,
en pr√©cisant √† chaque fois la ligne de l'erreur et le message d'erreur associ√© (ex : mauvaise identation).
Il renvoie finalement une note sur 10,
qui estime la qualit√© du code √† l'aune des standards communautaires √©voqu√©s
dans la partie [Qualit√© du code](/chapters/code-quality.html).


::: {.callout-tip}
## Application 2: rendre lisible le script

- Diagnostiquer et √©valuer la qualit√© de `titanic.py` avec [`PyLint`](https://pylint.readthedocs.io/en/latest/). Regarder la note obtenue.
- Utiliser `black titanic.py --diff --color` pour observer les changements de forme que va induire l'utilisation du _formatter_ [`Black`](https://black.readthedocs.io/en/stable/). Cette √©tape n'applique pas les modifications, elle ne fait que vous les montrer.
- Appliquer le _formatter_ [`Black`](https://black.readthedocs.io/en/stable/)
- R√©utiliser [`PyLint`](https://pylint.readthedocs.io/en/latest/) pour diagnostiquer l'am√©lioration de la qualit√© du script et le travail qui reste √† faire. 
- Comme la majorit√© du travail restant est √† consacrer aux imports:
    - Mettre tous les _imports_ ensemble en d√©but de script
    - Retirer les _imports_ redondants en s'aidant des diagnostics de votre √©diteur
    - R√©ordonner les _imports_ si [`PyLint`](https://pylint.readthedocs.io/en/latest/) vous indique de le faire
    - Corriger les derni√®res fautes formelles sugg√©r√©es par [`PyLint`](https://pylint.readthedocs.io/en/latest/)
- D√©limiter des parties dans votre code pour rendre sa structure plus lisible. Si des parties vous semblent √™tre dans le d√©sordre, vous pouvez r√©ordonner le script (mais n'oubliez pas de le tester)

<!-----
Temps test Julien: 22mn
------>
:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli2
```
1. Pour annuler les modifications depuis le dernier _commit_

![](/checkpoint.jpg){width=80% fig-align="center"}

:::



Le code est maintenant lisible, il obtient √† ce stade une note formelle proche de 10.
Mais il n'est pas encore totalement intelligible ou fiable.
Il y a notamment
quelques redondances de code auxquelles nous allons nous attaquer par la suite.
N√©anmoins, avant cela, occupons-nous de mieux g√©rer certains param√®tres du script:
jetons d'API et chemin des fichiers.


## √âtape 3: gestion des param√®tres

L'ex√©cution du code et les r√©sultats obtenus
d√©pendent de certains param√®tres d√©finis dans le code. L'√©tude de r√©sultats
alternatifs, en jouant sur
des variantes des (hyper)param√®tres, est √† ce stade compliqu√©e
car il est n√©cessaire de parcourir le code pour trouver
ces param√®tres. De plus, certains param√®tres personnels
comme des jetons
d'API ou des mots de passe n'ont pas vocation √†
√™tre pr√©sents dans le code.

Il est plus judicieux de consid√©rer ces param√®tres comme des
variables d'entr√©e du script. Cela peut √™tre fait de deux
mani√®res:

1. Avec des __arguments optionnels__ appel√©s depuis la ligne de commande _(Application 3a)_.
Cela peut √™tre pratique pour mettre en oeuvre des tests automatis√©s mais
n'est pas forc√©ment pertinent pour toutes les variables. Nous allons montrer
cet usage avec le nombre d'arbres de notre _random forest_ ;
2. En utilisant un __fichier de configuration__ dont les valeurs sont import√©es dans
le script principal _(Application 3b)_.


<details>
<summary>
Un exemple de d√©finition d'un argument pour l'utilisation en ligne de commande
</summary>

```{.python filename="prenom.py"}
import argparse
parser = argparse.ArgumentParser(description="Qui √™tes-vous?")
parser.add_argument(
    "--prenom", type=str, default="Toto", help="Un pr√©nom √† afficher"
)
args = parser.parse_args()
print(args.prenom)
```

Exemples d'utilisations en ligne de commande

```{.bash filename="terminal"}
python prenom.py
python prenom.py --prenom "Zinedine"
```

</details>


::: {.callout-tip}
## Application 3a: Param√©trisation du script

1. En s'inspirant de l'exemple ci-dessus üëÜÔ∏è,
cr√©er une variable `n_trees` qui peut √©ventuellement √™tre param√©tr√©e en ligne de commande
et dont la valeur par d√©faut est 20 ;
2. Tester cette param√©trisation en ligne de commande avec la valeur par d√©faut
puis 2, 10 et 50 arbres.
:::

L'exercice suivant permet de mettre en application le fait de param√©triser
un script en utilisant des variables d√©finies dans un fichier YAML.


::: {.callout-tip}
## Application 3b: La configuration dans un fichier d√©di√©

1. Installer le package `python-dotenv` que nous allons utiliser pour charger notre jeton d'API √† partir d'une variable d'environnement.
2. A partir de l'exemple de la [documentation](https://pypi.org/project/python-dotenv/), utiliser la fonction `load_dotenv` pour charger dans `Python` nos variables d'environnement √† partir d'un fichier (vous pouvez le cr√©er mais ne pas le remplir encore avec les valeurs voulues, ce sera fait ensuite)
3. Cr√©er la variable et v√©rifier la sortie de `Python` en faisant tourner `titanic.py` en ligne de commande


```{.python filename="titanic.py"}
jeton_api = os.environ.get("JETON_API", "")

if jeton_api.startswith("$"):
    print("API token has been configured properly")
else:
    print("API token has not been configured")
```

4. Maintenant introduire la valeur voulue pour le jeton d'API dans le fichier d'environnement lu par `dotenv`
5. S'il n'existe pas d√©j√†, cr√©er un fichier `.gitignore` (cf. [Chapitre `Git`](/chapters/git.qmd)). Ajouter dans ce fichier `.env` car il ne faut pas committer ce fichier. Au passage ajouter `__pycache__/` au `.gitignore`[^pycache], cela
√©vitera d'avoir √† le faire ult√©rieurement ;
1. Cr√©er un fichier `README.md` o√π vous indiquez qu'il faut cr√©er un fichier `.env` pour
pouvoir utiliser l'API.

[^fileexist]: Ici, le jeton d'API n'est pas indispensable pour que le code
    fonctionne. Afin d'√©viter une erreur non n√©cessaire
    lorsqu'on automatisera le processus, on peut
    cr√©er une condition qui v√©rifie la pr√©sence ou non de ce fichier.
    Le script reste donc reproductible m√™me pour un utilisateur n'ayant pas le fichier
    `secrets.yaml`.

[^pycache]: Il est normal d'avoir des dossiers `__pycache__` qui tra√Ænent en local : ils se cr√©ent automatiquement √† l'ex√©cution d'un script en `Python`. N√©anmoins, il ne faut pas associer ces fichiers √† `Git`, voil√† pourquoi on les ajoute au `.gitignore`.


:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli3
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## √âtape 4 : Privil√©gier la programmation fonctionnelle

Nous allons **mettre en fonctions les parties importantes de l'analyse**.
Ceci facilitera l'√©tape ult√©rieure de modularisation de notre projet.

Cet exercice √©tant chronophage, il n'est __pas obligatoire de le r√©aliser en entier__. L'important est de
comprendre la d√©marche et d'adopter fr√©quemment une approche fonctionnelle[^POO]. Pour obtenir
une chaine enti√®rement fonctionnalis√©e, vous pouvez reprendre le _checkpoint_.

[^POO]: Nous proposons ici d'adopter le principe de la __programmation fonctionnelle__. Pour encore fiabiliser
un processus, il serait possible d'adopter le paradigme de la __programmation orient√©e objet (POO)__. Celle-ci est
plus rebutante et demande plus de temps au d√©veloppeur. L'arbitrage co√ªt-avantage est n√©gatif pour notre
exemple, nous proposons donc de nous en passer. N√©anmoins, pour une mise en production r√©elle d'un mod√®le,
il est recommand√© de l'adopter. C'est d'ailleurs obligatoire avec des [_pipelines_ `scikit`](https://pythonds.linogaliana.fr/pipeline-scikit/).


::: {.callout-tip}
## Application 4: adoption des standards de programmation fonctionnelle

Cette application peut √™tre chronophage, vous pouvez aller plus ou moins
loin dans la fonctionalisation de votre script en fonction du temps dont vous
disposez.

* Cr√©er une fonction g√©n√©rique pour r√©duire la redondance de code
 dans l'√©tape d'exploration des donn√©es o√π on utilise `split` ;
* Cr√©er une fonction qui r√©alise le *split train/test* en fonction d'un param√®tre repr√©sentant la proportion de l'√©chantillon de test
et d'arguments optionnels sur les chemins d'√©criture des deux √©chantillons en csv.
* Cr√©er une fonction qui int√®gre les diff√©rentes √©tapes du _pipeline_ (preprocessing et d√©finition du mod√®le). Cette fonction prend
en param√®tre le nombre d'arbres (argument obligatoire) et des arguments optionnels suppl√©mentaires (les colonnes sur lesquelles s'appliquent les diff√©rentes √©tapes du _pipeline_, `max_depth` et `max_features`).
* Cr√©er une fonction d'√©valuation renvoyant le score obtenu et la matrice de confusion, √† l'issue d'une estimation (mais cette estimation est faite en amont de la fonction, pas au sein de celle-ci)
- D√©placer toutes les fonctions ensemble, en d√©but de script. Si besoin, ajouter des param√®tres √† votre fichier d'environnement pour cr√©er de nouvelles variables comme les chemins des donn√©es.
:::

[^notepandas]: Au passage vous pouvez noter que mauvaises pratiques discutables,
    peuvent
    √™tre corrig√©es, notamment l'utilisation excessive de `apply` l√† o√π
    il serait possible d'utiliser des m√©thodes embarqu√©es par `Pandas`.
    Cela est plut√¥t de l'ordre du bon style de programmation que de la
    qualit√© formelle du script. Ce n'est donc pas obligatoire mais c'est mieux.


::: {.callout-important}
Le fait d'appliquer des fonctions a d√©j√† am√©lior√© la fiabilit√© du processus
en r√©duisant le nombre d'erreurs de copier-coller. N√©anmoins, pour vraiment
fiabiliser le processus, il faudrait utiliser un _pipeline_ de transformations
de donn√©es.

Ceci n'est pas encore au programme du cours mais le sera dans une prochaine
version.
:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli4
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::



Cela ne se remarque pas encore vraiment car nous avons de nombreuses d√©finitions de fonctions
mais notre chaine de production est beaucoup plus
concise (le script fait environ 300 lignes dont 250 de d√©finitions de fonctions g√©n√©riques).
Cette auto-discipline facilitera grandement
les √©tapes ult√©rieures. Cela aurait √©t√© n√©anmoins beaucoup moins co√ªteux en temps d'adopter
ces bons gestes de mani√®re plus pr√©coce.


# Partie 2 : adoption d'une structure modulaire {#partie2}

Dans la partie pr√©c√©dente,
on a appliqu√© de mani√®re incr√©mentale de nombreuses bonnes pratiques vues tout au long du cours.
Ce faisant, on s'est d√©j√† consid√©rablement rapproch√©s d'un
possible partage du code : celui-ci est lisible et intelligible.
Le code est proprement versionn√© sur un
d√©p√¥t `GitHub`.
Cependant, le projet est encore perfectible: il est encore difficile de rentrer
dedans si on ne sait pas exactement ce qu'on recherche. L'objectif de cette partie
est d'isoler les diff√©rentes √©tapes de notre _pipeline_.
Outre le gain de clart√© pour notre projet, nous √©conomiserons beaucoup de peines
pour la mise en production ult√©rieure de notre mod√®le.

<details>
<summary>
Illustration de l'√©tat actuel du projet
</summary>
![](/schema_post_appli4.png)
</details>

Dans cette partie nous allons continuer les am√©liorations
incr√©mentales de notre projet avec les √©tapes suivantes:

1. Modularisation du code `Python` pour s√©parer les diff√©rentes
√©tapes de notre _pipeline_ ;
2. Adopter une structure standardis√©e pour notre projet afin
d'autodocumenter l'organisation de celui-ci ;
3. Documenter les _packages_ indispensables √† l'ex√©cution du code ;
4. Stocker les donn√©es dans un environnement ad√©quat
afin de continuer la d√©marche de s√©parer conceptuellement les donn√©es du code en de la configuration.


## √âtape 1 : modularisation

Nous allons profiter de la modularisation pour adopter une structure
applicative pour notre code. Celui-ci n'√©tant en effet plus lanc√©
que depuis la ligne de commande, on peut consid√©rer qu'on construit
une application g√©n√©rique o√π un script principal (`main.py`)
encapsule des √©l√©ments issus d'autres scripts `Python`.



::: {.callout-tip}
## Application 5: modularisation

- D√©placer les fonctions dans une s√©rie de fichiers d√©di√©s:
    +  `import_data.py`: fonctions d'import et d'exploration de donn√©es 
    +  `build_features.py`: fonctions regroupant la d√©finition des √©chantillons d'apprentissage et de test ainsi que le _pipeline_ 
    +  `train_evaluate.py`: fonctions d'√©valuation du mod√®le
- Sp√©cifier les d√©pendances (i.e. les packages √† importer)
dans les modules pour que ceux-ci puissent s'ex√©cuter ind√©pendamment ;
- Renommer `titanic.py` en `main.py` pour suivre la convention de nommage des projets `Python` ;
- Importer les fonctions n√©cessaires √† partir des modules.
- V√©rifier que tout fonctionne bien en ex√©cutant le _script_ `main` √† partir de la ligne de commande :

```{.bash filename="terminal"}
python main.py
```
:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli5
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## √âtape 2 : adopter une architecture standardis√©e de projet

On dispose maintenant d'une application `Python` fonctionnelle.
N√©anmoins, le projet est certes plus fiable mais sa structuration
laisse √† d√©sirer et il serait difficile de rentrer √† nouveau
dans le projet dans quelques temps.

<details>
<summary>Etat actuel du projet üôà</summary>

```
‚îú‚îÄ‚îÄ .gitignore
‚îú‚îÄ‚îÄ data.csv
‚îú‚îÄ‚îÄ train.csv
‚îú‚îÄ‚îÄ test.csv
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ config.yaml
‚îú‚îÄ‚îÄ import_data.py
‚îú‚îÄ‚îÄ build_features.py
‚îú‚îÄ‚îÄ train_evaluate.py
‚îú‚îÄ‚îÄ titanic.ipynb
‚îî‚îÄ‚îÄ main.py
```


</details>

Comme cela est expliqu√© dans la
partie [Structure des projets](/chapters/projects-architecture.html),
on va adopter une structure certes arbitraire mais qui va
faciliter l'autodocumentation de notre projet. De plus, une telle structure va faciliter des √©volutions optionnelles
comme la _packagisation_ du projet. Passer d'une structure modulaire
bien faite √† un _package_ est quasi-imm√©diat en `Python`.

On va donc modifier l'architecture de notre projet pour la rendre plus standardis√©e.
Pour cela, on va s'inspirer des structures
[`cookiecutter`](https://cookiecutter.readthedocs.io/en/stable/)
qui g√©n√®rent des _templates_ de projet. En l'occurrence
notre source d'inspiration sera le [_template datascience_](https://drivendata.github.io/cookiecutter-data-science/)
issu d'un effort communautaire.

::: {.callout-note}
L'id√©e de [`cookiecutter`](https://cookiecutter.readthedocs.io/en/stable/) est de proposer des _templates_ que l'on utilise pour __initialiser__ un projet, afin de b√¢tir √† l'avance une structure √©volutive. La syntaxe √† utiliser dans ce cas est la suivante :

```{.bash filename="terminal"}
pip install cookiecutter
cookiecutter https://github.com/drivendata/cookiecutter-data-science
```

Ici, on a d√©j√† un projet, on va donc faire les choses dans l'autre sens : on va s'inspirer de la structure propos√©e afin de r√©organiser celle de notre projet selon les standards communautaires.
:::

En s'inspirant du _cookiecutter data science_
on va adopter la structure suivante:

<details>
<summary>
Structure recommand√©e
</summary>

```
application
‚îú‚îÄ‚îÄ main.py
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ data
‚îÇ   ‚îú‚îÄ‚îÄ raw
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ data.csv
‚îÇ   ‚îî‚îÄ‚îÄ derived
‚îÇ       ‚îú‚îÄ‚îÄ test.csv
‚îÇ       ‚îî‚îÄ‚îÄ train.csv
‚îú‚îÄ‚îÄ configuration
‚îÇ   ‚îî‚îÄ‚îÄ config.yaml
‚îú‚îÄ‚îÄ notebooks
‚îÇ   ‚îî‚îÄ‚îÄ titanic.ipynb
‚îî‚îÄ‚îÄ src
    ‚îú‚îÄ‚îÄ data
    ‚îÇ   ‚îî‚îÄ‚îÄ import_data.py
    ‚îú‚îÄ‚îÄ pipeline
    ‚îÇ   ‚îî‚îÄ‚îÄ build_pipeline.py
    ‚îî‚îÄ‚îÄ models
        ‚îî‚îÄ‚îÄ train_evaluate.py
```

</details>


::: {.callout-tip}

## Application 6: adopter une structure lisible

- _(optionnel)_ Analyser et comprendre la [structure de projet](https://drivendata.github.io/cookiecutter-data-science/#directory-structure) propos√©e par le template ;
- Modifier l'arborescence du projet selon le mod√®le ;
- Mettre √† jour l'import des d√©pendances, le fichier de configuration et `main.py` avec les nouveaux chemins ;
:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli6
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}


:::




## √âtape 3: mieux tracer notre chaine de production

### Indiquer l'environnement minimal de reproductibilit√©

Le script `main.py` n√©cessite un certain nombre de packages pour
√™tre fonctionnel. Chez vous les packages n√©cessaires sont
bien s√ªr install√©s mais √™tes-vous assur√© que c'est le cas
chez la personne qui testera votre code ?

Afin de favoriser la portabilit√© du projet,
il est d'usage de _"fixer l'environnement"_,
c'est-√†-dire d'indiquer dans un fichier toutes les d√©pendances utilis√©es ainsi que leurs version.
Nous proposons de cr√©er un fichier `requirements.txt` minimal, sur lequel nous reviendrons
dans la partie consacr√©e aux environnements reproductibles.

Le fichier `requirements.txt` est conventionnellement localis√© √† la racine du projet.
Ici on ne va pas fixer les versions, on raffinera ce fichier ult√©rieurement.


::: {.callout-tip}

## Application 7a: cr√©ation du `requirements.txt`

- Cr√©er un fichier `requirements.txt` avec la liste des packages n√©cessaires
- Ajouter une indication dans `README.md` sur l'installation des _packages_ gr√¢ce au fichier `requirements.txt`
:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli7
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::






### Tracer notre cha√Æne

Quand votre projet passera en production, vous aurez un acc√®s limit√© √† celui-ci. Il est donc important de faire remonter, par le biais du _logging_ des informations critiques sur votre projet qui vous permettront de savoir o√π il en est (si vous avez acc√®s √† la console o√π il tourne) ou l√† o√π il s'est arr√™t√©.

L'utilisation de `print` montre rapidement ses limites pour cela. Les informations enregistr√©es ne persistent pas apr√®s la session et sont quelques peu rudimentaires.

Pour faire du _logging_, la librairie consacr√©e depuis longtemps en `Python` est... [`logging`](https://docs.python.org/3/library/logging.html). On va n√©anmoins ici proposer d'utiliser [`loguru`](https://github.com/Delgan/loguru) qui est un peu plus simple √† configurer (l'instanciation du _logger_ est plus ais√©e) et plus agr√©able gr√¢ce √† ses messages en couleurs qui permettent de visuellement trier les informations.

![](https://raw.githubusercontent.com/Delgan/loguru/master/docs/_static/img/demo.gif)


::: {.callout-tip}

## Application 7b: remont√©e de messages par _logging_

1. Installer `loguru` et l'ajouter au `requirements.txt`
2. En s'aidant du `README` du projet sur [`Github`](https://github.com/Delgan/loguru), remplacer nos `print` par diff√©rents types de messages (info, success, etc.).
3. Tester l'ex√©cution du script en ligne de commande et observer vos sorties
4. Mettre √† jour le logger pour enregistrer dans un fichier de _log_. Ajouter celui-ci au `.gitignore` puis tester en ligne de commande votre script. Ouvrir le fichier en question, refaites tourner le script et regardez son √©volutoin.
5. Il est possible avec `loguru` de capturer les erreurs des fonctions gr√¢ce au syst√®me de cache d√©crit [ici](https://github.com/Delgan/loguru?tab=readme-ov-file#exceptions-catching-within-threads-or-main).
Introduire une erreur dans une des fonctions (par exemple dans `split_train_test`) avec un code du type `raise ValueError("Probl√®me ici")`
:::




## √âtape 4 : stocker les donn√©es de mani√®re externe {#stockageS3}

L'√©tape pr√©c√©dente nous a permis d'isoler la configuration. Nous avons conceptuellement isol√© les donn√©es du code lors des applications pr√©c√©dentes. Cependant, nous n'avons pas √©t√© au bout du chemin car le stockage des donn√©es reste conjoint √† celui du code. Nous allons maintenant dissocier ces deux √©l√©ments.

::: {.callout-warning collapse="true"}
## Pour en savoir plus sur le syst√®me de stockage `S3`

Pour mettre en oeuvre cette √©tape, il peut √™tre utile de
comprendre un peu comme fonctionne le SSP Cloud.
Vous devrez suivre la [documentation du SSP Cloud](https://inseefrlab.github.io/docs.sspcloud.fr/docs/fr/storage.html) pour la r√©aliser. Une aide-m√©moire est √©galement disponible dans le cours
de 2e ann√©e de l'ENSAE [Python pour la _data science_](https://linogaliana-teaching.netlify.app/reads3/#).
:::


Le chapitre sur la [structure des projets](/chapters/projects-architecture.qmd)
d√©veloppe l'id√©e qu'il est recommand√© de converger vers un mod√®le
o√π environnements d'ex√©cution, de stockage du code et des donn√©es sont conceptuellement
s√©par√©s. Ce haut niveau d'exigence est un gain de temps important
lors de la mise en production car au cours de cette derni√®re, le projet
est amen√© √† √™tre ex√©cut√© sur une infrastructure informatique d√©di√©e
qu'il est bon d'anticiper. Sch√©matiquement, nous visons la structure de projet suivante:

![](https://inseefrlab.github.io/formation-bonnes-pratiques-git-R/slides/img/environment_clean.png)

A l'heure actuelle, les donn√©es sont stock√©es dans le d√©p√¥t. C'est une
mauvaise pratique. En premier lieu, `Git` n'est techniquement
pas bien adapt√© au stockage de donn√©es. Ici ce n'est pas tr√®s grave
car il ne s'agit pas de donn√©es volumineuses et ces derni√®res ne sont
pas modifi√©es au cours de notre chaine de traitement.

La raison principale
est que les donn√©es trait√©es par les _data scientists_
sont g√©n√©ralement soumises √† des clauses de
confidentialit√©s ([RGPD](https://www.cnil.fr/fr/rgpd-de-quoi-parle-t-on), [secret statistique](https://www.insee.fr/fr/information/1300624)...). Mettre ces donn√©es sous contr√¥le de version
c'est prendre le risque de les divulguer √† un public non habilit√©.
Il est donc recommand√© de privil√©gier des outils techniques adapt√©s au
stockage de donn√©es.

L'id√©al, dans notre cas, est d'utiliser une solution de stockage externe.
On va utiliser pour cela `MinIO`, la solution de stockage de type `S3` offerte par le SSP Cloud.
Cela nous permettra de supprimer les donn√©es de `Github` tout en maintenant la reproductibilit√©
de notre projet [^history].

[^history]: Attention, les donn√©es ont √©t√© _committ√©es_ au moins une fois. Les supprimer
du d√©p√¥t ne les efface pas de l'historique. Si cette erreur arrive, le mieux est de supprimer
le d√©p√¥t en ligne, cr√©er un nouvel historique `Git` et partir de celui-ci pour des publications
ult√©rieures sur `Github`. N√©anmoins l'id√©al serait de ne pas s'exposer √† cela. C'est justement
l'objet des bonnes pratiques de ce cours: un `.gitignore` bien construit et une s√©paration des
environnements de stockage du code et
des donn√©es seront bien plus efficaces pour vous √©viter ces probl√®mes que tout les conseils de
vigilance que vous pourrez trouver ailleurs.

Plus concr√®tement, nous allons adopter le pipeline suivant pour notre projet:

![](/chapters/applications/figures/pipeline_appli8.png)

Le sc√©nario type est que nous avons une source brute, re√ßue sous forme de CSV, dont on ne peut changer le format. Il aurait √©t√© id√©al d'avoir un format plus adapt√© au traitement de donn√©es pour ce fichier mais ce n'√©tait pas de notre ressort. Notre chaine va aller chercher ce fichier, travailler dessus jusqu'√† valoriser celui-ci sous la forme de notre matrice de confusion. Si on imagine que notre chaine prend un certain temps, il n'est pas inutile d'√©crire des donn√©es interm√©diaires. Pour faire cela, puisque nous avons la main, autant choisir un format adapt√©, √† savoir le format `Parquet`.



::: {.callout-tip}

## Application 8: utilisation d'un syst√®me de stockage distant

A partir de la ligne de commande,
utiliser l'utilitaire [MinIO](https://min.io/docs/minio/linux/reference/minio-mc.html)
pour copier les donn√©es `data/raw/data.csv`
vers votre
bucket personnel. Les donn√©es interm√©diaires
peuvent √™tre laiss√©es en local mais doivent √™tre ajout√©es
au `.gitignore`.


<details>
<summary>Indice</summary>

Structure √† adopter:

```{.bash filename="terminal"}
mc cp data/raw/data.csv s3/$BUCKET_PERSONNEL/ensae-reproductibilite/data/raw/data.csv
```

en modifiant `$BUCKET_PERSONNEL`, l'emplacement de votre bucket personnel
</details>

Pour se simplifier la vie, on va utiliser des URL de t√©l√©chargement des fichiers
(comme si ceux-ci √©taient sur n'importe quel espace de stockage) plut√¥t que d'utiliser
une librairie `S3` compatible comme `boto3` ou `s3fs`.

Par d√©faut, le contenu de votre _bucket_ est priv√©, seul vous y avez acc√®s. N√©anmoins,
vous pouvez rendre accessible √† tous en lecture le contenu de votre _bucket_ en
faisant lui donnant des droits anonymes.
Pour cela, en ligne de
commande, faire:

```{.bash filename="terminal"}
mc anonymous set download s3/$BUCKET_PERSONNEL/ensae-reproductibilite/data/raw/
```

en modifiant `$BUCKET_PERSONNEL`. Les URL de t√©l√©chargement seront de la forme
`https://minio.lab.sspcloud.fr/$BUCKET_PERSONNEL/ensae-reproductibilite/data/raw/data.csv`

En premier lieu, on va am√©liorer la brique d'ingestion et de pr√©paration des donn√©es

- Modifier le fichier `.env` et la variable `data_path` pour utiliser, par d√©faut, directement l'URL dans l'import;
- Modifier les valeurs par d√©faut dans votre code ;
- Ajouter le dossier `data/` au `.gitignore` ainsi que les fichiers `*.parquet`
- Supprimer le dossier `data` de votre projet et faites `git rm --cached -r data`


Nous allons en profiter pour am√©liorer nos donn√©es interm√©diaires. Dans `main.py`, remplacer les chemins par ceux-ci:

```{.python file="main.py"}
# main.py
data_path = os.environ.get("data_path", URL_RAW)
data_train_path = os.environ.get("train_path", "data/derived/train.parquet")
data_test_path = os.environ.get("test_path", "data/derived/test.parquet")
```

o√π `URL_RAW` est le lien de la forme `"https://minio.lab.sspcloud.fr/$BUCKET_PERSONNEL/ensae-reproductibilite/data/raw/data.csv"`

Dans `data/pipeline/build_pipeline.py`, remplacer l'√©criture des donn√©es par ce morceau:

```{.python file="data/pipeline/build_pipeline.py"}
# data/pipeline/build_pipeline.py
if train_path:
    pd.concat([X_train, y_train]).to_parquet(train_path)
if test_path:
    pd.concat([X_test, y_test]).to_parquet(test_path)
```

- V√©rifier le bon fonctionnement de votre application.


Maintenant qu'on a arrang√© la structure de notre projet, c'est l'occasion
de supprimer le code qui n'est plus n√©cessaire au bon fonctionnement de notre
projet (cela r√©duit la charge de maintenance[^pourapres]).

Pour vous aider, vous pouvez
utiliser [`vulture`](https://pypi.org/project/vulture/) de mani√®re it√©rative
pour vous assister dans le nettoyage de votre code.

```{.bash filename="terminal"}
vulture main.py src/
```

<details>
<summary>
Exemple de sortie
</summary>

```{.bash filename="terminal"}
vulture .
```

```{.python}
src/data/import_data.py:3: unused function 'split_and_count' (60% confidence)
```

</details>

:::

[^pourapres]: Lorsqu'on d√©veloppe du code qui finalement ne s'av√®re plus n√©cessaire, on a souvent un cas de conscience √† le supprimer et on pr√©f√®re le mettre de c√¥t√©. Au final, ce syndr√¥me de Diog√®ne est mauvais pour la p√©rennit√© du projet : on se retrouve √† devoir maintenir une base de code qui n'est, en pratique, pas utilis√©e. Ce n'est pas un probl√®me de supprimer un code ; si finalement celui-ci s'av√®re utile, on peut le retrouver gr√¢ce √† l'historique `Git` et les outils de recherche sur `Github`. Le _package_ `vulture` est tr√®s pratique pour diagnostiquer les morceaux de code inutiles dans un projet.

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli8
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




# Partie 2bis: packagisation de son projet (optionnel)

Cette s√©rie d'actions n'est pas forc√©ment pertinente pour tous
les projets. Elle fait un peu la transition entre la modularit√©
et la portabilit√©.

## √âtape 1 : proposer des tests unitaires (optionnel)

Notre code comporte un certain nombre de fonctions g√©n√©riques.
On peut vouloir tester leur usage sur des donn√©es standardis√©es,
diff√©rentes de celles du Titanic.

M√™me si la notion de tests unitaires
prend plus de sens dans un _package_, nous pouvons proposer
dans le projet des exemples d'utilisation de la fonction, ceci peut √™tre p√©dagogique.

Nous allons utiliser [`unittest`](https://docs.python.org/3/library/unittest.html)
pour effectuer des tests unitaires. Cette approche n√©cessite quelques notions
de programmation orient√©e objet ou une bonne discussion avec `ChatGPT`.


::: {.callout-tip}

## Application 9: test unitaire _(optionnel)_

Dans le dossier `tests/`, cr√©er avec l'aide de `ChatGPT` ou 
de `Copilot` un test pour la fonction
`split_and_count`. 

- Effectuer le test unitaire en ligne de commande avec `unittest` (`python -m unittest tests/test_split.py`). Corriger le test unitaire en cas d'erreur. 
- Si le temps le permet, proposer des variantes ou d'autres tests.
:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli9
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}


:::




::: {.callout-note}

Lorsqu'on effectue des tests unitaires, on cherche g√©n√©ralement
√† tester le plus de lignes possibles de son code. On parle de
__taux de couverture__ (_coverage rate_) pour d√©signer
la statistique mesurant cela.

Cela peut s'effectuer de la mani√®re suivante avec le package
[`coverage`](https://coverage.readthedocs.io/en/7.2.2/):

```{.bash filename="terminal"}
coverage run -m unittest tests/test_create_variable_title.py
coverage report -m
```

```{.python}
Name                                  Stmts   Miss  Cover   Missing
-------------------------------------------------------------------
src/features/build_features.py           34     21    38%   35-36, 48-58, 71-74, 85-89, 99-101, 111-113
tests/test_create_variable_title.py      21      1    95%   54
-------------------------------------------------------------------
TOTAL                                    55     22    60%
```

Le taux de couverture est souvent mis en avant par les gros
projets comme indicateur de leur qualit√©. Il existe d'ailleurs
des badges `Github` d√©di√©s.
:::




## √âtape 2 : transformer son projet en package (optionnel)

Notre projet est modulaire, ce qui le rend assez simple √† transformer
en _package_, en s'inspirant de la structure du `cookiecutter` adapt√©, issu
de [cet ouvrage](https://py-pkgs.org/03-how-to-package-a-python#package-structure).

On va cr√©er un _package_ nomm√© `titanicml` qui encapsule
tout notre code et qui sera appel√©
par notre script `main.py`. La structure attendue
est la suivante:

<details>
<summary>Structure vis√©e</summary>

```
ensae-reproductibilite-application
‚îú‚îÄ‚îÄ docs                                    ‚îê
‚îÇ   ‚îú‚îÄ‚îÄ main.py                             ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ notebooks                           ‚îÇ Package documentation and examples
‚îÇ       ‚îî‚îÄ‚îÄ titanic.ipynb                   ‚îÇ
‚îú‚îÄ‚îÄ configuration                           ‚îê Configuration (pas √† partager avec Git)
‚îÇ   ‚îî‚îÄ‚îÄ config.yaml                         ‚îò
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ pyproject.toml                          ‚îê
‚îú‚îÄ‚îÄ requirements.txt                        ‚îÇ
‚îú‚îÄ‚îÄ titanicml                               ‚îÇ
‚îÇ   ‚îú‚îÄ‚îÄ __init__.py                         ‚îÇ Package source code, metadata
‚îÇ   ‚îú‚îÄ‚îÄ data                                ‚îÇ and build instructions
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ import_data.py                  ‚îÇ
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ test_create_variable_title.py   ‚îÇ
‚îÇ   ‚îú‚îÄ‚îÄ features                            ‚îÇ
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ build_features.py               ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ models                              ‚îÇ
‚îÇ       ‚îî‚îÄ‚îÄ train_evaluate.py               ‚îò
‚îî‚îÄ‚îÄ tests                                   ‚îê
    ‚îî‚îÄ‚îÄ test_create_variable_title.py       ‚îò Package tests
```
</details>

<details>
<summary>Rappel: structure actuelle</summary>

```
ensae-reproductibilite-application
‚îú‚îÄ‚îÄ notebooks
‚îÇ   ‚îî‚îÄ‚îÄ titanic.ipynb
‚îú‚îÄ‚îÄ configuration
‚îÇ   ‚îî‚îÄ‚îÄ config.yaml
‚îú‚îÄ‚îÄ main.py
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ requirements.txt
‚îî‚îÄ‚îÄ src
    ‚îú‚îÄ‚îÄ data
    ‚îÇ   ‚îú‚îÄ‚îÄ import_data.py
    ‚îÇ   ‚îî‚îÄ‚îÄ test_create_variable_title.py
    ‚îú‚îÄ‚îÄ features
    ‚îÇ   ‚îî‚îÄ‚îÄ build_features.py
    ‚îî‚îÄ‚îÄ models
        ‚îî‚îÄ‚îÄ train_evaluate.py
```
</details>

Il existe plusieurs
_frameworks_ pour
construire un _package_. Nous
allons privil√©gier [`Poetry`](https://python-poetry.org/)
√† [`Setuptools`](https://pypi.org/project/setuptools/).


::: {.callout-note}

Pour cr√©er la structure minimale d'un _package_, le plus simple est
d'utiliser le `cookiecutter` adapt√©,
issu de [cet ouvrage](https://py-pkgs.org/03-how-to-package-a-python#package-structure).

Comme on a d√©j√† une structure tr√®s modulaire, on va plut√¥t recr√©er cette
structure dans notre projet d√©j√† existant. En fait, il ne manque qu'un fichier essentiel,
le principal distinguant un projet classique d'un package : `pyproject.toml`.

```{.bash filename="terminal"}
cookiecutter https://github.com/py-pkgs/py-pkgs-cookiecutter.git
```

<details>
<summary>D√©rouler pour voir les choix possibles</summary>
```{.python}
author_name [Monty Python]: Daffy Duck
package_name [mypkg]: titanicml
package_short_description []: Impressive Titanic survival analysis
package_version [0.1.0]:
python_version [3.9]:
Select open_source_license:
1 - MIT
2 - Apache License 2.0
3 - GNU General Public License v3.0
4 - Creative Commons Attribution 4.0
5 - BSD 3-Clause
6 - Proprietary
7 - None
Choose from 1, 2, 3, 4, 5, 6 [1]:
Select include_github_actions:
1 - no
2 - ci
3 - ci+cd
Choose from 1, 2, 3 [1]:
```
</details>

:::


::: {.callout-tip}

## Application 10: packagisation _(optionnel)_

- Renommer le dossier `titanicml` pour respecter la nouvelle
arborescence ;
- Cr√©er un fichier `pyproject.toml` sur cette base ;


In [None]:
#| eval: false
#| code-summary: pyproject.toml
[tool.poetry]
name = "titanicml"
version = "0.0.1"
description = "Awesome Machine Learning project"
authors = ["Daffy Duck <daffy.duck@fauxmail.fr>", "Mickey Mouse"]
license = "MIT"
readme = "README.md"

[build-system]
requires = ["poetry-core"]
build-backend = "poetry.core.masonry.api"

[tool.pytest.ini_options]
log_cli = true
log_cli_level = "WARNING"
log_cli_format = "%(asctime)s [%(levelname)8s] %(message)s (%(filename)s:%(lineno)s)"
log_cli_date_format = "%Y-%m-%d %H:%M:%S"

- Cr√©er le dossier `docs` et mettre les fichiers indiqu√©s dedans
- Dans `titanicml/`, cr√©er un fichier `__init__.py`[^init]


In [None]:
#| eval: false
#| code-summary: __init__.py
from .data.import_data import (
    split_and_count
)
from .pipeline.build_pipeline import (
    split_train_test,
    create_pipeline
)
from .models.train_evaluate import (
    evaluate_model
)
__all__ = [
    "split_and_count",
    "split_train_test",
    "create_pipeline",
    "evaluate_model"
]

- Installer le package en local avec `pip install -e .`
- Modifier le contenu de `docs/main.py` pour importer les fonctions de notre _package_ `titanicml` et tester en
ligne de commande notre fichier `main.py`
:::

[^init]: Le fichier `__init__.py` indique √† `Python` que le dossier
est un _package_. Il permet de proposer certaines configurations
lors de l'import du _package_. Il permet √©galement de contr√¥ler
les objets export√©s (c'est-√†-dire mis √† disposition de l'utilisateur)
par le _package_ par rapport aux objets internes au _package_.
En le laissant vide, nous allons utiliser ce fichier
pour importer l'ensemble des fonctions de nos sous-modules.
Ce n'est pas la meilleure pratique mais un contr√¥le plus fin des
objets export√©s demanderait un investissement qui ne vaut, ici, pas
le co√ªt.


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli10
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}


:::



# Partie 3 : construction d'un projet portable et reproductible {#partie3}

Dans la partie pr√©c√©dente,
on a appliqu√© de mani√®re incr√©mentale de nombreuses bonnes pratiques vues
dans les chapitres [Qualit√© du code](/chapters/code-quality.html)
et [Structure des projets](/chapters/projects-architecture.html)
tout au long du cours.

Ce faisant, on s'est d√©j√† consid√©rablement rapproch√©s d'une
possible mise en production : le code est lisible,
la structure du projet est normalis√©e et √©volutive,
et le code est proprement versionn√© sur un
d√©p√¥t `GitHub` {{< fa brands github >}}.


<details>
<summary>
Illustration de l'√©tat actuel du projet
</summary>
![](/chapters/applications/figures/_pipeline_avant_partie3.png)

</details>



A pr√©sent, nous avons une version du projet qui est largement partageable.
Du moins en th√©orie, car la pratique est souvent plus compliqu√©e :
il y a fort √† parier que si vous essayez d'ex√©cuter votre projet sur un autre environnement (typiquement, votre ordinateur personnel),
les choses ne se passent pas du tout comme attendu. Cela signifie qu'**en l'√©tat, le projet n'est pas portable : il n'est pas possible, sans modifications co√ªteuses, de l'ex√©cuter dans un environnement diff√©rent de celui dans lequel il a √©t√© d√©velopp√©**.

Dans cette trois√®me partie de notre travail vers la mise en production,
nous allons voir
comment **normaliser l'environnement d'ex√©cution afin de produire un projet portable**.
Autrement dit, nous n'allons plus nous contenter de modularit√© mais allons rechercher
la portabilit√©.
On sera alors tout proche de pouvoir mettre le projet en production.

On progressera dans l'√©chelle de la reproductibilit√©
de la mani√®re suivante:

1. [**Environnements virtuels**](#anaconda) ;
2. Cr√©er un [script shell](#shell) qui permet, depuis un environnement minimal, de construire l'application de A √† Z ;
3. [**Images et conteneurs `Docker`**](#docker).


Nous allons repartir de l'application 8, c'est-√†-dire d'un projet
modulaire mais qui n'est pas, √† strictement parler, un _package_
(objet des applications optionnelles suivantes 9 et 10).

Pour se replacer dans l'√©tat du projet √† ce niveau,
il est possible d'utiliser le _tag_ _ad hoc_.

```{.bash filename="terminal"}
git stash
git checkout appli8
```


## √âtape 1 : un environnement pour rendre le projet portable {#anaconda}

Pour qu'un projet soit portable, il doit remplir deux conditions:

- Ne pas n√©cessiter de d√©pendance
qui ne soient pas renseign√©es quelque part ;
- Ne pas proposer des d√©pendances inutiles, qui ne
sont pas utilis√©es dans le cadre du projet.

Le prochain exercice vise √† mettre ceci en oeuvre.
Comme expliqu√© dans le [chapitre portabilit√©](/chapters/portability.qmd),
le choix du gestionnaire d'environnement est laiss√©
libre. Il est recommand√© de privil√©gier `venv` si vous d√©couvrez
la probl√©matique de la portabilit√©.

::: {.panel-tabset group="language"}

## Environnement virtuel `venv`

L'approche la plus l√©g√®re est l'environnement virtuel.
Nous avons en fait implicitement d√©j√† commenc√© √† aller vers
cette direction
en cr√©ant un fichier `requirements.txt`.


:::: {.callout-tip}

## Application 11a: environnement virtuel `venv`

1. Ex√©cuter `pip freeze` en ligne de commande et observer la (tr√®s) longue
liste de package
2. Cr√©er l'environnement virtuel `titanic` en s'inspirant de [la documentation officielle](https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/)[^pythonversion] ou du [chapitre d√©di√©](/chapters/portability.qmd)
3. Utiliser `ls` pour observer et comprendre le contenu du dossier `titanic/bin` install√©
4. Activer l'environnement et v√©rifier l'installation de `Python` maintenant utilis√©e par votre machine
<!---source titanic/bin/activate && which python---->
5. V√©rifier directement depuis la ligne de commande que `Python` ex√©cute bien une commande[^option] avec:

```{.bash filename="terminal"}
python -c "print('Hello')"
```

6. Faire la m√™me chose mais avec `import pandas as pd`
7. Installer les _packages_ √† partir du `requirements.txt`. Tester √† nouveau `import pandas as pd` pour comprendre la diff√©rence.
8. Ex√©cuter `pip freeze` et comprendre la diff√©rence avec la situation pr√©c√©dente.
9. V√©rifier que le script `main.py` fonctionne bien. Sinon ajouter les _packages_ manquants dans le `requirements.txt` et reprendre de mani√®re it√©rative √† partir de la question 7.
10. Ajouter le dossier `titanic/` au `.gitignore` pour ne pas ajouter ce dossier √† `Git`.


<details>
<summary>Aide pour la question 4</summary>

Apr√®s l'activation, vous pouvez v√©rifier quel `python`
est utilis√© de cette mani√®re

```{.bash filename="terminal" env="titanic"}
which python
```

</details>

::::

[^pythonversion]: Si vous d√©sirez aussi contr√¥ler la version de `Python`, ce qui peut √™tre important
dans une perspective de portabilit√©, vous pouvez ajouter une option, par exemple `-p python3.10`. N√©anmoins
nous n'allons pas nous embarasser de cette nuance pour la suite car nous pourrons contr√¥ler
la version de `Python` plus finement par le biais de `Docker`.
[^option]: L'option `-c` pass√©e apr√®s la commande `python` permet d'indiquer √† `Python` que la commande
ne se trouve pas dans un fichier mais sera dans le texte qu'on va directement lui fournir.

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli11a
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## Environnement `conda`

Les environnements `conda` sont plus lourds √† mettre en oeuvre que les
environnements virtuels mais peuvent permettre un contr√¥le
plus formel des d√©pendances.


:::: {.callout-tip}

## Application 11b: environnement `conda` 

1. Ex√©cuter `conda env export` en ligne de commande et observer la (tr√®s) longue
liste de package
2. Cr√©er un environnement `titanic`
avec [`conda create`](https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#creating-an-environment-with-commands)
4. Activer l'environnement et v√©rifier l'installation de `Python` maintenant utilis√©e par votre machine 
<!---conda activate titanic && which python---->
5. V√©rifier directement depuis la ligne de commande que `Python` ex√©cute bien une commande[^option] avec:

```{.bash filename="terminal"}
python -c "print('Hello')"
```

6. Faire la m√™me chose mais avec `import pandas as pd`
7. Installer les _packages_ qu'on avait list√© dans le `requirements.txt` pr√©c√©demment. Ne pas faire un `pip install -r requirements.txt` afin de privil√©gier `conda install`
8. Ex√©cuter √† nouveau `conda env export` et comprendre la diff√©rence avec la situation pr√©c√©dente[^splitscreen].
9. V√©rifier que le script `main.py` fonctionne bien. Sinon installer les _packages_ manquants
et reprndre de mani√®re it√©rative
√† partir de la question 7.
10. Quand `main.py` fonctionne, faire `conda env export > environment.yml` pour figer l'environnement de travail.

::::

[^splitscreen]: Pour comparer les deux listes, vous pouvez utiliser la fonctionnalit√© de _split_ 
du terminal sur `VSCode` pour comparer les outputs de `conda env export` en les mettant 
en face √† face. 

:::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli11b
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

::::



:::


## √âtape 2: construire l'environnement de notre application via un script `shell` {#shell}

Les environnements virtuels permettent de mieux sp√©cifier les d√©pendances de notre projet, mais ne permettent pas de garantir une portabilit√© optimale. Pour cela, il faut recourir √† la technologie des conteneurs. L'id√©e est de construire une machine, en partant d'une base quasi-vierge, qui permette de construire √©tape par √©tape l'environnement n√©cessaire au bon fonctionnement de notre projet. C'est le principe des conteneurs `Docker` {{< fa brands docker >}}.

Leur m√©thode de construction √©tant un peu difficile √† prendre en main au d√©but, nous allons passer par une √©tape interm√©diaire afin de bien comprendre le processus de production.

- Nous allons d'abord cr√©er un script `shell`, c'est √† dire une suite de commandes `Linux` permettant de construire l'environnement √† partir d'une machine vierge ;
- Nous transformerons celui-ci en `Dockerfile` dans un deuxi√®me temps. C'est l'objet de l'√©tape suivante.

::: {.panel-tabset group="language"}

## Environnement virtuel `venv`


:::: {.callout-tip}

## Application 12a : cr√©er un fichier d'installation de A √† Z

1. Cr√©er un service `ubuntu` sur le SSP Cloud
2. Ouvrir un terminal
3. Cloner le d√©p√¥t 
4. Se placer dans le dossier du projet avec `cd`
5. Se placer au niveau du checkpoint 11a avec `git checkout appli11a`
6. Via l'explorateur de fichiers, cr√©er le fichier `install.sh` √† la racine du projet avec le contenu suivant:

<details>
<summary>Script √† cr√©er sous le nom `install.sh` </summary>
```{.bash filename="install.sh" no-prefix=true}
#!/bin/bash

# Install Python
apt-get -y update
apt-get install -y python3-pip python3-venv

# Create empty virtual environment
python3 -m venv titanic
source titanic/bin/activate

# Install project dependencies
pip install -r requirements.txt
```
</details>

6. Changer les permissions sur le script pour le rendre ex√©cutable

```{.bash filename="terminal"}
chmod +x install.sh
```

7. Ex√©cuter le script depuis la ligne de commande avec des droits de super-utilisateur (n√©cessaires pour installer des *packages* via `apt`)

```{.bash filename="terminal"}
sudo ./install.sh
```

8. V√©rifier que le script `main.py` fonctionne correctement dans l'environnement virtuel cr√©√© 

```{.bash filename="terminal"}
source titanic/bin/activate
python3 main.py
```

::::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli12a
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::



## Environnement `conda`


:::: {.callout-tip}

## Application 12b : cr√©er un fichier d'installation de A √† Z

1. Cr√©er un service `ubuntu` sur le SSP Cloud
2. Ouvrir un terminal
3. Cloner le d√©p√¥t 
4. Se placer dans le dossier du projet avec `cd`
5. Se placer au niveau du checkpoint 11b avec `git checkout appli11b`
6. Via l'explorateur de fichiers, cr√©er le fichier `install.sh` √† la racine du projet avec le contenu suivant:

<details>
<summary>Script √† cr√©er sous le nom `install.sh` </summary>
```{.bash filename="install.sh" no-prefix=true}
apt-get -y update && apt-get -y install wget

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && \
    bash Miniconda3-latest-Linux-x86_64.sh -b -p /miniconda && \
    rm -f Miniconda3-latest-Linux-x86_64.sh

PATH="/miniconda/bin:${PATH}"

# Create environment
conda create -n titanic pandas PyYAML scikit-learn -c conda-forge
conda activate titanic

PATH="/miniconda/envs/titanic/bin:${PATH}"

python main.py
```
</details>

6. Changer les permissions sur le script pour le rendre ex√©cutable

```{.bash filename="terminal"}
chmod +x install.sh
```

7. Ex√©cuter le script depuis la ligne de commande avec des droits de super-utilisateur (n√©cessaires pour installer des *packages* via `apt`)

```{.bash filename="terminal"}
sudo ./install.sh
```

8. V√©rifier que le script `main.py` fonctionne correctement dans l'environnement virtuel cr√©√© 

```{.bash filename="terminal"}
conda activate titanic
python3 main.py
```

::::

:::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli12b
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

::::



:::


## √âtape 3: conteneuriser l'application avec `Docker` {#docker}


::: {.callout-note}
Cette application n√©cessite l'acc√®s √† une version interactive de `Docker`.
Il n'y a pas beaucoup d'instances en ligne disponibles.

Nous proposons deux solutions:

- [Installer `Docker`](https://docs.docker.com/get-docker/) sur sa machine ;
- Se rendre sur l'environnement bac √† sable _[Play with Docker](https://labs.play-with-docker.com)_

Sinon, elle peut √™tre r√©alis√©e en essai-erreur par le biais des services d'int√©gration continue de `Github` {{< fa brands github >}} ou `Gitlab` {{< fa brands gitlab >}}. N√©anmoins, nous pr√©senterons l'utilisation de ces services plus tard, dans la prochaine partie.
:::

Maintenant qu'on sait que ce script pr√©paratoire fonctionne, on va le transformer en `Dockerfile` pour anticiper la mise en production.  Comme la syntaxe `Docker` est l√©g√®rement diff√©rente de la syntaxe `Linux` classique (voir le [chapitre portabilit√©](/chapters/portability.qmd)), il va √™tre n√©cessaire de changer quelques instructions mais ceci sera tr√®s l√©ger.

On va tester le `Dockerfile` dans un environnement bac √† sable pour ensuite
pouvoir plus facilement automatiser la construction de l'image
`Docker`.


::: {.callout-tip}

## Application 13: cr√©ation de l'image `Docker` 

Se placer dans un environnement avec `Docker`, par
exemple _[Play with Docker](https://labs.play-with-docker.com)_

#### Cr√©ation du `Dockerfile`

- Dans le terminal `Linux`, cloner votre d√©p√¥t `Github` 
- Repartir de la derni√®re version √† disposition. Par exemple, si vous avez privil√©gi√© 
l'environnement virtuel `venv`, ce sera:

```{.bash filename="terminal"}
git stash #<1>
git checkout appli12a
```
1. Pour annuler les modifications depuis le dernier _commit_


- Cr√©er via la ligne de commande un fichier texte vierge nomm√© `Dockerfile` (la majuscule au d√©but du mot est importante)

<details><summary>Commande pour cr√©er un `Dockerfile` vierge depuis la ligne de commande</summary>
```{.bash filename="terminal"}
touch Dockerfile
```
</details>

- Ouvrir ce fichier via un √©diteur de texte et copier le contenu suivant dedans:

<details><summary>Premier `Dockerfile`</summary>

```{.bash filename="terminal" no-prefix=true}
FROM ubuntu:22.04

WORKDIR ${HOME}/titanic

# Install Python
RUN apt-get -y update && \
    apt-get install -y python3-pip

# Install project dependencies
COPY requirements.txt .
RUN pip install -r requirements.txt

CMD ["python3", "main.py"]
```
</details>

#### Construire (_build_) l'image

- Utiliser `docker build` pour cr√©er une image avec le tag `my-python-app`

```{.bash filename="terminal"}
docker build . -t my-python-app
```

- V√©rifier les images dont vous disposez. Vous devriez avoir un r√©sultat proche de celui-ci :

```{.bash filename="terminal"}
docker images
```

```{.python}
REPOSITORY      TAG       IMAGE ID       CREATED              SIZE
my-python-app   latest    188957e16594   About a minute ago   879MB
```

#### Tester l'image: d√©couverte du cache

L'√©tape de `build` a fonctionn√©: une image a √©t√© construite.

Mais fait-elle effectivement ce que l'on attend d'elle ?

Pour le savoir, il faut passer √† l'√©tape suivante, l'√©tape de `run`.

```{.bash filename="terminal"}
docker run -it my-python-app
```

```{.python}
python3: can't open file '/~/titanic/main.py': [Errno 2] No such file or directory
```

Le message d'erreur est clair : `Docker` ne sait pas o√π trouver le fichier `main.py`. D'ailleurs, il ne connait pas non plus les autres fichiers de notre application qui sont n√©cessaires pour faire tourner le code, par exemple le dossier `src`.

- Avant l'√©tape `CMD`, copier les fichiers n√©cessaires sur l'image afin que l'application dispose de tous les √©l√©ments n√©cessaires pour √™tre en mesure de fonctionner.

<details>
<summary>Nouveau `Dockerfile` </summary>
```{.bash filename="terminal" no-prefix=true}
FROM ubuntu:22.04

WORKDIR ${HOME}/titanic

# Install Python
RUN apt-get -y update && \
    apt-get install -y python3-pip

# Install project dependencies
COPY requirements.txt .
RUN pip install -r requirements.txt

COPY main.py .
COPY src ./src
CMD ["python3", "main.py"]
```
</details>

- Refaire tourner l'√©tape de `build`

- Refaire tourner l'√©tape de `run`. A ce stade, la matrice de confusion doit fonctionner üéâ.
Vous avez cr√©√© votre premi√®re application reproductible !

:::

::: {.callout-note}

Ici, le _cache_ permet d'√©conomiser beaucoup de temps. Par besoin de 
refaire tourner toutes les √©tapes, `Docker` agit de mani√®re intelligente
en faisant tourner uniquement les √©tapes qui ont chang√©.

:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli13
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




# Partie 4 : automatisation avec l'int√©gration continue


Imaginez que vous √™tes au restaurant
et qu'on ne vous serve pas le plat mais seulement la recette
et que, de plus, on vous demande de pr√©parer le plat
chez vous avec les ingr√©dients dans votre frigo.
Vous seriez quelque peu d√©√ßu. En revanche, si vous avez go√ªt√©
au plat, que vous √™tes un r√©el cordon bleu
et qu'on vous donne la recette pour refaire ce plat ult√©rieurement,
peut-√™tre
que vous appr√©ciriez plus.

Cette analogie illustre l'enjeu de d√©finir
le public cible et ses attentes afin de fournir un livrable adapt√©.
Une image `Docker` est un livrable qui n'est pas forc√©ment int√©ressant
pour tous les publics. Certains pr√©f√©reront avoir un plat bien pr√©par√©
qu'une recette ; certains appr√©cieront avoir une image `Docker` mais
d'autres ne seront pas en mesure de construire celle-ci ou ne sauront
pas la faire fonctionner. Une image `Docker` est plus souvent un
moyen pour faciliter la mise en service d'une production qu'une fin en soi.

Nous allons donc proposer
plusieurs types de livrables plus classiques par la suite. Ceux-ci
correspondront mieux aux attendus des publics utilisateurs de services
construits √† partir de techniques de _data science_. `Docker` est n√©anmoins
un passage oblig√© car l'ensemble des types de livrables que nous allons
explorer reposent sur la standardisation permise par les conteneurs.

Cette approche nous permettra de quitter le domaine de l'artisanat pour
s'approcher d'une industrialisation de la mise √† disposition
de notre projet. Ceci va notamment nous amener √† mettre en oeuvre
l'approche pragmatique du `DevOps` qui consiste √† int√©grer d√®s la phase de
d√©veloppement d'un projet les contraintes li√©es √† sa mise √† disposition
au public cible (cette approche est d√©taill√©e plus
amplement dans le chapitre sur la [mise en production](/chapters/deployment.qmd)).

L'automatisation et la mise √† disposition automatis√©e de nos productions
sera faite progressivement, au cours des prochaines parties. Tous les
projets n'ont pas vocation √† aller aussi loin dans ce domaine.
L'opportunit√© doit √™tre compar√©e aux co√ªts humains et financiers
de leur mise en oeuvre et de leur cycle de vie.
Avant de faire une production en s√©rie de nos mod√®les,
nous allons d√©j√† commencer
par automatiser quelques tests de conformit√© de notre code.
On va ici utiliser l'int√©gration continue pour deux objectifs distincts:

- la mise √† disposition de l'image `Docker` ;
- la mise en place de tests automatis√©s de la qualit√© du code
sur le mod√®le de notre `linter` pr√©c√©dent.

Nous allons utiliser `Github Actions` pour cela. Il s'agit de serveurs
standardis√©s mis √† disposition gratuitement par `Github` {{<fa brands github >}}.
`Gitlab` {{<fa brands gitlab >}}, l'autre principal acteur du domaine,
propose des services similaires. L'impl√©mentation est l√©g√®rement diff√©rente
mais les principes sont identiques.


::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli13
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::


## √âtape 1: mise en place de tests automatis√©s

Avant d'essayer de mettre en oeuvre la cr√©ation de notre image
`Docker` de mani√®re automatis√©e, nous allons pr√©senter la logique
de l'int√©gration continue en testant de mani√®re automatis√©e
notre script `main.py`.

Pour cela, nous allons partir de la structure propos√©e dans l'[action officielle](https://github.com/actions/setup-python).
La documentation associ√©e est [ici](https://docs.github.com/en/actions/automating-builds-and-tests/building-and-testing-python).
Des √©l√©ments succincts de pr√©sentation de la logique d√©clarative des actions `Github`
sont disponibles dans le chapitre sur la [mise en production](/chapters/deployment.qmd). N√©anmoins, la meilleure
√©cole pour comprendre le fonctionnement de celles-ci est de parcourir la documentation du service et d'observer
les actions `Github` mises en oeuvre par vos projets favoris, celles-ci seront fort instructives !



::: {.callout-tip}

## Application 14: premier script d'int√©gration continue

A partir de l'exemple pr√©sent
dans la [documentation officielle](https://docs.github.com/en/actions/automating-builds-and-tests/building-and-testing-python#using-a-specific-python-version)
de `Github` {{< fa brands github >}}, on a d√©j√† une base de d√©part qui peut √™tre modifi√©e.
Les questions suivantes permettront d'automatiser les tests et le diagnostic qualit√© de
notre code[^failure]

[^failure]: Il est tout √† fait normal de ne pas parvenir √† cr√©er une action fonctionnelle
du premier coup. N'h√©sitez pas √† _pusher_ votre code apr√®s chaque question pour v√©rifier
que vous parvenez bien √† r√©aliser chaque √©tape. Sinon vous risquez de devoir corriger
bout par bout un fichier plus cons√©quent.

1. Cr√©er un fichier `.github/workflows/test.yaml` avec le contenu de l'exemple de la documentation
3. Avec l'aide de la documentation, introduire une √©tape d'installation des d√©pendances.
Utiliser le fichier `requirements.txt` pour installer les d√©pendances.
4. Utiliser `pylint` pour v√©rifier la qualit√© du code. Ajouter l'argument `--fail-under=6` pour
renvoyer une erreur en cas de note trop basse[^hook]
5. Utiliser une √©tape appelant notre application en ligne de commande (`python main.py`)
pour tester que la matrice de confusion s'affiche bien.
6. Cr√©er un secret stockant une valeur du `JETON_API`. Ne le faites pas commencer par un _"$"_ comme √ßa vous pourrez regarder la log ult√©rieurement
7. Aller voir votre test automatis√© dans l'onglet `Actions` de votre d√©p√¥t sur `Github`
8. _(optionnel)_: Cr√©er un _artefact_ √† partir du fichier de _log_ que vous cr√©ez dans `main.py`

[^hook]: Il existe une approche alternative pour faire des tests
    r√©guliers: les _hooks_ `Git`.
    Il s'agit de r√®gles qui doivent √™tre satisfaites pour que le
    fichier puisse √™tre committ√©. Cela assure que chaque `commit` remplisse
    des crit√®res de qualit√© afin d'√©viter le probl√®me de la procrastination.

    La [documentation de pylint](https://pylint.pycqa.org/en/latest/user_guide/pre-commit-integration.html) offre des explications suppl√©mentaires.
    Ici, nous allons adopter une approche moins ambitieuse en demandant √† notre
    action de faire ce travail d'√©valuation de la qualit√© de notre code




:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli14
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




Maintenant, nous pouvons observer que l'onglet `Actions`
s'est enrichi. Chaque `commit` va entra√Æner une s√©rie d'actions automatis√©es.

Si l'une des √©tapes √©choue, ou si la note de notre projet est mauvaise, nous aurons
une croix rouge (et nous recevrons un mail). On pourra ainsi d√©tecter,
en d√©veloppant son projet, les moments o√π on d√©grade la qualit√© du script
afin de la r√©tablir imm√©diatemment.



## √âtape 2: Automatisation de la livraison de l'image `Docker`

Maintenant, nous allons automatiser la mise √† disposition de notre image
sur `DockerHub` (le lieu de partage des images `Docker`). Cela facilitera sa r√©utilisation mais aussi des
valorisations ult√©rieures.

L√† encore, nous allons utiliser une s√©rie d'actions pr√©-configur√©es.

Pour que `Github` puisse s'authentifier aupr√®s de `DockerHub`, il va
falloir d'abord interfacer les deux plateformes. Pour cela, nous allons utiliser
un jeton (_token_) `DockerHub` que nous allons mettre dans un espace
s√©curis√© associ√© √† votre d√©p√¥t `Github`.



::: {.callout-tip}
## Application 15a: configuration

- Se rendre sur
[https://hub.docker.com/](https://hub.docker.com/) et cr√©er un compte. Il est recommand√©
d'associer ce compte √† votre compte `Github`.
- Cr√©er un d√©p√¥t public `application`
- Aller dans les [param√®tres de votre compte](https://hub.docker.com/settings/general)
et cliquer, √† gauche, sur `Security`
- Cr√©er un jeton personnel d'acc√®s, ne fermez pas l'onglet en question,
vous ne pouvez voir sa valeur qu'une fois.
- Dans le d√©p√¥t `Github` de votre projet, cliquer sur l'onglet `Settings` et cliquer,
√† gauche, sur `Secrets and variables` puis
dans le menu d√©roulant en dessous sur `Actions`. Sur la page qui s'affiche, aller
dans la section `Repository secrets`
- Cr√©er un jeton `DOCKERHUB_TOKEN` √† partir du jeton que vous aviez cr√©√© sur `Dockerhub`. Valider
- Cr√©er un deuxi√®me secret nomm√© `DOCKERHUB_USERNAME` ayant comme valeur le nom d'utilisateur
que vous avez cr√©√© sur `Dockerhub`

<details>
<summary>
Etape optionnelle suppl√©mentaire si on met en production un site web
</summary>

- Dans le d√©p√¥t `Github` de votre projet, cliquer sur l'onglet `Settings` et cliquer,
√† gauche, sur `Actions`. Donner les droits d'√©criture √† vos actions sur le d√©p√¥t
du projet (ce sera n√©cessaire pour `Github Pages`)

![](/permissions.png)

</details>

:::




A ce stade, nous avons donn√© les moyens √† `Github` de s'authentifier avec
notre identit√© sur `Dockerhub`. Il nous reste √† mettre en oeuvre l'action
en s'inspirant de la [documentation officielle](https://github.com/docker/build-push-action/#usage).
On ne va modifier que trois √©l√©ments dans ce fichier. Effectuer les
actions suivantes:



::: {.callout-tip}

## Application 15b: automatisation de l'image `Docker`

- En s'inspirant de ce [_template_](https://github.com/marketplace/actions/build-and-push-docker-images), cr√©er le fichier `.github/workflows/prod.yml` qui va *build* et *push* l'image sur le `DockerHub`. Il va √™tre n√©cessaire de changer l√©g√®rement ce mod√®le :
    + Retirer la condition restrictive sur les _commits_ pour lesquels sont lanc√©s cette automatisation. Pour cela, remplacer le contenu de `on` de sorte √† avoir `on:
  push:
    branches:
      - main
      - dev`
    + Changer le tag √† la fin pour mettre `username/application:latest`
o√π `username` est le nom d'utilisateur sur `DockerHub`;
    + Optionnel: changer le nom de l'action

- Faire un `commit` et un `push` de ces fichiers

Comme on est fier de notre travail, on va afficher √ßa avec un badge sur le
`README` _(partie optionnelle)_.

- Se rendre dans l'onglet `Actions` et cliquer sur une des actions list√©es.
- En haut √† droite, cliquer sur `...`
- S√©lectionner `Create status badge`
- R√©cup√©rer le code `Markdown` propos√©
- Copier dans votre `README.md` le code _markdown_ propos√©

<details>
<summary>
Cr√©er le badge
</summary>
![](/create-badge.png)
</details>

:::

Maintenant, il nous reste √† tester notre application dans l'espace bac √† sable
ou en local, si `Docker` est install√©.


::: {.callout-tip}

## Application 15b (partie optionnelle): Tester l'application

- Se rendre sur l'environnement bac √† sable _[Play with Docker](https://labs.play-with-docker.com)_
ou dans votre environnement `Docker` de pr√©dilection.
- R√©cup√©rer et lancer l'image :

```{.bash filename="terminal"}
docker run -it username/application:latest
```

üéâ La matrice de confusion doit s'afficher ! Vous avez grandement
facilit√© la r√©utilisation de votre image.

:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli15
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::





# Partie 5: exp√©rimenter en local des valorisations puis automatiser leur production


Nous avons automatis√© les √©tapes interm√©diaires de notre projet.
N√©anmoins nous n'avons pas encore r√©fl√©chi √† la valorisation
√† mettre en oeuvre pour notre projet. On va supposer que notre
projet s'adresse √† des _data scientists_ mais aussi √† une audience
moins technique. Pour ces premiers, nous pourrions nous contenter
de valorisations techniques, comme des API,
mais pour ces derniers il est
conseill√© de privil√©gier des formats plus _user friendly_.

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli15
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::


Afin de faire le parall√®le avec les parcours possibles pour l'√©valuation,
nous allons proposer trois valorisations[^valorisation]:

- Une [API](https://titanic.kub.sspcloud.fr/docs) facilitant la r√©utilisation du mod√®le en "production" ;
- Un [site web statique](https://ensae-reproductibilite.github.io/application/) exploitant cette API pour exposer les pr√©dictions
√† une audience moins technique.


[^valorisation]: Vous n'√™tes pas oblig√©s pour l'√©valuation de mettre en oeuvre
les jalons de plusieurs parcours. N√©anmoins, vous d√©couvrirez que
chaque nouveau pas en avant est moins co√ªteux que le
pr√©c√©dent si vous avez mis en oeuvre les r√©flexes des bonnes
pratiques.



::: {.callout-warning collapse="true"}
## Site statique vs application r√©active

La solution que nous allons proposer
pour les sites statiques, `Quarto` associ√©
√† `Github Pages`, peut √™tre utilis√©e dans le cadre des parcours
_"rapport reproductible"_ ou _"dashboard / application interactive"_.

Pour ce dernier
parcours, d'autres approches techniques sont n√©anmoins possibles,
comme `Streamlit`. Celles-ci sont plus exigeantes sur le plan technique
puisqu'elles n√©cessitent de mettre en production sur des serveurs
conteuneuris√©s (comme la mise en production de l'API)
l√† o√π le site statique ne n√©cessite qu'un serveur web, mis √† disposition
gratuitement par `Github`.


La distinction principale entre ces deux approches est qu'elles
s'appuient sur des serveurs diff√©rents. Un site statique repose
sur un serveur web l√† o√π `Streamlit` s'appuie sur
serveur classique en _backend_. La diff√©rence principale
entre ces deux types de serveurs
r√©side principalement dans leur fonction et leur utilisation:

- Un __serveur web__ est sp√©cifiquement con√ßu pour stocker, traiter et livrer des pages web aux clients. Cela inclut des fichiers HTML, CSS, JavaScript, images, etc. Les serveurs web √©coutent les requ√™tes HTTP/HTTPS provenant des navigateurs des utilisateurs et y r√©pondent en envoyant les donn√©es demand√©es.
- Un **serveur _backend_** classique est con√ßu pour effectuer des op√©rations en r√©ponse √† un _front_, en l'occurrence une page web.
Dans le contexte d'une application `Streamlit`, il s'agit d'un serveur avec l'environnement `Python` _ad hoc_ pour
ex√©cuter le code n√©cessaire √† r√©pondre √† toute action d'un utilisateur de l'appliacation.

:::


## √âtape 1: d√©velopper une API en local

Le premier livrable devenu classique dans un projet
impliquant du _machine learning_ est la mise √†
disposition d'un mod√®le par le biais d'une
API (voir chapitre sur la [mise en production](/chapters/deployment.qmd)).
Le _framework_ [`FastAPI`](https://fastapi.tiangolo.com/) va permettre
de rapidement transformer notre application `Python` en une API fonctionnelle.

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli15
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::



::: {.callout-tip}

## Application 16: Mise √† disposition sous forme d'API locale

- Installer `fastAPI` et `uvicorn` puis les ajouter au `requirements.txt`
- Renommer le fichier `main.py` en `train.py`. Dans ce script, ajouter une
sauvegarde du mod√®le apr√®s l'avoir entra√Æn√©, sous le
format [`joblib`](https://scikit-learn.org/stable/model_persistence.html#python-specific-serialization). 
- Faire tourner

```{.bash filename="terminal"}
python train.py
```

pour enregistrer en local votre mod√®le de production. 

- Modifier les appels √† `main.py` dans votre `Dockerfile` et vos actions `Github`
sous peine d'essuyer des √©checs lors de vos actions `Github` apr√®s le prochain _push_. 

- Ajouter `model.joblib` au `.gitignore` car `Git` n'est pas fait pour 
ce type de fichiers. 

Nous allons maintenant passer au d√©veloppement de l'API.
Comme d√©couvrir `FastAPI` n'est pas l'objet de cet enseignement, nous
donnons directement le mod√®le pour cr√©er l'API. Si vous
d√©sirez tester de vous-m√™mes, vous pouvez cr√©er votre 
fichier sans vous r√©f√©rer √† l'exemple

- Cr√©er le fichier `api.py` permettant d'initialiser l'API:

<details>
<summary>
Fichier `api.py`
</summary>

```{.python include="./applications/code/appli17_api_main.py" filename="src/models/train_evaluation.py"}
```
</details>

- D√©ployer en local l'API avec la commande

```{.bash filename="terminal"}
uvicorn api:app --reload --host "0.0.0.0" --port 5000
```

- A partir du `README` du service, se rendre sur l'URL de d√©ploiement, 
ajouter `/docs/` √† celui-ci et observer la documentation de l'API 
- Se servir de la documentation pour tester les requ√™tes `/predict`
- R√©cup√©rer l'URL d'une des requ√™tes propos√©es. La tester dans le navigateur
et depuis `Python` avec `requests` :

```{.python}
import request
requests.get(url).json()
```

- Une fois que vous avez test√©, vous pouvez tuer l'application en faisant <kbd>CTRL</kbd>+<kbd>C</kbd>. Retester
votre bout de code `Python` et comprendre l'origine du probl√®me.

:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli17
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## √âtape 2: d√©ployer l'API de mani√®re manuelle

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli16
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::

A ce stade, nous avons d√©ploy√© l'API seulement localement, dans le cadre d'un terminal qui tourne en arri√®re-plan.
C'est une mise en production manuelle, pas franchement p√©renne.
Ce mode de d√©ploiement est tr√®s pratique pour la phase de d√©veloppement, afin de s'assurer que l'API fonctionne comme attendu.
Pour p√©renniser la mise en production, on va √©liminer l'aspect artisanal de celle-ci.

Il est temps de passer √† l'√©tape de d√©ploiement, qui permettra √† notre API d'√™tre accessible via une URL sur le web
et d'avoir un serveur, en arri√®re plan, qui effectuera les op√©rations pour r√©pondre √† une
requ√™te. Pour se faire, on va utiliser les possibilit√©s offertes par `Kubernetes`, sur lequel est bas√© le [SSP Cloud](https://datalab.sspcloud.fr).



::: {.callout-tip}
## Application 17: Dockeriser l'API (int√©gration continue)

- Pour rendre la structure du projet plus lisible, d√©placer `api.py` -> `api/main.py`

- Cr√©er un script `api/run.sh` √† la racine du projet qui lance le script `train.py` puis d√©ploie localement l'API

<details>
<summary>Fichier `run.sh`</summary>

```{.bash filename="api/run.sh" no-prefix=true}
#/bin/bash

python3 train.py
uvicorn api.main:app --reload --host "0.0.0.0" --port 5000
```
</details>

- Donner au script `api/run.sh` des permissions d'ex√©cution : `chmod +x api/run.sh`

- Ajouter `COPY api ./api` pour avoir les fichiers n√©cessaires au lancement dans l'API dans l'image

- Modifier `COPY train.py .` pour tenir compte du nouveau nom du fichier

- Changer l'instruction `CMD` du `Dockerfile` pour ex√©cuter le script `api/run.sh` au lancement du conteneur (`CMD ["bash", "-c", "./api/run.sh"]`)

- Mettre √† jour votre `requirements.txt` pour tenir compte des nouveaux _packages_ utilis√©s

- *Commit* et *push* les changements

- Une fois le CI termin√©, r√©cup√©rer la nouvelle image dans votre environnement de test de `Docker` et v√©rifier que l'API se d√©ploie correctement

:::




Nous avons pr√©par√© la mise √† disposition de notre API mais √† l'heure
actuelle elle n'est pas disponible de mani√®re ais√©e car il est n√©cessaire
de lancer manuellement une image `Docker` pour pouvoir y acc√©der.
Ce type de travail est la sp√©cialit√© de `Kubernetes` que nous allons
utiliser pour g√©rer la mise √† disposition de notre API.


::: {.callout-tip}
## Application 18b: Mettre √† disposition l'API (d√©ploiement manuel)

Cette partie n√©cessite d'avoir √† disposition une infrastructure _cloud_.

- Cr√©er un dossier `deployment` √† la racine du projet qui va contenir les fichiers de configuration n√©cessaires pour d√©ployer sur un cluster `Kubernetes`

- En vous inspirant de la [documentation](https://kubernetes.io/docs/concepts/workloads/controllers/deployment/#creating-a-deployment), y ajouter un premier fichier `deployment.yaml` qui va sp√©cifier la configuration du *Pod* √† lancer sur le cluster

<details>
<summary>Fichier `deployment/deployment.yaml`</summary>


In [None]:
#| eval: false
apiVersion: apps/v1
kind: Deployment
metadata:
  name: titanic-deployment
  labels:
    app: titanic
spec:
  replicas: 1
  selector:
    matchLabels:
      app: titanic
  template:
    metadata:
      labels:
        app: titanic
    spec:
      containers:
      - name: titanic
        image: #<1>
        ports:
        - containerPort: 5000

1. Mettre ici l'image `Docker` utilis√©e, sous la forme `username/image:latest`

</details>

- En vous inspirant de la [documentation](https://kubernetes.io/fr/docs/concepts/services-networking/service/#d%C3%A9finition-d-un-service), y ajouter un second fichier `service.yaml` qui va cr√©er une ressource `Service` permettant de donner une identit√© fixe au `Pod` pr√©c√©demment cr√©√© au sein du cluster

<details>
<summary>Fichier `deployment/service.yaml`</summary>

```{.yaml filename="deployment/service.yaml"}
apiVersion: v1
kind: Service
metadata:
  name: titanic-service
spec:
  selector:
    app: titanic
  ports:
    - protocol: TCP
      port: 80
      targetPort: 5000
```
</details>

- En vous inspirant de la [documentation](https://kubernetes.io/docs/concepts/services-networking/ingress/#the-ingress-resource), y ajouter un troisi√®me fichier `ingress.yaml` qui va cr√©er une ressource `Ingress` permettant d'exposer le service via une URL en dehors du cluster

<details>
<summary>Fichier `deployment/ingress.yaml`</summary>


In [None]:
#| eval: false
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: titanic-ingress
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /
    # Enable CORS by adding these annotations
    nginx.ingress.kubernetes.io/enable-cors: "true"
    nginx.ingress.kubernetes.io/cors-allow-methods: "PUT, GET, POST, DELETE, PATCH, OPTIONS"
    nginx.ingress.kubernetes.io/cors-allow-credentials: "true"
    nginx.ingress.kubernetes.io/cors-allow-headers: "DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Authorization"
    nginx.ingress.kubernetes.io/cors-allow-origin: "*"
spec:
  ingressClassName: nginx
  tls:
  - hosts:
    - #<1>
  rules:
  - host: #<2>
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: titanic-service
            port:
              number: 80

1. Mettez l'URL auquel vous voulez exposer votre service. Sur le mod√®le de `titanic.kub.sspcloud.fr` (mais ne tentez pas celui-l√†, il est d√©j√† pris üòÉ)
2. Mettre ce m√™me URL ici aussi
</details>

- Appliquer ces fichiers de configuration sur le cluster : `kubectl apply -f deployment/`

- Si tout a correctement fonctionn√©, vous devriez pouvoir acc√©der depuis votre navigateur √† l'API √† l'URL sp√©cifi√©e dans le fichier `deployment/ingress.yaml`. Par exemple `https://toto.kub.sspcloud.fr/` si vous avez mis celui-ci plus t√¥t (et `https://toto.kub.sspcloud.fr/docs` pour la documentation).

:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli18
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::



::: {.callout-note title="G√©rer le CORS" collapse="true"}
Notre API est accessible sans probl√®me depuis `Python` ou notre navigateur.

En revanche, si on d√©sire utiliser `JavaScript` pour cr√©er une application
interactive il est indispensable de mettre
les lignes un peu obscure sur le CORS dans le fichier `ingress.yaml`.

Comme c'est un point technique qui ne concerne pas les comp√©tences
li√©es √† ce cours, nous donnons directement les mises √† jour n√©cessaires
du projet.

Ceci consiste principalement √† ajouter la ligne suivante au fichier `ingress.yaml` :

```
nginx.ingress.kubernetes.io/enable-cors: "true"
```

:::


On peut remarquer quelques voies d'am√©lioration de notre approche qui
seront ult√©rieurement trait√©es:

- L'entra√Ænement du mod√®le
est r√©-effectu√© √† chaque lancement d'un nouveau conteneur.
On relance donc autant de fois un entra√Ænement qu'on d√©ploie
de conteneurs pour r√©pondre √† nos utilisateurs. Ce sera
l'objet de la partie MLOps de fiabiliser et optimiser
cette partie du _pipeline_.
- il est n√©cessaire de (re)lancer manuellement  `kubectl apply -f deployment/`
√† chaque changement de notre code. Autrement dit, lors de cette application,
on a am√©lior√©
la fiabilit√© du lancement de notre API mais un lancement manuel est encore indispensable.
Comme dans le reste de ce cours, on va essayer d'√©viter un geste manuel pouvant
√™tre source d'erreur en privil√©giant l'automatisation et l'archivage dans des
scripts. C'est l'objet de la prochaine √©tape.


## Etape 3: automatiser le d√©ploiement (d√©ploiement en continu)

::: {.callout-important}
## Clarification sur la branche de travail et les _tags_

A partir de maintenant, il est n√©cessaire de clarifier la
branche principale sur laquelle nous travaillons. De mani√®re
traditionnelle, on utilise la branche `main`. Si vous avez chang√© de branche,
vous pouvez continuer 1/ continuer mais en tenir compte dans les exemples ult√©rieurs ou 2/ fusionner celle-ci √† `main`.

Si vous avez utilis√© un `tag` pour sauter une ou plusieurs √©tapes, il va
√™tre n√©cessaire de se placer sur une branche car vous √™tes en _head detached_.
Pour cela, apr√®s avoir _committ√©_ les fichiers que vous d√©sirez garder


In [None]:
#| eval: false
$ git branch -D dev #<1>
$ git push origin -d dev #<2>
$ git checkout -b dev #<3>
$ git push --set-upstream origin dev #<4>

1. Supprime la branche `dev` *locale* (si elle existe).
2. Supprime la branche `dev` *remote* (si elle existe).
3. Cr√©e une nouvelle branche `dev` *locale* et on se place sur cette branche.
4. Pousse la branche `dev` et active la synchronisation entre la branche *locale* et la branche *remote*.
:::

Qu'est-ce qui peut d√©clencher une √©volution n√©cessitant de mettre √† jour l'ensemble de notre processus de production ?

Regardons √† nouveau notre _pipeline_:

![](/drawio/end_point.png)

Les _inputs_ de notre _pipeline_ sont donc:

- La __configuration__. Ici, on peut consid√©rer que notre `.env` de configuration ou les secrets renseign√©s √† `Github` rel√®vent de cette cat√©gorie  ;
- Les __donn√©es__. Nos donn√©es sont statiques et n'ont pas vocation √† √©voluer. Si c'√©tait le cas, il faudrait en tenir compte dans notre automatisation[^versionning-data]. ;
- Le __code__. C'est l'√©l√©ment principal qui √©volue chez nous. Id√©alement, on veut automatiser le processus au maximum en faisant en sorte qu'√† chaque mise √† jour de notre code (un _push_ sur `Github`), les √©tapes ult√©rieures (production de l'image `Docker`, etc.) se lancent. N√©anmoins, on veut aussi √©viter qu'une erreur puisse donner lieu √† une mise en production non-fonctionnelle, on va donc maintenir une action manuelle minimale comme garde-fou.

::: {.callout-note}
## Et le _versionning_ des donn√©es ?

Ici, nous nous pla√ßons dans le cas simple o√π les donn√©es brutes re√ßues sont fig√©es. Ce qui peut changer est la mani√®re dont on constitue nos √©chantillons train/test. Il sera donc utile de logguer les donn√©es en question par le biais de `MLFlow`. Mais il n'est pas n√©cessaire de versionner les donn√©es brutes.

Si celles-ci √©voluaient, il pourrait √™tre utile de versionner les donn√©es, √† la mani√®re dont on le fait pour le code. `Git` n'est pas l'outil appropri√© pour cela. Parmi les outils populaires de versionning de donn√©es, bien int√©gr√©s avec S3, il y a sur le SSPCloud [`lakefs`](https://lakefs.io/).
:::

Pour automatiser au maximum la mise en production, on va utiliser un nouvel outil : `ArgoCD`. Ainsi, au lieu de devoir appliquer manuellement la commande `kubectl apply` √† chaque modification des fichiers de d√©ploiement (pr√©sents dans le dossier `kubernetes/`), c'est l'**op√©rateur** `ArgoCD`, d√©ploy√© sur le cluster, qui va d√©tecter les changements de configuration du d√©ploiement et les appliquer automatiquement.

C'est l'approche dite **GitOps** : le d√©p√¥t `Git` du d√©ploiement fait office de **source de v√©rit√© unique** de l'√©tat voulu de l'application, tout changement sur ce dernier doit donc se r√©percuter imm√©diatement sur le d√©ploiement effectif.


::: {.callout-tip}
## Application 19a: Automatiser la mise √† disposition de l'API (d√©ploiement continu)

- Lancer un service `ArgoCD` sur le `SSPCloud` depuis la page `Mes services` (catalogue `Automation`). Laisser
les configurations par d√©faut.
- Sur `GitHub`, cr√©er un d√©p√¥t `application-deployment` qui va servir de **d√©p√¥t GitOps**, c'est √† dire un d√©p√¥t qui sp√©cifie le param√©trage du d√©ploiement de votre application.
- Ajouter un dossier `deployment` √† votre d√©p√¥t `GitOps`, dans lequel on mettra les trois fichiers de d√©ploiement qui permettent de d√©ployer notre application sur `Kubernetes` (`deployment.yaml`, `service.yaml`, `ingress.yaml`).
- A la racine de votre d√©p√¥t `GitOps`, cr√©ez un fichier `application.yml` avec le contenu suivant, en prenant bien soin de modifier les lignes surlign√©es avec les informations pertinentes :


In [None]:
#| eval: false
apiVersion: argoproj.io/v1alpha1
kind: Application
metadata:
  name: ensae-mlops
spec:
  project: default
  source:
    repoURL: https://github.com/<your_github_username>/application-deployment.git #<1>
    targetRevision: main #<2>
    path: deployment #<3>
  destination:
    server: https://kubernetes.default.svc
    namespace: user-<your_sspcloud_username> #<4>
  syncPolicy:
    automated:
      selfHeal: true

1. L'URL de votre d√©p√¥t `Github` {{< fa brands github >}} faisant office de d√©p√¥t `GitOps`.
2. La branche √† partir de laquelle vous d√©ployez.
3. Le nom du dossier contenant vos fichiers de d√©ploiement `Kubernetes`.
4. Votre _namespace_ `Kubernetes`. Sur le SSPCloud, cela prend la forme `user-${username}`.

- Pousser sur `Github` le d√©p√¥t `GitOps`.
- Dans `ArgoCD`, cliquez sur `New App` puis `Edit as a YAML`. Copiez-collez le contenu de `application.yml` et cliquez sur `Create`.
- Observez dans l'interface d'`ArgoCD` le d√©ploiement progressif des ressources n√©cessaires √† votre application sur le cluster. Joli non ?
- V√©rifiez que votre API est bien d√©ploy√©e en utilisant l‚ÄôURL d√©finie dans le fichier `ingress.yml`.
- Supprimer du code applicatif le dossier `deployment` puisque c'est maintenant votre d√©p√¥t de d√©ploiement qui le contr√¥le.
- Indiquer dans le `README.md` que le d√©ploiement de votre application (dont vous pouvez mettre l'URL dans le README) est contr√¥l√© par un autre d√©p√¥t.

:::

Si cela a fonctionn√©, vous devriez maintenant voir votre application dans votre tableau de bord `ArgoCD`:

![](/chapters/applications/figures/argo_appli19a.png)


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli19a
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::



A pr√©sent, nous avons tous les outils √† notre disposition pour construire un vrai **pipeline de CI/CD, automatis√© de bout en bout**. Il va nous suffire pour cela de mettre √† bout les composants :

- dans la partie 4 de l'application, nous avons construit un **pipeline de CI** : on a donc seulement √† faire un commit sur le d√©p√¥t de l'application pour lancer l'√©tape de **build** et de mise √† disposition de la nouvelle image sur le `DockerHub` ;

- dans l'application pr√©c√©dente, nous avons construit un **pipeline de CD** : `ArgoCD` suit en permanence l'√©tat du d√©p√¥t `GitOps`, tout commit sur ce dernier lancera donc automatiquement un red√©ploiement de l'application.

Il y a donc un √©l√©ment qui fait la liaison entre ces deux pipelines et qui nous sert de garde-fou en cas d'erreur : la **version de l'application**.


::: {.callout-tip}
## Application 19b : Mettre √† jour la version en production

Jusqu'√† maintenant, on a utilis√© le tag *latest* pour d√©finir la version de notre application. En pratique, lorsqu'on passe de la phase de d√©veloppement √† celle de production, on a plut√¥t envie de versionner proprement les versions de l'application afin de savoir ce qui est d√©ploy√©. On va pour cela utiliser les ***tags*** avec `Git`, qui vont se propager au nommage de l'image `Docker`.

- Modifier le fichier de CI `prod.yml` pour assurer la propagation des tags.

<details>
<summary>

Fichier `.github/workflows/prod.yml`

</summary>

```{.yaml filename=".github/workflows/prod.yml"}
name: Construction image Docker

on:
  push:
    branches:
      - main
      - dev
    tags:
      - 'v*.*.*'

jobs:
  docker:
    runs-on: ubuntu-latest
    steps:
      -
        name: Set up QEMU
        uses: docker/setup-qemu-action@v3
      -
        name: Set up Docker Buildx
        uses: docker/setup-buildx-action@v3

      -
        name: Docker meta
        id: meta
        uses: docker/metadata-action@v5
        with:
          images: linogaliana/application #<1>

      -
        name: Login to Docker Hub
        uses: docker/login-action@v3
        with:
          username: ${{ secrets.DOCKERHUB_USERNAME }}
          password: ${{ secrets.DOCKERHUB_TOKEN }}
      -
        name: Build and push
        uses: docker/build-push-action@v5
        with:
          push: true
          tags: ${{ steps.meta.outputs.tags }}
          labels: ${{ steps.meta.outputs.labels }}
```
1. Modifier ici !

</details>

- Dans le d√©p√¥t de l'application, mettre √† jour le code dans `api/main.py` pour changer un √©l√©ment de l'interface de votre documentation.
Par exemple, mettre en gras un titre.

```{.python}
app = FastAPI(
    title="D√©monstration du mod√®le de pr√©diction de survie sur le Titanic",
    description=
    "<b>Application de pr√©diction de survie sur le Titanic</b> üö¢ <br>Une version par API pour faciliter la r√©utilisation du mod√®le üöÄ" +\
        "<br><br><img src=\"https://media.vogue.fr/photos/5faac06d39c5194ff9752ec9/1:1/w_2404,h_2404,c_limit/076_CHL_126884.jpg\" width=\"200\">"
    )
```

- *Commit* et *push* les changements.

- Tagger le commit effectu√© pr√©c√©demment et *push* le nouveau tag :

```{.bash filename="terminal"}
git tag v0.0.1
git push --tags
```

- V√©rifier sur le d√©p√¥t `GitHub` de l'application que ce *commit* lance bien un pipeline de CI **associ√© au tag v1.0.0**. Une fois termin√©, v√©rifier sur le `DockerHub` que le tag `v0.0.1` existe bien parmi les tags disponibles de l'image.

La partie CI a correctement fonctionn√©. Int√©ressons-nous √† pr√©sent √† la partie CD.

- Sur le d√©p√¥t `GitOps`, mettre √† jour la version de l'image √† d√©ployer en production dans le fichier `deployment/deployment.yaml`

<details>
<summary>

Fichier `deployment/deployment.yaml`

</summary>


In [None]:
#| eval: false
apiVersion: apps/v1
kind: Deployment
metadata:
  name: titanic-deployment
  labels:
    app: titanic
spec:
  replicas: 1
  selector:
    matchLabels:
      app: titanic
  template:
    metadata:
      labels:
        app: titanic
    spec:
      containers:
      - name: titanic
        image: linogaliana/application:v0.0.1 #<1>
        ports:
        - containerPort: 5000

1. Remplacer ici par le d√©p√¥t applicatif ad√©quat


</details>

- Apr√®s avoir _committ√©_ et _push√©_, observer dans `ArgoCD` le statut de votre application. Normalement, l'op√©rateur devrait avoir automatiquement identifi√© le changement, et mettre √† jour le d√©ploiement pour en tenir compte.

![](/argocd-waiting.png)

- V√©rifier que l'API a bien √©t√© mise √† jour.

:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli19b
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::






## Etape 4: construire un site web

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli19
git checkout -b dev
git push origin dev
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::

On va proposer un nouveau livrable pour parler √† un public plus large.
Pour faire ce site web,
on va utiliser `Quarto` et d√©ployer sur `Github Pages`.


::: {.callout-tip}

## Application 20: Cr√©ation d'un site web pour valoriser le projet

```{.bash filename="terminal"}
quarto create project website mysite
```

- Faire remonter d'un niveau `_quarto.yml`
- Supprimer `about.qmd`, d√©placer `index.qmd` vers la racine de notre projet.
- Remplacer le contenu de `index.qmd` par [celui-ci](https://raw.githubusercontent.com/ensae-reproductibilite/application/tree/appli19/index.qmd) et retirer `about.qmd` des fichiers √† compiler.
- D√©placer `styles.css` √† la racine du projet
- Mettre √† jour le `.gitignore` avec les instructions suivantes

```{.bash file=".gitignore" no-prefix=true}
/.quarto/
*.html
*_files
_site/
```

- En ligne de commande, faire `quarto preview` (ajouter les arguments `--port 5000 --host 0.0.0.0` si vous passez par le `SSPCloud`)
- Observer le site web g√©n√©r√© en local

Enfin, on va construire et d√©ployer automatiquement ce site web gr√¢ce au
combo `Github Actions` et `Github Pages`:

- Cr√©er une branche `gh-pages` √† partir des lignes suivantes

```python
git checkout --orphan gh-pages
git reset --hard # make sure all changes are committed before running this!
git commit --allow-empty -m "Initialising gh-pages branch"
git push origin gh-pages
```

- Revenir √† votre branche
- Cr√©er un fichier `.github/workflows/website.yaml` avec le contenu de [ce fichier](https://raw.githubusercontent.com/ensae-reproductibilite/application/tree/appli20/.github/workflows/publish.yaml)
- Modifier le `README` pour indiquer l'URL de votre site web et de votre API

:::

::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli20
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




# Partie 6: adopter une approche MLOps pour am√©liorer notre mod√®le

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git checkout appli20
git checkout -b dev
git push origin dev
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::

Maintenant que nous avons tout pr√©par√© pour mettre √† disposition rapidement un mod√®le,
nous pouvons revenir en arri√®re pour am√©liorer ce mod√®le. Pour cela, nous allons mettre en oeuvre une validation crois√©e.

Le probl√®me que nous allons rencontrer va √™tre que nous voudrions facilement tracer les √©volutions de notre mod√®le, la qualit√© pr√©dictive de celui-ci dans diff√©rentes situations. Il s'agira d'√† nouveau mettre en place du _logging_ mais, cette fois, de suivre la qualit√© du mod√®le et pas seulement s'il fonctionne. L'outil `MLFlow` va r√©pondre √† ce probl√®me et va, au passage, fluidifier la mise √† disposition du mod√®le de production, c'est-√†-dire de celui qu'on d√©sire mettre √† disposition du public.

## Revenir sur le code d'entra√Ænement du mod√®le pour faire de la validation crois√©e

Pour pouvoir faire ceci, il va falloir changer un tout petit peu notre code applicatif dans sa phase d'entra√Ænement.


::: {.callout-tip}
## Application 21 _(optionnelle)_: restructuration de la cha√Æne

1. Faire les modifications suivantes pour restructurer notre _pipeline_
afin de mieux distinguer les √©tapes d'estimation et d'√©valuation



<details>
<summary>
Modification de `train.py` pour faire une _grid search_
</summary>

```{.python filename="train.py"}
"""
Prediction de la survie d'un individu sur le Titanic
"""

import os
from dotenv import load_dotenv
import argparse
from loguru import logger

import pathlib
from joblib import dump
import pandas as pd
from sklearn.model_selection import GridSearchCV

from src.pipeline.build_pipeline import split_train_test, create_pipeline
from src.models.train_evaluate import evaluate_model


# ENVIRONMENT CONFIGURATION ---------------------------

logger.add("recording.log", rotation="500 MB")
load_dotenv()

parser = argparse.ArgumentParser(description="Param√®tres du random forest")
parser.add_argument(
    "--n_trees", type=int, default=20, help="Nombre d'arbres"
)
args = parser.parse_args()

URL_RAW = "https://minio.lab.sspcloud.fr/lgaliana/ensae-reproductibilite/data/raw/data.csv"

n_trees = args.n_trees
jeton_api = os.environ.get("JETON_API", "")
data_path = os.environ.get("data_path", URL_RAW)
data_train_path = os.environ.get("train_path", "data/derived/train.parquet")
data_test_path = os.environ.get("test_path", "data/derived/test.parquet")
MAX_DEPTH = None
MAX_FEATURES = "sqrt"

if jeton_api.startswith("$"):
    logger.info("API token has been configured properly")
else:
    logger.warning("API token has not been configured")


# IMPORT ET STRUCTURATION DONNEES --------------------------------

p = pathlib.Path("data/derived/")
p.mkdir(parents=True, exist_ok=True)

TrainingData = pd.read_csv(data_path)

X_train, X_test, y_train, y_test = split_train_test(
    TrainingData, test_size=0.1,
    train_path=data_train_path,
    test_path=data_test_path
)


# PIPELINE ----------------------------


# Create the pipeline
pipe = create_pipeline(
    n_trees, max_depth=MAX_DEPTH, max_features=MAX_FEATURES
)


param_grid = {
    "classifier__n_estimators": [10, 20, 50],
    "classifier__max_leaf_nodes": [5, 10, 50],
}


pipe_cross_validation = GridSearchCV(
    pipe,
    param_grid=param_grid,
    scoring=["accuracy", "precision", "recall", "f1"],
    refit="f1",
    cv=5,
    n_jobs=5,
    verbose=1,
)
pipe = pipe_cross_validation.best_estimator_

# ESTIMATION ET EVALUATION ----------------------

pipe.fit(X_train, y_train)

dump(pipe, 'model.joblib')


# Evaluate the model
score, matrix = evaluate_model(pipe, X_test, y_test)

logger.success(f"{score:.1%} de bonnes r√©ponses sur les donn√©es de test pour validation")
logger.debug(20 * "-")
logger.info("Matrice de confusion")
logger.debug(matrix)
```

</details>

2. Dans le code de l'API (`api/main.py`), changer la version du mod√®le mis en oeuvre en _"0.2"_
2. Apr√®s avoir committ√© cette nouvelle version du code applicatif, tagguer ce d√©p√¥t avec le tag `v0.0.2`
3. Modifier `deployment/deployment.yaml` dans le code `GitOps` pour utiliser ce _tag_.

:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli21
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




## Garder une trace des entra√Ænements de notre mod√®le gr√¢ce au _register_ de `MLFlow`

::: {.callout-caution collapse="true"}
## Si vous prenez ce projet fil rouge en cours de route

```{.bash filename="terminal"}
git stash
git checkout appli21
```

![](/checkpoint.jpg){width=80% fig-align="center"}

:::

## Enregistrer nos premiers entra√Ænements


::: {.callout-tip}
## Application 22 : archiver nos entra√Ænements avec `MLFlow`

1. Lancer `MLFlow` depuis l'onflet [Mes services](https://datalab.sspcloud.fr/catalog/automation) du SSPCloud.
Attendre que le service soit bien lanc√©.
Cela cr√©era un service dont l'URL est de la forme `https://user-{username}.user.lab.sspcloud.fr`. Ce service `MLFlow` communiquera avec les `VSCode` que vous
ouvrirez ult√©rieurement √† partir de cet URL ainsi qu'avec le syst√®me de stockage `S3`[^tokenMLFlow].

1. Regarder la page `Experiments`. Elle ne contient que `Default` √† ce stade, c'est normal.

[^tokenMLFlow]: Par cons√©quent, `MLFLow` b√©n√©ficie de l'injection automatique des _tokens_
pour pouvoir lire/√©crire sur S3. Ces jetons ont la m√™me dur√©e avant expiration que ceux
de vos services interactifs `VSCode`. Il faut donc, par d√©faut, supprimer et rouvrir un service `MLFLow`
r√©guli√®rement. La mani√®re d'√©viter cela
est de cr√©er des _service account_ sur [https://minio-console.lab.sspcloud.fr/](https://minio-console.lab.sspcloud.fr/login)
et de les renseigner sur [la page](https://datalab.sspcloud.fr/project-settings/s3-configs).


2. Une fois le service `MLFlow` fonctionnel,
lancer un nouveau `VSCode` pour b√©n√©ficier de la connexion
automatique entre les services interactifs du SSPCloud et les services d'automatisation comme `MLFlow`.

1. Cl√¥ner votre projet, vous situer sur la branche de travail.

2. Dans la section de passage des param√®tres de notre ligne de commande, introduire ce morceau de code:

```{.python}
parser = argparse.ArgumentParser(description="Param√®tres du random forest")
parser.add_argument(
    "--n_trees", type=int, default=20, help="Nombre d'arbres"
)
parser.add_argument(
    "--experiment_name", type=str, default="titanicml", help="MLFlow experiment name"
)
args = parser.parse_args()
```

3. Faire tourner `train.py` en ligne de commande puis retourner sur l'UI de `MLFlow`
et observer la diff√©rence, √† gauche.

4. A la fin du script `train.py`, ajouter le code suivant

<details>
<summary>
Code √† ajouter
</summary>

```{.python filename="fin de train.py"}
# LOGGING IN MLFLOW -----------------

input_data_mlflow = mlflow.data.from_pandas(
    TrainingData, source=data_path, name="Raw dataset"
)
training_data_mlflow = mlflow.data.from_pandas(
    pd.concat([X_train, y_train]), source=data_path, name="Training data"
)


with mlflow.start_run():

    # Log datasets
    mlflow.log_input(input_data_mlflow, context="raw")
    mlflow.log_input(training_data_mlflow, context="raw")

    # Log parameters
    mlflow.log_param("n_trees", n_trees)
    mlflow.log_param("max_depth", MAX_DEPTH)
    mlflow.log_param("max_features", MAX_FEATURES)

    # Log best hyperparameters from GridSearchCV
    best_params = pipe_cross_validation.best_params_
    for param, value in best_params.items():
        mlflow.log_param(param, value)

    # Log metrics
    mlflow.log_metric("accuracy", score)

    # Log confusion matrix as an artifact
    matrix_path = "confusion_matrix.txt"
    with open(matrix_path, "w") as f:
        f.write(str(matrix))
    mlflow.log_artifact(matrix_path)

    # Log model
    mlflow.sklearn.log_model(pipe, "model")
```

</details>

5. Ajouter `mlruns/*` dans `.gitignore`

6. Tester `train.py` en ligne de commande

7. Observer l'√©volution de la page `Experiments`. Cliquer sur un des _run_.
Observer toutes les m√©tadonn√©es archiv√©es (hyperparam√®tres, m√©triques d'√©valuation, `requirements.txt` dont `MLFlow` a fait l'inf√©rence, etc.)

1. Observer le code propos√© par `MLFlow` pour r√©cup√©rer le _run_ en question. Tester celui-ci dans un _notebook_ sur le fichier interm√©diaire de test au format `Parquet`

2.  En ligne de commande, faites tourner pour une autre valeur de `n_trees`.  Retourner √† la liste des _runs_ en cliquant √† nouveau sur _"titanicml"_ dans les exp√©rimentations

3.  Dans l'onglet `Table`, s√©lectionner plusieurs exp√©rimentations, cliquer sur `Columns` et ajouter la statistique d'accuracy. Ajuster la taille des colonnes pour la voir et classer les mod√®les par score d√©croissants

4.  Cliquer sur `Compare` apr√®s en avoir s√©lectionn√© plusieurs. Afficher un _scatterplot_ des performances
en fonction du nombre d'estimateurs. Conclure.

:::


::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli22
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::




Cette appplication illustre l'un des premiers apports de `MLFlow`: on garde
une trace de nos exp√©rimentations: le mod√®le est archiv√© avec les param√®tres et des m√©triques de performance. On peut donc retrouver de plusieurs mani√®res un mod√®le qui nous avait tap√© dans l'oeil.

N√©anmoins, persistent un certain nombre de voies d'am√©lioration dans notre _pipeline_.

- On entra√Æne le mod√®le en local, de mani√®re s√©quentielle, et en lan√ßant nous-m√™mes le script `train.py`.
- Pis encore, √† l'heure actuelle, cette √©tape d'estimation n'est pas s√©par√©e de la mise √† disposition du mod√®le par le biais de notre API. On archive des mod√®les mais on les utilise pas ult√©rieurement.


Les prochaines applications permettront d'am√©liorer ceci.

## Consommation d'un mod√®le archiv√© sur `MLFlow`

A l'heure actuelle, notre _pipeline_ est lin√©aire:

![](/chapters/applications/figures/pipeline_avant_appli23.png)

Ceci nous g√™ne pour faire √©voluer notre mod√®le: on ne dissocie pas ce qui rel√®ve de l'entra√Ænement du mod√®le de son utilisation. Un _pipeline_ plus cyclique permettra de mieux dissocier l'exp√©rimentation de la production:

![](/chapters/applications/figures/pipeline_apres_appli23.png)


__TO BE CONTINUED__


::: {.callout-tip}
## Application 23 : passer en production un mod√®le avec MLFlow

1. A partir du tableau de performance pr√©c√©dent,
choisir le mod√®le avec le F1 score maximal.
Acc√©der √† celui-ci.

Cr√©er un script dans `mlflow/predict.py` pour
illustrer l'utilisation d'un mod√®le
depuis MLFlow. Nous allons progressivement l'am√©liorer.

1. Copier-coller le
contenu ci-dessous
afin de se simplifier la cr√©ation de donn√©es en entr√©e
de notre code

```{.python filename="data/import_data.py"}
import data

@logger.catch
def create_data(
    sex: str = "female",
    age: float = 29.0,
    fare: float = 16.5,
    embarked: str = "S",
) -> str:
    """
    """

    df = pd.DataFrame(
        {
            "Sex": [sex],
            "Age": [age],
            "Fare": [fare],
            "Embarked": [embarked],
        }
    )

    return df
```

2. All√©ger, au passage, le code de l'API, en modifiant la fonction `predict` par celle-ci:


In [None]:
from src.data.import_data import create_data

async def predict(
    sex: str = "female",
    age: float = 29.0,
    fare: float = 16.5,
    embarked: str = "S"
) -> str:
    """
    """

    df = create_data(
        sex=sex,
        age=age,
        fare=fare,
        embarked=embarked
    )

    prediction = "Survived üéâ" if int(model.predict(df)) == 1 else "Dead ‚ö∞Ô∏è"

    return prediction

3. Par le biais 

6. Cliquer sur votre meilleur mod√®le et introduire dans `mlflow/predict.py`
le morceau de code sugg√©r√©
par `MLFlow`, du type de celui-ci:


In [None]:
#| eval: false
import mlflow
logged_model = #A CHANGER #<1>

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

# Predict on a Pandas DataFrame.
import pandas as pd
loaded_model.predict(pd.DataFrame(data))

1. _Hash_ du mod√®le

Lancer depuis la ligne de commande ce script et observer l'application obtenue.

:::

A ce stade, nous avons am√©lior√© la fiabilit√© de notre mod√®le car
nous utilisons le meilleur. N√©anmoins, celui-ci
n'est pas forc√©ment pratique √† r√©cup√©rer car nous utilisons
un _hash_ qui certes identifie de mani√®re unique notre mod√®le
mais pr√©sente l'inconv√©nient d'√™tre peu intelligible.
Nous allons passer de l'exp√©rimentation √† la mise
en production en s√©lectionnant explicitement notre meilleur mod√®le.

::: {.callout-tip}
## Application 23b : passer en production un mod√®le

1. Dans la page du mod√®le en question sur `MLFlow`, cliquer sur `Register model`
et le nommer `titanic`.
2. Aller dans l'onglet `Models` et observer le changement par rapport √† pr√©c√©demment.
3. Mettre √† jour le code dans `mlflow/predict.py` pour utiliser la version en
production :

```{.python filename = "mlflow/predict.py"}
model_name = "titanic"
model_version = 1
loaded_model = mlflow.pyfunc.load_model(
    model_uri=f"models:/{model_name}/{model_version}"
)
```

4. Tester cette application. Si celle-ci fonctionne,
modifier la r√©cup√©ration du mod√®le dans votre script d'API.

5. Tester en local cette API mise √† jour

```{.shell filename="terminal"}
uvicorn api.main:app --reload --host "0.0.0.0" --port 5000
```

6. Ajouter `mlflow` au `requirements.txt`

7. Mettre √† jour
les fichiers `.github/worflows/prod.yaml` et `kubernetes/deployment.yaml`
pour produire et utiliser le tag `v0.0.5`


In [None]:
#| eval: false

name: Construction image Docker

on:
  push:
    branches:
      - main
      - dev

jobs:
  docker:
    runs-on: ubuntu-latest
    steps:
      -
        name: Set up QEMU
        uses: docker/setup-qemu-action@v3
      -
        name: Set up Docker Buildx
        uses: docker/setup-buildx-action@v3
      -
        name: Login to Docker Hub
        uses: docker/login-action@v3
        with:
          username: ${{ secrets.DOCKERHUB_USERNAME }}
          password: ${{ secrets.DOCKERHUB_TOKEN }}
      -
        name: Build and push
        uses: docker/build-push-action@v5
        with:
          push: true
          tags: linogaliana/application:v0.0.7 #<1>

1. Modifier l'image ici


In [None]:
#| eval: false
# Creating MLflow deployment
apiVersion: apps/v1
kind: Deployment
metadata:
  name: titanicml
spec:
  replicas: 1
  selector:
    matchLabels:
      app: titanicml
  template:
    metadata:
      labels:
        app: titanicml
    spec:
      containers:
        - name: api
          image: linogaliana/application:v0.0.7 #<1>
          imagePullPolicy: Always
          env:
            - name: MLFLOW_TRACKING_URI
              value: https://user-{USERNAME}-mlflow.user.lab.sspcloud.fr #<2>
            - name: MLFLOW_MODEL_NAME
              value: titanic
            - name: MLFLOW_MODEL_VERSION
              value: "1"
          resources:
            limits:
              memory: "2Gi"
              cpu: "1000m"

1. Modifier l'image `Docker`
2. Modifier l'URL de `MLFlow`

:::




::: {.callout-caution collapse="true"}
## Checkpoint

```{.bash filename="terminal"}
git stash #<1>
git checkout appli23
```
1. Pour annuler les modifications depuis le dernier _commit_


![](/checkpoint.jpg){width=80% fig-align="center"}

:::

### Industrialiser les entra√Ænements de nos mod√®les

Pour industrialiser nos entra√Ænements, nous allons cr√©er des processus
parall√®les ind√©pendants pour chaque combinaison de nos hyperparam√®tres.
Pour cela, l'outil pratique sur le SSPCloud est `Argo workflows`.
Chaque combinaison d'hyperparam√®tres sera un processus isol√© √† l'issue duquel sera
loggu√© le r√©sultat dans `MLFlow`. Ces entra√Ænements auront lieu en parall√®le.


![](https://inseefrlab.github.io/formation-mlops/slides/img/pokemon_workflow.png)


1. Lancer un service Argo Workflows
2. Dans `mlflow/training.yaml`


In [None]:
#| eval: false
apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:
  generateName: titanic-training-workflow-
spec:
  entrypoint: main
  arguments:
    parameters:
      # The MLflow tracking server is responsible to log the hyper-parameter and model metrics.
      - name: mlflow-tracking-uri
        value: https://user-lgaliana-argo-workflows.user.lab.sspcloud.fr #<1>
      - name: mlflow-experiment-name
        value: titanicml #<2>
      - name: model-training-conf-list
        value: |
          [
            { "dim": 25, "lr": 0.1 },
            { "dim": 100, "lr": 0.2 },
            { "dim": 150, "lr": 0.3 }
          ]
  templates:
    # Entrypoint DAG template
    - name: main
      dag:
        tasks:
          # Task 0: Start pipeline
          - name: start-pipeline
            template: start-pipeline-wt
          # Task 1: Train model with given params
          - name: train-model-with-params
            dependencies: [ start-pipeline ]
            template: run-model-training-wt
            arguments:
              parameters:
                - name: dim
                  value: "{{item.dim}}"
                - name: lr
                  value: "{{item.lr}}"
            # Pass the inputs to the task using "withParam"
            withParam: "{{workflow.parameters.model-training-conf-list}}"

    # Now task container templates are defined
    # Worker template for task 0 : start-pipeline
    - name: start-pipeline-wt
      inputs:
      container:
        image: busybox
        command: [ sh, -c ]
        args: [ "echo Starting pipeline" ]

    # Worker template for task-1 : train model with params
    - name: run-model-training-wt
      inputs:
        parameters:
          - name: dim
          - name: lr
      container:
        image: inseefrlab/formation-mlops:main
        imagePullPolicy: Always
        command: [sh, -c]
        args: ["mlflow run .
                --env-manager=local
                -P remote_server_uri=$MLFLOW_TRACKING_URI
                -P experiment_name=$MLFLOW_EXPERIMENT_NAME
                -P dim={{inputs.parameters.dim}}
                -P lr={{inputs.parameters.lr}}"]
        env:
          - name: MLFLOW_TRACKING_URI
            value: "{{workflow.parameters.mlflow-tracking-uri}}"
          - name: MLFLOW_EXPERIMENT_NAME
            value: "{{workflow.parameters.mlflow-experiment-name}}"

1. Changer
2. `titanicml`

max_depth

max_features ‚Äúsqrt‚Äù, ‚Äúlog2‚Äù

## Pour aller plus loin

Cr√©er un service label studio pour √©valuer la qualit√© du mod√®le