Comme nous venons de le voir, Kedro est un outil puissant. Le premier pipeline que nous avons construit permettait d'encoder les donn√©es pour qu'elles soit utilis√©es par un mod√®le. Pour continuer √† construire le pipeline ML, nous allons d√©finir ici le **pipeline d'entra√Ænement de mod√®les**, qui pourra √™tre combin√© avec celui que nous avons d√©j√† fait sur l'encodage.

<blockquote><p>üôã <b>Ce que nous allons faire</b></p>
<ul>
    <li>D√©velopper le pipeline d'entra√Ænement de mod√®les</li>
    <li>Construire le pipeline ML de la collecte des donn√©es jusqu'√† la mod√©lisation</li>
    <li>Appliquer les bonnes pratiques de d√©veloppement</li>
</ul>
</blockquote>

<img src="https://media.giphy.com/media/l46CwEYnbFtFfjZNS/giphy.gif" />

## Entra√Ænement du mod√®le

Nous avions appliqu√© de l'AutoML sur un LightGBM avec des Jupyter Notebooks. Notre objectif est maintenant de le faire directement dans le projet Kedro. Nous allons construire un pipeline nomm√© `training` qui est charg√© de de d√©terminer un mod√®le optimal.

<div class="alert alert-block alert-info">
    Dans la construction, le pipeline <code>training</code> intervient apr√®s le pipeline <code>processing</code>, mais l'int√©r√™t de s√©parer le pipeline ML en deux est de pouvoir ex√©cuter un seul des deux pipelines au besoin.
</div>

Cr√©ons un dossier `training` dans `src/purchase_predict/pipelines`. Notre premier fichier `nodes.py` contient toutes les fonctions n√©cessaires pour entra√Æner le module. Pour am√©liorer la productivit√© et faciliter la maintenance du code, nous allons y cr√©er trois fonctions.

- La premi√®re fonction `train_model` va entra√Æner une instance de mod√®le selon des hyper-param√®tres sp√©cifiques sur un ensemble d'entra√Ænement.
- La seconde fonction `optimize_hyp` va d√©terminer les hyper-param√®tres qui maximisent le score d'un mod√®le √† partir d'une m√©trique sp√©cifique.
- La derni√®re fonction `auto_ml` sera ensuite utilis√©e par le node Kedro pour entra√Æner un mod√®le optimis√©.

Commen√ßons par importer les librairies n√©cessaires aux fonctions que nous d√©velopperons.

Cr√©ons une variable `MODELS` dans laquelle nous allons sp√©cifier une liste de mod√®les candidats. Pour commencer, nous n'utiliserons qu'un seul mod√®le LightGBM, mais nous pourrions √©galement calibrer d'autres mod√®les comme XGBoost, CatBoost, Random Forest. Nous d√©finissons un dictionnaire pour chaque mod√®le.

- `name` est le nom du mod√®le.
- `class` est l'objet Python permettant d'instancier le mod√®le.
- `params` repr√©sente l'espace de recherche pour l'optimisation des hyper-param√®tres.
- `override_schemas` est un champ qui contient les hyper-param√®tres dont le type doit √™tre modifi√© avant d'entra√Æner le mod√®le.

Par exemple, l'hyper-param√®tre `max_depth` doit √™tre entier, mais un point de l'espace peut produire un flottant ($10.0$ au lieu de $10$). Dans ce cas, il faut forcer la conversion en entier pour √©viter une erreur g√©n√©r√©e par LightGBM.

Bien que le pipeline d'entra√Ænement du mod√®le ne poss√©dera qu'un node, nous pouvons tout √† fait cr√©er plusieurs fonctions dans le fichier `nodes.py` qui vont √™tre appel√©es par la fonction du node.

Commen√ßons par la premi√®re fonction `train_model`.

Comme nous l'avons √©voqu√© plus haut, nous for√ßons la conversion de certains hyper-param√®tres. On r√©cup√®re les noms des hyper-param√®tres dont le type est surcharg√©, puis ils sont convertis vers le type cible (ici, uniquement des entiers). Le reste de la fonction est explicitive, car il s'agit juste d'instancier le mod√®le et d'appeler la fonction `fit`.

Voyons maintenant la deuxi√®me fonction `optimize_hyp`.

Tout d'abord, nous r√©cup√©rons la base d'apprentissage $(X, y)$ √† partir de l'argument `dataset`. Nous d√©finissons ensuite la fonction `objective` dont on cherche une minimisation. √Ä chaque √©valuation, elle r√©alise un $k$-Fold sur le mod√®le candidat, puis stocke le score, calcul√©e √† partir de la m√©trique, dans la liste `scores_test`.

Cette liste contient tous les scores sur les ensembles de test du $k$-Fold. Ici, nous aurons uniquement $4$ scores √† chaque ex√©cution de la fonction. Nous retournons donc le score moyen des mod√®les sur les ensembles de test.

Pour terminer, nous retournons le r√©sultat de `fmin`, c'est-√†-dire le jeu d'hyper-param√®tres qui maximise la fonction `objective`.

Enfin, la derni√®re fonction `auto_ml`, qui sera utilis√©e par le node Kedro.

Il s'agit simplement d'une ex√©uction s√©quenc√©e en plusieurs √©tapes. Pour chaque mod√®le candidat que l'on souhaite optimiser, il y a trois √©tapes.

- On d√©termine les hyper-param√®tres optimaux avec `optimize_hyp` sur la base d'apprentissage $(X, y)$.
- Une fois les hyper-param√®tres optimaux trouv√©s, une instance du mod√®le est calibr√© avec ces derniers sur le sous-√©chantillon d'entra√Ænement.
- Le score du mod√®le est calcul√© sur le sous-√©chantillon de test et stock√© dans une liste.

√Ä la fin, la liste `opt_models` contiendra tous les mod√®les optimis√© de chaque mod√®le candidat. Si l'on souhaite tester un LightGBM, un XGBoost et un CatBoost, alors `opt_models` contiendra trois √©l√©ments, chacun √©tant le mod√®le optimis√© de la classe d'algorithme.

Pour terminer, on tourne le meilleur mod√®le parmi tous les mod√®les optimis√©s.

### Cr√©ation du pipeline

Derni√®re √©tape : construire le pipeline dans le fichier `pipeline.py`. Avant toute chose, nous allons d√©finir le mod√®le (optimis√©) dans le Data Catalog afin de l'enregistrer une fois entra√Æn√©. On utilise le type `pickle.PickleDataSet` pour enregistrer un mod√®le au format binaire sur le disque.

De m√™me, nous allons d√©finir un param√®re Kedro pour le nombre d'it√©rations lors de la phase d'AutoML.

Pour le pipeline, il n'y a qu'un seul node √† d√©finir.

On installera les packages n√©cessaires avec `pip install lightgbm hyperopt` en v√©rifiant que l'on soit bien dans l'environnement virtuel.

<div class="alert alert-info">
    Pour mettre √† jour la visualisation des pipelines, il faut relancer le processus <code>kedro viz</code> dans un terminal (on le stoppera au pr√©alable avec <code>Ctrl+C</code>).
</div>

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/kedro3.png" />

Comme nous l'avions fait pour le pipeline `processing`, nous devons d√©finir le pipeline dans le fichier `hooks.py`.

Apr√®s l'importation du pipeline, mettons √† jour le corps de la fonction `register_pipelines`.

Il ne reste plus qu'√† ex√©cuter le pipeline. Nous allons au total entra√Æner 40 mod√®les puisque nous avons un $4$-Fold et 10 it√©rations : le temps d'ex√©cution sera d'environ 3 √† 5 minutes.

## Pipeline de chargement

Dans le pipeline `processing`, on suppose que le jeu de donn√©es `primary.csv` existe d√©j√†. Or, il s'agit pour l'instant du jeu de donn√©es **de l'√©chantillon**, et non de celui calcul√© sur un historique de 7 jours. Nous devons au pr√©alable cr√©er un troisi√®me pipeline qui interviendra en tout premier.

Cr√©ons un dossier `loading` avec les fichiers `nodes.py` et `pipeline.py` pour le pipeline de m√™me nom.

L√†-aussi, il nous faut installer `pip install google-cloud-storage` dans l'environnement virtuel.

Avec `storage_client`, nous t√©l√©chargeons en local dans le dossier `/tmp` (dossier de fichiers temporaires) tous les fichiers CSV dans le bucket sp√©cifi√©. √Ä l'aide de `glob`, nous parcourons tous ces fichiers t√©l√©charg√©s et les concat√©nons dans un seul et unique DataFrame `df`.

Puisqu'il n'y a qu'un seul noeud, le pipeline est rapide √† d√©finir.

Nous allons rajouter deux param√®tres dans le fichier `parameters.yml`.

- Le param√®tre `gcp_project_id` contenant le nom du projet Google Cloud.
- Le param√®tre `gcs_primary_folder` qui donne **le dossier** contenant les fichiers CSV transform√©s, pr√™ts √† √™tre encod√©s.

Comme toujours, pour rajouter le pipeline, il faut configurer le fichier `hooks.py`.

Nous avons donc un total de trois pipelines.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/pipeline_ml1.png" />

Essayons d'ex√©cuter le pipeline `loading`.

La description de l'erreur est explicite : `Anonymous caller does not have storage.objects.list access` car nous **ne sommes pas authentifi√©**. Afin d'authentifier une application pour acc√©der √† une ou plusieurs ressources Google Cloud, nous devons cr√©er un <a href="https://console.cloud.google.com/identity/serviceaccounts?project=training-ml-engineer" target="_blank">compte de service</a>.

### Cr√©ation d'un compte de service

Une r√®gle de s√©curit√© en Cloud Computing consiste √† cr√©er des **r√¥les** en fonction des services et des cas d'utilisation. Sous GCP, les **comptes de services** permettent de d√©finir des r√¥les aux applications qui vont faire appel √† certains services, avec un certain niveau d'habilitation tout en garantissant une s√©curit√© √©lev√©e.

Nous allons nommer ce compte de service `purchase-predict` avec le r√¥le *Lecteur des objets de l'espace de stockage*, ce qui autorisera la lecture des donn√©es depuis l'ext√©rieur.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/pipeline_ml2.png" />

La description du compte de service n'est pas obligatoire, mais elle permet de pr√©senter rapidement quelles applications vont utiliser ce compte de service car cela n'est pas toujours clair lorsqu'il y en a beaucoup.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/pipeline_ml3.png" />

En s√©curit√© du Cloud, il faut adopter le **principe du moindre privil√®ge** : il faut donner uniquement les acc√®s n√©cessaires, c'est-√†-dire juste ce qu'il faut pour que l'application fonctionne, jamais plus.

Apr√®s avoir cr√©e le compte de service, nous pouvons cr√©er une cl√© au format JSON et la t√©l√©charger.

<div class="alert alert-block alert-danger">
    La cl√© du compte de service est √©quivalent √† un mot de passe. Il ne faut jamais la divulguer ou la laisser dans un projet o√π Git ajouterai ce fichier √† un d√©p√¥t distant.
</div>

Heureusement pour nous, Kedro a pr√©vu de cas de figure. Tous les mots de passes et cl√©s de services, lorsqu'ils sont utilis√© sur des environnement de d√©veloppement, doivent √™tre plac√©s dans le dossier `conf/local`, qui est ignor√© par Git. Ajoutons le fichier `service-account.json` dans ce dossier en ins√©rant le contenu de la cl√© JSON t√©l√©charg√©e.

Il reste maintenant √† sp√©cifier le chemin d'acc√®s √† la cl√© du compte de service dans la variable d'environnement `GOOGLE_APPLICATION_CREDENTIALS`. √Ä noter que cette manipulation sera n√©cessaire **lorsque l'on d√©marre un nouveau terminal**.

Essayons d'ex√©cuter √† nouveau le pipeline.

Tout a bien fonctionn√© : le fichier `primary.csv` correspond bien au jeu de donn√©es construit avec PySpark.

Au total, nous comptabilisons trois pipelines.

- Le pipeline `loading` qui charger les fichiers CSV depuis le bucket Cloud Storage pour cr√©er le fichier `primary.csv`.
- Le pipeline `processing` qui va encoder le jeu de donn√©es `primary.csv`.
- Le pipeline `training` qui va entra√Æner un mod√®le.

L'avantage de la repr√©sentation de ces trois pipelines est **la flexibilit√©**. Si je souhaite ajouter un XGBoost par exemple, je n'aurai besoin que de relance le pipeline `training`. Si je change de m√©thodes d'encodages, je n'aurai pas besoin de relancer le pipeline `loading`. L'autre aspect important est **l'homog√©n√©it√© des traitements** : en regroupant toutes les op√©rations dans trois pipelines, nous nous assurons que les donn√©es au tout d√©but de la cha√Æne vont subir exactement le m√™me traitement, quelle que soit la date d'ex√©cution ou les donn√©es en entr√©e.

Nous pouvons alors cr√©er un pipeline `global`, qui est la fusion des trois pipelines s√©quenc√©s.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/pipeline_ml4.png" />

Nous pouvons ensuite lancer le pipeline `global`. √Ä noter que le pipeline `training` prendra plus de temps puisque le jeu de donn√©es est plus cons√©quent.

## Linting et Refactoring

√Ä partir de maintenant, les codes qui vont √™tre produits seront utilis√©s dans des environnements de production. Il est **n√©cessaire** que le code respecte les normes de PEP 8, telles que nous les avions vues avec `flake8` et `black`. Installons ces deux packages.

Nous allons ensuite cr√©er deux fichiers.

- Le fichier `.flake8` √† la racine du projet configure les param√®tres propres √† `flake8`. En particulier, nous pouvons par exemple ignorer certaines erreurs de PEP 8 ou, √† l'inverse, ajouter ses propres sp√©cifications.
- Le fichier `.toml`, lui aussi √† la racine du projet, configure les param√®tres pour `black`. √Ä noter que dans les deux fichiers, il est important de pr√©ciser la m√™me taille pour les lignes. L√† o√π `flake8` g√©n√©rera une erreur, `black` d√©coupera la ligne actuelle en plusieurs.

Commen√ßons par le fichier `.flake8`.

Nous choisissons volontairement un nombre de caract√®res maximal √† 120. La complexit√©, qui est un calcul r√©alis√© en fonction du nombre d'identations maximales et de variables utilis√©es, est fix√©e √† 16. Enfin, nous d√©finissons les dossiers et fichiers √† exclure de l'analyse.

Le contenu du fichier `.toml` est tr√®s similaire.

La seule diff√©rence est que l'on choisit √©galement d'y inclure certains fichiers dont l'extension est `.pyi`. Ex√©cutons tout d'abord `flake8`.

Nous remarquons que la majorit√© des erreurs et avertissements peuvent √™tre corrig√©s par un formatage de code avec `black`.

En ex√©cutant √† nouveau `flake8`, il ne devrait y avoir aucune sortie console, signifiant que tous les codes sources respectent PEP 8.

> ‚ùì Est-ce que l'on doit tout le temps ex√©cuter ces deux commandes ?

Les bonnes pratiques en d√©veloppement logiciel, c'est de toujours publier un code qui respecte au maximum les normes, notamment PEP 8 dans le cas de Python. Le plus ad√©quat ici serait d'ex√©cuter automatiquement `black` puis `flake8` √† chaque commit de Git. Il y aurait alors deux possibilit√©s.

- Le code ne respecte pas la norme PEP 8, et le commit n'est pas accept√©.
- Le code respecte la norme PEP 8, et le commit est accept√© **en local**.

Il faudra ensuite pousser le code local vers le d√©p√¥t distant. Et tout ceci peut √™tre r√©alis√© avec `pre-commit`.

Il s'agit d'un utilitaire qui permet d'ex√©cuter des traitements avant, pendant et apr√®s des actions Git (lors d'un commit, d'un push, etc). Pour cela, nous configurons les √©v√©nements √† surveiller en sp√©cifiant, dans le fichier `.pre-commit-config.yaml`, toujours √† la racine du projet.



Pour initialiser l'environnement et installer les d√©clencheurs, il suffit d'ex√©cuter `pre-commit install` dans la console. Cette op√©ration n√©cessite quelques dizaines de secondes. Dor√©navant, √† chaque commit, `black` puis `flake8` sont ex√©cut√©s et cela garantit que le code qui sera par la suite pouss√© vers le d√©p√¥t distant respecte la norme PEP 8.

Dor√©navant, √† la moindre modification de fichier, lors d'un commit, tous les codes Python seront inspect√©s.

Pour terminer, nous pouvons pousser le code vers le d√©p√¥t distant.

√Ä noter qu'√† chaque nouveau terminal, il faut relancer l'agent SSH et lui sp√©cifier la cl√©e priv√©e pour pouvoir avoir les droits sur le d√©p√¥t distant.

## ‚úîÔ∏è Conclusion

Notre pipeline ML est enfin r√©alis√© avec Kedro.

- Tout d'abord, nous avons construit le pipeline qui entra√Æne des mod√®les.
- Ensuite, nous avons combin√© tous les pipelines (collecte, encodage et entra√Ænement) en un seul.
- Pour finir, nous avons appliqu√© les bonnes pratiques de d√©veloppement en v√©rifiant les codes Python avec la norme PEP 8.

> ‚û°Ô∏è Au programme des prochaines activit√©s : les **d√©p√¥ts de mod√®les** ! Mais avant, il est n√©cessaire d'aborder un point pas toujours plaisant, mais pour autant tr√®s important : les **tests logiciels**.