*Ce template présente les phases de CRISP-DM, avec pour chacun les principales tâches à effectuer.*

# Business Understanding

Cette phase se fait avec le client, généralement via des ateliers d'échange. Elle est primordiale car elle permet de cadrer le projet et d'aider les data scientist à élaborer des modèles optimisant les critères les plus adaptés.

## Objectifs métiers

Dans cette première tâche, il est nécessaire de définir le cadre du projet, en 3 temps :

1. Le contexte projet : Quel est le métier de l'entreprise cliente ? Quel est le sujet métier visé ? Pourquoi le lancement de ce projet ? D'autres approches ont-elles été testées ? ...

2. Les objectifs métiers : attention, ils s'expriment dans le langage du client, et non dans un langage "Machine Learning", par exemple "le service commercial souhaite pouvoir faire des offres commerciales à nos clients avant qu'ils ne partent pour les garder plus longtemps (ou pour baisser le taux de churn)" et non "le but est d'avoir une accuracy de 90%".

3. Les critères de succès métiers : il faut chiffrer les objectifs sous-jacents à l'objectif principal et pas seulement donner des objectifs vagues. Pour le cas précédent du départ des clients, il est donc possible de définir comme critères : "au moins 70% des clients susceptibles de partir sous 3 mois doivent être détectés".

## Évaluation de la situation

Cette deuxième partie fait le tour de la situation actuelle pour guider les étapes suivantes.

### Ressources, Spécifications, Hypothèses et Contraintes

**Ressources** : ressources matérielles, logicielles, données, mais aussi les ressources humaines disponibles, en particulier les compétences métiers et les compétences Machine Learning.

**Spécifications** : le modèle, pour être utilisable, devra être intégré dans un système qui sera spécifié ici, ainsi que les interactions (par exemple l'interface d'une API si le modèle est accessible en architecture micro-services, ou les références du matériel qui fera tourner le modèle dans le cas du Edge Computing)

**Hypothèses** : hypothèses fournies par le client, par exemple sur le fonctionnement du processus métier ("la météo n'a pas d'impact sur la qualité de la production") ou sur les données disponibles ("les machines renvoient au moins 1 valeur de température par heure"). 

**Contraintes** : il s'agit de contraintes fortes qui ne pourront pas être mises de côté et qui doivent être prises en compte dès le départ (par exemple le nombre de prédictions à faire par minute dans le cas d'une chaine de production, le montant maximal du projet, une deadline forte qui arrive...).

### Risques

Une analyse des risques est nécessaire pour déterminer non seulement les risques mais aussi :
* leur probabilité de réalisation
* leur impact dans le cas où le risque se produit
* les mitigations envisagées pour supprimer ou au moins limiter les risques (certains risquent peuvent ne pas avoir de mitigations si le risque est accepté).

### Terminologie

Il s'agit d'une double terminologie : celle du client (en particulier des processus analysés) pour les data scientists et celle du Machine Learning pour le client.

### Coûts et bénéfices

Quels sont les coûts :
* du projet de Machine Learning en tant que tel
* de sa mise en production (en particulier développement, monitoring, sécurité, MLOps, ...)
* d'utilisation de la solution (mensuelle ou annuelle, comprenant le prix des ressources et des licences).

Il faut aussi estimer les bénéfices attendus, financiers ou non (image de marque, respect d'une réglementation, classement par rapport à la concurrence...).

Si les bénéfices sont plus faibles que les côuts, le projet doit être questionné.

## Objectifs ML

Cette partie a pour but de déterminer :
* les différentes tâches de Machine Learning qui sont envisagées (parfois un résultat peut être obtenu via une régression ou via une classification par exemple)
* les résultats attendus pour ces tâches
* les critères de succès en termes ML (accuracy, rappel, ...)

## Planification projet

La phase de Business Understanding se termine par une planification du projet, avec le choix des outils initiaux pour celui-ci (par exemple le logiciel qui sera utilisé au moins au démarrage pour faire le nettoyage des données).

# Data Understanding

La phase de Data Understanding a pour but une analyse fine des données disponibles, et de soulever tout problème potentiel sur ces données.

De nombreux aller-retour avec la phase précédente sont possibles pour mieux comprendre le processus et les variables si nécessaire.

## Données source

Il est important d'indiquer quelles données sont considérées comme source, avec par exemple le système qui les a produites, la personne chargée de l'extraction, le format d'échange pour les livrer, etc.

En effet, parfois, il y a des erreurs qui peuvent se produire à cause d'une procédure d'extraction inexacte ou mal exécutée.

Il faut aussi indiquer comment les données ont été chargées dans l'outil qui permettra de faire le reste de cette phase et si des modifications manuelles ont du être faites (changement d'encodage, remplacement de '.' par ',' pour les décimales...).

## Description des données

La description se fait à deux niveaux : celui du dataset puis celui des champs (features).

### Description des datasets

Pour chaque dataset, il faut préciser son nom, sa source, l'année de création, le nombre de lignes et de colonnes, et la présence ou non de données manquantes. Cela permettra de vérifier à chaque chargement qu'il n'y a pas d'erreur dans le processus.

Il est possible d'utiliser un tableau pour la mise en forme :

| Dataset | Source | Année | Nb lignes | Nb features | Données manquantes ? |
|---|---|---|---|---|---|

### Feature Description

Pour chaque dataset, il s'agit maintenant de détailler chaque champ, là encore en utilisant un tableau pour la mise en forme si nécessaire.

La description d'une colonne correspond à son sens métier (par exemple pression de l'air au niveau de la valve 3), et peut nécessiter la présence d'un schéma pour expliquer le lien avec le processus métier.

| Feature | Unité | Format | Nb manquant | Description |
|---|---|---|---|---|

## Exploration des données

### Data Formating

Toute modification de format nécessaire pour l'analyse statistique des données doit ici être indiquée. Il s'agit souvent de modifications pour transformer des chaines de caractères brutes en dates ou nombres. Le formatage peut cependant être plus complexe.

### Statistiques univariées

Pour chaque donnée de chaque dataset, il est nécessaire de faire une analyse univariée. Comme celle-ci peut être très longue, elle peut être dans un document à part, et ici ne seront présentées que les faits marquants.

Pour des variables numériques, il s'agira souvent des indicateurs suivants : minimum, maximum, amplitude, moyenne, médiane, écart-type, quartiles, données aberrantes (outliers). Il faut aussi des graphiques sur la distribution des données.

Pour des variables catégorielles, il s'agit plutôt les indicateurs suivants : nombre de modalités, répartition par modalité, et des graphiques de type circulaires (camembert) ou diagrammes à barres.

### Statistiques bivariées

Comme pour les statistiques univariées, l'étude peut être faite à part pour ne remonter que les points d'intérêt.

Les statistiques bivariées consiste à étudier deux variables et les liens entre elles (comme les corrélations ou des tableaux croisés). Tous les couples de variables ne sont pas analysés, généralement il suffit d'analyser chaque variable explicative avec la variable cible et les couples de variables liées par leur sens entre elles (comme une largeur et une hauteur).

## Qualité des données

### Métriques

Il s'agit de définir toutes les métriques de qualité qui seront utilisées. Cela peut être le nombre ou le ratio de données manquantes, les taux de valeurs aberrantes, les doublons, les écritures similaires mais non identiques, etc.

### Data Quality Evaluation

Pour chaque problème rencontré, il s'agira d'indiquer le défaut trouvé avec le nombre de lignes concernées et une solution envisagée pour y faire face (ne rien faire, obtenir d'autres données, supprimer les lignes, supprimer la variable, ...).

Il est possible de créer un tableau :

| Feature | Défaut/Métrique | Nb lignes | Solution proposée |
|---|---|---|---|

## Conclusion sur l'analyse des données

Pour finir cette partie, il est intéressant de proposer pour chaque feature ce qui a été remontée et/ou ce qui est proposée. Les variables non concernées peuvent être enlevées de la conclusion dans le cas où il y a beaucoup de variables.

Cela permettra de gagner du temps en phase de Data Preparation, car la majorité des traitements liées aux données (et non aux algorithmes) auront déjà été déterminés (par exemple la suppression de champs ou de certaines valeurs).

# Data Preparation

Cette phase consiste à préparer les datasets pour la phase de modélisation. Il est vital de bien tracer toutes les préparations faites pour simplifier au maximum l'industrialisation du modèle retenu à la fin du projet en cas de déploiement.

## Sélection des données

La première étape est de filtrer des données. Pour cela seront précisés :
* les conditions pour exclure des données,
* les variables qui sont supprimées (avec la raison correspondante),
* les lignes qui sont supprimées (avec la raison correspondante).

Que ce soit pour les lignes ou les colonnes, il ne faut pas indiquer de nombre (par exemple les 3ème et 8ème lignes sont supprimées) mais un moyen indépendant de l'ordre ou du nombre de données (par exemple les lignes où le champ "age" est vide).

## Nettoyage des données

La deuxième étape de la préparation est le nettoyage des données. Il est important de préciser toutes les modifications faites (par exemple l'imputation de données manquantes, le changement d'unité d'une variable, etc.).

## Construction des données

Des nouvelles données peuvent être créées et doivent donc être documentées :
* nouveaux champs : il est important d'indiquer toutes les variables créées, par exemple un champ "jour de la semaine" à partir d'une date, ou une formule à partir d'autres champs (avec la formule)
* nouveaux enregistrements : si de nouveaux enregistrements ont été créés (par exemple par Data Augmentation), il est important d'indiquer combien d'enregistrements ont été créés et par quel moyen.

## Intégration de données

Des données externes peuvent être utilisées, par exemple pour récupérer la météo à un lieu donné ou des informations sur une localisation (à partir des coordonnées GPS).

Il est donc nécessaire de préciser quelles données externes ont été utilisées (avec la source la plus complète possible) et la façon dont ces données ont été fusionnées avec les données existantes (par exemple le type de jointure ou la décision prise s'il n'y avait pas de donnée correspondante dans le dataset externe, comme un lieu inconnu).

## Formatage

La dernière partie concerne le formatage des données, en particulier la quantification d'une variable ou le formatage d'une donnée catégorielle en format binaire.

# Modeling

La phase de modélisation va permettre de tester différents modèles, de les évaluer en termes ML et de choisir le ou les modèles proposés au client en phase suivante.

Pour les besoins des algorithmes, des aller-retours avec la phase de Data Preparation sont possibles.

## Généralités

Tous les modèles seront comparés. Des informations communes sont à donner en premier.

### Design des tests

Il est nécessaire d'indiquer comment seront évalués les modèles : comment créer les ensembles d'apprentissage, de test et de validation, les métriques sélectionnées pour évaluer les modèles, etc.

### Techniques de modélisation

Les algorithmes utilisés doivent être décrits, ainsi que les hypothèses ou contraintes qui sont sous-jacentes. Par exemple pour une régression linéaire, seules les variables numériques peuvent être utilisées.

## Présentation des différents modèles réalisés

Pour chaque modèle entrainé, il est nécessaire d'indiquer :
* l'algorithme utilisé
* les paramètres d'apprentissage (dans le cas d'une optimisation des hyper paramètres, il est important d'indiquer à la fois le type d'optimisation utilisée, les valeurs utilisées et les meilleurs paramètres qui sont ressortis de l'optimisation)
* les informations d'apprentissage
* les métriques obtenues pour ce modèle en évaluation
* une évaluation des résultats (suffisant ou non).

## Conclusion

La conclusion de cette phase consiste à indiquer si un ou plusieurs modèles semblent suffisants pour être évalués de manière plus approfondie en phase suivante, et potentiellement un avis sur ceux-ci.

# Evaluation

Dans cette phase, il s'agit de réaliser une évaluation métier des modèles réalisés de manière à décider de la suite du projet.

## Résultats de l'évaluation

Les modèles doivent être évalués et comparés aux critères de succès métiers définis en Business Understanding. De nouveaux jeux de données peuvent être utilisés si besoin (par exemple les données produites entre le début du projet et l'évaluation).

## Revue du processus

Tout le processus doit être revu de manière à déterminer si le projet pourra être mis en production ou s'il manquera des données clés (ou des informations pour les traitements).

Il est important aussi que le métier analyse les résultats et le comportement du modèle pour s'assurer qu'il n'y a pas de biais qui auraient pu être oubliés ou laissés de côté.

## Étapes suivantes

La dernière partie consiste à choisir la ou les étapes suivantes. En effet, à ce stade, plusieurs possibilités sont à envisager :
* passer au déploiement si tout va bien
* refaire une boucle supplémentaire, en ayant une idée des modifications à appliquer : nouvelles données, nouvelles préparations, nouveaux modèles (ou paramètres), ...
* mettre en pause le projet (en particulier s'il manque des données non disponibles pour l'instant)
* arrêter le projet, en particulier si les résultats sont loin des critères de succès et que les chances d'amélioration des résultats sont faibles.

La décision permet aussi de savoir quelle sera la phase suivante (Business Understanding ou Deployment) ou si le projet s'arrête (pause ou fin du projet).

# Deployment

Cette phase est la dernière du processus CRISP. Il ne s'agit cependant pas d'une phase technique, car le déploiement en tant que tel sera un projet à part. Il s'agit de le prévoir et de lancer ce projet dans les meilleures conditions.

## Planification du déploiement

Le déploiement doit être planifié, en indiquant la suite des étapes à faire, leur chiffrage, leur enchainement, et un planning préliminaire.

## Planification du monitoring et de la maintenance

Tout système en production doit être à la fois monitoré et maintenu. 

Il est donc nécessaire de prévoir en amont comment ces processus seront faits. En particulier, ils peuvent nécessiter la création d'une nouvelle équipe, sa formation, et la rédaction de procédures.

Les deux aspects seront donc planifiés.

## Rapports de fin de projet

Un rapport final est nécessaire. Il doit contenir la documentation de chaque étape et les annexes potentielles, le code source et tout autre document permettant de retracer l'intégralité du projet.

En effet, que ce soit pour industrialiser le projet ou pour retravailler dessus ultérieurement, il est important que tout soit conservé.

Enfin, pour finir le projet, une présentation sera faite, à la fois aux clients, aux utilisateurs et à toute personne concernée par le projet (sponsor, exécutif, etc.).

## Revue du projet

Une revue du projet clôt celui-ci. Comme pour les méthodes agiles, il s'agit d'une rétrospective permettant d'améliorer le fonctionnement des équipes à l'avenir. Des conclusions doivent donc en être extraites, ainsi que des leçons pour l'avenir ou de nouvelles bonnes pratiques.