# Démarche
## 1. Exploration préliminaire
Consiste à produire un certains nombre de statistiques descriptives et de graphiques pour mieux comprendre ses données:
* Types de variables: 
    * Continues: distribution, présence de valeurs abérrantes/d'*outliers*/d'échantillons indésirables (ne correspondant pas à la population qu'on souhaite étudier).
    * Catégorielles: ordinales ou pas ? cardinalité, distribution des effectifs par classe.
* Formulation du problème: régression, classification (*dataset* déséquilibré ? binaire ou multiclasse ?), non supervisé (détection d'anomalies, clustering, etc.).

## 2. Nettoyage
* Filtrage des échantillons indésirables, application de corrections (ex: erreurs de mesure) après validation du métier.
* Débruitage complémentaire: suppression des *outliers* s'ils ne nous intéressent pas et vont au contraire perturber l'apprentissage du modèle (induire une variance élevée). Si on ne les supprime pas, il faut considérer leur présence (même éventuelle) lors du choix du modèle: Est-il particulièrement sensible aux *outliers* ? Quelles autres mesures pouvons nous prendre pour limiter leur impact sur la qualité de l'apprentissage (régularisation, choix d'une norme L1 pluôt que L2, standardisation robuste, etc.) ?

## 3. Gestion des valeurs manquantes
En cas de présence de valeur manquantes, choisir entre suppression et imputation puis si imputation, une stratégie adaptée au type de données:
* Choisir la strégie limitant au maximum l'impact sur la distribution originale des données: risque de *concept drift*.
* Les stratégies d'imputation utilisant l'information du reste du *dataset* pour imputer, attention au risque de de *leakage*.

## 4. Encodage des variables catégorielles
En cas de présence de variables catégorielle, choisir la stratégie d'encodage la plus adaptée en prenant garde au risque de *leakage* associée à certaines stratégies (*embeddings*, encoders bayésiens, etc.). 

## 5. Rééquilibrage du *dataset*
En cas de problème de classification et de déséquilibre entre les classes, choisir la stratégie de rééquilibrage des effectifs des classes: 
* Choisir la strégie limitant au maximum l'impact sur la distribution originale des données: risque de *concept drift*.
* Un bon nombre d'algorithmes de rééquilibrage peuvent présenter un risque de de *leakage* (Ex: tous les algorithmes à base de plus proches voisins).
* Ne pas oublier: 
    * Les modèles présupposent par défaut que les *datasets* sont équilibrés. Lors du choix du modèle, activer le mode permettant de compenser ce déséquilibre si le rééquilibrage n'a fait que le réduire sans le faire disparaître.
    * Certaines métriques de performance sont peu adaptées à l'évaluation de modèles entrainés sur des *datasets* déséquilibrés. Ex: *ROC curve* vs. *PR curve*.

## 6. *Feature engineering* et transformation des *features* 
On inclut dans cette étape la création de *features* basée sur la compréhension du problème (*feature engineering*) et l'éventuelle transformation de celles-ci pour les conformer au format d'entrée attendu par le modèle (Ex: données centrées, centrées et réduites, suivant une distribution normale, données faiblement corrélées, etc.):
* Quand la transformation implique une modification de la distribution des données: risque de *concept drift*
* Certaines transformation (Ex: *scaling*) utilisent l'information de l'ensemble du *dataset*: attention au risque de de *leakage*.
* Normaliser est en général un minimum notamment si les *features* s'expriment dans des unités très différentes au prix d'une perte d'information limitée (variances relatives). Attention à l'impact d'éventuels *outliers*.

## 7. Réduction de la dimension / sélection de *features*
Chercher à réduire le nombre de variables passées du modèle avant l'entrainement permet d'éviter les problèmes de *curse of dimensionality* mais aussi de se limiter aux variables a priori les plus pertinentes (on se restreint à une *sparse solution*) améliorant d'autant les performances de calcul et l'interprétabilité du modèle. Attention, certaines stratégies sont *greedy*. Certains modèles permettent d'inclure la sélection de *features* au modèle via la régularisation (Ex: LASSO), on parle alors d'*embedded feature selection*.

La réduction de dimension peut se faire de manière non supervisée (ex: PCA) ou supervisée.

## 8. Choix du modèle et d'une stratégie de régularisation 
Quand on choisit un modèle et une stratégie de régularisation, examiner la capacité de celui-ci à faire face aux problèmes classiques rencontrés en pratique:
* Comportement en présence de *features* fortement corrélées.
* Comportement en présence de bruit/de *features* non informatives.
* Comportement en présence d'*outliers* (robustesse).
* Capacité à gérer les valeurs manquantes, sinon: cf. stratégies de gestion des valeurs manquantes.
* Capacité à gérer des données mixtes, sinon: cf. encodage des variables catégorielles. 
* Interprétabilité.
* En cas de déséquilibre dans les données en classification, comment ce problème est-il géré ?
* Comportement face à une dimensionnalité élevée (exemple des algorithmes se basant sur des distances).
* *Scalability*: Complexité algorithmique (impactée par le nombre d'observations $n$ ET le nombre de *features* $p$) / possibilité de paralléliser l'entrainement.

## 9. Stratégie de validation, sélection du modèle, *tuning* des hyperparamètres
En fonction de la quantité de données disponible, déterminer:
* Les proportions de données finissant dans *training*, *validation* et *test* set. Veiller à placer ce *split* avant toute étape susceptible d'introduire du *leakage*.
* Les métriques à calculer lors de la validation afin de sélectionner le modèle. Ex: *ROC curve* vs. *PR curve* en cas de *dataset* déséquilibré. 
* Combien de *folds* doivent être utilisées pour la cross-validation sachant que si ce nombre est trop faible, on risque d'avoir une forte variance (à minima un large intervalle de confiance) pour les métriques de validations.
