DataScience avec Python
===

Bonjour et bienvenu, avant de commencer ce cours, n'hésitez pas à jeter un oeil au cours sur Scikit ainsi que sur Numpy, Pandas et sur les plots, sachant que ces librairies seront très utilisées.

# 1. Démarche basique

Une démarche de base à suivre est la suivante :
1. Définir un objectif **mesurable**:
    > Par exemple, prédire *y* avec 90% d'exactitude, une précision (prévient les faux positifs) de 60% et un recall (préviens les faux négatif) de 80% 
2. Exploration des données : EDA (Exploratory Data Analysis) comprendre au maximum les données et le dataset
    - Analyse de la forme
        - Identifier la target
        - Nombre de lignes / colonnes
        - Nombres de variables discrètes / continues
        - Valeurs manquantes
    - Analyse de fond
        - Visualisation de la target (histogramme / boxplot)
        - Compréhension des variables (On peut regarder sur internet)
        - Visualisation des relations features-target (histogramme / boxplot)
        - Identification des outliers
3. Pre traitement des données : transformer le dataset pour qu'il soit plus propice pour le modèle
    - Train set / Test set
    - Élimination des NaN
    - Encodage
    - Suppression des outliers (pas forcément à la première itération)
    - Feature Selection (supprimer les variables redondantes ou a variance faible)
    - Feature Engineering (combiner des variables / split des variable / polynomial feature + PCA)
    - Feature Scaling (Normaliser les données)
4. Modelling : Choisir un modèle, l'entrainer, l'améliorer
    - Définir une fonction d'évaluation
    - Entrainement de différents modèles
    - Optimisation avec GridSearchCV
    - Analyse des erreurs et retour au preprocessing / EDA si nécessaire
    - Learning curve (toujours à vérifier pour savoir si on manque ou non de données) et prise de décision

Il existe de nombreuses méthodes, plus formalisées, pour gérer un projet de Data Science. Le plus connu est **CRISP-DM** (CRoss Industries Standard Process for Data Mining). Mais de manière générale, on a toujours les étapes ci-dessus.

# 2. Démarche détaillée

La Data Science c'est donc avant tout de lcountience des données. Ainsi il est important d'adopter une bonne démarche pour ne pas être perdu et tourner en rond. De plus, jouer avec les données et leur donner une signification (les valoriser) peut etre très dangereux. Il faut vraiment faire attention à ce que l'on fait dire aux données.

De manière générale, voici une démarche à suivre plus détaillée qu'en introduction :
1. **Définir le problème** : Il est important de se questionner sur le le problème et le projet avant de commencer, pour d'une part, bien le comprendre, et d'autre part, pour bien l'analyser. On peut utiliser la fameuse technique de gestion de projet des *5 pourquoi* afin de pousser l'analyse et répondre aux questions suivantes :
    - Quel est le problème ?
    - Quelle serait la valeur ajoutée ?
    - Quels sont les risques / dangers, notamment éthiques du projet ?
    - Avec et pour qui est fait le projet ? Savoir qui est le destinataire peut aider à comprendre les intentions non dites
    - Quelles sont les ressources à disposition ? Humaines, machines...
    - Quel est le type de problème ?
    > Enfin, on peut définir un ou des objectifs mesurable ainsi que commencer à planifier le projet
2. **Obtenir et explorer les données** : On peut créer et utiliser ici un ETL (Extract, Transform, Load) afin d'automatiser la récupération, le nettoyage et la première analyse de la donnée. Les principales étapes ici sont :
    - Identifier les données dont on a besoin et les récupérer :
        - Sont-elles disponibles en interne ? On a besoin de l'accès
        - Sont-elles disponibles librement ? On les collecte
        - Sont-elles disponibles à l'achat ? On achète ou pas ?
    - Explorer, exploiter et analyser les données (EDA (Exploratory Data Analysis)) :
        - Documenter les dataset et leur qualité (noms de colonnes, nombre de données, utilisabilité de la donnée...)
        - Nettoyer le dataset (et documenter ce qui a été nettoyer et la stratégie de nettoyage)
        - Faire du pre-traitement pour optimiser le modelling
        - Combiner les datasets dans des vues et pourquoi pas, load ces dernières dans un cloud
        - Visualiser les données (on peut faire cela plusieurs fois, notamment pour documenter le dataset et sa qualité) et première analyse des clients (y a t'il des relations qui ressortent, des correlations, des clusters...)
    > Ici, des notebooks Python et l'utilisation de Seaborn prend tout son intérêt. Le but n'est pas de faire une analyse précise mais de commencer rapidement à étudier les données. En effet, le plus important de cette partie est de correctement nettoyer et documenter les données.
3. **Modelling et Minimal Viable Value** : Plutôt que de faire un gros modèle tout de suite qui prend du temps à entrainer et qui pourra ne pas être efficace ou ne pas répondre au besoin, préférer y aller par étapes. C'est finalement le but des méthodes agiles et notamment du SCRUM. 
    - Chercher la **Minimal Viable Value** : comment avec très peu d'efforts, on peut créer une grosse plus-value ? Ceci permet de rapidement tester si l'on est dans la bonne voie, de se préparer pour la suite, d'avoir quelque chose à montrer au client et de valider, avec ce dernier, que l'on a bien compris son besoin et que l'on est dans la bonne voie:
        - Le modèle est-il performant
        - Le modèle est-il intéressant, "parlant"
    - Tester le modèle (et surtout le Minimal Viable Value pour savoir si on peut continuer) :
        - *Lab* validation : Tester le modèle en environnement controllé (Train set / Validation set)
        - *Wild* validation : Vérifier qu'il fonctionne toujours dans le monde réel
    > Une fois que l'on a déjà une base validée, on peut continuer et être plus confiant pour grossir le modèle, toujours de manière incrémentale (plus de données, plus de prédictions...)
4. **Déployer et améliorer le modèle** : Donc livrer le produit et faire de l'amélioration continue.
    - Le déploiement peut être très varié, un simple tableau / dashboard, jusqu'au Cloud Scalable pour des millions de personnes avec une API.
    - L'amélioration peut consister à étendre le modèle à de nouveaux use cases, ajouter de nouvelles features, tester de nouvelle techniques de modelling...
    - **Data Science Ops** afin de capitaliser sur ce qui a été fait. 
        - Documenter ce qui a été fait avec du recul (difficultés, facilités...) et assurer la compréhension du modèle
        - DevOps sur le software (màj, patches, sécurité, tests...)
        - Monitoring de la performance du modèle et des données (le monde réel change en continue, les données évoluent donc)

---

Thibault **Santonja**

2021