---
jupyter:
  jupytext:
    formats: md,ipynb
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="492b2ddf" -->
# Table des matières
1. [Préambule](#préambule)
  1. [Pourquoi nettoyer les données?](#pourquoi-nettoyer-les-données)
  1. [Problèmes courants avec les données réelles](#problèmes-courants-avec-les-données-réelles)
  1. [Sous quelle forme sont les données?](#sous-quelle-forme-sont-les-données)
  1. [Où se font la collecte et le prétraitement des données?](#où-se-font-la-collecte-et-le-prétraitement-des-données)
1. [La collecte et l'évaluation de la qualité des données](#la-collecte-et-lévaluation-de-la-qualité-des-données)
    1. [Collecte et colligation : Que regarder ?](#collecte-et-colligation--que-regarder-)
      1. [Validité](#validité)
      1. [Fiabilité](#fiabilité)
      1. [Temporalité](#temporalité)
      1. [Précision](#précision)
      1. [Intégrité](#intégrité)
1. [Vos données sont-elles cohérentes?](#vos-données-sont-elles-cohérentes)
  1. [Les données correspondent-elles à l'étiquette de la colonne?](#les-données-correspondent-elles-à-létiquette-de-la-colonne)
  1. [Les données de chaque colonne respectent-elles les règles appropriées à son champ?](#les-données-de-chaque-colonne-respectent-elles-les-règles-appropriées-à-son-champ)
  1. [Les statistiques récapitulatives pour les données numériques ont-elles un sens?](#les-statistiques-récapitulatives-pour-les-données-numériques-ont-elles-un-sens)
1. [Les erreurs communes à éviter](#les-erreurs-communes-à-éviter)
  1. [Préparer les données pour l'analyse sans objectif clair](#préparer-les-données-pour-lanalyse-sans-objectif-clair)
  1. [Déprioriser la visualisation des données](#déprioriser-la-visualisation-des-données)
  1. [Ignorer les problèmes hors du champ des données](#ignorer-les-problèmes-hors-du-champ-des-données)
  1. [Entrer les mauvaises données](#entrer-les-mauvaises-données)
  1. [Analyser une population (trop) petite](#analyser-une-population-trop-petite)
  1. [Normes de nommage incohérentes ou confuses](#normes-de-nommage-incohérentes-ou-confuses)
  1. [Attention à la duplication!](#attention-à-la-duplication)
  1. [Analyse des données altérées](#analyse-des-données-altérées)
  1. [Influx de données hétéroclites](#influx-de-données-hétéroclites)
  1. [Utilisation de données obsolètes](#utilisation-de-données-obsolètes)
1. [Les étapes du prétraitement des données](#les-étapes-du-prétraitement-des-données)
<!-- #endregion -->

<!-- #region id="f8b201e7" -->
# <a id=préambule>Préambule</a>
<!-- #endregion -->

<!-- #region id="25baabc8" -->
## <a id=pourquoi-nettoyer-les-données>Pourquoi nettoyer les données?</a>
<!-- #endregion -->

<!-- #region id="34416dea" -->
Les projets courants en apprentissage automatique (AA) utilisent des données réelles. Pourtant,
des données synthétiques sont souvent utilisées dans les exemples en AA
que l'on trouve sur le web (par exemple sur
[Scikit-learn](https://scikit-learn.org/stable/auto_examples/index.html#)). Pourquoi?

La raison en est qu'on ne veut pas perdre de temps à corriger à chaque fois des données réelles avant de les
analyser dans les exemples. Le nettoyage des données peut accaparer en effet
une bonne fraction du temps d'un scientifique des données. Comme le dit
[Steve Lohr](https://www.projectpro.io/article/why-data-preparation-is-an-important-part-of-data-science/242#:~:text=Steve%20Lohr%20of%20The%20New%20York%20Times%20said%3A,before%20it%20can%20be%20explored%20for%20useful%20nuggets.%22):
$80~\%$ du temps consiste en analyse, nettoyage, préparation et visualisation des données
avant même de commencer à les utiliser. Il est à l'origine de l'adage: « Data scientists only work on Friday ».
<!-- #endregion -->

<!-- #region id="59c8768a" -->
## <a id=problèmes-courants-avec-les-données-réelles>Problèmes courants avec les données réelles</a>
<!-- #endregion -->

<!-- #region id="9083729c" -->
- On a rarement assez de données.
- Quel est le pourcentage de données manquantes ou aberrantes ?
- Les données sont bruitées.
- Les données enregistrées par des humains sont sujettes aux erreurs. On les répète régulièrement. *L'erreur est humaine, y persévérer est diabolique!*
- Les données ont souvent des échelles différentes (mm *versus* m, sec *versus* min, etc.)
- Les données peuvent utiliser des systèmes d'unités différents ($^{\circ}C$ *versus* $^{\circ}F$, etc.).
- On ne sait pas trop quelles variables mesurer; on en utilise beaucoup au cas où.

Ainsi, dans la pratique, tout projet qui se respecte doit passer par une étape de collecte et de
prétraitement des données. Cela améliore la cohérence, la fiabilité et la valeur des données.
<!-- #endregion -->

<!-- #region id="c038466b" -->
## <a id=sous-quelle-forme-sont-les-données>Sous quelle forme sont les données?</a>
<!-- #endregion -->

<!-- #region id="b442acc2" -->
Dans cette formation, les variables sont de type tabulaire et non des signaux ou des images.
La figure suivante montre un exemple où chaque ligne correspond à un item (ou une entrée)
$X_{item} = [x_{1}, \cdots, x_{N}]$
et où chaque colonne correspond à une variable mesurée $x_{i}$ sur tous les items.
<!-- #endregion -->

<!-- #region id="81be9cee" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/relational-data.png"  width="400" />
    <div>
    <font size="0.5">Image Source: http://info.blaisepascal.fr/cpge-bases-de-donnees-relationnelles/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="10216eef" -->
## <a id=où-se-font-la-collecte-et-le-prétraitement-des-données>Où se font la collecte et le prétraitement des données?</a>
<!-- #endregion -->

<!-- #region id="494c2fc6" -->
La figure suivante montre un schéma typique de projet en apprentissage automatique.
Les différentes sources de données à traiter sont d'abord colligées (*merged*) afin d'extraire
les variables d'intérêt $X$ à l'état brut (*raw data*). La grande flèche indique l'endroit où le
prétraitement des données est appliqué. L'extraction des caractéristiques (*features*) qui suit est
souvent considérée comme partie intégrante du prétraitement. C'est ce que l'on fait dans ce module.
<!-- #endregion -->

<!-- #region colab_type="text" id="de793dd9" -->

<p>&nbsp;</p>
<div align="center">
    <img src= "../images/cleaning-transform.png"  width="400" />
    <div>
    <font size="0.5">Image Source: https://devopedia.org/machine-learning/</font>
    </div>
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="d0a66fbb" -->
# <a id=la-collecte-et-lévaluation-de-la-qualité-des-données>La collecte et l'évaluation de la qualité des données</a>
<!-- #endregion -->

<!-- #region id="522487d8" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/autumn-cleaning.jpeg"  width="600" />
    <div>
    <font size="0.5">Image Source: https://summerhouse24.co.uk/how-to-prepare-your-garden-house-for-autumn/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region colab_type="text" id="75e74be8" -->
## <a id=collecte-et-colligation--que-regarder->Collecte et colligation : Que regarder ?</a>
<!-- #endregion -->

<!-- #region id="ffab6fe1" -->
### <a id=validité>Validité</a>
<!-- #endregion -->

<!-- #region id="848a5cab" -->
- Existe-t-il une relation directe entre les données mesurées et ce qu'on cherche à prédire à partir d'elles?
- Les données sont-elles extraites des différentes sources de manière appropriée?
- Les personnes qui collectent les données sont-elles qualifiées et bien supervisées?
- Des mesures sont-elles prises pour corriger les données erronées?
- Les problèmes de collecte de données connus ont-ils été correctement évalués?
- Des mesures sont-elles prises pour limiter les erreurs de transcription?
- Les problèmes de qualité des données sont-ils clairement décrits dans les rapports finaux?
<!-- #endregion -->

<!-- #region id="6d1916ff" -->
### <a id=fiabilité>Fiabilité</a>
<!-- #endregion -->

<!-- #region id="30c8ba33" -->
- Un processus cohérent de collecte de données est-il utilisé d'année en année, d'une source à l'autre?
- Existe-t-il des procédures permettant un examen périodique de la collecte, la maintenance et le suivi des données, ainsi que leur documentation par écrit?
<!-- #endregion -->

<!-- #region id="ed8cd9be" -->
### <a id=temporalité>Temporalité</a>
<!-- #endregion -->

<!-- #region id="5453ac86" -->
- Un calendrier de collecte de données régularisé est-il en place pour répondre aux besoins de gestion du programme?
- Les données sont-elles correctement stockées et facilement disponibles?
<!-- #endregion -->

<!-- #region id="325964e6" -->
### <a id=précision>Précision</a>
<!-- #endregion -->

<!-- #region id="02c220a0" -->
Existe-t-il une méthode pour détecter:
- les données en double?
- les données manquantes?
- les données aberrantes?
<!-- #endregion -->

<!-- #region id="8a8c2dbd" -->
### <a id=intégrité>Intégrité</a>
<!-- #endregion -->

<!-- #region id="124b5cb8" -->
- Des mesures de protection appropriées sont-elles en place afin d'empêcher les modifications non autorisées de données?
- Un examen indépendant des résultats rapportés est-il nécessaire?
<!-- #endregion -->

<!-- #region id="f0182204" -->
# <a id=vos-données-sont-elles-cohérentes>Vos données sont-elles cohérentes?</a>
<!-- #endregion -->

<!-- #region id="ea36d50a" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/team-work.png"  width="350" />
    <div>
    <font size="0.5">Image Source: https://www.pngall.com/team-work-png/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region colab_type="text" id="b01b08e3" -->
Regardez vos données. S'il s'agit d'un jeu de données volumineux, examinez les 20 premières lignes,
les 20 dernières, et un échantillon aléatoire de 20 lignes. Vous devriez vous poser les questions suivantes:
<!-- #endregion -->

<!-- #region id="f5653dce" -->
## <a id=les-données-correspondent-elles-à-létiquette-de-la-colonne>Les données correspondent-elles à l'étiquette de la colonne?</a>
<!-- #endregion -->

<!-- #region id="74c9b1ce" -->
Y a-t-il des noms dans les colonnes de noms, des adresses dans les colonnes d'adresses, etc.?
<!-- #endregion -->

<!-- #region id="1a9c0ccd" -->
## <a id=les-données-de-chaque-colonne-respectent-elles-les-règles-appropriées-à-son-champ>Les données de chaque colonne respectent-elles les règles appropriées à son champ?</a>
<!-- #endregion -->

<!-- #region id="14fd0537" -->
Les caractères d'un nom sont-ils uniquement alphabétiques (Brendan) ou contiennent-ils des chiffres (B4rendan)?
La partie numérique d'un numéro de téléphone est-elle de 10 chiffres (5558675309) ou non (675309)? Les
dates sont-elles sous forme Jour-Mois-Année ou Mois-Jour-Année? Utilise-t-on deux ou quatre chiffres pour les années?
<!-- #endregion -->

<!-- #region id="d207ded5" -->
## <a id=les-statistiques-récapitulatives-pour-les-données-numériques-ont-elles-un-sens>Les statistiques récapitulatives pour les données numériques ont-elles un sens?</a>
<!-- #endregion -->

<!-- #region id="196c42c7" -->
Si vous traitez avec des données de temps écoulé, la valeur minimale est-elle négative (- 10 secondes)?
Si vous traitez avec des données de salaire annuel pour les travailleurs en col bleu, la valeur
maximale est elle possible (1 000 000 $)? 

Combien de valeurs nulles? Le nombre de données nulles est-il acceptable?

Combien de valeurs manquantes? Les valeurs manquantes sont-elles indiquées avec des `NaNs` (*not a number*) ou avec des zéros?

Combien de doublons? Les mêmes données ont-elles été enregistrées plus d'une fois?
<!-- #endregion -->

<!-- #region id="4abe106d" -->
# <a id=les-erreurs-communes-à-éviter>Les erreurs communes à éviter</a>
<!-- #endregion -->

<!-- #region id="b1c9f400" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/errors-to-avoid.jpeg"  width="400" />
    <div>
    <font size="0.5">Image Source: https://technofaq.org/posts/2017/02/the-most-common-mistakes-for-affiliate-managers-to-avoid//</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region colab_type="text" id="752c9650" -->
## <a id=préparer-les-données-pour-lanalyse-sans-objectif-clair>Préparer les données pour l'analyse sans objectif clair</a>
<!-- #endregion -->

<!-- #region id="eacc20fc" -->
L'accès à toutes les données du monde est essentiellement inutile sans but précis. Certes, il peut être
intéressant de consulter des tas de données volumineuses, mais pour des raisons de croissance et
d’innovation, des objectifs clairement définis aideront à rationaliser l’analyse. Il est recommandé
de convenir par écrit de ces objectifs pour vous assurer, ainsi que votre équipe, de rester sur la bonne
voie lors de la préparation de vos données pour analyse.
<!-- #endregion -->

<!-- #region id="0ddcbc41" -->
## <a id=déprioriser-la-visualisation-des-données>Déprioriser la visualisation des données</a>
<!-- #endregion -->

<!-- #region id="5c80a914" -->
Lors de la préparation des données pour l’analyse, il est extrêmement facile de se perdre dans les chiffres
sans penser à la présentation finale ni même à la révision de l’analyse des données. La visualisation des
données est importante, car c’est ainsi que vous, votre équipe et les autres explorez et interprétez les données.
Ne vous fiez pas uniquement à des statistiques cumulatives sur les données. Par exemple la moyenne des valeurs
dans une colonne est la même, que les entrées soient mélangées ou non. Par contre, les données mélangées
ne valent plus rien!
<!-- #endregion -->

<!-- #region id="c0eece17" -->
## <a id=ignorer-les-problèmes-hors-du-champ-des-données>Ignorer les problèmes hors du champ des données</a>
<!-- #endregion -->

<!-- #region id="fe0d495a" -->
N'oubliez pas que, dans le monde des données, d'autres mesures allant bien au-delà des chiffres et des performances numériques peuvent parfois être prises en compte. Il peut y avoir des problèmes éthiques, culturels ou philosophiques en jeu qui peuvent prévaloir sur l'analyse de données pure. Soyez sensible à ces points de douleur potentiels pour mieux comprendre comment ils peuvent influer sur vos résultats finaux.
<!-- #endregion -->

<!-- #region id="258cf82c" -->
## <a id=entrer-les-mauvaises-données>Entrer les mauvaises données</a>
<!-- #endregion -->

<!-- #region id="b68b13ec" -->
Il est même possible que vous commettiez une erreur lors de la saisie des données de base. La saisie
d'informations dans la mauvaise ligne, ou colonne, ou l'ajout d'un zéro accidentel à la fin d'un nombre
sont toutes des erreurs humaines incroyablement courantes.
Attention également aux échelles utilisées: mm, cm, m, km, etc. Il faut être consistant et utiliser la
même échelle dans une colonne donnée. Lorsqu'il s'agit d'analyser des données, tout processus minimisant
le risque d'erreur humaine est extrêmement positif. Testez une procédure sur un sous-ensemble des données
et automatisez-la.
<!-- #endregion -->

<!-- #region id="d484272b" -->
## <a id=analyser-une-population-trop-petite>Analyser une population (trop) petite</a>
<!-- #endregion -->

<!-- #region id="76f5a967" -->
Il n'y a rien de mal à élaborer des analyses pour une petite population. Toutefois, il est important de savoir
que les données risquent de ne pas fournir autant d’informations utiles que si votre population était plus
nombreuse. Les populations plus petites tendent à produire plus de personnes aberrantes sans suffisamment de
corrélations pour discerner ce qui se passe réellement.
<!-- #endregion -->

<!-- #region id="cac26dd1" -->
## <a id=normes-de-nommage-incohérentes-ou-confuses>Normes de nommage incohérentes ou confuses</a>
<!-- #endregion -->

<!-- #region id="4c195a99" -->
Dès le départ, l'organisation et la cohérence sont essentielles lors de la préparation des données pour
l'analyse. Si vos conventions de dénomination sont légèrement différentes, vos données sont potentiellement
très problématiques. Assurez-vous de mettre en place, dès le début, une convention de noms de variables
simplifiée et partagée par tous. Utilisez des termes clairs et qui auront du sens pour ceux avec qui vous
envisagez de partager votre analyse. Évitez les Test1, Test2, Temp1, Temp2, etc.
<!-- #endregion -->

<!-- #region id="afcdc091" -->
## <a id=attention-à-la-duplication>Attention à la duplication!</a>
<!-- #endregion -->

<!-- #region id="a0b94830" -->
Cela peut sembler une évidence, mais la duplication est une erreur plutôt commune lors de la préparation
des données pour l'analyse. Dupliquer même une infime entrée faussera vos données de manière imprécise,
entraînant des prévisions corrompues ou une prise de décision médiocre.
<!-- #endregion -->

<!-- #region id="93ac5d6c" -->
## <a id=analyse-des-données-altérées>Analyse des données altérées</a>
<!-- #endregion -->

<!-- #region id="514a5763" -->
Vous avez besoin de données propres. Le nettoyage des données peut prendre du temps. Nous avons déjà
discuté de la nécessité d'éviter les données en double, mais nous suggérons également d'éliminer les
données aberrantes, les données incorrectes, les données manquantes ou les données dépourvues de logique.
<!-- #endregion -->

<!-- #region id="ca1a8b85" -->
## <a id=influx-de-données-hétéroclites>Influx de données hétéroclites</a>
<!-- #endregion -->

<!-- #region id="6c33010f" -->
Si vous travaillez avec un ensemble de données volumineux, des informations vous parviendront
probablement de différentes sources. Assurez-vous que votre pipeline de préparation extrait des
données de sources appropriées et que ces données sont compatibles avec lui.
<!-- #endregion -->

<!-- #region id="e9be3244" -->
## <a id=utilisation-de-données-obsolètes>Utilisation de données obsolètes</a>
<!-- #endregion -->

<!-- #region id="757801ae" -->
L’utilisation de données obsolètes peut se produire en cas de problème d’intégration ou de saisie de
votre source de données. Portez une attention particulière aux délais si vous êtes
chargé d’examiner des données en temps réel.
<!-- #endregion -->

<!-- #region id="8cc58863" -->
# <a id=les-étapes-du-prétraitement-des-données>Les étapes du prétraitement des données</a>
<!-- #endregion -->

<!-- #region id="8698f2c3" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/process-steps.png"  width="200" />
    <div>
    <font size="0.5">Image Source: https://tscpl.org/uncategorized/research/build-a-solid-foundation-for-your-small-business/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="b059c56e" tags=["no-update"] -->
Plusieurs des problèmes mentionnés précédemment sont corrigés lors du prétraitement des données. Celui-ci se
déroule en plusieurs étapes bien séparées dont les principales sont mentionnées ci-dessous. Chacune est
expliquée, exemples à l'appui, dans les modules qui suivent:


- le nettoyage et les aberrations statistiques,
- l'imputation de données manquantes,
- l'équilibrage des données déséquilibrées,
- la transformation des données,
- la réduction de la dimensionnalité et la création de caractéristiques,
- la génération d'un jeu de données à partir de similarités entre des observations, et
- la conception d'un pipeline de prétraitement des données.
<!-- #endregion -->
