# _Module 1 leçon 1_: Structurer et organiser des données désordonnées à l'aide d'un tableur

<div class="alert alert-block alert-warning">
    <b>A la fin de la formation, vous pourrez:</b>
    <br>
    <ul>
        <li> Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données exploitables par une machine.</li>
        <li> Utiliser Excel pour étudier et manipuler des données sources afin de comprendre leurs métadonnées, leur forme et leur robustesse.</li>
        <li>Apprendre et appliquer un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV exploitable par une machine en utilisant Microsoft Excel.</li>
    </ul>
</div>

---

## 1.1 Introduction

L'objectif de ce programme de formation en _Analyse et validation de données ouvertes_ est de guider les participants et les aider à fournir des données techniquement ouvertes : des données bien structurées, exploitables par une machine, validées selon un schéma de métadonnées défini et standard.

#### 1.2 Le cycle de vie de la gestion des données

Si le processus de création, de maintenance et d'exploitation de nouvelles données est souvent présenté comme un cycle, il s'agit plutôt d'une spirale. Chaque cycle monte en spirale, et donne lieu à plus d'informations. Cependant, l'efficacité de chaque étape est définie par les besoins de ses utilisateurs, et sa pertinence par rapport au processus ou aux événements qu'elle reflète.

![Cycle de vie des données](images/data-lifecycle-fr.jpg)

### 1.2.3 Collecte et création

Avant de pouvoir collecter des données, il faut connaître toute une série de choses :

- pourquoi collectons-nous les données ?
- à quoi servent-elles ?
- avons-nous le consentement et/ou l'autorisation légale de collecter ces données ?
- existe-t-il une série de données existantes que ces données complètent ou élargissent ?
- comment les données seront-elles collectées ?
- qui sera responsable de la qualité des données et comment cette qualité sera-t-elle mesurée ?
- qui aura accès aux données et quel est le degré de sensibilité de ces données (par exemple, identification personnelle) ?
- utilisons-nous une classification ou un format de métadonnées standardisé et convenu ?

### 1.2.4 Classification et traitement

Le créateur des données est le mieux placé pour savoir de quoi il s'agit et devrait attribuer des mots-clés comme descripteurs. Ces données sur les données sont appelées métadonnées. Le terme est ambigu, car il est utilisé pour deux concepts fondamentalement différents :
 
- __Les métadonnées structurelles__ correspondent aux métadonnées internes (c'est-à-dire les métadonnées concernant la structure des objets de la base de données tels que les tables, les colonnes, les clés et les index) ;
- __Les métadonnées descriptives__, qui correspondent à des métadonnées externes. (c'est-à-dire des métadonnées typiquement utilisées pour la découverte et l'identification, comme des informations utilisées pour rechercher et localiser un objet tel que le titre, l'auteur, les sujets, les mots clés, l'éditeur) ;
 
Les métadonnées descriptives permettent la découverte de l'objet. Les métadonnées structurelles permettent d'appliquer, d'interpréter, d'analyser, de restructurer les données et de les relier à d'autres ensembles de données similaires.
 
Les métadonnées peuvent permettre l'interopérabilité entre différents systèmes. Une structure convenue pour interroger la "fiabilité" d'une série de données peut permettre à des systèmes logiciels indépendants de trouver et d'utiliser des données à distance.
 
Au-delà des métadonnées, il existe également des mécanismes permettant de structurer les relations entre les hiérarchies de mots clés. Ces mécanismes sont connus sous le nom d'ontologies et, avec les métadonnées, peuvent être utilisés pour définir avec précision et permettre la découverte de données.
 
L'ajout de métadonnées aux ressources de données existantes peut être un processus coûteux et exigeant en main-d'œuvre. Cela peut devenir un obstacle à la mise en œuvre d'un système complet de gestion des connaissances.

Les types de métadonnées descriptives que nous devrions inclure (et les termes que nous devrions utiliser pour les désigner) :

| OBLIGATOIRE              | RECOMMANDÉ               | FACULTATIF               |
|:-------------------------|:-------------------------|:-------------------------|
| Titre                    | Tag(s)                   | Dernière mise à jour     |
| Description              | Conditions d'utilisation | Fréquence de mise à jour |
| Thème(s)                 | Courriel de contact      | Couverture géographique  |
| Organisme de publication |                          | Couverture temporelle    |
|                          |                          | Validité                 |
|                          |                          | Ressources connexes      |
|                          |                          | Règlements               |

### 1.2.5 Manipulation, conversion ou altération

Cette partie du processus est celle où les données sont transcrites, traduites, vérifiées, validées, nettoyées et gérées.

C'est ce qui présente le plus grand risque pour la cohérence des données. Tout changement de format ou toute manipulation, ou même la copie d'un fichier d'un système à un autre, introduit un risque de corruption des données. De même, cela augmente également le risque que des données - qu'elles soient erronées ou non - soient accidentellement communiquées aux utilisateurs ou au public avant qu'elles ne soient prêtes.

C'est ce que l'on appelle le __data wrangling__ ou préparation des données (il n'y a pas de traduction parfaite pour ce terme et vous le retrouverez souvent sous forme anglaise).

### 1.2.6 Analyse et présentation

L'analyse ne fait peut-être pas toujours partie du rôle du gestionnaire des données, mais c'est certainement la raison pour laquelle les données sont collectées.

C'est là que les données sont interprétées, combinées à d'autres ensembles de données pour produire une méta-analyse, et que l'analyse devient l'histoire que vous souhaitez raconter à partir des données.

La qualité de l'histoire dépend de celle de vos données et la recherche n'est considérée comme valable que si les données qui l'alimentent sont également publiées.

L'objectif de l'analyse est d'informer le comportement collectif ou individuel, d'influencer la politique ou de soutenir l'activité économique, parmi beaucoup d'autres. La confiance peut être obtenue en "montrant votre fonctionnement" (c'est à dire comment vous avez analysé les données), ce qui inclut la publication des données.

### 1.2.7 Préservation et stockage

Les données doivent être préservées de la corruption et être disponibles pour une utilisation ultérieure une fois l'analyse initiale terminée. Il est également nécessaire de préserver les données en cas de questions concernant l'analyse.

Le stockage à long terme exige que les __métadonnées__ soient bien définies et soient vraiment utiles pour garantir que la compréhension de ce que les données décrivent est encore possible longtemps après leur collecte initiale.

Les données peuvent finir par être stockées dans plusieurs formats ou sur plusieurs systèmes. Il est essentiel que la primauté soit établie (c'est-à-dire quel ensemble de données est la version originale et prime sur les autres) et que les différents formats soient maintenus en alignement.

### 1.2.8 Publication et accès

Même lorsque les données ne sont diffusées qu'au sein du gouvernement ou d'une organisation - et non pour le public - il y aura toujours d'autres personnes qui voudront utiliser vos données, ou qui en tireront profit si elles savent qu'elles existent. La plus grande inefficacité dans la gestion des données survient lorsque la recherche est répétée parce qu'un autre ministère, un autre département, une autre équipe de l'organisation a besoin des mêmes données sans savoir qu'elles existent déjà.

La diffusion ne consiste pas simplement à mettre les données à la disposition du public, mais aussi à créer un processus prévisible pour cette diffusion.

Les données régulièrement collectées (comme les taux d'inflation) ont besoin d'un cycle de diffusion prévisible, car de nombreuses entreprises fondent leurs décisions d'investissement sur la disponibilité de ces informations.

Publier un calendrier de diffusion pour vos consomateurs de données (et s'y tenir) leur permet de planifier leur propre analyse, ou de réagir à votre analyse.

L'accès implique que vous ayez besoin d'une base de données centralisée qui soit accessible à vos utilisateur. Dans le cas de données ouvertes, comment les données seront-elles déplacées des serveurs internes vers un dépôt public ?

La responsabilité de ce processus doit être attribuée et mesurée.

### 1.2.9 Conservation et réutilisation

Une fois les données publiées, la question se pose de savoir pendant combien de temps elles seront disponibles. Les données de recherche devraient, en règle générale, être disponibles à perpétuité.

Les données chronologiques sont d'autant plus utiles qu'elles ont été collectées longtemps. La suppression soudaine de données peut provoquer d'énormes perturbations.

Si des systèmes et un soutien appropriés n'ont pas été mis en place, la conservation peut devenir un problème très coûteux.

Il est important, pour favoriser la réutilisation, de définir clairement les droits d'auteur et les licences qui permettent de réutiliser librement les données à n'importe quelle fin.

### 1.2.10 Archivage

Les ensembles de données peuvent devenir très volumineux et ne peuvent être consultés que rarement. Cela peut devenir problématique pour le stockage à long terme.

Un processus d'archivage - où les données peuvent être stockées à moindre coût tout en restant accessibles - peut devoir être envisagé.

<div class="alert alert-block alert-danger">
    <b>Actions:</b>
    <br>
    <ul>
        <li>S'assurer qu'il y a un propriétaire des données qui est responsable du cycle de vie des données, y compris de leur publication et de la réponse aux commentaires ou aux questions;</li>
        <li>Préparer un plan de collecte de données, en veillant à ce que les définitions et la structure des données soient conformes aux normes internationales;</li>
        <li>S'assurer que les métadonnées sont convenues avec les parties prenantes et qu'elles sont utiles et normalisées;</li>
        <li>S'assurer que les données font l'objet d'une licence appropriée pour garantir leur diffusion et leur réutilisation;</li>
    </ul>
</div>

<div class="alert alert-block alert-info">
    <b>Références:</b>
    <br>
    <ul>
        <li><a href="http://www.bu.edu/datamanagement/background/data-life-cycle/">Cycle de vie des données de l'université de Boston</a></li>
        <li><a href="http://searchsecurity.techtarget.com/magazineContent/Data-Lifecycle-Management-Model-Shows-Risks-and-Integrated-Data-Flow">Tech Target Data Lifecycle Management</a></li>
        <li><a href="http://en.wikipedia.org/wiki/Dublin_Core">Norme de métadonnées de Dublin Core</a></li>
        <li><a href="http://www.w3.org/TR/vocab-dcat/">Norme de métadonnées DCAT</a></li>
        <li><a href="http://en.wikipedia.org/wiki/Seven_Basic_Tools_of_Quality">Sept outils de base de qualité</a></li>
    </ul>
</div>

---

## 1.3 Préparation de données et préparation de la publication

Il existe un certain nombre de formats communs pour la distribution des données. Certains sont considérés comme "ouverts" (tels que CSV, XML, texte et autres) et d'autres comme propriétaires (SAS, STATA, SPSS, etc.). XLS et XLSX, associés à Microsoft Excel, sont des formats relativement ouverts et un certain nombre de systèmes logiciels peuvent interpréter les données.
 
Les formats propriétaires sont légitimes, même dans le cadre d'une initiative de données ouvertes, car ce sont les systèmes logiciels utilisés par de nombreux utilisateurs professionnels de données. Cependant, comme ces formats ne sont souvent pas interopérables, le potentiel de réutilisation des données est limité, à moins que les formats ouverts ne soient également pris en charge. La diffusion de données dans des formats propriétaires n'exclut pas la diffusion dans des formats ouverts et vice versa.

Les tableurs et les systèmes de données distribués ne disposent souvent pas d'une structure de données convenue. Un chercheur qui souhaite combiner ces données avec d'autres données doit d'abord les normaliser, puis décider de termes normalisés pour définir les colonnes et les types de données dans ces colonnes.

![Un tableau de données structuré "lisible par l'homme" typique](images/01-01-human-readable-data.jpg)

La conversion de données tabulaires semi-structurées en un format typique exploitable par une machine donne le fichier CSV (comma-separated-value en français données séparées par des virgules). Ce sont des fichiers tabulaires avec une ligne d'en-tête qui définit chacune des données dans les colonnes et lignes ci-dessous.

![Un tableau de données structuré en CSV](images/01-01-machine-readable-data.jpg)

Sans tenir compte du respect d'autres normes, les fichiers CSV peuvent être organisés de telle sorte qu'ils soient "joints" sur une colonne commune. Par exemple, un ensemble de coordonnées géospatiales peut être utilisé pour relier plusieurs fichiers similaires couvrant différentes séries de données.

### 1.3.1 Considérations relatives aux feuilles de calcul exploitables par une machine

Data.gov dispose d'un [Abécédaire de la lisibilité des documents et données en ligne](https://www.data.gov/developers/blog/primer-machine-readability-online-documents-and-data) et un fil de discussion sur Data.gov.uk propose les conseils suivants :

- Un demandeur peut ouvrir le fichier de données dans des progiciels gratuits et largement accessibles - cela signifie que des formats tels que CSV doivent être préférés ou proposés en plus de formats tels qu'Excel, et que les formats propriétaires qui ne peuvent être ouverts qu'avec des logiciels commerciaux ou spécialisés doivent être évités. 
- Il est possible de traiter les données directement, en y effectuant toutes les opérations appropriées telles que le tri des colonnes, le filtrage des lignes, l'exécution d'agrégats de valeurs - cela nécessite des données bien structurées. Dans la mesure du possible, la signification des données ne doit pas être contenue dans la présentation. 
- Les éléments communs de l'ensemble de données sont exprimés de manière uniforme - par exemple, les dates sont toujours dans le même format, les codes ou les noms sont toujours dans le même cas, et les nombres sont exprimés de manière cohérente (par exemple 1,000 ou 1000 mais pas un mélange des deux). 
- La signification des champs et des valeurs est clairement documentée - soit par une désignation claire des champs, soit par des descriptions accompagnant les données.  

En outre, dans la mesure du possible, l'exploitabilité par une machine est améliorée si :

- L'ensemble de données utilise des normes communes lorsqu'elles existent - y compris des identificateurs et des noms de champs standard. Il peut s'agir de normes telles que le vocabulaire des dépenses publiques développé pour le gouvernement, ou de normes tierces telles que KML pour l'indication des "points d'intérêt".

Il est également important de noter qu'il peut être possible de fournir des données dans divers formats exploitables par une machine et, dans la mesure du possible, le fournisseur de données doit échanger avec les réutilisateurs pour identifier le meilleur format. Par exemple, les points d'intérêt pourraient être fournis sous forme de feuille de calcul CSV ou KML. L'idéal serait que les deux soient fournis : toutefois, selon le contexte et le réutilisateur, l'un peut être plus approprié que l'autre. 
  
### 1.3.2 Données _longues_ et données _larges_

Toute série de données est constituée de valeurs numériques (généralement) décrites par des termes de métadonnées normalisés (temps, zone, description spécifique, etc.). Il y a deux façons principales de présenter ces données lisibles par machine, qui peuvent être résumées en _largeur_ ou _longueur_. Vous devez faire un choix délibéré quant au format que vous choisirez, et chacun a ses propres forces et faiblesses :

- __Les données larges__ présentent des données numériques en plusieurs colonnes. Soit sous forme de catégories (par exemple, chaque pays est présenté dans sa propre colonne), soit par date (par exemple, chaque mise à jour annuelle donne lieu à une nouvelle colonne). Les nouvelles données traversent l'écran de gauche à droite :

![Données larges](images/01-01-wide-data.jpg)

__Les données larges__ sont souvent utilisés pour la visualisation et le traitement des données, car les données peuvent facilement être regroupées dans les axes nécessaires aux bibliothèques de cartes. Cependant, il s'agit d'un format d'archivage difficile car la mise à jour d'une telle série de données nécessite l'équivalent de la création d'un nouveau champ (le _année_ dans les champs ci-dessus) et ensuite la mise à jour de chaque ligne avec les informations appropriées. Cela peut être une opération coûteuse dans une grande base de données, et signifie également que l'écriture d'une méthode programmatique pour interroger vos données est plus difficile.

- __Les données longues__ présente les données numériques sur plusieurs lignes avec une seule colonne pour les valeurs. Les nouvelles données descendent l'écran de haut en bas :

![Données longues](images/01-01-narrow-data.jpg)

__Les données longues__ sont les meilleures pour l'archivage et pour représenter la structure que vous trouverez habituellement dans une base de données. Chaque ligne d'une _longue_ série de données représente une ligne dans une base de données. L'ajout de nouvelles informations est relativement simple puisque vous ne devez mettre à jour qu'une seule ligne à la fois. En termes de base de données, vous créez une seule entrée de base de données.

<div class="alert alert-block alert-warning">
    <p>La préférence dans la publication de données ouvertes est pour le format <b>long</b>, et ce sera la méthode habituellement recommandée pour la publication. Cela dit, la conversion entre ces deux formats - pour autant que les données soient exploitables par une machine avec des métadonnées bien définies - est simple.
</div>

### 1.3.3 Définir les métadonnées et le schéma de destination

La création d'un `schéma` est la première partie du processus de préparation des données. Votre schéma définit la structure cible de métadonnées pour votre processus de préparation. Ce n'est pas le format dans lequel vos données d'entrée arrivent, mais c'est ce à quoi vous voulez qu'elle ressemble quand vous avez terminé.

Votre schéma définit les exigences, les contraintes et les valeurs par défaut raisonnables disponibles pour la saisie de données dans les champs définis par le schéma. Une fois terminé, vous devrez procéder à un nettoyage et à une validation supplémentaires.

En termes simples, les colonnes d'un fichier CSV ou Excel d'entrée seront restructurées en de nouvelles colonnes définies par les champs de votre schéma. Ces champs cibles sont susceptibles d'être ceux d'une base de données. Tant que vos données d'entrée ne sont pas conformes à cette structure, vos données ne doivent pas être publiées en tant que données ouvertes.

Nous utiliserons les définitions et le schéma de [Frictionless Data](https://specs.frictionlessdata.io/table-schema/#field-descriptors) pour définir les champs de métadonnées structurelles. 

#### ___`type` et `format`___

Le `type` définit le type de données du champ, tandis que le `format` affine les propriétés spécifiques du `type`. Ce sont les types de base que vous êtes susceptible d'utiliser, avec des indentations pour les formats :

- `string` : toute chaîne basée sur du texte.
  - `default` : toute chaîne de caractères
  - `email` : une adresse électronique
  - `uri` : toute adresse web / URI
- `number` : toute valeur basée sur un nombre, y compris les nombres entiers et les nombres flottants.
- `integer` : toute valeur basée sur un nombre entier.
- `boolean`: une valeur booléenne [`true`, `false`]. Peut définir des contraintes de catégorie pour fixer le terme utilisé.
- `object` : toute donnée JSON valide.
- `array` : toute donnée valide basée sur un tableau.
- `date` : toute date sans heure. Doit être au format ISO8601, `YYYY-MM-DD`.
- `datetime` : toute date avec une heure. Doit être au format ISO8601, avec l'heure UTC spécifiée (en option) comme `AAAA-MM-JJ hh:mm:ss Zz`.
- `year` : toute année, formatée comme `YYYY`.

#### ___ `schéma` design___

Consultez les données ouvertes présentées sur le site [Données hospitalières relatives à l'épidémie de COVID-19](https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/). Prévisualisez le fichier de schéma des métadonnées pour l'hospitalisation :

![Métadonnées structurelles sur l'hospitalisation](images/01-01-structural-metadata-covid-hospitalisation.jpg)

Le premier terme de chaque ligne définit le nom de la colonne de destination (les termes des métadonnées structurelles), ainsi que son type de données, les descriptions en anglais et en français et un exemple de valeur attendue pour ce champ.

Avant de commencer à restructurer des fichiers de données désordonnés, créez une telle définition de métadonnées structurelles pour vos données. Et la première chose à faire lorsque vous commencez est simplement de regarder vos données et de comprendre comment elles sont actuellement structurées. L'objectif que vous poursuivez en passant de données désordonnées à des données structurées est simple :

 Préserver tout ce qui est connu de vos données sources lorsque vous les restructurez.

Voici un résumé de ces exigences en matière de conception de schémas :

- Etablir une convention standard pour nommer les champs de colonnes, et s'y tenir ; la convention se réfère à la structure physique du mot, comme `startDate` ou `place_name`. Une convention est `casCamel`, une autre est `séparation_substantielle`. Ne les mélangez pas car c'est frustrant pour les utilisateurs.
- Chaque valeur de chaque colonne de chaque table ne doit représenter qu'une seule chose ; si vous regardez la colonne `région` ci-dessous, vous verrez qu'elle doit être divisée en deux colonnes séparées, `région` et `district`, pour la Côte d'Ivoire :

| description | région                   | année | valeur    |
|:------------|:-------------------------|:------|:----------|
| Population  | Gbôklé, Bas-Sassandra    | 2014  | 400,798   |
| Population  | Nawa, Bas-Sassandra      | 2014  | 1,053,084 |
| Population  | San-Pédro, Bas-Sassandra | 2014  | 826,666   |
| Population  | Indénié-Djuablin, Comoé  | 2014  | 560,432   |
| Population  | Sud-Comoé, Comoé         | 2014  | 642,620   |

- Définissez le `type`, le `format` et la `définition` pour chaque nom de colonne ; la définition du schéma ci-dessous est la forme __longues__. Si chaque `année` avait sa propre colonne, vous auriez alors - au lieu de `année` - une ligne pour `2014`, alors la prochaine version pourrait inclure `2016` et ainsi de suite. Vous pouvez voir que la mise à jour simultanée des données et du schéma représente plus de travail pour vous et vos utilisateurs que la simple mise à jour des données :

| colonne     | type             | description                                      | exemple    |
|:------------|:-----------------|:-------------------------------------------------|:-----------|
| description | string           | Définition de la série de données démographiques | Population |
| région      | string           | Nom d'une des 31 régions de Côte d'Ivoire        | Sud-Comoé  |
| district    | string           | Nom d'un des 14 districts de la Côte d'Ivoire    | Comoé      |
| année       | date             | L'année de la série de données                   | 2014       |
| valeur      | integer          | La valeur pour la série de donnée                | 560432     |

Il existe des exigences supplémentaires pour valider vos données - par exemple, noter que les virgules entre les chiffres doivent être supprimées - et nous allons les passer en revue ci-dessous.

#### ___Conception de `métadonnées descriptives`___

Avant de commencer à débattre de nos données, nous devrions d'abord examiner le tableau suivant des termes formels qui décrivent les données :

| OBLIGATOIRE              | RECOMMANDÉ               | FACULTATIF               |
|:-------------------------|:-------------------------|:-------------------------|
| Titre                    | Tag(s)                   | Dernière mise à jour     |
| Description              | Conditions d'utilisation | Fréquence de mise à jour |
| Thème(s)                 | Courriel de contact      | Couverture géographique  |
| Organisme de publication |                          | Couverture temporelle    |
|                          |                          | Validité                 |
|                          |                          | Ressources connexes      |
|                          |                          | Règlements               |

Ce sont les définitions et les termes de haut niveau pour décrire les données que vous restructurez. Une personne qui ouvre une feuille de calcul a très peu de contexte quant à ce qu'elle lit, et ces métadonnées fournissent un contexte bien nécessaire.

La prochaine étape consiste à commencer à restructurer vos données désordonnées pour les rendre conformes au schéma que vous venez de créer.

### 1.3.4 Les habitudes qui rendent les feuilles de calcul inutilisables

Dans son excellent essai [The Art of Spreadsheets] (http://john.raffensperger.org/ArtOfTheSpreadsheet/Chapter09_ShowAllTheInformation.html) John Raffensperger énumère 37 façons de cacher des données dans un tableur. En voici 10 :

- Ne pas partager le fichier. C'est la façon la plus courante de cacher des informations, et la plus efficace.
- Cacher la feuille. Il vous faut donc d'abord au moins deux feuilles : Format, Feuille, Cacher.
- Cachez la ligne : Format, Rangée, Cacher.
- Cachez la colonne : Formater, Colonne, Cacher.
- Cacher la cellule et protéger la feuille : Format, Cellules, Protection, Caché, puis Outils, Protection. Ceci affiche un écran, mais cache la formule : =if(1, "Paix !", "Attaque à l'aube.").
- Rendre la colonne trop étroite : Format, Colonne, Largeur, 0.
- Pour les formules susceptibles d'être nulles, utilisez Outils, Options, Affichage et désactivez la case des valeurs nulles. Par exemple : =IF(1, 0, "Attaque à l'aube.").
- Utilisez une formule qui renvoie un blanc : =IF(1, " ", "Attaque à l'aube.").
- Créez une formule compliquée qui affiche les informations, mais formatez-les sous forme de texte (avec Format, Cellules, Nombre, Texte, ou commencez simplement la cellule par un simple guillemet), de sorte que la formule soit affichée plutôt que la sortie.
- Formatez la police avec Wingdings : Format, Cells, Font, Wingdings. Cela permet d'afficher des caractères inintelligibles.

<div class="alert alert-block alert-success">
    <b>Exercice:</b>
    <br>
    <p><a href="https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/">Santé publique France</a> produit des mises à jour quotidiennes des données d'hospitalisation COVID-19 de la France. En vous inspirant de la liste de John Raffensperger, votre tâche consiste à brouiller autant que possible les données <a href="https://www.data.gouv.fr/fr/datasets/r/63352e38-d353-4b54-bfd1-f1b3ee1cabd7">donnees-hospitalieres-covid19.csv</a>.
    <p>Les notes seront attribuées pour:</p>
    <ul>
        <li> en rendant la présentation juste assez mauvaise pour que quelqu'un qui utilise les données soit tenté de penser qu'il peut encore les utiliser !
        <li> l'utilisation d'effets de couleurs et de polices de caractères d'une manière qui offense vraiment l'œil</li>
        <li> ingéniosité pour cacher des données à la vue de tous.</li>
    </ul>
</div>

### 1.3.5 Utiliser Excel pour nettoyer les données  désordonnées

Excel est l'un des logiciels les plus puissants utilisés par les analystes ordinaires (non développeurs de logiciels), et probablement l'outil de gestion et d'analyse de données le plus répandu dans le monde.

Excel peut vous permettre de faire tout ce qui suit :

- Supprimer les enregistrements en double
- Séparer les valeurs multiples contenues dans le même champ
- Analyser la distribution des valeurs dans un ensemble de données
- Regrouper les différentes représentations d'une même réalité

Un guide simple, étape par étape, pour la préparation et le nettoyage des données :

- __Créer le fichier de données__ avec de nouvelles feuilles de travail pour chacune d'entre elles : Données originales | Données intermédiaires | Données finales
- __Nettoyer les données__ :
  - Créez une colonne ID reliant vos OriginalData à vos InterimData pour garder la trace des lignes supprimées ;
  - Gérer les enregistrements en double en créant une clé de recherche qui doit identifier chaque ligne de manière unique ; Excel peut trier sur cette ligne et supprimer les doublons ;
  - Supprimer les caractères indésirables (rechercher/remplacer) ;
  - Repérer les valeurs hors limites (c'est-à-dire les valeurs qui ne sont pas ce qu'elles devraient être) ;
  - Supprimer toute donnée non publiable (comme les informations personnelles ou toute donnée non approuvée pour la publication) ;
- __Traiter les données__ :
  - analyser les données (par exemple, en utilisant la méthode du texte en colonnes et en les séparant par des espaces ou des tabulations) ;
  - Recoder les données (pour convertir les termes en métadonnées normalisées) ;
  - Calculer de nouvelles valeurs (comme des totaux ou des moyennes) ;
  - Reformater les données dans un format standardisé ;
- __Créer une copie des données prête__ pour l'analyse en copiant les InterimData non formatées dans les FinalData et en supprimant les colonnes inutiles ;
- __Documenter les données__ :
  - Documentation au niveau du fichier, telle que le projet, la date d'achèvement, vérifiée par ;
  - Produire un fichier texte qui accompagne le fichier de données et qui comporte : description, date de production, propriétaire des données, etc. (à partir des métadonnées décrites dans l'étape de classification et de traitement) ;

<div class="alert alert-block alert-info">
    <b>Tutoriels et références:</b>
    <br>
    <ul>
        <li><a href="http://blog.ouseful.info/2012/11/27/when-machine-readable-data-still-causes-issues-wrangling-dates/">Quand les données lisibles par machine posent encore des "problèmes" - Les dates de dispute...</a></li>
        <li><a href="http://www.opendataimpacts.net/2012/11/more-than-csv/">Paysages numériques : des données ouvertes efficaces nécessitent plus qu'un simple CSV</a></li>
        <li><a href="https://blog.datawrapper.de/prepare-and-clean-up-data-for-data-visualization/">Comment préparer vos données pour l'analyse et les graphiques dans Excel & Google Sheets</a></li>
        <li><a href="https://support.office.com/en-us/article/Top-ten-ways-to-clean-your-data-2844b620-677c-47a7-ac3e-c2e157d1db19">Top dix façons de nettoyer vos données</a></li>
        <li><a href="https://www.mikealche.com/software-development/a-humble-guide-to-database-schema-design">Un guide pour la conception de schémas de bases de données</a></li>
    </ul>
</div>

## 1.4 Exemple de préparation de données

L'exemple suivant a été écrit par [Lisa Charlotte Rost @ Datawrapper.de](https://blog.datawrapper.de/prepare-and-clean-up-data-for-data-visualization/) et est utilisé avec son autorisation. Il a été légèrement modifié pour être conforme à l'approche adoptée dans ce cours. Il s'agit d'un exemple relativement simple, mais qui vous guidera à travers les principaux défis que vous rencontrerez.

Le tutoriel travaillé utilise des données de la [Banque mondiale](https://data.worldbank.org/indicator/SP.URB.TOTL?view=chart). Un lien vers les métadonnées ouvre la fénêtre suivante :

![Série de données sur la population urbaine](images/01-01-urban-data-descriptive-metadata.jpg)

### 1.4.1 Examiner les données

Téléchargez [cet ensemble de données](data/lesson-programmatic/API_SP.URB.TOTL_DS2_en_excel_v2_1220103.xls) et consultez la fiche principale.

![données de base sur la population urbaine](images/full-181101_excel1.png)

Lorsque vous téléchargez un fichier Excel, il comporte souvent plusieurs feuilles. Notre ensemble de données en comporte trois, comme on peut le voir en bas : "Données", "Métadonnées - Pays" et "Métadonnées - Indicateurs". Regardez toutes vos feuilles et assurez-vous que vous comprenez ce que vous y voyez. Les en-têtes, le nom du fichier et/ou les données elles-mêmes indiquent-ils que vous avez téléchargé le bon fichier ? Y a-t-il des notes de bas de page ? Que vous disent-elles ? Que vous avez peut-être affaire à de nombreuses estimations ? (Cela signifie-t-il peut-être que vous devez chercher d'autres données ?) Si vous ne trouvez pas de notes dans les données, assurez-vous de les chercher sur le site web de votre source.

Notre exemple de données semble correct. Il n'y a pas d'estimations dont nous devrions nous préoccuper. Et nous obtenons une belle explication de la "population urbaine" dans les "Métadonnées - Indicateurs", qui commence par "La population urbaine se réfère aux personnes vivant dans des zones urbaines telles que définies par les bureaux nationaux de statistiques...". Génial ! C'est quelque chose que nous pouvons mentionner dans notre tableau plus tard.

### 1.4.2 Renommer votre fichier

Maintenant que nous savons à quoi nous avons affaire, assurons-nous de le faire encore dans six mois. "API_SP.URB.TOTL_DS2_fr_excel_v2_318520 ! Oui ! Je sais exactement de quoi il s'agit": vous ne trouverez personne qui dira jamais une chose pareille sauf peut-être trois employés en tout à la Banque mondiale.) Alors renommons ce fichier en quelque chose de mémorisable et de précis : Banque mondiale_population_urbaine_par-pays, par exemple.

### 1.4.3 Dupliquer la ou les fiches de données et ne plus jamais y toucher

C'est l'une des parties les plus importantes de l'ensemble du processus : Avant de modifier quoi que ce soit dans les données, dupliquez votre feuille de données dans le même fichier.

Pensez à renommer vos deux feuilles, par exemple en "Données brutes" et "Données" ou en "Données - original" et "Données - modifié". Si vous avez un énorme fichier Excel avec beaucoup de feuilles, vous pouvez également créer un fichier de sauvegarde du document original et le stocker dans un dossier "source".

Pourquoi devriez-vous faire cela ? Parce que vous allez modifier considérablement les données. J'ai appris à mes dépends que je modifie toujours les données plus que je ne n'anticipe!. "Je n'ai pas besoin de copier les données cette fois-ci." Je pense. "Je veux seulement les nettoyer un peu ; je ne supprimerai rien d'important." Deux heures passent... et j'ai besoin de télécharger à nouveau les données à partir de leur source originale parce que, oh oui, j'ai supprimé cette colonne maintenant importante il y a une heure. Apprenez de mes erreurs, gagnez beaucoup de temps et ne modifiez jamais les données originales.

### 1.4.4 Enregistrez votre source dans une feuille supplémentaire

Cette astuce vous donnera également envie de vous taper sur l'épaule et de dire "Merci" : Créez une nouvelle feuille, nommez-la "Source" et ajoutez des liens vers toutes les sources de données que vous utilisez dans votre document. (Et oui, vous obtenez des points bonus pour avoir ajouté la date de téléchargement du fichier - au cas où).

### 1.4.5 Supprimer tout ce qui se trouve au-dessus de l'en-tête

Les fichiers Excel contiennent souvent des informations dans des lignes supplémentaires au-dessus des données réelles. Dans notre cas, de sympathiques employés de la Banque mondiale veulent nous faire savoir que la source des données est les "Indicateurs du développement dans le monde", et que la dernière mise à jour des données remonte à octobre 2019. C'est à la fois bon à savoir et quelque chose que nous pouvons mettre dans le tableau. Mais ces lignes supplémentaires nous empêchent de trier ou de filtrer les données.

Il suffit de supprimer toutes les lignes vides et toutes les informations au-dessus de l'en-tête. Supprimez-les (vous pouvez toujours vérifier votre feuille de "données brutes" lorsque vous avez besoin de ces informations) ou copiez-collez les informations dans votre feuille "Source".

![Un tableau de données structuré "lisible par l'homme" typique](images/181101_excel3.gif)

### 1.4.6 Séparer les cellules fusionnées et enlever les entêtes sur deux ou plusieurs lignes

Parfois, vous rencontrerez des en-têtes qui sont sur deux lignes, et non une seule. Surtout lorsque le tableau est créé pour communiquer, et non pour analyser, les en-têtes à deux lignes peuvent aider à donner un sens à l'information. Mais ils vous gêneront lorsque vous voudrez éventuellement supprimer des lignes ou des colonnes. Les données exploitables par une machine doivent comporter une ligne d'en-tête, et une seule ligne d'en-tête.

Démêlez les lignes doubles avec des cellules fusionnées comme ceci :

![Double rangée avec cellules fusionnées.](images/full-181101_excel5-bad.png)

A cela :

![La meilleure alternative.](images/full-181101_excel5-good.png)

Il en va de même pour les cellules fusionnées. Peu importe où elles se trouvent dans votre ensemble de données, éliminez-les :

![Plus de cellules fusionnées.](images/full-181101_excel4-bad.png)

### 1.4.7 Mettre des mesures dans l'en-tête et supprimer les notes de bas de page

Pour que les outils de données tels que Datawrapper et Excel reconnaissent les chiffres, assurez-vous que vous disposez de chiffres non perturbés dans vos cellules de données. Non perturbés par des milliers de séparateurs - mais nous nous occuperons de cela plus tard - et non perturbés par des mesures. Libérez donc vos cellules de données de tous les €, $, kg, %, km/h, etc. Mettez-les plutôt dans les en-têtes.

Cela nécessitera souvent une série d'étapes de `recherche - remplacement`, mais assurez-vous toujours d'avoir créé une colonne supplémentaire capturant ces unités afin de ne pas les perdre. Cette opération est similaire à la division des valeurs qui contiennent plusieurs termes.

Cela signifie qu'il faut partir des métriques dans les cellules de données :

![Métriques dans les cellules de données - pas génial.](images/full-181101_excel6-bad.png)

Pour cela, il faut les séparer dans leur propre colonne, ou - comme ici - les capturer dans le champ nom de la colonne :

![Métriques dans l'en-tête. Bien mieux !](images/full-181101_excel6-good.png)

Une chose à noter dans l'exemple ci-dessus est que le % serait normalement une proportion de 1 (par exemple, 48% est 0,48), et donc les données dans cette colonne sont susceptibles d'être ambiguës. Il convient de corriger cette situation pour garantir la validité de vos données.

Vous devrez également extraire les notes de bas de page. Des valeurs comme `28.394†` ou `1.39[^1]` ne seront pas reconnues comme des chiffres. 

Avant de les supprimer, assurez-vous que vous comprenez le schéma des données : Les  points de données de 2019 sont-ils tous des estimations ? (Devriez-vous peut-être exclure cette année-là ?) Ou bien les données d'un certain pays sont-elles mesurées différemment ? Dans tous ces cas, veillez à le faire savoir au lecteur de votre tableau final. Les notes de bas de page dans les données que vous utilisez doivent toujours se traduire par des définitions spécifiques dans le fichier de métadonnées. Vos utilisateurs en auront besoin.

### 1.4.8 Vérifier si le contenu de l'en-tête a un sens

Après avoir effectué ces tâches techniques, voyons si les noms de l'en-tête que vous n'avez pas encore touchés ont vraiment un sens. Peut-être ne sont-ils que du charabia de code comme `SP.URB.TOTL` ? Si c'est le cas, retournez à votre source et découvrez la signification de ces codes. Ou peut-être sont-ils trop longs ? Par exemple, `Nom du pays` peut facilement être réduit à `Pays`. Renommez les en-têtes pour qu'il soit facile pour les étrangers de leur donner un sens : courts, mais précis et uniques. (Si vous voyez des colonnes que vous avez l'intention de supprimer, ne vous embêtez pas à les renommer).

Rappelez-vous les conventions de dénomination dont nous avons parlé plus haut. Vous pouvez aussi choisir de convertir `Nom du pays` en `nom_du_pays`, mais soyez cohérent dans la façon dont vous nommez tous vos champs.

### 1.4.9 Parce que c'est pratique : Geler la première ligne (et la première colonne)

Vous devriez maintenant être à un point où vos en-têtes sont excellents. Félicitations ! Assurez-vous de toujours les avoir beautés en vue et figez les :

![Gel des lignes et des colonnes](images/181101_excel7.gif)

Voilà à quoi ressemblent nos données maintenant. C'est déjà un peu plus propre :

![En-têtes plus propres](images/full-181101_excel8.png)

### 1.4.10 Supprimer les colonnes et lignes inutiles

Vos données sont destinées à être des données sources, il devrait donc être rare que vous ayez besoin de supprimer quoi que ce soit, mais parfois les données sont redondantes. Soit parce que les données sont répétitives, soit parce qu'elles fournissent des résumés qui ne sont pas nécessaires parce qu'ils peuvent être calculés.

Par exemple, si vous disposez de données sur les dépenses par poste, avez-vous également besoin d'une ligne pour le `total` ? C'est une décision que vous devrez prendre, mais n'oubliez pas de la consigner dans votre fichier de métadonnées descriptives.

### 1.4.11 Supprimer les milliers de séparateurs

Les milliers de séparateurs sont des caractères (`,` en anglais, `.` en allemand, parfois c'est juste un espace) qui permettent de reconnaître facilement la magnitude d'un nombre. Par exemple, `38.394.105` s'arrondit plus vite à 38 millions dans notre esprit que `38394105`.

Mais s'ils sont géniaux et utiles pour les humains, ils sont terribles pour les ordinateurs et conduisent à des interprétations ambiguës. Débarrassons-nous de toute sorte de milliers de séparateurs.

Trouvons et remplaçons des milliers de séparateurs pour partir de là :

![Mille séparateurs.](images/full-181101_excel10-bad.png)

A cela :

![Pas mille séparateurs. Bien !](images/full-181101_excel10-good.png)

### 1.4.12 Standardiser le texte

Examinez les noms et les textes (tels que les pays, les questions de sondage, etc.) et voyez s'ils doivent être corrigés ou s'ils doivent être conformes à une norme. Il peut y avoir plusieurs façons d'épeler le nom d'un lieu particulier, mais il est probable qu'il n'y ait qu'une seule orthographe officielle. Si vous savez que les utilisateurs peuvent trouver cette orthographe peu claire, vous devrez peut-être créer une nouvelle colonne avec un code d'identification standard.

Par exemple, les Nations unies ont des codes de pays officiels pour chaque pays, ce qui peut être très utile... par exemple, `Côte d'Ivoire` peut aussi être présenté comme `Ivory Coast`.

### 1.4.13 Dates correctes

Il est difficile de travailler avec des dates. Il existe de nombreux formats de date différents ("1er novembre 2019", "1/11/19", etc.). ). Et Excel, Google Sheets, etc. ne les enregistrent pas dans l'un d'eux, mais comme "numéro de série". Le 1er novembre 2019 devient 43770 si vous changez le format de la cellule en un numéro.

Si jamais vous rencontrez un nombre aussi étrange que celui-ci, il vous suffit de changer le format de la cellule en date. Pour ce faire, cliquez sur Format > Nombre > Date.

Utilisez toujours le format ISO pour les dates (c'est-à-dire `AAAA-MM-JJ`). Cette méthode est à la fois meilleure pour l'analyse des données, car elle permet un tri automatique, et elle élimine tout doute. Le format `MMM` pour les dates implique une abréviation des lettres. Dans différents pays, sur plusieurs sites et dans plusieurs langues, cela peut entraîner une confusion et une incohérence inutiles. Il est toujours préférable d'éliminer tout doute, et les formats de date sont une cause perpétuelle d'erreurs dans les grandes séries de données. Américains, soyez toujours conscients que vous êtes seuls dans le format `MM/DD/YYYY` ; ne l'utilisez jamais.

### 1.4.14 Diviser les variables en colonnes séparées

Parfois, vous verrez plusieurs variables dans une colonne. Comme une colonne avec les États américains au format US-TX. Ou une colonne avec les entreprises et le produit qu'elles vendent : Datawrapper (logiciel). Vous pourriez ne pas vous en soucier. Mais lorsque vous voulez analyser ou visualiser les données basées sur les produits des entreprises, vous commencez à vous en soucier. Heureusement, ce sont des moyens faciles de séparer le pays de ses États et l'entreprise de son produit en deux colonnes :

Pour faire deux (ou plusieurs) colonnes à partir d'une colonne, vous pouvez utiliser la formule =SPLIT(B1, "-") ou les formules =LEFT(), =RIGHT() et =MID(). Je vous montrerai comment le faire dans notre article ["Comment diviser et extraire du texte des colonnes de données dans Excel & Google Sheets"](https://blog.datawrapper.de/split-and-extract-text-in-Excel-and-Google-Sheets).

### 1.4.15 Ajouter des colonnes avec des informations supplémentaires (par exemple, des ID géographiques)

Parfois, vous avez des données dans deux documents Excel différents. Ou dans deux feuilles différentes du même fichier Excel. Parfois, ces informations sont nécessaires pour visualiser les données - par exemple lorsque vous avez besoin des bons identifiants géographiques pour créer une carte choroplèthe, mais qu'ils ne figurent pas dans votre source de données d'origine.

Ces champs sont connus sous le nom de "clés étrangères" dans une base de données et ils permettent de joindre des données diverses sur cette colonne commune en raison de ces identités uniques.

Dans notre échantillon de données, nous avons aussi quelques informations supplémentaires. Dans la fiche "Métadonnées - Pays", les données de la Banque mondiale expliquent dans quelle région et dans quel groupe de revenu se trouvent tous les pays listés.

Pour intégrer la région et/ou le groupe de revenu dans notre fiche "Données"...

- ...nous pouvons trier la colonne des pays par ordre alphabétique dans les deux feuilles, puis copier et coller la colonne des régions et des groupes de revenus de leur feuille dans la feuille "Données". Cette approche ne fonctionne que lorsque nous avons des valeurs uniques (sinon le tri devient peu fiable), et si nous sommes sûrs à 100 % que les valeurs sont les mêmes. Dès que les deux colonnes diffèrent en longueur, nous devons choisir la méthode suivante :
- ...nous pouvons utiliser la formule =VLOOKUP(B1,A1:A100,2,FALSE). Cette formule n'est pas très facile à utiliser, mais Microsoft lui-même fait un assez bon travail en [l'expliquant ici](https://support.office.com/en-us/article/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1).

### 1.4.16 MEttre les données au format large

On peut disposer les mêmes données en lignes et en colonnes dans des formats différents. Notre échantillon de données de la Banque mondiale est dans un format dit "large" : Les valeurs de chaque année se trouvent dans une nouvelle colonne, de sorte qu'une ligne comporte plusieurs valeurs. Datawrapper comprendra bien ce format, nous pouvons donc simplement le copier et le coller dans notre étape 1, transposer les données et créer, par exemple, un graphique linéaire à partir de celui-ci.

Mais parfois, vos données seront dans un format différent : Le format "long". Dans le format long, chaque valeur a sa propre ligne. Datawrapper ne pourra pas gérer le format long, vous devrez donc d'abord le convertir au format large.

Pour transformer les données du format long au format large, vous pouvez utiliser une fonction appelée "tableaux croisés dynamiques" dans Excel ou Google Sheets. Vous pouvez apprendre à les utiliser dans notre article "Comment obtenir des données au bon format avec des tableaux croisés dynamiques".

C'est tout ! Nous avons suivi tout le processus. Ouf ! Maintenant, vos données devraient être prêtes à être analysées et visualisées. Vous pourriez vouloir supprimer quelques lignes et colonnes supplémentaires (ou les ajouter à nouveau). Pour l'instant, notre tableur ressemble à ceci :

![Version finale déformée](images/full-181101_excel15.png)

## 1.5 Tutoriel de la leçon

<div class="alert alert-block alert-success">
    <p><b>Tutoriel:</b></p>
    <p>Choisissez une feuille de calcul dans <a href="data/lesson-spreadsheet/">données de formation</a> et restructurez-la selon les techniques et les exigences présentées dans cette leçon.</p>
    <p>Les données de ce dossier proviennent également de la Banque mondiale, mais elles datent d'une époque bien antérieure, avant que la Banque mondiale ne sache ce qu'étaient des données ouvertes ou exploitables par une machine. Il contient certains des pires exemples de manipulation de données que vous n'aurez jamais vus.</p>
</div>

Veuillez compléter ce tutoriel avant de commencer la prochaine leçon. Si vous participez à un cours, veuillez envoyer votre demande de tutorat par le biais du processus requis (par courriel ou en ligne).