# _Module 2 leçon 3_: Restructuration et validation des données par rapport à un schéma en utilisant Python et _whyqd_.

<div class="alert alert-block alert-warning">
    <b>A la fin de la formation, vous pourrez:</b>
    <br>
    <ul>
        <li>Exécuter des techniques d'analyse et de codage, en utilisant le paquet Whyqd data wrangling, pour créer une méthode 
            structurée, formatée en JSON, pour restructurer les données dans un schéma standard.</li>
        <li>Ecrire et utiliser des fonctions modulaires pour valider automatiquement les fichiers de données par rapport à un 
            schéma défini en utilisant Python.</li>
        <li>Appliquer les techniques de publication ouverte des données pour préparer les données, les schémas et les résultats
            de validation en vue de leur publication.</li>
    </ul>
</div>

---

## 3.1 Restructuration manuelle et automatisée des données

Les progrès de l'automatisation des logiciels semblent si peu exceptionnels qu'il est légitime de se demander pourquoi un ordinateur 
ne peut pas prendre une feuille de calcul en désordre et la nettoyer pour vous sans aucune supervision. 

Les systèmes autonomes sont bons pour répéter des tâches structurées, mais moins capables de réaliser des tâches non structurées où 
le contexte, le sens et l'interprétation sont importants. Un ordinateur ne peut toujours pas vraiment _comprendre_ l'intention 
derrière une conversation et un récit. Les tableurs sont structurés à la fois visuellement et textuellement mais contiennent 
souvent peu d'informations dans leur construction pour expliquer pourquoi ils ont été créés ou ce que les données représentent.

Cela ne veut pas dire qu'un système informatique ne peut pas - en fin de compte - trouver un sens, mais l'ampleur du travail à 
accomplir peut être bien plus importante que la valeur de ce travail.

![Feuille de calcul tutoriel](images/tutorial-1-2.jpg)

L'analyse textuelle, à l'aide de moteurs de recherche comme Google ou Bing, permet d'identifier les termes utilisés dans 
les en-têtes de tableaux ou les références. Le hachage du fichier (une méthode mathématique de production d'une courte chaîne 
de caractères à partir du modèle de chaîne du fichier lui-même) peut identifier ce fichier de manière unique et le faire 
correspondre à l'endroit où des copies exactes peuvent être référencées en ligne.

Voici un exemple de hachage :

In [1]:
import hashlib

# Le Conte de deux cités, Charles Dickens (1859)
text = """It was the best of times, it was the worst of times, it was the age of wisdom, 
          it was the age of foolishness, it was the epoch of belief, it was the epoch of 
          incredulity, it was the season of Light, it was the season of Darkness, it was 
          the spring of hope, it was the winter of despair, we had everything before us, 
          we had nothing before us, we were all going direct to Heaven, we were all going 
          direct the other way – in short, the period was so far like the present period, 
          that some of its noisiest authorities insisted on its being received, for good 
          or for evil, in the superlative degree of comparison only."""

# Produire un hachage du texte encodé en sha256
hashlib.sha256(text.encode('utf-8')).hexdigest()

'a9da3340c48f5dcb0bf6ec3f6c6f46afefc6262f49c2b9ab75983cc44e5c1808'

Ces connexions - hachage, analyse textuelle - pourraient ensuite être utilisées pour rassembler des métadonnées supplémentaires afin 
d'aider à l'interprétation automatisée. Un système suffisamment complexe peut faire une approximation raisonnable des données 
restructurées, avec une explication codée des décisions qu'il a prises.

Cela peut être fait. Mais cela _ne devrait pas être nécessaire_ !

Tout ce cours existe parce que les données sont délibérément stockées dans des formats non accessibles. Parfois, cela se produit 
parce que l'on croit sincèrement - mais de manière mal informée - que les données structurées par l'homme sont "plus faciles" à lire. 
Parfois, il s'agit d'un acte délibéré de sabotage : rendre les données inaccessibles tout en permettant de prétendre qu'elles sont 
techniquement lisibles. 

Au cas où vous penseriez que c'est une farce, j'ai reçu un jour une impression de 200 pages d'une feuille de calcul scannée au format 
PDF, dont la police de caractères des données était si petite et tachée qu'elle était presque illisible. Le propriétaire des données 
avait perdu un procès et avait été obligé de publier.

Les professionnels des données doivent travailler avec les données telles qu'elles sont, non pas comme nous le souhaiterions, mais - avant 
de poursuivre - prendre un moment pour réfléchir au temps et aux efforts qui seraient économisés, à l'ingéniosité qui serait consacrée à
des activités plus bénéfiques, si nos données sources étaient d'abord placées dans un format structuré et exploitable par une machine.

---

## 3.2 Restructuration des données vérifiables avec _whyqd

L'avantage de la restructuration dérivée des logiciels est que vous pouvez - avec un minimum d'effort - réutiliser votre code et 
l'appliquer à d'autres feuilles de calcul qui peuvent avoir des problèmes similaires. Au fil du temps, vous développerez toute une 
série de scripts pour vous aider. Mieux encore, vous pouvez partager vos scripts avec d'autres personnes pour les aider également et 
pour prouver que vos données restructurées n'ont pas introduit d'erreurs bizarres.

Cette deuxième partie est essentielle pour la probité des données, pour assurer une piste d'audit depuis la source jusqu'à vos données
finales utilisées dans l'analyse. Lorsque le travail manuel dans Excel signifie qu'il est souvent impossible de retracer les erreurs 
sans refaire votre travail, le code peut être lu. Tout le monde peut suivre les décisions prises dans votre code, exécuter ce code
et vérifier si la sortie est dérivée de l'entrée et si votre code contient des erreurs.

Cependant, tout le monde ne peut pas lire le code. [whyqd](https://whyqd.readthedocs.io/en/latest/) est un paquet Python conçu pour
faciliter la restructuration, tout en fournissant un enregistrement vérifiable de la manière dont cette restructuration a été 
effectuée :

> __whyqd__ fournit une méthode intuitive pour restructurer des données désordonnées afin de les rendre conformes à un schéma de 
métadonnées standardisé. Il aide les gestionnaires de données et les chercheurs qui cherchent à normaliser rapidement et de manière
continue les feuilles de calcul en désordre en suivant une série d'étapes simples. Une fois cette opération terminée, vous pouvez
importer les données nettoyées dans des systèmes d'analyse plus complexes ou des outils de préparation de données complets.

Divulgation complète : j'ai également rédigé et assuré la maintenance du logiciel, qui est utilisé sur [Sqwyre.com](https://sqwyre.com) 
où nous importons des centaines de fichiers sources de données désordonnés par mois et les restructurons en une seule base de données.

Avant d'utiliser ce paquet, vérifions s'il y a eu des mises à jour du code depuis que nous l'avons installé pour la première fois. 
Dans la leçon 1.2.2, nous avons installé `whyqd`, maintenant nous allons le mettre à jour.

Dans votre environnement Anaconda, cliquez à gauche sur la "flèche" à côté de "datascience" et choisissez `Open Terminal`. Assurez-vous
que vous cliquez sur le bon environnement ; pas sur `base` ou `root`, mais sur le nom de l'environnement dans lequel vous travaillez : 

![Terminal Jupyter](images/jupyter-terminal.JPG "Jupyter terminal")

Une nouvelle fenêtre s'ouvrira avec une invite de commande. Tapez ce qui suit et entrez.

    pip install whyqd -U
    
![Mise à jour du terminal de Jupyter](images/jupyter-terminal-update.jpg "Mise à jour du terminal de Jupyter")

Le tutoriel suivant est adapté de la documentation de [whyqd's](https://whyqd.readthedocs.io/en/latest/morph_tutorial.html).

### 3.2.1 Création d'un schéma

L'objectif de votre schéma est non seulement de définir une structure pour vos données, mais aussi de fournir des références et des 
informations contextuelles à toute personne qui les utilise. Dans un contexte de recherche, les définitions sont essentielles pour
éviter toute ambiguïté, assurer la réplication et instaurer la confiance.

L'exigence minimale pour un schéma est qu'il ait un `name`, mais nous allons lui donner un `title` et une `description` également,
parce que plus d'informations, c'est mieux.

In [1]:
import whyqd as _w
schema = _w.Schema()

details = {
        "name": "human-development-report",
        "title": "UN Human Development Report 2007 - 2008",
        "description": """
        En 1990, le premier rapport sur le développement humain a introduit une nouvelle approche pour
        faire progresser le bien-être de l'homme. Le développement humain - ou l'approche du développement humain - consiste à
        l'élargissement de la richesse de la vie humaine, plutôt que simplement de la richesse de l'économie dans laquelle
        les êtres humains vivent. Il s'agit d'une approche axée sur les personnes, leurs possibilités et leurs choix."""
}
schema = _w.Schema()
schema.set_details(**details)

Définissons les champs dans notre schéma et répétons ensuite la liste pour ajouter chaque champ. Vous devriez voir que cela est 
équivalent à l'exercice de la leçon 1.2.2. `required`, dans les `constraints`, signifie que cette colonne est nécessaire pour 
assurer la validation des données de destination.

In [2]:
fields = [
    {
        "name": "Country Name",
        "title": "Country Name",
        "type": "string",
        "description": "Official country names.",
        "constraints": {
            "required": True
        }
    },
    {
        "name": "HDI Category",
        "title": "HDI Category",
        "type": "string",
        "description": "Human Development Index Category derived from the HDI Rank.",
    },
    {
        "name": "Indicator Name",
        "title": "Indicator Name",
        "type": "string",
        "description": "Indicator described in the data series.",
    },
    {
        "name": "Reference",
        "title": "Reference",
        "type": "string",
        "description": "Reference to data source.",
    },
    {
        "name": "Year",
        "title": "Year",
        "type": "year",
        "description": "Year of release.",
    },
    {
        "name": "Values",
        "title": "Values",
        "type": "number",
        "description": "Value for the Year and Indicator Name.",
        "constraints": {
            "required": True
        }
    },
]
for field in fields:
    schema.set_field(**field)

<div class="alert alert-block alert-info">
    <p>Un <code>schema</code> est un <b>choix</b>. Sa structure est basée sur les décisions que vous devez prendre. Vous pouvez décider 
        que vous voulez le faire différemment. Il peut y avoir de bonnes raisons pour une approche différente, et il n'y a pas qu'une 
        seule façon de définir la manière dont les données doivent être structurées. Ce qui <b>est</b> nécessaire, c'est la clarté, la 
        cohérence et les métadonnées.
    </p>
</div>

À partir de là, nous pouvons accéder à n'importe quel `field` en l'appelant par son `name` et le modifier ensuite comme il convient. 
Notez que le logiciel a changé les noms que nous avons mis en minuscules et en remplaçant ` `  par `_` :

In [3]:
schema.field("country_name")

{'name': 'country_name',
 'type': 'string',
 'constraints': {'required': True},
 'title': 'Country Name',
 'description': 'Official country names.'}

Nous pouvons également enregistrer notre schéma dans un répertoire spécifique :

In [4]:
directory = "data/lesson-programmatic/"
# vous pouvez également spécifier un nom de fichier facultatif
# si vous l'omettez, le nom du fichier sera par défaut le nom du schéma
filename = "human-development-report-schema"
# si le fichier existe déjà, vous devrez spécifier "overwrite=True" sinon vous obtiendrez une erreur
schema.save(directory, filename=filename, overwrite=True)

True

### 3.2.2 Création d'une méthode

`Methods` sont la façon dont vous définissez les étapes que `whyqd` doit effectuer pour restructurer vos données et les aligner avec votre `Schema`. Il n'y a pas 
beaucoup de codage à faire, mais il y a beaucoup de décisions à prendre. 

Le seul paramètre obligatoire nécessaire lors de la création d'une méthode, est une référence à notre schéma source (celui que nous avons créé ci-dessus). Nous pouvons
proposer également un répertoire de travail. Au cours du processus, `whyqd` créera un certain nombre de fichiers de données de travail provisoires, ainsi que votre JSON
et vos données de sortie reformattées. Vous devez lui indiquer où travailler, sinon il déposera simplement tout dans le répertoire 
d'où vous appelez la fonction.

Nous pouvons également, lors de l'initialisation, fournir la liste des sources de données :

In [5]:
### Les importations et paramètres suivants vous permettent d'obtenir un large éventail de résultats pour vos tableaux
from IPython.core.display import HTML
display(HTML("<style>pre { white-space: pre !important; }</style>"))

import numpy as np
import whyqd as _w

SCHEMA_SOURCE = "data/lesson-programmatic/human-development-report-schema.json"
DIRECTORY = "data/lesson-programmatic/"
INPUT_DATA = [
    "data/lesson-spreadsheet/HDR 2007-2008 Table 03.xlsx"
]
method = _w.Method(SCHEMA_SOURCE, directory=DIRECTORY, input_data=INPUT_DATA)

Ces données seront copiées dans votre répertoire de travail et renommées en un hash `id` unique (similaire au hash présenté précédemment).

<div class="alert alert-block alert-info">
    <p><b>La probité des données</b> - la capacité à vérifier les données et la méthodologie jusqu'à la source - est essentielle pour la transparence et la reproduction de la recherche. 
        Vous pouvez vous retrouver avec des centaines de fichiers de même nom dans un seul répertoire sans beaucoup d'informations sur leur provenance, ou 
        comment ils ont été créés. Des identifiants uniques, référencés dans votre fichier de méthode, sont un moyen plus utile de vous assurer que vous savez à quoi ils servent.
    </p>
</div>

La classe de méthode fournit une aide à chaque étape. Vous pouvez y accéder de cette manière :

**whyqd** provides data wrangling simplicity, complete audit transparency, and at speed.

To get help, type:

    >>> method.help(option)

Where `option` can be any of:

    status
    merge
    structure
    category
    filter
    transform

`status` retournera le statut de la  method, et les prochaines étapes les plus probables. Les autres options retourneront la méthodologie et le résultat de l'application de cette option (si applicable). L'`error` presentera la trace d'une erreur et essayera de vous guider pour la résolution du problème.

Current method status: `Ready to Merge`

_whyqd_ ne fait pas d'hypothèse sur nos données. Nous avons ajouté un seul fichier à la méthode, donc il vous suggère de passer à l'étape suivante. Cependant, nous connaissons nos données et nous savons qu'elles ont besoin d'être préparées.

L'[API](https://whyqd.readthedocs.io/) de _whyqd_ décrit toutes les fonctions disponibles mais il est utile de se rappeler we vous travaillez sur vos données de façon symbolique plutot que directement. Les fichiers de données peuvent être extrêmement volumineux et et vous pourriez attendre très longtemps à ne rien faire pendant que Python charge ces données et les restructure selon vos instructions. _whyqd_ garde seulement quelques lignes pour vous donner une idée de à quoi ressemble vos données:

In [7]:
print(method.print_input_data())



Data id: 9c221d7a-6cee-4388-ad5d-4555b7011b34
Original source: data/lesson-spreadsheet/HDR 2007-2008 Table 03.xlsx

  ..  Unnamed: 0                                         Unnamed: 1    Unnamed: 2    Monitoring human development: enlarging people's choices …    Unnamed: 4    Unnamed: 5    Unnamed: 6    Unnamed: 7    Unnamed: 8    Unnamed: 9    Unnamed: 10    Unnamed: 11    Unnamed: 12    Unnamed: 13    Unnamed: 14    Unnamed: 15    Unnamed: 16    Unnamed: 17    Unnamed: 18    Unnamed: 19    Unnamed: 20    Unnamed: 21    Unnamed: 22    Unnamed: 23    Unnamed: 24    Unnamed: 25    Unnamed: 26    Unnamed: 27    Unnamed: 28    Unnamed: 29    Unnamed: 30
   0  3 Human and income poverty Developing countries           nan           nan                                                           nan           nan           nan           nan           nan           nan           nan            nan            nan            nan            nan            nan            nan            nan       

Vous pouvez voir le problème que nous avons traité dans la leçon 1.2.2. Il ne semble pas y avoir de données. À ce stade, vous pouvez être tenté de commencer à modifier directement le fichier - comme nous l'avons fait à l'époque - et
voir ce que vous pouvez corriger, mais notre objectif n'est pas seulement de disposer de données propres, mais aussi d'un dossier vérifiable sur la manière dont vous êtes passé de la source à la fin, qui puisse démontrer les décisions que vous avez prises, et 
si vous avez été en mesure de conserver toutes les données sources.

_whyqd_ propose un ensemble de `morphs` (transformations) qui vous permettent de restructurer des tables individuelles avant de les fusionner. Voyons tous les types de morphs :

In [8]:
method.default_morph_types

['CATEGORISE', 'DEBLANK', 'DEDUPE', 'DELETE', 'MELT', 'REBASE', 'RENAME']

Si vous voulez savoir ce que fait chacun d'entre eux, obtenez leurs paramètres individuels :

In [9]:
# A titre d'exemple :
method.default_morph_settings("CATEGORISE")

{'name': 'CATEGORISE',
 'title': 'Categorise',
 'type': 'morph',
 'description': 'Convert row-level categories into column categorisations.',
 'structure': ['rows', 'column_names']}

La façon standard d'écrire un morphing est :

    ["NOM_MORPH", [rows], [columns], [column_names]]

La présence des paramètres - lignes, colonnes, noms_de_colonne - est spécifiée dans la structure du type de morphing.

- __rows__ : adresse le numéro de ligne du tableau. Ceux-ci resteront immuables, donc le numéro de ligne est le numéro de ligne.
- __columns__: ce sont les noms de colonnes réels à ce point du morphing. Ils sont modifiables et changent au fur et à mesure que vous effectuez le morphing.
- __column_names__ : ces noms sont facultatifs, mais vous pouvez fournir des noms de racines qui seront utilisés pour créer de nouvelles colonnes.

Lorsque vous ajoutez votre premier morphing, whyqd ajoutera automatiquement  `DEBLANK` et `DEDUPE`. L'ordre exact des morphes se fait par essais et erreurs, mais rien n'est fait de façon definitive et vous 
peut défaire et refaire selon vos besoins.

Quelques outils pour vous aider ... `input_dataframe(id)` renvoie la trame de données complète `pandas` pour vos données sources. Il va également exécuter tous les morphes jusqu'à ce point, vous permettant de voir
l'impact de votre commande de morphing. Vous pouvez ensuite explorer vos données et déterminer ce que vous devez faire ensuite. Nous n'avons qu'un seul fichier, et plus tôt nous avons l'`id` créé pour 
référencer ce fichier :

In [10]:
# Utilisez _id, ou une autre variable, puisque `id` est un terme protégé par Python
_id = method.input_data[0]["id"]
df = method.input_dataframe(_id)
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Monitoring human development: enlarging people's choices …,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,3 Human and income poverty Developing countries,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,


Si vous arrivez à un point où vous êtes complètement embrouillé, `reset_input_data_morph(id)` supprimera tous les morphes et vous permettra de recommencer :

In [15]:
method.reset_input_data_morph(_id)

Je vous encourage à explorer cet ensemble de données et à voir exactement les décisions prises, mais voici mon approche :

- Replaçons le tableau au sommet des données réelles :

In [16]:
method.add_input_data_morph(_id, ["REBASE", 11])

- Nous pouvons nous débarrasser des lignes en dessous de la 144 jusqu'à la fin du tableau. Celles-ci contiennent des métadonnées que vous pouvez conserver et
  publier séparément :

In [17]:
# On obtient la valeur du dernier élément de l'index, puis on ajoute 1 pour créer l'intervalle
rows = [int(i) for i in np.arange(144, df.index[-1]+1)]
method.add_input_data_morph(_id, ["DELETE", rows])

- Nommons maintenant les colonnes qui restent en fonction de leur nom d'origine. Notez également que les colonnes de référence n'étaient pas étiquetées auparavant :

In [18]:
columns = [
    "HDI rank",
    "Country",
    "Human poverty index (HPI-1) - Rank",
    "Reference 1",
    "Human poverty index (HPI-1) - Value (%)",
    "Probability at birth of not surviving to age 40 (% of cohort) 2000-05",
    "Reference 2",
    "Adult illiteracy rate (% aged 15 and older) 1995-2005",
    "Reference 3",
    "Population not using an improved water source (%) 2004",
    "Reference 4",
    "Children under weight for age (% under age 5) 1996-2005",
    "Reference 5",
    "Population below income poverty line (%) - $1 a day 1990-2005",
    "Reference 6",
    "Population below income poverty line (%) - $2 a day 1990-2005",
    "Reference 7",
    "Population below income poverty line (%) - National poverty line 1990-2004",
    "Reference 8",
    "HPI-1 rank minus income poverty rank"
]
method.add_input_data_morph(_id, ["RENAME", columns])

- Nous n'avons pas terminé, mais nous pouvons jeter un coup d'œil rapide sur ce que nous avons réalisé jusqu'à présent :

In [19]:
df = method.input_dataframe(_id)
df.head()

Unnamed: 0,HDI rank,Country,Human poverty index (HPI-1) - Rank,Reference 1,Human poverty index (HPI-1) - Value (%),Probability at birth of not surviving to age 40 (% of cohort) 2000-05,Reference 2,Adult illiteracy rate (% aged 15 and older) 1995-2005,Reference 3,Population not using an improved water source (%) 2004,Reference 4,Children under weight for age (% under age 5) 1996-2005,Reference 5,Population below income poverty line (%) - $1 a day 1990-2005,Reference 6,Population below income poverty line (%) - $2 a day 1990-2005,Reference 7,Population below income poverty line (%) - National poverty line 1990-2004,Reference 8,HPI-1 rank minus income poverty rank
14,HIGH HUMAN DEVELOPMENT,,,,,,,,,,,,,,,,,,,
15,21,"Hong Kong, China (SAR)",..,,..,1.5,e,..,,..,,..,,..,,..,,..,,..
16,25,Singapore,7,,5.2,1.8,,7.5,,0,,3,,..,,..,,..,,..
17,26,Korea (Republic of),..,,..,2.5,,1.0,,8,,..,,<2,,<2,,..,,..
18,28,Cyprus,..,,..,2.4,,3.2,,0,,..,,..,,..,,..,,..


- Si vous regardez les données, vous verrez qu'il y a des lignes qui définissent des catégories pour les données qui apparaissent en dessous. Ici, `HIGH HUMAN DEVELOPMENT` est une `HDI Category` et toutes les
  Les lignes entre cette ligne et la catégorie suivante `MEDIUM HUMAN DEVELOPMENT` font partie de cette catégorie. Ce que nous devons faire, c'est "faire pivoter" ces lignes dans une colonne et attribuer la catégorie
  aux données concernées :

In [20]:
# Obtenir les indices des lignes de données catégorielles
hdi_categories = ["HIGH HUMAN DEVELOPMENT", "MEDIUM HUMAN DEVELOPMENT", "LOW HUMAN DEVELOPMENT"]
rows = df[df["HDI rank"].isin(hdi_categories)].index
method.add_input_data_morph(_id, ["CATEGORISE", rows, "HDI category"])

ValueError: Task morph `CATEGORISE` has invalid structure `['rows', 'column_names']`.

Hmm, nous avons eu une `ValueError` ce qui signifie que nos `rows` ne sont pas ce à quoi on s'attendait. C'est parce que `pandas` ne renvoie pas une `list` mais un `Int64Index`. Corrigeons cela.

In [21]:
type(rows)

pandas.core.indexes.numeric.Int64Index

In [22]:
method.add_input_data_morph(_id, ["CATEGORISE", list(rows), "HDI category"])

- La plupart de ces colonnes sont en fait des indicateurs et peuvent être pivotées en une colonne `Indicator`avec les `Values` assignées dans une seule colonne. C'est ce qu'on appelle un `MELT` :

In [23]:
df = method.input_dataframe(_id)
df.head()

Unnamed: 0,HDI rank,Country,Human poverty index (HPI-1) - Rank,Reference 1,Human poverty index (HPI-1) - Value (%),Probability at birth of not surviving to age 40 (% of cohort) 2000-05,Reference 2,Adult illiteracy rate (% aged 15 and older) 1995-2005,Reference 3,Population not using an improved water source (%) 2004,...,Children under weight for age (% under age 5) 1996-2005,Reference 5,Population below income poverty line (%) - $1 a day 1990-2005,Reference 6,Population below income poverty line (%) - $2 a day 1990-2005,Reference 7,Population below income poverty line (%) - National poverty line 1990-2004,Reference 8,HPI-1 rank minus income poverty rank,HDI category
15,21,"Hong Kong, China (SAR)",..,,..,1.5,e,..,,..,...,..,,..,,..,,..,,..,HIGH HUMAN DEVELOPMENT
16,25,Singapore,7,,5.2,1.8,,7.5,,0,...,3,,..,,..,,..,,..,HIGH HUMAN DEVELOPMENT
17,26,Korea (Republic of),..,,..,2.5,,1.0,,8,...,..,,<2,,<2,,..,,..,HIGH HUMAN DEVELOPMENT
18,28,Cyprus,..,,..,2.4,,3.2,,0,...,..,,..,,..,,..,,..,HIGH HUMAN DEVELOPMENT
19,30,Brunei Darussalam,..,,..,3.0,,7.3,,..,...,..,,..,,..,,..,,..,HIGH HUMAN DEVELOPMENT


In [24]:
# Sélectionnez toutes les colonnes à "melt"
columns = [
    "HDI rank",
    "Human poverty index (HPI-1) - Rank",
    "Human poverty index (HPI-1) - Value (%)",
    "Probability at birth of not surviving to age 40 (% of cohort) 2000-05",
    "Adult illiteracy rate (% aged 15 and older) 1995-2005",
    "Population not using an improved water source (%) 2004",
    "Children under weight for age (% under age 5) 1996-2005",
    "Population below income poverty line (%) - $1 a day 1990-2005",
    "Population below income poverty line (%) - $2 a day 1990-2005",
    "Population below income poverty line (%) - National poverty line 1990-2004",
    "HPI-1 rank minus income poverty rank"
]
method.add_input_data_morph(_id, ["MELT", columns, ["Indicator Name", "Indicator Value"]])

- De même, les `References` peuvent également être pivotées dans une colonne séparée :

In [25]:
columns = [
    "Reference 1",
    "Reference 2",
    "Reference 3",
    "Reference 4",
    "Reference 5",
    "Reference 6",
    "Reference 7",
    "Reference 8",
]
method.add_input_data_morph(_id, ["MELT", columns, ["Reference Name", "Reference"]])

- Ajoutons un dernier `DEBLANK` juste pour être sûr :

In [26]:
method.add_input_data_morph(_id, ["DEBLANK"])

Obtenez la mise en œuvre actuelle des morphes et jetez-y un coup d'œil :

In [27]:
df = method.input_dataframe(_id)
df.head()

Unnamed: 0,Country,Indicator Name,Indicator Value,HDI category,Reference Name,Reference
0,"Hong Kong, China (SAR)",HDI rank,21,HIGH HUMAN DEVELOPMENT,Reference 1,
1,Singapore,HDI rank,25,HIGH HUMAN DEVELOPMENT,Reference 1,
2,Korea (Republic of),HDI rank,26,HIGH HUMAN DEVELOPMENT,Reference 1,
3,Cyprus,HDI rank,28,HIGH HUMAN DEVELOPMENT,Reference 1,
4,Brunei Darussalam,HDI rank,30,HIGH HUMAN DEVELOPMENT,Reference 1,


Cool, hein ? Continuons avec l'étape du `merge`. Si nous avions plus d'un fichier de données d'entrée, il faut les regrouper en un seul fichier de données de travail par le biais d'une fusion. 
_whyqd_ va itérativement joindre les fichiers dans une liste, en ajoutant le 2ème au 1er, puis le 3ème, etc.

Ce que nous devons faire, c'est décider de l'ordre, et identifier une colonne qui peut être utilisée pour croiser de manière unique les lignes de chaque fichier et les relier entre elles.

Nous n'avons qu'un seul fichier, mais - techniquement - rien ne vous empêche d'ajouter un autre fichier à partir de nos données d'exemple et donc de fusionner deux fichiers ensemble. Je vous propose un exercice. 
Consultez le [tutoriel whyqd](https://whyqd.readthedocs.io/en/latest/tutorial.html#organise-and-merge-input-data), et lisez l'aide sur la fusion :

In [28]:
print(method.help("merge"))


`merge` will join, in order from right to left, your input data on a common column.

To add input data, where `input_data` is a filename, or list of filenames:

	>>> method.add_input_data(input_data)

To remove input data, where `id` is the unique id for that input data:

	>>> method.remove_input_data(id)

Prepare an `order_and_key` list, where each dict in the list has:

	{{id: input_data id, key: column_name for merge}}

Run the merge by calling (and, optionally - if you need to overwrite an existing merge - setting
`overwrite_working=True`):

	>>> method.merge(order_and_key, overwrite_working=True)

To view your existing `input_data`:

	>>> method.input_data


Data id: 9c221d7a-6cee-4388-ad5d-4555b7011b34
Original source: data/lesson-spreadsheet/HDR 2007-2008 Table 03.xlsx

  ..  Unnamed: 0                                         Unnamed: 1    Unnamed: 2    Monitoring human development: enlarging people's choices …    Unnamed: 4    Unnamed: 5    Unnamed: 6    Unnamed: 7    Unnamed:

In [29]:
%time method.merge(overwrite_working=True)

Wall time: 7.51 s


Vous verrez que cette étape a peut-être pris un peu plus de temps que vous ne le pensez normalement, simplement parce que les données sont maintenant restructurées et que tous vos changements sont intégrés à un nouveau fichier `working_data`

La méthode magique de Jupyter `%time` est un moyen très utile de voir combien de temps prend cette étape. Néanmoins, comparez le temps qu'il a fallu pour écrire quelques commandes et les traiter avec le temps qu'il a fallu
vous pouvez copier et coller manuellement les données dans votre feuille de calcul Excel source à la leçon 1.1.

L'étape suivante est la `structure`. 

C'est la partie du processus de nettoyage des données où, selon l'ampleur de votre tâche, vous pouvez utiliser Excel, OpenRefine ou une autre solution commerciale. Ces outils sont en dehors de votre flux de travail ou peuvent potentiellement introduire des erreurs humaines. Ils sont également très limités à l'ensemble de données sur lequel vous travaillez uniquement. Si vous avez 2 fichiers vous devrez faire le travail 2 fois. _whyqd_ est destiné à un traitement qui peut être répéter. L'année prochaine, lorsque ces données
sont mises à jour, nous voudrons les importer à nouveau. Cependant, il se peut qu'elle ne soit pas dans le même format puisqu'un être humain a préparé et téléchargé ces données. Cette personne ne connaît pas votre utilisation
et ne s'en soucie probablement pas. Peut-être changent-ils le nom de certaines colonnes. Ce sont des changements simples et il suffit d'un petit ajustement de la méthode pour recommencer le processus.

C'est le cœur du processus de préparation des données et c'est le processus où vous définissez les `actions` qui doivent être effectuées pour restructurer vos données de travail.

In [30]:
print(method.help("structure"))


`structure` is the core of the wrangling process and is the process where you define the actions
which must be performed to restructure your working data.

Create a list of methods of the form:

	{
		"schema_field1": ["action", "column_name1", ["action", "column_name2"]],
		"schema_field2": ["action", "column_name1", "modifier", ["action", "column_name2"]],
	}

The format for defining a `structure` is as follows::

	[action, column_name, [action, column_name]]

e.g.::

	["CATEGORISE", "+", ["ORDER", "column_1", "column_2"]]

This permits the creation of quite expressive wrangling structures from simple building
blocks.

The schema for this method consists of the following terms:

['country_name', 'hdi_category', 'indicator_name', 'reference', 'year', 'values']

The actions:

['CALCULATE', 'CATEGORISE', 'JOIN', 'NEW', 'ORDER', 'ORDER_NEW', 'ORDER_OLD', 'RENAME']

The columns from your working data:

['Country', 'Indicator Name', 'Indicator Value', 'HDI category', 'Reference Name', 'Ref

Nous avons un cas d'utilisation très simple, puisque nos `morphs` ont pris en charge la plupart des problèmes que nous pouvons avoir. Tout ce que nous avons à faire, c'est de connecter nos données de travail à notre schéma que nous avons développé
dès le début. Cela relie explicitement les données à la structure et permet la validation, ainsi que la compréhension programmatique de nos métadonnées.

L'`help` nous indique nos colonnes de schéma :

     ['country_name', 'hdi_category', 'indicator_name', 'reference', 'year', 'values']
    
Et la structure de chaque "action" sera la même :

    "schema_column" : ["RENAME", "working_data_column"]
    
Dans notre exemple, nous n'avons pas de colonne `year`, mais vous pouvez en avoir une dans la vôtre :

In [31]:
structure = {
    "country_name": ["RENAME", "Country"],
    "hdi_category": ["RENAME", "HDI category"],
    "indicator_name": ["RENAME", "Indicator Name"],
    "reference": ["RENAME", "Reference"],
    "values": ["RENAME", "Indicator Value"],
}
# Notez le "**" au début du nom du paramètre
# Ceci "dépaquette"  le dictionnaire de sorte que tous les termes soient visibles pour la fonction
method.set_structure(**structure)

Malgré tout cela, _whyqd_ a préservé vos données sources. Il est maintenant temps de créer votre transformation de données et de la sauvegarder :

In [32]:
method.transform(overwrite_output=True)
FILENAME = "hdi_report_exercise"
method.save(directory, filename=FILENAME, overwrite=True)

Vous pouvez revoir vos méthodes comme une sortie JSON en utilisant `.settings` pour la méthode entière, ou `.input_data_morphs(_id)` pour les morphs eux-mêmes :

In [33]:
method.input_data_morphs(_id)

[{'3e756abf-1f39-47da-89af-37bdf615af1c': ['DEBLANK']},
 {'3e37c068-fc63-410e-8514-47463b3b897c': ['DEDUPE']},
 {'b8070cdd-56de-4e7c-b6db-8b1c6da3a584': ['REBASE', [11]]},
 {'4d2be6e1-488c-4c47-b83a-9d9829be1c23': ['DELETE']},
 {'ab2a1263-65c8-45b0-b59d-bbc27b455236': ['RENAME',
   ['HDI rank',
    'Country',
    'Human poverty index (HPI-1) - Rank',
    'Reference 1',
    'Human poverty index (HPI-1) - Value (%)',
    'Probability at birth of not surviving to age 40 (% of cohort) 2000-05',
    'Reference 2',
    'Adult illiteracy rate (% aged 15 and older) 1995-2005',
    'Reference 3',
    'Population not using an improved water source (%) 2004',
    'Reference 4',
    'Children under weight for age (% under age 5) 1996-2005',
    'Reference 5',
    'Population below income poverty line (%) - $1 a day 1990-2005',
    'Reference 6',
    'Population below income poverty line (%) - $2 a day 1990-2005',
    'Reference 7',
    'Population below income poverty line (%) - National poverty l

Cela complète deux étapes : 

- La création d'un schéma et d'une méthode vérifiable pour restructurer vos données ;
- La connexion directe du schéma aux données et l'execution de la transformation.

Mais est-ce que cela valide les données?

---

## 3.3 La validation des données et sa signification

Si vous voulez vérifier si vos données sont valides dans _whyqd_, vous pouvez simplement exécuter une commande :

In [4]:
%time method.validates

True

C'est le cas, ce qui n'est pas surprenant puisque le code a été exécuté et que _whyqd_ ne lancera pas la transformation si elle ne fonctionne pas. Cependant, que signifie la _validation_, en particulier dans le contexte des exigences 
pour des données de qualité lisibles par machine ?

Wikipedia - la source de référence - [déclare](https://en.wikipedia.org/wiki/Data_validation) :

> __La validation des données__ est le processus qui consiste à s'assurer que les données ont subi un nettoyage pour garantir leur qualité, c'est-à-dire qu'elles sont à la fois correctes et utiles. 
Elle utilise des routines, souvent appelées "règles de validation", "contraintes de validation" ou "routines de contrôle", qui vérifient l'exactitude, la pertinence et la sécurité des données qui 
sont entrés dans le système. Les règles peuvent être mises en œuvre par le biais des installations automatisées d'un dictionnaire de données ou par l'inclusion d'une validation explicite du programme d'application 
la logique de l'ordinateur et de son application.

Si vous lisez cet article de Wikipedia, vous verrez qu'il existe une vaste gamme de différents types de contrôles de validation, mais qu'il n'existe pas de norme universelle.Si _je_ déclare un ensemble de données
"valide" il peut ne pas être valide pour _vos_ exigences. 

En l'état actuel des choses, _whyqd_ a déclaré nos données valides puisqu'il était capable de lire et de manipuler le fichier dans un schéma cible et les données correspondent au schéùa. Mais _whyqd_ suppose qu'il ne s'agit pas du point final pour
votre utilisation, qui peut être l'importation des données dans une base de données ou leur utilisation dans une application. Vous devrez peut-être transformer les données une nouvelle fois lorsque vous les utiliserez, et vous exécuterez votre
une validation propre à chaque étape pour garantir le fonctionnement de votre propre logiciel.

Du point de vue d'un éditeur de données, il est difficile de prévoir tous les cas d'utilisation de vos données, et tout ce que vous faites pour "forcer" la conformité des données risque de dégrader la 
l'exactitude des données. Considérez les problèmes suivants dans les données sources :

- __Lacunes des données__ : une série de termes, tels que `..` et`.`, sont utilisés pour refléter un manque de données. Mais ne s'agit-il pas quand même d'informations ? Ces termes nous disent directement qu'en 2008, nous __ne savons pas__
  combien de personnes sont analphabètes ou combien de personnes n'ont pas accès à l'eau courante et propre dans certains pays. Remplacer ce chiffre par `nan` (pas un nombre) ne change rien au fait que 
  le manque d'information, bien qu'il puisse permettre à vos données de passer un test "cette colonne ne comporte-t-elle que des chiffres" ... est-ce une bonne chose ? Certains utilisateurs ne voudraient pas le savoir directement ?
- __Approximations des données__ : Parfois les données sont collectées sous forme de fourchettes, par exemple `20-30`, ou `<2`. Cela peut être le cas pour l'anonymisation des données (nous répartissons délibérément les personnes dans des fourchettes afin de garantir qu'elles
  ne puissent pas être identifiées), ou parce que nos données ne sont tout simplement pas suffisamment précises (limites du mécanisme par lequel nous avons collecté les données). Il s'agit là aussi d'informations. Forcer
  ces fourchettes jusqu'à un point absolu peuvent satisfaire une vérification de données, mais au risque de perdre des informations sur les limites du processus de collecte de données.
- __Formats de date__ : Quand le 10 avril est-il aussi le 4 Octobre ? Lorsque vous essayez de déterminer si vous travaillez avec des formats de date américains ou mondiaux, par exemple `10-4-1990` contre `4-10-1990`. Fourchettes de dates
  peut également être un problème. Faut-il forcer l'année `2007-2008` à être une année spécifique ?

Ce type de validation des données est certainement critique _au point d'utilisation_, mais est-il important _au point de publication_ ? Jusqu'où devez-vous aller dans la validation des données pour la publication ?

C'est là que les scientifiques peuvent différer d'une donnée à l'autre. Mon point de vue est le suivant :

> __La validation des données__ est le processus qui consiste à assurer une piste d'audit complète depuis les données sources jusqu'à la publication, où le processus de transformation des données est documenté dans une série de métadonnées
les fichiers qui transcrivent les étapes techniques qui ont produit les données, et toutes les définitions nécessaires pour comprendre les termes utilisés, les types de données et leur structure, ainsi que toute hypothèse ou 
les décisions délibérées prises lors de la préparation des données en vue de leur publication.

### 3.3.1 Validation et manipulation des données

Que se passe-t-il donc si vous avez besoin de savoir ce que contiennent vos données pour pouvoir les utiliser ? Vous pouvez utiliser `pandas` pour explorer vos données. Notre nouveau fichier de sortie est à notre disposition :

In [35]:
import pandas as pd
import numpy as np

source = "data/lesson-programmatic/output_729f1bee-da2c-4497-901b-8098aab3b99a.csv"

df = pd.read_csv(source)
df.head()

Unnamed: 0,year,country_name,hdi_category,indicator_name,reference,values
0,,"Hong Kong, China (SAR)",HIGH HUMAN DEVELOPMENT,HDI rank,,21
1,,Singapore,HIGH HUMAN DEVELOPMENT,HDI rank,,25
2,,Korea (Republic of),HIGH HUMAN DEVELOPMENT,HDI rank,,26
3,,Cyprus,HIGH HUMAN DEVELOPMENT,HDI rank,,28
4,,Brunei Darussalam,HIGH HUMAN DEVELOPMENT,HDI rank,,30


In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2079 entries, 0 to 2078
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   year            0 non-null      float64
 1   country_name    2079 non-null   object 
 2   hdi_category    1892 non-null   object 
 3   indicator_name  2079 non-null   object 
 4   reference       693 non-null    object 
 5   values          2079 non-null   object 
dtypes: float64(1), object(5)
memory usage: 97.6+ KB


Nous nous attendons à ce que ce soit le cas, car la plupart des colonnes sont des `strings`, mais la colonne des `values` serait - nous l'espérons - un `float` ou un `int`. Au lieu de cela, c'est aussi un `object`. Nous savons que 
nos données contiennent `<2`, `..` et d'autres artefacts. Nous pouvons utiliser `pandas` pour simplement `replace` ce que nous n'aimons pas. Nous pouvons vérifier les problèmes de validation spécifiques. 

Mais maintenant nous sommes dans le domaine non pas de la validation, mais de la manipulation. Partant du principe que nous devons savoir ce que contiennent nos données, examinons les choses plus en profondeur. Mais ce n'est pas parce que nous savons ce que
est que cela ne signifie pas que nous sommes obligés de la changer.

Nous avons besoin d'un nouveau paquet Python. Tout comme vous avez installé `whyqd`, vous devez installer `PandasSchema`. Ouvrez votre terminal conda, assurez-vous que vous êtes dans le bon environnement de développement, et :

    pip install pandas_schema
    
La [documentation](https://tmiguelt.github.io/PandasSchema/) propose une série de méthodes pour analyser et valider vos données par rapport à un schéma. Nous allons aborder ce sujet superficiellement.

`PandasSchema` dispose d'un certain nombre de validateurs que nous pourrions utiliser :

- __InListValidation__ : Vérifie que chaque élément de cette colonne est contenu dans une liste de possibilités
- __DateFormatValidation__ : Vérifie que chaque élément de cette colonne est une date valide selon une chaîne de format fournie
- __InRangeValidation__ : Vérifie que chaque élément de la série se situe dans une plage numérique donnée
- __IsDistinctValidation__ : Vérifie que chaque élément de cette colonne est différent des autres éléments
- __LeadingWhitespaceValidation__ : Vérifie qu'il n'y a pas d'espace blanc en tête dans cette colonne
- __TrailingWhitespaceValidation__ : Vérifie qu'il n'y a pas d'espace blanc de fin dans cette colonne
- __IsDtypeValidation__ : Vérifie qu'une série a un certain de numpy dtype (c'est-à-dire si `object`, `int`, `float`, etc.)

Vous pouvez obtenir un `type``numpy`spécifique comme ceci :

    np.dtype(float)
    np.dtype(int)

Voyons comment cela se passe :

In [37]:
from pandas_schema import Column, Schema
from pandas_schema.validation import LeadingWhitespaceValidation, TrailingWhitespaceValidation, IsDtypeValidation, InListValidation

# Nous ne testerons que ces colonnes
columns = ["country_name", "hdi_category", "values"]
# Et ces catégories
hdi_categories = ["HIGH HUMAN DEVELOPMENT", "MEDIUM HUMAN DEVELOPMENT", "LOW HUMAN DEVELOPMENT"]

schema = Schema([
    Column("country_name", [LeadingWhitespaceValidation(), TrailingWhitespaceValidation()]),
    Column("hdi_category", [InListValidation(hdi_categories)]),
    Column("values", [IsDtypeValidation(np.dtype(float)), IsDtypeValidation(np.dtype(int))])
])

errors = schema.validate(df[columns])

print(F"Nombre d'erreurs :  {len(errors)}")
# Juste les 10 premiers
for error in errors[:10]:
    print(error)

Nombre d'erreurs :  189
The column values has a dtype of object which is not a subclass of the required type float64
The column values has a dtype of object which is not a subclass of the required type int32
{row: 112, column: "hdi_category"}: "nan" is not in the list of legal options (HIGH HUMAN DEVELOPMENT, MEDIUM HUMAN DEVELOPMENT, LOW HUMAN DEVELOPMENT)
{row: 113, column: "hdi_category"}: "nan" is not in the list of legal options (HIGH HUMAN DEVELOPMENT, MEDIUM HUMAN DEVELOPMENT, LOW HUMAN DEVELOPMENT)
{row: 114, column: "hdi_category"}: "nan" is not in the list of legal options (HIGH HUMAN DEVELOPMENT, MEDIUM HUMAN DEVELOPMENT, LOW HUMAN DEVELOPMENT)
{row: 115, column: "hdi_category"}: "nan" is not in the list of legal options (HIGH HUMAN DEVELOPMENT, MEDIUM HUMAN DEVELOPMENT, LOW HUMAN DEVELOPMENT)
{row: 116, column: "hdi_category"}: "nan" is not in the list of legal options (HIGH HUMAN DEVELOPMENT, MEDIUM HUMAN DEVELOPMENT, LOW HUMAN DEVELOPMENT)
{row: 117, column: "hdi_category

Nous avons beaucoup d'erreurs. Il manque des données catégorielles dans `hdi_category` et des données non numériques dans `values`. On s'attend à ce que cela arrive. D'autres ne le sont pas. Nous devons peut-être revenir en arrière et ajuster notre
méthode de transformation des données ?

Cependant, il est difficile d'amener les données à un endroit où quelques simples corrections programmatiques peuvent manipuler nos données dans n'importe quel format qui convient à l'utilisateur.

<div class="alert alert-block alert-warning">
    <p><b>Ne jamais faire confiance aux données sources:</b> toute donnée provenant de l'extérieur de votre environnement de travail ne 
        peut être fiable jusqu'à preuve du contraire. Peu importe si le fournisseur des données est digne de <i>confiance</i> ou s'il 
        prétend que ses données sont <i>valides</i>. Jusqu'à ce que la validation soit définitivement prouvée par vos propres systèmes, 
        vous ne pouvez pas simplement les importer dans votre environnement de travail sans l'avoir testée.
    </p>
    <p>Une fournisseur de données facilite le travail de ses utilisateurs/réutilisation  en s'assurant que ses données soient exploitables
       informatiquement, bien structurées, que tous les termes sont clairement définis et qu'il y a des métadonnées pour tout.  Faites 
       confiance, mais vérifiez.
    </p>
</div>

En guise d'exercice, décrivez les décisions que vous devez prendre pour corriger ou laisser ces données telles quelles.

### 3.3.2 Publication et citation des données

Une `citation` est une référence à une source. Dans l'édition universitaire, la citation de données nécessite un ensemble spécial de champs, avec :

- __authors__ : une liste de noms d'auteurs
- __title__: le titre complet de l'étude
- __repository__: l'organisation, ou le distributeur, responsable de l'hébergement des données et des métadonnées
- __doi__ : le [identificateur d'objet numérique](https://en.wikipedia.org/wiki/Digital_object_identifier) (DOI) persistant pour le dépôt

Il existe de nombreux styles de citation, mais les métadonnées sont plus importantes que la structure, et garantissent que le crédit approprié est accordé aux créateurs et aux responsables des données, et que
il existe des preuves quant à la probité des données.

_whyqd_ propose les éléments suivants comme preuves supplémentaires :

- __hash__ : BLAKE2b a des données de sortie
- __input data__ : une liste des données d'entrée par source originale, et le hachage de la source

Ceux d'entre vous qui connaissent l'empreinte numérique universelle de Dataverse (http://guides.dataverse.org/en/latest/developers/unf/index.html) se demandent peut-être où elle se trouve. _whyqd_, 
de même, produit un hachage unique pour chaque source de données, y compris les entrées, les données de travail et les sorties, sur la base de [BLAKE2b](https://en.wikipedia.org/wiki/BLAKE_(hash_function)) et est 
suffisamment universel pour que vous puissiez le gérer comme il se doit.

Toute personne possédant une copie de la méthode et des données d'entrée peut automatiquement réexécuter l'ensemble du fichier de méthode pour produire une "nouvelle" version des données de sortie et confirmer ainsi plus directement la 
la validité des données. Il s'agit simplement des données que nous avons fournies dans le cadre de notre schéma, ainsi que des valeurs de hachage qui identifient les fichiers de données (source et sortie) :

In [38]:
for l in method.citation.split(","):
    print(l)

2020-05-08
 UN Human Development Report 2007 - 2008
 db5b8f433748a578b59e5b11068b3c37ad4ada23bd6e8d2ce05f4b80b8b6161e99864d63b2e1721f6825f68a219ea28dce8178be9efc4f3de4c1e990694d9a9c
 [input sources: data/lesson-spreadsheet/HDR 2007-2008 Table 03.xlsx
 7d95ebdb36966c7b97b7b4e578cac70ea89463e95f64ccada60cf15a76f29c68b56f64aca9e28b8042e3c9ce37522fc03a13d1a1e8b05eac6edf26e09e5c32d5]


Vous êtes maintenant prêt à publier. Préparez ce qui suit :

- __Données d'entrée__ : les fichiers que vous avez utilisés comme entrées. Il arrive que vous ne les publiiez pas, surtout si les données sources sont confidentielles et que vous avez supprimé des champs qui ne devraient pas se trouver dans le
  domaine public ;
- __Schéma__ : le fichier de schéma des métadonnées, sous forme de JSON ou de tableau ;
- __Méthode__ : si vous avez utilisé _whyqd_, alors libérez également la méthode ;
- Données de sortie__ : les données de sortie que vous avez préparées ;
- __Métadonnées__ : si vous disposez d'autres métadonnées, telles que des références, des définitions spécifiques ou des descriptions des hypothèses formulées, publiez-les également.

Ensuite, rendez-vous sur la plateforme de gestion des données de votre organisation, téléchargez et publiez.

---

## 3.4 Tutoriel de la leçon

<div class="alert alert-block alert-success">
    <p><b>Tutoriel:</b></p>
    <p>Terminez le traitement du fichier avec lequel vous avez commencé à travailler dans la leçon 1.</p>
    <ul>
        <li><b>Schema</b> : Définissez un <i>whyqd</i> Schéma pour décrire et spécifier les critères de validation de votre ensemble de données.</li>
        <li><b>Morph et méthode</b> : Définissez les morphes appropriés et la méthode requise pour transformer vos données sources. Exécutez la transformation.</li>
        <li><b>Validation et manipulation</b> : Utilisez <i>PandasSchema</i> pour examiner vos données de sortie et décider comment vous voulez procéder si vous avez des erreurs. Vous pouvez 
            choisir de corriger ces erreurs, ou simplement écrire une justification pour laisser les données telles quelles. C'est à vous de décider, mais vous devez justifier votre décision.
        </li>
        <li><b>Citation</b> : Présentez votre citation, et dressez la liste des fichiers, métadonnées et informations que vous avez l'intention de publier dans le cadre de cet exercice.</li>
    </ul>
</div>

Veuillez compléter le tutoriel avant de poursuivre cette série.