# _Module 1 leçon 2_: Validation des données restructurées par rapport à un schéma à l'aide d'un tableur

<div class="alert alert-block alert-warning">
    <b>A la fin de la formation, vous pourrez:</b>
    <br>
    <ul>
        <li>Utiliser des méthodes d'anonymisation des données, y compris la suppression des adresses et des noms, 
            et l'obscurcissement des champs.</li>
        <li>Valider des données à l'aide de Microsoft Excel.</li>
        <li>Apprendre à valider sur des schémas définis les données exploitables par machine.</li>
    </ul>
</div>

---

## 2.1 Méthodes d'anonymisation des données : rédaction

Il existe un large éventail de techniques pour anonymiser des données. Elles se répartissent toutefois en deux grandes catégories :

- __Réaction__ : technique dans laquelle nous supprimons des champs ou des informations dans des lignes de données tout en conservant une intégrité suffisante pour permettre une analyse sémantique ;
- __l'Agrégation__ : nous agrégeons délibérément les données pour garantir l'anonymat des données aberrantes ;

### 2.1.1 Méthodes de rédaction

Avant de commencer à faire quoi que ce soit, nous devons comprendre notre ensemble de données, et savoir comment nous avons l'intention de le censurer _tout en maintenant son intégrité interne afin de pouvoir continuer à effectuer des analyses_.

#### Suppression d'attributs

Cette méthode exige que nous supprimions un champ entier. C'est l'une des premières mesures que nous pouvons prendre, et la plus facile.

- Supprimer les données dont nous n'avons pas besoin
- Supprimer les données que nous ne pouvons pas facilement éliminer

Il s'agit d'une mesure destructrice puisque la suppression supprime les données originales.

#### Pseudonymisation

La pseudonymisation est le remplacement des données d'identification par des valeurs aléatoires. Elle peut être réversible, si vous créez une clé entre les données et les valeurs générées, mais irréversible si vous jetez délibérément les clés. Les pseudonymes persistants permettent de relier un même individu à travers différents ensembles de données.

#### Généralisation

La généralisation est une réduction délibérée de la précision des données, telle que la conversion de l'âge d'une personne en une fourchette, ou d'un lieu précis en un lieu moins précis.

- `range`: conversion de nombres précis en quantiles ou en plages statistiques ;
- `cluster` : agrégation de données géospatiales en clusters statistiquement moins significatifs - ceci peut également être utilisé pour masquer les valeurs aberrantes ;

Concevoir les plages de données avec des tailles appropriées. Parfois, les quantiles sont les plus appropriés, parfois nous utilisons des définitions statistiques (telles que des plages géospatiales conçues pour inclure un nombre suffisant de personnes afin de réduire la désanonymisation).

#### Brassage

Le brassage consiste à réorganiser les données de manière à ce que les valeurs des attributs individuels soient toujours représentées dans l'ensemble de données, mais ne correspondent généralement pas aux enregistrements originaux. Cette méthode ne convient pas à toutes les données. L'échange de maladies entre différents patients rendra certainement les données anonymes, mais confondra également toute analyse épidémiologique.

### 2.1.2 Méthodes d'agrégation

L'agrégation est bien plus destructrice que la rédaction. Nous perdrons la résolution sur la morphologie des patients et nous perdrons les relations directes entre les données en échange de résumés de ces données. Mais nous gagnerons en sécurité pour les personnes concernées.

Là où la rédaction est guidée presque exclusivement par les données, l'agrégation est guidée par les objectifs de recherche sur les données. Toute forme d'agrégation limitera ce qui peut être fait et il est essentiel de prendre conscience de ces limites.

Les données de recensement sont généralement agrégées de cette manière, les microdonnées individuelles (réponses de chaque ménage) étant uniquement mises à la disposition des chercheurs accrédités, tandis que les versions agrégées sont mises à la disposition du public.

Notre objectif sera de créer des groupes de données et de procéder ensuite à des agrégations sur chaque groupe. L'éventail des agrégats que nous pouvons former comprend

- `count` : comptage des membres individuels du groupe ;
- `totals` : sommes des valeurs et sommes des sous-groupes à l'intérieur des valeurs (par exemple, durée totale de la maladie et durée de chaque type de maladie) ;
- `averages` : y compris la `mean`, la `median`  et le `mode` des séquences de données ;
- `distributions` : y compris les`quantiles`, les `normals` ou d'autres types de distribution.

Les groupes peuvent être constitués par des "catégories" spécifiques ou des plages "géospatiales".

À bien des égards, un cours complet de statistiques est nécessaire pour bien effectuer les agrégations.

<div class="alert alert-block alert-warning">
    <p><b>Les agrégations nécessitent une certaine familiarité et expérience avec les données à agréger. </b> Il est très difficile de se contenter d'un ensemble de données aléatoires et de savoir comment les agréger
        d'une manière qui favorise l'analyse et en extrait le sens. Il est peu probable que vous soyez responsable de l'agrégation de données dont vous n'avez pas l'expérience, et lorsque vous avez
        l'expérience, savoir comment l'agréger deviendra plus clair.</p>
</div>

---

## 2.2 Appliquer des processus de validation de données à des cellules dans un tableur

Ce qui suit est adapté d'un [tutoriel Microsoft Office](https://support.office.com/en-gb/article/apply-data-validation-to-cells-29fecbcc-d1b9-42c1-9d76-eff3ce5f7249). Cette approche fonctionnera aussi bien dans OpenOffice que dans Google Sheets, bien que les étapes spécifiques soient différentes.

Microsoft a un fichier d'exemple que vous pouvez [télécharger](http://download.microsoft.com/download/9/6/8/968A9140-2E13-4FDC-B62C-C1D98D2B0FE6/Data%20Validation%20Examples.xlsx).

### 2.2.1 Spécifier la validation pour les types de données

NB: dans ce paragraphe nous vous indiquons les instructions sous excel à la fois en français dans le texte et en anglais en image. Vous devriez pouvoir trouver les options si vous avez une version française ou anglaise.

Le processus est simple :

1. Sélectionnez les cellules d'une colonne spécifique que vous souhaitez limiter par type
2. Sélectionnez __Données > Outils de données > Validation des données__.

  ![Validation des données Excel](images/excel-data-validation.png)

3. Dans l'onglet __Option__, sous __Autoriser__, sélectionnez l'un des éléments suivants:

  ![Paramètres de validation](images/excel-validation-settings.jpg)
 
  - __Nombre Entier__: restreindre la cellule pour n'accepter que des valeurs `integer`.
  - __Décimal__: restreint la cellule pour n'accepter que les valeurs `float` ou `number`.
  - __Liste__: choisir des données dans une liste déroulante, et limitée par les valeurs contraintes par `enum`.
  - __Date__: restreindre la cellule pour n'accepter que les `date`.
  - __Heure__: restreindre la cellule pour n'accepter que les `datetime`.
  - __Longueur de Texte__: restreindre la longueur du texte, équivalent aux contraintes `maxLength`.
  - __Personalisé__: pour une formule personnalisée.
 
4. Sous __Données__, vous pouvez sélectionner une condition :

  - Comprise entre
  - non comprise entre
  - égale à
  - différente de
  - supérieure à
  - inférieure à
  - supérieure ou égale à
  - inférieure ou égale à

5. Définissez les autres valeurs requises, en fonction de ce que vous avez choisi pour __Autoriser__ et __Données__. Par exemple, si vous faites un choix entre les valeurs __Minimum:__ et __Maximum:__ pour la ou les cellules.
6. Cochez la case __Ignorer si vide__ si vous souhaitez ignorer les espaces vides (c'est-à-dire pour les données manquantes). Notez, cependant, qu'Excel n'a pas de place pour les caractères spéciaux que vous pourriez utiliser comme marqueur pour les données manquantes (par exemple `..`), de sorte que ceux-ci seront mentionnés comme des erreurs.
7. Sélectionnez __OK__.

Maintenant - seulement pour les nouvelles données - si un utilisateur essaie d'entrer une valeur qui n'est pas valide, une fenêtre pop-up apparaît avec le message "Cette valeur ne correspond pas aux restrictions de validation des données pour cette cellule". Nous allons bientôt lancer la validation de vos données existantes, mais d'abord un détour par les listes (`lists`).

### 2.2.2 Les listes sont un type spécial

Avant de pouvoir valider un type  `list`, vous devez spécifier des termes valables. Dans Excel, cela nécessite une [série d'étapes supplémentaires](https://support.office.com/en-us/article/create-a-drop-down-list-7693307a-59ef-400a-b769-c5402dce407b).

1. Créez une nouvelle feuille de calcul dans Excel, et mettez-y la liste des termes que vous voulez définir comme valeurs valides. Vous pouvez rapidement convertir votre liste en tableau en sélectionnant n'importe quelle cellule de la plage, et en appuyant sur __Ctrl+L__ (attention ces raccourcis pouvent variés d'une versoin d'excel à une autre).

  ![Liste de termes](images/excel-list-terms.png)
  
2. Ajoutez les données de votre liste et formatez-les sous forme de table (__Accueil > Styles > Mettre sous forme de tableau__).
3. Vous pouvez nommer votre table à partir de l'onglet outils de la table - celle-ci pourrait s'appeler "CityTable".  Cela vous aidera à garder une trace de plusieurs tables.
4. Dans le processus de validation indiqué ci-dessus, allez à 3. et sélectionnez __Liste__, puis ajoutez une plage nommée ou un nom de table pour votre liste. 
5. Indiquez une source pour vos termes via l'onglet __Données > Validation de Données > Autoriser > Liste > Source__. Ensuite, spécifiez votre liste de termes comme étant n'importe laquelle :

  ![Source de la liste](images/excel-list-source.png)

  - Vous pouvez sélectionner directement la feuille de liste et la plage (par exemple `=Sheet1!A4:A10`)
  - Convertissez votre liste en une table avec __Ctrl+L__, puis à partir de l'onglet __Création de Tableau__ donnez un nom à votre table, ce qui vous permet de faire référence au nom de la table et à la colonne (par exemple `=CityTable[City]`)
  - Dans l'onglet __Formules__, sélectionnez __Gestionnaire de Nom__, créez un __Nouveau__ élément avec un nom approprié (par exemple `CityList`), et référencez les cellules (par exemple `=Sheet1!A4:A10`), ce qui vous permet ensuite de référencer votre liste n'importe où (par exemple `=CityList`)

### 2.2.3 Valider et obtenir des messages d'erreur pour vos données existantes

Après avoir précisé les règles de validation de vos données existantes, vous risquez d'être déçu. Excel ne vous informe pas automatiquement si ces cellules contiennent des données non valides. Voici un moyen rapide de [mettre en évidence les cellules non valides existantes](https://support.office.com/en-us/article/more-on-data-validation-f38dee73-9900-4ca6-9301-8a5f6e1f0c4c) en encerclant les valeurs:

  ![Encerclez les données non valides](images/excel-circled-cell.gif)

1. Pour appliquer les cercles, sélectionnez les cellules que vous voulez évaluer et allez à __Données > Outils de données > Validation de Données > Entourer les Données non valides__.

  ![Liste des termes](images/excel-data-circle.png)
  
2. Si vous corrigez une entrée non valable, le cercle disparaît automatiquement.
3. Pour supprimer la validation des données pour une cellule, sélectionnez-la, puis allez à __Données > Outils de données > Validation de Données > Options > Effacer Tout__.

C'est maintenant à votre tour :

<div class="alert alert-block alert-success">
    <p><b>Exercice:</b></p>
    <p>En utilisant le fichier restructuré que vous avez créé dans la leçon 1.1, spécifiez les critères de validation pour chaque colonne. Vérifiez les données non valides et corrigez-les si nécessaire.</p>
    <p> Une chose que vous pourriez remarquer dans vos données ... parfois vous avez un entier non valide spécifié comme une plage, par exemple <code>200-210</code>. Voici quelques idées sur la façon de traiter ce problème.
    <ul>
        <li><b>Fourchettes au lieu de nombres</b> : si, par exemple, votre fourchette est <code>200-210</code>, vous pourriez réinitialiser cette valeur en tant que <code>200</code>, ou <code>210</code> ou même la moyenne de la fourchette <code>205</code>. Quoi que vous décidiez, documentez votre décision dans votre fichier de métadonnées .</li>
        <li><b>Fourchettes de dates</b> : il en va de même pour les dates, bien que vous deviez être prudent ... il est probable qu'une valeur s'applique à la fin de la fourchette de dates, et non au début ou au milieu, donc par exemple <code>2008-2009</code> est le plus susceptible d'être <code>2009</code></li>
    </ul>
</div>

<div class="alert alert-block alert-info">
    <b>Références:</b>
    <br>
    <ul>
        <li><a href="https://support.office.com/en-gb/article/apply-data-validation-to-cells-29fecbcc-d1b9-42c1-9d76-eff3ce5f7249">Apply data validation to cells</a></li>
        <li><a href="https://support.office.com/en-us/article/create-a-drop-down-list-7693307a-59ef-400a-b769-c5402dce407b">Create a drop-down list</a></li>
        <li><a href="https://support.office.com/en-us/article/more-on-data-validation-f38dee73-9900-4ca6-9301-8a5f6e1f0c4c">More on data validation</a></li>
    </ul>
</div>

---

## 2.3 Enregistrement de votre fichier validé en tant que valeur séparée par des virgules

Les fichiers de valeurs séparées par des virgules (`.csv`) sont des fichiers texte dans lesquels le caractère de virgule `,` sépare chaque champ de texte. Lorsqu'une virgule apparaît dans la valeur - qu'il s'agisse d'une `string` ou `number` - la valeur est alors entourée de guillemets, par exemple `100, 200, "20,000"` indique trois valeurs dans trois champs séparés.

Vous pouvez modifier le caractère de séparation utilisé dans les fichiers texte délimités et .csv, et il existe un large éventail de formats (par exemple `;`, `*`). Il y a un grand nombre de raisons à cela, et c'est en partie pour cette raison que les fichiers au format CSV ne sont pas la panacée que nous pourrions espérer pour assurer la cohérence des données ouvertes.

Dans Excel, vous pouvez [exporter une feuille de calcul](https://support.office.com/en-gb/article/import-or-export-text-txt-or-csv-files-5250ac4c-663c-47ce-937b-339e391393ba) au format CSV en utilisant __Save As__ comme suit :

1. Allez à __Fichier > Enregistrer une copie__.
2. Cliquez sur __Parcourir__.
3. Dans la boîte de dialogue __Enregistrer sous__, dans la case __Type__, choisissez le format de fichier texte pour la feuille de travail ; par exemple, cliquez sur __CSV UTF-8 (délimité par des virgules)__ ou __CSV (séparateur: point virgule)__ (les options peuvent variées en fonction de la version d'Excel).
4. Naviguez jusqu'à l'emplacement où vous souhaitez enregistrer le nouveau fichier texte, puis cliquez sur __Enregistrer__.

> Vous ne pouvez exporter que la feuille de calcul actuelle (c'est-à-dire celle qui est en vue lorsque vous terminez ce processus) vers le nouveau fichier CSV. Vous pouvez enregistrer d'autres feuilles de calcul en tant que fichiers texte séparés en répétant cette procédure pour chaque feuille de calcul.

> Toutes les caractéristiques spécifiques de la feuille de calcul seront perdues. Le formatage (gras, couleurs, etc.), les formules et les critères de validation seront supprimés, ne laissant que les données dans un fichier texte.

---

## 2.4 Tutoriel de la leçon

<div class="alert alert-block alert-success">
    <p><b>Tutoriel:</b></p>
    <p>Terminez le traitement du fichier avec lequel vous avez commencé à travailler dans la leçon 1.</p>
    <ul>
        <li><b>Vérifier les données non valides</b> : Spécifier les critères de validation dans votre application tableur, vérifier les données non valides et les corriger si nécessaire..</li>
        <li><b>Save as CSV</b> : Exportez vos données exploitables par machine depuis votre tableur et enregistrez-les sous forme de <code>.csv</code>.</li>
    </ul>
</div>

Veuillez compléter le tutoriel avant de poursuivre cette série. Si vous participez à un cours, veuillez envoyer votre demande de tutorat par le biais du processus requis (par courriel ou en ligne).