<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 21 : Indexation de tables</h1>

## Notion de table de données
L'organisation tabulaire des données est très répandue et très ancienne.  
* Le bulletin d'un élève est organisé en table et indique, pour chaque matière, la note de l'élève, la moyenne de la classe, la note la plus basse et la plus haute de la classe et l'appréciation du professeur.  
* La *liste de présence* est une table indiquant, pour chaque élève s'il est présent ou absent ce jour.  
* Les résultats d'un match de tennis sont affichés eux aussi comme une table.  
Les lignes de la table correspondent aux joueurs, les colonnes indiquent le nombre de jeux gagnés dans chaque set.  
* Le relevé de compte bancaire indique, pour chaque opération, sa date, son montant et sa nature.  

Les tables documentées les plus anciennes sont d'ailleurs des livres de compte.

Les données tabulées ont évidemment une place importante en informatique.  
Avec l'introduction du **modèle relationnel** proposé par Edgar F. Codd dans les années 1970 alors qu'il est employé par IBM, les tables de données, stockées dans des bases de données deviennent rapidement le principal moyen de stocker de l'information structurée.  
Même sans utiliser de tels systèmes, la manipulation de données en tables depuis un langage de programmation est un outil important à maîtriser, car utilisé dans de nombreux domaines : calcul scientifique, intelligence artificielle, programmation Web, bio-informatique, informatique financière, etc ...

* Les tables représentent des **collections d'éléments**.  
* Chaque **ligne** représente un élément de la collection.  
* Les **colonnes** représentent les **attributs** d'un élément.  
Pour un attribut donné, les valeurs sont du **même type**.

Exemple :

| prénom       | jour | mois | année | projet                                          |
|:--------------|:------|:------|:-------|:-------------------------------------------------|
| Brian        | 1    | 1    | 1942  | programmer avec style                           |
| Grace        | 9    | 12   | 1906  | production automatique de code machine          |
| Linus        | 28   | 12   | 1969  | un petit système d'exploitation                 |
| Donald       | 10   | 1    | 1938  | tout sur les algorithmes                        |
| Alan         | 23   | 6    | 1912  | déchiffrer des codes secrets                    |
| Blaise       | 19   | 6    | 1623  | machine arithmétique                            |
| Margaret     | 17   | 8    | 1936  | assistance à l'atterrissage d'un module lunaire |
| Alan         | 1    | 4    | 1922  | tout ce qu'un programmeur devrait savoir        |
| Joseph Marie | 7    | 7    | 1752  | programmer des dessins                          |

Chaque ligne (autre que la ligne des entêtes) représente un élève.  
Les attributs de chaque élève (et donc les attributs de la table) sont les noms de colonnes : `prénom`, `jour`, `mois`, `année`, `projet`.  
Les prénoms et les projets sont des chaînes de caractères, les autres attributs sont des entiers.

## Lire un fichier au format CSV
La première opération concernant les données en table est le **chargement de données**.  
En effet, il est assez rare que le programme qui analyse les données soit celui qui les a produites initialament.  
Il nous faut donc un moyen simple pour échanger des données tabulées entre différents programmes.   

L'un des moyens les plus simple est l'utilisation d'un **fichier**.  
Le programme créant les données peut les sauvegarder dans un fichier.  
Un second programme peut alors charger ce fichier et travailler sur les données.  
Il faut que les deux programmes utilisent le même format de stockage.  
Pour les données tabulées, l'usage est d'utiliser des fichiers au format [CSV](https://tools.ietf.org/html/rfc4180) (Comma-Separated Values) :
* les fichiers CSV sont de simples fichiers texte
* chaque ligne du fichier correspond à une ligne de la table
* chaque ligne est séparée en champs au moyen du caractère `,`
* toutes les lignes du fichier ont le même nombre de champs
* la première ligne peut représenter des noms d'attributs ou commencer directement avec les données
* on peut utiliser des `"` pour délimiter le contenu des champs

[Exemple](Donnees/eleves.csv) :

    "prénom","jour","mois","année","projet"
    "Brian",1,1,1942,"programmer avec style"
    "Grace",9,12,1906,"production automatique de code machine"
    "Linus",28,12,1969,"un petit système d'exploitation"
    "Donald",10,1,1938,"tout sur les algorithmes"
    "Alan",23,6,1912,"déchiffrer des codes secrets"
    "Blaise",19,6,1623,"machine arithmétique"
    "Margaret",17,8,1936,"assistance à l'atterrissage d'un module lunaire"
    "Alan",1,4,1922,"tout ce qu'un programmeur devrait savoir"
    "Joseph Marie",7,7,1752,"programmer des dessins"

Charger un tel fichier en le lisant ligne à ligne et en découpant manuellement les lignes peut se révéler être une opération complexe.  
En effet, les champs peuvent contenir des retours à la ligne, des virgules ou même des `"`.

* Un champ contenant un retour à la ligne, une virgule ou des guillemets droits `"` doit obligatoirement être entre guillemets droits
* Un guillemet droit `"` utilisé comme caractère (et non comme **délimiteur**) doit être doublé.

Ainsi le [fichier suivant](Donnees/regles.csv) est valide :

    extension,commentaire
    .py,utilisé pour les fichiers source Python
    .jpeg,utilisé pour les fichiers d'image
    .csv,"Utilisé pour des fichiers CSV. Dans ces fichiers 
    on utilise des , et des "" pour séparer les données"    

On voit donc que gérer tous ces cas spéciaux peut être particulièrement difficile.

La bibliothèque standard Python propose le module [`csv`](https://docs.python.org/fr/3/library/csv.html) contenant des fonctions utilitaires pour lire et écrire des fichiers CSV.

Le code Python suivant permet de charger le fichier [`eleves.csv`](Donnees/eleves.csv) dans une variable `table`.

In [None]:
import csv

with open("Donnees/eleves.csv") as fichier:
    lecteur = csv.reader(fichier)
    table = [ligne for ligne in lecteur]

Après avoir importé le module `csv`, on ouvre le fichier `eleves.csv`.  

La fonction [`reader`](https://docs.python.org/fr/3/library/csv.html?highlight=csv%20reader#csv.reader) du module `csv` prend en argument un fichier ouvert et renvoie une valeur spéciale représentant le fichier CSV.  
Cet itérable peut être parcouru pour construire un tableau en compréhension.  
La variable `table` contient alors un tableau de tableaux de chaînes de caractères.

In [None]:
print(table)

Cet import reste toutefois limité : 
* la première ligne (contenant les attributs) a été chargée comme une ligne de donnée
* chaque ligne est représentée par un tableau, il est donc difficile d'identifié l'élément correspondant à chaque ligne
* toutes les données ont été considérées comme des chaînes de caractères

On peut utiliser la fonction [`DictReader`](https://docs.python.org/fr/3/library/csv.html?highlight=dictreader#csv.DictReader) du module `csv` qui s'utilise de manière similaire.

In [None]:
import csv

with open("Donnees/eleves.csv") as fichier:
    lecteur = csv.DictReader(fichier)
    table = [{attribut: ligne[attribut] for attribut in ligne} for ligne in lecteur]

La variable `table` contient alors un tableau de dictionnaires de chaînes de caractères.

In [None]:
print(table)

On constate que la ligne d'en-tête n'est pas stockée dans le tableau mais a été utilisée pour créer les clés des dictionnaires.

On peut accéder au projet de `Grace` avec :

In [None]:
table[1]["projet"]

Le format CSV reste le plus répandu des formats tabulés.  
On rencontre parfois des variantes utilisant un caractère de séparation autre que la virgule (par exemple `;`, `:` ou `|`).

Ces variations peuvent être prises en compte en utilisant le paramètre [`delimiter`](https://docs.python.org/fr/3/library/csv.html#csv-fmt-params).

In [None]:
import csv

with open("Donnees/eleves.csv") as fichier:
    lecteur = csv.DictReader(fichier, delimiter=',')
    table = [{attribut: ligne[attribut] for attribut in ligne} for ligne in lecteur]

#### Erreurs
Le format CSV étant très libre, la fonction `DictReader` ne provoque presque jamais d'erreur, même lorsque le fichier est mal formaté.
* La première ligne est toujours utilisé comme ligne d'entêtes.  
Si la première ligne du fichier CSV ne correspond pas aux entêtes, alors nous aurons une table surprenante.
```python
[{'Brian': 'Grace', 
  '1': '12', 
  '1942': '1906', 
  'programmer avec style': 'production automatique de code machine'},
 ...
```
* Si la ligne d'entête comporte moins de champs que les autres lignes, alors les champs supplémentaires sont associés à la clé `None`.  

Par exemple, si la première ligne du csv est :

    "prénom","jour","mois"

On obtiendra
```python
[{'prénom': 'Brian', 
  'jour': '1', 
  'mois': '1', 
  None: ['1942', 'programmer avec style']},
 ...
```
* Après avoir appelé la fonction `DictReader(fichier)`, le curseur interne correspondant au fichier est positionné en fin de fichier.  
Un deuxième appel à `DictReader(fichier)` renverra alors un tableau vide.  
Il convient donc de réouvrir le fichier ou de ré-initialiser le curseur avec l'instruction `fichier.seek(0)`.

## Validation des données
Les données importées sont considérées comme étant des chaînes de caractères (on souhaiterait que ce soit des entiers Python).  
De manière générale, on veut pouvoir tester que le tableau contient des données valides.  
Voici deux manières de créer une table valide lorsque l'on connaît les types des attributs *a priori*.

* En utilisant la notation par compréhension.  
On définit, en premier lieu une **fonction de validation**. 

In [None]:
def valide(dico: dict) -> dict:
    """Renvoie un dictionnaire après avoir validé et converti
    les valeurs associées aux clés du dictionnaire passé en paramètre"""
    prenom = dico["prénom"]
    jour = int(dico["jour"])
    mois = int(dico["mois"])
    annee = int(dico["année"])
    projet = dico["projet"]
    assert mois >= 1 and mois <= 12, "mois invalide dans le fichier CSV"
    return {"prénom": prenom, "jour": jour, "mois": mois, "année": annee, "projet": projet}

Cette dernière attend en argument un dictionnaire, en extrait les valeurs puis effectue des vérifications et conversions.  
La fonction quittera la programme avec une erreur si :
* le dictionnaire `dico` ne contient pas l'une des cinq clés attendues
* un appel à `int` échoue
* le mois n'est pas compris entre 1 et 12

In [None]:
table_valide = [valide(ligne) for ligne in table]
print(table_valide)

* On peut également effectuer des modifications *en place*

In [None]:
for ligne in table:
    ligne["jour"] = int(ligne["jour"])
    mois = int(ligne["mois"])
    assert mois >= 1 and mois <= 12, "mois invalide dans le fichier CSV"
    ligne["mois"] = mois
    ligne["année"] = int(ligne["année"])

Cette méthode modifie les dictionnaires de la table initiale. Cette dernière n'est donc plus accessible.

## Ecrire un fichier au format CSV
Le module `csv` de Python propose aussi des fonctions utilitaires pour écrire le contenu d'un tableau de dictionnaires dans un fichier CSV.

In [None]:
print(table_valide)

In [None]:
import csv

with open("Donnees/nouveau.csv", 'w') as sortie:
    transcripteur = csv.DictWriter(sortie, ["prénom", "jour", "mois", "année", "projet"])
    transcripteur.writeheader()
    transcripteur.writerows(table_valide)

* On commence par ouvrir un fichier en écriture (avec le paramètre `'w'`).  
Si le fichier existe déjà il est écrasé, sinon il est créé.  
* On appelle ensuite la fonction [`DictWriter`](https://docs.python.org/fr/3/library/csv.html?highlight=dictwriter#csv.DictWriter) en lui passant en argument le fichier ouvert en écriture et la liste des attributs.
* La fonction `DictWriter` renvoie un objet `transcripteur` permettant d'écrire des lignes dans un fichier.
* La méthode [`writeheader`](https://docs.python.org/fr/3/library/csv.html#csv.DictWriter.writeheader) doit être appelé en premier et écrit la ligne d'entêtes
* La méthode [`writerows`](https://docs.python.org/fr/3/library/csv.html#csv.csvwriter.writerows) prend la table en argument et écrit les lignes correspondantes dans le fichier.

## Utilisation de la bibliothèque [pandas](https://pandas.pydata.org/)
Nous pouvons aussi utiliser la bibliothèque pandas qui permet d’exprimer de façon simple, lisible et concise
de genre d'interrogation.

### Lecture et importation du fichier CSV
On s'interesse aux fichiers [`countries.csv`](Donnees/countries.csv) et [`cities.csv`](Donnees/cities.csv).

In [None]:
import pandas

pays = pandas.read_csv("Donnees/countries.csv", delimiter=';', keep_default_na=False)
villes = pandas.read_csv("Donnees/cities.csv", delimiter=';')

#### Remarques :
En ce qui concerne la fonction [`read_csv`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.read_csv.html) :
* L’option `keep_default_na=False` est nécessaire à cause de la gestion des données manquantes.  
Une absence est parfois précisée spécifiquement en écrivant `NA` plutôt que de ne rien mettre.  
Ainsi, à la base, la lecture de `NA` est interprété comme une donnée manquante.  
On est obligé de désactiver ce traîtement de base pour pouvoir utiliser `NA` comme tel (ici `NA` est le code de l’Amérique du Nord).
* On peut utiliser, de manières équivalentes, le paramètre `delimiter` ou `sep`, avec la fonction [`read_csv`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.read_csv.html)
* On n'utilise pas le gestionnaire de contexte `with open(...) as ...` car `pandas` importe l'intégralité du fichier comme une dataframe (il ne fait pas d'importation selon les lignes).

In [None]:
villes.head()

In [None]:
villes.sample(7)

In [None]:
villes.columns

In [None]:
villes.dtypes 

On remarque en particulier que pandas a reconnu que les champs `latitude`, `longitude` et `population` correspondent à des données numériques, et les traîte comme telles.

On peut aussi avoir des données statistiques :

In [None]:
villes.describe()

Enfin, on peut facilement ne conserver que les champs qui nous intéressent.  
Par exemple, si l’on ne veut que les noms des villes et leurs coordonnées, on utilise :

In [None]:
villes[["name", "latitude", "longitude"]]

### Dataframes et series
Les tables lues dans les fichiers CSV sont stockés par pandas sous forme de [**dataframes**](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html).  
On peut les voir comme un tableau de $n$-uplets nommés.  
Par exemple, l’enregistrement numéro 10 s’obtient en exécutant :

In [None]:
villes.loc[10]

et son nom s’obtient comme pour un dictionnaire :

In [None]:
villes.loc[10]["name"]

Une [**série**](https://pandas.pydata.org/pandas-docs/stable/reference/series.html) est ce que l’on obtient à partir d’un dataframe en ne sélectionnant qu’un seul champ.

In [None]:
villes["name"]

## Exercices

### Exercice 1
Trouver toutes les erreurs de syntaxe dans le fichier CSV ci dessous :

    Titre,Auteur,Extrait,Année
    Air vif,Eluard,J'ai regardé devant moi, 1951
    Je vis...,Labé,J'ai chaud extrême en endurant froidure
    Heureux...,du Bellay,Heureux qui comme Ulysse, a fait ..., 1552
    "La voix,Baudelaire,Mon berceau s'adossait...",1857

### Exercice 2
On souhaite stocker dans une table l'inventaire d'un magasin.  
Ce dernier vend des biens dont il possède une certaine quantité en stock.  
Les produits peuvent être indisponibles (épuisés chez le fournisseur) et être en vente libre ou non.  
Proposer des noms de colonnes et types Python pour une telle table d'inventaire.

### Exercice 3
Ecrire une fonction `stats_csv(fichier)` où `fichier` est le nom d'un fichier CSV et qui affiche le nombre de lignes et le nombre de colonnes de la table stockée dans le fichier.

### Exercice 4
Ecrire une fonction générique `affiche_csv(tab)` prenant en argument un tableau non vide de dictionnaires et écrivant le fichier CSV correspondant à l'écran.  
On procède par étapes :
1. Soit `s` une chaîne de caractères.  
L'instruction [replace](https://docs.python.org/fr/3/library/stdtypes.html?highlight=replace#str.replace) : `s2 = s.replace(chaine1, chaine2)` stocke dans `s2` une copie de `s` où toutes les occurrences de la chaîne `chaine1` ont été remplacées par `chaine2`.  
Ecrire une fonction `guillemets(s)` qui prend en argument une chaîne `s` et renvoie une copie où tous les guillemets droits ont été doublés.
2. Ecrire une fonction `compare_cles(dico, liste)` qui prend en argument un dictionnaire `dico` et une liste de chaîne de caractères `liste` et qui vérifie que les clés de `dico` sont exactement les éléments de `liste`.
3. Ecrire une fonction `affiche_champ(val, dernier)` où `val` est une valeur Python quelconque et `dernier` un booléen.  
La fonction affiche `val`, convertie en chaîne, dans laquelle les guillemets droits ont été doublés, entourés de guillemets droits `"`.  
Si `dernier` vaut `True`, afficher un retour à la ligne après la valeur, sinon afficher une virgule.
4. Utiliser les fonctions précédentes pour écrire `affiche_csv`.  
On pourra d'abord extraire du premier dictionnaire le liste des clés, puis itérer sur tous les dictionnaires et écrire toutes les valeurs.  
Si une ligne n'a pas de bonnes clés, alors elle est ignorée.

### Exercice 5
* Ecrire un fichier au format CSV décrivant le bon de commande suivant, dans lequel `réf` et `désignation` contiennent des chaînes de caractères, la colonne `prix` des nombres décimaux et la colonne `qté` des nombres entiers.  

| réf   | désignation            | prix | qté |
|-------|:-----------------------|------|-----|
| 18653 | lot crayons HB         | 2,30 | 1   |
| 15223 | stylo rouge            | 1,50 | 3   |
| 20112 | cahier petits carreaux | 3,50 | 2   |
* Ecrire un programme qui lit un fichier CSV du même format et en extrait une table de données sous la forme d'un tableau de dictionnaires.  
On souhaite récupérer les données au format adequat.  
On pourra donc utiliser une fonction de validation pour récupérer les données et les convertir au format adéquat.  
En particulier, il faudra être vigilant sur la récupération des prix (on pourra utiliser la fonction [`replace`](https://docs.python.org/fr/3/library/stdtypes.html#str.replace)).

## Liens :
* Document accompagnement Eduscol : [Manipulation de tables](https://cache.media.eduscol.education.fr/file/NSI/78/1/RA_Lycee_G_NSI_trtd_tables_1170781.pdf)
* Document accompagnement Eduscol : [Manipulation de tables avec la bibliothèque Pandas](https://cache.media.eduscol.education.fr/file/NSI/78/0/RA_Lycee_G_NSI_trtd_pandas_1170780.pdf)
* [Plateforme ouverte des données publiques françaises](https://www.data.gouv.fr/fr/)
* [Plate-forme Open Data de l’Éducation nationale](https://data.education.gouv.fr/)
* [Paris data](https://opendata.paris.fr/)
* [Institut National de la Statistique et des Etudes Economiques](https://www.insee.fr/)
* [Institut National d'Etudes Démographiques](https://www.ined.fr/fr/)
* [GeoNames](https://www.geonames.org/)