# Structure de données : les tables

## Introduction

L'organisation de données en tables est très répandue. On parle de données tabulées. On en trouve de nombreux exemples :

- Le bulletin de notes d'un élève où chaque ligne est construite de manière identique mais avec des valeurs différentes.
- Les meilleures entrées au cinéma en France depuis 1945.

**Exemple :** les meilleurs entrées au cinéma en France depuis 1945

![image](../img/donnees01.png)


## Tables de données en informatique

Les données en table ont une place importante en informatique, présentes dans la plupart des applications web. Les tables de données sont stockées dans des bases de données sur des serveurs dédiés constituant des data center très énergivore. 

Des tables peuvent être liées entre elles, on parle alors de **bases de données relationnelles** qui est au programme de *Terminale*.

Si les données sont structurées en tables, il faut néanmoins utiliser des programmes appelés **SGBD** pour pouvoir les exploiter.

### Définitions

- Une table est une collection d'éléments ou **d'enregistrements**.
- Chaque ligne représente un élément de la collection ou un **enregistrement** de la table.
- Les colonnes représentent les **attributs** d'un élément ou les champs de la table. 
- On définit le **domaine de valeurs** de chaque attribut. Cela signifie que toutes les valeurs d'un attribut sont du même type (chaine de caractères, nombres eniers, flottants, etc). 


**Exemple :** en reprenant l'exemple précédent, on peut identifier chaque élément :

![image](../img/donnees02.png) 

1. Chaque ligne est un **enregistrement** de la table;
2. Les **attributs** des éléments sont : le rang, le titre, le réalisateur, l'année de sortie, la nationalité et le nombre d'entrées.
3. Le domaine de valeurs de l'attribut **année de sortie** est du type **entier**;    
Le domaine de valeurs de l'attribut **nombre d'entrées** est du type **flottant**;    
Le domaine de valeurs de l'attribut **titre** est de type **chaine de caractères**.

## Le format de table CSV

### Définition

Un format simple qui permet d'enregistrer de nombreuses données est [CSV](https://fr.wikipedia.org/wiki/Comma-separated_values) acronyme de **Comma-separated values** soit **valeurs séparées par des virgules** en français.

Un fichier au format CSV est donc un fichier texte, d'extension **.csv**, contenant des données séparées par des virgules ou point-virgules ou deux points.

- Chaque ligne du fichier correspond à un **enregistrement** de la table.
- Sur une même ligne, les **attributs** sont séparé par une virgule ; le séparateur peut être un point-virgule.
- Chaque ligne du fichier contient le même nombre d'attributs.
- La première ligne du fichier contient les noms des attributs.

**Exemple :** fichier CSV des meilleurs films ...

![image](../img/donnees03.png)

## Tables en Python

Les tables en Python ne sont pas une structure propres. Il faut les construire avec les listes et les dictionnaires:
- la liste contient l'ensemble des enregistrement : c'est donc la table;
- chaque enregistrement de la table est défini par un dictionnaire;
- les clefs communes des dictionnaires sont les attributs de la table;
- les valeurs associées aux clefs sont les valeurs des différents enregistrements.

**Exemple :** meilleures entrées au cinéma ...

La table regroupant les meilleures entrées au cinéma peuvent se présenter de la façon suivante en Python:

```python
table = [ {'rang':1,'titre':'Titanic','réalisateur':'J. Cameron','année de sortie':1998,'nationalité':'US', 'entrées':21.78},
         {'rang':2,'titre':'Bienvenue chez les Ch\'tis','réalisateur':'D. Boon','année de sortie':2008,'nationalité':'FR', 'entrées':20.44},
         ...
        ]
```

## Python et les fichiers CSV


### Ouverture d'un fichier en Python


L'ouverture d'un fichier se fait avec la fonction \textbf{open}. La syntaxe est : 

```python
with open('fichier', mode='x', encoding='enc') as variable:
```

- Le premier paramètre est le nom du fichier à ouvrir avec son extension et le chemin du dossier le contenant.
- Le second paramètre **x** indique le mode d'accès au fichier : soit en lecture **r**, soit en écriture **w**, soit les deux **rw** ou en ajout **a**.
- l'encodage est défini par défaut mais il est fortement conseillé de l'ajouter. Pour une bonne gestion des accents, on utilisera l'unicode soit **utf8** ou **utf-8**.

**Exemple :** ouvrir un fichier en python

```python
with open('mec.csv', mode='r', encoding='utf8') as f:
    for ligne in f:
        print(ligne)
```
Le résultat de l'affichage est le suivant :

```
1;Titanic;J. Cameron;1998;US;21,78
2;Bienvenue chez les Ch'tis;D. Boon;2008;FR;20,44
3;Intouchables;E. Tolédano, O. Nakache;2011;FR;19,51
4;La Grande Vadrouille;G. Oury;1966;FR/GB;17,33
5;Autant en emporte le vent;V. Fleming;1950;US;16,73
6;Il était une fois dans l'Ouest;S. Leone;1969;IT;14,89
7;Le Livre de la jungle;W. Reitherman;1968;US;14,79
8;Avatar;J. Cameron;2009;US;14,78
9;Les 101 Dalmatiens;W. Disney;1961;US;14,70
10;Astérix et Obélix : mission Cléopâtre;A. Chabat;2002;FR;14,41
...
```

On peut remarquer que le séparateur ici est un pont virgule et le séparateur décimal est une virgule au lieu d'un point. Malheureusement très répandu en France ce qui est souvent à l'origine d'erreurs !

### Module csv de Python
Python dispose d'un module **csv** qui permet de manipuler les fichiers csv correctement formatés. Comme tous les modules, il suffit de l'importer pour utiliser les différentes méthodes qu'il propose.

```python
import csv
```
On peut importer uniquement les méthodes qui nous sont utiles. Par exemple :

```python
from csv import DictReader, DictWriter
```

Pour manipuler les données d'un fichier csv:
1. On utilise la fonction python \textbf{open} qui permet de charger le contenu du fichier csv en mémoire permettant ainsi l'accès aux données de la table.    
2. Lorsque le fichier est ouvert, on utilise les méthodes du **module csv** pour obtenir les données de la table et les affecter à une variable. 
3. Pour obtenir les données en dictionnaires, on utilise la fonction **DictReader** qui prend en argument un fichier ouvert csv.    
Chaque ligne lue depuis le fichier CSV est renvoyée comme dictionnaire dont les clés sont les attributs donnés dans la première ligne du fichier CSV.

### Méthode csv.DictReader

**Exemple :** traitement du fichier mec.csv contenant la table des meilleures entrées au cinéma.

Ce fichier contient les données suivantes:
```
rang;titre;réalisateur;année de sortie;nationalité;entrées
1;Titanic;J. Cameron;1998;US;21,78
2;Bienvenue chez les Ch'tis;D. Boon;2008;FR;20,44
3;Intouchables;E. Tolédano, O. Nakache;2011;FR;19,51
4;La Grande Vadrouille;G. Oury;1966;FR/GB;17,33
5;Autant en emporte le vent;V. Fleming;1950;US;16,73
6;Il était une fois dans l'Ouest;S. Leone;1969;IT;14,89
7;Le Livre de la jungle;W. Reitherman;1968;US;14,79
8;Avatar;J. Cameron;2009;US;14,78
9;Les 101 Dalmatiens;W. Disney;1961;US;14,70
10;Astérix et Obélix : mission Cléopâtre;A. Chabat;2002;FR;14,41
11;Les Dix Commandements;C.B. DeMille;1958;US;14,24
12;Ben Hur;W. Wyler;1960;US;13,86
13;Les Visiteurs;J.M. Poiré;1993;FR;13,67
14;Le Pont de la rivière Kwai;D. Lean;1957;GB;13,48
15;Cendrillon;W. Disney;1950;US;13,27
16;....
```
On récupère les données de ce fichier csv et on crée une table c'est à dire une liste de dictionnaires:

```python
# On importe le module CSV de la bibliothèque Python
from csv import DictReader

table=[]
# On ouvre en lecture le fichier CSV, 'r' signifie 'readable' soit en lecture
with open("mec.csv",mode='r',encoding='utf8') as f:
    # On crée une variable data et on lui affecte le contenu du fichier CSV avec le séparateur ';'
    data=csv.DictReader(f,delimiter=';')
    # on itère sur le contenu de la variable data
    for ligne in data:
        # on ajoute à la table (liste) les lignes du fichier en les transformant en dictionnaires
        table.append(dict(ligne))
    # on ferme le fichier
    f.close()
    # La variable table contient l'ensemble des données du fichier
    # On accède à chaque ligne de la variable par itération
    # Les valeurs de la table sont des dictionnaires.
```

La variable table contient les valeurs suivantes :

```
[{'rang': '1',
  'titre': 'Titanic',
  'réalisateur': 'J. Cameron',
  'année de sortie': '1998',
  'nationalité': 'US',
  'entrées': '21,78'},
 {'rang': '2',
  'titre': "Bienvenue chez les Ch'tis",
  'réalisateur': 'D. Boon',
  'année de sortie': '2008',
  'nationalité': 'FR',
  'entrées': '20,44'},
 {'rang': '3',
  'titre': 'Intouchables',
  'réalisateur': 'E. Tolédano, O. Nakache',
  'année de sortie': '2011',
  'nationalité': 'FR',
  'entrées': '19,51'},
 {'rang': '4',
  'titre': 'La Grande Vadrouille',
  'réalisateur': 'G. Oury',
  'année de sortie': '1966',
  'nationalité': 'FR/GB',
  'entrées': '17,33'},
 {'rang': '5',
  'titre': 'Autant en emporte le vent',
  'réalisateur': 'V. Fleming',
  'année de sortie': '1950',
  'nationalité': 'US',
  'entrées': '16,73'},
```

## Écrire dans un fichier CSV

Pour écrire les données sous forme de **dictionnaires**, on utilisera la méthode **DictWriter** du module **csv**.

Pour créer correctement un fichier csv contenant les données de notre table, il faut:
- écrire les noms des attributs sur la première ligne du fichier, séparés par une virgule;
- écrire chaque enregistrement sur une ligne du fichier.

La méthode **DictWriter** prend en argument un fichier ouvert csv (s'il n'existe pas, il sera créé) et la liste des attributs de notre table. 

Ensuite, on écrit dans le fichier les attributs sur la première ligne avec la méthode **writehaeder** puis les enregistrements de notre table avec la méthode **writerows**.

**Exemple :** Écriture dans un fichier CSV avec la fonction **csv.DictWriter**

Une table contient les enregistrements suivants:

```python
table = [ {"nom":"Victor","prénom":"Émile","âge":10},\
          {"nom":'Jean',"prénom":'Albert',"âge":13},\
          {"nom":'Cruz',"prénom":'Vera',"âge":24},\
          {"âge":31,"nom":"Cruz","prénom":"Pénélope"}
        ]
```

On veut enregistre ces données dans un fichier **identite.csv** :

```python
# On importe le module CSV de la bibliothèque Python
import csv
# On crée une variable dicos contenant toutes les dictionnaires à insérer
table = [ {"nom":"Victor","prénom":"Émile","âge":10},\
          {"nom":'Jean',"prénom":'Albert',"âge":13},\
          {"nom":'Cruz',"prénom":'Vera',"âge":24},\
          {"âge":31,"nom":"Cruz","prénom":"Pénélope"}
        ]
# On ouvre en écriture le fichier CSV, 
#'w' signifie que le fichier est ouvert en écriture
with open("identite.csv",mode='w',encoding='utf8',newline='') as fichier:
    # On crée une variable et on lui affecte le contenu du fichier CSV avec l'entête
    data = csv.DictWriter(fichier,["nom","prénom","âge"])
    # On ajoute au fichier csv les lignes de la table
    data.writeheader()
    data.writerows(table)
```

Pour contrôler que tout s'est correctement passé, on lit les données du fichier **identite.csv** que l'ont affiche :

```python
with open('identite.csv',mode='r', encoding='utf-8') as fichier:
    for ligne in fichier:
        print(ligne,end='')
```

L'affichage que l'on obtient est le suivant:

```
nom,prénom,âge
Victor,Émile,10
Jean,Albert,13
Cruz,Vera,24
Cruz,Pénélope,31

```

Sur la première ligne, on a bien les clefs des différents dictionnaires qui sont les attributs de notre table. Sur les lignes suivantes on a les différents enregistrements, correctement placés, dans la même colonne que l'attribut.

## Les méthodes reader et writer du module csv

Le module csv comprend deux méthodes **reader** et **writer** qui permettent de manipuler des listes python.

**Exemple :** avec la méthode reader

```python
# On importe le module CSV de la bibliothèque Python
from csv import reader
# On ouvre en lecture le fichier CSV, 'r' signifie 'readable' soit en lecture
with open("mec.csv",mode='r',encoding='utf8') as f:
    # On crée une variable et on lui affecte le contenu du fichier CSV avec le séparateur
    table = reader(f,delimiter=";")
    # La variable table contient l'ensemble des données du fichier
    # On accède à chaque ligne de la variable par itération
    # Les valeurs obtenues sont des listes, tableaux.
    for ligne in table:
        print(ligne)
```
On obtient un objet csv dont les éléments sont des listes. On n'a plus l'association avec les clefs !

```python
['rang', 'titre', 'réalisateur', 'année de sortie', 'nationalité', 'entrées']
['1', 'Titanic', 'J. Cameron', '1998', 'US', '21,78']
['2', "Bienvenue chez les Ch'tis", 'D. Boon', '2008', 'FR', '20,44']
['3', 'Intouchables', 'E. Tolédano, O. Nakache', '2011', 'FR', '19,51']
['4', 'La Grande Vadrouille', 'G. Oury', '1966', 'FR/GB', '17,33']
['5', 'Autant en emporte le vent', 'V. Fleming', '1950', 'US', '16,73']
['6', "Il était une fois dans l'Ouest", 'S. Leone', '1969', 'IT', '14,89']
['7', 'Le Livre de la jungle', 'W. Reitherman', '1968', 'US', '14,79']
['8', 'Avatar', 'J. Cameron', '2009', 'US', '14,78']
['9', 'Les 101 Dalmatiens', 'W. Disney', '1961', 'US', '14,70']
['10', 'Astérix et Obélix : mission Cléopâtre', 'A. Chabat', '2002', 'FR', '14,41']

```

#### Exemple avec la méthode writer

On crée un fichier d'extension txt car il n'est pas formaté csv contenant des listes de valeurs :

```python
# On importe le module CSV de la bibliothèque Python
from csv import writer
# On ouvre en écriture le fichier CSV, 
#'w' signifie 'readable' soit en lecture
# le paramètre newline='' est à ajouter pour un fichier
with open("new.txt", mode='w', encoding='utf8', newline='') as f:
    # On crée une variable et on lui affecte le contenu du fichier CSV avec le séparateur ;
    data = writer(f,delimiter=",")
    # On ajoute au fichier csv les lignes de la table
    data.writerow(["nom","prenom","age"])
    data.writerow(["Victor","Émile",10])
    data.writerow(['Jean','Albert',13])
    data.writerow(['Cruz','Vera',24])
    data.writerow(['Cruz','Pénélope',36])
    data.writerow(['Dylan','Bob',44])

```

Le fichier créé contient les données de chaque liste:
    
```
nom,prenom,age
Victor,Émile,10
Jean,Albert,13
Cruz,Vera,24
Cruz,Pénélope,36
Dylan,Bob,44

```

On peut les récupérer sous forme de liste pour un traitement:

```python
with open('new.txt',mode='r', encoding='utf8') as f:
    data=csv.reader(f,delimiter=',')
    for ligne in data:
        print(ligne)
```

Ce qui donne l'affichage:

```python
['nom', 'prenom', 'age']
['Victor', 'Émile', '10']
['Jean', 'Albert', '13']
['Cruz', 'Vera', '24']
['Cruz', 'Pénélope', '36']
['Dylan', 'Bob', '44']

```