---
"tags": ["python", "tableau de données", "format csv"]
---

::: programme
+----------------------+------------------------------------+-----------------------------------+
|       Contenus       |        Capacités attendues         |           Commentaires            |
+======================+====================================+===================================+
| Indexation de tables | Importer une table depuis un       | Est utilisé un tableau doublement |
|                      | fichier texte tabulé ou un fichier | indexé ou un tableau de p-uplets  |
|                      | CSV.                               | qui partagent les mêmes           |
|                      |                                    | descripteurs.                     |
+----------------------+------------------------------------+-----------------------------------+
| Recherche dans une   | Rechercher les lignes d’une        | La recherche de doublons, les     |
| table                | table vérifiant des critères       | tests de cohérence d’une table    |
|                      | exprimés en logique                | sont présentés.                   |
|                      | propositionnelle.                  |                                   |
+----------------------+------------------------------------+-----------------------------------+
:::

::: intro

<p><a href="https://commons.wikimedia.org/wiki/File:CSV_Logo_dt_RGB.jpg#/media/File:CSV_Logo_dt_RGB.jpg"><img class="half right" src="https://upload.wikimedia.org/wikipedia/commons/0/06/CSV_Logo_dt_RGB.jpg" alt="CSV Logo dt RGB.jpg"></a><br>By Christlichsoziale Vereinigung Schweiz (CSV) - <a rel="nofollow" class="external free" href="http://www.csp-schweiz.ch/">http://www.csp-schweiz.ch/</a>, <a href="https://creativecommons.org/licenses/by-sa/4.0" title="Creative Commons Attribution-Share Alike 4.0">CC BY-SA 4.0</a>, <a href="https://commons.wikimedia.org/w/index.php?curid=80436784">Link</a></p>


Avec l'augmentation des capacités de stockage, on sauvegarde de plus en plus de données en vue de les traiter ultérieurement afin de leur donner une valeur ajoutée.

> On appelle ainsi les données: "Le nouvel or noir"

[Data, le nouvel or noir ?](https://www.inriality.fr/communication/data/donnees/data-le-nouvel-or/){.cite-source})

Dans ce chapitre nous allons apprendre à lire des données à partir de fichiers [`csv`](/2gt/snt/4-les-donnees-structurees-et-leur-traitement/1-donnees) afin d'y accéder sous forme de [type construits](/1g/nsi/3-representation-des-donnees-types-construits) imbriqués: nous utiliserons des listes de dictionnaires.

:::

Vous avez l'habitude d'utiliser un tableur pour traiter des tables de données.

Cependant, le problème de compatibilité des fichiers entre les divers logiciels de tableur fait que l'informaticien préfère souvent des formats textuels simples comme le csv `comma separated values`: valeurs séparées par des virgules ou encore le `xml` ou le `json`(voir le cours de [snt](/2gt/snt/4-les-donnees-structurees-et-leur-traitement/1-donnees).
    
Le format `csv` consite en un simple fichier texte dans lequel les colonnes sont _séparées par des virgules_.

Les descripteurs de colonnes sont placés sur la première ligne, et les autres lignes correspondent aux entrées du tableau.

Tous les logiciels de tableur et langages de programmation peuvent facilement lire ou écrire ces fichiers.

Voici l'exemple d'un fichier de notes généré par le logiciel Pronote.

```csv
Mentions,1/2j abs,Rang,Moyenne Générale,MATHEMATIQUES,PHYSIQUE-CHIMIE,NSI
Félicitations,3,1,17.4,15.3,15.5,18,18.5
Encouragements,5,1,10.1,8,10,15
```

On utilise parfois la tabulation comme séparateur pour une lecture plus aisée par l'homme, et ne pas être gêné par le fait que nous autres français utilisons la virgule comme séparateur décimal!

```tsv
Mentions	1/2j abs	Rang	Moyenne Générale	MATHEMATIQUES	PHYSIQUE-CHIMIE	NSI
Félicitations	3	1	17.4	15.3	15.5	18	18.5
Encouragements	5	1	10.1	8	10	15
```

## Lecture d'un fichier `csv` en Python

Python propose un module `csv` spécialisé.

In [3]:
import csv

# Lecture du fichier
with open('./data/notes.csv') as csvfile:
    reader = csv.DictReader(csvfile)
    # Itération sur les lignes
    for ligne in reader:
        print(ligne)
        

{'Nom': 'OBUQW', 'Mentions': 'Félicitations', '1/2j abs': '3', 'Rang': '1', 'Moyenne Générale': '17.4', 'MATHEMATIQUES': '18', 'PHYSIQUE-CHIMIE': '18.5', 'NSI': '17.7'}
{'Nom': 'XYYVQ', 'Mentions': 'Félicitations', '1/2j abs': '5', 'Rang': '1', 'Moyenne Générale': '18.1', 'MATHEMATIQUES': '19.2', 'PHYSIQUE-CHIMIE': '18', 'NSI': '19'}
{'Nom': 'SJOLY', 'Mentions': 'Félicitations', '1/2j abs': '', 'Rang': '1', 'Moyenne Générale': '18.2', 'MATHEMATIQUES': '19.2', 'PHYSIQUE-CHIMIE': '17', 'NSI': '19.1'}
{'Nom': 'CAOZY', 'Mentions': 'Félicitations', '1/2j abs': '1', 'Rang': '2', 'Moyenne Générale': '17', 'MATHEMATIQUES': '18.5', 'PHYSIQUE-CHIMIE': '17.5', 'NSI': '17.9'}
{'Nom': 'NULRT', 'Mentions': 'Félicitations', '1/2j abs': '2', 'Rang': '2', 'Moyenne Générale': '17.6', 'MATHEMATIQUES': '17.8', 'PHYSIQUE-CHIMIE': '18.5', 'NSI': '17.5'}
{'Nom': 'SATNL', 'Mentions': 'Félicitations', '1/2j abs': '4', 'Rang': '2', 'Moyenne Générale': '17', 'MATHEMATIQUES': '17.5', 'PHYSIQUE-CHIMIE': '17.5', 'N

## Recherche de lignes

Recherchons les élèves qui ont les félicitations.

In [4]:
# Lecture du fichier csv
with open('./data/notes.csv') as csvfile:
    reader = csv.DictReader(csvfile)
    # Itération sur les lignes du fichier
    for ligne in reader:
        if ligne["Mentions"] == 'Félicitations':
            print(ligne)

{'Nom': 'OBUQW', 'Mentions': 'Félicitations', '1/2j abs': '3', 'Rang': '1', 'Moyenne Générale': '17.4', 'MATHEMATIQUES': '18', 'PHYSIQUE-CHIMIE': '18.5', 'NSI': '17.7'}
{'Nom': 'XYYVQ', 'Mentions': 'Félicitations', '1/2j abs': '5', 'Rang': '1', 'Moyenne Générale': '18.1', 'MATHEMATIQUES': '19.2', 'PHYSIQUE-CHIMIE': '18', 'NSI': '19'}
{'Nom': 'SJOLY', 'Mentions': 'Félicitations', '1/2j abs': '', 'Rang': '1', 'Moyenne Générale': '18.2', 'MATHEMATIQUES': '19.2', 'PHYSIQUE-CHIMIE': '17', 'NSI': '19.1'}
{'Nom': 'CAOZY', 'Mentions': 'Félicitations', '1/2j abs': '1', 'Rang': '2', 'Moyenne Générale': '17', 'MATHEMATIQUES': '18.5', 'PHYSIQUE-CHIMIE': '17.5', 'NSI': '17.9'}
{'Nom': 'NULRT', 'Mentions': 'Félicitations', '1/2j abs': '2', 'Rang': '2', 'Moyenne Générale': '17.6', 'MATHEMATIQUES': '17.8', 'PHYSIQUE-CHIMIE': '18.5', 'NSI': '17.5'}
{'Nom': 'SATNL', 'Mentions': 'Félicitations', '1/2j abs': '4', 'Rang': '2', 'Moyenne Générale': '17', 'MATHEMATIQUES': '17.5', 'PHYSIQUE-CHIMIE': '17.5', 'N

## Affecter les données à une liste

Nous allons stocker les données en mémoire sous forme d'une liste de dictionnaires pour utilisation ultérieure.

In [9]:
# Création de la liste vide
eleves = []

with open('./data/notes.csv') as csvfile:
    reader = csv.DictReader(csvfile)
    for ligne in reader:
        eleves.append(ligne)

# affichage des trois premiers élèves de la liste
eleves[:3]

[{'Nom': 'OBUQW',
  'Mentions': 'Félicitations',
  '1/2j abs': '3',
  'Rang': '1',
  'Moyenne Générale': '17.4',
  'MATHEMATIQUES': '18',
  'PHYSIQUE-CHIMIE': '18.5',
  'NSI': '17.7'},
 {'Nom': 'XYYVQ',
  'Mentions': 'Félicitations',
  '1/2j abs': '5',
  'Rang': '1',
  'Moyenne Générale': '18.1',
  'MATHEMATIQUES': '19.2',
  'PHYSIQUE-CHIMIE': '18',
  'NSI': '19'},
 {'Nom': 'SJOLY',
  'Mentions': 'Félicitations',
  '1/2j abs': '',
  'Rang': '1',
  'Moyenne Générale': '18.2',
  'MATHEMATIQUES': '19.2',
  'PHYSIQUE-CHIMIE': '17',
  'NSI': '19.1'}]

On peut maintenant facilement travailler avec les données, par exemple, compter les félicitations.

In [6]:
len([eleve for eleve in eleves if eleve['Mentions'] == 'Félicitations'])

26

## Recherche de doublons

Vérifions qu'il n'y a pas deux lignes identiques qui se sont glissées par erreur dans le fichier csv.

Pour cela nous allons utiliser une liste annexe `vus` qui rencence les lignes déjà vues lors de l'itération.

In [8]:
vus = []
for eleve in eleves:
    # vérifie que l'entrée n'a pas déjà été vue
    assert eleve not in vus
    # ajout de l'élève à vus
    vus.append(eleve)
# Si on arrive au but de l'itération
# c'est qu'il n'y a pas de doublons
print("Pas de doublons")

Pas de doublons


<!--
## Recherche de doublons

TODO

## Test de cohérence d'une table

TODO
-->