## Fichiers CSV et OpenData

**Source :** [David Roche](https://pixees.fr/informatiquelycee/n_site/nsi_prem_csv.html) (copyright : CC-BY-SA)

On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site [data.gouv.fr](http://data.gouv.fr) récence un grand nombre de données publiques. Ces données sont librement réutilisables. 

> **À faire :** Afin de découvrir ce qu'est "l'open data", nous allons utiliser le site [data.gouv.fr](data.gouv.fr). Résumez en quelques lignes ce que vous aurez appris en lisant la page suivante : https://doc.data.gouv.fr/.

> **À faire :** Explorez pendant quelques minutes le site data.gouv.fr. Recherchez les données "Opérations coordonnées par les CROSS" à l'aide du moteur de recherche proposé par le site. 

Vous pouvez constater que ces données sont au format CSV.

Le format CSV est très courant sur internet.

Voici ce que nous dit Wikipédia sur le format CSV :

_Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules._

_Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une virgule correspondent ainsi aux contenus des cellules du tableau._

Voici un exemple du contenu d'un fichier CSV :

Je pense qu'il est évident pour vous que nous avons ici 3 personnes :

* Jean-Pierre Durand qui est né le 23/05/1985
* Christophe Dupont qui est né le 15/12/1967
* Henry Terta qui est né le 12/06/1978

"nom", "prenom" et "date_naissance" sont appelés des descripteurs alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur "nom". 

> **À faire :** Donnez les différentes valeurs du descripteur "date_naissance" 

ATTENTION :

La virgule est un standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises. En effet, en français, la virgule est le séparateur des chiffres décimaux. Il serait impossible de différencier les virgules des décimaux et les virgules de séparation des informations. C’est pourquoi on utilise un autre séparateur : le point-virgule (;). Dans certains cas cela peut engendrer quelques problèmes, vous devrez donc rester vigilants sur le type de séparateur utilisé.

Les tableurs, tels que "Calc" (Libre Office), sont normalement capables de lire les fichiers au format CSV. J'ai précisé "normalement" car certains tableurs gèrent mal le séparateur CSV "point-virgule" et le séparateur des chiffres décimaux "virgule".

> **À faire :**  Après avoir téléchargé le fichier [ident_pointVirgule.csv](https://pixees.fr/informatiquelycee/n_site/asset/ident_pointVirgule.csv), ouvrez ce dernier à l'aide d'un tableur. 

Si par hasard votre tableur ne gère pas correctement le fichier avec le séparateur "point-virgule", voici une version "séparateur virgule" du fichier : [ident_virgule.csv](https://pixees.fr/informatiquelycee/n_site/asset/ident_virgule.csv)

Dans la suite, gardez toujours cet éventuel problème à l'esprit (surtout avec des données "made in France")


Vous devriez obtenir ceci :
![image tableur](https://pixees.fr/informatiquelycee/n_site/img/snt_donnee_1.png)

Vous pouvez constater que les données sont bien "rangées" dans un tableau avec des lignes et des colonnes (voilà pourquoi on parle de données tabulaires.

Il est possible de trouver sur le web des données beaucoup plus intéressantes à traiter que celles contenues dans le fichier "ident_pointVirgule.csv" (ou "ident_virgule.csv"). Par exemple, le site [sql.sh](sql.sh), propose un fichier csv contenant des informations sur l'ensemble des communes françaises.

> **À faire :** Ouvrez le fichier [ville_point_virgule.csv](https://pixees.fr/informatiquelycee/n_site/asset/villes_point_virgule.csv) à l'aide d'un tableur (c’est une version légèrement modifiée de celle disponible sur le site sql.sh, il y a été notamment ajouté des entêtes). En cas de problème avec votre tableur, voici une version "séparateur virgule" : [ville_virgule.csv](https://pixees.fr/informatiquelycee/n_site/asset/villes_virgule.csv) (attention le séparateur "décimal" est ici le point)


Comme vous pouvez le constater, nous avons 12 colonnes (et 36700 lignes si on ne compte pas l'entête !), voici la signification de ces colonnes :

* dep : numéro de département
* nom : nom de la commune
* cp : code postal
* nb_hab_2010 : nombre d'habitants en 2010
* nb_hab_1999 : nombre d'habitants en 1999
* nb_hab_2012 : nombre d'habitants en 2012 (approximatif)
* dens : densité de la population (habitants par kilomètre carré)
* surf : superficie de la commune en kilomètre carré
* long : longitude
* lat : latitude
* alt_min : altitude minimale de la commune (il manque des données pour certains territoires d'outre-mer)
* alt_max : altitude maximale de la commune (il manque des données pour certains territoires d'outre-mer)


> **À faire :** En vous aidant du fichier, déterminez l'altitude maximale et l'altitude minimale de votre commune.

 ### En Bref

Le format  CSV est couramment  utilisé pour échanger des  données habituellement
traitées  à   l'aide  de  tableurs   ou  de   logiciels  de  bases   de  données
principalement.  Nous allons  apprendre à  importer et  exporter des  données en
utilisant ce format.

# Manipulation de fichiers CSV

Un enregistrement CSV peut se rapprocher d'une structure de données de type ``Dictionnaire`` auxquelles on accède grâce à une clé.

Par  exemple,  on  peut  représenter  les  notes  d'un  élève  dans  différentes disciplines à l'aide d'un enregistrement: 

In [2]:
dico_eleve= {'Nom': 'Joe', 'Anglais': 17, 'Info': 18, 'Maths': 16}

In [3]:
print(dico_eleve)

{'Nom': 'Joe', 'Anglais': 17, 'Info': 18, 'Maths': 16}


Les *champs* (ou  *clés* ou *attributs*) de ces enregistrements  sont ici `Nom`,
`Anglais`, `Info`  et `Maths`. On leur  associe des *valeurs*, ici  `Joe`, `17`,
`18` et `16`.
En Python, on utilisera les ``dictionnaires`` pour représenter les enregistrements.

![](Image1.png)

Le fichier CSV correspondant étant:

### Lecture de fichiers CSV

On  peut   choisir  de  représenter  sur   Python  les  fichiers  CSV   par  des *listes* de *dictionnaires*  dont les *clés* seront les noms  des colonnes.

Pour reprendre l'exemple précédent, si l'on import à l'aide des outils Python le fichier CSV elev, on obtient une structure de données comme la liste ci dessous :

In [7]:
Liste = [{'Nom': 'Joe', 'Anglais': 17, 'Info': 18, 'Maths': 16},
         {'Nom': 'Zoé', 'Anglais': 15, 'Info': 17, 'Maths': 19},
         {'Nom': 'Max', 'Anglais': 19, 'Info': 13, 'Maths': 14}]

Ici, ``Liste`` est une **liste de dictionnaire**.

## Note :
En utilisant le vocabulaire habituel décrivant une feuille de calcul d'un tableur:
* une table est une liste de dictionnaires: `liste`;
* une ligne est un dictionnaire: `liste[0]`
* une cellule est une valeur associée à une clé d'un dictionnaire: `liste[0]['Info']`

Voici des propositions de code Python gérant l'import et l'export de fichiers CSV:

### Import d'un fichier CSV

In [None]:
import csv
def depuis_csv(nom_fichier_csv):
    """
    Crée une liste de dictionnaires, un par ligne.
    La 1ère ligne du fichier csv est considérée comme la ligne des noms des champs
    """
    lecteur = csv.DictReader(open(nom_fichier_csv,'r')) 
    return [dict(ligne) for ligne in lecteur]

### Export vers un fichier CSV

In [None]:
import csv
def vers_csv(nom_table, ordre_cols):
    """
    Exporte une liste de dictionnaires sous forme d'un
    fichier csv. On rentre le nom de la table sous forme de chaîne.
    On donne l'ordre des colonnes sous la forme d'une liste d'attributs.
    >>> vers_csv('Groupe1', ordre_cols=['Nom','Anglais','Info','Maths'])
    """
    with open(nom_table + '.csv', 'w') as fic_csv:
        ecrit = csv.DictWriter(fic_csv, fieldnames=ordre_cols)
        table = eval(nom_table)
        ecrit.writeheader() # pour le 1ère ligne
        for ligne in table:
            ecrit.writerow(ligne) # lignes ajoutées 1 à 1
    return None

> **A faire :**
* Créer un fichier CSV eleve.csv contenant les 
* Compléter le code de la fonction lire_note dans le fichier python eleve.py fourni en complément de ce cours.

Attention, les assertions fournies dans le fichier eleve.py doivent se dérouler sans erreur.

In [None]:
def lire_note(liste_dico, nom, matiere):
    """
    fonction qui prend un nom d'élève et une matière en paramètre et retourne la note obtenue par l'élève
    @param entrée : liste_dico : liste de dictionnaire : contenant de l'information
                    nom : chaine de caractère : nom de l'éleve à rechercher
                    matiere : chaine de caractère : nom de la matière à rechercher
    Returns int : note obtenue
    """