# Chapitre 4.1 - Les fichiers CSV, JSON et les requêtes

## Le format CSV

Un fichier CSV est un fichier de tableau simplifié au maximum :
- le fichier est encodé en plein texte, il peut être lu par un éditeur de texte lambda
- le fichier utilise un séparateur de colonnes (usuellement une virgule, un point-virgule ou une tabulation)
- le fichier utilise une ligne par ligne de tableur

Exemple : [Les 1000 premiers numéros du Gaulois en statistiques](./data/csv/gaulois.csv) (Grâce à la [BNF](http://api.bnf.fr/m%C3%A9tadonn%C3%A9es-quantitatives-de-la-presse-ancienne-xixe-xxe-si%C3%A8cles#chapitre3) )

## Les Packages

Python est fait de nombreuses fonctions de bases. Nous avons vu par exemple qu'il était possible d'utiliser facilement les fonction `len()` ou encore `print()`. Mais Python possède aussi des `packages` (le nom des librairies et bibliothèques en Python) par défault.

Un package est un ensemble de modules comportant des outils tels que des fonctions et qui peuvent être assez simplement importés. Par exemple, si je voulais travailler avec le package standard pour utiliser des fichiers CSV, je ferai :

In [4]:
import csv

Cette ligne va me permettre d'importer le module csv. Regardons ce qu'il a dans le ventre :

In [2]:
dir(csv)

['Dialect',
 'DictReader',
 'DictWriter',
 'Error',
 'QUOTE_ALL',
 'QUOTE_MINIMAL',
 'QUOTE_NONE',
 'QUOTE_NONNUMERIC',
 'Sniffer',
 'StringIO',
 '_Dialect',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 'excel',
 'excel_tab',
 'field_size_limit',
 'get_dialect',
 'list_dialects',
 're',
 'reader',
 'register_dialect',
 'unix_dialect',
 'unregister_dialect',
 'writer']

C'est bien mais ca ne vous dit pas grand chose non ? On voit à la limite quelque chose pour lire (`reader`) et quelque chose pour écrire (`writer`) avec *a priori* deux variations : `DictReader` et `DictWriter`. Mais cela reste vague. 

---

## Le package CSV

Heureusement, python propose pour ses librairies standards une très bonne documentation : https://docs.python.org/3.5/library/csv.html

Je reprends ci-dessous deux morceaux de la documentation, qui sont ceux qui vont d'abord nous intéresser.

### 1. Lire

Commencons par ce qui est la documentation de `reader()`
 
#### csv.reader(csvfile, dialect=’excel’, **fmtparams)

> Return a reader object which will iterate over lines in the given `csvfile`. `csvfile` can be any object which supports the iterator protocol and returns a string each time its `__next__()` method is called — file objects and list objects are both suitable. If csvfile is a file object, it should be opened with newline=''. [1] An optional `dialect` parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional `fmtparams` keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about the dialect and formatting parameters, see section [Dialects and Formatting Parameters](https://docs.python.org/3.5/library/csv.html#dialects-and-formatting-parameters).

> Each row read from the csv file is returned as a list of strings. No automatic data type conversion is performed unless the QUOTE_NONNUMERIC format option is specified (in which case unquoted fields are transformed into floats).

> A short usage example:

In [3]:
import csv
with open('data/csv/eggs.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(row)
        print(', '.join(row))
# Spam, Spam, Spam, Spam, Spam, Baked Beans
# Spam, Lovely Spam, Wonderful Spam

['Spam', 'Spam', 'Spam', 'Spam', 'Spam', 'Baked Beans']
Spam, Spam, Spam, Spam, Spam, Baked Beans
['Spam', 'Lovely Spam', 'Wonderful Spam']
Spam, Lovely Spam, Wonderful Spam


**À partir de cette documentation et de cet exemple**, on peut tirer plusieurs conclusions :

- `csv.reader()` prend comme premier argument un fichier ouvert
- il peut prendre un `dialect` ou des paramètres qui ne sont pas développés par la documentation de la fonction elle-même : dans `**fmtparams`, `**` signifie qu'il existe d'autres paramètres optionnels nominatifs.
- il arrive que, sans aller dans *Dialects and Formatting Parameters*, nous avons deux exemples de ces paramètres dans l'exemple :
    - `delimiter` qui semble être un délimiteur de colonne.
    - `quotechar` qui semble être un "encapsulateur" permettant d'échapper les délimiteurs
    
Regardons le fichier [data/csv/eggs.csv](data/csv/eggs.csv)

En lancant l'exemple, on s'apercoit que le `reader` va renvoyer une liste quand on va itérer dessus: ces listes correspondent aux lignes.

###### Une fonction utile : la fonction enumerate

Dans le cadre d'une boucle, enumerate permet de renvoyer un tuple sur une valeur simple afin de de compter l'index de l'objet parcouru :

In [4]:
couleurs = ["vert", "rouge", "bleu"]

for index, couleur in enumerate(couleurs):
    print(str(index)+ " = " + couleur)
    
#c'est plus élégant que :
#index = 0
#for couleur in couleurs:
#    print(str(index)+ " = " + couleurs)
#    index += 1


0 = vert
1 = rouge
2 = bleu


##### Exercice 

À partir du fichier `data/csv/gaulois.csv`, compter le nombre de publicité en page sur l'ensemble des numéros. 

*Attention ! La première ligne est une ligne d'en-tête*

In [9]:
#ceci est du data mining
pubs = 0
with open ("data/csv/gaulois.csv") as gaulois:
    csvreader = csv.reader(gaulois, delimiter = ",")
    for numero_de_ligne, ligne in enumerate(csvreader): #ligne est une liste
        if numero_de_ligne != 0: #ou >0
            pubs += int(ligne[9]) #ligne[9] = ligne par ligne, colonne 9

print(pubs)         

# Tests pour vérifier : le résultat doit être enregistré dans une variable pubs
assert pubs == 2260, "Il y a eu 2260 publicité sur les premiers numéros du Gaulois"

2260


### 2. Écrire

Si lire est utile, écrire l'est tout autant, surtout lorsque l'on récupère des informations d'ici et là et que l'on veut les remettre en formes

Voyons la documentation de csv.writer et son example :

#### csv.writer(csvfile, dialect=’excel’, **fmtparams)

>    Return a writer object responsible for converting the user’s data into delimited strings on the given file-like object. csvfile can be any object with a write() method. If csvfile is a file object, it should be opened with newline='' [1]. An optional dialect parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional fmtparams keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about the dialect and formatting parameters, see section Dialects and Formatting Parameters. To make it as easy as possible to interface with modules which implement the DB API, the value None is written as the empty string. While this isn’t a reversible transformation, it makes it easier to dump SQL NULL data values to CSV files without preprocessing the data returned from a cursor.fetch* call. All other non-string data are stringified with str() before being written.

> A short usage example:

In [10]:
import csv
with open('data/csv/eggs.csv', 'w') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ', quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['Spam'] * 5 + ['Baked Beans'])
    spamwriter.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam'])

**À partir de cette documentation et de cet exemple**, on peut tirer plusieurs conclusions :

- `csv.writer()` prend comme premier argument un fichier ouvert en mode écriture
- il peut prendre un `dialect` ou des paramètres qui ne sont pas développés par la documentation de la fonction elle-même : dans `**fmtparams`, `**` signifie qu'il existe d'autres paramètres optionnels nominatifs.
- il arrive que, sans aller dans *Dialects and Formatting Parameters*, nous avons deux exemples de ces paramètres dans l'exemple :
    - `delimiter` qui semble être un délimiteur de colonne.
    - `quotechar` qui semble être un "encapsulateur" permettant d'échapper les délimiteurs
    - `quoting` qui d'après la documentation correspond à un mode de citation minimal (Utilisation des `quotechar` que lorsque cela est nécessaire. C'est par ailleurs la valeur par défaut : https://docs.python.org/3.5/library/csv.html#csv.Dialect.quoting )
- on écrit une ligne en utilisant la méthode `.writerow()` qui prend comme argument une liste
- on utilise `.writerow()` autant de fois que nécessaire
    
Regardons le fichier [data/csv/eggs.csv](data/csv/eggs.csv)

En lancant l'exemple, on s'apercoit que le `writer()` va rédiger deux lignes. Ce sont les deux que nous avons lues plus haut.

##### Exercice

`modules_cours.chapitre4` est un module écrit spécifiquement pour ce cours (Si vous êtes [curieux-ses](modules_cours/chapitre4.py)) Dans ce module, il y a la fonction `read_rss()` qui renvoit un générateur contenant des tuples Titre - Résumé - Lien - Date de publication. Par exemple :

In [1]:
from modules_cours.chapitre4 import read_rss

# Il s'agit ici de l'adresse RSS d'un flux de la BNF
for entree in read_rss("http://www.bnf.fr/Satellite?c=Page&cid=1237374444944&locale=1194947514616&p=1237374444944&pagename=bnf_dev%2FRss&typeRss=Biblio"):
    print(entree)

('Le fonds Delphine Seyrig dans BnF archives et manuscrits', '', 'http://www.bnf.fr/fr/la_bnf/dpt_asp/s.actualites_arts_spectacle.html?first_Art=oui', '2017-11-22 13:02:02')
('Interruption de la Clinique juridique après la séance du 20&#160;décembre 2017, reprise le mercredi 10&#160;janvier 2018', '', 'http://www.bnf.fr/fr/la_bnf/bibliotheque_haut-de-jardin/s.clinique_juridique.html?first_Art=non', '2017-12-15 13:21:02')
('La salle Labrouste fermera dès 15 h les samedis 23 et 30 décembre 2017', '', 'http://www.bnf.fr', '2017-12-18 10:03:34')
('À partir du 7 novembre 2017 - \nLes accueils du département de la Reproduction évoluent !', "Désormais, vous êtes invités à prendre rendez-vous avec l'un de nos bibliothécaires - sur les sites François-Mitterrand ou Richelieu - en utilisant notre application de réservation.", 'https://reservation.affluences.com/site/351', '2017-11-02 10:18:55')
("jusqu'au 22 décembre 2017 - \nLénine et la Révolution d'octobre -&#160;Bibliographie et sélection de 

À partir de cette fonction, réaliser un CSV (en utilisant le délimiteur `\t`) pour le flux RSS de Bibliopat : `http://www.bibliopat.fr/rss-actualites`. Le CSV sera stocké à `bibliopat.csv`

In [6]:
from modules_cours.chapitre4 import read_rss

# Votre code ici
with open ("bibliopat.csv", mode="w") as bibliopat:
    outil_decriture_csv = csv.writer(bibliopat, delimiter="\t")
    outil_decriture_csv.writerow(["Titre", "Lien", "Date", "Résumé"])
    
    for titre, resume, lien, date in read_rss("http://www.bibliopat.fr/rss-actualites"):
        outil_decriture_csv.writerow([titre, lien, date, resume])

##### Avez-vous remarqué ?

Ci-dessus, nous avons utilisé `from ___ import ___`. Cette structure d'import nous permet de n'importer qu'un sous-module ou une sous-fonction en particulier. Très pratique pour éviter les noms à rallonge !

----

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `import`
- `from ___ import ___`
- la notion de librairie/module/package
- `csv.reader()`
- `csv.writer()`
- `enumerate()`
- Lire une documentation et ses exemples

#### Ce que l'on recommande d'approfondir

Si les fonctions `csv.reader()` et `csv.writer()` sont sympathiques, les fonctions `DictReader` et `DictWriter` le sont beaucoup plus : elles stockent les noms de colonnes ! *Cf.* [la documentation](https://docs.python.org/3.5/library/csv.html#csv.DictReader)