# Chapitre 4 - Les fichiers CSV, les fichiers JSON et les requêtes

## Rappel : ce qu'est un fichier CSV

Un fichier CSV est un fichier de tableau simplifié au maximum :
- le fichier est encodé en plein texte, il peut être lu par un éditeur de texte lambda
- le fichier utilise un séparateur de colonnes (usuellement une virgule, un point-virgule ou une tabulation)
- le fichier utilise une ligne par ligne de tableur

Exemple : [Les 1000 premiers numéros du Gaulois en statistiques](./data/csv/gaulois.csv) (Grâce à la [BNF](http://api.bnf.fr/m%C3%A9tadonn%C3%A9es-quantitatives-de-la-presse-ancienne-xixe-xxe-si%C3%A8cles#chapitre3) )

## Les Packages
Python est fait de nombreuses fonctions de bases. Nous avons vu par exemple qu'il était possible d'utiliser facilement les fonction `len()` ou encore `print()`. Mais Python possède aussi des `packages` (le nom des librairies et bibliothèques en Python) par défault.

Un package est un ensemble de modules comportant des outils tels que des fonctions et qui peuvent être assez simplement importés. Par exemple, si je voulais travailler avec le package standard pour utiliser des fichiers CSV, je ferai :

In [1]:
import csv

Cette ligne va me permettre d'importer le module csv. Regardons ce qu'il a dans le ventre :

In [2]:
dir(csv)

['Dialect',
 'DictReader',
 'DictWriter',
 'Error',
 'QUOTE_ALL',
 'QUOTE_MINIMAL',
 'QUOTE_NONE',
 'QUOTE_NONNUMERIC',
 'Sniffer',
 'StringIO',
 '_Dialect',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 'excel',
 'excel_tab',
 'field_size_limit',
 'get_dialect',
 'list_dialects',
 're',
 'reader',
 'register_dialect',
 'unix_dialect',
 'unregister_dialect',
 'writer']

C'est bien mais ca ne vous dit pas grand chose non ? On voit à la limite quelque chose pour lire (`reader`) et quelque chose pour écrire (`writer`) avec *a priori* deux variations : `DictReader` et `DictWriter`. Mais cela reste vague. Heureusement, python propose pour ses librairies standards une très bonne documentation : https://docs.python.org/3.5/library/csv.html

Je reprends ci-dessous deux morceaux de la documentation, qui sont ceux qui vont d'abord nous intéresser. Commencons par ce qui est la documentation de `reader()`


#### csv.reader(csvfile, dialect=’excel’, **fmtparams)

> Return a reader object which will iterate over lines in the given `csvfile`. `csvfile` can be any object which supports the iterator protocol and returns a string each time its `__next__()` method is called — file objects and list objects are both suitable. If csvfile is a file object, it should be opened with newline=''. [1] An optional `dialect` parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional `fmtparams` keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about the dialect and formatting parameters, see section [Dialects and Formatting Parameters](https://docs.python.org/3.5/library/csv.html#dialects-and-formatting-parameters).

> Each row read from the csv file is returned as a list of strings. No automatic data type conversion is performed unless the QUOTE_NONNUMERIC format option is specified (in which case unquoted fields are transformed into floats).

> A short usage example:

In [5]:
import csv
with open('data/csv/eggs.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(row)
        print(', '.join(row))
# Spam, Spam, Spam, Spam, Spam, Baked Beans
# Spam, Lovely Spam, Wonderful Spam

['Spam', 'Spam', 'Spam', 'Spam', 'Spam', 'Baked Beans']
Spam, Spam, Spam, Spam, Spam, Baked Beans
['Spam', 'Lovely Spam', 'Wonderful Spam']
Spam, Lovely Spam, Wonderful Spam


**À partir de cette documentation et de cet exemple**, on peut tirer plusieurs conclussions :

- `csv.reader()` prend comme premier argument un fichier ouvert
- il peut prendre un `dialect` ou des paramètres qui ne sont pas développés par la documentation de la fonction elle-même : dans `**fmtparamas`, `**` signifie qu'il existe d'autres paramètres optionnels nominatifs.
- il arrive que, sans aller dans *Dialects and Formatting Parameters*, nous avons deux exemples de ces paramètres dans l'exemple :
    - `delimiter` qui semble être un délimiteur de colonne.
    - `quotechar` qui semble être un "encapsulateur" permettant d'échapper les délimiteurs
    
Regardons le fichier [data/csv/eggs.csv](data/csv/eggs.csv)

En lancant l'exemple, on s'apercoit que le `reader` va renvoyer une liste quand on va itérer dessus: ces listes correspondent aux lignes.

##### Exercice 

Lire le fichier gaulois.csv, compter le nombre de publicité en colonne 1 sur les 1000 premiers numéros du fichier.

#### csv.writer(csvfile, dialect=’excel’, **fmtparams)

>    Return a writer object responsible for converting the user’s data into delimited strings on the given file-like object. csvfile can be any object with a write() method. If csvfile is a file object, it should be opened with newline='' [1]. An optional dialect parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional fmtparams keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about the dialect and formatting parameters, see section Dialects and Formatting Parameters. To make it as easy as possible to interface with modules which implement the DB API, the value None is written as the empty string. While this isn’t a reversible transformation, it makes it easier to dump SQL NULL data values to CSV files without preprocessing the data returned from a cursor.fetch* call. All other non-string data are stringified with str() before being written.

> A short usage example:

In [3]:
import csv
with open('data/csv/eggs.csv', 'w', newline='') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ',
                            quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['Spam'] * 5 + ['Baked Beans'])
    spamwriter.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam'])