In [None]:
import exercice_2_utils
import pandas as pd
from pathlib import Path

# Exercice 2 : écrire sur le disque

Une fois encore `pandas` offre des outils pour enregistrer les données. C'est notamment le cas des fonctions `to_csv` qui permet d'écrire des fichiers au format CSV (éventuellement compressés) et `to_excel` qui permet d'écrire des fichiers au format `.xlsx` ou `.ods`.

A noter également qu'il pourra s’avérer intéressant, selon les cas d'usage, d'utiliser d'autres formats, comme le `parquet` (on utilisera alors la fonction `to_parquet`).

Pour plus d'informations, vous pouvez vous référer à la documentation (très bien faite mais en anglais...) :
- [to_excel()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)
- [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
- [to_parquet()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html)

Ces fonctions sont la manière la plus facile d'enregistrer un ```DataFrame```.

La syntaxe est similaire pour toutes ces fonctions. Aussi, si vous souhaitez enregistrer les données d'un DataFrame `mes_super_donnees`, vous utiliserez :

> ```python
> mes_super_donnees.to_csv('le_chemin\le_fichier.csv') # Avec toutes les options possibles
> ```

## Quel format choisir ?

Pour enregistrer les données plusieurs formats sont possibles :

- le format **CSV** : l'une des manières les plus courantes d'organiser et de formater les données. Le stockage des données CSV est basé sur un fichier texte organisé par lignes. Les données sont consultables et modifiable en utilisant MS Excel, LibreOffice Calc ou tout autre éditeur de texte. Le format est relativement rapide à lire avec python. Toutefois, il présente un inconvénient majeur : il ne garde pas trace du format des données, ainsi si on ne lui précise lors de la lecture le format attendu pour chaque colonne, on peut avoir de mauvaises surprises parfois. Par ailleurs, s'il n'est pas compressé, il peut être très vite très volumineux.

- le format **tableur** : les formats usuels d'échanges de données avec les outils de tableur habituels sont ceux avec les extensions `.xlsx` ou `.ods`. Si ils se prêtent parfaitement à l'exercice de la lecture par un être humain, il n'est pas adapté à l'échange de données entre machines. Sa lecture et son écriture sont looooooooooonnnnnngues !

- le format **parquet** : Apache Parquet est un format de fichiers binaires orienté colonne, initialement développé pour l'écosystème de calcul distribué Apache Hadoop. Il fournit des schémas efficaces de compression et de codage de données avec des performances améliorées pour gérer des données complexes en masse. Il est rapide à lire, à contenu égal moins volumineux que les autres format en utilisant la compression et garde les métadonnées tels que les types de valeurs de chaque colonne. Le plus gros inconvénient de ce format est qu'on ne peut pas le lire dans Excel.

Aussi, pour les échanges de volumes de données importants de machine à machine ou  pour enregistrer des données qui seront réexploitées avec python, on pourra préférer le **parquet**, lorsqu'on cherche à s'adresser à des humains privilégier les formats **tableur** et entre les deux utiliser le **csv**.

## Application 2.1 : enregistrer en CSV

Le premier exercice va consister à écrire les données d'un dataFrame basique dans un fichier csv que l'on placera dans le dossier `sortie`.

In [None]:
# Création du DataFrame basique
donnees = pd.DataFrame({
    'numero' : ['01','02','03','04','05','06'],
    'nom' : ['Ain', 'Aisne', 'Allier', 'Basses-Alpes', 'Hautes-Alpes', 'Alpes-Maritimes'],
    'Prefecture' : ['Bourg-en-Bresse', 'Laon', 'Moulins', 'Digne-les-Bains', 'Gap', 'Nice']
})

Nous allons enregistrer les données dans un fichier appelé `prefectures.csv`, que nous placerons dans le dossier `sortie`.
Nous utiliserons les option suivantes :
- *index = False*, n'enregistre pas le numero d'index en première colonne
- *encoding = 'utf-8'*
- *sep = ';'* afin que les valeurs soient séparée par des ';' et non des ','

In [None]:
fichier_sortie = Path('sortie/prefecture.csv')

donnees  # <- Ici, à vous de jouer !

exercice_2_utils.correction_exercice_2_1.check(fichier_sortie)