## Fichiers et dossiers avec Python

### Généralités

Les ordinateurs sont assez merveilleux, mais ils le seraient moins s'ils n'étaient pas capables d'enregistrer des données et de ne pas les perdre une fois que le programme (ou l'ordinateur) est éteint. Dans ce (court) tutoriel, je vais vous apprendre à 

* Ouvrir un fichier, le lire, et écrire dedans grâce à la fonction `open()` et le mot-clé `with`
* Trouver des fichiers dans une arborescence avec le mini-module `glob`, et changer de dossier avec le mini-module `os`
* Faire un peu d'_analyse syntaxique_ (parsing) avec l'infernal mini-module `re` 

### Manipuler des fichiers 

Dans cette section, on va ouvrir des fichiers, lire dedans et écrire dedans également. Vous verrez, c'est en fait _très_ simple !

#### Ouverture et fermeture

Supposons que je veux lire un fichier (bien nommé `toto` dans la tradition française) dans le sous-dossier `files` de mon dossier actuel. Rien de plus simple, j'utilise simplement la fonction Python native `open()`. Une fois que le fichier est ouvert, je peux utiliser la _méthode_ `.close()` associée au fichier pour le fermer.

_Note_ Pour accéder à votre sous-dossier `files` et les fichiers qui s'y trouvent, vous devrez utiliser une barre oblique `'/'` (sous Mac, Unix et en fait même sous Windows), mais si vous êtes un fana de Windows, sachez que les barres obliques inverses de Windows (`'\'`) doivent être doublées (`'\\'`) pour être correctement interprétées. 

In [None]:
my_file = open('files/toto')
my_file.close()                 # A very discreet peek !

Une possibilité alternative consiste à ouvrir mon fichier dans un bloc `with open(...) as ...:` de la manière suivante :

In [None]:
with open('files/toto') as my_file:
    print('File is open !')

La principale différence, ici, est que pour un nom de fichier _incorrect_, la première version du code va renvoyer une erreur, tandis que la version construite avec `with .. as ..`, elle, ne va pas renvoyer une erreur. Essayez, par exemple, d'ouvrir un fichier `titi` qui, lui, n'existe pas ... encore :-)

#### Accès en lecture et écriture

Par défaut, Python vous laisse lire un fichier, c'est l'accès `'r'` des amateurs d'Unix. Vous pouvez décider à la place que vous souhaitez créer un nouveau fichier et écrire dedans. Dans ce cas, on va préciser un argument à `open()` nommé `mode`. Il existe [bien des modes](https://docs.python.org/3/library/functions.html#open), les principaux étant : 

* `'r'` : accès en _lecture seule_. Va planter si le fichier n'existe pas
* `'w'` : accès en _écriture_ pour un fichier. __Va écraser le fichier existant__. Ne plante pas si le fichier n'existe pas.
* `'a'` : accès en _écriture_ pour un fichier. __Ajoute le contenu à la suite du fichier__. Ne plante pas si le fichier n'existe pas.
* `'x'` : création d'un nouveau fichier, et accès _en écriture_ de celui-ci. Plante si le fichier existe déjà.

Tous ces modes d'ouverture correspondent à des fichiers qui contiennent du _texte_.

##### Lecture avec `read()`, `readlines()` et `readlines()` et `for`

Pour lire l'intégralité d'un fichier, on va simplement utiliser la méthode `.read()` du fichier, sans argument. Dans un tel cas, Python va lire tout le fichier et nous le renvoyer dans une variable. Cela donne : 

In [None]:
with open('files/toto') as my_file:
    txt = my_file.read()
print(txt)

Vous l'aurez peut-être remarqué, ma variable `txt` est une simple chaîne de caractères. On a parfois besoin de lire le code ligne par ligne, ou de séparer les lignes en question durant la lecture. La méthode `.readlines()` va lire tout le fichier et renvoyer une liste dont chaque élément corresond à une ligne du fichier. On peut alors demander à Python de n'imprimer qu'une ligne (au choix) du fichier.

_Note_ : cette fonction est __bien entendu déconseillée__ pour les très gros fichiers qui dépassent les centaines de milliers de lignes. 

In [None]:
with open('files/toto') as my_file:
    lst = my_file.readlines()

print(lst[0])
print(lst[-1])

Vous pouvez enfin demander à Python de ne lire qu'une seule ligne et d' 'aller à la ligne suivante' ensuite avec la méthode `.readline()`. Celle-ci se combine bien avec une boucle `while` : 

In [None]:
with open('files/toto') as my_file:
    txt = my_file.readline()
    is_file_finished = False
    while not is_file_finished:
        print(txt)
        txt = my_file.readline()
        is_file_finished = (txt == '')

Pour savoir si la lecture du fichier est terminée ou non, on examine le résultat de `my_file.readline()`. Si celui-ci est une chaîne de caractères vide: `''`, alors le fichier est terminé. 

Si vous êtes _encore plus paresseux_ (et c'est une bonne chose), vous pouvez même directement utiliser une boucle `for` du type `for x in my_file` pour que votre variable `x` 'devienne' chacune des lignes du fichier, à la manière d'un `.readline()`. Le code devient alors limpide, même si on peut se demander pourquoi on a le droit d'effectuer une telle diablerie :

In [None]:
with open('files/toto') as my_file:
    for line in enumerate(my_file):            # Such ... beauty ...
        print(line)

__Exercice__ :
*  Lisez dans le fichier `toto` précédent et affichez chacune des lignes du fichier, mais avec le numéro de la ligne à gauche de chacune d'entre elles. 
* Supprimez le caractère de retour chariot `\n` à la fin de chaque ligne du fichier pour _condenser_ l'affichage avec `print`.

In [None]:
# Pfff, super easy 

##### _Verba volent, scripta manent_ : écrire dans les fichiers avec `write`

Cette fois-ci, vous y êtes. Vous avez obtenu un magnifique jeu de données, tapé au clavier la plus belle phrase de la langue de Molière ou déchiffré le manuscrit de Voynich. Vous souhaitez maintenant pérenniser ces efforts et demander à Python d'écrire ces résultats _dans le marbre_, c'est à dire de les sauver. 

Une fois de plus, Python nous rend la vie facile. Vous avez un bloc de texte et vous voulez l'écrire dans un fichier ? Utilisez la méthode `.write()`, pardi : 

In [None]:
with open('files/tutu', 'w') as my_file:
    my_file.write('I am a legend')      # We all are.

En écrivant ce code, vous avez donc à la fois créé un nouveau fichier, qui doit apparaître dans votre sous-dossier `files`, et écrit une ligne de texte dans ce fichier. Si vous avez une `list` de chaînes de caractères à la place d'une simple chaîne, vous pouvez également utiliser la méthode `.writelines()`. Ça y est, vous êtes prêt à remplir votre disque dur ! 


##### Écrire des variables _vraiment_ complexes en JSON

À l'avenir, vous aurez certainement besoin d'écrire des données dans des fichiers. Dans de nombreux cas, ces fichiers pourront être enregistrés sous forme de tableau, par exemple sous [Numpy](./Application_A_Numpy.ipynb) ou [Pandas](./Application_D_Pandas.ipynb). Il est possible d'écrire des fichiers _texte_ formatés de telle sorte que vous pourrez ré-importer ces fichiers directement en Python comme variables. Numpy et Pandas proposent des solution pour enregistrer des longs tableaux efficacement comme fichiers texte, mais parfois, vous tomberez sur un type de variable qui est un peu trop complexe pour que ces routines fonctionnent, et vous serez peut-être amenés à vouloir l'enregistrer. 

Il existe une solution, c'est la sauvegarde au format [`JSON`](https://www.json.org/json-fr.html). Créons donc une variable `data` particulièrement retorse, qui est un `tuple` contenant, notamment, un dictionnaire qui lui-même inclut une liste. On va importer le module Python `json` et enregistrer notre variable avec la fonction `json.dump()`. Celle-ci va formater l'objet `data` (premier argument) et écrire sa version formatée dans un fichier (deuxième argument). Voyez plutôt :   

In [None]:
import json

x = [[1,2,3],[9,11,24]]
y = {'my':8, 'oh':[7.72], 'myyy':'george takei'}
z = (['x', 'y'], [12,24,[7,28]], )
data = (x, y, z)

with open('files/my_data.json', 'w') as myfile:
    json.dump(data, myfile)

On peut ensuite lire à loisir dans le fichier avec la fonction `json.load()`, et ré-affecter le résultat rapidement si vous connaissez la _structure_ de votre objet initial. 

__/!\\ Attention /!\\__ Jetez toujours un oeil dans les fichiers JSON avant de les lire, car ils pourraient avoir été programmés malicieusement. Il n'est pas possible pour eux d'injecter du code, mais ils peuvent quand même faire planter votre ordinateur s'ils ont été volontairement écrits de manière surchargée.

In [None]:
import json

del((x,y,z)) # So that they are forgotten by Python

with open('files/my_data.json') as myfile:
    x,y,z = json.load(myfile)
    print(x)

### Trouver vos fichiers et dossiers avec `glob` et `os`

Les modules Python `os` et `glob` vont vous aider à trouver des fichiers existants dans votre ordinateur. Le premier, nommé d'après l'`Operating System` constitue en fait un _pont_ entre votre ordinateur et Python, et le second, bien que de nom mystérieux, peut effectuer des recherches sur des noms de fichiers. Avec ces deux paquets, on va donc pouvoir efficacement se déplacer dans les dossiers et localiser des fichiers !

#### Naviguer dans les dossiers avec le module `os` : 

Ce module permet d'effectuer des tâches assez fondamentales sur votre ordinateur. Nous allons principalement nous intéresser à deux d'entre elles, afin de pouvoir changer de dossier de travail et créer des dossiers en Python. 

##### Changer de dossier avec `os.chdir()` et s'y retrouver avec `os.getcwd()`

Vous connaissez probablement la commande `cd` en ligne de commande (bash, etc.) qui vous permet de changer de dossier. Je vous en mets un exemple sous Windows :

![img](resources/cmd.png)

__Par défaut, Python démarre dans le dossier qui contient votre fichier `.py`, `.ipynb`, etc. que vous êtes en train d'exécuter__, de la même manière que pour les modules Python. Si vous voulez savoir où vous vous trouvez, vous pouvez exécuter la commande `os.getcwd()` (_get Current Working Directory_, le dossier de travail actuel). 

Affichons le dossier dans lequel on travaille, et essayons de changer de dossier.

In [None]:
import os

print('Current Directory is : ' + os.getcwd())
os.chdir('./files/')

with open('new_file', 'w') as myfile:
    myfile.write('Where am I ?')


Le code ci-dessus fonctionne _une fois_, puis ensuite plante. On demande en effet à Python de rentrer dans un sous-dossier `/files` du dossier actuel, que j'ai écrit comme `.` (ce qui est une pratique courante en programmation). La deuxième fois que j'exécute ce code, Python essaie de chercher un sous-dossier `[...]/files/files`, qui, lui, n'existe pas. Python n'est alors pas très content. 

Si vous voulez remonter d'un dossier, vous pouvez utiliser la chaîne de caractères `..`; que l'on peut combiner avec d'autres dossiers. Ici, on va par exemple aller directement depuis `/files` jusque `/resources` : 

In [None]:
# We have to start in sub-folder `files` to correctly go to `resources`

import os

os.chdir('../resources')
print('Current Directory is now : ' + os.getcwd())

Si votre code ne fonctionne plus, n'hésitez pas à redémarrer Python via l'icône de redémarrage : 

![img](./resources/restart_kernel.png)

##### Créer des dossiers avec `os.mkdir()`

