# <center>  Fichiers texte </center>

# Lecture et écriture dans les fichiers

Les outils informatiques ont été développés dans le but de travailler sur de gros volumes de données. Les données ne sont pas saisies par l'utilisateur lors de l'exécution du programme mais le plus souvent lues dans des fichiers, puis stockées dans des structures de données telles que les tableaux ou les dictionnaires. 

Les fichiers permettent en effet de stocker de façon stable de l'information dans un système informatique. Ces fichiers peuvent prendre différents formats. On n'utilise dans ce cours que trois types de fichiers, mais les règles présentées ici sont assez facilement généralisables à d'autres formats:


- les fichiers `texte` non formatés, c'est à dire des fichiers dont le contenu est directement lisible par un être humain qui ouvrirait le fichier avec un éditeur de texte simple ne respectant pas de format particulier,
- les fichiers `CSV` qui sont des fichiers texte respectant un format particulier adapté aux données tabulaires,
- les fichiers `JSON` qui sont aussi des fichiers texte respectant un format particulier adapté aux données de type association clé/valeur.



De nombreux autres types de fichiers existent dont certains sont dans un format binaire (pdf, png, gif). Afin de lire ces fichiers il faut le plus souvent disposer d'une librairie adaptée proposant des fonctions de lecture appropriées au format. Dans ce cas, la documentation de la librairie indique les fonctions d'intéraction existantes et les structures de données qui leur sont associées.



## Généralités
Afin d'importer des données depuis un fichier vers la mémoire d'un programme, il faut:
- un sous-programme:
    - interagissant avec le système de fichier pour localiser le fichier dans la mémoire - - sur un disque dur par exemple - et l'*ouvrir* afin de pouvoir lire/écrire son contenu,
    - permettant de naviguer dans le fichier *i.e.* de déplacer le curseur de lecture/écriture - pour passer d'un caractère à l'autre, d'un mot à l'autre ou d'une ligne à l'autre, ...
    - permettant de stocker dans une variable de la mémoire du programme une donnée lue dans le fichier pour pouvoir le cas échéant l'utiliser dans le programme ou de lire une donnée d'une variable de la mémoire du programme pour l'écrire dans le fichier.
- dans le cas des fichiers formatés, il faut aussi un algorithme permettant de lire le contenu du fichier en suivant son format et ainsi structurer dans la mémoire du programmes les différentes informations encodées dans le format.

**NB :** Les opérations de lecture/écriture sont exécutées à la position du curseur.



## Interaction avec le système de fichiers

Pour qu'un programme puisse utiliser les données inscrites dans un fichier, ce dernier doit pouvoir être *accessible* et *lu* par le programme. De façon symétrique, un programme souhaitant *sauvegarder* des données doit pouvoir accéder à l'emplacement du fichier les *écrire* des données dans celui-ci.

Dans le cas de la *lecture* comme dans le cas de *l'écriture*, le fichier est identifié par un chemin (appelé `path`) qui est composé de son nom précédé de la séquence des répertoires de l'arborescence du système de fichiers qu'il faut traverser pour l'atteindre. Le chemin peut être donné comme un chemin absolu ou relatif. On n'utilise ici que des chemins relatifs au répertoire contenant le notebook (qui est supposé contenir un répertoire `files/`).

La mécanique de la lecture et de l'écriture d'un fichier sont assez similaires et introduites ci-dessous:

La première étape consiste à ouvrir le fichier. Ceci est réalisé par la fonction `open()`. Cette fonction admet 2 paramètres:
- le premier paramètre est le nom du fichier. Il s'agit d'une chaîne de caractères qui indique le chemin du fichier (`path`).
- le second paramètre indique le mode d'ouverture du fichier. Il y a 4 modes d'ouverture de fichier possibles:



| Mode  | Description | Remarques |
|--------|-------------------|---------------|
|`r`     | Read - Valeur par défaut. Ouvre le fichier en lecture et renvoie une erreur si le fichier n'existe pas.| |
|`w`     | Write - Ouvre le fichier en écriture et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est écrasé par le nouveau contenu.|
|`a`     | Append - Ouvre le fichier en écriture à la fin  et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est préservé, le nouveau contenu est écrit à la suite du contenu prééxistant.|
|`x`     | Create - Crée le fichier ou retourne une erreur si il existe déjà.| |

Cette fonction retourne un *objet fichier* qui doit être affecté à une variable. Cette variable représente le fichier durant l'exécution de votre programme.

**NB:** Lors de l'ouverture d'un fichier, le curseur est automatiquement positionné au début du fichier *i.e.* devant le premier caratère.

Voici un exemple de procédure d'ouverture d'un fichier en lecture

In [None]:
# Définition du chemin vers le fichier
path = "files/lorem.txt"
# Définition du mode d'ouverture du fichier en lecture
mode = 'r'
# Ouverture du fichier et association du flux à une variable
f_input = open(path, mode)
f_input.close() #Il faut fermer le dossier pour exécuter la cellule

A ce moment de l'exécution du programme une variable `f_input` est définie dans la mémoire et permet d'accéder au contenu du fichier en lecture au moyen de différentes fonctions.

**Bonne pratique** :  Tout fichier ouvert par un programme (en écriture comme en lecture) **DOIT** être fermé par le programme. Cette fermeture doit avoir lieu au plus tôt, dès que le programme n'a plus à écrire ou lire dans le fichier et dans tout les cas avant la fin de l'exécution du programme. La fermeture du fichier s'opère au moyen de la fonction `close` et du nom de la variable fichier. Il est conseillé d'écrire l'instruction `close` au même moment que l'instruction `open`:

In [None]:
f_input.close()

Entre l'ouverture et la fermeture du fichier, selon le mode d'ouverture choisie, le programme peut
- lire des données dans le fichier au moyen de la fonction `readline()`,
- écrire des données dans le fichier au moyen de la fonction `write()`.

Il est à noter que la fonction `readline()` ne retourne que des chaînes de caractères (de type `str`). De façon analogue, la fonction `write()` ne sait écrire (prendre en paramètre) que des chaînes de caractères (de type `str`).

**Remarque :** 
La méthode `strip()` permet supprimer tous les espaces notamment " " et le retour chariot `\n` au début et à la fin d'une chaîne de caractères.

In [2]:
chaine = " Bonjour \n"
print(chaine)
chaine=chaine.strip()
print(chaine)

 Bonjour 

Bonjour


### Écriture dans un fichier

L'écriture des données dans un fichier est une procédure qui suit le modèle suivant :
- ouverture du fichier en écriture :

In [3]:
f_output = open( 'files/test_ecriture4' , 'w')

Dès que cette instruction est évaluée, un fichier vide est créé à l'emplacement indiqué dans le système de fichier de l'ordinateur. 

- Ecriture de texte dans le fichier :

Il est alors possible d'écrire dans ce fichier au moyen de la fonction `write` et de la variable de flux `f_output`. L'instruction suivante écrit la chaîne de caractère `'bonjour'` dans le fichier `files/test_ecriture'`:

In [4]:
f_output.write('Bonjour \n')

9

Il est possible que la chaîne `'Bonjour \n'` ne soit pas écrite immédiatement dans le fichier. Certain langage ne procède à l'écriture effective dans le fichier que lorsqu'il y a suffisament de choses à écrire pour limiter les accès disque qui prennent du temps. Ces systèmes conservent les éléments à écrire dans un tampon et lorsque celui-ci est plein, il écrit dans le fichier le contenu du tampon et vide le tampon. Il est possible de forcer l'écriture du tampon dans le fichier en utilisant la fonction `flush` (par exemple avec une instruction de la forme: `f_output.flush()`)

- Fermeture du fichier :

Dans tout les cas, lorsque le flux du fichier est fermé, le contenu du tampon est écrit dans le fichier. Ainsi après l'exécution de l'instruction `close`, le fichier contient la chaîne de caractère `'Bonjour \n'`.

In [5]:
f_output.close()

Il est possible d'écrire à la fin d'un fichier existant au moyen du mode d'ouverture `'a'`(pour append):

In [6]:
f_output = open( 'files/test_ecriture4' , 'a')
i = 0
while( i < 10 ) :
    f_output.write( str(2 * i + 1) + '\n')
    i += 1
f_output.close()

A l'issue de ces deux opérations d'écriture dans ce même fichier `'files/test_ecriture'`, le contenu de celui-ci est le suivant:
```
Bonjour 
1
3
5
7
9
11
13
15
17
19
```

### Lecture dans un fichier

Afin de lire les données dans un fichier, on utlise la fonction `readline()`. Cette fonction lit le contenu du fichier *ligne à ligne*. A chaque appel, elle renvoie une ligne du fichier sous la forme d'une chaîne de caractères. Si l'on veut lire d'autre *types* de données il faut **caster** la valeur lue. Pour lire le contenu du fichier créé précédemment, on peut donc procèder de la façon suivante.

On ouvre d'abord le fichier en lecture avec le mode `'r'`

In [8]:
# Ouverture du fichier en lecture
f_input = open( 'files/test_ecriture4' , "r")

Puis on va lire séquentiellement son contenu. La première ligne est une chaîne de caractère:

In [9]:
ligne_1 = f_input.readline()

On peut vérifier que le contenu de la variable `ligne_1` est bien de type chaîne de caractère et que sa valeur, conformément au contenu du fichier est `'Bonjour \n'`.

In [10]:
print( type(ligne_1))

print( '<DEBUT>' + ligne_1 + '<FIN>')

<class 'str'>
<DEBUT>Bonjour 
<FIN>


Il est ensuite possible de lire le reste du contenu du fichier (constitués d'entiers) et par exemple de les stocker dans un tableau. Pour cela on utilise une boucle. On lit donc  le contenu du fichier tant qu'il y a un contenu. Lorsque le curseur de lecture atteint  à la fin du fichier, la fonction `readline` renvoie une chaîne vide `''`.

Il faut donc répéter des appels à la fonction `readline` tant que celle-ci renvoie une chaîne de caractère différente de la chaîne vide.

**NB** :  Une ligne vide contient au minimum un caractère, le caractère non imprimé de retour à la ligne `'\n'`.

In [11]:
tab = []
li = f_input.readline()
print(li)
while(li!='') :
    tab.append(int(li))
    li = f_input.readline()
print(tab)
f_input.close()

1

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]


On peut vérifier que le contenu du tableau est conforme au contenu du fichier:

In [12]:
print(tab)

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]


Lors de l'ajout de la valeur lue dans le fichier au tableau, celle-ci est castée en entier (`int()`). Ceci est nécessaire pour que les valeurs du tableau soient des entiers. Si on ne le fait pas, la fonction `readline` renvoyant comme valeur de retour une chaîne de caractères, les valeurs du tableau seront des caractères.

**NB** :  Lors du cast de la chaîne de caractères `'1\n'` en entier, le caractère de retour à la ligne est ignoré.

### Lecture et ecriture formatée
Quand on importe dans un programme des données depuis un fichier formaté, il faut définir un programme de lecture qui tient compte du format. dans le cas du fichier `'files/planetes.csv'` suivant:
```
Planete , Distance au soleil en millions de km , Nombre de satellites
Mercure , 57.9 , 0
Venus , 108.2 , 0
Terre , 149.6 , 1
Mars , 227.9 , 2
Jupiter , 778.8 , 63
Saturne , 1434 , 60
Uranus , 2871 , 27
Neptune , 4495 , 13
```


le format est `CSV` ce qui indique qu'il s'agit d'un tableau comportant potentiellement plusieurs lignes et que sur chaque ligne les valeurs de chaque colonne sont séparées par une virgule (`,`).

Ici la première ligne ne contient pas de valeur, elle contient juste la description du type de données contenues dans chaque colonne. Le fichier contient donc 1 ligne de libellés et 8 lignes de données. Chaque ligne contient 3 colonnes. On se fixe pour objectif ici de créer 3 tableaux  pour collecter le contenu de chaque colonne:
- le tableau `planetes` contiendra le nom des planétes (1ère colonne) sous forme de chaîne de caractères,
- le tableau `distances` contiendra la distance des planétes au soleil (2ème colonne) sous forme de flotants,
- le tableau `satellites` contiendra le nombre de satellites des planétes (3ème colonne) sous forme d'entiers.
Les informations de la première ligne ne seront pas stockées en mémoire.

Pour lire le contenu de ce fichier il faut développer un programme de lecture adapté au format. Lorsque chaque ligne suit le même format, il est conseillé de définir une fonction de *parsing* qui prend en paramètre une chaîne de caractère correspondant à la lecture d'une ligne (ce qui est la valeur retournée par `read`), la decription du séprateur des colonnes `sep` et qui est capable d'extraire de façon individuelle la valeur d'une colonne indiqué par son numéro `num_colonne` et de la retourner avec un `type` `ty` paramétré.

| fonction utiles lors du parsing | Utilisation |
|----------|-------------|
| chaine.strip() | supprime les caractères espace en début et fin de ligne (aussi le caractère `'\n'`) |
| chaine.split( separateur ) | sépare la chaine là où il y a un caractère séparateur et retourne le tableau des chaines séparées. |


In [13]:
def parse_line( ligne , sep, num_colonne, ty) :
        li = ligne.split(sep)
        if ty == "int" :
            return(int(li[num_colonne]))
        elif ty == "float" :
            return(float(li[num_colonne]))
        elif ty == "str" :
            return(li[num_colonne])
        elif ty == "bool" :
            return(bool(li[num_colonne]))
        else:
            print("Erreur type non reconnu.")

Ensuite il faut écrire un programme de parsing du fichier complet. Ce programme doit prendre en charge l'ouverture et la fermeture du fichier, lire les données et les mémoriser dans des variables.

Voici un exemple de fonction de parsing du contenu du fichier `CSV`.

In [14]:
f_input = open( 'files/planetes.csv' , 'r')
planetes = []
distances = []
satellites = []
f_input.readline()       # saut de la 1ère ligne de libellés
li = f_input.readline()  # lecture de la 1ère ligne de données
while( '' != li ) :      # tant que ce n'est pas la fin du fichier 
    planetes.append(parse_line(li, ',', 0, "str")) # mémorisation des données lues
    distances.append(parse_line(li, ',', 1, "float"))
    satellites.append(parse_line(li, ',', 2, "int"))
    li = f_input.readline()  # lecture de la ligne suivante
f_input.close()

On peut vérifier que le programme s'est déroulé comme attendu en consultant le contenu des variables de stockages des données du fichier:

In [15]:
print(planetes)
print(distances)
print(satellites)

['Mercure ', 'Venus ', 'Terre ', 'Mars ', 'Jupiter ', 'Saturne ', 'Uranus ', 'Neptune ']
[57.9, 108.2, 149.6, 227.9, 778.8, 1434.0, 2871.0, 4495.0]
[0, 0, 1, 2, 63, 60, 27, 13]
