# <center> Chapitre 8 : Fichiers texte </center>

# Lecture et écriture dans les fichiers

Les outils informatiques ont été développés dans le but de travailler sur de gros volumes de données. Les données ne sont pas saisies par l'utilisateur lors de l'exécution du programme mais le plus souvent lues dans des fichiers, puis stockées dans des structures de données telles que les tableaux ou les dictionnaires. 

Les fichiers permettent en effet de stocker de façon stable de l'information dans un système informatique. Ces fichiers peuvent prendre différents formats. On n'utilise dans ce cours que trois types de fichiers, mais les règles présentées ici sont assez facilement généralisables à d'autres formats:
- les fichiers `texte` non formatés, c'est à dire des fichiers dont le contenu est directement lisible par un être humain qui ouvrirait le fichier avec un éditeur de texte simple ne respectant pas de format particulier,
- les fichiers `CSV` qui sont des fichiers texte respectant un format particulier (adapté aux données tabulaires) ; plus précisément, chaque ligne du tableau correspond à une ligne du fichier et sur chaque ligne les valeurs des différentes colonnes sont séparées par un délimiteur (`,`ou `;` en général). Quand le délimiteur est une tabulation (`\t`) on parle parfois de fichier `TSV`.

**Exemple** : Les 6 premières lignes du fichier texte  `files/indicateurs.csv` au format `CSV` ayant le `;` comme délimiteur

In [None]:
Pays;Access_to_improved_sanitation_2015;Access_to_improved_water_2015;Population_undernourished_2015;Dependency_ratio_2018;Extremepoverty_2011
Afghanistan;31;9;55;3;26;8;82;6741025;56;7
Albania;93;2;95;1;5;44;30454434;0;46
Algeria;87;6;83;6;5;56;04993325;6;8
Angola;51;6;49;14;2;96;39568125;43;37
Argentina;96;4;99;1;5;56;31475832;1;41

- les fichiers `JSON` qui sont aussi des fichiers texte respectant un format particulier adapté aux données de type association clé/valeur (*cf.* Chapitre 11).

De nombreux autres types de fichiers existent dont certains sont dans un format binaire (pdf, png, gif). Afin de lire ces fichiers il faut le plus souvent disposer d'une librairie adaptée proposant des fonctions de lecture appropriées au format. Dans ce cas, la documentation de la librairie indique les fonctions d'intéraction existantes et les structures de données qui leur sont associées.

## Généralités
Afin d'importer des données depuis un fichier de sorte qu'elles soient accessibles à un programme, 
- il faut un sous-programme:
    - interagissant avec le système de fichier pour localiser le fichier dans la mémoire - sur un disque dur par exemple - et l'*ouvrir* afin de pouvoir lire/écrire son contenu,
    - permettant de naviguer dans le fichier *i.e.* de déplacer le curseur de lecture/écriture - pour passer d'un caractère à l'autre, d'un mot à l'autre ou d'une ligne à l'autre, ...
    - permettant 
        - de stocker dans une variable de la mémoire du programme une donnée lue dans le fichier pour pouvoir le cas échéant l'utiliser dans le programme 
        - ou de lire une donnée d'une variable de la mémoire du programme pour l'écrire dans le fichier.
- dans le cas des fichiers formatés, il faut aussi un algorithme permettant de lire le contenu du fichier en suivant son format et ainsi structurer dans la mémoire du programme les différentes informations encodées dans le format.

**NB :** Les opérations de lecture/écriture sont exécutées à la position du curseur.

## Interaction avec le système de fichiers

Pour qu'un programme puisse utiliser les données stockées dans un fichier, ce dernier doit pouvoir être *accessible* et *lu* par le programme. De façon symétrique, un programme souhaitant *sauvegarder* des données doit pouvoir accéder à l'emplacement du fichier les *écrire* des données dans celui-ci.

Dans le cas de la *lecture* comme dans le cas de *l'écriture*, le fichier est identifié par un chemin (appelé `path`) qui est composé de son nom précédé de la séquence des répertoires de l'arborescence du système de fichiers qu'il faut traverser pour l'atteindre. Le chemin peut être donné comme un chemin absolu ou relatif. On n'utilise ici que des chemins relatifs au répertoire contenant le notebook (qui est supposé contenir un répertoire `files/`).

### Ouverture d'un fichier 
La mécanique de la lecture et de l'écriture d'un fichier sont assez similaires et introduites ci-dessous:

La première étape consiste à ouvrir le fichier avec la fonction `open()`. 

>|        |     |
>| :---------- | :-- |
>| `open(path,mode, encoding)` | Retourne un *objet fichier* (ou *flux*) qui doit être affecté à une variable. Cette variable peut être considérée comme un curseur (de lecture ou d'écriture) placé dans le fichier.|

La fonction `open()` prend 3 paramètres:
- le premier paramètre est le nom du fichier. Il s'agit d'une chaîne de caractères qui indique le chemin du fichier (`path`).
- le second paramètre le mode d'ouverture du fichier. Il y a 4 modes d'ouverture de fichier possibles:

| Mode  | Description | Remarques |
|--------|-------------------|---------------|
|`r`     | Read - Valeur par défaut. Ouvre le fichier en lecture et renvoie une erreur si le fichier n'existe pas.| |
|`w`     | Write - Ouvre le fichier en écriture et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est écrasé par le nouveau contenu.|
|`a`     | Append - Ouvre le fichier en écriture à la fin  et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est préservé, le nouveau contenu est écrit à la suite du contenu prééxistant.|
|`x`     | Create - Crée le fichier ou retourne une erreur si il existe déjà.| |
- le troisième indique facultatif indique l'encodage, par exemple `encoding=utf-8`.

**NB:** Lors de l'ouverture d'un fichier, le curseur est automatiquement positionné au début du fichier *i.e.* devant le premier caractère.

Voici un exemple de procédure d'ouverture d'un fichier en lecture

In [None]:
# Définition du chemin vers le fichier
path = "files/lorem.txt"
# Définition du mode d'ouverture du fichier en lecture
mode = 'r'

# Ouverture du fichier et association du flux à une variable
f = open(path, mode, encoding='utf-8')

f.close() # Il faut fermer le fichier pour exécuter la cellule

Entre l'ouverture et la fermeture du fichier, une variable `f` est définie dans la mémoire et permet d'accéder au contenu du fichier en lecture au moyen de différentes fonctions.

### Fermeture du fichier
Tout fichier ouvert par un programme (en écriture comme en lecture) **DOIT** être fermé par le programme. Cette fermeture doit avoir lieu au plus tôt, dès que le programme n'a plus à écrire ou lire dans le fichier et dans tout les cas avant la fin de l'exécution du programme. La fermeture du fichier s'opère au moyen de la fonction `close` et du nom de la variable fichier. Il est conseillé d'écrire l'instruction `close` au même moment que l'instruction `open`:

>|  |  |
>| :-- | :-- |
>| `f.close()` | Ferme le flux vers le fichier enregistré dans la variable `f`.|

Ainsi l'instruction 
```
f.close()
```
permet de fermer le fichier `f`.

### Cadre de lecture et d'écriture 
Entre l'ouverture et la fermeture du fichier, selon le mode d'ouverture choisie, le programme peut lire ou écrire des données dans le fichier.

In [None]:
# ----------- Ouverture du fichier -----------
f = open('files/nom_du_fichier', "r")


#  Ici sont insérées les diverses instructions
# de lecture ou d'écriture dans le fichier


f.close()
# ----------- Fermeture du fichier -----------

### Lecture d'un fichier 

Trois fonctions permettent de lire le contenu d'un fichier. L'une (`readline()`) permet de lire le contenu du fichier ligne à ligne. Les deux autres (`read()` et `readlines()`) permettent de lire tout le contenu d'un fichier et renvoient respectivement une chaîne de caractères et un tableau de chaînes de caractères.

>|  |  |
>| :-- | :-- |
>| `f.readline()` | Retourne la **chaîne de caractères** correspondant à la ligne du fichier située à la suite du curseur de la variable de flux `f` et avance le curseur jusqu'au début de la prochaine ligne. Retourne une chaîne vide si le curseur se trouve à la fin du fichier.|
>| `f.read()` | Retourne la **chaîne de caractères** correspondant au contenu de la totalité du fichier pointé par la variable de flux `f`.|
>| `f.readlines()` | Retourne un **tableau de chaînes de caractères** dont chaque valeur correspond à une ligne du fichier associé à la variable de flux `f`.|

**Remarque** : Ces trois fonctions retournent une *chaînes de caractères*. ou un tableau de *chaînes de caractères*. Si l'on veut lire d'autres *types* de données (des entiers, des flottants, des booléens...), il faut penser à *caster* (avec les fonctions `int()`, `float()`, `bool()`,...) ce qui est lu.
Lorsque le curseur de lecture atteint  à la fin du fichier, la fonction `readline` renvoie une chaîne vide `""`.

**NB** :  Une ligne vide contient au minimum un caractère, le caractère non imprimé de retour à la ligne `'\n'`. 

Voici un programme permettant de lire et d'afficher les deux premières lignes du fichier `files/indicateurs.csv`.

In [4]:
# ----------- Ouverture du fichier -----------
f = open( 'files/indicateurs.csv' , "r")

ligne_1 = f.readline() # Lecture de la première ligne
ligne_2 = f.readline() # Lecture de la deuxième ligne

f.close()
# ----------- Fermeture du fichier -----------

print(ligne_1)              # Affichage de la première ligne
print("------------")
print(ligne_2)              # Affichage de la deuxième ligne

Pays;Access_to_improved_sanitation_2015;Access_to_improved_water_2015;Population_undernourished_2015;Dependency_ratio_2018;Extremepoverty_2011

------------
Afghanistan;31;9;55;3;26;8;82;6741025;56;7



In [None]:
# ----------- Ouverture du fichier -----------
f = open( 'files/indicateurs.csv' , "r")

# Lecture de tout le fichier, et stockage dans un tableau 
tab = f.readlines() 
f.close()
# ----------- Fermeture du fichier -----------

print(tab) # Affichage du tableau, chaque élement est une ligne 


**Parcours d'un fichier ligne par ligne jusqu'à sa dernière ligne**
```
f = open(path, mode)
ligne = f.readline()
while ligne !='' :
    instructions ...
    ligne = f.readline()
f.close()
```

#### Fonction utiles lors de la lecture 

>|  |  |
>| :---- | :-- |
>| chaine.strip()           | supprime espaces et `'\n'` en début et fin de `chaine` |
>| chaine.split(séparateur) | sépare la `chaine` où il y a un `séparateur` et retourne le tableau des chaines obtenues. Par défaut, quand aucun paramètre n'est donné, le séparateur est l'espace|

**Exemples**

In [5]:
ligne = "28;Septembre;2022;13h45;15h45"
print(ligne)
tab_li=ligne.split(';')
print(tab_li)

28;Septembre;2022;13h45;15h45
['28', 'Septembre', '2022', '13h45', '15h45']


In [6]:
chaine = " Bonjour \n"
print(chaine)
chaine=chaine.strip()
print(chaine)

 Bonjour 

Bonjour


- Sur ce thème : **Exercice 1, TD 8**.

### Écriture dans un fichier

L'écriture des données dans un fichier est une procédure qui suit le modèle suivant :
- Ouverture du fichier en écriture :

In [7]:
f = open('files/test_ecriture','w',encoding='utf-8')

Dès que cette instruction est évaluée, un fichier vide est créé à l'emplacement indiqué dans le système de fichier de l'ordinateur. 

- Ecriture de texte dans le fichier :

Il est alors possible d'écrire dans un fichier au moyen de la fonction `write` et de la variable de flux associée.

>|  |  |
>| :-- | :-- |
>| `f.write(s)` | écrit dans le fichier lié à la variable de flux `f` la chaîne de caractères `s`.|

**Remarque** : La fonction `write`n'écrit que des *chaînes de caractères*. Si l'on veut écrire d'autre *types* de données il faut penser à les *caster* (avec la fonction `str()`). 

**Exemple** : L'instruction suivante écrit la chaîne de caractère `'Bonjour \n'` dans le fichier `files/test_ecriture'`:

In [8]:
f.write('Bonjour \n')

9

Il est possible que la chaîne `'Bonjour \n'` ne soit pas écrite immédiatement dans le fichier. Certain langage ne procède à l'écriture effective dans le fichier que lorsqu'il y a suffisament de choses à écrire pour limiter les accès disque qui prennent du temps. Ces systèmes conservent les éléments à écrire dans un tampon et lorsque celui-ci est plein, il écrit dans le fichier le contenu du tampon et vide le tampon. Il est possible de forcer l'écriture du tampon dans le fichier en utilisant la fonction `flush` (par exemple avec une instruction de la forme: `f.flush()`)

>|  |  |
>| :-- | :-- |
>| `f.flush()` | écrit le contenu du tampon dans le fichier lié à la  variable de flux  `f` et vide le tampon.|

- Fermeture du fichier :

Dans tout les cas, lorsque le flux du fichier est fermé, le contenu du tampon est écrit dans le fichier. Ainsi après l'exécution de l'instruction `close`, le fichier contient la chaîne de caractère `'Bonjour \n'`.

In [9]:
f.close()

Il est possible d'**écrire à la fin d'un fichier existant** au moyen du mode d'ouverture `'a'`(pour append).

In [10]:
f = open('files/test_ecriture','a',encoding='utf-8')
i = 0
while i < 10  :
    f.write(str(2*i+1)+'\n')
    i += 1
f.close()

La fonction `write()` n'ajoute pas de retour à la ligne (`'\n'`) comme la fonction `print()`. Pour **écrire plusieurs ligne dans un fichier**, il faut écrire explicitement introduire des caractère spéciaux `'\n'` dans les chaînes de caractères.

A l'issue de ces deux opérations d'écriture dans ce même fichier `'files/test_ecriture'`, le contenu de celui-ci est le suivant:
```
Bonjour 
1
3
5
7
9
11
13
15
17
19
```

- Sur ce thème : **Exercice 2, TD8**