# La manipulation des fichiers texte

L'objectif de ce chapitre est d'expliquer comment s'effectue, en langage Python, la lecture et l'écriture de données dans des fichiers. Seul le cas des fichiers de texte est abordé.

## Généralités sur l'utilisation de fichiers en programmation

### Pourquoi utiliser des fichiers ?

Jusqu'à présent, les données que nous avons traitées dans des programmes étaient&nbsp;:

* stockées dans des variables (simples ou structurées) grâce à des affectations, directement dans le code source
* saisies au clavier puis stockées dans des variables au cours de l'exécution.

Ces deux méthodes sont très limitées et inadaptées pour traiter de grandes quantités de données. Prenons l'exemple d'un programme calculant la moyenne obtenue par 1500 élèves à un contrôle de maths. Il n'est pas envisageable de déclarer dans le programme 1500 variables pour stocker les 1500 notes. Il n'est pas non plus raisonnable de saisir au clavier les 1500 notes. En supposant qu'on puisse tout de même le faire, cela signifie que si les valeurs des notes ou leur nombre changent il faudra modifier le code source du programme. Or, un programme bien conçu doit être indépendant des données qu'il traite. La quantité de données ainsi que leurs valeurs doivent pouvoir changer sans qu'on ait besoin de modifier le programme.

Jusqu'à présent également, les résultats produits par nos programmes étaient simplement affichés à l'écran. Or, les résultats produits sont souvent trop volumineux pour être simplement affichés. Ils ont aussi parfois besoin d'être conservés, ce que ne permet pas l'affichage à l'écran.

L'intérêt des fichiers est de bien séparer les programmes des données qu'ils traitent et des résultats qu'ils produisent. L'utilisation de fichiers permet de stocker dans des fichiers séparés&nbsp;:

* le programme source
* les données à traiter, c'est-à-dire les **entrées** ou le **fichier d'entrées**
* les données produites, c'est-à-dire les **sorties** ou le **fichier de sorties**.

Si on prend l'exemple d'un programme calculant les moyennes obtenues par des étudiants à trois examens (cf. figure ci-dessous), le fichier d'entrées contient la liste des étudiants, avec pour chacun les trois notes obtenues. Le fichier de sorties contient la même liste d'étudiants, avec pour chacun la moyenne obtenue.

![Programme utilisant des fichiers](ImagesNotebook/EntreesSorties.PNG)

La seule contrainte imposée par l'utilisation de fichiers pour les entrées et les sorties est la définition précise et sans ambiguïté de la syntaxe (i.e., le format) de ces fichiers. Cette définition de la syntaxe doit précéder l'écriture du programme source, qui doit en tenir compte. Dans notre exemple, une syntaxe possible pour le fichier d'entrées est montrée sur la figure suivante. Dans cette syntaxe, chaque ligne contient les caractéristiques d'un étudiant(e) séparées par des virgules : nom, prénom, note obtenue au 1er examen, note obtenue au 2e examen, note obtenue au 3e examen. 

![Syntaxe du fichier d'entrées](ImagesNotebook/SyntaxeEntrees.PNG)

Le fichier de sorties peut reprendre la même syntaxe que le fichier d'entrées, à ceci près que les 3 notes sont remplacées par la moyenne.

![Syntaxe du fichier de sorties](ImagesNotebook/SyntaxeSorties.PNG)

Il existe principalement deux types de fichiers&nbsp;:

* les fichiers texte
* les fichiers binaires

### Les fichiers texte

#### Contenu

Comme son nom l'indique, un fichier texte contient des données textuelles, lisibles grâce à l'utilisation d'un **éditeur de texte** tel que **Notepad++**, **Bloc-notes**, **Xemacs** ou **Sublime Text**. Ces données textuelles peuvent être&nbsp;:

* des caractères imprimables : lettres, chiffres, ponctuation, symboles, etc
* des espaces
* des caractères de fin de paragraphe ou de fin de ligne.

Tous les programmes sources, quel que soit le langage utilisé, sont mémorisés dans des fichiers texte. Un fichier texte peut également être utilisé pour conserver des données textuelles brutes, c'est-à-dire sans aucune mise en forme.

#### Notion d'encodage

Dans la mémoire vive d'un ordinateur ou sur un support de stockage tel qu'un disque dur, toutes les données, quels que soient leurs types, sont codées à l'aide d'un **langage binaire**, dont l'alphabet se compose de deux symboles uniquement : **0** et **1**. Chaque caractère d'un fichier texte est donc mémorisé à l'aide d'une **suite de bits**, c'est-à-dire une suite de chiffres dont la valeur est 0 ou 1. La suite de bits représentant un caractère dépend de l'**encodage** utilisé. En informatique, un encodage est un processus permettant de traduire un caractère en une suite plus ou moins longue de bits qui correspond à sa représentation binaire. Il existe de nombreux encodages, parmi lesquels nous pouvons citer les plus couramment utilisés&nbsp;:

* ASCII : un des premiers encodages utilisés en informatique. Il n'est quasiment plus utilisé aujourd'hui car il ne permet l'encodage que de 128 caractères différents.
* ISO-8859-1 ou ANSI : encodage dit « occidental » permettant de coder tous les caractères latins.
* UTF-8 : encodage le plus répandu depuis 2016. Il permet de coder de nombreux caractères issus de nombreux alphabets (latin, arabe, cyrillique, etc).

Le tableau suivant montre les représentations binaires des caractères « e » et « é » avec les trois encodages cités ci-dessus.

| Caractère | ASCII | ANSI | UTF-8 |
| :-: | :-: | :-: | :-: |
| e | 01100101 | 01100101 | 01100101 |
| é | non défini | 11101001 | 11000011 |

Nous pouvons remarquer que la représentation binaire de « e » est identique dans les trois encodages. En revanche, le « é » ne peut être codé en ASCII. De plus, sa représentation binaire est différente en ANSI et en UTF-8. Ces observations sont identiques pour tous les caractères accentués.

Lorsqu'on travaille avec un fichier texte, il est primordial de savoir avec quel encodage il a été mémorisé. Supposons par exemple que nous créons un fichier texte, en utilisant l'encodage ANSI. Le contenu du fichier est le suivant&nbsp;:

![Fichier texte initial](ImagesNotebook/Fichier_ANSI_Init.PNG)

Nous envoyons via la messagerie électronique ce fichier à deux amis A et B. Notre ami A récupère le fichier, puis l'ouvre dans son éditeur de texte en utilisant également l'encodage ANSI. Voici ce qui s'affiche sur l'écran de A&nbsp;:

![Fichier ouvert avec ANSI](ImagesNotebook/Fichier_ANSI_Init.PNG)

Dans ce cas, tout se passe bien : l'encodage utilisé par A pour lire le fichier est le même que celui avec lequel nous l'avons créé. 

Notre ami B récupère également le fichier, mais l'ouvre dans son éditeur en utilisant l'encodage UTF-8. Voici ce qui s'affiche sur l'écran de B&nbsp;:

![Fichier ouvert avec UTF-8](ImagesNotebook/Fichier_UTF-8.PNG)

Dans ce cas, tous les caractères apparaissent normalement, sauf les caractères accentués ! Ce qui est normal puisque ces caractères ne sont pas codés de la même façon en ANSI et en UTF-8. Leur lecture avec un encodage UTF-8, alors qu'ils ont été mémorisés avec ANSI, ne peut donc pas s'effectuer correctement.

### Les fichiers binaires

## Utilisation des fichiers texte en Python

## Utilisation des fichiers au format CSV en Python : le module csv