(ch:ES-fichiers)=
# Entrées-sorties simples avec des fichiers

Mis à jour : {sub-ref}`today`, lecture : {sub-ref}`wordcount-minutes` minutes minimum, PhL.

Chapitre où on étudie comment effectuer des entrées-sorties (E/S) simples à l'aide de fichiers.

Jusqu'à présent les entrées-sorties ont été générées à grands coups de `print()` et d'` input()` pour interagir avec l'écran ou le clavier.
Les entrées-sorties ne sont pas limitées au couple écran-clavier.
Bien au contraire, ces derniers ne sont que des cas particuliers d'une notion plus générale : celle de _fichier_. 

## Notions générales et vocabulaire important

### Fichier, fichier texte et fichier binaire

A la différence de la mémoire de l'ordinateur, le fichier (_file_ en anglais) permet de stocker de l'information et la retrouver si l'alimentation électrique de l'ordinateur est interrompue.  
Par information, on entend des données de tout type (nombres, sons, images,...), des programmes, des bibliothèques de composants du logiciel, ...  
"Physiquement", les [supports matériels de ces fichiers](https://fr.wikipedia.org/wiki/Mémoire_de_masse) sont variés et évoluent selon les technologies disponibles : cartes perforées, bandes magnétiques, disques optiques, mémoires flash ... 

En pratique, il faut distinguer les _fichiers_ dits **texte** (ou fichiers textuels) des _fichiers_ (dits) **binaires**. 

- Les fichiers texte  contiennent de l'information exploitable par l'humain 
- Les fichiers binaire contiennent de l'information uniquement exploitable par l'ordinateur

Bien sûr, ces deux familles de fichiers sont au final une suite de bits stockés sur un support physique.   
Dans ce chapitre, l'accent sera surtout mis sur les fichiers de texte utiles pour nos développements de taille modeste.

### Programmer avec des fichier : principes

La plupart des langages de programmation distinguent les fichiers (dits) logiques des fichiers (dits) physiques.

- Les __fichiers logiques__ sont des variables manipulées par le programme  
    - Ce sont des variables d'un nouveau type : le type _fichier_
- Les __fichiers physiques__ sont les supports effectifs du stockage de l'information (en mémoire, sur disque, sur clé, ...). 
    - Ils sont identifiés par le "chemin" système de leur localisation (le _path_)(`/home/mon_user_id/work/le_fichier.txt`)   
    - Ils ne sont manipulés qu'une seule fois : lors de l'association fichier logique $\to$ fichier physique

__Utiliser un fichier__ (en lecture, écriture ou lecture-écriture) consiste en les 4 étapes suivantes.
1. __associer le fichier logique__ à __un fichier physique__
2. __ouvrir__ le fichier logique  
3. effectuer les __traitements__ désirés sur le fichier logique  
4. __fermer__ le fichier logique  

L'étape d'ouverture du fichier précise le __type des traitements__ qui seront effectués en distinguant :
- la lecture : _read_
- l'écriture : _write_
- la lecture + l'écriture : _readwrite_  

__Organisation :__ 

- Un fichier est décomposé en **lignes** et se termine par un symbole de fin de fichier : _EOF (end of file)_     
- Une ligne est une **suite de caractères** et se termine par un symbole de fin de ligne : _EOL (end of line)_  
- Les traitements correspondent à un _accès séquentiel_ du fichier, en commençant à ligne 1.   

**Remarque.**

Le symbole de fin de ligne varie selon les systèmes d'exploitation [lien wikipedia](https://fr.wikipedia.org/wiki/Fin_de_ligne) ou, en mieux, la [version en anglais](https://en.wikipedia.org/wiki/Newline). 
Il en est de même pour le [symbole de fin de fichier](https://en.wikipedia.org/wiki/End-of-file).

Dans ce qui suit, on identifiera le symbole de fin de ligne avec **le caractère spécial `\n`**.


:::{dropdown} Aspect historique

**Fichier à accès direct _vs._ à accès séquentiel.**

On distingue :
-  les fichiers qui permettent d'accéder _directement_ à une ligne (et l'enregistrement) quelconque de leur contenu,   
- les fichiers qui nécessitent un parcours systématique et _séquentiel_ à partir de la dernière ligne accédée (et donc depuis le début du fichier lors de la première opération).

Ces différents comportements sont essentiellement dues à des aspects matériels.
Historiquement, les fichiers stockés sur des bandes magnétiques (!) étaient à accès séquentiel.

La plupart des fichiers utilisables aujourd'hui sont à accès direct -- ce qui sera le cas dans ce qui suit.

:::

## Trois exemples simples pour savoir faire

<div class="alert alert-info">

Objectif 10 : On se limite à des manipulations simples (lecture ou écriture) de fichier de texte.
    
</div>

Un premier objectif de ce chapitre est de faciliter les tests de vos développements en limitant la perte de temps liée à la saisie au clavier, perte de temps qui est d'autant plus élevée que le nombre de saisies est élevé (nombreuses valeurs ou nombreux essais).   

La forme des fichiers dépend des valeurs stockées mais aussi des facilités de lecture-écriture du langage.
Un fichier structuré de façon simple, voire simpliste, fera l'objet de procédures d'entrée-sortie faciles à écrire.  
Inversement, les traitements d'un fichier structuré de façon plus complexe seront vite plus techniques à écrire.
En contre-partie, le fichier simple sera souvent moins commode à manipuler via l'éditeur de texte qu'un fichier dont la structure reflète déjà celle de l'information qu'il contient.

Face à ce compromis, nos premiers exemples visent des procédures d'entrées-sorties simples pour python. 
- Le premier manipule _uniquement_ des chaînes de caractères et se limite à des lectures
- Le deuxième effectue des lectures et traitements sur des entiers et des flottants
- Le troisième effectue des écritures d'entiers et de flottants

### Premier exemple : lectures de `str` 


#### Objectif

Je veux tester la fonction `nb_occ()` qui compte le nombre d'occurrences d'une lettre dans une chaîne de caractères. 

In [1]:
def nb_occ (char: str, texte: str) -> int:
    '''calcule et retourne le nombre d'occurrences de char dans texte'''
    nb = 0
    for i in range(len(texte)):
        if texte[i] == char:
            nb = nb + 1
    return nb

#### Deux fichiers de test

Je décide de compléter plusieurs fichiers texte composés de 2 lignes selon le modèle suivant :

> le caractère cherché  
> la chaîne de caractères à explorer

Les fichiers `test_nb_occ0.txt` et `test_nb_occ1.txt` sont deux exemples de tels fichiers. 

In [2]:
!cat tmp/test_nb_occ0.txt

z
anticonstitutionnellement


In [3]:
!cat tmp/test_nb_occ1.txt

n
anticonstitutionnellement


#### Lecture ligne à ligne avec `.readline()` qui fournit une `str` par ligne 

La fonction-méthode python `.readline()` permet :
- de parcourir séquentiellement le fichier ligne après ligne,
- et chaque ligne lue est fournie comme une `str`.

Chaque ligne des fichiers de test contient une chaîne de caractères.
Cette lecture avec `.readline()` est donc tout à fait adaptée.

:::{important} 

La fonction-méthode `.readline()` est une fonction particulière. 
Il s'agit en fait d'une _méthode_. 
Une méthode est une fonction dont l'appel est préfixé par l'identifiant d'une variable (un objet en fait) suivi d'un `.` 
On parlera donc de _fonction-méthode_.

Exemple. `mon_fichier.readline()` pour indiquer que `readline()` s'applique au fichier (logique) de nom `mon_fichier`.

On pourrait se demander pourquoi `mon_fichier` n'est pas un paramètre de l'appel de `readline()`, c-a-d. que `mon_fichier` pourrait apparaître entre `( )` lors de l'appel. Ce point sera clarifié ultérieurement. Ce n'est certainement pas la première fois que vous rencontrez cette **notation préfixée pointée**. Ce ne sera pas la dernière. Ce n'est pas le cas ici avec `.readline()` mais des paramètres autres que celui préfixé peuvent apparaître entre `( )` lors de l'appel. 
:::

In [4]:
# association et ouverture du fichier -- noter le mode "r" pour read
f = open("./tmp/test_nb_occ0.txt", "r", encoding="utf8")

# lecture séquentielle par ligne. 
c = f.readline() # lecture du caractère 
m = f.readline() # lecture du mot

# fermeture    
f.close()

:::{note}
Notez le préfixe `f` devant `.readline()` où `f` est le nom du fichier logique défini à l'association/ouverture.
:::

Les 4 étapes association/ouverture/lecture/fermeture de ce fichier sont effectuées. 

Le traitement des entrées n'est pourtant **pas terminé**. 

#### Nettoyage des caractères spéciaux de fin de ligne

Observons plus en détail ce qui a été _effectivement_ lu.  
Un focus sur le caractère `c` lu à la première ligne du fichier suffit à comprendre.

In [5]:
print(c)
print(type(c))
print(len(c))

z

<class 'str'>
2


Surprise : `c` est un caractère de longueur 2 !?

En effet, la première ligne du fichier est composé d'un caractère (ici `z`). Mais elle est aussi terminée par le caractère spécial d'EOL, ici `\n`. Ce qui fait 2 caractères au total lus par `.readline()`.

On peut le vérifier en convertissant `c` en `lst` :

In [6]:
print(list(c))

['z', '\n']


Il faut donc "nettoyer" chaque ligne lue de ce caractère spécial si le traitement à effectuer le nécessite.
C'est très souvent le cas.

Les tranches de `str` ou de `lst`  python (_slice_) rendent ce nettoyage facile : on rappelle que le dernier élément d'un tableau est d'indice -1.

In [7]:
c = c[:-1] # tranche de tableau qui "supprime" la dernière valeur de c 
print(c)

z


Et de même pour le mot lu en seconde ligne du fichier :

In [8]:
if m[-1] == '\n':
    m = m[:-1]
print(m)

anticonstitutionnellement


**Remarque.** 
On a ajouté un test de la présence du _EOL_ car la dernière ligne d'un fichier ne se termine pas nécessairement ainsi.

#### Traitement : le premier test de `nb_occ()`

Passons enfin au traitement proprement dit, ici le test le la fonction `nb_occ()`.

In [35]:
assert nb_occ(c, m) == 0

TypeError: object of type 'int' has no len()

On a donc lu le premier fichier de test de `nb_occ`. La fonction a passé avec succès le test défini par les paramètres lus dans ce fichier. L'exécution sans erreur de l'instruction `assert` permet de continuer.  

#### Exploitation du second fichier

On recommence lecture et test pour le second fichier de test où 5 occurrences de la lettre `n` sont attendus.

In [36]:
!cat tmp/test_nb_occ1.txt

n
anticonstitutionnellement


On supprime directement le _EOL_ à chaque lecture à l'aide de la tranche `[:-1]`.

In [10]:
# association et ouverture du fichier -- noter le mode "r" pour read
f = open("./tmp/test_nb_occ1.txt", "r", encoding="utf8")

# lecture séquentielle par ligne
c = f.readline()[:-1] # lecture du caractère 
m = f.readline()[:-1] # lecture du mot

# fermeture    
f.close()

# affichage par curiosité
#print(list(c), m, nb_occ(c, m))

# test
assert nb_occ(c, m) == 5

Ce second test de `nb_occ()` est aussi validé.

**Extensions possibles.**

Il vient naturellement à l'idée de rassembler dans un seul fichier plusieurs cas tests, voire même les résultats attendus de chacun de ces tests. Même dans ce cas simple, de telles extensions sont vite plus compliquées qu'il y parait. En effet, ajouter par exemple les résultats attendus revient à ajouter des valeurs entières (les nombres d'occurrences attendus) dans un traitement pour l'instant limité à de la manipulation de `str`.

L'exemple suivant permet d'illustrer un cas similaire.

### Deuxième exemple : lecture `.readline()` avec conversion de type et effets dynamiques

#### Objectif

Je veux tester la fonction de produit scalaire suivante.

In [11]:
def prod_scal(u : list[float], v : list[float], n : int) -> float:
    '''calcule et retourne le produit scalaire u^t.v où u et v sont de taille n'''
    assert len(u) == len(v) == n
    res = 0.0
    for i in range(n):
        res = res + u[i]*v[i]
    return res

#### La forme d'un fichier de test

Je décide de compléter un fichier texte selon le modèle suivant :

> $n$  
> $u$   
> $v$   
> $u^t v$ 

Ainsi :

1. la première donne la taille $n$ des vecteurs,  
2. les $n$ lignes suivantes donne les composantes de $u$,
3. les $n$ lignes suivantes celles de $v$,
3. enfin la dernière indique la valeur du produit scalaire (calculée "à la main").

Ainsi, je vais pouvoir comparer le résultat de `prod_scal()` et celui attendu, et ce sur des vecteurs de tailles arbitraire. Chaque choix ($n$, $u$, $v$, $u^t v$) est un _cas test_ pour `prod_scal()`.

`test_prod_scal.txt` est un exemple d'un premier cas test : 2 vecteurs de taille 4 de produit scalaire égal à 2.

In [12]:
!cat ./tmp/test_prod_scal.txt

4
1.
1.
1.
1.
1.
1.
-1.
1.
2.


#### Conversions et effets dynamiques

**Analyse préliminaire**

1. Conversions `str` $\to$ valeurs numériques
    - Le fichier de texte contient _uniquement_ des caractères, des `str` en python.
    - Pourtant, ces `str` correspondent à un `int` ou des `float`
    - Ainsi, des conversions adaptées devront être effectuées pendant (ou après) la lecture :
        - conversion en `int` pour la ligne 1
        - conversions en `float` pour les autres

2. Conséquences dynamiques 
    - La taille des vecteurs est connue _après_ avoir lu la valeur pour `n` (ligne 1) 
    - Les vecteurs devront être créés une fois `n` connu
    - La lecture de la suite du fichier (composantes des 2 vecteurs, résultat attendu) dépend aussi de la valeur lue pour $n$
    

3. Rappel : la gestion des fins de ligne
    - Chaque ligne du fichier se termine par un caractère spécial _EOL_, ici `\n`
    - Comme précédemment, ces caractères spéciaux seront lus aussi et un traitement adapté sera défini -- par exemple, les supprimer. 

On va profiter de cet exemple pour donner **une autre construction** python des 4 étapes association/ouverture/lecture/fermeture de ce fichier.

- La lecture est toujours effectuée ligne après ligne avec `.readline()` 
- mais la construction avec la clause de contexte `with` permet de se dégager de l'ouverture et la fermeture au préalable obligatoires.

#### Lecture avec la clause `with` 

Cette lecture de la première ligne uniquement pour commencer en illustrant cette nouvelle construction très utile en pratique.

In [13]:
# association/ouverture/lecture/fermeture avec clause with
with open("./tmp/test_prod_scal.txt", "r", encoding="utf8") as f:
    # la taille n : lecture et nettoyage du EOL
    n = f.readline()[:-1]

In [14]:
print(n, len(n), type(n))

4 1 <class 'str'>


On retrouve la configuration de l'exemple précédent sans à avoir à utiliser les instructions `open()`et `.close()`.

Occupons-nous maintenant du typage des valeurs lues.


#### Lecture `.readline()` avec `with` et typage 

Le nettoyage de chaque ligne étant effectué après la lecture et avant l'affectation, le typage est aisé : d'abord un `int` puis des `float`.

In [15]:
# association/ouverture/fermeture avec clause with
with open("./tmp/test_prod_scal.txt", "r", encoding="utf8") as f:
    # la taille n : lecture
    n = int(f.readline()[:-1])
    
    # premier vecteur : création et lecture
    x = [0. for i in range(n)]
    for j in range(n):
        x[j] = float(f.readline()[:-1])
    # second vecteur : création et lecture
    y = [0. for i in range(n)]
    for j in range(n):
        y[j] = float(f.readline()[:-1])
    # produit scalaire : resultat attendu 
    ps_exact = float(f.readline()[:-1])  

**Remarque.** Ne pas oublier le nettoyage de _EOL_ lors de chaque `readline()`. 

Il ne reste plus qu'à tester.

#### Test unitaire de `prod_scal()`

In [16]:
assert prod_scal(x, y, n) == ps_exact

Le test ainsi validé nous rassure sur la correction de `prod_scal()`. 

Bien sûr, des extensions similaires à celles explicitées à l'exemple précédent sont tentantes. 
On vous invite à continuer en ce sens en exercice.

### Troisième exemple : écritures simples avec `.write()`


On termine en montrant comment l'écriture simple _dans_ des fichiers textes s'obtient de façon très similaire avec la fonction méthode `.write()`.

Toujours les 4 étapes mais :
- l'ouverture du fichier s'effectue en mode `w` (_write_) ou `a` (_append_ : ajouter à la fin)
- la fonction-méthode `.write()` permet l'écriture d'une `str` 
- la conversion vers des `str` sera donc un préalable
- ainsi que la gestion des _EOL_, ici `\n` pour effectuer les sauts de lignes souhaités dans le fichier
    - en effet, `.write()` écrit la `str` à la suite de la dernière écriture effectuée.

#### Construction d'un cas test de `nb_occ()`

In [17]:
# Préparation des données à stocker
from random import randint

# une taille de vecteurs au hasard
n = randint(1, 10)

# un choix de composantes tel que ps_exact == n
x = [float(i) for i in range(1, n+1)]
y = [1./float(i) for i in range(1, n+1)]

In [18]:
## vérifications
print(n, x, y, prod_scal(x, y, n))

6 [1.0, 2.0, 3.0, 4.0, 5.0, 6.0] [1.0, 0.5, 0.3333333333333333, 0.25, 0.2, 0.16666666666666666] 6.0


#### Enregistrement dans un fichier de test

In [19]:
# association/ouverture/fermeture avec clause with
with open("./tmp/test_prod_scal_write.txt", "w", encoding="utf8") as f:
    f.write( str(n) + '\n' )
    for i in range(n):
        f.write( str(x[i]) + '\n' )
    for i in range(n):
        f.write( str(y[i]) + '\n' )
    f.write( str(float(n))  + '\n' )  # ==ps_exact        

On vérifie que le fichier `
./tmp/test_prod_scal_write.txt` a bien été créé et son contenu.

In [20]:
!ls -l tmp/test_prod_scal*.txt

-rw-r--r--  1 langlois  staff  30  7 fév 11:46 tmp/test_prod_scal.txt
-rw-r--r--  1 langlois  staff  91  7 fév 08:46 tmp/test_prod_scal2.txt
-rw-r--r--  1 langlois  staff  92  7 fév 11:35 tmp/test_prod_scal3.txt
-rw-r--r--  1 langlois  staff  86  7 fév 17:23 tmp/test_prod_scal_write.txt


In [21]:
!cat tmp/test_prod_scal_write.txt

6
1.0
2.0
3.0
4.0
5.0
6.0
1.0
0.5
0.3333333333333333
0.25
0.2
0.16666666666666666
6.0


#### Exploitation du fichier de test

:::{dropdown}

Il suffit maintenant de lire ce fichier et d'effectuer le test.

In [22]:
# association/ouverture/fermeture avec clause with
with open("./tmp/test_prod_scal_write.txt", "r", encoding="utf8") as f:
    # la taille n : lecture
    n = int(f.readline()[:-1])
    
    # premier vecteur : création et lecture
    x = [0. for i in range(n)]
    for j in range(n):
        x[j] = float(f.readline()[:-1])
    # second vecteur : création et lecture
    y = [0. for i in range(n)]
    for j in range(n):
        y[j] = float(f.readline()[:-1])
    # produit scalaire : resultat attendu 
    ps_exact = float(f.readline()[:-1])  
    
assert ps_exact == prod_scal(x, y, n)

On est rassuré.

:::

### Synthèse et minimum à savoir-faire

Pour ce qui concerne les entrées en se limitant à des fichiers où chaque valeur est stockée sur une ligne, on a vu :
- les 4 étapes classiques association/ouverture/lecture/fermeture,
- la construction simplifiée avec la clause `with`,
- la lecture séquentielle ligne après ligne avec `.readline()`,
- l'écriture simple avec `.write()`,
- la gestion des caractères spéciaux _EOL_,
- la conversion des lectures `str` vers des types adaptés aux traitements à effectuer,
- et inversement pour les écritures.

On a naturellement complété cette présentation par l'écriture de tests unitaires à l'aide d'instructions `assert`.

(sec:EScomplements)

## ($\star$) Compléments

<div class="alert alert-warning">

Objectif 20 
    
</div>

### Les fonctions et les méthodes

* Ouverture et fermeture : `open()` et `close()`

* Lecture complète  
    - `.read()`: lit tout le fichier et retourne un `str`  
    - `.readlines()`: lit tout le fichier et retourne une `lst` de `str`  
    
* Lecture partielle  
    - `.readline()`: lit une ligne, caractère `\n` compris si il est présent, et retourne un `str`
    - `.read(oct)`: lit `oct` octets dans le fichier et retourne un `str`

* Ecriture.
    - `.write()`: écrit une `str` ou une valeur dans le fichier 

Les deux codes suivants effectuent les 4 étapes association/ouverture/lecture/fermeture de ce fichier.
Ils diffèrent par la phase de lecture.

### Lecture complète : `read()` fournit une `str` 

In [23]:
# association et ouverture du fichier -- noter le mode "r" pour read
f = open("./tmp/test_prod_scal.txt", "r", encoding="utf8")

# lecture complète
s = f.read()    

# fermeture    
f. close()

### Lecture complète : `readlines()` fournit une `list` de  `str` 

In [24]:
# association et ouverture du fichier -- noter le mode "r" pour read
f = open("./tmp/test_prod_scal.txt", "r", encoding="utf8")

# lecture complète
l = f.readlines()    

# fermeture    
f. close()

**Rmq.** Les fichiers _physiques_ doivent exister pour être ouverts, lus, modifiés, fermés.  

**Utilisation du fichier binaire de travail** 

- Dé-commenter les 3 lignes où apparait le fichier temporaire `f_tmp`
- Revenir à l'état initial des fichiers
- Relancer le traitement

**ATTENTION au `read()` !**  

Comme le dit le manuel (7.2.1):  
> it’s your problem if the file is twice as large as your machine’s memory.

La suite de commandes suivantes pour revenir dans l'état initial.  

In [25]:
!cat /dev/null > ./tmp/fichier_sortie.txt
!cat /dev/null > ./tmp/fichier_travail
!ls -l ./tmp/

total 144
-rw-r--r--  1 langlois  staff   326 14 jan 09:59 affectation_composee.py
-rw-r--r--  1 langlois  staff   203  6 fév 09:21 exemple.txt
-rw-r--r--  1 langlois  staff    21 14 jan 09:59 fichier_entrees.txt
-rw-r--r--@ 1 langlois  staff    21 14 jan 09:59 fichier_entrees.txt.~1~
-rw-r--r--  1 langlois  staff    21 14 jan 09:59 fichier_entrees.txt.~2~
-rw-r--r--  1 langlois  staff    11 14 jan 09:59 fichier_entrees2.txt
-rw-r--r--  1 langlois  staff     0  7 fév 17:23 fichier_sortie.txt
-rw-r--r--  1 langlois  staff     0  7 fév 17:23 fichier_travail
-rw-r--r--  1 langlois  staff    81 28 jan 12:19 format1.txt
-rw-r--r--  1 langlois  staff  1239 28 jan 12:18 plt-complexites.pdf
-rw-r--r--  1 langlois  staff    28  7 fév 12:36 test_nb_occ0.txt
-rw-r--r--  1 langlois  staff    28  7 fév 14:51 test_nb_occ1.txt
-rw-r--r--  1 langlois  staff    28  7 fév 12:36 test_nb_occ1.txt.~1~
-rw-r--r--  1 langlois  staff    30  7 fév 11:46 test_prod_scal.txt
-rw-r--r--  1 langlois  staff    95  4

#### Origine des problèmes classiques

La gestion des caractères spéciaux, `\n` entre autres.

- `f.read()`peut (lire et) retourner le caractère `\n` ou  la chaîne vide `''`, ce qui est différent :
    - `\n` = une ligne vide ... de caractères "classiques" : elle est réduite au caractère spécial qui désigne `newline`
    - `''` = pas de ligne : on a atteint la fin du fichier (EOF)  
Dans l'exemple suivant, remarquer que `f.read() == ''` permet de finir correctement la lecture du fichier.
- `f.readline()` ou `f.readlines()` lit une ligne complète, caractère spécial (`\n`) compris.
    - il retourne donc _aussi_ ce `\n` de "passage à une nouvelle ligne", 
    - sauf dans le cas de la dernière ligne -- si celle-ci n'en comporte pas ! 

#### Bien contrôler ses `print()`

Deux exemples pour :
1. rappeler comment utiliser `sep` et `end` 
2. expliciter l'effet du caractère spécial `\n` (nouvelle ligne) dans l'affichage d'une chaîne de caractères avec `print()`.

In [26]:
#rappel : sep, end
s = "azertyuiop"
print(s, s, s, sep="*", end="--")
print("@@") # par defaut : end='\n'

s = "azertyuiop\n"
print(s, s, s, sep="*", end="--")


azertyuiop*azertyuiop*azertyuiop--@@
azertyuiop
*azertyuiop
*azertyuiop
--

In [27]:
# s est _une_ chaine de caractères
s = "azer\ntyuiop"
print(s)
print(s, sep="*")
print(s, end="--")

azer
tyuiop
azer
tyuiop
azer
tyuiop--

Nous reviendrons sur les caractères spéciaux dans le chapitre sur les chaînes de caratères. 

#### Retour sur le `.read()`

Rappel. Retourne la totalité du contenu comme une chaîne de caractères.

In [28]:
# on associe et on ouvre 
f = open("./tmp/fichier_entrees.txt", "r", encoding="utf8") 

# le contenu du fichier est lu et stocké dans une chaîne 
st_f = f.read()

# on regarde
print(st_f)

# on regarde mieux
print(st_f, sep = "*", end="--")

print("remarquer len(st_f)=", len(st_f), " !? Explication ?")

# on ferme
f.close()

6
99
21
33
44
33
188

6
99
21
33
44
33
188
--remarquer len(st_f)= 21  !? Explication ?


**Explication** avec `readlines()` 

In [29]:
# on associe et on ouvre 
f = open("./tmp/fichier_entrees.txt", "r", encoding="utf8") 

# le contenu du fichier est lu et stocké dans une liste de chaînes 
st_f = f.readlines()

# on regarde
print(st_f)
print(len(st_f))
#print(type(st_f), type(st_f[0]))
#print(type(f))

# on vérifie en comptant le nbre total de caractères 
nb = 0
for i in range(len(st_f)):
    nb = nb + len(st_f[i])
print(nb)

# on ferme
f.close()

['6\n', '99\n', '21\n', '33\n', '44\n', '33\n', '188\n']
7
21


#### `read()` _vs._ `readline()` (sans s) 

In [30]:
!cat ./tmp/fichier_entrees.txt

6
99
21
33
44
33
188


In [31]:
print("Pour bien noter la différence entre readline() et read() : ")
print("--> bien identifier l('effet d)es sauts de ligne '\\n' du  readline():")

with open("./tmp/fichier_entrees.txt","r", encoding="utf8") as f:
    i = 0
    u = f.readline() # sans 's' à la fin : laisse le `\n` de saut de ligne sauf ''
    print("readline numero:", i, "on a lu u:", u, sep="*", end="...")
    while (u != ''): # arrêt si la dernière ligne est vide
        i = i + 1
        u = f.readline() 
        print("readline numero:", i, "on a lu u:", u, sep="*", end="---")
    print("@@@")
print("--> comprendre la dernière lecture effectuée par readline()")

print()    
print("--> des read() maintenant ... mais peu en fait : ")  
with open("./tmp/fichier_entrees.txt","r", encoding="utf8") as f:
    i = 0
    v = f.read() # lit tout f comme une str
    #print("@@@",v[-1],"@@@") # pour le quizz
    print("read numero: ", i, "on a lu v =", v, sep="*", end="---")
    while (v != ''): # arrêt si la dernière ligne est vide ... attention ! \n n'est pas une ligne vide :)
        i = i + 1
        v = f.read() # lit tout comme une str
        #v = f.read(4) # lit 8 octets et ne rajoute rien à v  
        print("read numero:", i, "on a lu v=", v, sep="*", end="---")   
    print("Fini!")
    
    f.close()

print("dernière lecture de readline: ", u)
print("dernière lecture de read: ", v)



Pour bien noter la différence entre readline() et read() : 
--> bien identifier l('effet d)es sauts de ligne '\n' du  readline():
readline numero:*0*on a lu u:*6
...readline numero:*1*on a lu u:*99
---readline numero:*2*on a lu u:*21
---readline numero:*3*on a lu u:*33
---readline numero:*4*on a lu u:*44
---readline numero:*5*on a lu u:*33
---readline numero:*6*on a lu u:*188
---readline numero:*7*on a lu u:*---@@@
--> comprendre la dernière lecture effectuée par readline()

--> des read() maintenant ... mais peu en fait : 
read numero: *0*on a lu v =*6
99
21
33
44
33
188
---read numero:*1*on a lu v=*---Fini!
dernière lecture de readline:  
dernière lecture de read:  



**Quizzz**  

Quelle est la dernière ligne du fichier `./tmp/fichier_entrees.txt` ?
1. 188
2. 188\n
3. \n
4. '' (ligne vide) 

Réponse. Enlever le commentaire de l'instruction ad-hoc du code au dessus.

En pratique, on retiendra :
- que les sauts de lignes "visibles" sont aussi lues par `read`, `readlines`, ...  
- que la dernière ligne d'un fichier peut être source de problème,
- entre autres car les éditeurs de texte (et les systèmes d'exploitation) peuvent ajouter certains caractères non entérs par l'utilisateur lors de l'enregistrement et de la fermeture du fichier.

**Exemple**. On commence par écrire la création du fichier et son écriture. 

Par souci pédagogique, l'exemple suivant inclut la création de la valeur aux traitements nécessaires à son écriture (comme une `str`) dans le fichier (en général les valeurs à stocker existent avant ce traitement).  

In [32]:
import random
# on créé et on écrit dans un fichier 
with open("./tmp/exemple.txt", "w", encoding="utf8") as f:
    for i in range(20): # 20 dates
        # génération des dates
        m = random.randint(1, 12) # un mois au hasard
        if m == 2:
            nb_jours = 28
        elif m % 2 == 1:
            nb_jours = 31
        else:
            nb_jours = 30       
        q = random.randint(1, nb_jours) # un quantieme au hasard
        
        # traitement pour stockage
        s = str(q) + "." + str(m) + ".2021" + "\n" # represention "formatee" de la date en une chaine 
        
        # stockage
        f.write(s)
    f. close()

In [33]:
!cat ./tmp/exemple.txt 

24.8.2021
20.10.2021
25.11.2021
7.11.2021
5.2.2021
22.6.2021
31.7.2021
4.8.2021
4.5.2021
13.7.2021
10.6.2021
18.10.2021
2.4.2021
13.4.2021
29.4.2021
30.4.2021
20.6.2021
22.10.2021
30.7.2021
16.3.2021


On recopie le code de création-écriture et on "inverse" le traitement.

In [34]:
# on va utiliser 20 dates
dates = [[0 for j in range(3)] for i in range(20)] # les 20 dates

# on lit le fichier d'entree -- noter le mode "r" maintenant 
with open("./tmp/exemple.txt", "r", encoding="utf8") as f:
    for i in range(20):         # parcours ligne à ligne  
        s = f.readline()        # lecture ligne
        print(s)                # pour info
        l = s.split(sep=".")    # transforme s en une liste l de ses champs identifés par 'sep'
        print(l)                # pour info
        dates[i][0] = int(l[0]) # conversion et stockage quantieme 
        dates[i][1] = int(l[1]) # idem mois
        dates[i][2] = int(l[2]) # idem annee

f. close()

print(dates)

24.8.2021

['24', '8', '2021\n']
20.10.2021

['20', '10', '2021\n']
25.11.2021

['25', '11', '2021\n']
7.11.2021

['7', '11', '2021\n']
5.2.2021

['5', '2', '2021\n']
22.6.2021

['22', '6', '2021\n']
31.7.2021

['31', '7', '2021\n']
4.8.2021

['4', '8', '2021\n']
4.5.2021

['4', '5', '2021\n']
13.7.2021

['13', '7', '2021\n']
10.6.2021

['10', '6', '2021\n']
18.10.2021

['18', '10', '2021\n']
2.4.2021

['2', '4', '2021\n']
13.4.2021

['13', '4', '2021\n']
29.4.2021

['29', '4', '2021\n']
30.4.2021

['30', '4', '2021\n']
20.6.2021

['20', '6', '2021\n']
22.10.2021

['22', '10', '2021\n']
30.7.2021

['30', '7', '2021\n']
16.3.2021

['16', '3', '2021\n']
[[24, 8, 2021], [20, 10, 2021], [25, 11, 2021], [7, 11, 2021], [5, 2, 2021], [22, 6, 2021], [31, 7, 2021], [4, 8, 2021], [4, 5, 2021], [13, 7, 2021], [10, 6, 2021], [18, 10, 2021], [2, 4, 2021], [13, 4, 2021], [29, 4, 2021], [30, 4, 2021], [20, 6, 2021], [22, 10, 2021], [30, 7, 2021], [16, 3, 2021]]


### Un dernier conseil

- Le risque d'erreur lors de la mise au point du traitement d'ES sur fichiers est  important.  
- Il n'est pas rare de perdre tout ou partie d'un fichier à lire.
- On ne peut donc que conseiller :
1. de **commencer par** effectuer une copie de sauvegarde des fichiers originaux avant tout développement de code d'ES
2. de vérifier pas à pas la mise au point de ces traitement avec des `print()` bien choisis -- qui seront bien sûr commentés une fois le traitement validé.

## Synthèse 

### Avoir les idées claires

- Distinguer fichier logique _vs._ physique, texte _vs._ binaire, mode lecture _vs._ écriture (_vs._ lecture-écriture) 
- Connaître les étapes de manipulation d'un fichier : association/ouverture/lecture-écriture/fermeture
- Distinguer valeur (numérique) et sa représentation textuelle 


### Savoir-faire

- Savoir écrire les lectures-écritures simples de fichier texte avec les instructions python adaptées  
- Comprendre et gérer l'effet des caractères spéciaux 


### Ce qu'il restera à voir


Le chapitre "ES avancées" complète celui-ci en présentant comment _formater_ les données lues ou écrites dans les fichiers.

On peut se déplacer dans un fichier pour accéder à un enregistrement quelconque. Ce type de traitement nécessite de caractériser comment la position de ces enregistrements  est définie -- par le langage de programmation et en général en nombre d'octets depuis le début du fichier. Le lecteur intéressé se reportera à la documentation (de python) pour ces manipulations un peu techniques. 

Les traitements précédents permettent de créer et d'exploiter des fichiers, et ce indépendamment de leur stockage dans le _système de fichiers_ de l'environnement utiisé (Linux, w\*\*\* ou m\*\*\*).
Il est utile de compléter ces traitements par de la _manipulation_ de fichiers de façon similaire à celle vue en cours de Système au semestre 1. Pour cela, python propose les modules suivants :  
- `os` qui permet de se déplacer dans l'arborescence du système de fichiers  
- `os.path`, sous-module du précédent, qui permet de lister des fichiers, des répertoires et certaines de leurs caractéristiques  
- `shutil` qui permet de copier, déplacer et supprimer des fichiers ou des parties d'arborescence.  
