# Lecture et écriture de fichiers texte

Une grande partie des données qu'on paut être amené à manipuler dans un programme est stockée dans des fichiers texte. On peut citer notamment des fichiers HTML, des logs d'applications, ou encore des données structurées stockées dans des fichiers csv ou json.

Dans ce notebook nous allons voir les principales méthodes utiles pour lire et écrire de tels fichiers.
On supposera qu'on a utilisé les méthodes de gestion des fichiers pour se placer dans le répertoire adéquat et identifier le ou les fichiers à lire et écrire.

Ici nous avons des échantillons de fichiers de logs:

In [6]:
import os
os.listdir()

['Zookeeper_2k.log', 'Windows_2k.log', 'loganalysis.py', 'SSH_2k.log']

Comme exemple nous allons analyser le fichier __SSH_2k.log__. Ce fichier contient un échantillon de traces du programme SSHD, qui gère les connections entrantes sécurisées. 

## Ouvrir et lire un fichier

Un fichier est représenté en Python par un objet de type _file_. On peut ouvrir un fichier en lecture ou en écriture, en utilisant la fonction ```open```:

In [8]:
f = open("SSH_2k.log", 'r')

La fonction ```open``` prend en paramètres le nom du fichier (y compris le chemin d'accès, au besoin), et un indicateur ```'r'``` ou ```'w'``` qui indique si le fichier doit être ouvert en mode lecture (```'r'```) ou en mode écriture (```'w'```). Un autre mode possible est ```'a'```, qui est le mode écriture mais en écrivant à la fin du fichier (dans le mode ```'w'```, on écrit depuis le début, et si un fichier du même nom existait, il est remplacé). Il y a aussi des modes d'écriture et de lecture binaire, qu'on ne couvrira pas ici.

On peut lire une ligne du fichier avec ```readline()```:

In [9]:
f.readline()

'Dec 10 06:55:46 LabSZ sshd[24200]: reverse mapping checking getaddrinfo for ns.marryaldkfaczcz.com [173.234.31.186] failed - POSSIBLE BREAK-IN ATTEMPT!\n'

La fonction retourne la première ligne du fichier, sous forme de string.
Si on appelle de nouveau ```readline()```, on obtient la ligne suivante: 

In [10]:
f.readline()

'Dec 10 06:55:46 LabSZ sshd[24200]: Invalid user webmaster from 173.234.31.186\n'

Idéalement, il faudrait lire ainsi jusqu'à arriver au bout du fichier. Pour détecter qu'on est arrivé à la fin du fichier, on peut voir si le string retourné est vide. Ici on va compter les lignes restantes 

In [11]:
ligne = f.readline()
compte = 1
while(ligne!=''):
    ligne = f.readline()
    compte +=1
    # faire quelque chose avec la ligne...
    
print(compte, "lignes")

1999 lignes


On peut à présent fermer le fichier avec ```close()```:

In [12]:
f.close()

La fermeture du fichier est importante car la lecture du fichier bloque des ressources mémoire. Si le programme se termine, elle se fera automatiquement, mais dans un programme qui tourne continuellement, par exemple, il est nécessaire de fermer chaque fichier ouvert.

Python fournit une manière de gérer automatiquement la fermeture du fichier, le mot-clé ```with```, employé comme ceci:

In [14]:
with open("SSH_2k.log", 'r') as f:
    ligne = f.readline()
    print(ligne)

Dec 10 06:55:46 LabSZ sshd[24200]: reverse mapping checking getaddrinfo for ns.marryaldkfaczcz.com [173.234.31.186] failed - POSSIBLE BREAK-IN ATTEMPT!



Ici le résultat de ```open``` (le pointeur vers le fichier ouvert) est mis dans la variable ```f```, ce qui nous permet d'utiliser ```f.readline``` comme auparavant.

Il y a deux avantages à utiliser ```with```: le premier est qu'on ne risque pas d'oublier de fermer le fichier, et le deuxième est que s'il se produit une erreur quelque part, on peut gérer l'erreur (on ne couvre pas la gestion des erreurs dans ce cours) sans se préoccuper de fermer le fichier -- il sera fermé dans tous les cas.

D'autre part, notons que la manière la plus "classique" Python de parcourir un fichier est d'énumérer les lignes dans une boucle ```for```, comme ceci (on utilise aussi ```with```): 

In [16]:
with open("SSH_2k.log", 'r') as f:
    compte = 0
    for ligne in f: # ceci permet d'énumérer toutes les lignes
        # faire quelque chose avec la ligne
        compte +=1 # comptons...
print(compte, "lignes")

2000 lignes


## Ouvrir et écrire dans un fichier

Comme indiqué plus haut, on peut ouvrir un fichier en écriture avec ```open```, en remplaçant le paramètre du mode lecture (```'r'```)  par le paramètre du mode écriture (```'w'```). De même qu'avec le mode lecture, il est préférable d'utiliser ```with```. 

L'écriture de données dans le fichier se fait ensuite avec la méthode ```write```:

In [20]:
with open("nouveau_fichier.txt", "w") as f:
    f.write("une ligne \n")
    f.write("une deuxième ligne \n et une troisième")

On note ici deux choses: 
* contrairement à ```print```, la méthode ```write``` ne prend qu'un seul paramètre, qui doit être une chaine de caractères. Rappelons que ```print``` prend un nombre quelconques de paramètres, et permet d'afficher directement des valeurs d'autres types, notamment des nombres. Avec ```write```, il faut tout convertir en chaine de caractères.
* Pour écrire plusieurs lignes, il ne suffit pas d'appeler ```write``` plusieurs fois: les retours à la ligne doivent être rajoutés explicitement.

Lisons le contenu du fichier, pour vérifier qu'on peut bien le relire: 

In [22]:
with open("nouveau_fichier.txt", "r") as f:
    for ligne in f:
        print(ligne)

une ligne 

une deuxième ligne 

 et une troisième


Remarque: On voit ici des lignes sautées: c'est parce que le dernier caractère de chaque ligne (soit un retour à la ligne) est affiché, suivi du retour à la ligne qui vient avec ```print()```.

Pour écrire des informations qui ne sont pas directement du texte, comme par exemple un nombre, il faut convertir le nombre en texte à l'aide de ```str()```:

In [23]:
str(34)

'34'

Supposons qu'on ait la structure de données de type dictionnaire suivante:

In [24]:
age = { "alice": 42, "bob": 21, "cameron": 71}

On peut sauvegarder l'information dans un fichier texte, avec par exemple une paire clé-valeur par ligne, séparées par une tabulation (```"\t"```):

In [29]:
with open("ages.txt", "w") as f:
    for n,a in age.items():
        f.write(n+"\t"+str(a)+"\n") 

Voyons le résultat:

In [30]:
with open("ages.txt", "r") as f:
    for ligne in f:
        print(ligne)

alice	42

bob	21

cameron	71



### La méthode ```join``` et les compréhensions de liste

Nous introduisons ici deux outils Python assez utiles, et pas uniquement pour écrire des données dans un fichier. Ce scéraio nous donne cependant un bon cas d'utilisation.
Lorsqu'on écrit des données dans un fichier, il peut être utile de concaténer les éléments d'une liste pour former un string qu'on pourra écrire en une fois. Supposons par exemple qu'on ait la liste de mots suivante:

In [39]:
a = ['un', 'trois', 'deux', 'dix', 'sept', 'quatre']

Pour écrire ces nombres dans un fichier, on peut faire une chaine de caractères avec des virgules comme séparateur:

In [40]:
a_texte = ""
for s in a:
    a_texte = a_texte + s + ','

Voici ce qu'on obtient:

In [41]:
a_texte

'un,trois,deux,dix,sept,quatre,'

Pour éliminer la virgule finale on peut faire un petit ajustement:

In [42]:
a_texte = a_texte[:-1] #tous les caractères jusqu'à l'avant-dernier (position '-1'= raccourci pour écrire position len(a)-1)

In [43]:
a_texte

'un,trois,deux,dix,sept,quatre'

Ceci (connecter des valeurs avec un séparateur) est en fait une opération fréquente. La méthode ```join``` de la classe ```str``` (string) nous permet de faire cela efficacement:

In [44]:
','.join(a)

'un,trois,deux,dix,sept,quatre'

Attention, la syntaxe est un peu contre-intuitive.

#### Les compréhensions de liste

La technique des "compréhensions de liste" (_list comprehension_ en anglais) est un outil très utilisé en Python. 
L'idée est de transformer tous les éléments d'une liste: par exemple, si on a une liste de nombres, on peut tous les transformer un string. Supposons qu'on ait la liste suivante:

In [45]:
b = [1, 4, 2, 8, 4, 5]

On veut obtenir une liste contenant la représentation string de chaque nombre: 
```
b_string = ['1', '4', '2', '8', '4', '5']
```
Autrement dit, on veut modifier la liste en appliquant une même transformation à tous les éléments de la liste. La syntaxe est la suivante:

In [46]:
b_string = [str(i) for i in b]

In [48]:
b_string

['1', '4', '2', '8', '4', '5']

Les crochets indiquent qu'on forme une liste, et on énumère les éléments de la liste initiale à l'aide du ```for```...
On écrit à gauche l'expression qui permet d'obtenir chaque élément de la nouvelle liste à partir des éléments de l'ancienne.

On peut maintenant combiner nos deux outils (compréhension de liste et méthode ```join```) pour obtenir facilement un texte représentant le contenu d'une liste. On a vu précédemment un exemple où on utilisait une viergule comme séparateur, utilisons ici un tiret:

In [50]:
'-'.join([str(i) for i in b])

'1-4-2-8-4-5'

## Lire des données structurées depuis un fichier texte

Le texte précédent est un exemple de contenu _structuré_, comme la majorité des fichiers qu'on est amené à manipuler de manière automatisée. La structure connue (ici deux informations sur chaque ligne, séparées par des tabulations) nous permet de l'interpréter correctement. 

Pour lire de telles données et les intégrer à une structure de données, on découpe habituellement les lignes à l'aide de la méthode ```split()```, et ainsi chaque ligne devient une liste de strings, correspondant aux "colonnes" dans le fichier. Ensuite, on convertit les nombres lorsqu'approprié:

In [32]:
ages_nouv = {} #on initialise la structure de données: un dictionnaire vide
with open("ages.txt", "r") as f:
    for ligne in f:
        ligne_sep = ligne.split("\t") #séparer selon tabulations
        nom = ligne_sep[0] # premier élément: le nom
        age = int(ligne_sep[1]) # le deuxième élément, converti en nombre
        ages_nouv[nom] = age # intégrer l'information dans la structure de données

for n,a in ages_nouv.items():
    print(n,":",a)

alice : 42
bob : 21
cameron : 71


On verra ultérieurement qu'on peut aussi sauvegarder des données structurées dans des fichiers de formats particuliers et "bien connus", comme par exemple les formats CSV ou JSON.