# Python pour biochimistes: Comment lire, créer et gérer des fichiers (ou des flux de données)

La plus grande partie du travail que nous faisons nécessite l'emploi de fichiers: on doit les lire, on doit en écrire, on doit en modifier. Comment faire en Python? Ce n'est pas très compliqué mais avant tout, il faut connaitre quelques rudiments de gestion d'un système de fichiers.

## Comment lire un fichier texte simplement? 

Python possède des modules *built-in* pour ça! On utilise la fonction `open()` contenant en paramétres les informations minimales suivants:

- Un nom de fichier contenant le chemin complet (le `path`) pour se rendre et trouver le fichier;
- Un opérateur pour dire à `open()` quoi faire avec le reste.

Qu'est-ce qu'on obtient en retour? Un objet de type `file` permettant avec des méthodes qui y sont associées, d'en retirer les informations recherchées. 

Il y a plusieurs opérateurs possibles:

- "r": *read*, lire (valeur par défaut). Retourne une erreur si le fichier n'existe pas
- "a": *append*, ajouter de l'information à la fin d'un fichier. Crée le fichier s'il n'existe pas
- "w": *write*, écrire dans le fichier spécifié. Crée le fichier s'il n'existe pas
- "x" : *create*, créer le fichier si ce dernier n'existe pas. Retourne une erreur si le fichier existe déjà.
- "b": retourne un objet binaire parce que le fichier d'origine est binaire (ex. bioinformatique: un fichier de séquenceur en format AB1)
- "t": retourne un objet textuel (valeur par défaut)

In [4]:
aFile = open("../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa","r")
print(type(aFile))

<class '_io.TextIOWrapper'>


In [5]:
# Méthode read()
#
# la méthode read capture le contenu de l'objet tel quel
# en une seule longue chaine de caractères
#
# Rappel: le retour de chariot, \n, n'apparait pas mais il
# sera interprété comme tel; c'est pour ça que vous avez
# plusieurs lignes ;-)
aFile = open("../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa","r")
print(aFile.read())

>gi|20357552|ref|NP_005222.2| src substrate cortactin isoform a [Homo sapiens]
MWKASAGHAVSIAQDDAGADDWETDPDFVNDVSEKEQRWGAKTVQGSGHQEHINIHKLRENVFQEHQTLK
EKELETGPKASHGYGGKFGVEQDRMDKSAVGHEYQSKLSKHCSQVDSVRGFGGKFGVQMDRVDQSAVGFE
YQGKTEKHASQKDYSSGFGGKYGVQADRVDKSAVGFDYQGKTEKHESQRDYSKGFGGKYGIDKDKVDKSA
VGFEYQGKTEKHESQKDYVKGFGGKFGVQTDRQDKCALGWDHQEKLQLHESQKDYKTGFGGKFGVQSERQ
DSAAVGFDYKEKLAKHESQQDYSKGFGGKYGVQKDRMDKNASTFEDVTQVSSAYQKTVPVEAVTSKTSNI
RANFENLAKEKEQEDRRKAEAERAQRMAKERQEQEEARRKLEEQARAKTQTPPVSPAPQPTEERLPSSPV
YEDAASFKAELSYRGPVSGTEPEPVYSMEAADYREASSQQGLAYATEAVYESAEAPGHYPAEDSTYDEYE
NDLGITAVALYDYQAAGDDEISFDPDDIITNIEMIDDGWWRGVCKGRYGLFPANYVELRQ




In [6]:
# Méthode readlines()
#
# On peut extraire toute l'information du fichier d'un trait
#
aFile = open("../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa","r")
allLines = aFile.readlines()
#
# Les infos dans allFiles sont maintenant dans une liste
# Une ligne par item de la liste
# Remarquez que chaque ligne se termine par un retour de chariot, \n, qui est 
# une sorte de caractère invisible... En tenir compte est important!!
#
print(len(allLines))
print(allLines)

10
['>gi|20357552|ref|NP_005222.2| src substrate cortactin isoform a [Homo sapiens]\n', 'MWKASAGHAVSIAQDDAGADDWETDPDFVNDVSEKEQRWGAKTVQGSGHQEHINIHKLRENVFQEHQTLK\n', 'EKELETGPKASHGYGGKFGVEQDRMDKSAVGHEYQSKLSKHCSQVDSVRGFGGKFGVQMDRVDQSAVGFE\n', 'YQGKTEKHASQKDYSSGFGGKYGVQADRVDKSAVGFDYQGKTEKHESQRDYSKGFGGKYGIDKDKVDKSA\n', 'VGFEYQGKTEKHESQKDYVKGFGGKFGVQTDRQDKCALGWDHQEKLQLHESQKDYKTGFGGKFGVQSERQ\n', 'DSAAVGFDYKEKLAKHESQQDYSKGFGGKYGVQKDRMDKNASTFEDVTQVSSAYQKTVPVEAVTSKTSNI\n', 'RANFENLAKEKEQEDRRKAEAERAQRMAKERQEQEEARRKLEEQARAKTQTPPVSPAPQPTEERLPSSPV\n', 'YEDAASFKAELSYRGPVSGTEPEPVYSMEAADYREASSQQGLAYATEAVYESAEAPGHYPAEDSTYDEYE\n', 'NDLGITAVALYDYQAAGDDEISFDPDDIITNIEMIDDGWWRGVCKGRYGLFPANYVELRQ\n', '\n']


## Comment accéder à l'information contenue dans l'objet?

Si on assume que l'objet contient l'information contenue dans un fichier de type texte (par ex., une séquence en format FASTA ou en Genbank), cette information est en fait une liste alors on y accède de la même manière que n'importe quel item de la liste

In [16]:
# Méthode par indice
#
# Pour ensuite n'extraire que les infos nécessaires
# Comme readlines() retourne une liste, il suffit de connaitre
# l'indice de la ligne voulue dans la liste
#
print(allLines[0])

>gi|20357552|ref|NP_005222.2| src substrate cortactin isoform a [Homo sapiens]



In [7]:
# Méthode par itérateur
#
# On peut aussi utiliser l'itérateur implicite de l'objet aFile pour analyser le contenu
# On se rappelle que \n est un caractère que nous NE voulons PAS comptés!! Donc on
# le remplace par rien.
#w
aFile = open("../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa","r")
aa = 0
for aLine in aFile:
    # rappel #1: on a un fichier FASTA, donc on NE veut PAS la 1ere ligne...
    # Rappel #2: une variable de type str est en fait une liste
    # Rappel #3: on NE veut PAS du caractère invisible \n
    if aLine[0]!='>':
        aLine  = aLine.replace('\n','')
        aa = aa + len(aLine)
print("Longueur en acides amines: "+str(aa))

Longueur en acides amines: 550


## Comment écrire dans un fichier?

Écrire est aussi facile que de lire mais évidemment il faut faire un peu plus attention à ce que l'on fait... L'opérateur `w` est puissant: si le fichier existe déjà, la version antérieure sera détruite pour y mettre la nouvelle version!!

In [7]:
from datetime import datetime
#
# Créons un pointeur qui s'occupe de la création
#
aFile  = open("../z.misc_files/data_demo/ceciestunexemple.txt","w")

now = datetime.today()
formatted = now.strftime("%d %m %Y - %H:%M:%S")
aFile.write(formatted)
aFile.close()

In [None]:
#
# Si on va voir le contenu du fichier
#
!less ../z.misc_files/data_demo/ceciestunexemple.txt

11 02 2025 - 14:17:01
[7m../z.misc_files/data_demo/ceciestunexemple.txt (END)[m[K

In [None]:
from datetime import datetime
#
# Créons un pointeur qui s'occupe de la création
#
aFile  = open("../z.misc_files/data_demo/ceciestunexemple.txt","w")

now = datetime.today()
formatted = now.strftime("%d %m %Y - %H:%M:%S")
aFile.write("Oups...")
aFile.write(formatted)
aFile.close()

In [None]:
#
# Si on retourne voir le contenu du fichier, on va voir
# qu'il ne contient pas la même chose...
#
!less ../z.misc_files/data_demo/ceciestunexemple.txt