# Python pour biochimistes: comment lire un fichier texte

## Introduction et concepts de base

Une des tâches les plus courantes faite en bio-informatique est la lecture et l'écriture de fichiers en format texte. Les deux types de fichiers les plus utilisés sont les fichiers de séquences et les fichiers contenant des données tabulées (grilles de valeurs). Dans les exemples qui suivent sur cette page, nous allons nous concentrer sur les fichiers de séquences.

Un point des plus importants dans la lecture d'un fichier, quel qu'il soit est d'en connaitre la structure. Dans le cas d'un fichier de séquence, la séquence elle-même n'est qu'un élément de donnée contenu dans le fichier; les autres éléments sont les méta-données, c'est-à-dire les données sur la donnée. Il existe une multitude de formats de fichiers de séquence (un petit aperçu se trouve ici: https://emboss.sourceforge.net/docs/themes/SequenceFormats.html) mais celui qui sera surement celui que vous utiliserez le plus est le format FASTA.

Créé pour le logiciel d'alignement du même nom, ce format est très simple en appliquant des éléments présentés plus tôt.

- La première ligne d'une séquence commencera toujours par le caractère ">" suivi d'une succession arbitraire d'informations sur une seule ligne, terminée par un retour de chariot. Comme le contenu de cette ligne n'a pas de structure fixe, il peut être difficile de trouver ce que l'on cherche. On peut cependant se baser sur les [spécifications utilisées par le NCBI](https://en.wikipedia.org/wiki/FASTA_format#NCBI_identifiers) pour la création de leurs fichiers FASTA.
- Toutes les lignes qui suivront seront la séquence, une lettre par nucléotide ou par acide aminé (il faudra alors utilisé le code IUPAC à une lettre).  Il n'y a pas de règles strictes sur la longueur des lignes (souvent, on voit de 50 à 80 caractères/ligne) mais chaque ligne doit se terminer avec un retour de chariot.

En sachant cela. il est alors très simple d'extraire les informations recherchées.

## Code de démonstration

### Étape 1: Acquérir le fichier en le pointant dans le système de fichiers

On peut le faire de plusieurs façons différentes mais ici, on se limitera à deux: statique (appel spécifique du fichier) et interactive via le méthode `input()`.

In [1]:
# Chargeons les librairies nécessaires
import os.path
import sys

#
# Méthode interactive
# Le script attendra l'entrée faite par l'usager
#
seq = input("PATH vers fichier? :")

#
# Il faut trouver ce que "~" veut dire... La méthode expanduser "interprete"
# que "~" veut dire "/Users/foisys" sur Mac OS X :-)
#
seq = os.path.expanduser(seq)

PATH vers fichier? : ~/Desktop/cttn_iso_a_h_sapiens.fna


Maintenant, on va en lire le contenu:

In [None]:
#
# La fonction open()permettra de lire le fichier pour le mettre dans un objet
# simplement appelé file
#
# La méthode readlines() permettra la lecture de toutes les lignes dans la
# variables allLines sous la forme d'une liste, une ligne par item de la liste
#
with open(seq,'r') as file:
    allLines = file.readlines()
#
# Remarque: allLines est une liste d'éléments, ici chacune des lignes du fichier
#
print("Nature de allLines: "+str(type(allLines)))
#
# On affiche avec la fonction print()
#
# Remarque: observez les crochets carrés au début ("[") et à la fin ("]")
#
print("Contenu de "+ allLines[0])
print(allLines)

### Étape 2: Rendre ça plus lisible...

Bon, on a lu le fichier mais ce n'est pas très lisible... La variable `allLines` contient tout le texte contenu dans le fichier, y compris les retours de chariots. On pourrait remplacer tous ces caratères par autre chose mais ça, c'est pour un autre moment :-) Utilisons le fait que `allLines` est une liste qui possède une succession d'items identiques (des lignes de caractères) qui sont indexés dans l'ordre de la lecture des lignes pour n'écrire que les 10 premières lignes de la séquence.

In [None]:
# Chargeons la librairie nécessaire
import os.path
import sys
#
# Il faut trouver ce que "~" veut dire... La méthode expanduser "interprete"
# que "~" veut dire "/Users/foisys" sur Mac OS X :-)
#
seq = os.path.expanduser(seq)
#
# Compteur utilisé plus bas
i = 0

# On crée la pointeur vers le fichier
with open(seq, 'r') as file:
    #
    # Tant et aussi longtemps que le fichier contientdra une ligne
    #
    for i in range(11):
        print(allLines[i].strip())
    print("blablabla...")

### Étape 3: Extraire la séquence du reste du fichier.

In [None]:
#
# Initialisons une variable vide
#
fullseq = ""
#
# On se dirige vers le fichier
#
with open(seq, 'r') as file:
    #
    # Tant et aussi longtemps que allLines contiendra un item
    # Rappel: allLines est une liste d'items
    #
    for aLine in allLines:
        #
        # Si la ligne ne contient pas le caractère ">"
        # La valeur -1 spécifie que ">" n'existe pas sur la ligne
        #
        if aLine.find('>')==-1:
          #
          # On ajoute la ligne à la variable fullseq, qui se trouve allongée à chaque ligne
          #
          fullseq = fullseq+aLine.strip()
print("Impression de la sequence:")
#
# Prenez note: l'affichage se fait sur plusieurs lignes mais en fait, 
# ce n'est qu'une seule ligne que la fenêtre "replie" pour la faire 
# entrer dans l'espace
#
print(fullseq)

In [None]:
#
# Comme fullseq est une simple chaine de caractères, on peut utiliser la
# méthode len() pour en connaitre le nombre de bases/acides aminés
#
print("Taille de la sequence:")
print(len(fullseq))