# Notebook séance 3

## Les fichiers

https://python.sdv.univ-paris-diderot.fr/07_fichiers/

Ici on ne parle que de fichiers dits fichiers textes (ne contenant que du texte lisible par un humain).

Schéma de principe de la lecture ligne par ligne

```
ouvrir le fichier
tant que on n'est pas arrivé à la fin du fichier
  lire une ligne
fin tant que
fermer le fichier
```

En Python :
- instruction d'ouverture de fichier `open` avec en paramètre le nom du fichier, qui retourne un descripteur de fichier
- instruction permettant de détecter la fin de fichier : n'existe pas en Python, c'est la méthode de lecture qui retourne une valeur particulière
- instruction de lecture d'une ligne : `readline`, méthode à appliquer sur le descripteur du fichier, qui retourne une ligne, i.e. tous les caractères jusqu'au premier retour à la ligne, compris
- instruction de fermeture du fichier : `close`, méthode à appliquer sur le descripteur de fichier

Contenu du fichier zoo.txt :

```
girafe
tigre
singe
souris
```

In [1]:
fileIn = open('zoo.txt')
ligneLue = None
while ligneLue != '':
    ligneLue = fileIn.readline()
    print("{} -> {} caractères".format(ligneLue,len(ligneLue)))
fileIn.close()

girafe
 -> 7 caractères
tigre
 -> 6 caractères
singe
 -> 6 caractères
souris
 -> 7 caractères
 -> 0 caractères


Pourquoi y a-t-il des retours à la ligne ?
Les nombre de caractères par ligne sont-ils cohérents ?
Que se passe-t-il pour le dernier affichage ?

On a tout les caractère de la ligne + retour à la ligne

## Exercices

### Comment compter le nombre de caractères dans un fichier ?

In [19]:
fileIn = open('zoo.txt')
ligneLue = None
cpt = 0
while ligneLue != '':
    ligneLue = fileIn.readline()
    cpt += len(ligneLue)
fileIn.close()
print('Il y a '+str(cpt)+' caratères')

Il y a 26 caratères


### Comment compter le nombre de lignes d'un fichier ?

In [20]:
fileIn = open('zoo.txt')
cpt = -1
ligneLue = None
while ligneLue != '':
    ligneLue = fileIn.readline()
    cpt += 1
fileIn.close()
print('Il y a '+str(cpt)+' lignes')

Il y a 4 lignes


### Comment obtenir tout le fichier dans une seule chaîne de caractères (stocké dans la variable `contenu`) ?

In [12]:
fileIn = open('zoo.txt')
contenu = ''
ligneLue = None
while ligneLue != '':
    ligneLue = fileIn.readline()
    contenu += ligneLue
fileIn.close()

In [13]:
contenu

'girafe\ntigre\nsinge\nsouris\n'

### Comment obtenir tout le fichier dans une seule chaîne de caractères, en ne sélectionnant que les lignes débutant par `s ` ?

In [14]:
fileIn = open('zoo.txt')
contenu = ''
ligneLue = None
while ligneLue != '':
    ligneLue = fileIn.readline()
    if ligneLue != '' and ligneLue[0] == 's':
        contenu += str(ligneLue)
fileIn.close()

In [15]:
contenu

'singe\nsouris\n'

## Ecriture Pythonesque

En Python, on peut écrire les choses de manière plus compacte :
- avec `with` on peut écrire un bloc d'instruction qui réalise automatiquement la fermeture du fichier
- grâce à la boucle pour on peut itérer directement sur les lignes du fichier

In [16]:
with open('zoo.txt') as  fileIn: # equivalent à fileIn = open('zoo.txt')
    for ligneLue in fileIn:
        print("{} -> {} caractères".format(ligneLue,len(ligneLue)))

girafe
 -> 7 caractères
tigre
 -> 6 caractères
singe
 -> 6 caractères
souris
 -> 7 caractères


Remarquez que ce n'est pas tout à fait la même chose. La dernière ligne est ignorée automatiquement (parce qu'elle est vide).

## Exercices

### Liste des lignes d'un fichier

Ecrire le code Python permettant d'obtenir la liste des lignes du fichier 'zoo.txt', qu'on rangera dans une variable `liste`.

In [17]:
liste = []
with open('zoo.txt') as fileIn:
    for ligneLue in fileIn:
        liste.append(ligneLue)

In [18]:
liste

['girafe\n', 'tigre\n', 'singe\n', 'souris\n']

### Manipuler un fichier de données

On présente maintenant un fichier contenant des notes d'un étudiant dont le format est le suivant : chaque ligne contient 4 champs :
- le nom
- 3 notes

Les champs sont séparés par des ','.

Intéressez-vous à la fonction `split` décrite [au chapitre 10](https://python.sdv.univ-paris-diderot.fr/10_plus_sur_les_chaines_de_caracteres/#105-methodes-associees-aux-chaines-de-caracteres)

Ecrire le code Python permettant d'obtenir la liste suivante :
```
[['A', 12.0, 13.0, 15.5], ['B', 8.0, 15.0, 9.0], ['C', 11.0, 11.0, 19.5]]
```
à partir d'un fichier `notes.txt` (que vous créerez dans le même répertoire que ce notebook) contenant :
```
A, 12.0, 13.0, 15.5
B, 8.0, 15.0, 9.0
C, 11.0, 11.0, 19.5
```

In [41]:
liste = []
with open('note.txt') as fileIn:
    for ligneLue in fileIn:
        ligneSplit = ligneLue.split(',')
        ligneSplit[-1] = ligneSplit[-1][:-1]
        i = 1
        for n in ligneSplit[1:]:
            ligneSplit[i] = float(n)
            i += 1
        liste.append(ligneSplit)
print(liste)

[['A', 12.0, 13.0, 15.5], ['B', 8.0, 15.0, 9.0], ['C', 11.0, 11.0, 19.5]]


A partir de cette liste, calculez la moyenne de chaque étudiant et l'afficher associée au nom de l'étudiant. Par exemple :
```
A 8.333333333333334
B 7.666666666666667
C 7.333333333333333
```

In [49]:
for e in liste:
    print('{} {}'.format(e[0],sum(e[1:])/len(e[1:])))

A 13.5
B 10.666666666666666
C 13.833333333333334


## Lecture d'un fichier au format FASTA

Les fichiers au format FASTA sont une manière de stocker des séquences nucléiques ou protéiques. 

Un fichier au format FASTA est constitué d'une première ligne qui débute par '>', les lignes restantes étant constituées des lettres correspondant aux acides nucléiques ou des acides aminés.

Voici par exemple le début de l'entrée NM_000059 au format FASTA.
```
>NM_000059.3 Homo sapiens BRCA2 DNA repair associated (BRCA2), mRNA
GTGGCGCGAGCTTCTGAAACTAGGCGGCAGAGGCGGAGCCGCTGTGGCACTGCTGCGCCTCTGCTGCGCC
TCGGGTGTCTTTTGCGGCGGTGGGTCGCCGCCGGGAGAAGCGTGAGGGGACAGATTTGTGACCGGCGCGG
TTTTTGTCAGCTTACTCCGGCCAAAAAAGAACTGCACCTCTGGAGCGGACTTATTTACCAAGCATTGGAG
GAATATCGTAGGTAAAAATGCCTATTGGATCCAAAGAGAGGCCAACATTTTTTGAAATTTTTAAGACACG
CTGCAACAAAGCAGATTTAGGACCAATAAGTCTTAATTGGTTTGAAGAACTTTCTTCAGAAGCTCCACCC
TATAATTCTGAACCTGCAGAAGAATCTGAACATAAAAACAACAATTACGAACCAAACCTATTTAAAACTC
CACAAAGGAAACCATCTTATAATCAGCTGGCTTCAACTCCAATAATATTCAAAGAGCAAGGGCTGACTCT
...
```

Notez qu'on trouve des fichiers FASTA ou les retours à la ligne sont tous les 60 caractères, tous les 80 caractères ou sans retour à la ligne.

Téléchargez l'entrée [NM_000059](https://www.ncbi.nlm.nih.gov/nuccore/NM_000059.3?report=fasta) au format FASTA et positionner le fichier dans le même répertoire que ce notebook.

Ecrire le code qui lit le contenu du fichier FASTA et enregistre dans une chaîne `seq` la séquence des nucléotides.

In [53]:
seq = ''
with open('NM_000059.txt') as file:
    file.readline()
    for ligne in file:
        seq += ligne

Observez le résultat de `seq`. Critiquez.

In [54]:
seq

'GTGGCGCGAGCTTCTGAAACTAGGCGGCAGAGGCGGAGCCGCTGTGGCACTGCTGCGCCTCTGCTGCGCC\nTCGGGTGTCTTTTGCGGCGGTGGGTCGCCGCCGGGAGAAGCGTGAGGGGACAGATTTGTGACCGGCGCGG\nTTTTTGTCAGCTTACTCCGGCCAAAAAAGAACTGCACCTCTGGAGCGGACTTATTTACCAAGCATTGGAG\nGAATATCGTAGGTAAAAATGCCTATTGGATCCAAAGAGAGGCCAACATTTTTTGAAATTTTTAAGACACG\nCTGCAACAAAGCAGATTTAGGACCAATAAGTCTTAATTGGTTTGAAGAACTTTCTTCAGAAGCTCCACCC\nTATAATTCTGAACCTGCAGAAGAATCTGAACATAAAAACAACAATTACGAACCAAACCTATTTAAAACTC\nCACAAAGGAAACCATCTTATAATCAGCTGGCTTCAACTCCAATAATATTCAAAGAGCAAGGGCTGACTCT\nGCCGCTGTACCAATCTCCTGTAAAAGAATTAGATAAATTCAAATTAGACTTAGGAAGGAATGTTCCCAAT\nAGTAGACATAAAAGTCTTCGCACAGTGAAAACTAAAATGGATCAAGCAGATGATGTTTCCTGTCCACTTC\nTAAATTCTTGTCTTAGTGAAAGTCCTGTTGTTCTACAATGTACACATGTAACACCACAAAGAGATAAGTC\nAGTGGTATGTGGGAGTTTGTTTCATACACCAAAGTTTGTGAAGGGTCGTCAGACACCAAAACATATTTCT\nGAAAGTCTAGGAGCTGAGGTGGATCCTGATATGTCTTGGTCAAGTTCTTTAGCTACACCACCCACCCTTA\nGTTCTACTGTGCTCATAGTCAGAAATGAAGAAGCATCTGAAACTGTATTTCCTCATGATACTACTGCTAA\nTGTGAAAAGCTATTTTTCCAATCATGATGAAAGTCTGAAGAAAAATGATAGATTTATCGCTTC

On a les \n 

Pour remédier à ce problème, on va supprimer le retour à la ligne de chaque ligne lue grâce à la fonction `rstrip`. Observez le résultat du code suivant puis réécrivez le code permettant de lire le fichier FASTA NM_000059 dans `seq`. 

In [56]:
s1 = 'ABCDE\n'
s2 = s1.rstrip()
s2

'ABCDE'

In [60]:
seq = ''
with open('NM_000059.txt') as file:
    file.readline()
    for ligne in file:
        seq += ligne.rstrip()

Quelle est la longueur de la séquence trouvée ? Est-ce cohérent avec ce qu'on lit sur [GenBank](https://www.ncbi.nlm.nih.gov/nuccore/NM_000059.3?report=genbank) ?

In [61]:
len(seq)

11386

C'est cohérent avec ce qu'il y a sur GenBank

Une fois le code correct, écrivez une fonction `readFasta` qui prend en paramètre un nom de fichier contenant une séquence au format FASTA et retourne la séquence contenue et testez sur d'autres séquences : ....

In [65]:
def readFasta(fichier):
    """
    Retourne la séquence de nucléotides contenue dans le fichier sous format Fasta
    :param fichier: (str) Nom du fichier Fasta (.txt)
    :return: (str) Séquence de nucléotides
    """
    seq = ''
    with open(fichier) as file:
        file.readline()
        for ligne in file:
            seq += ligne.rstrip()
    return seq

On souhaite maintenant trouver toutes les occurrences de ATT dans NM_000059. Ecrire le code Python permettant de le faire.

In [86]:
mem = []
seq = readFasta('NM_000059.txt')
for i in range(0,len(seq)-1,3):
    if seq[i:i+3] == 'ATT':
        mem.append(i)
print(mem)

[123, 192, 294, 315, 354, 393, 633, 921, 1041, 1326, 1539, 1557, 1893, 1935, 2130, 2145, 2178, 2286, 2346, 2454, 2631, 2706, 2892, 3063, 3135, 3189, 3438, 3465, 3513, 3519, 3531, 3846, 3885, 4026, 4161, 4215, 4245, 4374, 4383, 4485, 4569, 4614, 4626, 5013, 5082, 5208, 5223, 5352, 5364, 5367, 5382, 5442, 5472, 5481, 5502, 5532, 5733, 5922, 5973, 6288, 6339, 6378, 6477, 6507, 6879, 6951, 6978, 7023, 7269, 7308, 7347, 7470, 7662, 7869, 7923, 7926, 8877, 8985, 9156, 9174, 9210, 9216, 9501, 9522, 9651, 9888, 9900, 10041, 10179, 10236, 10359, 10506, 10509, 10563, 10650, 11037, 11160, 11184, 11232, 11373]
A
T


'T'

Ecrire maintenant une fonction `occurrences` prenant deux paramètres :
- un nom de fichier contenant une séquence nucléique au format FASTA
- un mot sur l'alphabet nucléique
et qui retourne ne nombre d'occurrences de ce mot.

In [95]:
def occurrences(fichier,mot):
    """
    Retourne le nombre d'occurences de "mot" dans la séquence de nucléotides contenue dans le fichier sous format Fasta
    :param p: (str) Nom du fichier Fasta (.txt)
    :param mot : (str) mot à recherche dans la séquence
    :return: (int) Nombres d'occurences de "mot" dans la séquence
    """ 
    mem = []
    seq = readFasta('NM_000059.txt')
    for i in range(0,len(seq)-1,len(mot)):
        if seq[i:i+len(mot)] == mot:
            mem.append(i)
    return len(mem)

In [96]:
occurrences("NM_000059.txt","AT")

454

Comment pourriez-vous faire pour tester le bon fonctionnement de votre fonction ?

In [97]:
occurrences("NM_000059.txt",'GTGG')

10

On recherche 

In [3]:
def sequencesmultifasta(fichier):
    """
    """
    res = []
    with open(fichier) as fileIn:
        for ligne in fileIn:
            if '>' not in ligne:
                res += [ligne[:-1]]
    return res

In [4]:
sequencesmultifasta('multifasta.txt')

['CCATGCTTCGTTCAGTTACGTATTGCTTCTGTTGGTGCTGATGTTGCGGCGTCTGGCTTGGGTGTTTTAACCTAGAGCTTCCATTTCGCCAGCGCCACCTGAGGATTTCCTGGGCCATACCCTCCGCGATGGAGACGATCAGGGCTGGAGAAGCCATAAGAGGAATTGCTAAGGAGGCCGTGATGGGAAAACAGAGCCGGAGACAATGGGGCCGATGGGCTGGATGAAGTGTCCTCTTGCTGGTACAAATAAAGTTCTAATTAACATTAAGAACACCTGCCTCCCATAAAGGCAAGACCATGAACAAAAGGGCGGTAAGGAGCCTGGCAAAGTAGAACCAGAAGGAAGCAAGTGGGAAGAAGTACCGAAGTCACTCGCTGGCCGCAGCCTTCACTCGTCAGGGCTCCGCAGACCTCTCCTCCACGGAAGCGGACCTCCCGGACCTCCAGGACAAGTGCGACCACGGCCCAGCAGGCGATGGGACAGCCGCAGGGCTAGCCCAGCCGGCCTGCACCTGCCACTGGGCGCAGCAAAGAAGACAGGGGTGGCCGGCTGGCACCTGAGGTGACTTTCTCAGTGGGTCCTTTGTTTAAGGAGGCTGGTACGTGGTTGTTCTTGTTGCTGTTGTTGTTGGTGTTAACGGGAGGAAAACTTTACTAAAACAAATCTTAACTACCTTATCCTGAAGGTGTCGCGGTGAGTAAGCTGACTCGGCGCAGCCCCATATCCGTGGTGTCTTTATCCTACCTTACTTGAGTTCGTTTCAAACAGGCAGTTTAAATTTGAGATTTTGAAAGTTTAAAACTCTAGTTTTGATGTACTGCTCTTTGTGGTCATTTCTAAATTTCTCAAAAATCAATAAAATACTTAGAAACGTGAAAAAGGTTAAACACCCAAGCAGACGCCGAAGATAGAACT',
 'CAGTTACGTATTGCTCCTGTCACCTATCTTCGGCGTCTGCTGGGTGTTTAACTTTCCATTTCGCCAGCGCCACCT