- Nom         :
- Prénom      :
- N. étudiant :


> ### _**Note**: inutile de s'arrêter sur les notions de biologie exposées pour réaliser les exercices, elles servent ici simplement d'illustration. Au besoin, reportez vous aux exemples pour mieux comprendre les questions._

L'__ADN__ contient l'information génétique permettant le fonctionnement des êtres vivants.

Il est constitué de deux brins formant une double hélice.  
Chaque brin est formé par une chaine de _nucléotides_, qui contiennent l'une des bases suivantes :

- __A__ pour _Adénine_
- __T__ pour _Thymine_
- __G__ pour _Guanine_
- __C__ pour _Cytosine_

L'ordre dans lequel se succèdent les nucléotides le long d'un brin d'ADN constitue la _séquence_ de ce brin.  
C'est elle qui porte l'information génétique.

# Lecture d'une séquence

Nous pouvons stocker une séquence d'ADN dans un fichier simplement à l'aide d'une chaine de caractères de cette forme:
```
'AATGTCCAGTCAGTTG...'
```

Ecrire une fonction `lire_adn(filename)` permettant de lire et retourner le contenu d'un tel fichier.

Par exemple, `lire_adn("ncov-s.txt")` retournera la séquence `"ATGTTTGTTTTTCTT..."`.

In [1]:
def lire_adn(filename):
    with open(filename, 'r') as lecture:
        return(lecture.read())

In [2]:
print(lire_adn("ncov-s.txt"))

ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAGT
TTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
TCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTT
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCT
ACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGCGA
ATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTCAA
AAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
AATTTAGTGCGTGATCTCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTA
ACATCACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCTTCAGG
TTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTTTTCTATTAAAATATAAT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTGA
AATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
TAGATT

# Transcription

La _transcription_ est un mécanisme qui permet de copier l'ADN dans le noyau de la cellule pour former un __ARN__.  
Lors de la transcription, la Thymine (__T__) est remplacée par l'Uracile (__U__).

Ecrire une fonction `transcrire_adn(seq)` permettant de transcrire une séquence d'ADN en ARN.

Par exemple, `transcrire_adn('AATGTCCAGTCAG')` doit renvoyer `'AAUGUCCAGUCAG'`.

In [27]:
def transcrire_adn(seq):
    # chaîne de caractères -> liste pour pouvoir modifier
    adn = list(seq)
    
    for i in range(0, len(adn)):
        # quand on trouve un T on le remplace par un U
        if adn[i] == 'T':
            adn[i] = 'U'
        i += 1
    # liste -> chaîne
    return("".join(adn))

In [28]:
transcrire_adn('AATGTCCAGTCAG')

'AAUGUCCAGUCAG'

# Découpage de l'ARN

L'ARN est découpé en _codons_, constitués de 3 bases successives, qui correspondent chacun à un acide aminé. Ils sont lus les uns à la suite des autres.

Ecrire une fonction `arn_vers_codons(seq)` permettant de découper une séquence d'ADN en une liste de codons.

Par exemple, `arn_vers_codons('AAUGUCCAGUCAGUU')` renverra:
```['AAU', 'GUC', 'CAG', 'UCA', 'GUU']```

In [5]:
def arn_vers_codons(seq):
    codons = []
    for i in range(0, int(len(seq)/3)): # garde que la partie entère de la division
        codons.append(seq[i*3:i*3+3])
    return codons

In [6]:
arn_vers_codons('AAUGUCCAGUCAGUU')

['AAU', 'GUC', 'CAG', 'UCA', 'GUU']

# Traduction

La _traduction_ de l'ADN consiste à lire l'ARN issu de la transcription pour synthétiser une protéine sous forme d'une chaîne d'acides aminés.

Le dictionnaire ci-dessous donne la correspondance entre un codon, composé de trois bases d'ARN, et un acide aminé.  
Par exemple, le codon `GUC` code pour l'acide aminé `Val` (valine).

In [7]:
codage = {'GUC': 'Val', 'GUG': 'Val', 'UCA': 'Ser', 'CUC': 'Leu', 'AUU': 'Ile', 'CCU': 'Pro', 'CGG': 'Arg',
          'GGU': 'Gly', 'CAU': 'His', 'CGU': 'Arg', 'GCG': 'Ala', 'AGA': 'Arg', 'CUG': 'Leu', 'GUU': 'Val',
          'AUA': 'Ile', 'UGU': 'Cys', 'GCC': 'Ala', 'UAU': 'Tyr', 'ACU': 'Thr', 'UGG': 'Trp', 'CAG': 'Gln',
          'CAC': 'His', 'AGC': 'Ser', 'GGG': 'Gly', 'CUU': 'Leu', 'ACA': 'Thr', 'CUA': 'Leu', 'GAA': 'Glu',
          'AUC': 'Ile', 'CGC': 'Arg', 'UGC': 'Cys', 'UCC': 'Ser', 'AAU': 'Asn', 'UUC': 'Phe', 'CCC': 'Pro', 
          'AGG': 'Arg', 'UGA':  None, 'UAG':  None, 'UAA':  None, 'AUG': 'Met', 'UUG': 'Leu', 'UUA': 'Leu', 
          'AGU': 'Ser', 'GGC': 'Gly', 'GAU': 'Asp', 'CCA': 'Pro', 'CGA': 'Arg', 'GUA': 'Val', 'CAA': 'Gln',
          'UCU': 'Ser', 'UCG': 'Ser', 'ACC': 'Thr', 'GAG': 'Glu', 'GGA': 'Gly', 'GCU': 'Ala', 'GAC': 'Asp',
          'AAC': 'Asn', 'AAG': 'Lys', 'GCA': 'Ala', 'CCG': 'Pro', 'AAA': 'Lys', 'ACG': 'Thr', 'UAC': 'Tyr',
          'UUU': 'Phe'}

On remarquera que plusieurs codons différents peuvent coder pour le même acide aminé.  
Notez également que certains codent pour la valeur `None`. 
Ces derniers indiquent la fin de la partie "codante" et __stoppent__ la synthèse de la protéine.

Écrire une fonction `traduire_arn(seq)` qui traduit l'ARN et renvoie la liste d'acides aminés correspondante.  
__Attention__, la chaine doit s'arrêter au codon STOP.

Exemple: `traduire_arn('AAUGUCCAGUAGUCA')` retournera `['Asn', 'Val', 'Gln']`.

In [8]:
def traduire_arn(seq):
    aa = []
    codons = arn_vers_codons(seq)
    
    for codon in codons:
        if codage.get(codon) != None:
            aa.append(codage.get(codon))
        else:
            break
    return aa

In [9]:
traduire_arn('AAUGUCCAGUAGUCA')

['Asn', 'Val', 'Gln']

# Acide aminés

On souhaite avoir un tableau permettant de savoir quels sont les codons qui correspondent à chaque acide aminé, sous cette forme:

```
Ala : GCA, GCC, GCG, GCU
Arg : AGA, AGG, CGA, CGC, CGG, CGU
Asn : AAC, AAU
...
```

Ecrire le code permettant de générer ce tableau, et l'enregistrer dans un fichier `amines.txt`.  
Ce fichier sera rendu avec le devoir.

In [12]:
# faire un dictionnaire acide aminé -> codon
inverse = {}

for codon in codage:
    # si inexistante, crée une nouvelle entrée 
    if codage[codon] not in inverse:
        inverse[codage[codon]] = [codon]
    # si une entrée existe déjà, la complèter
    else:
        inverse[codage[codon]].append(codon)

# imprimer ce dictionnaire dans un tableau (méthode str.join)
for aa in inverse:
    print("{} : {}".format(aa, ", ".join(inverse[aa])))

Val : GUC, GUG, GUU, GUA
Ser : UCA, AGC, UCC, AGU, UCU, UCG
Leu : CUC, CUG, CUU, CUA, UUG, UUA
Ile : AUU, AUA, AUC
Pro : CCU, CCC, CCA, CCG
Arg : CGG, CGU, AGA, CGC, AGG, CGA
Gly : GGU, GGG, GGC, GGA
His : CAU, CAC
Ala : GCG, GCC, GCU, GCA
Cys : UGU, UGC
Tyr : UAU, UAC
Thr : ACU, ACA, ACC, ACG
Trp : UGG
Gln : CAG, CAA
Glu : GAA, GAG
Asn : AAU, AAC
Phe : UUC, UUU
None : UGA, UAG, UAA
Met : AUG
Asp : GAU, GAC
Lys : AAG, AAA


In [13]:
# imprimer ce dictionnaire dans un tableau (itération)
for aa in inverse:
    temp = "" # pour remettre à zéro temp entre deux itérations
    for codon in inverse[aa]:
        temp = temp + codon + ", "
    temp = temp[:-2] # éliminer la ponctuation parasite à la fin
    print("{} : {}".format(aa, temp))

Val : GUC, GUG, GUU, GUA
Ser : UCA, AGC, UCC, AGU, UCU, UCG
Leu : CUC, CUG, CUU, CUA, UUG, UUA
Ile : AUU, AUA, AUC
Pro : CCU, CCC, CCA, CCG
Arg : CGG, CGU, AGA, CGC, AGG, CGA
Gly : GGU, GGG, GGC, GGA
His : CAU, CAC
Ala : GCG, GCC, GCU, GCA
Cys : UGU, UGC
Tyr : UAU, UAC
Thr : ACU, ACA, ACC, ACG
Trp : UGG
Gln : CAG, CAA
Glu : GAA, GAG
Asn : AAU, AAC
Phe : UUC, UUU
None : UGA, UAG, UAA
Met : AUG
Asp : GAU, GAC
Lys : AAG, AAA
