- Nom         :
- Prénom      :
- N. étudiant :


> ### _**Note**: inutile de s'arrêter sur les notions de biologie exposées pour réaliser les exercices, elles servent ici simplement d'illustration. Au besoin, reportez vous aux exemples pour mieux comprendre les questions._

L'__ADN__ contient l'information génétique permettant le fonctionnement des êtres vivants.

Il est constitué de deux brins formant une double hélice.  
Chaque brin est formé par une chaine de _nucléotides_, qui contiennent l'une des bases suivantes :

- __A__ pour _Adénine_
- __T__ pour _Thymine_
- __G__ pour _Guanine_
- __C__ pour _Cytosine_

L'ordre dans lequel se succèdent les nucléotides le long d'un brin d'ADN constitue la _séquence_ de ce brin.  
C'est elle qui porte l'information génétique.

# Lecture d'une séquence

Nous pouvons stocker une séquence d'ADN dans un fichier simplement à l'aide d'une chaine de caractères de cette forme:
```
'AATGTCCAGTCAGTTG...'
```

Ecrire une fonction `lire_adn(filename)` permettant de lire et retourner le contenu d'un tel fichier.

Par exemple, `lire_adn("ncov-s.txt")` retournera la séquence `"ATGTTTGTTTTTCTT..."`.

In [10]:
def lire_adn(filename):
    # Lecture de tous le fichier et retourne le contenu
    with open(filename, 'rt') as f:
        return f.read()

# Tests
adn = lire_adn('ncov-s.txt')

# Transcription

La _transcription_ est un mécanisme qui permet de copier l'ADN dans le noyau de la cellule pour former un __ARN__.  
Lors de la transcription, la Thymine (__T__) est remplacée par l'Uracile (__U__).

Ecrire une fonction `transcrire_adn(seq)` permettant de transcrire une séquence d'ADN en ARN.

Par exemple, `transcrire_adn('AATGTCCAGTCAG')` doit renvoyer `'AAUGUCCAGUCAG'`.

In [11]:
def transcrire_adn(seq):
    # On remplace les T par des U
    return seq.replace('T', 'U')

# Tests
arn = transcrire_adn(adn)

# Découpage de l'ARN

L'ARN est découpé en _codons_, constitués de 3 bases successives, qui correspondent chacun à un acide aminé. Ils sont lus les uns à la suite des autres.

Ecrire une fonction `arn_vers_codons(seq)` permettant de découper une séquence d'ADN en une liste de codons.

Par exemple, `arn_vers_codons('AAUGUCCAGUCAGUU')` renverra:
```['AAU', 'GUC', 'CAG', 'UCA', 'GUU']```

In [None]:
def arn_vers_codons(seq):
    # On parcourt de 3 en 3 et on construit une liste avec ces groupes de 3 caractères
    return [seq[i*3:i*3+3] for i in range(len(seq) // 3)]

# Tests
codons = arn_vers_codons(arn)
print(codons)

# Traduction

La _traduction_ de l'ADN consiste à lire l'ARN issu de la transcription pour synthétiser une protéine sous forme d'une chaîne d'acides aminés.

Le dictionnaire ci-dessous donne la correspondance entre un codon, composé de trois bases d'ARN, et un acide aminé.  
Par exemple, le codon `GUC` code pour l'acide aminé `Val` (valine).

In [19]:
codage = {'GUC': 'Val', 'GUG': 'Val', 'UCA': 'Ser', 'CUC': 'Leu', 'AUU': 'Ile', 'CCU': 'Pro', 'CGG': 'Arg',
          'GGU': 'Gly', 'CAU': 'His', 'CGU': 'Arg', 'GCG': 'Ala', 'AGA': 'Arg', 'CUG': 'Leu', 'GUU': 'Val',
          'AUA': 'Ile', 'UGU': 'Cys', 'GCC': 'Ala', 'UAU': 'Tyr', 'ACU': 'Thr', 'UGG': 'Trp', 'CAG': 'Gln',
          'CAC': 'His', 'AGC': 'Ser', 'GGG': 'Gly', 'CUU': 'Leu', 'ACA': 'Thr', 'CUA': 'Leu', 'GAA': 'Glu',
          'AUC': 'Ile', 'CGC': 'Arg', 'UGC': 'Cys', 'UCC': 'Ser', 'AAU': 'Asn', 'UUC': 'Phe', 'CCC': 'Pro', 
          'AGG': 'Arg', 'UGA':  None, 'UAG':  None, 'UAA':  None, 'AUG': 'Met', 'UUG': 'Leu', 'UUA': 'Leu', 
          'AGU': 'Ser', 'GGC': 'Gly', 'GAU': 'Asp', 'CCA': 'Pro', 'CGA': 'Arg', 'GUA': 'Val', 'CAA': 'Gln',
          'UCU': 'Ser', 'UCG': 'Ser', 'ACC': 'Thr', 'GAG': 'Glu', 'GGA': 'Gly', 'GCU': 'Ala', 'GAC': 'Asp',
          'AAC': 'Asn', 'AAG': 'Lys', 'GCA': 'Ala', 'CCG': 'Pro', 'AAA': 'Lys', 'ACG': 'Thr', 'UAC': 'Tyr',
          'UUU': 'Phe'}

On remarquera que plusieurs codons différents peuvent coder pour le même acide aminé.  
Notez également que certains codent pour la valeur `None`. 
Ces derniers indiquent la fin de la partie "codante" et __stoppent__ la synthèse de la protéine.

Écrire une fonction `traduire_arn(seq)` qui traduit l'ARN et renvoie la liste d'acides aminés correspondante.  
__Attention__, la chaine doit s'arrêter au codon STOP.

Exemple: `traduire_arn('AAUGUCCAGUAGUCA')` retournera `['Asn', 'Val', 'Gln']`.

In [25]:
def traduire_arn(seq):
    # On récupère les codons
    codons = arn_vers_codons(seq)
    # On va construire la protéine
    proteine = []
    # On parcourt les codons
    for c in codons:
        # On s'assure que l'on a bien une valeur correspondante dans codage
        if c not in codage:
            raise Exception(f'La séquence {c} ne correspond pas à une acide aminée')
        # On récupère la valeur de codqage
        acide = codage[c]
        # Si elle est nulle, c'est la fin de la protéine
        if acide is None:
            break
        # On ajout l'acide aminée à la protéine
        proteine.append(acide)
    # On retourne la protéine
    return proteine

# Tests
print(arn_vers_codons('AAUGUCCAGUAGUCA'))
print(traduire_arn('AAUGUCCAGUAGUCA'))

['AAU', 'GUC', 'CAG', 'UAG', 'UCA']
['Asn', 'Val', 'Gln']


# Acide aminés

On souhaite avoir un tableau permettant de savoir quels sont les codons qui correspondent à chaque acide aminé, sous cette forme:

```
Ala : GCA, GCC, GCG, GCU
Arg : AGA, AGG, CGA, CGC, CGG, CGU
Asn : AAC, AAU
...
```

Ecrire le code permettant de générer ce tableau, et l'enregistrer dans un fichier `amines.txt`.  
Ce fichier sera rendu avec le devoir.

In [68]:
# On construit la liste des acides uniques et triées par ordre alphabétique
acides = []
[acides.append(a) for a in codage.values() if a is not None and a not in acides]
acides.sort()

# On constuit le tableau d'amines sous forme d'un dictionnaire:
# chaque acide est associé à sa liste triée d'amines.
amines = {a : sorted([c for c in codage.keys() if codage[c] == a]) for a in acides}
print(amines)

# On ouvre le fichier en écriture
with open('amines.txt', 'wt') as output:
    # On parcours la liste triée d'acides
    for acide in acides:
        # On affiche (dans le fichier) l'acide et sa liste triée d'amines
        print(f'{acide} : {", ".join(amines[acide])}', file=output)


{'Ala': ['GCA', 'GCC', 'GCG', 'GCU'], 'Arg': ['AGA', 'AGG', 'CGA', 'CGC', 'CGG', 'CGU'], 'Asn': ['AAC', 'AAU'], 'Asp': ['GAC', 'GAU'], 'Cys': ['UGC', 'UGU'], 'Gln': ['CAA', 'CAG'], 'Glu': ['GAA', 'GAG'], 'Gly': ['GGA', 'GGC', 'GGG', 'GGU'], 'His': ['CAC', 'CAU'], 'Ile': ['AUA', 'AUC', 'AUU'], 'Leu': ['CUA', 'CUC', 'CUG', 'CUU', 'UUA', 'UUG'], 'Lys': ['AAA', 'AAG'], 'Met': ['AUG'], 'Phe': ['UUC', 'UUU'], 'Pro': ['CCA', 'CCC', 'CCG', 'CCU'], 'Ser': ['AGC', 'AGU', 'UCA', 'UCC', 'UCG', 'UCU'], 'Thr': ['ACA', 'ACC', 'ACG', 'ACU'], 'Trp': ['UGG'], 'Tyr': ['UAC', 'UAU'], 'Val': ['GUA', 'GUC', 'GUG', 'GUU']}
