<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Traduction d'un ARN en acides aminés

Voyons à présent une implémentation en python de l'algorithme qui consiste à traduire une séquence d'ADN (ou d'ARN) en une suite d'acides aminés.

Et comme d'habitude nous voulons être compatibles python2 et python3&nbsp;:

In [None]:
# la formule magique pour utiliser print() en python2 et python3
from __future__ import print_function
# pour que la division se comporte en python2 comme en python3
from __future__ import division

### Les dictionnaires

Commençons par une petite digression. Lorsque nous avons dessiné la promenade le long de l'ADN, nous avons déjà rencontré la notion de dictionnaire en python. Revoyons cela car ce type de données va nous donner une solution à la fois élégante et très efficace pour réaliser ce traitement.

En python, un dictionnaire est une collection non ordonnée de couples *clé* $\rightarrow$ *valeur*. Le mieux c'est de prendre un exemple&nbsp;:

In [None]:
# un exemple de dictionnaire pour 
# réaliser un annuaire simple
address_book = {
    'pierre' : '14 Rue du Bois Vert',
    'jean' : '25 rue de la Fosse aux Lions',
    'eric' : '3 Impasse de la Reine', 
}

Le gros avantage du dictionnaire est qu'on peut très simplement retrouver la valeur associée à une clé&nbsp;:

In [None]:
# Pour rechercher dans le dictionnaire 
# on utilise tout simplement des [] 
address_book['jean']

En pratique, python implémente les dictionnaires sous la forme d'une table de hachage. Sans entrer dans les détails, il faut retenir que **la recherche se fait en temps constant**; on veut dire, ce n'est pas parce qu'un dictionnaire contient 10000 entrées que la recherche sera 1000 fois plus longue que s'il en contenait seulement 10.

### Correspondance codon $\rightarrow$ acide aminé

Vous avez sans doute deviné où on veut en venir&nbsp;: un tel objet dictionnaire est un candidat idéal pour implémenter la correspondance entre les codons de l'ARN et l'acide aminé qui y correspond. Ce qui donne tout simplement, si on décide de coder par le caractère `0` (zéro) le critère `Stop`&nbsp;:

In [None]:
# La correspondance codon -> acide aminé
lookup_table = {
    'UUU' : 'F', 'UCU' : 'S', 'UAU' : 'Y', 'UGU' : 'C', 
    'UUC' : 'F', 'UCC' : 'S', 'UAC' : 'Y', 'UGC' : 'C', 
    'UUA' : 'L', 'UCA' : 'S', 'UAA' : '0', 'UGA' : '0', 
    'UUG' : 'L', 'UCG' : 'S', 'UAG' : '0', 'UGG' : 'W', 
    'CUU' : 'L', 'CCU' : 'P', 'CAU' : 'H', 'CGU' : 'R', 
    'CUC' : 'L', 'CCC' : 'P', 'CAC' : 'H', 'CGC' : 'R', 
    'CUA' : 'L', 'CCA' : 'P', 'CAA' : 'Q', 'CGA' : 'R', 
    'CUG' : 'L', 'CCG' : 'P', 'CAG' : 'Q', 'CGG' : 'R', 
    'AUU' : 'I', 'ACU' : 'T', 'AAU' : 'N', 'AGU' : 'S', 
    'AUC' : 'I', 'ACC' : 'T', 'AAC' : 'N', 'AGC' : 'S', 
    'AUA' : 'I', 'ACA' : 'T', 'AAA' : 'K', 'AGA' : 'R', 
    'AUG' : 'M', 'ACG' : 'T', 'AAG' : 'K', 'AGG' : 'R', 
    'GUU' : 'V', 'GCU' : 'A', 'GAU' : 'D', 'GGU' : 'G', 
    'GUC' : 'V', 'GCC' : 'A', 'GAC' : 'D', 'GGC' : 'G', 
    'GUA' : 'V', 'GCA' : 'A', 'GAA' : 'E', 'GGA' : 'G', 
    'GUG' : 'V', 'GCG' : 'A', 'GAG' : 'E', 'GGG' : 'G', 
}

Moyennant quoi on peut obtenir l'équivalent de ce qu'une des vidéos précédentes (Semaine 2, Séquence 4) appelait `lookupGeneticCode`, en faisant tout simplement, par exemple&nbsp;:

In [None]:
lookup_table ['ACG']

### La traduction - 1ère version

Grâce à ce dictionnaire, nous pouvons écrire une première version de notre algorithme de traduction. Dans ce premier jet un peu simpliste, nous découpons l'ARN en entrée en groupes de 3 lettres, et nous recherchons l'acide aminé correspondant. Si à la fin de la chaine il ne nous reste qu'une ou deux lettres, on les ignore simplement&nbsp;:

In [None]:
def translate_arn_to_amino_acids_1(arn):
    """
    Traduction d'un brin d'ARN en une chaine encodant
    les acides aminés correspondants
    L'ARN en entrée est découpé en groupes de 3 
    en partant de l'indice 0; les lettres superflues 
    en fin de chaine sont ignorées
    """
    # initialisation: la variable qui indique le début d'un groupe de 3
    offset = 0
    # on stocke la longueur de l'arn dans une variable
    # pour ne pas avoir à le recalculer à chaque passage dans la boucle
    longueur = len(arn)
    # initialisation de la variable qui contiendra le résultat
    resultat = ""
    # la boucle principale
    while offset <= longueur - 3:
        # le groupe de 3 est obtenu par slicing
        codon = arn[offset:offset+3]
        # comme toujours on utilise += pour ajouter 
        # à la fin de la chaine resultat
        resultat += lookup_table[codon]
        # à la prochaine itération on veut passer au groupe suivant
        offset += 3
    return resultat

Voyons ce que cela nous donne sur un exemple&nbsp;:

In [None]:
from samples import small
print(small)

Mais attention, ceci est un morceau d'ADN, il nous faut d'abord le traduire en ARN comme on l'a vu dans le notebook *Semaine 2, Séquence 1*. Pour ne pas dupliquer le code, nous importons la fonction `translate_adn_to_arn`&nbsp;:

In [None]:
# la fonction qui traduit l'adn en arn - voir notebook précédent
from adn_to_arn import translate_adn_to_arn

Nous pouvons maintenant calculer son ARN&nbsp;:

In [None]:
# l'ARN correspondant
small_arn = translate_adn_to_arn(small)
print(small_arn)

In [None]:
# la première version de la traduction 
# nous donne ceci
translate_arn_to_amino_acids_1(small_arn)

### Une deuxième version

Comme nous allons le voir, en fait lorsqu'on manipule un brin d'ADN, on dispose le plus souvent d'un fragment, un *read* comme on l'appelle dans les vidéos, dont on ne sait pas au juste où est le début. Ce qui signifie que rien ne nous garantit que les groupes de 3 tombent bien sur des indices multiples de 3, comme on le suppose dans la première version de l'algorithme.

C'est pourquoi nous allons à présent voir une seconde version qui va accepter en entrée, outre bien entendu le brin d'ARN, le premier indice à prendre en compte pour le découpage en groupes de 3. Ce qui nous donne une version très légèrement différente du même traitement&nbsp;:

In [None]:
def translate_arn_to_amino_acids_2(arn, start):
    """
    Traduction d'un brin d'ARN en une chaine encodant
    les acides aminés correspondants
    L'ARN en entrée est découpé en groupes de 3 
    en partant de l'indice depart; à nouveau
    les lettres superflues en fin de chaine sont ignorées
    """
    # initialisation: la variable qui indique le début d'un groupe de 3
    offset = start
    # on stocke la longueur de l'arn dans une variable
    # pour ne pas avoir à le recalculer à chaque passage dans la boucle
    longueur = len(arn)
    # initialisation de la variable qui contiendra le résultat
    resultat = ""
    # la boucle principale
    while offset <= longueur - 3:
        # le groupe de 3 est obtenu par slicing
        codon = arn[offset:offset+3]
        # comme toujours on utilise += pour ajouter 
        # à la fin de la chaine resultat
        resultat += lookup_table[codon]
        # à la prochaine itération on veut passer au groupe suivant
        offset += 3
    return resultat

Comme vous le voyez la modification est aussi simple que possible; on a simplement prévu un argument supplémentaire.

Avec ceci en place, on pourrait facilement afficher les 3 résultats en écrivant une fonction qui appelle notre algorithme élémentaire avec les 3 valeurs possibles pour `start`, et qui en prime convertit l'ADN en ARN, comme ceci&nbsp;:

In [None]:
def arn_to_amino_acids(adn):
    print("ADN = {}".format(adn))
    arn = translate_adn_to_arn(adn)
    print("ARN = {}".format(arn))
    print("Traduction en acides aminés selon le point de départ :")
    for start in [0, 1 ,2]:
        print("depart {} -> {}".
              format(start, translate_arn_to_amino_acids_2(arn, start)))

In [None]:
# que l'on peut appeler comme ceci
arn_to_amino_acids(small)

### Vérification

Pour se convaincre que l'algorithme est correct on peut le vérifier à la main sur notre petit exemple d'entrée&nbsp;:

    ARN:     GGACGGACGUUGACU
	
	depart=0 GGA-CGG-ACG-UUG-ACU
	         G   R   T   L   T
	depart=1 G-GAC-GGA-CGU-UGA-CU
	           D   G   R   0
	depart=2 GG-ACG-GAC-GUU-GAC-U
	            T   D   V   D

### En version plus lisible - optionnel

Pour aller un peu plus loin, et introduire en passant d'autres traits de python, pour ceux qui voudraient fouiller davantage, remarquons qu'on peut aussi utiliser un autre dictionnaire pour afficher les acides aminés de manière plus lisible, il suffit pour cela de se définir un second dictionnaire&nbsp;:

In [None]:
noms_acides_amines = {
    'A' : ('Ala', 'Alanine'),
    'R' : ('Arg', 'Arginine'),
    'N' : ('Asn', 'Asparagine'),
    'D' : ('Asp', 'Aspartic acid'),
    'C' : ('Cys', 'Cysteine'),
    'E' : ('Glu', 'Glutamic acid'),
    'Q' : ('Gln', 'Glutamine'),
    'G' : ('Gly', 'Glycine'),
    'H' : ('His', 'Histidine'),
    'I' : ('Ile', 'Isoleucine'),
    'L' : ('Leu', 'Leucine'),
    'K' : ('Lys', 'Lysine'),
    'M' : ('Met', 'Methionine'),
    'F' : ('Phe', 'Phenylalanine'),
    'P' : ('Pro', 'Proline'),
    'S' : ('Ser', 'Serine'),
    'T' : ('Thr', 'Threonine'),
    'W' : ('Trp', 'Tryptophan'),
    'Y' : ('Tyr', 'Tyrosine'),
    'V' : ('Val', 'Valine'),
    # on ajoute une entrée pour les '0' qu'ajoute
    # notre traduction
    '0' : ('Stp', 'STOP'),
}    


Nous allons pouvoir de la sorte retrouver, pour chaque caractère dans une chaine d'acides aminés, un nom complet pour un affichage plus agréable. La seule nouveauté ici est que la valeur associée à, par exemple, la clé `'A'`, est `('Ala', 'Alanine')` qui est un **tuple** et non pas une liste. Mais comme on va le voir cela ne change pas grand chose à ce qu'on peut en faire, voyez plutôt&nbsp;:

In [None]:
# un utilitaire pour afficher les acides aminés 
# de manière plus complète
def affichage_amines(acides_amines):
    for indice, lettre in enumerate(acides_amines):
        court, long = noms_acides_amines[lettre]
        print("{:03d}:{} [{}] -> {}".format(indice, lettre, court, long))

In [None]:
# si on reprend small_arn
print(small_arn)


In [None]:
# et qu'on le découpe avec la première méthode (départ à 0)
acides = translate_arn_to_amino_acids_1(small_arn)
print(acides)

In [None]:
# on peut alors voir le résultat
affichage_amines(acides)

### Une remarque de style - optionnel

Pour ceux qui s'intéressent à python un peu au-delà de notre utilisation simpliste, je signale également, pour votre curiosité que dans une application réelle, on pourrait envisager de déclarer la seconde version comme ceci&nbsp;:

    def translate_arn_to_amino_acids_2(arn, start=0):
        <code inchangé>

ce qui permettrait, si on en avait besoin, d'appeler `translate_arn_to_amino_acids_2(arn)` sans préciser de valeur pour le paramètre `start`, qui serait alors considéré dans le code de la fonction comme valant `0`.