# Révisions : de l'ADN aux protéïnes - Correction

Les exercices s'appuient sur la notion d'[ADN](https://fr.wikipedia.org/wiki/Acide_d%C3%A9soxyribonucl%C3%A9ique)/[ARN](https://fr.wikipedia.org/wiki/Acide_ribonucl%C3%A9ique). On supposera dans l'ensemble des exercices que l'ADN est codé sous la forme d'une chaîne de caractères contenant uniquement les lettres `A`, `T`, `G`, `C` correspondant aux différentes bases (adénine, cytosine, guanine ou thymine).
L'ARN sera codé sous la forme d'une chaîne de caractères contenant uniquement les lettres `A`, `U`, `G`, `C`.

## Exercice 1

### Question 1

Définir la fonction `est_base` prenant en paramètre un caractère et retournant `True` si ce caractère correspond à une base de l'ADN (est un des caractères `A`, `T`, `G`, `C`), et `False` sinon.

In [None]:
##################
#   Correction   #
##################


def est_base(c):
    return c in "ATGC"

### Question 2

Quelle est la complexité de la fonction `est_base` dans le pire cas ?

**CORRECTION :**


La complexité est constante car on effectue au plus 4 comparaisons.

## Exercice 2

### Question 1

Définir la fonction `est_adn` prenant en paramètre une chaîne de caractères et retournant `True` si la chaîne correspond à un ADN (est constituée uniquement des caractères `A`, `T`, `G`, `C`), et `False` sinon.

In [None]:
##################
#   Correction   #
##################


def est_adn(s):
    i = 0
    while i < len(s) and est_base(s[i]):
        i += 1
    return i >= len(s)

### Question 2

Définir une une fonction de tests unitaires pour la fonction `est_adn`.

In [None]:
##################
#   Correction   #
##################


def test_est_adn():
    assert est_adn("ATGC")
    assert est_adn("ATACGGGCAATCGGA")
    assert est_adn("AAAA")
    assert not est_adn("RAAAA")
    print("Test de la fonction est_adn : ok")
    
test_est_adn()

### Question 3

Quelle est la complexité asymptotique de la fonction `est_adn` dans le pire cas ?

**CORRECTION :**


La fonction `est_adn` a une complexité linéaire. Dans le pire cas (cas où la chaîne passée en paramètre représente effectivement un adn), on parcourt tous les caractères de la chaîne passée en paramètre. Pour chaque caractère, on appelle une fois la fonction `est_base` qui a une complexité constante et on effectue un nombre constant d'opérations élémentaires. Le nombre d'opération par caractère est donc constant.

## Exercice 3

L'ARN est construit à partir de l'ADN en remplaçant la thymine `T` par l'uracile codé par la lettre `U`. Ainsi la transcription de la séquence ADN `ATTGCA` en ARN donne `AUUGCA`.

### Question 1

Définir la fonction `arn` prenant en paramètre une séquence d'ADN et retournant la séquence ARN associée.

In [None]:
##################
#   Correction   #
##################


def arn(adn):
    s = ""
    
    i = 0
    while i < len(adn):
        if adn[i] == "T":
            s += "U"
        else:
            s += adn[i]
        i += 1
    return s

### Question 2

Définir une fonction de tests unitaires de la fonction `arn`.

In [None]:
##################
#   Correction   #
##################


def test_arn():
    assert arn("AAA") == "AAA"
    assert arn("TTT") == "UUU"
    assert arn("ATGTCCGTTTA") == "AUGUCCGUUUA"
    print("Test de la fonction arn : ok")
    
test_arn()

## Exercice 4

Un codon est une séquence de trois bases sur un ARN (messager) spécifiant l'un des 22 acides aminés protéinogènes dont la succession sur l'ARN détermine la structure primaire de la protéine à synthétiser *(définition issue de Wikipedia)*.

### Question 1

Définir la fonction `arn_to_codons` prenant en paramètre une chaîne de caractères correspondant à de l'ARN et découpant cet ARN en codons. La fonction doit retourner un tableau contenant la liste des codons.
Par exemple, l'appel de la fonction `arn_to_codons` avec l'ARN `CGUUAGGGG` doit retourner le tableau `["CGU", "UAG", "GGG"]`.

**Remarque :** Si le nombre de nucléotides dans l'ARN n'est pas un multiple de 3, les derniers sont ignorés. Par exemple, les ARN `CGUAAU` et `CGUAAUGC` donnent tous les deux la séquence de codons `["CGU", "AAU"]`.

In [None]:
##################
#   Correction   #
##################


def arn_to_codons(arn):
    codons = []
    i = 0
    while i < len(arn) - 2:
        codons.append(arn[i] + arn[i+1] + arn[i+2])
        i += 3
    return codons

Vérifiez que votre fonction vérifie la fonction de tests unitaires suivantes.

In [None]:
def test_arn_to_codons():
    assert arn_to_codons("") == []
    assert arn_to_codons("AA") == []
    assert arn_to_codons("CGU") == ["CGU"]
    assert arn_to_codons("CGUGU") == ["CGU"]
    assert arn_to_codons("CGUUAGGGGAU") == ["CGU", "UAG", "GGG"]
    print("Test de la fonction arn_to_codons : ok")

test_arn_to_codons()
    

### Question 2

Quelle est la complexité asymptotique de la fonction `arn_to_codons` ?

**CORRECTION :**


La fonction `arn_to_codons` a une complexité linéaire. Si la chaîne passée en paramètre est de taille $n$, on fait $\frac{n}{3}$ itérations. À chaque itération, on effectue : 
- une création d'une chaîne de taille 3
- une insertion en fin de tableau
- quelques opérations élementaires.

Ces opérations sont de complexité constante, donc on effectue un nombre constant d'opérations élémentaires à chaque itération. Le nombre d'opérations est donc de l'ordre de $O(n)$.


## Exercice 5

Chaque codon correspond à un acide aminé.
Par exemple, le codon `UUU` correspond à l'acide aminé Phenylalanine. Plusieurs codons correspondent à un même acide aminé. 
Certains codons, correspondant à la fin du séquençage des acides aminés, sont appelés *codons stop*. C'est le cas du codon `UAA` par exemple.

Le fichier `files/codons_aa.json` contient la correspondance entre codons et acides aminés au format JSON.

Lire le fichier `files/codons_aa.json` et construire un dictionnaire dont les clés sont les codons et les valeurs les acides aminés correspondants (chaînes de caractères). Les codons qui ne sont pas dans le dictionnaire sont les codons stop. Afficher ensuite la liste des codons correspondant à l'acide aminé Arginine.

**Remarque :** Créer une variable initialisée avec les données contenues dans un fichier au format JSON se fait très facilement en python. Pour plus d'information, relire la fin du [cours 9 du module M1102](https://github.com/iutVilletaneuseDptInfo/M1102/blob/master/09_Dictionnaires/cours9.ipynb).

In [None]:
##################
#   Correction   #
##################


import json

f = open("files/codons_aa.json")
s = f.read()
f.close()

dico_codons_aa = json.loads(s)

print("Liste des codons correspondant à l'Arginine :")

codons = list(dico_codons_aa)
i = 0
while i < len(codons):
    if dico_codons_aa[codons[i]] == "Arginine":
        print("-", codons[i])
    i += 1


## Exercice 6

Définir la fonction `codons_to_aa` prenant en paramètre un tableau de codons (correspondant par exemple à une valeur retournée par la fonction `arn_to_codons`) et le dictionnaire de correspondance entre codons et acides aminés. La fonction devra retourner un tableau contenant les acides aminés correspondant aux codons.

**Attention :** Si l'un des codons est un codon stop, alors la synthèse (traduction des codons en acides aminés) s'arrête. Par exemple, si le tableau de codons passé en paramètre est `["CGU", "AAU", "UAA", "GGG", "CGU"]`, alors le tableau retourné doit être `["Arginine", "Asparagine"]` car le codon `CGU` correspond à l'Arginine, le codon `AAU` correspond à l'asparagine et `UAA` est un codon stop.

In [None]:
##################
#   Correction   #
##################


def codons_to_aa(codons, dico):
    aa = []
    i = 0
    while i < len(codons) and codons[i] in dico:
        aa.append(dico[codons[i]])
        i += 1
    return aa

Vérifier que votre fonction vérifie les tests unitaires suivants.

In [None]:
import json

def test_codons_to_aa():
    # Dictionnaire codons <-> acides aminés
    f = open("files/codons_aa.json")
    dico = json.loads(f.read())
    f.close()
    
    assert codons_to_aa(["CGU", "AAU", "UAA", "GGG", "CGU"], dico) == ["Arginine", "Asparagine"]
    assert codons_to_aa(["UAG"], dico) == []
    assert codons_to_aa(["UGC", "UGU"], dico) == ["Cysteine", "Cysteine"]
    assert codons_to_aa(['CAU', 'GGA', 'GGG', 'GCC', 'GAG', 'GCC'], dico) == ['Histidine', 'Glycine', 'Glycine', 'Alanine', 'Glutamic acid', 'Alanine']
    print("Test de la fonction codons_to_aa : ok")

test_codons_to_aa()