### Partie 1

Les exercices s'appuient sur la notion d'[ADN](https://fr.wikipedia.org/wiki/Acide_d%C3%A9soxyribonucl%C3%A9ique)/[ARN](https://fr.wikipedia.org/wiki/Acide_ribonucl%C3%A9ique). On supposera dans l'ensemble des exercices que l'ADN est codé sous la forme d'une chaîne de caractères contenant uniquement les lettres majuscules `A`, `T`, `G`, `C` correspondant aux différentes bases (adénine, cytosine, guanine ou thymine).
L'ARN sera codé sous la forme d'une chaîne de caractères contenant uniquement les lettres majuscules `A`, `U`, `G`, `C`.

#### Question 1

Définir la fonction `est_base` prenant en paramètre un caractère et retournant `True` si ce caractère correspond à une base de l'ADN (est un des caractères `A`, `T`, `G`, `C`), et `False` sinon. 

À titre d'exemple, l'appel de la fonction `est_base` avec la valeur `"A"` doit retourner `True` alors que l'appel avec la valeur `"z"` doit retourner `False`.


In [32]:
def est_base(c):
    """
    On vérifie si le caractère correspond à l'un des caractère d'une base de l'ADN.
    """
    
    if c == "A" or c == "T" or c == "G" or c =="C":
        return True
    else:
        return False

In [33]:
def test_est_base():
    assert est_base("A") == True
    assert est_base("c") == False
    assert est_base("R") == False
    print("Test unitaire : OK")

test_est_base()

Test unitaire : OK


#### Question 2

Définir la fonction `est_adn` prenant en paramètre une chaîne de caractères et retournant `True` si la chaîne correspond à un ADN (est constituée uniquement des caractères `A`, `T`, `G`, `C`), et `False` sinon.

À titre d'exemple, l'appel de la fonction `est_adn` avec la valeur `"ATGTCAAA"` doit retourner `True` alors que l'appel avec la valeur `"ATBOAATG"` doit retourner `False`.



In [34]:
def est_adn(s):
    """
    On vérifie si la chaîne de caractère est uniquement composé de caractère qui correspond
    aux caractère d'une base de l'ADN en utilisant la fonction de la question 1.
    """
    i = 0
    while i < len(s):
        if est_base(s[i])== False:
            return False
        i += 1
    return True

In [35]:
def test_est_adn():
    assert est_adn("AC") == True
    assert est_adn("ATC") == True
    assert est_adn ("TAGF") == False
    print ("Test unitaire : OK")

test_est_adn()

Test unitaire : OK


#### Question 3

L'ARN est construit à partir de l'ADN en remplaçant la thymine `T` par l'uracile codé par la lettre `U`. Ainsi la transcription de la séquence ADN `ATTGCA` en ARN donne `AUUGCA`.

Définir la fonction `arn` prenant en paramètre une séquence d'ADN et retournant la séquence ARN associée.

À titre d'exemple, l'appel de la fonction `arn` avec la valeur `"ATGTCAAA"` doit retourner `"AUGUCAAA"`.

**Attention :** si la chaîne passée en paramètre ne correspond pas à de l'ADN, la fonction `arn` doit retourner la valeur `None`.

In [36]:
def arn(adn):
    """
    On modifie le caractère T en U d'une chaîne de caractère d'une base de l'ADN pour trouver l'ARN 
    en vérifiant si la chaîne de caractère est valide en utilisant les deux fonctions précédentes.
    """
    if est_adn(adn) == True:
        arn = adn.replace("T", "U")
    else:
        return None
    return arn

In [37]:
def test_arn():
    assert arn("ATGTCAAA") == "AUGUCAAA"
    assert arn("TTAGCA") == "UUAGCA"
    assert arn("GAACA") == "GAACA"
    print("Test unitaire : OK")
    
test_arn()

Test unitaire : OK


#### Question 4

Un codon est une séquence de trois bases sur un ARN (messager) spécifiant l'un des 22 acides aminés protéinogènes dont la succession sur l'ARN détermine la structure primaire de la protéine à synthétiser *(définition issue de Wikipedia)*.

Définir la fonction `arn_to_codons` prenant en paramètre une chaîne de caractères correspondant à de l'ARN et découpant cet ARN en codons. La fonction doit retourner un tableau contenant la liste des codons.
Par exemple, l'appel de la fonction `arn_to_codons` avec l'ARN `"CGUUAGGGG"` doit retourner le tableau `["CGU", "UAG", "GGG"]`.

**Remarque :** Si le nombre de nucléotides dans l'ARN n'est pas un multiple de 3, les derniers sont ignorés. Par exemple, les ARN `"CGUAAU"` et `"CGUAAUGC"` donnent tous les deux la séquence de codons `["CGU", "AAU"]`.

In [38]:
def arn_to_codons(arn):
    """
    A chaque fois que le programme compte 3 caractères dans la chaîne de caractère, le tableau prend 
    les 3 premiers caractères et continue jusqu'au bout de la chaîne.
    """
    tableau = []
    chaine = ""
    i = 0
    while i < len(arn):
        chaine += arn[i]
        if (i+1) % 3 == 0 and i != 0:
            tableau.append(chaine)
            chaine = ""
        i += 1
    return tableau

In [39]:
def test_arn_to_codons():
    assert arn_to_codons("CGUAAUGC") == ["CGU", "AAU"]
    assert arn_to_codons("CGUAAU") == ["CGU", "AAU"]
    assert arn_to_codons("AACGUCC") == ["AAC", "GUC"]
    assert arn_to_codons("CGAA") == ["CGA"]
    print("Test unitaire : OK")

test_arn_to_codons()

Test unitaire : OK


#### Question 5

Chaque codon correspond à un acide aminé.
Par exemple, le codon `UUU` correspond à l'acide aminé Phenylalanine. Plusieurs codons correspondent à un même acide aminé. 
Certains codons, correspondant à la fin du séquençage des acides aminés, sont appelés *codons stop*. C'est le cas du codon `UAA` par exemple.

Le fichier `data/codons_aa.json` contient la correspondance entre codons et acides aminés au format JSON. Les codons qui ne sont pas dans le fichier sont les codons stop.


* Définir la fonction `load_dico_codons_aa` qui prend en paramètre un fichier au format JSON et retourne la structure de données chargée en mémoire à partir du JSON.

In [40]:
def load_dico_codons_aa(filename):
    fichier = open (filename)
    strjson = fichier.read()
    fichier.close()
    acide_aminé = loads(strjson)
    return acide_aminé

* Définir la fonction `codons_stop` prenant en paramètre un dictionnaire dont les clés sont les codons et les valeurs les acides aminés correspondants (chaînes de caractères). La fonction retournera un tableau contenant l'ensemble des codons stop, c'est-à-dire l'ensemble des codons possibles avec les caractères `AUGC` qui ne sont pas des clés du dictionnaire.


**Remarque :** Créer une variable initialisée avec les données contenues dans un fichier au format JSON se fait très facilement en python. Pour plus d'information, relire la fin du [cours 9 du module M1102](https://github.com/iutVilletaneuseDptInfo/M1102/blob/master/09_Dictionnnaires/cours9.ipynb).

In [41]:
def codons_stop(dico):
    """
    On fait une première boucle pour répéter la boucle imbriqué par rapport au nombre de codons donnés
    et la boucle imbriqués vérifie si le codon donné est égal à un codon dans le dico et si non, la 
    boucle imbriqué s'arrête et le tableau prend la valeur du codon.
    """
    dic = list(acide_aminé)
    i = 0
    j = 0
    tableau = []
    while i < len(dico):
        while j < len(dic):
            if dic[j] == dico[i]:
                j += len(dic) 
            elif j == 59:
                tableau.append(dico[i])
            j += 1
        i += 1
        j = 0
        
    return tableau

In [42]:
def test_codons_stop():
    assert codons_stop(["CGU", "AAU", "UAA", "GGG", "CGU"]) == ["UAA"]
    assert codons_stop(["CGU", "AUU", "GCG"]) == []
    assert codons_stop(["CGA", "GGU", "AGA", "GAA", "CAU"]) == ["AGA"]
    print("Test unitaire : OK")
    
test_codons_stop()

Test unitaire : OK


#### Question 6

Définir la fonction `codons_to_aa` prenant en paramètre un tableau de codons (correspondant par exemple à une valeur retournée par la fonction `arn_to_codons`) et le dictionnaire de correspondance entre codons et acides aminés. La fonction devra retourner un tableau contenant les acides aminés correspondant aux codons.

**Attention :** Si l'un des codons est un codon stop, alors la synthèse (traduction des codons en acides aminés) s'arrête. Par exemple, si le tableau de codons passé en paramètre est `["CGU", "AAU", "UAA", "GGG", "CGU"]`, alors le tableau retourné doit être `["Arginine", "Asparagine"]` car le codon `CGU` correspond à l'Arginine, le codon `AAU` correspond à l'asparagine et `UAA` est un codon stop.


In [43]:
 def codons_to_aa(codons, dico):
    """
    On prend le premier codon donné et on vérifie si il est dans le dictionnaire des codons. Si il y est,
    on arrête la boucle, met sa valeur dans le tableau et on prend le prochain codon et si il n'y est pas,
    on arrête la boucle et retourne le tableau
    """
    i = 0
    tableau = []
    tableau2 = []
    while i < len(codons):
        tableau2.append(codons[i])
        if codons_stop(codons) == tableau2:
            i = len(codons)
        else:
            tableau.append(dico[codons[i]])
            tableau2 = []
            i += 1
                                
    return tableau

In [44]:
def test_codons_to_aa():
    assert codons_to_aa(["CGU", "AAU", "UAA", "GGG", "CGU"], acide_aminé) == ["Arginine", "Asparagine"]
    assert codons_to_aa(["CGU", "AAU", "CGU"], acide_aminé) == ["Arginine", "Asparagine", "Arginine"]
    assert codons_to_aa(["CUU", "CCA", "GAA", "AGU"], acide_aminé) == ["Leucine", "Proline","Glutamic acid", "Serine"]
    print("Test unitaire : OK")
    
test_codons_to_aa()

Test unitaire : OK


### Partie 2

Le séquençage des acides aminés ne commence que lorsque le *codon start* est rencontré. Ce codon est le codon `AUG`. On appelle séquence codante l'ensemble des codons compris entre le codon start et un codon stop. Dans une séquence codante, le codon `AUG` correspond à l'acide aminé *Methionine*. Une séquence de codons peut contenir zéro, une ou plusieurs séquences codantes. Par exemple, la séquence `"CGU", "UUU", "AUG", "CGU", "AUG", "AAU", "UAA", "AUG", "GGG", "CCC",  "CGU", "UAG", "GGG"` contient deux séquences codantes : `"CGU", "AUG"` et `"GGG", "CCC", "CGU"` puisque `"AAU"` et `"UAG"` sont des codons stop.

**Remarque :** Une séquence codante est délimitée par le codon start et un codon stop. Si la séquence de codons ne contient aucun codon stop, alors il n'y a pas de séquence codante.

#### Question 1

Définir la fonction `nextIndice` prenant en paramètre un tableau `tab`, un indice `ind` de `tab`, et un deuxième tableau `elements`. La fonction recherche dans le tableau `tab` à partir de l'indice `ind` et retourne l'indice de la première case du tableau `tab` contenant une valeur de `elements`.

Par exemple, l'appel de la fonction `nextIndice` avec le tableau `tab` égal à `["bonjour", "hello", "buongiorno", "ciao", "bye"]`, et le tableau `elements` égal à `["hello", "bye"]` doit retourner 1 si `ind` est inférieur ou égal à 1 lors de l'appel, et 4 sinon.

**Remarque :** si aucune valeur de `elements` n'apparaît dans `tab` à partir de l'indice `ind`, la fonction doit renvoyer la valeur `len(tab)`.


In [45]:
def nextIndice(tab, ind, elements):
    """
    On fait une boucle imbriqué pour pouvoir vérifier chaque éléments du tableau et si un élément du
    tableau tab correspond à l'un des éléments du tableau elements, on regarde si l'ind est égal
    à l'indice de l'emplacement de l'élément si oui on retourne i sinon on recommence jusqu'a trouver
    le bonne indice
    """
    i = 0
    while i < len(tab):
        y = 0 
        while y < len(elements):
            if tab[i] == elements[y]:
                if ind <= i:
                    return i
            y += 1
        i += 1
    return len(tab)

In [46]:
def test_nextIndice():
    assert nextIndice(["bonjour", "hello", "buongiorno", "ciao", "bye"], 1,["hello", "bye"]) == 1
    assert nextIndice(["coucou", "hello", "bonsoir", "salut", "bye"], 2,["bonsoir", "salut"]) == 2
    assert nextIndice(["salutation", "hallo", "hola", "au revoir", "bye"], 5,["hello", "bye"]) == 5
    print("Test unitaire : OK")
    
test_nextIndice()

Test unitaire : OK


#### Question 2

Définir la fonction `decoupe_sequence` prenant en paramètre trois tableaux `seq`, `start` et `stop`. La fonction doit découper le tableau `seq` en séquences et retourner un tableau contenant les différents morceaux. Un morceau dans le tableau `seq` est une partie non vide de `seq` comprise entre une valeur de `start` et une valeur de `stop`.

L'appel de la fonction `decoupe_sequence` avec les tableaux 
```python
seq = ["val1", "début", "val2", "val3", "end", "val4", "fin", "begin", "val5", "fin", "val6"]
start = ["début", "begin"]
stop = ["fin", "end"]
```
doit retourner
```python
[
    ["val2", "val3"],
    ["val5"]
]
```

In [47]:
def decoupe_sequence(seq, start, stop):
    """
    On fait une boucle imbriqué pour pouvoir vérifier chaque éléments du tableau et si un élément du
    tableau correspond a un élément du tableau start on lance une boucle qui vérifie si l'un des 
    éléments suivants correspond à un élément du tableau stop tout en prenant les éléments dans un
    autre tableau, et si il correspond, on arrete la boucle et on continue jusqu'à la fin du tableau
    """
    i = 0
    tab = []
    while i < len(seq):
        y = 0 
        while y < len(start):
            if seq[i] == start[y]:
                tab2 = []
                j = 0
                while j < 1:
                    i += 1
                    z = 0
                    while z < len(stop):
                        if seq[i] == stop[z]:
                            tab.append(tab2)
                            j += 1
                        z += 1
                    if j == 0: 
                        tab2.append(seq[i])
            y += 1
        i += 1
    return tab


In [48]:
def test_decoupe_sequence():
    assert decoupe_sequence(["val1", "début", "val2", "val3", "end", "val4", "fin", "begin", "val5", "fin", "val6"], ["début", "begin"], ["fin", "end"]) == [['val2', 'val3'], ['val5']]
    assert decoupe_sequence(["val1", "val2", "val3", "end","début", "val4", "fin", "begin", "val5", "val6", "fin"], ["début", "begin"], ["fin", "end"]) == [['val4'], ['val5', 'val6']]
    assert decoupe_sequence(["1", "2", "3", "commencement", "4", "terminus", "5", "début", "6", "7","fin"], ["commencement" , "début"], ["fin", "terminus"]) == [['4'], ['6', '7']]
    print("Test unitaire : OK")
    
test_decoupe_sequence()

Test unitaire : OK


#### Question 3

Définir la fonction `codons_to_seq_codantes` qui prend en paramètre une séquence de codons et le dictionnaire de correspondance entre codons et acides aminés, et découpe la séquence de codons en séquences codantes. Les différentes séquences sont stockées dans un tableau. L'appel de la fonction `codons_to_seq_codantes` avec la séquence  `["CGU", "UUU", "AUG", "CGU", "AUG", "AAU", "UAA", "AUG", "GGG", "CCC", "CGU", "UAG", "GGG"]` doit retourner le tableau :
```python
[
    ["CGU", "AUG", "AAU"],
    ["GGG", "CCC", "CGU"]
]
```

**Remarque :** la fonction ne doit pas retourner de séquence codante vide.

In [49]:
def codons_to_seq_codantes(codons, dico):
    """
    On utilise la fonction précédente avec l'aide d'une fonction de la première partie pour pouvoir
    transformer plus facilement les codons en séquence codantes
    """
    return decoupe_sequence(codons, ["AUG"], codons_stop(codons))

In [50]:
def test_codons_to_seq_codantes():
    assert codons_to_seq_codantes(["CGU", "UUU", "AUG", "CGU", "AUG", "AAU", "UAA", "AUG", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == [['CGU', 'AUG', 'AAU'], ['GGG', 'CCC', 'CGU']]
    assert codons_to_seq_codantes(["CGU", "UUU", "CGU", "AUG", "AAU", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == [['AAU', 'GGG', 'CCC', 'CGU']]
    assert codons_to_seq_codantes(["CGU", "UUU", "CGU", "AAU", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == []
    print("Test unitaire : OK")
    
test_codons_to_seq_codantes()

Test unitaire : OK


#### Question 4


Définir la fonction `seq_codantes_to_seq_aas` prenant en paramètre un tableau de séquences codantes (même type que les valeurs retournées par la fonction précédente)  et le dictionnaire de correspondance entre codons et acides aminés, et retournant un tableau contenant les différentes séquences d'acides aminés codées par les différentes séquences codantes. L'appel de la fonction `seq_codantes_to_seq_aas` avec le tableau retourné dans l'exemple de la fonction `codons_to_seq_codantes` doit retourner le tableau :

```python
[
    ["Arginine", "Methionine", "Asparagine"],
    ["Glycine", "Proline", "Arginine"]
]
```


In [51]:
def seq_codantes_to_seq_aas(seq_codantes, dico):
    """
    On utilise la fonction précédente pour transformer plus les codons en séquence codantes et ensuite
    on fait une boucle pour pouvoir remplacer chaque éléments en leur acides aminés
    """
    cod = codons_to_seq_codantes(seq_codantes, dico)
    i = 0 
    tab = []
    while i < len(cod):
        temp = codons_to_aa(cod[i], dico)
        tab.append(temp)
        i +=1 
    return tab

In [52]:
def test_seq_codantes_to_seq_aas():
    assert seq_codantes_to_seq_aas(["CGU", "UUU", "AUG", "CGU", "AUG", "AAU", "UAA", "AUG", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == [['Arginine', 'Methionine', 'Asparagine'], ['Glycine', 'Proline', 'Arginine']]
    assert seq_codantes_to_seq_aas(["CGU", "UUU", "CGU", "AUG", "AAU", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == [['Asparagine', 'Glycine', 'Proline', 'Arginine']]
    assert seq_codantes_to_seq_aas(["CGU", "UUU", "CGU", "AAU", "GGG", "CCC",  "CGU", "UAG", "GGG"], acide_aminé) == []
    print("Test unitaire : OK")
    
test_seq_codantes_to_seq_aas()

Test unitaire : OK


#### Question 5

Définir la fonction `adn_encode_molecule` prenant en parmètre un brin d'ADN, le dictionnaire de correspondance entre codons et acides aminés et une molécule (séquence d'acide aminées). La fonction doit retourner `True` si l'ARN obtenu à partir de l'ADN puis découpé en codons contient une séquence codante correspondant à la molécule, c'est-à-dire si la séquence d'acide aminée correspondant à une séquence codante est la même que la molécule.
Par exemple, l'appel de la fonction `adn_encode_molecule` avec l'ADN `"CGTTTTATGCGTATGAATTAAATGGGGCCCCGTTAGGGG"` et la molécule `["Glycine", "Proline", "Arginine"]` doit retourner `True`.

In [53]:
def adn_encode_molecule(adn, dico, molecule):
    """
    On transforme l'adn en arn, puis en codons, puis en en acide aminé et on compare avec la molécule
    """
    ARN = arn(adn)
    codons = arn_to_codons(ARN)
    acide = seq_codantes_to_seq_aas(codons, dico)
    i = 0
    while i < len(acide):
        if acide[i] == molecule:
            return True
        i += 1

In [54]:
def test_adn_encode_molecule():
    assert adn_encode_molecule("CGTTTTATGCGTATGAATTAAATGGGGCCCCGTTAGGGG", acide_aminé, ["Glycine", "Proline", "Arginine"]) == True
    assert adn_encode_molecule("CGTTTTCGTAATTAAATGGGGCCCCGTTAGGGG", acide_aminé, ["Glycine", "Proline", "Arginine"]) == True
    assert adn_encode_molecule("CGTTTTCGTAATTAAGGGCCCCGTTAGGGG", acide_aminé, ["Glycine", "Proline", "Arginine"]) == None
    print("Test unitaire : OK")
    
test_adn_encode_molecule()

Test unitaire : OK
