<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Recherche de régions codantes sur une phase

Dans ce complément, nous allons écrire en python l'algorithme décrit dans la vidéo, qui recherche une région codante dans un brin d'ADN. Dans cette première version nous nous concentrons sur une seule phase. Souvenez-vous qu'on peut voir trois phases sur un brin d'ADN, selon que l'on regroupe en triplets en commençant à l'indice 0, 1 ou 2.

Mais comme toujours, commençons par les formules magiques

In [None]:
# la formule magique pour utiliser print() en python2 et python3
from __future__ import print_function
# pour que la division se comporte en python2 comme en python3
from __future__ import division

### Recherche de marqueurs

Comme dans la vidéo, nous supposons que nous disposons de fonctions toutes faites pour la recherche de codons **Start** ou **Stop**. Pour l'instant nous les importons d'un autre module, mais rassurez-vous, nous verrons dès la prochaine séquence comment écrire nous-mêmes ces fonctions.

In [None]:
from w3_s03_c2_next_codon import next_start_codon, next_stop_codon

On rappelle que&nbsp;:
 * les indices en python commencent à 0
 * le codon **Start** est `AUG`
 * les codons **Stop** sont `UAA` ou `UAG` ou `UGA`
 
On précise par ailleurs que ces deux fonctions&nbsp;:
  * attendent en argument un brin `arn` et un `indice` de départ,
  * et retournent, soit l'indice de la prochaine occurrence à partir (y compris) de `indice` **et sur la même phase**, ou `None` s'il n'y a plus de correspondance au delà de `indice`
 
Ainsi par exemple&nbsp;:

In [None]:
# on trouve bien START car on part de l'indice 0 
# et l'occurrence est à l'indice 6, donc sur la même phase
next_start_codon("CGUACGAUG", 0)

In [None]:
# par contre ici on ne trouve rien 
# car l'indice de départ n'est pas sur la bonne phase
next_start_codon("CGUACGAUG", 1)

### L'algorithme à proprement parler

Nous allons écrire une fonction `regions_codantes` qui prend en argument un brin d'ARN, et qui va suivre la logique décrite dans la vidéo.

Nous commençons par nous définir la longueur seuil&nbsp;:

In [None]:
seuil_longueur = 300

In [None]:
def regions_codantes(arn):
    # comme dans la vidéo on va se limiter à la première phase
    index = 0
    # les résultats sont retournés sous la forme d'une liste 
    # de tuples (start_gene, stop_gene)
    genes = []
    # la boucle 
    while True:
        #print("main loop - index = ", index)
        stop1 = next_stop_codon(arn, index)
        # s'il n'y a plus de stop, on a fini
        if not stop1:
            return genes
        # sinon on cherche un deuxieme stop
        stop2 = stop1 + 3
        while True:
            stop2 = next_stop_codon(arn, stop2)
            #print("inner loop, stop1 = ", stop1, "stop2=", stop2)
            # s'il n'y en a pas on a fini
            if not stop2:
                return genes
            if stop2 - stop1 >= seuil_longueur:
                break
            # pour passer au stop suivant et ne pas retomber a nouveau sur stop2
            stop2 += 3
        # à ce stade on a trouvé un ORF, reste à trouver le bon start
        start = next_start_codon(arn, stop1)
        # xxx s'il n'y en a pas on est embêté...
        # xxx s'il est au delà de stop2 on est embêté aussi
        genes.append( (start, stop2, ) )
        # on peut passer à la section suivante
        index = stop2

### Sur un exemple réel

xxx à rédiger

In [None]:
from samples import subtilis
print("subtilis contient {} bases".format(len(subtilis)))

In [None]:
from w2_s02_c1_traduction_adn_arn import traduction_adn_arn

In [None]:
subtilis_arn = traduction_adn_arn(subtilis)

In [None]:
genes = regions_codantes(subtilis_arn)

In [None]:
print("on a trouvé {} genes".format(len(genes)))

xxx faire quelques statistiques sur la longueur...