<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Recherche de régions codantes

Nous voyons dans ce complément une deuxième version plus complète de l'algorithme de recherche de régions codantes, qui prenne en compte les trois phases, ainsi que le brin complémentaire.

Il nous faut donc faire 6 fois la recherche de régions codantes&nbsp;: 
 * sur les trois phases de l'ADN original
 * et sur les trois phases de son brin complémentaire inversé.

### Le code déjà écrit

En réalité, nous avons déjà à notre disposition tout ce qui est nécessaire pour faire cela sans peine, puisque nous avons déjà tous les morceaux.

In [None]:
# la recherche de régions codantes sur une phase
# telle que nous l'avons vue dans la séquence 2
from w3_s02_c1_regions_codantes_v1 import coding_regions_one_phase

In [None]:
# le calcul de la séquence complémentaire inverse
# que nous avons venons de voir dans cette même séquence
from w3_s04_c1_sequence_complementaire import reverse_complement

### Le calcul sur les 6 phases

Nous pouvons donc maintenant calculer assez simplement les genes trouvés sur les 6 phases. La seule différence notable par rapport à `coding_regions_one_phase` est dans le format des résultats. En effet on ne peut plus se contenter de retourner une liste de genes sous la forme `[start, stop]`, puisque selon les cas les indices sont relatifs à l'ADN de départ **ou** à son complémentaire inverse. Nous choisissons donc cette fois de retourner une liste des gènes in extenso.

Remarquons que dans le cadre d'une implémentation à vocation plus appliquée, il serait souhaitable, comme nous l'avons déjà mentionné rapidement, de se définir une classe `Gene` qui serait basée sur un brin d'ADN, et les deux indices de début et de fin. Mais dans le cadre de ce cours nous restons volontairement à un niveau de langage le plus simple possible. Ce qui nous donne cette fois le code suivant&nbsp;:

In [None]:
# les genes trouvés sur les 6 phases
def all_coding_regions(adn):
    inverse = reverse_complement(adn)
    
    genes = [] 
    for sujet in adn, inverse:
        for phase in 0, 1, 2:
            for start, end in coding_regions_one_phase(sujet, phase):
                # c'est ici qu'on extrait le gene in extenso
                genes.append(sujet[start:end])
    return genes

### Un exemple

Pour rester sur le même exemple que avec `coding_regions_one_phase`, (pour rappel: [Bacillus Subtilis](http://www.ebi.ac.uk/ena/data/view/CP010053) - clé `CP010053`) voici ce qu'on obtient à présent&nbsp;:

In [None]:
from samples import subtilis
print("subtilis contient {} bases".format(len(subtilis)))

In [None]:
# pour rappel, les genes sur la phase 0
genes_phase_0 = coding_regions_one_phase(subtilis, 0)
print("On a trouvé {} genes sur la phase 0".format(len(genes_phase_0)))

In [None]:
# sur les 6 phases on obtient maintenant
genes = all_coding_regions(subtilis)
print("Sur les 6 phases on a trouvé {} genes".format(len(genes)))