<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Complément : promenade le long de l'ADN

Nous allons voir dans ce complément une version exécutable de l'algorithme de la promenade le long de l'ADN.

Il s'agit donc de dessiner le parcours d'une séquence d'ADN, si chaque nucléotide `C`,  `A`, `G`, et `T` correspond à une direction dans le plan, pour rappel&nbsp;:

![Extrait du transparent](media/directions.png)

Dans l'immédiat, commençons par notre habituelle séquence

In [None]:
# la formule magique pour utiliser print() en python2 et python3
from __future__ import print_function
# pour que la division se comporte en python2 comme en python3
from __future__ import division

### L'algorithme à proprement parler

Plutôt que d'écrire une fonction qui dessine directement un fragment d'ADN, nous allons couper le problème en deux, exactement comme on l'a fait dans le complément sur les comptages&nbsp;:
 * d'abord calculer les coordonnées du chemin,
 * puis dessiner ce chemin.
 
En effet il existe de nombreuses librairies permettant de dessiner, et de cette façon il sera plus facile de passer de l'une à l'autre. 

### Utiliser un dictionnaire

Comme on l'a vu dans le complément sur les rudiments de python, nous allons mémoriser cette association entre lettres et directions grâce à un dictionnaire&nbsp;:

In [None]:
deplacements = {
    'C' : [1, 0],
    'A' : [0, 1],
    'G' : [-1, 0],
    'T' : [0, -1],
    }

De sorte que par exemple on pourra facilement calculer le déplacement à faire lorsqu'on voit passer un `C`&nbsp;:

In [None]:
deplacements['C']

Ce qui signifie que lorsqu'on rencontre un `C`, il faut&nbsp;:
 * faire `+1` en x, 
 * et ne rien faire (ajouter `0`) en y.

 
Nous allons écrire une fonction, qui prend en entrée un fragment d'ADN codé comme une chaine de caractères contenant les 4 abbréviations, et qui retourne de quoi dessiner

On choisit de retourner deux listes, correspondant aux X et aux Y respectivement. Il se trouve que le plotter s'attend à ce genre de données; on pourrait très facilement faire un autre choix, je fais au plus rapide.

In [None]:
# un algorithme qui calcule les deux chemins en x et y
# en partant et en se deplaçant le long de la chaine
def chemins_x_y(adn):
    # on commence au centre
    x = 0
    y = 0
    # on range le point
    chemin_x = [x]
    chemin_y = [y]

    # pour tout l'ADN
    for nucleotide in adn:
        # quel deplacement faut-il faire
        dep_x, dep_y = deplacements[nucleotide]
        # on l'applique
        x += dep_x
        y += dep_y
        # on le range
        chemin_x.append(x)
        chemin_y.append(y)

    return chemin_x, chemin_y

Avec un petit exemple que je copie du transparent

In [None]:
adn = "CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC"

X, Y = chemins_x_y(adn)

Pour donner une idée de ce que ça donne

In [None]:
for nucleotide, x, y in zip(adn, X[1:], Y[1:]): 
    print("{} ->({},{})".format(nucleotide, x, y), end="")

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt
import mpld3

plt.plot(X, Y)
mpld3.display()

### Des entrées + grosses (1)

Je peux fournir des données en python ou en json ou en ce qu'on veut en fait.

Par exemple ceci est pris du même transparent

In [None]:
# au départ je voulais en mettre plusieurs dans ce module
from samples import slides
adn1 = slides['1.7']
print(adn1)

### Des entrées plus grosses (2)

On peut même les générer en python, évidemment

In [None]:
import random
valids = ['C', 'A', 'G', 'T']

In [None]:
longueur = 10**6
gros_adn = [ random.choice(valids) for i in range(longueur) ]

In [None]:
# mais en fait il n'y en a qu'un
print("en entrée, {} nucleotides".format(len(gros_adn)))
gros_X, gros_Y = chemins_x_y(gros_adn)
plt.plot(gros_X, gros_Y)
plt.show()