<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Complément : promenade le long de l'ADN

Nous allons voir dans ce complément une version exécutable de l'algorithme de la promenade le long de l'ADN.

Il s'agit donc de dessiner le parcours d'une séquence d'ADN, si chaque nucléotide `C`,  `A`, `G`, et `T` correspond à une direction dans le plan, pour rappel&nbsp;:

![Extrait du transparent](media/directions.png)

Mais dans l'immédiat, commençons par notre séquence habituelle

In [None]:
# la formule magique pour utiliser print() en python2 et python3
from __future__ import print_function
# pour que la division se comporte en python2 comme en python3
from __future__ import division

### La librairie `matplotlib`

La librairie que nous allons utiliser pour dessiner le chemin s'appelle `matplotlib`, principalement parce qu'elle est d'un usage très répandu pour mettre en forme des résultats de calcul.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

`matplotlib` va pouvoir très facilement dessiner le chemin qui nous intéresse, si on lui fournit deux listes de valeurs, qu'on appelle en général simplement `X` et `Y`, de mêmes tailles, et qui vont contenir les coordonnées des points par lesquels on passe.

Voyons cela tout de suite sur un exemple contruit "à la main": imaginons que l'on veuille dessiner un chemin qui passe par&nbsp;:

* premier point (0, 0)
* deuxième point (2, 1)
* troisième point (1, 0)
* quatrième point (3, 4)

In [None]:
# on construit la liste des abscisses
X = [0, 2, 1, 3]
# et la list edes ordonnées
Y = [0, 1, 0, 4]

Et pour dessiner il nous suffit alors d'appeler la fonction `plot` comme ceci&nbsp;:

In [None]:
plt.plot(X, Y)
plt.show()

### Des fonctions qui renvoient deux valeurs

Donc pour dessiner un fragment d'ADN, le problème revient simplement à calculer les coordonnées du chemin, sous la forme d'une liste d'abscisses et une liste d'ordonnées.

Nous sommes donc confrontés au besoin d'écrire une fonction, mais qui doit renvoyer deux choses (la liste des abscisses et la liste des ordonnées), et idéalement en une seule passe pour être aussi efficace que possible. Il se trouve que c'est possible de faire cela très simplement en python. 

Voyons ça sur un premier exemple très simple: une fonction qui calcule le carré et le cube d'un nombre.

In [None]:
# une fonction qui renvoie deux valeurs
def carre_et_cube(x):
    carre = x * x
    cube = x ** 3
    # techniquement : on contruit un tuple avec ces deux valeurs
    return carre, cube

Pour utiliser les deux résultats de la fonction, on utilise tout simplement cette syntaxe&nbsp;:

In [None]:
a, b = carre_et_cube(5)
print("a=", a)
print("b=", b)

### Utiliser un dictionnaire

Avant de voir le parcours de l'ADN à proprement parler, il nous reste à décider comment représenter l'association entre d'une part les 4 lettres de notre alphabet `C`, `A`, `G` et `T`, et les déplacements correspondants dans le plan.

Pour cela, il est naturel en python d'utiliser un dictionnaire. Comme on l'a vu dans le complément sur les rudiments de python, un dictionnaire en python permet d'associer des valeurs à des clés comme ceci&nbsp;:

In [None]:
deplacements = {
    'C' : [1, 0],
    'A' : [0, 1],
    'G' : [-1, 0],
    'T' : [0, -1],
    }

De sorte que par exemple on pourra facilement calculer le déplacement à faire lorsqu'on voit passer un `C`&nbsp;:

In [None]:
deplacements['C']

Ce qui signifie pour nous que lorsqu'on rencontre un `C`, il faut&nbsp;:
 * faire `+1` en x, 
 * et ne rien faire (ajouter `0`) en y.

Que l'on peut écrire, en utilisant la même syntaxe que tout à l'heure&nbsp;:

In [None]:
delta_x, delta_y = deplacements['C']
print("a ajouter en x", delta_x)
print("a ajouter en y", delta_y)

### Le parcours à proprement parler

Nous avons à présent tous les éléments pour écrire une fonction, qui
* prend en entrée un fragment d'ADN codé comme une chaine de caractères contenant les 4 abbréviations,
* et qui retourne deux listes, correspondant aux X et aux Y respectivement, des points du chemin.

In [None]:
# un algorithme qui calcule les deux chemins en x et y
# en partant et en se deplaçant le long de la chaine
def chemin_x_y(adn):
    # initialise les résultats
    chemin_x, chemin_y = [], []
    # on commence au centre
    x, y = 0, 0
    # le point de départ fait partie du chemin
    chemin_x.append(x)
    chemin_y.append(y)

    # pour tout l'ADN
    for nucleotide in adn:
        # quel deplacement faut-il faire
        delta_x, delta_y = deplacements[nucleotide]
        # on l'applique
        x += delta_x
        y += delta_y
        # on le range
        chemin_x.append(x)
        chemin_y.append(y)

    return chemin_x, chemin_y

Voyons ce que cela nous donne sur un tout petit brin d'ADN pour commencer&nbsp;:

In [None]:
petit = "CAGACCACT"
X, Y = chemin_x_y(petit)
print("les abscisses", X)

In [None]:
plt.plot(X, Y)
plt.show()

### Un raccourci

Si on veut tout mettre ensemble dans une seule fonction plus pratique à appeler&nbsp;:

In [None]:
def dessiner(adn):
    X, Y = chemin_x_y(adn)
    plt.plot(X, Y)
    plt.show()

In [None]:
dessiner(adn)

### Des données plus grosses

Si on prend par exemple le brin d'ADN qui est illustré dans le transparent de la séquence 7&nbsp;:

In [None]:
from samples import slide_1_7
print(slide_1_7)

Que l'on peut dessiner tout simplement comme ceci&nbsp;:

In [None]:
dessiner(slide_1_7)

******

XXX ce serait cool de pouvoir écrire une fonction qui va chercher un brin sur une URL..

*******
*******
*******

*INTERNAL* - zoomer dans les chemins

Si on pouvait installer mpld3 on pourrait faire des dessins zoomables

In [None]:
import matplotlib.pyplot as plt
import mpld3
plt.plot(X, Y)
mpld3.display()

*******
*******
*******

*INTERNAL : les couleurs sur les chemins*

résumé de quelques essais - pour l'instant je passe

* On peut en effet faire plein de plt.plot() dans la meme cellule; 
ça pourrait servir à mettre des couleurs

* si on utilise scatter on peut donner une couleur par point; mais ça n'est pas très utile pour nous

* on peut aussi envisager de dessiner avec des PATH mais même comme ça c'est pas clair de faire ce qu'on veut

In [None]:
couleurs = {
    'C' : '#808000',
    'A' : '#800080',
    'G' : '#008080',
    'T' : '#a0a0a0',
}

def chemin_couleurs(adn):
    return [couleurs[nucleo] for nucleo in adn]

In [None]:
plt.scatter(X, Y, color=chemin_couleurs(adn))

In [None]:
import matplotlib.pyplot as plt
from matplotlib.path import Path
import matplotlib.patches as patches

verts = [
    (0., 0.), # left, bottom
    (0., 1.), # left, top
    (1., 1.), # right, top
    (1., 0.), # right, bottom
    (0., 0.), # ignored
    ]

codes = [Path.MOVETO,
         Path.LINETO,
         Path.LINETO,
         Path.LINETO,
         Path.CLOSEPOLY,
         ]

path = Path(verts, codes)

fig = plt.figure()
ax = fig.add_subplot(111)
patch = patches.PathPatch(path, facecolor='orange', lw=2)
ax.add_patch(patch)
ax.set_xlim(-2,2)
ax.set_ylim(-2,2)
plt.show()


In [None]:
import matplotlib
d=dir(matplotlib)
[x for x in d if 'version' in x]

In [None]:
matplotlib.__version__