# Alignement de séquences


## Description du problème

Nous disposons de deux séquences ADN codées sur l'alphabet $\Sigma=\{A,C,G,T\}$. Voici un exemple de séquences :
```
X = "ATTGCAT"
Y = "AGTCCAG"
```
Un *alignement* de `X` et `Y` est une façon de les faire correspondre, en conservant l'ordre des caractères, mais en introduisant éventuellement des *trous* (représenté par le symbole "`-`").
En introduisant quelques trous dans `X` et dans `Y`, nous pouvons les aligner ainsi :

```
AT-TG-CA-T
A-GT-CCAG-
```

Le *score* d'un alignement est le nombre de trous nécessaires à l'alignement. Pour l'exemple précédent, `score(X,Y)` a pour valeur $6$. On cherche à minimiser ce score.

## Résolution du problème: une approche récursive


Comme première approche, on voudrait résoudre le problème *récursivement*.
Notons `AlignerRec(X,Y,i,j)` la fonction qui attend en paramètre:
- les séquences `X` et `Y`;
- un entier `i` compris entre $0$ et $len(X)$;
- un entier `j` compris entre $0$ et $len(Y)$.

La fonction `AlignerRec` doit retourner la valeur minimum du score si on se restreint aux `i` premiers caractères de `X` et aux `j` premiers caractères de `Y`.

**Attention:** Comme toute chaîne de caractères en Python, les caractères de `X` et de `Y` sont indicés de `0` à `len(X)-1` (respectivement, `len(Y)-1`).

**Attention 2:** Nous parcourons donc les chaînes de la droite vers la gauche.

Pour écrire cette fonction, intéressez-vous aux questions suivantes :
1. Que devrait retourner `AlignerRec(X,Y,i,j)` lorsque `i = 0` ou lorsque `j = 0` ?
2. Si on suppose `i > 0` et `j > 0`, établir la valeur qui devrait être retournée. Pour calculer cette valeur, des appels récursifs à `AlignerRec` sont certainement nécessaires, mais :
    - quelle condition doit-on vérifier d'abord ?
    - avec quels paramètres pour `i` et pour `j` lors de ces appels ?

<div class="alert alert-info">

Exemple :

X = "ATTGCAT"<br/>
Y = "AGTCCAG"

On appelle AlignerRec(X,Y,len(X),len(Y)) donc i=7 et j=7.<br/>
On compare X[i-1]="T" et Y[j-1]="G" : comme ce n'est pas le même caractère, il faut mettre un trou soit dans X soit dans Y.<br/>
Si on met un trou dans X, en vis-à-vis de Y[j-1]="G" on chercher alors à aligner suivant une solution optimale la configuration suivante :

X' = "ATTGCAT"<br/>
Y' = "AGTCCA"<br/>
Soit AlignerRec(X,Y,i,j-1)

Si on met un trou dans Y, en vis-à-vis de X[i-1]="T" on chercher alors à aligner suivant une solution optimale la configuration suivante :

X' = "ATTGCA"<br/>
Y' = "AGTCCAG"<br/>
Soit AlignerRec(X,Y,i-1,j)

Supposons qu'on ait appelé AlignerRec(X,Y,6,6) donc i=6 et j=6.<br/>
On compare X[i-1]="A" et Y[j-1]="A" : comme c'est le même caractère, il ne faut pas mettre de trou ni dans X ni dans Y.<br/>
On chercher alors à aligner suivant une solution optimale la configuration suivante :

X' = "ATTGC"<br/>
Y' = "AGTCC"<br/>
Soit AlignerRec(X,Y,i-1,j-1)
</div>
<div class="alert alert-danger" role="alert">
Une fois ces questions en tête, écrivez en Python la fonction AlignerRec. Un appel à AlignerRec(X,Y,len(X),len(Y)) devrait retourner une solution optimale au problème.
Pour l'instance précédente, nous obtenons 6. Et vous, qu'obtenez-vous ?
</div>

In [1]:
def AlignerRec(X,Y,i,j):
    if i==0 or j==0:
        return i + j # à compléter
    else:
        if X[i-1]!=Y[j-1]:
            return min(AlignerRec(X,Y,i,j-1),AlignerRec(X,Y,i-1,j)) +1
        else:
            return AlignerRec(X,Y,i-1,j-1)

X = "ATTGCAT"
Y = "AGTCCAG"
AlignerRec(X,Y,len(X),len(Y))

6

Testez votre fonction sur les séquences suivantes :

In [2]:
X = "RESSORT"
Y = "ESPRIT"

AlignerRec(X,Y,len(X),len(Y))

5

In [4]:
# Soyez patient
X = "TTCACCAGAAAAGTTAGTTAAACCG"
Y = "TTCACGAAAAGTCGAGCCGAG"

AlignerRec(X,Y,len(X),len(Y))

12

La version récursive calcule une solution correcte au problème, mais elle souffre de lenteur car un même sous-problème peut être plusieurs fois résolus. Cela se traduit par de multiples appels à `AlignerRec` avec des paramètres identiques.

<div class="alert alert-danger" role="alert">
Modifiez votre fonction AlignerRec pour qu'elle compte le nombre de fois qu'elle s'exécute avec les paramètres $i=3$ et $j=3$ lorsqu'elle est appelée sur les paramètres X, Y, len(X) et len(Y) de l'instance donnée en exemple.<br/>
Remarquons que les deux paramètres X et Y ne sont jamais modifiés lors des appels récursifs.<br/>
Nous appelons AlignerRecCpt cette nouvelle fonction modifiée.
</div>

In [5]:
cpt = 0
def AlignerRecCpt(X,Y,i,j):
    global cpt
    if i==3 and j==3:
        cpt = cpt + 1

    # ci-dessous le code de votre fonction AlignerRec, où les appels récursifs
    # à AlignerRec sont remplacés par des appels à AlignerRecCpt
    if i==0 or j==0:
        return i + j # à compléter
    else:
        if X[i-1]!=Y[j-1]:
            return min(AlignerRecCpt(X,Y,i,j-1),AlignerRecCpt(X,Y,i-1,j)) +1
        else:
            return AlignerRecCpt(X,Y,i-1,j-1)
    

AlignerRecCpt(X,Y,len(X),len(Y))
print(cpt)

4146623


## Résolution du problème: une approche en programmation dynamique

Afin de ne pas recalculer plusieurs fois la solution à un même sous-problèmes, on propose d'utiliser et de compléter un tableau `score` à deux dimension, où `score[i][j]` (pour $ 0 \leq i \leq len(X)$ et $0 \leq j \leq len(Y)$). Ce tableau stocke la valeur minimum du score qu'il est possible d’obtenir si l'on se restreint aux $i$ premiers caractères de `X`  et aux $j$ premiers caractères de `Y`.

D'autre part, nous allons laisser de côté l'aspect récursif et coder une fonction itérative.

Voici quelques questions à se poser :

1. Quelle valeur devrait être stockée dans `score[i][j]` lorsque $i = 0$ ou lorsque $j=0$ ?
2. Supposons maintenant que `i > 0` et `j > 0`. Établir une formule (de récurrence) qui donne la valeur de `score[i][j]` en fonction de $X$, de $Y$ et de `score[i'][j']` pour des valeurs plus petites de $i'$ et/ou de $j'$ ?


<div class="alert alert-danger" role="alert">
Écrire une fonction qui prend en entrée `X`, `Y`, puis qui retourne la valeur minimum du score qu’il est possible d’obtenir. Pour mettre au point votre fonction, vous pouvez vérifier que le résultat est le même que celui de la fonction récursive préalablement programmée.
</div>

In [None]:
def Aligner(X,Y):
    score = # initialiser le tableau score --> définition en compréhension
    # traiter ici les cas score[0][j] (i=0)
    
    # traiter ici les cas score[i][0] (j=0)
    
    # traiter ici le cas "général" (i!=0 et j!=0)
    
    return score[len(X)][len(Y)]

Aligner(X, Y)

<div class="alert alert-danger" role="alert">
Évaluer le temps d’exécution de l'algorithme correspondant à votre fonction Aligner.
</div>

<div class="alert alert-danger" role="alert">
Écrivez une fonction AlignerSolution, qui reprend le code de votre fonction Aligner mais qui retourne également un alignement avec des trous (et non seulement la valeur du score).
</div>

Par exemple, pour les séquences `RESSORT` et `ESPRIT`, nous pourrions avoir comme résultat :
```
RES-SOR-T
-ESP--RIT
```
*Remarque:* Plusieurs solutions sont possibles, donnant un même score minimum. Votre fonction pourrait donc avoir une sortie différente de celle de cet exemple.

In [6]:
def AlignerSolution(X,Y):
    pass # à faire

X = "TTCACCAGAAAAGAACACGGTAGTTACGAGTCCAATATTGTTAAACCG"
Y = "TTCACGAAAAAGTAACGGGCCGATCTCCAATAAGTGCGACCGAG"
AlignerSolution(X, Y)

(26,
 'TTCACCAGAAAAGA--ACACGGTAGTTA-CGAG--TCCAATATT-GTTAA---ACC--G',
 'TTCA-C-GAAAA-AGTA-ACGG--G---CCGA-TCTCCAATA--AG-T--GCGACCGAG')