# BINF TP3 - Algorithmes d'alignement par paire

Dans ce TP nous allons manipuler les algorithmes d'alignement par paire.

# Exercice 0 - Echauffement

Q1. Donnez le score de la superposition :

|       |       |
| :---: | :---: |
x       | ATGTCATGA---TAC |
y       | AT--CTAAATGTTAC |


étant donne le schéma d'évaluation :

|       | A     | T     | G     | C     |
| :---: | :---: | :---: | :---: | :---: |
| **A** | 1     | -1    | -1    | -1    |
| **T** | -1    | 1     | -1    | -1    |
| **G** | -1    | -1    | 1     | -1    |
| **C** | -1    | -1    | -1    | 1     |

et

$\gamma(g) = 0.5 |g| + 0.5$

```markdown
x = ATGTCATGA---TAC
y = AT--CTAAATGTTAC

score de superposition = AA + TT - gamma(2) + CC + AT + TA + GA + AA - gamma(3) + TT + AA + CC
score de superposition = 1+1-1.5+1-1-1-1+1-2+1+1+1
score de superposition = 0.5
```

Q2. Alignez les séquences suivantes avec l'algorithme de Levenshtein :  x = ATG et y = ACTG.

|       | Ø     | A     | C     | T     | G     |
| :---: | :---: | :---: | :---: | :---: | :---: |
| **Ø** | 0     | 1     | 2     | 3     | 4     |
| **A** | 1     | 0     | 1     | 2     | 3     |
| **T** | 2     | 1     | 1     | 1     | 2     |
| **G** | 3     | 2     | 2     | 2     | 1     |

```markdown
D(1,1) = min(D(0,1)+1, D(1,0)+1, D(0,0)+0) = min(2, 2, 0) = 0 
D(1,2) = min(D(0,2)+1, D(1,1)+1, D(0,1)+1) = min(3, 1, 2) = 1
D(1,3) = min(D(0,3)+1, D(1,2)+1, D(0,2)+1) = min(4, 2, 3) = 2
D(1,4) = min(D(0,4)+1, D(1,3)+1, D(0,3)+1) = min(5, 3, 4) = 3

D(2,1) = min(D(1,1)+1, D(2,0)+1, D(1,0)+1) = min(1, 3, 2) = 1
D(2,2) = min(D(1,2)+1, D(2,1)+1, D(1,1)+0) = min(2, 2, 1) = 1
D(2,3) = min(D(1,3)+1, D(2,2)+1, D(1,2)+1) = min(3, 2, 1) = 1
D(2,4) = min(D(1,4)+1, D(2,3)+1, D(1,3)+1) = min(4, 2, 3) = 2

D(3,1) = min(D(2,1)+1, D(3,0)+1, D(2,0)+1) = min(2, 4, 3) = 2
D(3,2) = min(D(2,2)+1, D(3,1)+1, D(2,1)+1) = min(2, 3, 2) = 2
D(3,3) = min(D(2,3)+1, D(3,2)+1, D(2,2)+0) = min(2, 3, 2) = 2
D(3,4) = min(D(2,4)+1, D(3,3)+1, D(2,3)+1) = min(3, 3, 1) = 1

La distance de Levenshtein correspond à D(3,4) = 1. 
On remonte la matrice et on détermine qu'il faut faire une insertion de C de y dans x après le A.
```

Q3.	Alignez les séquences suivantes avec l'algorithme de Needleman-Wunsch global x = TAT et y = ATGAC en considérant le schéma d'évaluation suivant

|       | A       | T       | G       | C     |
| :---: | :---:   | :---:   | :---:   | :---: |
| **A** | 1       | -0.5    | -0.5    | -0.5  |
| **T** | -0.5    | 1       | -0.5    | -0.5  |
| **G** | -0.5    | -0.5    | 1       | -0.5  |
| **C** | -0.5    | -0.5    | -0.5    | 1     |

et

$\gamma(g) = 0.5 |g|$


|       | Ø     | A     | C     | T     | G     | G     |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| **Ø** | 0     | -0.5  | -1    | -1.5  | -2    | -2.5  |
| **A** | -0.5  | -0.5  | 0.5   | 0     | -0.5  | -1    |
| **T** | -1    | 0.5   | 0     | 0     | 1     | 0.5   |
| **G** | -1.5  | 0     | 1.5   | 1     | 0.5   | 0.5   |

```markdown
x : _T_AT
y : ATGAC
```

Q4. Alignez les séquences suivantes avec l'algorithme de Smith-Waterman x = TTGG y = ATGAC en utilisant le schéma d'évaluation de la question précédente.


```markdown
Votre réponse ici
```

# Exercice 1 : Algorithme de Levenshtein - version récursive

Q1. Ecrivez une fonction

levenshtein(x: str, y: str) -> int

qui retourne la distance de Levenshtein entre les séquences x et y en utilisant la  version récursive de l'algorithme.

In [None]:
def levenshtein(x, y):
    """
    Algorithme de Levenshtein - version récursive

    Args:
        x (str): séquence x 
        y (str): séquence y
    Returns:
        int : distance de levenshtein entre x et y 
    """
    if len(x) == 0:
        return len(y)
    if len(y) == 0:
        return len(x)

    cost = 0 if x[0] == y[0] else 1
    
    # min(Suppression, Insertion, Substitution)
    return min(
        levenshtein(x[1:], y) + 1,
        levenshtein(x, y[1:]) + 1,
        levenshtein(x[1:], y[1:]) + cost
    )

Q2. Vous pouvez tester votre code sur les exemples suivants:


*   $L('CCAG', 'CA') = 2$
*   $L('CCGT', 'CGTCA') = 3$
*   $L(AY678264^*, OQ870305^*) = 310$

$^*$ ids genbank de deux sequences.

In [None]:
print(f"L('CCAG', 'CA') = {levenshtein('CCAG', 'CA')}, should be 2")
print(f"L('CCGT', 'CGTCA') = {levenshtein('CCGT', 'CGTCA')}, should be 3")

with open("data/AY678264.fna", "r") as f:
    AY678264 = f.readline()
    AY678264 = f.read().replace("\n", "")

with open("data/OQ870305.fna", "r") as f:
    OQ870305 = f.readline()
    OQ870305 = f.read().replace("\n", "")

# Prend trop de temps - inutilisable
print(f"L(AY678264, OQ870305) = {levenshtein(AY678264, OQ870305)}, should be 310")

L('CCAG', 'CA') = 2, should be 2
L('CCGT', 'CGTCA') = 3, should be 3


KeyboardInterrupt: 

# Exercice 2 : Algorithme de Smith-Waterman - version itérative

Q1. Ecrivez la fonction

sw_fwd(x: str, y: str, cmap: dict, sigma: array, (go, ge): list) -> (array, array)

qui construit les matrices $S$ et $B$ en utilisant l'algorithme de Smith-Waterman pour aligner les séquences x et y suivant le schéma d'évaluation donné par la matrice de substitution $\Sigma$ et la fonction d'évaluation des trous $\gamma(n)= g_o + g_e \times n$. Le dictionnaire cmap donne la position des différents nucléotides dans la matrice $\Sigma$. La fonction retourne la paire de matrices de score $S$ et de retour $B$.

In [None]:
import numpy as np

def sw_fwd(x: str, y: str, cmap: dict, sigma: np.array, gap_penalties: tuple) :
    # sourcery skip: use-itertools-product
    """
    Étape aller de l'algorithme de Smith-Waterman.

    Args:
        x (str): séquences x à aligner
        y (str): séquences y à aligner
        cmap (dict): dictionnaire qui mappe chaque nucléotide à son indice dans sigma
        sigma (array): matrice de substitution
        gap_penalties (tuple): tuple (go, ge) où go est le coût d'ouverture et ge le coût d'extension
    
    Returns:
        S : matrice des scores (array)
        B : matrice des pointeurs de backtracking (array d'objets)
    """
    go, ge = gap_penalties
    m, n = len(x), len(y)
    
    # Initialisation des matrices S et B.
    S = np.zeros((m + 1, n + 1))
    B = np.empty((m + 1, n + 1), dtype=object)
    B.fill('')
    

    for i in range(1, m + 1):
        for j in range(1, n + 1):
            # Score diagonal (match ou substitution)
            diag = S[i - 1, j - 1] + sigma[cmap[x[i - 1]], cmap[y[j - 1]]]
            
            # Score pour une insertion (gap dans x)
            left = float('-inf')
            for l in range(1, j + 1):
                score = S[i, j - l] - (go + ge * l)
                if score > left:
                    left = score
            
            # Score pour une suppression (gap dans y)
            up = float('-inf')
            for k in range(1, i + 1):
                score = S[i - k, j] - (go + ge * k)
                if score > up:
                    up = score
            
            # Choix du meilleur score en incluant la possibilité d'un alignement local (score 0)
            best = max(0, diag, left, up)
            S[i, j] = best
            
            # Stockage du choix dans la matrice B
            if best == 0:
                B[i, j] = None
            elif best == diag:
                B[i, j] = 'DIAG'
            elif best == left:
                B[i, j] = 'LEFT'
            elif best == up:
                B[i, j] = 'UP'
    
    return S, B

Q2. Ecrivez la fonction

sw_bwd(x: str, y: str, S: array, B: array) -> (str, str, float)

qui effectue l'etape de retour de l'algorithme de Smith-Waterman etant donné les séquences $x$ et $y$ et les matrices de score $S$ et de retour $B$. La fonction retourne un tuple contenant les alignements des séquences x et y et le score de l'alignement.

In [10]:
def sw_bwd(x: str, y: str, S: np.array, B: np.array):
    """
    Étape retour de l'algorithme de Smith-Waterman.

    Args:
        x (str): séquence x d'origine
        y (str): séquence y d'origine
        S (np.array): matrice de score calculée par sw_fwd
        B (np.array): matrice de pointeur traceback calculé par sw_fwd
    
    Returns:
        aligned_x : alignement de la séquence x
        aligned_y : alignement de la séquence y
        max_score : score de l'alignement optimal
    """
    #TODO
    return ("A", "B", 0)

Q3. Vous pouvez tester votre code en utilisant le schéma d'évaluation suivant :

In [6]:
import numpy as np

cmap = {"A": 0, "T": 1, "G": 2, "C": 3}
m = np.array([[1, -0.5, -0.5, -0.5],
              [-0.5, 1, -0.5, -0.5],
              [-0.5, -0.5, 1, -0.5],
              [-0.5, -0.5, -0.5, 1]])
go = 0
ge = 0.5

*   $SW('TCGC', 'CTTAG')$ retourne un score de $1.5$ à la position $(3,5)$ et l'alignement

In [11]:
HTML("<table align='left' style='font-family:Courier New'><tr><th>x:</th><th>TCG</th></tr><tr><th>y:</th><th>TAG</th></tr></table>")
x = "TCGC"
y = "CTTAG"

# First step
S, B = sw_fwd(x, y, cmap, m, (go, ge))

# Second step
aligned_x, aligned_y, score = sw_bwd(x, y, S, B)
print(f"SW('TCGC', 'CTTAG') = {score} should be 1.5, aligned_x is {aligned_x}, aligned_y is {aligned_y}.")

SW('TCGC', 'CTTAG') = 0 should be 1.5, aligned_x is A, aligned_y is B.


*   $SW(AY678264^*, OQ870305^*)$ retourne un score de $342.1$ à la position $(708,717)$ et l'alignement

In [12]:
from IPython.display import HTML
HTML("<table width='300px' align='left' style='font-family:Courier New'><tr><th>x:</th><th nowrap='nowrap'>ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGC-A-CATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAG---GGCGAGGGCGAGGGC--CGCC-CCTACGAGGGCACCCAGACCGC-CAAGCTGAAGGTG-ACCA-AGG---G-TGGCC---CCCT-GCCCTTCGCCT-GGGA-CATCCTGTCC--C--C-T-CAGTTCATGT-A-CGGCT-CCAAGGCCTACGTG-A--AGCAC--C--C--C--G-CCGACATCCCCG-A--CTAC-T--TGAAGCTG-TCCTTC--C--C-----CGA-GG--GCTTCAAGTGGGAGCG-CGTGATGAACTTCGAGGACGGCGGCGTGGTG-ACCG--T-GA-C-CCAGGAC-TC--CTCCCTGCAGGACGGCGAGTTCATCTACAAGGTG---AAGCTGCGCGGCACCAACTTCCCCT-CCGACGGCCCCGTA-ATGCA-GAAGAAGACCATGGGCTG--GGA-GGCCTCCTCCGAGCGGATGTACCCCGAGGA-CGGCGCC-CTGAAGGGCGAGATCAAGCAGA-GGCTGAAGC-TGAAGGACGGCGGCCACTACGACGCTGAGGTCAAGACCACCTACA-AGGCCAAGAAG-CCCGTGCAGCTGCCCGGC-GCCTACAACGTCAACATCAAGT-TG----GA-CATCACCTCCCACAACGAGGA-CTAC-A-C-CA---T-C-G-TGGAACAGTACG-AACGCGCCGAGGGCCGCCACTCCAC-CGGCGGCATGGACGAGCTGTACAAG</th></tr><tr><th>y:</th><th>ATGGTGAGCAAGGGCGAGGA-G----C-T-G--TTCA-C-CGG-GGTGGTGCCCATCCTGGT-CGAGC-TGGACGGCGACGTAAACGGCCACAAGTTC-AG--CGTGTCCGGCGAGGGCGAGGGCGATGCCACCTAC---GGCAAGCTGACC-CTGAAG-TTCATTTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCC-AC-CCTCGTGACCACCCTGACCTACGGCGTGCAGTGC-T-TCAGCCGCTACCCCGACC-ACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGC-GCACCATCTTCTTCAAGGACGACGGCAACTACAAGA-CCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGC-A--ACATC--C-TGGGGCACAAGCTG-G-AGTA-CAACTACAACAGCC-ACAACGTC-TATAT-CATG--GCCGA-CAA--GCAGAAGAACGG-CA--T-C-A-AGG-TGAACTTC-AAGATC--CGCCAC--AA---C---ATCGAG--GACGGC---AGCGTGCAGCTCGCCGACCACTACCA-GC--A-G--AACACC-CC--CATCGGCGACG--GCCCCGTGCTGCTGCCCGACAACC-ACTACCTGAGCACCCAGTCCGCCCTGAGCAA-A-GACCC-CAACGAGAAGC-GCGATCACATGGTCCTGCTGG---AGTTCGTGAC-CGCC----GCCGGGA-T-CACTC-TCGGCATGGACGAGCTGTACAAG</th></tr></table>")

x:,ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGC-A-CATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAG---GGCGAGGGCGAGGGC--CGCC-CCTACGAGGGCACCCAGACCGC-CAAGCTGAAGGTG-ACCA-AGG---G-TGGCC---CCCT-GCCCTTCGCCT-GGGA-CATCCTGTCC--C--C-T-CAGTTCATGT-A-CGGCT-CCAAGGCCTACGTG-A--AGCAC--C--C--C--G-CCGACATCCCCG-A--CTAC-T--TGAAGCTG-TCCTTC--C--C-----CGA-GG--GCTTCAAGTGGGAGCG-CGTGATGAACTTCGAGGACGGCGGCGTGGTG-ACCG--T-GA-C-CCAGGAC-TC--CTCCCTGCAGGACGGCGAGTTCATCTACAAGGTG---AAGCTGCGCGGCACCAACTTCCCCT-CCGACGGCCCCGTA-ATGCA-GAAGAAGACCATGGGCTG--GGA-GGCCTCCTCCGAGCGGATGTACCCCGAGGA-CGGCGCC-CTGAAGGGCGAGATCAAGCAGA-GGCTGAAGC-TGAAGGACGGCGGCCACTACGACGCTGAGGTCAAGACCACCTACA-AGGCCAAGAAG-CCCGTGCAGCTGCCCGGC-GCCTACAACGTCAACATCAAGT-TG----GA-CATCACCTCCCACAACGAGGA-CTAC-A-C-CA---T-C-G-TGGAACAGTACG-AACGCGCCGAGGGCCGCCACTCCAC-CGGCGGCATGGACGAGCTGTACAAG
y:,ATGGTGAGCAAGGGCGAGGA-G----C-T-G--TTCA-C-CGG-GGTGGTGCCCATCCTGGT-CGAGC-TGGACGGCGACGTAAACGGCCACAAGTTC-AG--CGTGTCCGGCGAGGGCGAGGGCGATGCCACCTAC---GGCAAGCTGACC-CTGAAG-TTCATTTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCC-AC-CCTCGTGACCACCCTGACCTACGGCGTGCAGTGC-T-TCAGCCGCTACCCCGACC-ACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGC-GCACCATCTTCTTCAAGGACGACGGCAACTACAAGA-CCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGC-A--ACATC--C-TGGGGCACAAGCTG-G-AGTA-CAACTACAACAGCC-ACAACGTC-TATAT-CATG--GCCGA-CAA--GCAGAAGAACGG-CA--T-C-A-AGG-TGAACTTC-AAGATC--CGCCAC--AA---C---ATCGAG--GACGGC---AGCGTGCAGCTCGCCGACCACTACCA-GC--A-G--AACACC-CC--CATCGGCGACG--GCCCCGTGCTGCTGCCCGACAACC-ACTACCTGAGCACCCAGTCCGCCCTGAGCAA-A-GACCC-CAACGAGAAGC-GCGATCACATGGTCCTGCTGG---AGTTCGTGAC-CGCC----GCCGGGA-T-CACTC-TCGGCATGGACGAGCTGTACAAG


# Exercice 3 : Distribution des scores d’alignement pour des séquences aléatoires

Pour tester si un alignement reflète une réelle similarité biologique, on va évaluer la distribution des scores d’alignement pour des paires de séquences aléatoires.

Q1. En considérant deux séquences aléatoires de même taille N, où chaque nucléotide apparaît avec une probabilité uniforme de ¼, calculer le score moyen attendu pour une superposition sans trou dans le cas où une identité vaut +1 et une différence vaut 0.

```markdown
Votre réponse ici
```

Q2. La question précédente peut se resoudre analytiquement car on ne considère pas de trou. Pour étendre le résultat precedent à un alignement avec trous, on va se baser sur la simulation de séquences aleatoires.

Générez $R$ paires de séquences aléatoires  de tailles $N$ avec des probabilitées uniformes d'apparition de nucléotides $p_A = p_T = p_G = p_C = $ ¼. Affichez sous forme de violinplots les distribution des scores d'alignements entre chaque paire, obtenu par :
  1. un alignement sans trou (cf. Q1) ;
  2. un alignement local via Smith-Waterman (utilisez le code de l'exercice précédent)

Utilisez le schéma d'évaluation suivant :

In [None]:
rmap = {"A": 0, "T": 1, "G": 2, "C": 3}
sigma = np.array([[1, -0.5, -0.5, -0.5],
                  [-0.5, 1, -0.5, -0.5],
                  [-0.5, -0.5, 1, -0.5],
                  [-0.5, -0.5, -0.5, 1]])
go =0
ge = 0.5

In [None]:
#Votre code ici

Q3. Qu'observez-vous ?

```markdown
Votre réponse ici
```

Q4. Quelle conclusion peut-on en tirer sur la significativité d'un alignement ?

```markdown
Votre réponse ici
```