# TP06 Dask Array
# Distance de Levenstein

La distance de Levenshtein est une métrique permettant de mesurer la différence entre deux séquences de caractères. Cette distance correspond au nombre minimal d'opérations élémentaires (insertion, suppression ou substitution de caractères) nécessaires pour transformer une séquence en une autre.

Par exemple, la distance entre `sitting` et `kitten` est de 3 (2 substitutions, 1 suppression).

Formellement, la distance peut être définie de manière récursive selon la définition suivante où pour une chaîne de caractères $s$, $|s|$ représente sa longueur et $s-1$ désigne la chaîne $s$ sans son premier caractère.
$$
\qquad\operatorname{lev}(a,b) = 
\begin{cases}
  \max(|a|,|b|) & \text{ si } \min(|a|,|b|)=0, \\
  \operatorname{lev}(a-1,b-1) & \text{ si } a[0]=b[0], \\
  1 + \min \begin{cases}
          \operatorname{lev}(a-1,b)\\
          \operatorname{lev}(a,b-1)\\
          \operatorname{lev}(a-1,b-1)
       \end{cases} & \text{ sinon.}
\end{cases}
$$

À partir de cette définition, il en résulte un algorithme itératif dynamique naïf permettant de calculer la distance de Levenshtein entre deux séquences en remplissant une matrice de coûts (matrice d'édition).

L’objectif de cet exercice est d’établir un algorithme distribué du calcul de la distance de Levenshtein et, si possible, de le mettre en oeuvre avec Dask

In [None]:
import numpy as np

In [None]:
from numba import njit

In [None]:
def initialize_matrix(s1, s2):
    """Initialisation de la matrice d'édition avec les bords (insertions/suppressions)."""
    m, n = len(s1), len(s2)

    # Création de la matrice principale
    dp = np.zeros((m+1, n+1), dtype=int)

    # Initialisation des bords (coûts d'insertion et suppression)
    dp[:, 0] = np.arange(m+1)  # Première colonne : Suppressions
    dp[0, :] = np.arange(n+1)  # Première ligne : Insertions

    return dp

In [None]:
def fill_matrix(dp, s1, s2):
    """Remplissage la matrice de Levenshtein (approche dynamique)"""
    m, n = len(s1), len(s2)

    for i in range(1, m+1):
        for j in range(1, n+1):
            cost = 0 if s1[i-1] == s2[j-1] else 1
            dp[i, j] = min(
                dp[i-1, j] + 1,      # Suppression
                dp[i, j-1] + 1,      # Insertion
                dp[i-1, j-1] + cost  # Substitution
            )

In [None]:
def levenshtein_numpy(s1, s2):
    """Calcul de la distance levenshtein."""
    dp = initialize_matrix(s1, s2)  # Initialisation de la matrice
    fill_matrix(dp, s1, s2)         # Remplissage de la matrice

    return dp[len(s1), len(s2)]     # Retourne la distance finale

### Test

In [None]:
s1 = "GATTACA"
s2 = "GCATGCU"
print(levenshtein_numpy(s1, s2))  

## 1. Version naïve.
1. Tester l’algorithme sur différentes séquences en augmentant la taille des séquences et relever les temps de restitution.

In [None]:
#TODO

2. Sur la base du code existant écrire un version utilisant des dask array. 
Tester sur de petites séquences, observer le graphe des tâches et relever les temps de restitution.

In [None]:
#TODO

## 2 Optimisations
1. Sur la base de la version numpy, écrire un algorithme non parallèle où la matrice principale est remplie en la parcourant par bloc de taille fixe (par exemple 100 $\times$ 100) : on remplit le premier bloc puis on passe au suivant ligne par ligne.

In [None]:
#TODO

2. Relever les temps de restitution.

In [None]:
#TODO

3. Sur la base de cette version établir un algorithme parallèle et tenter de le mettre en oeuvre à l’aide de Dask array, pour cela regarder les méthodes `map_blocks` et `map_overlap`.

In [None]:
#TODO

4. Relever les temps de restitution

In [None]:
#TODO