# Distancia de Levenshtein
La distancia de Levenshtein, distancia de edición o distancia entre palabras es el número mínimo de operaciones requeridas para transformar una cadena de caracteres en otra que pueden ser de distinta longitud. 
En eso se diferencia de la distancia de Hamming de la que se la considera una generalizacion.

Las operaciones son inserción, borrado y substitución.
Ejemplos:
La distancia entre pero y perro es 1, pues solo require una operación (inserción de la r).
La distancia entre silla y y sillón es 2 (sustitucion de a por ó e inserción de n).

Existen implementaciones para la mayor parte de los lenguajes de programación, PHP incluso 
lo trae incorporado (tambien MySQL tienen una función para este cálculo).

En Python existen varias librerias que implementan esta métrica, entre otras:
- python-Levenshtein
- editdistance
- StringDist

También se pueden encontrar varios ejemplos de diferentes implementaciones en la web.
Pero como práctica lo implementaremos. 

Definimos un metodo levenshtein(a,b) que devuelva la distancia entre dos cadenas de caracteres.


In [None]:
def levenshtein(a, b):
    # implementacion
    if a==b: return 0
    if not a: return len(b)
    if not b: return len(a)
    return min(levenshtein(a[1:], b[1:])+(a[0] != b[0]), levenshtein(a[1:], b)+1, levenshtein(a, b[1:])+1)
    

Primero vamos a testear los casos triviales.

In [None]:
print(levenshtein("Trivial", "Trivial"))
print(levenshtein("Trivial", ""))
print(levenshtein("", ""))
print(levenshtein("", "Trivial"))
print(levenshtein("ATGCTAGCATCGATG", "ATGCTAGCATCGATG"))

Y ahora algunas cadenas más.

In [None]:
print(levenshtein("James", "Jack"))
print(levenshtein("Santander", "Sntander"))
print(levenshtein("X129817812", "X2189712"))
print(levenshtein("García", "Garcia"))
print(levenshtein("Arriba", "Abajo"))
print(levenshtein("ATGCTAGCATCGATG", "TACGATCGTAGCTAC"))
print(levenshtein("Edinburgh", "Edimburgo"))
print(levenshtein("Chiquinquirá", "Zipaquirá"))

Esta implementación, con código muy compacto, presenta problemas de rendimiento, y por ello no puede ejecutar todas las llamadas anteriores.
Una alternativa utilizando programación dinámica.


In [None]:
def levenshtein(a, b):
    if len(a) < len(b):
        return levenshtein(b, a)

    if len(b) == 0:
        return len(a)

    valor = range(len(b) + 1)
    for i, c1 in enumerate(a):
        actual = [i + 1]
        for j, c2 in enumerate(b):
            insercion = valor[j + 1] + 1 
            borrado = actual[j] + 1       
            sustitucion = valor[j] + (c1 != c2)
            actual.append(min(insercion, borrado, sustitucion))
        valor = actual
    
    return valor[-1]

In [None]:
print(levenshtein("Trivial", "Trivial"))
print(levenshtein("Trivial", ""))
print(levenshtein("", ""))
print(levenshtein("", "Trivial"))
print(levenshtein("ATGCTAGCATCGATG", "ATGCTAGCATCGATG"))

In [None]:
print(levenshtein("James", "Jack"))
print(levenshtein("Santander", "Sntander"))
print(levenshtein("X129817812", "X2189712"))
print(levenshtein("García", "Garcia"))
print(levenshtein("Arriba", "Abajo"))
print(levenshtein("ATGCTAGCATCGATG", "TACGATCGTAGCTAC"))
print(levenshtein("Edinburgh", "Edimburgo"))
print(levenshtein("Chiquinquirá", "Zipaquirá"))

Utilizando numpy.

In [None]:
import numpy as np

def levenshtein(seq1, seq2):  
    size_x = len(seq1) + 1
    size_y = len(seq2) + 1
    matrix = np.zeros ((size_x, size_y),np.int8)
    for x in range(size_x):
        matrix [x, 0] = x
    for y in range(size_y):
        matrix [0, y] = y

    for x in range(1, size_x):
        for y in range(1, size_y):
            if seq1[x-1] == seq2[y-1]:
                matrix [x,y] = min(
                    matrix[x-1, y] + 1,
                    matrix[x-1, y-1],
                    matrix[x, y-1] + 1
                )
            else:
                matrix [x,y] = min(
                    matrix[x-1,y] + 1,
                    matrix[x-1,y-1] + 1,
                    matrix[x,y-1] + 1
                )
    return (matrix[size_x - 1, size_y - 1])

In [None]:
print(levenshtein("Trivial", "Trivial"))
print(levenshtein("Trivial", ""))
print(levenshtein("", ""))
print(levenshtein("", "Trivial"))
print(levenshtein("ATGCTAGCATCGATG", "ATGCTAGCATCGATG"))

In [None]:
print(levenshtein("James", "Jack"))
print(levenshtein("Santander", "Sntander"))
print(levenshtein("X129817812", "X2189712"))
print(levenshtein("García", "Garcia"))
print(levenshtein("Arriba", "Abajo"))
print(levenshtein("ATGCTAGCATCGATG", "TACGATCGTAGCTAC"))
print(levenshtein("Edinburgh", "Edimburgo"))
print(levenshtein("Chiquinquirá", "Zipaquirá"))

Finalmente la implementación iterativa que aparece en Wikipedia.

In [None]:
# Christopher P. Matthews
# christophermatthews1985@gmail.com
# Sacramento, CA, USA

def levenshtein(s, t):
        ''' From Wikipedia article; Iterative with two matrix rows. '''
        if s == t: return 0
        elif len(s) == 0: return len(t)
        elif len(t) == 0: return len(s)
        v0 = [None] * (len(t) + 1)
        v1 = [None] * (len(t) + 1)
        for i in range(len(v0)):
            v0[i] = i
        for i in range(len(s)):
            v1[0] = i + 1
            for j in range(len(t)):
                cost = 0 if s[i] == t[j] else 1
                v1[j + 1] = min(v1[j] + 1, v0[j + 1] + 1, v0[j] + cost)
            for j in range(len(v0)):
                v0[j] = v1[j]
                
        return v1[len(t)]

In [None]:
print(levenshtein("Trivial", "Trivial"))
print(levenshtein("Trivial", ""))
print(levenshtein("", ""))
print(levenshtein("", "Trivial"))
print(levenshtein("ATGCTAGCATCGATG", "ATGCTAGCATCGATG"))

In [None]:
print(levenshtein("James", "Jack"))
print(levenshtein("Santander", "Sntander"))
print(levenshtein("X129817812", "X2189712"))
print(levenshtein("García", "Garcia"))
print(levenshtein("Arriba", "Abajo"))
print(levenshtein("ATGCTAGCATCGATG", "TACGATCGTAGCTAC"))
print(levenshtein("Edinburgh", "Edimburgo"))
print(levenshtein("Chiquinquirá", "Zipaquirá"))