# Distancia de Levenshtein
La distancia de Levenshtein, distancia de edición o distancia entre palabras es el número mínimo de operaciones requeridas para transformar una cadena de caracteres en otra que pueden ser de distinta longitud. 
En eso se diferencia de la distancia de Hamming de la que se la considera una generalizacion.

Las operaciones son inserción, borrado y substitución.
Ejemplos:
La distancia entre pero y perro es 1, pues solo require una operación (inserción de la r).
La distancia entre silla y y sillón es 2 (sustitucion de a por ó e inserción de n).

Existen implementaciones para la mayor parte de los lenguajes de programación, PHP incluso 
lo trae incorporado (tambien MySQL tienen una función para este cálculo).

En Python existen varias librerias que implementan esta métrica, entre otras:
- python-Levenshtein
- editdistance
- StringDist

También se pueden encontrar varios ejemplos de diferentes implementaciones en la web.
Pero como práctica lo implementaremos. 

Definimos un metodo levenshtein(a,b) que devuelva la distancia entre dos cadenas de caracteres.


In [0]:
def levenshtein(a, b):
    # implementacion
    if a==b: return 0
    if not a: return len(b)
    if not b: return len(a)
    return min(levenshtein(a[1:], b[1:])+(a[0] != b[0]), levenshtein(a[1:], b)+1, levenshtein(a, b[1:])+1)    

Primero vamos a testear los casos triviales.

In [4]:
print(levenshtein("Trivial", "Trivial"))
print(levenshtein("Trivial", ""))
print(levenshtein("", ""))
print(levenshtein("", "Trivial"))
print(levenshtein("ATGCTAGCATCGATG", "ATGCTAGCATCGATG"))

0
7
0
7
0


Y ahora algunas cadenas más.

In [5]:
print(levenshtein("James", "Jack"))
print(levenshtein("Santander", "Sntander"))
print(levenshtein("X129817812", "X2189712"))
print(levenshtein("García", "Garcia"))
print(levenshtein("Arriba", "Abajo"))
print(levenshtein("ATGCTAGCATCGATG", "TACGATCGTAGCTAC"))
print(levenshtein("Edinburgh", "Edimburgo"))
print(levenshtein("Chiquinquirá", "Zipaquirá"))

3
1
4
1
5


KeyboardInterrupt: ignored

Esta implementación, con código muy compacto, presenta problemas de rendimiento, y por ello no puede ejecutar todas las llamadas anteriores.


In [8]:
!pip install python-Levenshtein

Collecting python-Levenshtein
[?25l  Downloading https://files.pythonhosted.org/packages/42/a9/d1785c85ebf9b7dfacd08938dd028209c34a0ea3b1bcdb895208bd40a67d/python-Levenshtein-0.12.0.tar.gz (48kB)
[K     |██████▊                         | 10kB 17.6MB/s eta 0:00:01[K     |█████████████▌                  | 20kB 6.2MB/s eta 0:00:01[K     |████████████████████▏           | 30kB 8.7MB/s eta 0:00:01[K     |███████████████████████████     | 40kB 5.7MB/s eta 0:00:01[K     |████████████████████████████████| 51kB 3.8MB/s 
Building wheels for collected packages: python-Levenshtein
  Building wheel for python-Levenshtein (setup.py) ... [?25l[?25hdone
  Created wheel for python-Levenshtein: filename=python_Levenshtein-0.12.0-cp36-cp36m-linux_x86_64.whl size=144667 sha256=c7303a6ebe9dedc74e013f1f4a4b90a95df320c4741b293c5766749ac8b99c19
  Stored in directory: /root/.cache/pip/wheels/de/c2/93/660fd5f7559049268ad2dc6d81c4e39e9e36518766eaf7e342
Successfully built python-Levenshtein
Installin

In [0]:
import Levenshtein as lv

In [17]:
print(lv.distance("Buena persona", "Silvia Lopez Monzo"))
print(lv.distance("Buena persona", "Ana Gonzalez Guerra"))
print(lv.distance("Buena persona", "David Montero Loaiza"))
print(lv.distance("Buena persona", "Javier Alonso del Saso"))

12
15
15
18
