# Implementación de la Distancia de Levenshtein

La distancia de Levenshtein tiene grandes aplicaciones en diferentes ámbitos. Es una métrica que sirve para medir la diferencia entre dos cadenas de caracteres.

Se define como el número mínimo de operaciones necesarias para transformar una cadena en otra y tiene como operaciones permitidas:
1. Inserción.
2. Eliminación.
3. Sustitución de caracteres.

Se trata de un abordaje difuso para medir la similitud entre cadenas de caracteres.
En este notebook se intentará realizar una implentación de esta distancia sin usar las librerías que ya traen predefinidas las funcionalidades que ofrece el cálculo de esta distancia.

[Pulsa aquí para volver al readme del repositorio](../README.md)


## Ratio de Levenshtein 

Resulta conveniente normalizar la distancia de Levenshtein empleando una magnitud relativa que permita comparar distancias entre cadenas. De esta forma se evitan sesgos en los resultados para determinados ámbitos de aplicación en comparaciones de cadenas de distancias largas.

La solución más simple es la siguiente:

$$\text{ratio\_lev}{(a,b)} = 1 - \frac{\text{lev}(a,b)}{\max(\text{longitud}(a), \text{longitud}(b))}$$


## Implementación
Para implementar la distancia de Levenshtein se usará un código en lenguaje Python que devuelva la distancia de Levenshetein existente entre dos cadenas de texto diferentes.

### Planteamiento a seguir
Para ello, usaremos una matriz, donde las filas representarán los caracteres de la primera cadena y las columnas de los caracteres de la segunda cadena.

A continuación se hace un pequeño ejemplo de como crear una matriz n x m en Python, en este caso de rango 10 para filas y columnas.

In [None]:
matriz = [[0 for n in range(10)] for m in range(10)]
print(matriz)

### Explicación del código

Nuestro código para el cálculo de la distancia de Levenshtein se compone de las siguientes partes:

1. Se crea una función levDistance que recibe de parámetros dos cadenas de texto y devuelve la distancia de Levenshtein entre ellas con un número entero.
    1. Inicializamos una variable coste en 0.
    2. Se calcula la longitud independiente de ambas cadenas de texto.
    3. Se genera una matriz n x m que recibe como rango la longitud de ambas cadenas de texto.
    4. Con la matriz se realiza:
        - Establecimiento de los valores de la primera fila y de la primera columna.
        - Recorrido de la matriz desde el índice 1 hasta la longitud de la cadena 2.
    5. Cálculo de la distancia final.

2. Se calcula el ratio de Levenshtein implementando la fórmula de este definida anteriormente.
3. Finalmente, se devuelve la distancia entre dos cadenas de texto que el usuario debe agregar en el propio código en la última linea.

In [None]:
def levDistance(cadena1: str, cadena2: str) -> int: # Dos cadenas de texto como entrada y 
    # Devuelve la distancia de Levenshtein entre ellas

    # Inicliazamos el coste a 0
    coste = 0          

    # Calculamos la longitud de las cadenas y les sumamos 1 para descartar el valor 0
    lenCadena1 = len(cadena1) + 1 
    lenCadena2 = len(cadena2) + 1

    # Crear matriz
    # Pasamos el rango de la longitud de la cadena 1 y el rango de la longitud de la cadena 2 
    # Esto crea la matriz n x m
    matriz = [[0 for n in range(lenCadena2)] for m in range(lenCadena1)]

    # Inicializar matriz
    # Establecemos los valores de la primera fila y de la primera columna 
    for i in range(lenCadena1):
        matriz[i][0] = i
    for j in range(lenCadena2):
        matriz[0][j] = j
    
    # Recorremos la matriz desde el indice numero 1 hasta la longitud de la cadena 2
    for i in range(1, lenCadena1):
        for j in range(1, lenCadena2):

            if cadena1[i-1] != cadena2[j-1]: # Si no son iguales las cadenas al compararlas le sumamos un 1 al coste
                coste = 1
            else:
                coste = 0
            # Calculamos el valor mínimo de las operaciones que podemos realizar en Levenshtein, inserción eliminación y sustitución
            matriz[i][j] = min(matriz[i-1][j] + 1, matriz[i][j-1] + 1, matriz[i-1][j-1] + coste) 
            
    #Calculamos el resultado final, extrayendo el resultado de la ultima celda de la matriz
    return matriz[lenCadena1-1][lenCadena2-1]

In [None]:
# Calculamos el ratio de levenshtein especificada anteriormente
def levRatio(cadena1: str, cadena2: str) -> float:
    return 1 - levDistance(cadena1, cadena2) / max(len(cadena1), len(cadena2))

In [None]:
# Se introducen las dos palabras a las que se les quiera calcular la distancia de Levenshtein
print(levDistance("cama", "casa"))

### Implementación de la función de levenshtein para un motor de búsqueda

Para realizar un motor de búsqueda, necesitamos una base de datos. En este caso, sobre una inmobiliaria.


In [None]:
BD = [
    {
        "expediente": "GA00000010",
        "descripcion": "Casa chalet adosado. Virrey Osorio, Ciudad Jardín, A Coruña. 350 m. 15008",
    },
    {
        "expediente": "GA00000020",
        "descripcion": "Chalet independiente. Ciudad Jardín, A Coruña. 450 m. 5 hab. 4 baños. Piscina",
    },
    {
        "expediente": "GA00000030",
        "descripcion": "Mansión de lujo. O Grove, Pontevedra. 720 m. 6 hab. 5 baños. Cerca playa Os Raeiros",
    },
    {
        "expediente": "GA00000040",
        "descripcion": "Villa de lujo en Vigo. Vistas al mar. 600 m. 4 hab. 3 baños. Jardín, piscina",
    },
    {
        "expediente": "GA00000051",
        "descripcion": "Adosado urbanizacion. Villalonga, Sanxenxo. 300 m. Vistas mar. Piscina comunitaria",
    },
    {
        "expediente": "GA00000052",
        "descripcion": "Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado",
    },
    {
        "expediente": "GA00000053",
        "descripcion": "Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado",
    },
    {
        "expediente": "GA00000060",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
    {
        "expediente": "GA00000061",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
    {
        "expediente": "GA00000062",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
]


## Definimos la función que compara las descripciones de los inmuebles con nuestra consulta

### Datos de entrada 
- BD: corresponde al diccionario donde se guarda la información de los inmuebles
- Búsqueda: promt
- Umbral: valor máximo del ratio

### Funcionamiento
1. La función recorre la base de datos centrándose en la "descripción" y sin tener en cuenta el expediente. 
2. Se compara el valor del ratio con el de la consulta
3. Si su ratio es menor a 0.05 se muestra por pantalla.

In [None]:
def busquedaRatio(BD, busqueda, umbral):
    for inmueble in BD:
        descripcion = inmueble["descripcion"]
        ratio = levRatio(descripcion, busqueda)
        if ratio < umbral:
            print(f"Expediente: {inmueble['expediente']}     ->     Descripción: {descripcion},       ->         Ratio de Levenshtein: {ratio:.4f}")

In [None]:
busquedaRatio(BD, "chalet", umbral= 0.05)