# N02. Levenshtein

__Borja González Seoane, Computación Inteligente y Ética de la IA. Curso 2022-23__


## Preámbulo

En este _notebook_ se afrontará el caso de uso del ejemplo _Motor de búsqueda para compañía inmobiliaria_, visto en las transparencias de clase. Se replica aquí el enunciado:

>- Sea una compañía que pretende desarrollar un motor de búsqueda para uso interno.
>- Se dedica al sector inmobiliario y tiene una base de datos con expedientes de propiedades.
>- La compañía quiere que un empleado pueda buscar un expediente mediante una consulta en lenguaje natural al respecto de la descripción de la propiedad.
>- Por ejemplo: «Chalet en Ciudad Jardín, A Coruña» debería devolver el mismo expediente que «Casa chalet adosado en Ciudad Jardín, A Coruña, 15008».

Para resolver el problema, se empleará la distancia de Levenshtein, que mide el número de operaciones necesarias para transformar una cadena de caracteres en otra. Inicialmente se usará la implementación de la librería `Levenshtein`, que ofrece una interfaz sencilla para Python. Posteriormente, quedará propuesta la implementación de un algoritmo propio, como actividad para el Foro 04.

Como se dice en las transparencias, la compañía ha proporcionado una muestra de la base de datos con la que se trabajará. Por simplicidad, se presenta aquí la muestra como un diccionario fácilmente manipulable:

In [15]:
BD = [
    {
        "expediente": "GA00000010",
        "descripcion": "Casa chalet adosado. Virrey Osorio, Ciudad Jardín, A Coruña. 350 m. 15008",
    },
    {
        "expediente": "GA00000020",
        "descripcion": "Chalet independiente. Ciudad Jardín, A Coruña. 450 m. 5 hab. 4 baños. Piscina",
    },
    {
        "expediente": "GA00000030",
        "descripcion": "Mansión de lujo. O Grove, Pontevedra. 720 m. 6 hab. 5 baños. Cerca playa Os Raeiros",
    },
    {
        "expediente": "GA00000040",
        "descripcion": "Villa de lujo en Vigo. Vistas al mar. 600 m. 4 hab. 3 baños. Jardín, piscina",
    },
    {
        "expediente": "GA00000051",
        "descripcion": "Adosado urbanizacion. Villalonga, Sanxenxo. 300 m. Vistas mar. Piscina comunitaria",
    },
    {
        "expediente": "GA00000052",
        "descripcion": "Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado",
    },
    {
        "expediente": "GA00000053",
        "descripcion": "Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado",
    },
    {
        "expediente": "GA00000060",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
    {
        "expediente": "GA00000061",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
    {
        "expediente": "GA00000062",
        "descripcion": "Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso",
    },
]

In [16]:
# Examina la BD
for i in range(len(BD)):
    print(f'{BD[i]["expediente"]}: {BD[i]["descripcion"]}')

GA00000010: Casa chalet adosado. Virrey Osorio, Ciudad Jardín, A Coruña. 350 m. 15008
GA00000020: Chalet independiente. Ciudad Jardín, A Coruña. 450 m. 5 hab. 4 baños. Piscina
GA00000030: Mansión de lujo. O Grove, Pontevedra. 720 m. 6 hab. 5 baños. Cerca playa Os Raeiros
GA00000040: Villa de lujo en Vigo. Vistas al mar. 600 m. 4 hab. 3 baños. Jardín, piscina
GA00000051: Adosado urbanizacion. Villalonga, Sanxenxo. 300 m. Vistas mar. Piscina comunitaria
GA00000052: Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado
GA00000053: Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado
GA00000060: Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso
GA00000061: Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso
GA00000062: Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso


In [17]:
import random

# Accede a una descripción al azar
print(BD[random.randint(0, len(BD) - 1)]["descripcion"])

Villa de lujo en Vigo. Vistas al mar. 600 m. 4 hab. 3 baños. Jardín, piscina


## Ej. Foro 04. Implementación propia de la distancia de Levenshtein

Se propone implementar un algoritmo propio para calcular la distancia de Levenshtein, para emplear en vez de la librería `Levenshtein`.

In [18]:
def lev_distance(a: str, b: str) -> int:
    """
    Calcula la distancia de Levenshtein entre dos cadenas.

    :param a: Cadena 1.
    :param b: Cadena 2.
    :return: Distancia de Levenshtein entre `a` y `b`.
    """
    raise NotImplementedError("Función no implementada. Propuesta para el Foro 04.")

In [19]:
%%script false --no-raise-error # Salta la ejecución de la celda hasta implementar `lev_distance` de celda anterior

import Levenshtein

# Tests para la función `lev_distance`, comparando con el resultado de la librería `Levenshtein`

assert lev_distance("casa", "casa") == 0, "Error en test 1."
assert lev_distance("casa", "casa grande") == 7, "Error en test 2."

charset = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz "
for i in range(3, 6):  # Varios test con palabras aleatorias
    a = "".join(random.choices(charset, k=10))
    b = "".join(random.choices(charset, k=10 * i))
    print(f"Test {i}: `{a}` - `{b}`.")
    assert lev_distance(a, b) == Levenshtein.distance(
        a, b), f"Error en test {i}."


Couldn't find program: 'false'


## Ej. 1. Implementar el motor de búsqueda de la compañía

- Desarrollar una función en Python que acepte una consulta en lenguaje natural y devuelva los _N_ expedientes más relevantes. Considérese _N=3_, por ejemplo.
- La función empleará la distancia de Levenshtein para comparar la consulta con la descripción de cada expediente.
- Puede emplearse la librería `Levenshtein` para calcular la distancia de Levenshtein.


In [20]:
N = 3

from Levenshtein import (
    distance as lev_distance,  # Comentar si implementación propia Foro 04. Mismo nombre para sobreescribir función
)

In [32]:
# Prueba la función de la librería `thefuzz` para obtener la distancia de Levenshtein
print(lev_distance("Computación Inteligente y Ética de la IA", "Manuel Mateo Delgado-Gambino López"))
print(lev_distance("casa", "cama"))
print(lev_distance("casa", "asa"))
print(lev_distance("casa", "casa grande"))

34
1
1
7


In [30]:
# Prueba la función sobre algunas descripciones de la BD
print(lev_distance(BD[0]["descripcion"], BD[0]["descripcion"]))
print(lev_distance(BD[0]["descripcion"], BD[1]["descripcion"]))
print(lev_distance(BD[0]["descripcion"], BD[2]["descripcion"]))

0
50
69


### Búsqueda de una métrica relativa

La librería `Levenshtein` proporciona la distancia de Levenshtein entre dos cadenas. Sin embargo, típicamente, nos interesa trabajar con una métrica relativa que nos permita comparar similitudes entre cadenas de diferente longitud. De lo contrario, comparaciones entre cadenas de diferente longitud serían siempre desfavorables para la cadena más larga y no tendrían sentido.

Podemos emplear un ratio de similitud, que se define como:

\begin{equation}
\text{ratio}_\text{Levenshtein}(a, b) = 1 - \frac{\text{Levenshtein}(a, b)}{\max(\text{longitud}(a), \text{longitud}(b))}
\end{equation}

Siendo $a$ y $b$ las cadenas a comparar. El ratio de similitud toma valores entre 0 y 1, donde 1 indica que las cadenas son idénticas y 0 que no tienen caracteres en común.

In [23]:
def lev_ratio(a: str, b: str) -> float:
    return 1 - lev_distance(a, b) / max(len(a), len(b))

In [31]:
# Volvemos a probar sobre las palabras anteriores, esta vez con la función ratio
print(lev_ratio("Computación Inteligente y Ëtica de la IA", "Manuel Mateo Delgado-Gambino López"))
print(lev_ratio("casa", "cama"))
print(lev_ratio("casa", "asa"))
print(lev_ratio("casa", "casa grande"))

0.15000000000000002
0.75
0.75
0.36363636363636365


In [25]:
# Ídem sobre algunas descripciones de la BD
print(lev_ratio(BD[0]["descripcion"], BD[1]["descripcion"]))
print(lev_ratio(BD[0]["descripcion"], BD[2]["descripcion"]))

0.35064935064935066
0.1686746987951807


### Implementación del motor de búsqueda

Se propone la siguiente implementación del motor de búsqueda:

In [26]:
from typing import Dict, List


def motor_busqueda(consulta: str, BD: list = BD, N: int = N) -> List[Dict]:
    """
    Motor de búsqueda que devuelve los `N` elementos más similares a `consulta` en la base de datos `BD`.

    :param consulta: Consulta a buscar.
    :param BD: Base de datos.
    :param N: Número de elementos a devolver.
    :return: Lista con los elementos más similares a la consulta. Formato de diccionario con las
        claves `expediente`, `descripcion` y `similitud`.
    """
    # Calcula la similitud de la consulta con cada elemento de la BD
    similitudes = [lev_ratio(consulta, BD[i]["descripcion"]) for i in range(len(BD))]

    # Devuelve una lista con las `N` descripciones más similares. Incluye la similitud
    return [
        {
            "expediente": BD[i]["expediente"],
            "descripcion": BD[i]["descripcion"],
            "similitud": similitudes[i],
        }
        # Se ordena la BD de acuerdo a las similitudes
        for i in sorted(range(len(BD)), key=lambda i: similitudes[i], reverse=True)[:N]
    ]

### Prueba del motor de búsqueda

Con algunas consultas de ejemplo, se probará el motor de búsqueda.

In [27]:
consulta = "chalet adosado en ciudad jardín coruña"
motor_busqueda(consulta)

[{'expediente': 'GA00000010',
  'descripcion': 'Casa chalet adosado. Virrey Osorio, Ciudad Jardín, A Coruña. 350 m. 15008',
  'similitud': 0.4657534246575342},
 {'expediente': 'GA00000020',
  'descripcion': 'Chalet independiente. Ciudad Jardín, A Coruña. 450 m. 5 hab. 4 baños. Piscina',
  'similitud': 0.35064935064935066},
 {'expediente': 'GA00000051',
  'descripcion': 'Adosado urbanizacion. Villalonga, Sanxenxo. 300 m. Vistas mar. Piscina comunitaria',
  'similitud': 0.24390243902439024}]

In [28]:
consulta = "vistas mar piscina chalet independiente"
motor_busqueda(consulta)

[{'expediente': 'GA00000040',
  'descripcion': 'Villa de lujo en Vigo. Vistas al mar. 600 m. 4 hab. 3 baños. Jardín, piscina',
  'similitud': 0.21052631578947367},
 {'expediente': 'GA00000052',
  'descripcion': 'Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado',
  'similitud': 0.19999999999999996},
 {'expediente': 'GA00000053',
  'descripcion': 'Adosado urbanización Las Torres. Sanxenxo. 300 m. Vistas mar. Piscina comunidad. Amueblado',
  'similitud': 0.19999999999999996}]

In [29]:
consulta = "piso estudio centro coruña calle real"
motor_busqueda(consulta)

[{'expediente': 'GA00000060',
  'descripcion': 'Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso',
  'similitud': 0.27380952380952384},
 {'expediente': 'GA00000061',
  'descripcion': 'Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso',
  'similitud': 0.27380952380952384},
 {'expediente': 'GA00000062',
  'descripcion': 'Piso céntrico. Estudio. Rúa Real, A Coruña. 120 m. 2 hab. 1 baño. 15001. Primer piso',
  'similitud': 0.27380952380952384}]