7. Desarrollar un programa para comparar dos cadenas, no en forma tradicional (carácter por carácter), sino que
implemente un algoritmo, propuesto por Ud., que determine el parecido, por ejemplo de cadenas como: Juan
Perez y Jaun Perez, Horacio López y Oracio López, cadenas que si se tratan en comparando carácter por
carácter, son muy poco parecidas o incluso no se parecen en nada.

La función distancia_levenshtein calcula la distancia de edición entre dos cadenas de texto, es decir, el número mínimo de operaciones necesarias (inserciones, eliminaciones o sustituciones de caracteres) para transformar una cadena en otra. Primero, se manejan los casos en que alguna de las cadenas esté vacía, devolviendo la longitud de la otra como distancia. Luego se crea una matriz bidimensional para almacenar los resultados parciales, con filas correspondientes a los caracteres de la primera cadena y columnas a los de la segunda. La primera fila y columna se inicializan para reflejar la transformación de una cadena vacía a los prefijos de la otra mediante inserciones o eliminaciones. A continuación, se recorren las celdas de la matriz, calculando en cada posición el mínimo entre el costo de eliminar un carácter, insertar un carácter o sustituir un carácter (con costo 0 si los caracteres son iguales o 1 si son distintos). Finalmente, el valor que representa la distancia mínima entre las dos cadenas completas se encuentra en la esquina inferior derecha de la matriz.

In [1]:
def distancia_levenshtein(cadena1, cadena2):
    # Si una cadena está vacía, la distancia es la longitud de la otra
    if len(cadena1) == 0:
        return len(cadena2)
    if len(cadena2) == 0:
        return len(cadena1)

    # Crear una matriz para almacenar los resultados intermedios
    # La matriz tendrá (len(cadena1) + 1) filas y (len(cadena2) + 1) columnas
    matriz = [[0] * (len(cadena2) + 1) for _ in range(len(cadena1) + 1)]

    # Inicializar la primera fila y columna
    for i in range(len(cadena1) + 1):
        matriz[i][0] = i
    for j in range(len(cadena2) + 1):
        matriz[0][j] = j

    # Llenar la matriz calculando las distancias
    for i in range(1, len(cadena1) + 1):
        for j in range(1, len(cadena2) + 1):

            # Si los caracteres son iguales, no hay costo de sustitución
            if cadena1[i-1] == cadena2[j-1]:
                costo = 0
            else:
                costo = 1

            # Calcular el mínimo entre las tres operaciones posibles:
            matriz[i][j] = min(
                matriz[i-1][j] + 1,      # Eliminación (de cadena1)
                matriz[i][j-1] + 1,      # Inserción (en cadena1)
                matriz[i-1][j-1] + costo # Sustitución
            )

    # El resultado final está en la esquina inferior derecha de la matriz
    return matriz[len(cadena1)][len(cadena2)]

La función similitud_levenshtein calcula un valor de similitud entre dos cadenas de texto basado en la distancia de Levenshtein. Primero, utiliza la función distancia_levenshtein para obtener el número mínimo de operaciones necesarias para transformar una cadena en otra. Luego determina la longitud máxima entre las dos cadenas para normalizar la distancia, de modo que la similitud quede entre 0 y 1. Si ambas cadenas están vacías, se considera que son idénticas y se devuelve 1.0. Finalmente, la similitud se calcula como 1 - (distancia / longitud_maxima), reflejando qué tan parecidas son las cadenas; un valor cercano a 1 indica gran similitud y un valor cercano a 0 indica poca similitud. El resultado se redondea a dos decimales para mayor claridad.

In [2]:
def similitud_levenshtein(cadena1, cadena2):

    distancia = distancia_levenshtein(cadena1, cadena2)
    longitud_maxima = max(len(cadena1), len(cadena2))

    if longitud_maxima == 0:
        return 1.0  # Ambas cadenas están vacías

    similitud = 1 - (distancia / longitud_maxima)
    return round(similitud, 2)


In [3]:
ejemplos = [
    ("Juan Perez", "Jaun Perez"),
    ("Horacio López", "Oracio López"),
    ("María", "Maria"),
    ("Carlos", "Carlos"),
    ("Hola", "Mundo"),
    ("Hola", "")
]

In [4]:
print("Comparación usando Distancia de Levenshtein:")
print("-" * 50)
for cadena1, cadena2 in ejemplos:
    distancia = distancia_levenshtein(cadena1, cadena2)
    similitud = similitud_levenshtein(cadena1, cadena2)
    print(f"'{cadena1}' vs '{cadena2}'")
    print(f"Distancia: {distancia}, Similitud: {similitud}")
    print()

Comparación usando Distancia de Levenshtein:
--------------------------------------------------
'Juan Perez' vs 'Jaun Perez'
Distancia: 2, Similitud: 0.8

'Horacio López' vs 'Oracio López'
Distancia: 2, Similitud: 0.85

'María' vs 'Maria'
Distancia: 1, Similitud: 0.8

'Carlos' vs 'Carlos'
Distancia: 0, Similitud: 1.0

'Hola' vs 'Mundo'
Distancia: 5, Similitud: 0.0

'Hola' vs ''
Distancia: 4, Similitud: 0.0



En la comparación usando la Distancia de Levenshtein, se tuvo en cuenta, por ejemplo, la cadena 'Juan Perez' frente a 'Jaun Perez', donde se observa que solo se necesitan dos operaciones para transformarlas, reflejando que las cadenas son muy similares con una similitud de 0.8. Por otro lado, se consideró también el caso de 'Hola' comparada con una cadena vacía, lo que implica eliminar todos sus cuatro caracteres para igualarlas, resultando en una distancia de 4 y una similitud de 0, mostrando que no comparten ningún elemento en común.