# **Distancia de Levenshtein**

La distancia de Levenshtein es una medida de la diferencia entre dos cadenas de texto. Se define como el número mínimo de operaciones de inserción, eliminación o sustitución de caracteres necesarias para transformar una cadena en la otra.

Definición matemática:
\begin{equation*}
\operatorname{lev}(a,b) =
\begin{cases}
\lvert b \rvert & \text{si } \lvert a \rvert = 0 \\
\lvert a \rvert & \text{si } \lvert b \rvert = 0 \\
\operatorname{lev}(\operatorname{tail}(a), \operatorname{tail}(b)) & \text{si } a_1 = b_1 \\
1 + \min \{
    & \operatorname{lev}(\operatorname{tail}(a), b), \\
    & \operatorname{lev}(a, \operatorname{tail}(b)), \\
    & \operatorname{lev}(\operatorname{tail}(a), \operatorname{tail}(b))
  \} & \text{en otro caso}
\end{cases}
\end{equation*}

A continuación se muestra la implementación en Python:

In [1]:
def lev_recursivo(s, t):
    if len(s) == 0:
        return len(t)
    elif len(t) == 0:
        return len(s)
    elif s[0] == t[0]:
        return lev_recursivo(s[1:], t[1:])
    else:
        sustitucion = lev_recursivo(s[1:], t[1:])
        insercion = lev_recursivo(s, t[1:])
        eliminacion = lev_recursivo(s[1:], t)
        return 1 + min(sustitucion, insercion, eliminacion)

In [2]:
str1 = 'kitten'
str2 = 'sitting'

print('Distancia de Levenshtein:', lev_recursivo(str1, str2))

Distancia de Levenshtein: 3


## *Versión Iterativa (Programación dinámica)*

In [3]:
def lev_dinamico(str1, str2):
    d=dict()
    for i in range(len(str1)+1):
        d[i]=dict()
        d[i][0]=i
    for i in range(len(str2)+1):
        d[0][i] = i
    for i in range(1, len(str1)+1):
        for j in range(1, len(str2)+1):
            d[i][j] = min(d[i][j-1]+1, d[i-1][j]+1, d[i-1][j-1]+(not str1[i-1] == str2[j-1]))
    return d[len(str1)][len(str2)]

In [4]:
s1 = 'cebra'
s2 = 'caballo'

print('Distancia de Levenshtein:', lev_dinamico(s1,s2))

Distancia de Levenshtein: 5


In [5]:
str1 = 'cebra'
str2 = 'caballo'

print('Distancia de Levenshtein (Dinámico):', lev_dinamico(str1,str2))
print('Distancia de Levenshtein (Recursivo):', lev_recursivo(str1, str2))

Distancia de Levenshtein (Dinámico): 5
Distancia de Levenshtein (Recursivo): 5


# **N-gramas**

Un n-grama es una secuencia contigua de n elementos de un texto o cadena de caracteres, donde n es un número entero positivo. En el procesamiento del lenguaje natural, los n-gramas se utilizan para analizar la frecuencia de ocurrencia de palabras o caracteres en un texto, lo que puede ser útil en tareas como la clasificación de texto, la detección de spam y la corrección automática de texto.

In [6]:
from nltk import ngrams

def similarity(sentence1, sentence2, n):
    # Tokeniza las oraciones en palabras y genera los n-gramas para cada una
    grams1 = set(ngrams(sentence1.split(), n))
    grams2 = set(ngrams(sentence2.split(), n))
    print(str(n) + '-gramas para la cadena 1: ' + str(grams1))
    print(str(n) + '-gramas para la cadena 2: ' + str(grams2))

    # Calcula el número de n-gramas compartidos entre las dos oraciones
    shared_grams = grams1.intersection(grams2)
    print('N-gramas compartidos: ' + str(shared_grams))

    # Calcula el número total de n-gramas en ambas oraciones
    total_grams = len(grams1) + len(grams2) - len(shared_grams)

    # Calcula la similitud entre las dos oraciones como el porcentaje de n-gramas compartidos
    similarity = float(len(shared_grams)) / float(total_grams) * 100

    return similarity

In [7]:
sentence1 = "El perro está durmiendo en la alfombra"
sentence2 = "El perro está jugando en el jardín"

print('Se obtiene un porcentaje de similitud por N-gramas de: ' + str(similarity(sentence1, sentence2, 2)) + '%')

2-gramas para la cadena 1: {('en', 'la'), ('perro', 'está'), ('está', 'durmiendo'), ('durmiendo', 'en'), ('El', 'perro'), ('la', 'alfombra')}
2-gramas para la cadena 2: {('jugando', 'en'), ('perro', 'está'), ('el', 'jardín'), ('El', 'perro'), ('está', 'jugando'), ('en', 'el')}
N-gramas compartidos: {('perro', 'está'), ('El', 'perro')}
Se obtiene un porcentaje de similitud por N-gramas de: 20.0%


# **Jaccard Similarity**

La similitud de Jaccard es una medida de similitud entre dos conjuntos. Puede ser utilizada para comparar la similitud entre dos textos, por ejemplo, considerando las palabras que aparecen en ambos textos como conjuntos.

In [8]:
from hermetrics.jaccard import Jaccard

cadena1 = 'Esta es una cadena para probar la similitud de Jaccard'
cadena2 = 'Esta es otra cadena de caracteres para probar Jaccard'
distance = Jaccard().distance(cadena1, cadena2)
similitud = Jaccard().similarity(cadena1, cadena2)

print('Distancia de Jaccard:', distance)
print('Similitud de Jaccard:', similitud)

Distancia de Jaccard: 0.2222222222222222
Similitud de Jaccard: 0.7777777777777778
