# Similitud entre Strings

Es una métrica que mide la distancia entre dos textos. Esta distancia está determinada por el número de operaciones que se deben realizar para que el texto A se convierta en el texto B.
Esto significa que mientras mayor distancia tengan, menos parecidos son.

Existen tres tipos:

1. **Basados en edición:** trata de calcular la cantidad de operaciones necesarias para transformar un string en el otro. Mientras más operaciones sean necesarias, mayor es la diferencia.


2. **Basados en tokens:** se usa un set de tokens como input. Se comparan los tokens entre ambos strings, mientras más tengan en común, mayor es la similitud.


3. **Basados en secuencias:** la similitud aquí es la cantidad de sub-strings entre los dos a comparar. Se intenta buscar la secuencia más larga presente entre ambos strings.

In [4]:
import textdistance

## Basados en edición

### Distancia Hamming 

Se basa en encontrar la cantidad de lugares un string es diferente al otro.

In [5]:
textdistance.hamming('flan', 'plan')

1

In [7]:
textdistance.hamming.normalized_similarity('flan', 'plan')

0.75

In [9]:
textdistance.hamming('flan', 'flnan')

3

In [10]:
textdistance.hamming.normalized_similarity('flan', 'flnan')

0.4

### Distance Levenshtein

Se calcula encontrando la cantidad de ediciones que transforman un string en el otro. Estas ediciones pueden ser inserciones, sustracciones o sustituciones. El algoritmo trata de obtener el segundo string modificando el primero utilizando las ediciones anteriores.

In [11]:
textdistance.levenshtein('flan', 'plan')

1

In [13]:
textdistance.levenshtein.normalized_similarity('flan', 'flnan')

0.8

### Jaro Winkler

## Basados en tokens

### Jaccard Index

Se calcula encontrando el número de tokens en común y luego lo divide por el número de tokens únicos.

$J = \frac{|A\cap{B}|}{|A\cup{B}|}$

In [14]:
tokens_1 = "hola mundo".split()
tokens_2 = "mundo hola".split()
textdistance.jaccard(tokens_1, tokens_2)

1.0

In [15]:
tokens_1 = "hola nuevo mundo".split()
tokens_2 = "mundo hola".split()
textdistance.jaccard(tokens_1, tokens_2)

0.6666666666666666

### Sorensen-Dice

Se calcula encontrando los tokens en común y luego se divide por el total de tokens.

$DSC = \frac{2|X\cap{Y}|}{|X|+|Y|}$

In [16]:
tokens_1 = "hola mundo".split()
tokens_2 = "mundo hola".split()
textdistance.sorensen_dice(tokens_1, tokens_2)

1.0

In [17]:
tokens_1 = "hola nuevo mundo".split()
tokens_2 = "mundo hola".split()
textdistance.sorensen_dice(tokens_1, tokens_2)

0.8

## Basados en secuencias

### Ratcliff-Obershelp

* Encontrar el substring más largo entre los dos strings. 
* Remover el substring encontrado.
* Dividir los strings en dos, derecha e izquierda del substring removido.
* Repetir el proceso nuevamente.

In [18]:
string1, string2 = "me voy a casa", "a casa"
textdistance.ratcliff_obershelp(string1, string2)

0.631578947368421

In [19]:
string1, string2 = "holamundo", "mundohola"
textdistance.ratcliff_obershelp(string1, string2)

0.5555555555555556

In [20]:
string1, string2 = "test", "text"
textdistance.ratcliff_obershelp(string1, string2)

0.75

## Conclusión

La elección del algortmo va a depender del caso de uso pero la gran mayoría debería ser posible de resolver usando alguno de los mencionados aquí. 
A fin de cuentas todos buscán las partes en común y no común, trabajan lo encontrado y luego retornan un puntaje de similitud.