# **Distance and Similarity (Text Similarity)**
Similaridade é uma medida que representa o quão diferente ou parecido dois objetos são. Podemos estimar isso por meio de distância entre objetos em um espaço. Se temos um vetor, podemos calcular isso com a distância entre os elementos desse vetor.

Quanto menor a distância, maior o grau de similaridade entre eles. E quanto maior a distância, menor é o grau de similaridade.

### **Example**

In [2]:
sentences = ["The bottle is empty", "There is nothing in the bottle"]

sentences = [sent.lower() for sent in sentences]
print(sentences)

['the bottle is empty', 'there is nothing in the bottle']


In [3]:
entries = [sent.split(" ") for sent in sentences]
print(entries)

[['the', 'bottle', 'is', 'empty'], ['there', 'is', 'nothing', 'in', 'the', 'bottle']]


In [5]:
# Representação com TfIdf
from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer(smooth_idf=False)

embeddings = tf_idf.fit_transform(sentences)
embeddings = embeddings.toarray()

print(embeddings)

[[0.41285857 0.69903033 0.         0.41285857 0.         0.41285857
  0.        ]
 [0.29360705 0.         0.49711994 0.29360705 0.49711994 0.29360705
  0.49711994]]


In [6]:
# Representação neural
import spacy

nlp = spacy.load('en_core_web_sm')

embeddings = [nlp(sentence).vector for sentence in sentences]

print(embeddings)

[array([ 0.23852065,  0.05907374,  0.10816707,  0.24823233, -0.3774069 ,
        0.01665485,  0.5093222 ,  0.25659096, -0.14743195,  0.09507278,
        0.9130205 , -0.35232985, -0.07457988,  0.5027634 , -0.7621294 ,
       -0.10213359, -0.12908426,  0.23707768, -0.30417803,  0.59493744,
       -0.7342875 , -0.1103975 , -0.84400094,  0.22677955, -0.21725222,
       -0.32585216,  0.07578522,  0.42777872, -0.02692611, -0.02078284,
        0.23705782,  0.27802056,  0.7791429 , -0.9467118 ,  0.63835967,
       -0.2373186 ,  0.03732838, -0.1470227 , -0.27814466,  1.3972008 ,
       -0.10186809,  0.157656  , -0.01884775,  0.12663478,  0.08430734,
        0.23080473, -0.30113226,  0.6765717 ,  0.3373651 , -0.16288567,
       -0.5980274 , -0.2646617 , -0.40750393, -0.19629836, -0.04057601,
        0.42081276, -0.10046892, -0.320126  , -0.26893985,  0.16263163,
        0.38462782, -0.2424707 , -0.33181804, -0.04805975, -0.06619203,
        0.09014196,  0.28685102, -0.2616923 , -0.04349764, -0.6

### **Jaccard Distance**
Basicamente computa a distância entre dois elementos representando esses elementos como conjuntos e o tamanho da interseção dividido pelo tamanho entre a união vai me dar uma medida de similaridade.

<div align="center" style="margin-top: 40px;">
    <img src="./images/image2.png" alt="Alt text" width="200"/>
</div>


In [28]:
def jaccard_similarity(x, y):
    print(x)
    intersection_size = len(set.intersection(*[set(x), set(y)]))
    union_size = len(set.union(*[set(x), set(y)]))
    return intersection_size / float(union_size)

jaccard_similarity(entries[0], entries[1])

['the', 'bottle', 'is', 'empty']


0.42857142857142855

### **Manhatthan Distance**
É um caso especial da distância de Minkowski, onde computamos a distância entre dois pontos como a soma das diferenças absolutas entre as coordenadas cartesianas desses pontos.

<div align="center" style="margin-top: 40px;">
    <img src="./images/image3.png" alt="Alt text" width="300"/>
</div>

In [8]:
def manhattan_distance(x, y):
    return sum(abs(a - b) for a, b in zip(x, y))

distance = manhattan_distance(embeddings[0], embeddings[1])
distance

29.73493493720889

### **Euclidean Distance**
Também chamada de L2 Distance, ou L2 Norm, é um pouco diferente da manhatthan, pois eu elevo a minha diferença ao quadrado e tiro a raiz do resultado.

<div align="center" style="margin-top: 40px;">
    <img src="./images/image4.png" alt="Alt text" width="300"/>
</div>

In [12]:
from math import sqrt, pow, exp

def euclidean_distance(x, y):
    return sqrt(sum(pow(abs(a - b), 2) for a, b in zip(x, y)))

distance = euclidean_distance(embeddings[0], embeddings[1])
distance

3.8894333715879372

### **Distance to Similarity**
Convertendo o valor de distância para similaridade.

In [13]:
# Calculando a similaridade
def distance_to_similarity(distance):
    return 1/exp(distance)

distance_to_similarity(distance)

0.020456934234687918

### **Minkowski Distance**
É uma distância generalizada, onde temos um valor P onde o usuário vai definir.

<div align="center" style="margin-top: 40px;">
    <img src="./images/image5.png" alt="Alt text" width="300"/>
</div>

In [20]:
from math import *
from decimal import Decimal

def nth_root(value, n_root):
    root_value = 1/float(n_root)
    return round(Decimal(value) ** Decimal(root_value), 3)

def minkowski_distance(x, y, p):
    return nth_root(sum(pow(abs(a - b), p) for a, b in zip(x, y)), p)

distance = minkowski_distance(embeddings[0], embeddings[1], 3)
print(distance)

2.173


In [21]:
distance_to_similarity(distance)

0.11383559734596592

### **Cosine Similarity**
A partir da representação vetorial dos meus textos, eu posso calcular o cosseno entre o ângulo desses dois vetores, e o cosseno desse ângulo vai me dar o quão coincidente ou ortogonal esses vetores são, e consequentemente uma medida de distância. Se os vetores são coincidentes, se o ângulo entre eles é muito pequeno entre eles, é um sinal que são quase coincidentes, são muito similares. Se o ângulo entre eles é muito ortogonal, é um sinal que são vetores muito diferentes entre si, são textos bem diferentes.

In [22]:
def square_rooted(x):
    return round(sqrt(sum([a * a for a in x])), 3)

def cosine_similarity(x, y):
    numerator = sum(a * b for a, b in zip(x, y))
    denominator = square_rooted(x) * square_rooted(y)
    return round(numerator / float(denominator), 3)

distance = cosine_similarity(embeddings[0], embeddings[1])
distance

0.448

In [23]:
distance_to_similarity(distance)

0.6389046840319162