<a href="https://colab.research.google.com/github/osmarbraz/exemplos_python/blob/master/ExemplosPythonSimilaridade.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de Medidas de Similaridade e Distância em Python no Google Colaboratory

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb

# Medida de Distância

Existe 4 condições para serem satisfeitas por uma medida de distância d(A,B):

- 1a - Não negatividade

 --> d(A,B) >= 0, para todo os A e B. A distância não pode ser negativa, se A e B são pontos diferentes a distância sempre será maior que zero.

- 2a - Identidade dos indiscerníveis(não pode ser distinguído)

 --> d(A,B) = 0, então A = B. Ou distância de um ponto a outro ponto igual d(A,A) é 0.

- 3a - Simetria

 --> d(A,B) = d(B,A), para todos os A e B. A distância de A até B é a mesma de B até A.

- 4a - Desiguladade do triângulo

 --> d(A,B) <= d(A,C) + d(B,C), para todos os A, B e C. Se temos os pontos A, B, C a distância entre A e C sempre será menor ou igual a distância entre A e B somada a distância de B e C.

 https://towardsdatascience.com/what-is-metric-74b0bf6e862

# Medida de Similaridade

Para ser uma medida de similaridade é necessário atender as seguintes propriedades.

– 1a - s(A,B) = 1 somente se A = B (0 <= medida <= 1)

– 2a - simetria - s(A,B) = s(B,A) para todo A e B

– Não há uma propriedade análoga à desigualdade triangular para medidas de similaridade



## Similaridade do cosseno

Mede o quanto dois vetores são similares. 

Considera apenas a orientação dos vetores, descartando a sua magnitude.

A medida corresponde ao cálculo do cosseno do ângulo entre os vetores. 

Os valores estão limitado ao intervalo [−1,1] resultando em uma interpretação direta, independentemente das características do conjunto de dados utilizado.

Similaridade em direção a 1 representam vetores próximos (similares) e similaridades em direção a −1 representam vetores afastados (diferentes).

Similaridade cosseno não é uma métrica 'verdadeira'. Primeiro, não satisfaz a condição indiscernível. A distância cosseno de [1,1] e [2,2] é 0, mas [1,1] ≠ [2,2].

Além disso, não satisfaz a desigualdade triangular. Suponha que d seja a distância do cosseno e A = [1,0], B = [0,1], C = [1,1] . Considere que d(A, B) = 1 e d(A, C) = d(B, C) ~ 0,3 , então d(A,B) > d(A,C) + d(B, C) não satisfaz a desigualdade triangular.

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

### Literais

#### Manualmente 1 - sem TF-IDF

Sem pesos(TF-IDF)

In [1]:
# Strings
str1 = "ab ab cd" 
str2 = "cd ef"

# Cria a lista dos toquens da str1
lista1 = []
lista1 = str1.split();

# Cria a lista dos toquens da str1
lista2 = []
lista2 = str2.split();

# Adiciona a lista1 ao conjunto união com a lista2
uniao = set(lista1).union(set(lista2))

print("tokens:" + str(uniao))

# Conta as ocorrências dos tokens em A e B (bagofwords)
vetorA = []
vetorB = []
for token in uniao:
  conta = 0
  for item in lista1:      
      if (token == item):
         conta = conta + 1
  vetorA.append(conta)

  conta = 0
  for item in lista2:
      if (token == item):
         conta = conta + 1
  vetorB.append(conta)

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

somaProduto = 0.0
quadradoSomaA = 0.0
quadradoSomaB = 0.0

# Percorre o vetor A e B
for i in range(len(vetorA)):
    somaProduto = somaProduto + (vetorA[i] * vetorB[i]);
    quadradoSomaA = quadradoSomaA + (vetorA[i]**2)
    quadradoSomaB = quadradoSomaB + (vetorB[i]**2)
            
# cos (A,B) = soma(Ai * Bi) / raiz(soma(A[i]^2) * soma(B[i]^2))        
similaridade =  (somaProduto / ((quadradoSomaA * quadradoSomaB)**(1/2.0)))

print ("similaridade:", similaridade)

tokens:{'cd', 'ef', 'ab'}
vetorA:[1, 0, 2]
vetorB:[1, 1, 0]
similaridade: 0.31622776601683794


##### Manualmente 1 - sem TF-IDF - resumida

Sem pesos(TF-IDF)

https://www.it-swarm.dev/pt/python/calcular-semelhanca-de-cosseno-com-duas-cadeias-de-frases/1070875781/

In [2]:
import re, math
from collections import Counter

# Strings
str1 = "ab ab cd" 
str2 = "cd ef"

Word = re.compile(r"\w+")

# Cria a um dicionário vetorA com os tokens e as ocorrências 
vetorA = Counter(Word.findall(str1))

# Cria a um dicionário vetorB com os tokens e as ocorrências(bagofwords)
vetorB = Counter(Word.findall(str2))

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Adiciona a vetorA e vetorB ao conjunto união
uniao = set(vetorA.keys()) | set(vetorB.keys())

print("tokens:" + str(uniao))

# Calcula a similaridade
somaProduto = sum([vetorA[i] * vetorB[i] for i in uniao])
quadradoSomaA = sum([vetorA[i]**2 for i in vetorA.keys()])
quadradoSomaB = sum([vetorB[i]**2 for i in vetorB.keys()])

# cos (A,B) = soma(Ai * Bi) / raiz(soma(A[i]^2) * soma(B[i]^2))
similaridade =  (somaProduto / ((quadradoSomaA * quadradoSomaB)**(1/2.0)))

print ("similaridade:", similaridade)

vetorA:Counter({'ab': 2, 'cd': 1})
vetorB:Counter({'cd': 1, 'ef': 1})
tokens:{'cd', 'ef', 'ab'}
similaridade: 0.31622776601683794


#### Manualmente 2 - com TF-IDF

Com pesos(TF-IDF)

https://github.com/mayank408/TFIDF/blob/master/TFIDF.ipynb

In [3]:
import math
import pandas as pd

# Strings
str1 = "ab ab cd" 
str2 = "cd ef"

# Cria a lista dos toquens da str1
lista1 = []
lista1 = str1.split();

# Cria a lista dos toquens da str1
lista2 = []
lista2 = str2.split();

# Adiciona a lista1 ao conjunto união com a lista2
uniao = set(lista1).union(set(lista2))

print("tokens:" + str(uniao))

# Cria um dicionário para das chaves com 0 ocorrências
vetorA = dict.fromkeys(uniao, 0) 
vetorB = dict.fromkeys(uniao, 0)

# Conta as ocorrências dos tokens em A e B
for token in lista1:
    vetorA[token]+=1

for token in lista2:
    vetorB[token]+=1

# Calcula FT
# Frêquencia que um termo ocorre no documento
# calcula ftVetorA
tfVetorA = {}
# Tamanho lista1
tamLista1 = len(lista1)

# Percorre o vetorA
for token, qtde in vetorA.items():
  tfVetorA[token] = qtde/float(tamLista1)

# calcula ftVetorB
tfVetorB = {}
# Tamanho lista1
tamLista2 = len(lista2)

# Percorre o vetorB
for token, qtde in vetorB.items():
  tfVetorB[token] = qtde/float(tamLista2)

# Calcula IDF
# Calcula o score que cada token no corpus(todos os documentos). 
# Tokens que aparecem muitas vezes tem pouca importância. 

idfVetor = {}
# Concatena os documentos
listaDocumentos = ([vetorA,vetorB])

print(listaDocumentos)

# Quantidade de tokens do documento
N = len(listaDocumentos)

# Cria um dicionário com as chaves(tokens) do documento onde os valores são 0
idfVetor = dict.fromkeys(listaDocumentos[0].keys(), 0)

# Conta as ocorrências dos tokens nos documentos
for doc in listaDocumentos:
    for token, qtde in doc.items():
        if qtde > 0:
           idfVetor[token] += 1

# Reduz os peso dos tokens que aparecem muito
for token, qtde in idfVetor.items():
    idfVetor[token] = math.log10(N / float(qtde))

# Calcula TF-IDF
tfidfVetorA = {}
for token, qtde in tfVetorA.items():
    tfidfVetorA[token] = qtde*idfVetor[token]

tfidfVetorB = {}
for token, qtde in tfVetorB.items():
    tfidfVetorB[token] = qtde*idfVetor[token]

print(pd.DataFrame([tfidfVetorA, tfidfVetorB]))

tokens:{'cd', 'ef', 'ab'}
[{'cd': 1, 'ef': 0, 'ab': 2}, {'cd': 1, 'ef': 1, 'ab': 0}]
    cd        ef        ab
0  0.0  0.000000  0.200687
1  0.0  0.150515  0.000000


#### Usando sklearn

https://kanoki.org/2018/12/27/text-matching-cosine-similarity/

Bag of Words(BOW)

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

count_vect = CountVectorizer()

str1 = "ab ab cd" 
str2 = "cd ef"
 
corpus = [str1, str2]

# Cria o bag of words
bagofwords = count_vect.fit_transform(corpus)

# Motra os vetores e as ocorrências 
pd.DataFrame(bagofwords.toarray(),columns=count_vect.get_feature_names(),index=["str1","str2"])



Unnamed: 0,ab,cd,ef
str1,2,1,0
str2,0,1,1


 Term Frequency–Inverse Document Frequency (TF-IDF)

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

# tf (w) * idf (w)
# Onde, tf (w) = Número de vezes que a palavra aparece em um documento / Número total de palavras no documento
# idf (w) = Número de documentos / Número de documentos que contêm a palavra w

tfidf = vectorizer.fit_transform(corpus)
print(tfidf.shape)
print(tfidf)

similaridade = pd.DataFrame(tfidf.toarray(),columns=vectorizer.get_feature_names(),index=["str1","str2"])
print(similaridade)

(2, 3)
  (0, 1)	0.33517574332792605
  (0, 0)	0.9421556246632359
  (1, 2)	0.8148024746671689
  (1, 1)	0.5797386715376657
            ab        cd        ef
str1  0.942156  0.335176  0.000000
str2  0.000000  0.579739  0.814802




Cosseno
* 1 = totalmente semelhantes
* -1 = totalmente diferentes

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html

In [6]:
from sklearn.metrics.pairwise import cosine_similarity

print(tfidf[0:1])

print ("")

similaridade = cosine_similarity(tfidf[0:1], tfidf)

print(similaridade)
print(similaridade[0][1])

  (0, 1)	0.33517574332792605
  (0, 0)	0.9421556246632359

[[1.         0.19431434]]
0.19431434016858148


#### Exemplo TF-IDF com sklearn

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

docA = "ab ab cd" 
docB = "cd ef"

tfidf = TfidfVectorizer()

response = tfidf.fit_transform([docA, docB])

feature_names = tfidf.get_feature_names()
for col in response.nonzero()[1]:
    print (feature_names[col], " - ", response[0, col])

cd  -  0.33517574332792605
ab  -  0.9421556246632359
ef  -  0.0
cd  -  0.33517574332792605




#### Exemplo usando sklearn - similaridade

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.paired_cosine_distances.html

Intervalo de [-1,1]

In [8]:
import pandas as pd

def create_dataframe(matrix, tokens):

    doc_names = [f'Doc_{i+1}' for i, _ in enumerate(matrix)]
    df = pd.DataFrame(data=matrix, index=doc_names, columns=tokens)
    return(df)

In [9]:
import numpy as np

def similaridadeCoseno(x, y):
    
   # Certifique-se de que o comprimento de x e y seja o mesmo
    if len(x) != len(y) :
        return None
    
   # Calcula o produto escalar entre x e y
    dot_product = np.dot(x, y)
    
    # Calcular as normas L2 (magnitudes) de x e y
    magnitude_x = np.sqrt(np.sum(x**2)) 
    magnitude_y = np.sqrt(np.sum(y**2))
    
   # Calcula a similaridade do cosseno
    cosine_similarity = dot_product / (magnitude_x * magnitude_y)
    
    return cosine_similarity

In [10]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
 
documentos = ['A ciência de dados é um campo importante da ciência.',
              'A ciência de dados analisa dados.']

# Cria uma matriz para representar o corpus
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)
tokens = vectorizer.get_feature_names_out()
print("Matriz de representação do documento")
print(create_dataframe(X.toarray(),tokens))

cos_sim_matrix = cosine_similarity(X)

print('\Matriz de sSimilaridade do coseno entre: ')
print(create_dataframe(cos_sim_matrix,['Doc_1','Doc_2']))

cos_sim = similaridadeCoseno(X.toarray()[0, :], X.toarray()[1, :])
print('\nSimilaridade do coseno entre: ')
print(cos_sim)

Matriz de representação do documento
       analisa  campo  ciência  da  dados  de  importante  um
Doc_1        0      1        2   1      1   1           1   1
Doc_2        1      0        1   0      2   1           0   0
\Matriz de sSimilaridade do coseno entre: 
          Doc_1     Doc_2
Doc_1  1.000000  0.597614
Doc_2  0.597614  1.000000

Similaridade do coseno entre: 
0.5976143046671968


### Vetores de números Reais

#### Exemplo usando scipy - distância

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html#scipy.spatial.distance.cosine

Intervalo de [0,2]

A função cosine já subtrai de 1 da medida similaridade, resultando em uma medida de distância.

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = 1 - \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = 1 - \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [11]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

from scipy.spatial.distance import cosine

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorA,VetorB) medida próxima de 2")
distancia = cosine(vetorA,vetorB) 
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorB,VetorA) medida próxima de 2")
distancia = cosine(vetorB,vetorA) 
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 0")
distancia = cosine(vetorA,vetorA) 
print("distância:", distancia)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes cosine(vetorA,VetorB) medida próxima de 2
distância: 1.9952158225767782

Vetores diferentes cosine(vetorB,VetorA) medida próxima de 2
distância: 1.9952158225767782

Vetores iguais cosine(vetorA,vetorA) medida igual a 0
distância: 0.0


#### Exemplo usando scipy - similaridade

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html#scipy.spatial.distance.cosine

Intervalo de [-1,1]

A função cosine já subtrai de 1 a medida similaridade, resultando em uma medida de distância.

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [12]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

from scipy.spatial.distance import cosine

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de -1")
similaridade = 1 - cosine(vetorA,vetorB) 
print("similaridade:", similaridade)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de -1")
similaridade = 1 - cosine(vetorB,vetorA) 
print("similaridade:", similaridade)

# Calcula a similaridade de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 1")
similaridade = 1 - cosine(vetorA,vetorA) 
print("similaridade:", similaridade)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes cosine(vetorA,vetorB) medida próxima de -1
similaridade: -0.9952158225767782

Vetores diferentes cosine(vetorB,vetorA) medida próxima de -1
similaridade: -0.9952158225767782

Vetores iguais cosine(vetorA,vetorA) medida igual a 1
similaridade: 1.0


#### Exemplo usando scipy 2 - distância

Intervalo de [0, 2]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = 1 - \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = 1 - \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [13]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

def distanciaCoseno(vetorA, vetorB):
  
  dot_product = np.dot(vetorA, vetorB)
  norm_a = np.linalg.norm(vetorA)
  norm_b = np.linalg.norm(vetorB)
  distancia = 1 - (dot_product / (norm_a * norm_b))
  
  return distancia

In [14]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de 2")
distancia = distanciaCoseno(vetorA,vetorB) 
print("distancia: %.20f" % distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de 2")
distancia = distanciaCoseno(vetorB,vetorA) 
print("distancia: %.20f" % distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida próxima a 0")
distancia = distanciaCoseno(vetorA,vetorA) 
print("similaridade: %.20f" % distancia)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes cosine(vetorA,vetorB) medida próxima de 2
distancia: 1.99521582257677820849

Vetores diferentes cosine(vetorB,vetorA) medida próxima de 2
distancia: 1.99521582257677820849

Vetores iguais cosine(vetorA,vetorA) medida próxima a 0
similaridade: 0.00000000000000022204


#### Exemplo usando scipy 2 - similaridade

Intervalo de [-1, 1]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [15]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

def similaridadeCoseno(vetorA, vetorB):
  
  dot_product = np.dot(vetorA, vetorB)
  norm_a = np.linalg.norm(vetorA)
  norm_b = np.linalg.norm(vetorB)
  similaridade = (dot_product / (norm_a * norm_b))
  
  return similaridade

In [16]:
# Biblioteca de álgebra linear(matrizes)
import numpy as np

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de -1")
similaridade = similaridadeCoseno(vetorA,vetorB) 
print("similaridade:", similaridade)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de -1")
similaridade = similaridadeCoseno(vetorB,vetorA) 
print("similaridade:", similaridade)

# Calcula a similaridade de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 1")
similaridade = similaridadeCoseno(vetorA,vetorA) 
print("similaridade: %.20f" % similaridade)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes cosine(vetorA,vetorB) medida próxima de -1
similaridade: -0.9952158225767781

Vetores diferentes cosine(vetorB,vetorA) medida próxima de -1
similaridade: -0.9952158225767781

Vetores iguais cosine(vetorA,vetorA) medida igual a 1
similaridade: 0.99999999999999977796


#### Exemplo usando pytorch - distância

Intervalo de [0, 2]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = 1 - \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = 1 - \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [17]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)

if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a distância
vetorAnorm = torch.nn.functional.normalize(vetorA, p=2, dim=1)
vetorBnorm = torch.nn.functional.normalize(vetorB, p=2, dim=1)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de 2")
distancia = torch.mm(vetorAnorm, vetorBnorm.transpose(0, 1))
print("distância:", 1 - distancia.item())

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de 2")
distancia = torch.mm(vetorBnorm, vetorAnorm.transpose(0, 1))
print("distância:", 1 - distancia.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 0")
distancia = torch.mm(vetorAnorm, vetorAnorm.transpose(0, 1))
print("distância:", 1- distancia.item())

vetorA:tensor([[1.1000, 2.3000, 3.5000, 4.6000]])
vetorB:tensor([[-1.1000, -2.3000, -4.6000, -5.1000]])

Vetores diferentes cosine(vetorA,vetorB) medida próxima de 2
distância: 1.995215654373169

Vetores diferentes cosine(vetorB,vetorA) medida próxima de 2
distância: 1.995215654373169

Vetores iguais cosine(vetorA,vetorA) medida igual a 0
distância: 0.0


#### Exemplo usando pytorch - similaridade

Intervalo de [-1, 1]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [18]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)

if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade
vetorAnorm = torch.nn.functional.normalize(vetorA, p=2, dim=1)
vetorBnorm = torch.nn.functional.normalize(vetorB, p=2, dim=1)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorA,vetorB) medida próxima de -1")
similaridade = torch.mm(vetorAnorm, vetorBnorm.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorA,vetorB) medida próxima de -1")
similaridade = torch.mm(vetorBnorm, vetorAnorm.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores iguais
print("\nVetores iguais mm(vetorA,vetorA) medida igual a 1")
similaridade = torch.mm(vetorAnorm, vetorAnorm.transpose(0, 1))
print("similaridade:", similaridade.item())

vetorA:tensor([[1.1000, 2.3000, 3.5000, 4.6000]])
vetorB:tensor([[-1.1000, -2.3000, -4.6000, -5.1000]])

Vetores diferentes mm(vetorA,vetorB) medida próxima de -1
similaridade: -0.995215654373169

Vetores diferentes mm(vetorA,vetorB) medida próxima de -1
similaridade: -0.995215654373169

Vetores iguais mm(vetorA,vetorA) medida igual a 1
similaridade: 1.0


#### Exemplo usando pytorch2 - distância

https://pytorch.org/docs/stable/generated/torch.nn.CosineSimilarity.html

Intervalo de [0,2]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = 1 - \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = 1 - \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [19]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de 2")
cos = torch.nn.CosineSimilarity(dim=0)
distancia = 1 - cos(vetorA, vetorB)
print("distância:", distancia.item())

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de 2")
cos = torch.nn.CosineSimilarity(dim=0)
distancia = 1 - cos(vetorB, vetorA)
print("distância:", distancia.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 0")
cos = torch.nn.CosineSimilarity(dim=0)
distancia = 1 - cos(vetorA, vetorA)
print("distância:", distancia.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes cosine(vetorA,vetorB) medida próxima de 2
distância: 1.9952157735824585

Vetores diferentes cosine(vetorB,vetorA) medida próxima de 2
distância: 1.9952157735824585

Vetores iguais cosine(vetorA,vetorA) medida igual a 0
distância: 0.0


#### Exemplo usando pytorch2 - similaridade

https://pytorch.org/docs/stable/generated/torch.nn.CosineSimilarity.html

Intervalo de [-1,1]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [20]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de -1")
cos = torch.nn.CosineSimilarity(dim=0)
similaridade = cos(vetorA, vetorB)
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de -1")
cos = torch.nn.CosineSimilarity(dim=0)
similaridade = cos(vetorB, vetorA)
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 1")
cos = torch.nn.CosineSimilarity(dim=0)
similaridade = cos(vetorA, vetorA)
print("similaridade:", similaridade.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes cosine(vetorA,vetorB) medida próxima de -1
similaridade: -0.9952157735824585

Vetores diferentes cosine(vetorB,vetorA) medida próxima de -1
similaridade: -0.9952157735824585

Vetores iguais cosine(vetorA,vetorA) medida igual a 1
similaridade: 1.0


#### Exemplo usando sklearn - distância

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.paired_cosine_distances.html

Intervalo de [0,2]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = 1 - \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = 1 - \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [21]:
import torch
from sklearn.metrics.pairwise import paired_cosine_distances
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorA,vetorB) medida próxima de 2")
distancia = paired_cosine_distances(vetorA, vetorB)
print("distância:", distancia.item())

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cosine(vetorB,vetorA) medida próxima de 2")
distancia = paired_cosine_distances(vetorB, vetorA)
print("distância:", distancia.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais cosine(vetorA,vetorA) medida igual a 0")
distancia = paired_cosine_distances(vetorA, vetorA)
print("distância:", distancia.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes cosine(vetorA,vetorB) medida próxima de 2
distância: 1.9952155351638794

Vetores diferentes cosine(vetorB,vetorA) medida próxima de 2
distância: 1.9952155351638794

Vetores iguais cosine(vetorA,vetorA) medida igual a 0
distância: 0.0


#### Exemplo usando sklearn - similaridade

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.paired_cosine_distances.html

Intervalo de [-1,1]

Equação:

$ cos(\tilde{w}_{i}, \tilde{w}_{j}) = \frac{{\tilde{w}_{i} \cdot \tilde{w}_{j} } }{ |\tilde{w}_{i}| * |\tilde{w}_{j}| } = \frac{ \sum_{k=1}^{H}({\tilde{w}_{{i}_{k}} * \tilde{w}_{{j}_k}})}{ \sqrt{\sum_{k=1}^{H}{(\tilde{s}_{{i}_{k}})^2}} * \sqrt{\sum_{k=1}^{H}{(\tilde{w}_{{j}_{k}})^2}}} $

In [22]:
import torch
from sklearn.metrics.pairwise import paired_cosine_distances
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)

if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes CosineSimilarity(vetorA,vetorB) medida próxima de -1")
similaridade = 1- paired_cosine_distances(vetorA, vetorB)
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes CosineSimilarity(vetorB,vetorA) medida próxima de -1")
similaridade = 1- paired_cosine_distances(vetorB, vetorA)
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores iguais
print("\nVetores iguais CosineSimilarity(vetorA,vetorA) medida igual a 1")
similaridade = 1 - paired_cosine_distances(vetorA, vetorA)
print("similaridade:", similaridade.item())


Vetores diferentes CosineSimilarity(vetorA,vetorB) medida próxima de -1
similaridade: -0.9952155351638794

Vetores diferentes CosineSimilarity(vetorB,vetorA) medida próxima de -1
similaridade: -0.9952155351638794

Vetores iguais CosineSimilarity(vetorA,vetorA) medida igual a 1
similaridade: 1.0


## Similaridade Jaccard

### Manualmente

Mede o quanto dois vetores são similares. 
Quanto mais parecidas, maior o valor.
Geralmente valor pertence ao intervalo [0, 1].

Se igual a 1 os vetores são iguais.

In [23]:
def jaccard_similarity(x,y): 
    
    interseccao = len(set.intersection(*[set(x), set(y)]))
    
    uniao = len(set.union(*[set(x), set(y)]))
    
    return interseccao/float(uniao)

In [24]:
from math import *
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes jaccard_similarity(vetorA,vetorB)")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_similarity(vetorA, vetorB)
print("similaridade:", similaridade)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes jaccard_similarity(vetorB,vetorA)")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_similarity(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais jaccard_similarity(vetorA,vetorA)  medida igual a 1")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_similarity(vetorA, vetorA)
print("similaridade:", similaridade)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes jaccard_similarity(vetorA,vetorB)
similaridade: 0.0

Vetores diferentes jaccard_similarity(vetorB,vetorA)
distância: [0.]

Vetores iguais jaccard_similarity(vetorA,vetorA)  medida igual a 1
similaridade: 1.0


### Exemplo usando numpy

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html#:~:text=The%20Jaccard%20index%20%5B1%5D%2C,set%20of%20labels%20in%20y_true%20.&text=Ground%20truth%20(correct)%20labels.

In [25]:
import numpy as np
from sklearn.metrics import jaccard_score

vetorA = [1, 2, 3, 4]
#vetorB = [1, 2, 4.6, 5] # Parecidos
vetorB = [-1, -2, -4, -5] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes jaccard_score(vetorA,vetorB)")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_score(vetorA, vetorB, average="weighted")
print("similaridade:", similaridade)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes jaccard_score(vetorB,vetorA)")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_score(vetorB, vetorA, average="weighted")
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais jaccard_score(vetorA,vetorA)  medida igual a 1")
# average{None, ‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}, default=’binary’
similaridade = jaccard_score(vetorA, vetorA, average="weighted")
print("similaridade:", similaridade)

vetorA:[1 2 3 4]
vetorB:[-1 -2 -4 -5]

Vetores diferentes jaccard_score(vetorA,vetorB)
similaridade: 0.0

Vetores diferentes jaccard_score(vetorB,vetorA)
distância: [0.]

Vetores iguais jaccard_score(vetorA,vetorA)  medida igual a 1
similaridade: 1.0


### Exemplo usando scipy

https://docs.scipy.org/doc/scipy/reference/spatial.distance.html

In [26]:
from scipy.spatial.distance import jaccard

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes jaccard(vetorA,vetorB)")
similaridade = jaccard(vetorA, vetorB)
print("similaridade:", similaridade)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes jaccard(vetorB,vetorA)")
similaridade = jaccard(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais jaccard(vetorA,vetorA)")
similaridade = jaccard(vetorA, vetorA)
print("similaridade:", similaridade)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes jaccard(vetorA,vetorB)
similaridade: 1.0

Vetores diferentes jaccard(vetorB,vetorA)
distância: [0.]

Vetores iguais jaccard(vetorA,vetorA)
similaridade: 0.0


## Similaridade Produto Interno(dot product)

### Exemplo usando pytorch 1

In [27]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorA,vetorB)")
similaridade = torch.mm(vetorA, vetorB.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a distância de vetores diferentes
print("\nVetores diferentes mm(vetorB,vetorA)")
similaridade = torch.mm(vetorB, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais mm(vetorA,vetorA)")
similaridade = torch.mm(vetorA, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes mm(vetorA,vetorB)
similaridade: -46.05999755859375

Vetores diferentes mm(vetorB,vetorA)
similaridade: -46.05999755859375

Vetores iguais mm(vetorA,vetorA)
similaridade: 39.90999984741211


### Exemplo usando pytorch 2

In [28]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorA,vetorB)")
similaridade = abs(torch.mm(vetorA, vetorB.transpose(0, 1)))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorB,vetorA)")
similaridade = abs(torch.mm(vetorB, vetorA.transpose(0, 1)))
print("similaridade:", similaridade.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais mm(vetorA,vetorA)")
similaridade = abs(torch.mm(vetorA, vetorA.transpose(0, 1)))
print("similaridade:", similaridade.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes mm(vetorA,vetorB)
similaridade: 46.05999755859375

Vetores diferentes mm(vetorB,vetorA)
similaridade: 46.05999755859375

Vetores iguais mm(vetorA,vetorA)
similaridade: 39.90999984741211


### Exemplo usando pytorch 3

In [29]:
import torch
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes matmul(vetorA,vetorB)")
similaridade = torch.matmul(vetorA, vetorB.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes matmul(vetorB,vetorA)")
similaridade = torch.matmul(vetorB, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores iguais
print("\nVetores iguais matmul(vetorA,vetorA)")
similaridade = torch.matmul(vetorA, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes matmul(vetorA,vetorB)
similaridade: -46.05999755859375

Vetores diferentes matmul(vetorB,vetorA)
similaridade: -46.05999755859375

Vetores iguais matmul(vetorA,vetorA)
similaridade: 39.90999984741211


### Exemplo usando pytorch 4

In [30]:
import torch

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorA,vetorB)")
similaridade = torch.mm(vetorA, vetorB.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores diferentes
print("\nVetores diferentes mm(vetorB,vetorA)")
similaridade = torch.mm(vetorB, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

# Calcula a similaridade de vetores iguais
print("\nVetores iguais mm(vetorA,vetorA)")
similaridade = torch.mm(vetorA, vetorA.transpose(0, 1))
print("similaridade:", similaridade.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes mm(vetorA,vetorB)
similaridade: -46.05999755859375

Vetores diferentes mm(vetorB,vetorA)
similaridade: -46.05999755859375

Vetores iguais mm(vetorA,vetorA)
similaridade: 39.90999984741211


# Medidas de Distância

Para ser uma medida de distância é necessário atender as seguintes propriedades.
- 1a - Positividade – d(A,B) >=0 para todo A e B e d(A,B)=0 somente se A = B 
- 2a - Simetria – d(A,C) = d(A,B) para todo A e B
- 3a - Desigualdade triangular – d(A,B) <= d(A,B) + d(B,C) para todos os objetos A, B e C.

## Distância Levenshtein

### Exemplo com a biblioteca python-levenshtein

In [31]:
!pip install python-levenshtein

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [32]:
import Levenshtein 

str1 = "ab ab cd" 
str2 = "cd ef"

# Calcula a distância
distancia = Levenshtein.distance(str1, str2)

print("str1:" + str1)
print("str2:" + str2)

print("distancia:", distancia)

str1:ab ab cd
str2:cd ef
distancia: 7


## Distância Euclidiana

Mede o quanto dois vetores são diferentes(mais dissimilares). 

O intervalo varia de [0, +infinito].

Vetores próximos apresentam distância próxima a 0 e cresce a medida que os vetores se afastam(são diferentes).

Como não há um limite superior diferentes vetores podem apresentar diferentes valores máximos.

Possui outros nomes como distância L2 ou norma L2.

Equação:

$ euc(\tilde{w_i}, \tilde{w_j}) =  \sqrt{\sum_{k=1}^{H}(\tilde{w}_{{i}_{k}}-\tilde{w}_{{j}_{k}})^2}  $
  

### Manualmente

In [33]:
def distanciaEuclidiana(x, y):
    
  # Certifique-se de que o comprimento de x e y não seja o mesmo
  if len(x) != len(y) :
    return None
    
  tamanho = len(x) 
  soma = 0
  for i in range(tamanho):
	  soma += math.pow(x[i] - y[i], 2)
  
  distancia =  math.sqrt(soma)

  return distancia

In [34]:
import math

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0")
distancia = distanciaEuclidiana(vetorA, vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0")
distancia = distanciaEuclidiana(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0")
distancia = distanciaEuclidiana(vetorA, vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando numpy 1

In [35]:
import numpy as np

def distanciaEuclidiana(x, y):
    
  # Certifique-se de que o comprimento de x e y não seja o mesmo
  if len(x) != len(y) :
    return None
    
  # Calcula a diferença de cada valor
  diferenca = x - y

  # Calcula o quadrado da diferença
  quadrado_diferenca = np.dot(diferenca, diferenca)

  # Raiz quadrada da diferença
  distancia =  math.sqrt(quadrado_diferenca)

  return distancia

In [36]:
import numpy as np

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0")
distancia = distanciaEuclidiana(vetorA, vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0")
distancia = distanciaEuclidiana(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0")
distancia = distanciaEuclidiana(vetorA, vetorA)
print("distância:", distancia)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando numpy 2

In [37]:
import numpy as np

def distanciaEuclidiana(x, y):
    
  # Certifique-se de que o comprimento de x e y não seja o mesmo
  if len(x) != len(y) :
    return None
  
  distancia =  np.sqrt(np.sum((x - y) ** 2))

  return distancia

In [38]:
import numpy as np

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

# Transforma a lista em um vetor de numpy
vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0")
distancia = distanciaEuclidiana(vetorA, vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0")
distancia = distanciaEuclidiana(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0")
distancia = distanciaEuclidiana(vetorA, vetorA)
print("distância:", distancia)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes distanciaEuclidiana(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes distanciaEuclidiana(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais distanciaEuclidiana(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando scipy

https://docs.scipy.org/doc/scipy/reference/spatial.distance.html

In [39]:
from scipy.spatial import distance

vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

vetorA = np.array(vetorA)
vetorB = np.array(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euclidean(vetorA,vetorB) maior que 0")
distancia = distance.euclidean(vetorA, vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euclidean(vetorB,vetorA) maior que 0")
distancia = distance.euclidean(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais euclidean(vetorA,vetorA) medida igual a 0")
distancia = distance.euclidean(vetorA, vetorA)
print("distância:", distancia)

vetorA:[1.1 2.3 3.5 4.6]
vetorB:[-1.1 -2.3 -4.6 -5.1]

Vetores diferentes euclidean(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes euclidean(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais euclidean(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando sklearn

In [40]:
import torch
from sklearn.metrics.pairwise import euclidean_distances
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
# Converte para tensores
vetorA = torch.tensor(vetorA)
vetorB = torch.tensor(vetorB)
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorA.shape) == 1:
  vetorA = vetorA.unsqueeze(0)

# unsqueeze retorna um novo tensor com uma dimensão de tamanho 1 inserido na posição especificada(0).
if len(vetorB.shape) == 1:
  vetorB = vetorB.unsqueeze(0)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euclidean_distances(vetorA,vetorB) maior que 0")
distancia = euclidean_distances(vetorA, vetorB)
print("distância:", distancia.item())

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euclidean_distances(vetorB,vetorA) maior que 0")
distancia = euclidean_distances(vetorB, vetorA)
print("distância:", distancia.item())

# Calcula a distância de vetores iguais
print("\nVetores iguais euclidean_distances(vetorA,vetorA) medida igual a 0")
distancia = euclidean_distances(vetorA, vetorA)
print("distância:", distancia.item())

vetorA:tensor([1.1000, 2.3000, 3.5000, 4.6000])
vetorB:tensor([-1.1000, -2.3000, -4.6000, -5.1000])

Vetores diferentes euclidean_distances(vetorA,vetorB) maior que 0
distância: 13.627178192138672

Vetores diferentes euclidean_distances(vetorB,vetorA) maior que 0
distância: 13.627178192138672

Vetores iguais euclidean_distances(vetorA,vetorA) medida igual a 0
distância: 0.0


Distância euclidiana generalizado por Minkowski ou Norma L2

In [41]:
from scipy.spatial import distance
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
 
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euc(vetorA,vetorB) maior que 0")
distancia = distance.minkowski(vetorA,vetorB,2)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes euc(vetorB,vetorA) maior que 0")
distancia = distance.minkowski(vetorB,vetorA,2)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais euc(vetorA,vetorA) medida igual a 0")
distancia = distance.minkowski(vetorA,vetorA,2)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes euc(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes euc(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais euc(vetorA,vetorA) medida igual a 0
distância: 0.0


## Distância Manhattam

Mede o quanto dois vetores são diferentes(mais dissimilares). 

O intervalo varia de 0 a +infinito [0, +infinito].

Vetores próximos apresentam distância próxima a 0 e cresce a medida que os vetores se afastam(são diferentes).

Como não há um limite superior diferentes vetores podem apresentar diferentes valores máximos.

Possui outros nomes como distância Cityblock, distância L1, norma L1 e métrica do táxi.

Equação:

$ man(\tilde{w}_{i}, \tilde{w}_{j}) =  \sum_{k=1}^{H}|\tilde{w}_{{i}_{k}}- \tilde{w}_{{j}_{k}}| $.

### Manualmente

In [42]:
def manhattan_distance(x,y):
    soma = 0
    for a,b in zip(x,y):
        soma = soma + abs(a-b)
    return soma

In [43]:
import math
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes manhattan_distance(vetorA,vetorB) maior que 0")
distancia =  manhattan_distance(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes manhattan_distance(vetorB,vetorA) maior que 0")
distancia =  manhattan_distance(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais manhattan_distance(vetorA,vetorA) medida igual a 0")
distancia =  manhattan_distance(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes manhattan_distance(vetorA,vetorB) maior que 0
distância: 24.599999999999998

Vetores diferentes manhattan_distance(vetorB,vetorA) maior que 0
distância: 24.599999999999998

Vetores iguais manhattan_distance(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando scipy

https://docs.scipy.org/doc/scipy/reference/spatial.distance.html



In [44]:
from scipy.spatial import distance
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cityblock(vetorA,vetorB) maior que 0")
distancia = distance.cityblock(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes cityblock(vetorB,vetorA) maior que 0")
distancia = distance.cityblock(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais cityblock(vetorA,vetorA) medida igual a 0")
distancia = distance.cityblock(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes cityblock(vetorA,vetorB) maior que 0
distância: 24.599999999999998

Vetores diferentes cityblock(vetorB,vetorA) maior que 0
distância: 24.599999999999998

Vetores iguais cityblock(vetorA,vetorA) medida igual a 0
distância: 0.0


Distância de manhattan generalizado por Minkowski ou Norma L1

In [45]:
from scipy.spatial import distance
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorA,vetorB) maior que 0")
distancia = distance.minkowski(vetorA,vetorB,2)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorB,vetorA) maior que 0")
distancia = distance.minkowski(vetorB,vetorA,2)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais minkowski(vetorA,vetorA) medida igual a 0")
distancia = distance.minkowski(vetorA,vetorA,2)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes minkowski(vetorA,vetorB) maior que 0
distância: 13.627178724886527

Vetores diferentes minkowski(vetorB,vetorA) maior que 0
distância: 13.627178724886527

Vetores iguais minkowski(vetorA,vetorA) medida igual a 0
distância: 0.0


## Distância Hamming

Mede o quanto dois vetores são diferentes(mais dissimilares). 
Quanto mais diferentes, maior o valor.
Geralmente valor pertence ao intervalo [0, 1].

Se igual a 0 os vetores são iguais.

### Manualmente

In [46]:
def hamming_distance(a, b):
	
  distancia = sum(abs(e1 - e2) for e1, e2 in zip(a, b)) / len(a)
  
  return distancia

In [47]:
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes hamming(vetorA,vetorB) maior que 0")
distancia = hamming_distance(vetorA, vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes hamming(vetorB,vetorA) maior que 0")
distancia = hamming_distance(vetorB, vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais hamming(vetorA,vetorA) medida igual a 0")
distancia = hamming_distance(vetorA, vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes hamming(vetorA,vetorB) maior que 0
distância: 6.1499999999999995

Vetores diferentes hamming(vetorB,vetorA) maior que 0
distância: 6.1499999999999995

Vetores iguais hamming(vetorA,vetorA) medida igual a 0
distância: 0.0


### Exemplo usando scipy

https://docs.scipy.org/doc/scipy/reference/spatial.distance.html


In [48]:
from scipy.spatial import distance
 
vetorA = [1.1, 2.3, 3.5, 4.6]
vetorB = [1.1, 2.3, 4.6, 5.1]
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes hamming(vetorA,vetorB) maior que 0")
distancia = distance.hamming(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes hamming(vetorB,vetorA) maior que 0")
distancia = distance.hamming(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais hamming(vetorA,vetorA) medida igual a 0")
distancia = distance.hamming(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[1.1, 2.3, 4.6, 5.1]

Vetores diferentes hamming(vetorA,vetorB) maior que 0
distância: 0.5

Vetores diferentes hamming(vetorB,vetorA) maior que 0
distância: 0.5

Vetores iguais hamming(vetorA,vetorA) medida igual a 0
distância: 0.0


## Distância Minkowski

Mede o quanto dois vetores são diferentes(mais dissimilares). 
Quanto mais diferentes, maior o valor.
Geralmente valor pertence ao intervalo [0, 1].

Se igual a 0 os vetores são iguais.

### Manualmente

In [49]:
from math import*
from decimal import Decimal
 
def nth_root(value, n_root): 
    root_value = 1/float(n_root)
    return round (Decimal(value) ** Decimal(root_value),16)
 
def minkowski_distance(x,y,p_value): 
    return nth_root(sum(pow(abs(a-b),p_value) for a,b in zip(x, y)),p_value)

In [50]:
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorA,vetorB) maior que 0")
distancia = minkowski_distance(vetorA,vetorB,3)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorB,vetorA) maior que 0")
distancia = minkowski_distance(vetorB,vetorA,3)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais minkowski(vetorA,vetorA) medida igual a 0")
distancia = minkowski_distance(vetorA,vetorA,3)
print("distância:", distancia)
print("distância: %.20f" % distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes minkowski(vetorA,vetorB) maior que 0
distância: 11.5781644323446971

Vetores diferentes minkowski(vetorB,vetorA) maior que 0
distância: 11.5781644323446971

Vetores iguais minkowski(vetorA,vetorA) medida igual a 0
distância: 0E-16
distância: 0.00000000000000000000


### Exemplo usando scipy

https://docs.scipy.org/doc/scipy/reference/spatial.distance.html


In [51]:
from scipy.spatial import distance
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorA,vetorB) maior que 0")
distancia = distance.minkowski(vetorA,vetorB,3)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes minkowski(vetorB,vetorA) maior que 0")
distancia = distance.minkowski(vetorB,vetorA,3)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais minkowski(vetorA,vetorA) medida igual a 0")
distancia = distance.minkowski(vetorA,vetorA,3)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes minkowski(vetorA,vetorB) maior que 0
distância: 11.578164432344698

Vetores diferentes minkowski(vetorB,vetorA) maior que 0
distância: 11.578164432344698

Vetores iguais minkowski(vetorA,vetorA) medida igual a 0
distância: 0.0


# Não são medidas



## Subtração

In [52]:

def subtracao(x,y):
    soma = 0

    for a,b in zip(x,y):
        soma = soma + a-b
        
    return soma

In [53]:
import math
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes subtracao(vetorA,vetorB)")
distancia = subtracao(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes subtracao(vetorB,vetorA)")
distancia = subtracao(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais subtracao(vetorA,vetorA)")
distancia = subtracao(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes subtracao(vetorA,vetorB)
distância: 24.6

Vetores diferentes subtracao(vetorB,vetorA)
distância: -24.6

Vetores iguais subtracao(vetorA,vetorA)
distância: 0.0


## Produto

In [54]:
def produto(x,y):    
    soma = 0

    for a,b in zip(x,y):
        soma = soma + (a* b)

    return soma

In [55]:
import math
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes
print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes produto(vetorA,vetorB)")
distancia =  produto(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes produto(vetorB,vetorA)")
distancia =  produto(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais produto(vetorA,vetorA)")
distancia =  produto(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes produto(vetorA,vetorB)
distância: -46.059999999999995

Vetores diferentes produto(vetorB,vetorA)
distância: -46.059999999999995

Vetores iguais produto(vetorA,vetorA)
distância: 39.91


## Produto Absoluto

In [56]:
def produtoabs(x,y):
    
    soma = 0
    
    for a,b in zip(x,y):
        soma = soma + abs(a* b)
    
    return soma

In [57]:
import math
 
vetorA = [1.1, 2.3, 3.5, 4.6]
#vetorB = [1.1, 2.3, 4.6, 5.1] # Parecidos
vetorB = [-1.1, -2.3, -4.6, -5.1] # Bem diferentes

print("vetorA:" + str(vetorA))
print("vetorB:" + str(vetorB))

# Calcula a distância de vetores diferentes
print("\nVetores diferentes produtoabs(vetorA,vetorB)")
distancia =  produtoabs(vetorA,vetorB)
print("distância:", distancia)

# Calcula a distância de vetores diferentes
print("\nVetores diferentes produtoabs(vetorB,vetorA)")
distancia =  produtoabs(vetorB,vetorA)
print("distância:", distancia)

# Calcula a distância de vetores iguais
print("\nVetores iguais produtoabs(vetorA,vetorA)")
distancia =  produtoabs(vetorA,vetorA)
print("distância:", distancia)

vetorA:[1.1, 2.3, 3.5, 4.6]
vetorB:[-1.1, -2.3, -4.6, -5.1]

Vetores diferentes produtoabs(vetorA,vetorB)
distância: 46.059999999999995

Vetores diferentes produtoabs(vetorB,vetorA)
distância: 46.059999999999995

Vetores iguais produtoabs(vetorA,vetorA)
distância: 39.91
