# Cossine Similarity

A 'Similaridade por Cosseno' utiliza o cálculo do cosseno do ângulo entre dois vetores para verificar o quão similar são dois vetores.

Se o resultado for mais próximo de +1, os vetores são bastante similares. Caso contrário, sendo próximos de -1, os vetores são mais diferentes.

Uma das fórmulas para o cálculo é a seguinte:


$$
cos(\theta) = 
\dfrac{A . B}{||A||||B||} =\dfrac{A . B}{\sqrt{\sum_{i=1}^{i=N}}{w_{iA}^2} + \sqrt{\sum_{i=1}^{i=N}}{w_{iB}^2}}
$$

Considerando os vetores abaixo, calcule a Similaridade por Cosseno para eles:

d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) 
d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1)

In [106]:
import numpy as np

def cosine_similarity(vector1, vector2):
  vector1 = np.array(vector1)
  vector2 = np.array(vector2)
  return np.dot(vector1, vector2) / (np.sqrt(np.sum(vector1**2))*np.sqrt(np.sum(vector2**2)))

In [107]:
d1 = [5, 0, 3, 0, 2, 0, 0, 2, 0, 0] 
d2 = [3, 0, 2, 0, 1, 1, 0, 1, 0, 1]

In [108]:
cosine_similarity(d1,d2)

0.9356014857063997

A biblioteca `scipy` apresenta a função `distance.cosine` que utiliza a similaridade por cosseno. No caso a função recupera a disTância que deve ser subtraída de 1 para a obtenção da similaridade. 

In [109]:
from scipy import spatial

spatial.distance.cosine(d1, d2)

0.06439851429360033

In [110]:
print("Distância: " , spatial.distance.cosine(d1, d2) )
print("Similaridade: " , 1 - spatial.distance.cosine(d1, d2) )

Distância:  0.06439851429360033
Similaridade:  0.9356014857063997


### Para exercitar, capture 10 sentenças de forma aleatória do dataset carregado abaixo e aplique a função para identificar as mais semelhantes utilizando a matriz BoW do corpus.

In [111]:
import pandas as pd
exercicio = pd.read_csv('https://raw.githubusercontent.com/alexvaroz/data_science_alem_do_basico/master/americanas_analise_sentimento_preparado.csv')

In [112]:
exercicio = exercicio.sample(10)

In [113]:
exercicio

Unnamed: 0,review_text,sentiment
70975,Produto em perfeitíssimo estado e entrega supe...,positive
31774,A churrasqueira é ótima. A carne fica uma delí...,positive
11919,Adorei o livro. Muito interessante. Chegou ant...,positive
71562,já paguei a primeira parcela e ainda não receb...,negative
68158,Imaginei que o porta escova fosse fechado para...,negative
54589,"Excelente produto, melhor que as de bateria, p...",positive
15407,Poderia até elogiar a entrega que foi super rá...,negative
38291,"Só encontrei com eles o tamanho grande de 1,5 ...",positive
5033,"Adequado para usar em qualquer ocasião, desde ...",positive
60255,tive o desprazer de comprar esta bicicleta ale...,negative


In [114]:
sentences = list(exercicio.review_text.values)

In [115]:
sentences

['Produto em perfeitíssimo estado e entrega super rápida.',
 'A churrasqueira é ótima. A carne fica uma delícia e com sabor de carne de churrasco mesmo. Excelente produto. Eu recomendo.',
 'Adorei o livro. Muito interessante. Chegou antes do prazo.',
 'já paguei a primeira parcela e ainda não recebi o Smartphone, sempre comprei na americanas online e nunca demorou tanto para entregar. no anuncio pede 10 dias e depois de efetuar a compra muda para 25 dias, isso e um absurdo. muito insatisfeito.. e sem falar que onde eu moro já tem desse celular para vender no mesmo valor.',
 'Imaginei que o porta escova fosse fechado para evitar que insetos tivessem acesso à escova , mas ela tem pequenas aberturas na parte de trás que não permitem tal proteção, porém o produto cumpre com o prometido',
 'Excelente produto, melhor que as de bateria, pois o custo da bateria chega a ser o mesmo preço do equipamento.',
 'Poderia até elogiar a entrega que foi super rápida, porém não recebi o que comprei, rece

In [116]:
import spacy
import pandas as pd
import re
import numpy as np

!spacy download pt_core_news_sm -q

# fazer a carga
nlp = spacy.load('pt_core_news_sm')

2022-09-30 17:48:28.412147: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2022-09-30 17:48:28.412467: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2022-09-30 17:48:30.696971: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2022-09-30 17:48:30.701090: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublas64_11.dll'; dlerror: cublas64_11.dll not found
2022-09-30 17:48:30.705232: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublasLt64_11.dll'; dlerror: cublasLt64_11.dll not found
2022-09-30 17:48:30.709218: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cu

✔ Download and installation successful
You can now load the package via spacy.load('pt_core_news_sm')


In [117]:
def normalize(sentence):
  sentence_tokenize = [token.lemma_ for token in nlp(sentence.lower()) 
              if (token.is_alpha & ~token.is_stop)]
  return ' '.join(sentence_tokenize)

In [118]:
preprocessed_sentences = [normalize(sentence) for sentence in sentences]

In [119]:
preprocessed_sentences

['produto perfeitíssimo entregar super rápido',
 'churrasqueira ótimo carne ficar delícia sabor carne churrasco excelente produto recomendar',
 'ador livro interessante chegar prazo',
 'paguei parcela recebi smartphone comprar americana online demorar entregar anuncio pedir dia efetuar compra mudar dia absurdo insatisfeito falar morar celular vender',
 'imaginar porta escova ser fechar evitar inseto ter acesso escova pequeno abertura trás permitir proteção produto cumprir prometido',
 'excelente produto bom bateria custo bateria chegar preço equipamento',
 'poder elogiar entrega super rápido recebi comprar recebi cartucho recarregar impressora reconhecer vazar tinta sugiro vender produto ser honesto pra produto estar comprar afinal conta pq compr original recebi mão insatisfeito enganação',
 'encontrar tamanho metro aço inox lir',
 'adequado ocasião reunião uso dia dia',
 'desprazer comprar bicicleta aler de eles mandar defeito atender resolver problema atenção cliente ride shop descas

In [120]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(preprocessed_sentences)

In [121]:
bow_matrix.toarray()[0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int64)

In [122]:
from scipy import spatial

d1 = bow_matrix.toarray()[5]
d2 = bow_matrix.toarray()[8]
similaridade = 1 - spatial.distance.cosine(d1,d2)
similaridade

0.0

In [123]:
#Para exercitar, capture 10 sentenças de forma aleatória do dataset carregado abaixo e aplique a função para dentificaras mais semelhantes utilizando a matriz BoW do corpus.


In [124]:
#Para exercitar, capture 10 sentenças de forma aleatória do dataset carregado abaixo e aplique a função para identificar as mais semelhantes utilizando a matriz BoW do corpus.

#funçao para capturar 10 sentenças de forma aleatória do dataset 
def captura_sentencas_aleatorias(dataset, numero_sentencas):
      #captura 10 sentenças de forma aleatória do dataset
      sentencas = dataset.sample(numero_sentencas)
      #captura o texto das sentenças
      sentencas = list(sentencas.review_text.values)
      #mostra as sentenças
      print(sentencas)
      return sentencas


lista = captura_sentencas_aleatorias(exercicio, 10)

['Imaginei que o porta escova fosse fechado para evitar que insetos tivessem acesso à escova , mas ela tem pequenas aberturas na parte de trás que não permitem tal proteção, porém o produto cumpre com o prometido', 'Só encontrei com eles o tamanho grande de 1,5 metros aço inox , lindo .', 'Produto em perfeitíssimo estado e entrega super rápida.', 'já paguei a primeira parcela e ainda não recebi o Smartphone, sempre comprei na americanas online e nunca demorou tanto para entregar. no anuncio pede 10 dias e depois de efetuar a compra muda para 25 dias, isso e um absurdo. muito insatisfeito.. e sem falar que onde eu moro já tem desse celular para vender no mesmo valor.', 'Excelente produto, melhor que as de bateria, pois o custo da bateria chega a ser o mesmo preço do equipamento.', 'Adorei o livro. Muito interessante. Chegou antes do prazo.', 'Adequado para usar em qualquer ocasião, desde uma reunião a uso do dia a dia.', 'tive o desprazer de comprar esta bicicleta alem deles mandar uma 

In [125]:
#mostra as sentenças em ordem de 0 a 9
for i in range(len(lista)):
  print(f'Setença : {i}: {lista[i]}')

Setença : 0: Imaginei que o porta escova fosse fechado para evitar que insetos tivessem acesso à escova , mas ela tem pequenas aberturas na parte de trás que não permitem tal proteção, porém o produto cumpre com o prometido
Setença : 1: Só encontrei com eles o tamanho grande de 1,5 metros aço inox , lindo .
Setença : 2: Produto em perfeitíssimo estado e entrega super rápida.
Setença : 3: já paguei a primeira parcela e ainda não recebi o Smartphone, sempre comprei na americanas online e nunca demorou tanto para entregar. no anuncio pede 10 dias e depois de efetuar a compra muda para 25 dias, isso e um absurdo. muito insatisfeito.. e sem falar que onde eu moro já tem desse celular para vender no mesmo valor.
Setença : 4: Excelente produto, melhor que as de bateria, pois o custo da bateria chega a ser o mesmo preço do equipamento.
Setença : 5: Adorei o livro. Muito interessante. Chegou antes do prazo.
Setença : 6: Adequado para usar em qualquer ocasião, desde uma reunião a uso do dia a di

In [126]:
#avaliar a similaridade entre as sentenças da lista utilizando a matriz BoW 
def avalia_similaridade(lista, matriz_bow):
    for i in range(len(lista)):
        for j in range(len(lista)):
            if i != j:
                d1 = matriz_bow.toarray()[i]
                d2 = matriz_bow.toarray()[j]
                similaridade = 1 - spatial.distance.cosine(d1,d2)
                print("Similaridade entre as sentenças {} e {} é: {}".format(i, j, similaridade))


In [129]:
avalia_similaridade(lista, bow_matrix)

Similaridade entre as sentenças 0 e 1 é: 0.12403473458920844
Similaridade entre as sentenças 0 e 2 é: 0.0
Similaridade entre as sentenças 0 e 3 é: 0.09128709291752768
Similaridade entre as sentenças 0 e 4 é: 0.09999999999999998
Similaridade entre as sentenças 0 e 5 é: 0.13483997249264845
Similaridade entre as sentenças 0 e 6 é: 0.27602622373694174
Similaridade entre as sentenças 0 e 7 é: 0.0
Similaridade entre as sentenças 0 e 8 é: 0.0
Similaridade entre as sentenças 0 e 9 é: 0.0
Similaridade entre as sentenças 1 e 0 é: 0.12403473458920844
Similaridade entre as sentenças 1 e 2 é: 0.0
Similaridade entre as sentenças 1 e 3 é: 0.0
Similaridade entre as sentenças 1 e 4 é: 0.062017367294604275
Similaridade entre as sentenças 1 e 5 é: 0.1672484020014181
Similaridade entre as sentenças 1 e 6 é: 0.08559209850218252
Similaridade entre as sentenças 1 e 7 é: 0.0
Similaridade entre as sentenças 1 e 8 é: 0.0
Similaridade entre as sentenças 1 e 9 é: 0.0
Similaridade entre as sentenças 2 e 0 é: 0.0
S