# Similaridade de cosseno

A similaridade de cosseno é uma métrica usada para determinar o quão semelhantes dois documentos são, independentemente de seu tamanho. Matematicamente, é medido o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional (sendo que os vetores nada mais são do que as matrizes contendo a contagem de palavras dos documentos).

Quando plotado em um espaço multidimensional, onde cada dimensão corresponde a uma palavra no documento, a similaridade do cosseno captura a orientação (ou seja, o o ângulo) dos documentos e não a magnitude. Para calcular a magnitude, devemos usar a distância euclidiana.

A semelhança de cosseno é vantajosa quando precisamos determinar o quão semelhantes os textos são, independentemente de seu tamanho.

### tf-idf

Para criar nossos vetores contendo a contagem de palavras, vamos usar o valor tf–idf (abreviação do inglês para *term frequency–inverse document frequency*), que indica a importância de uma palavra de um documento em relação a uma coleção de documentos.

O valor tf–idf de uma palavra aumenta proporcionalmente à medida que aumenta o número de ocorrências dela em um documento, no entanto, esse valor é equilibrado pela frequência da palavra no corpus. Isso auxilia a distinguir o fato da ocorrência de algumas palavras serem geralmente mais comuns que outras, ou seja, se uma palavra for muito comum a todos os documentos, ela é considerada menos relevante.

### Pacote `sklearn`

Aqui, vamos usar o pacote `cosine_similarity`do `sklearn`, bem como o `TfidfVectorizer` para encontrar os valores [tf-idf](https://pt.wikipedia.org/wiki/Tf%E2%80%93idf) de cada texto.

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [3]:
example_1 = ('Esta é uma frase', 'Esta é outra frase')
example_2 = ('Que dia bonito!', 'Que tarde bonita!')
example_3 = ('Buscando similaridade entre duas sentenças de um documento', 'Quero saber o grau de similaridade entre duas frases pertencentes a um mesmo documento')

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(example_1)
result_cos = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
print(result_cos[0][1])

tfidf_matrix = tfidf_vectorizer.fit_transform(example_2)
result_cos = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
print(result_cos[0][1])

tfidf_matrix = tfidf_vectorizer.fit_transform(example_3)
result_cos = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
print(result_cos[0][1])

0.5031026124151314
0.20199309249791836
0.4501755023269899


[Na sequência](#), vamos fazer um teste com o índice de Jaccard.