In [2]:
import pandas as pd
import sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# Similaridade - Cosseno

A métrica de similaridade de cosseno mede o cosseno do ângulo entre dois vetores ndimensionais projetados em um espaço multidimensional. A similaridade de cosseno de dois documentos variará de 0 a 1. Se a pontuação de similaridade de cosseno for 1, significa que dois vetores têm a mesma orientação. O valor mais próximo de 0 indica que os dois documentos possuem menos semelhança.


<img src="img/cosseno.png" alt="cosseno">



A similaridade de cossenos é uma métrica melhor do que a distância euclidiana porque se os dois textos estiverem distantes um do outro pela distância euclidiana, ainda há chances de que eles estejam próximos um do outro em termos de seu contexto.

In [1]:
from sklearn.feature_extraction.text import CountVectorizer


In [3]:
doc_1 = "Data is the oil of the digital economy"
doc_2 = "Data is a new oil"

data = [doc_1, doc_2]

In [4]:

count_vectorizer = CountVectorizer()
vector_matrix = count_vectorizer.fit_transform(data)
vector_matrix

<2x8 sparse matrix of type '<class 'numpy.int64'>'
	with 11 stored elements in Compressed Sparse Row format>

In [5]:
tokens = count_vectorizer.get_feature_names_out()
tokens

array(['data', 'digital', 'economy', 'is', 'new', 'of', 'oil', 'the'],
      dtype=object)

In [6]:
def create_dataframe(matrix, tokens):
    doc_names = [f'doc_{i+1}' for i, _ in enumerate(matrix)]
    df = pd.DataFrame(data=matrix, index=doc_names, columns=tokens)
    return(df)

In [7]:
create_dataframe(vector_matrix.toarray(),tokens)

Unnamed: 0,data,digital,economy,is,new,of,oil,the
doc_1,1,1,1,1,0,1,1,2
doc_2,1,0,0,1,1,0,1,0


In [8]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity_matrix = cosine_similarity(vector_matrix)
create_dataframe(cosine_similarity_matrix,['doc_1','doc_2'])

Unnamed: 0,doc_1,doc_2
doc_1,1.0,0.474342
doc_2,0.474342,1.0


# TF - IDF

<img src="img/TF-IDF_1.png" alt="TF-IDF" width="500" height="600">



<img src="img/TF-IDF_2.png" alt="TF-IDF" width="500" height="600">

O inverso da frequência do termo nos documentos é incorporado para diminuir o peso dos termos que ocorrem mais frequentemente no conjunto de textos selecionados, ao mesmo tempo que aumenta o peso daqueles que ocorrem raramente. 

<img src="img/TF-IDF_3.png" alt="TF-IDF" width="500" height="600">

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

Tfidf_vect = TfidfVectorizer()
vector_matrix = Tfidf_vect.fit_transform(data)

tokens = Tfidf_vect.get_feature_names_out()
create_dataframe(vector_matrix.toarray(),tokens)

Unnamed: 0,data,digital,economy,is,new,of,oil,the
doc_1,0.243777,0.34262,0.34262,0.243777,0.0,0.34262,0.243777,0.68524
doc_2,0.448321,0.0,0.0,0.448321,0.630099,0.0,0.448321,0.0


In [14]:
cosine_similarity_matrix = cosine_similarity(vector_matrix)
create_dataframe(cosine_similarity_matrix,['doc_1','doc_2'])

Unnamed: 0,doc_1,doc_2
doc_1,1.0,0.327871
doc_2,0.327871,1.0


#  Jaccard Similarity

A similaridade de Jaccard é uma métrica que compara dois conjuntos de palavras. Ela é calculada pela interseção dos conjuntos dividida pela união dos conjuntos. Em termos de texto, você pode considerar cada texto como um conjunto de palavras únicas (tokens).
Fórmula: J(A, B) = |A ∩ B| / |A ∪ B|


In [15]:
doc_1 = "Data is the new oil of the digital economy"
doc_2 = "Data is a new oil"

In [16]:
def Jaccard_Similarity(doc1, doc2): 
    
    # List the unique words in a document
    words_doc1 = set(doc1.lower().split()) 
    words_doc2 = set(doc2.lower().split())
    
    # Find the intersection of words list of doc1 & doc2
    intersection = words_doc1.intersection(words_doc2)

    # Find the union of words list of doc1 & doc2
    union = words_doc1.union(words_doc2)
        
    # Calculate Jaccard similarity score 
    # using length of intersection set divided by length of union set
    return float(len(intersection)) / len(union)

In [17]:
Jaccard_Similarity(doc_1,doc_2)

0.4444444444444444