In [19]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [20]:
def texto_para_vetor(texto, modelo):
    """Converte um texto em um vetor numérico usando TF-IDF"""
    return modelo.transform([texto]).toarray()[0]

In [21]:
def similaridade_documentos(doc1, doc2, modelo):
    """Calcula a similaridade entre dois documentos usando embeddings"""
    vetor1 = texto_para_vetor(doc1, modelo)
    vetor2 = texto_para_vetor(doc2, modelo)

    # Calcular similaridade do cosseno
    # similaridade = 1 - distância do cosseno
    similaridade = np.dot(vetor1, vetor2) / (np.linalg.norm(vetor1) * np.linalg.norm(vetor2))
    return similaridade

def calcular_similaridade(modelo, pares_docs):
    resultados = []
    for doc1, doc2 in pares_docs:
        resultado = similaridade_documentos(doc1, doc2, modelo)
        resultados.append(((doc1, doc2), resultado))
    return resultados

# Exercício: Calcule a similaridade entre os documentos abaixo
documento1 = "O filme tem uma história envolvente e atuações convincentes"
documento2 = "A narrativa do filme é cativante e os atores são excelentes"
documento3 = "O restaurante tem comida deliciosa e preços acessíveis"


In [22]:
# Calcular similaridades (implemente sua solução)
# ...
pares = [
    (documento1, documento2),
    (documento1, documento3),
    (documento2, documento2),
]

corpus = [documento1, documento2, documento3]
modelo = TfidfVectorizer().fit(corpus)

# Calcular similaridades
similaridades = calcular_similaridade(modelo, pares)

# Exibir os resultados
for (doc1, doc2), similaridade in similaridades:
    if isinstance(similaridade, float):
        print(f"{doc1} - {doc2}: {similaridade:.4f}")
    else:
        print(f"{doc1} - {doc2}: {similaridade}")


O filme tem uma história envolvente e atuações convincentes - A narrativa do filme é cativante e os atores são excelentes: 0.0847
O filme tem uma história envolvente e atuações convincentes - O restaurante tem comida deliciosa e preços acessíveis: 0.0987
A narrativa do filme é cativante e os atores são excelentes - A narrativa do filme é cativante e os atores são excelentes: 1.0000
