In [1]:
from sentence_transformers import SentenceTransformer, util
import fitz  # PyMuPDF

# Carrega o modelo de embeddings
modelo = SentenceTransformer('all-MiniLM-L6-v2')  # Você pode escolher outro modelo Sentence-BERT

def gerar_embeddings_paginas(pdf_path):
    """
    Gera embeddings para cada página do PDF e armazena em um dicionário.
    """
    embeddings_paginas = {}
    documento = fitz.open(pdf_path)
    
    for numero_pagina in range(documento.page_count):
        pagina = documento.load_page(numero_pagina)
        texto_pagina = pagina.get_text()  # Extrai o texto da página
        
        # Gera o embedding da página
        embedding = modelo.encode(texto_pagina, convert_to_tensor=True)
        embeddings_paginas[numero_pagina + 1] = embedding
    
    return embeddings_paginas

def encontrar_paginas_relevantes(questao, embeddings_paginas, top_n=5):
    """
    Dada uma questão, retorna as páginas mais relevantes usando embeddings de similaridade.
    """
    # Gera o embedding da questão
    embedding_questao = modelo.encode(questao, convert_to_tensor=True)
    
    # Calcula a similaridade entre o embedding da questão e cada embedding de página
    similaridades = []
    for numero_pagina, embedding_pagina in embeddings_paginas.items():
        similaridade = util.pytorch_cos_sim(embedding_questao, embedding_pagina).item()
        similaridades.append((numero_pagina, similaridade))
    
    # Ordena as páginas pela similaridade e seleciona as top_n páginas mais relevantes
    paginas_relevantes = sorted(similaridades, key=lambda x: x[1], reverse=True)[:top_n]
    return paginas_relevantes

# Exemplo de uso
pdf_path = 'humanas.pdf'  # Substitua pelo caminho do seu PDF
embeddings_paginas = gerar_embeddings_paginas(pdf_path)

# Exemplo de questão
questao = 'Nos séculos XIV-XV, a sociedade feudal experimentou uma grave crise geral, que abalou profundamente as estruturas que sustentavam essa sociedade, abrindo espaços para a criação de relações capitalistas no interior das sociedades européias. Os efeitos da depressão dos séculos XIV-XV sobre a sociedade européia foram os seguintes, EXCETO: a expansão marítima dos séculos XV e XVI, rompendo os estreitos limites do comércio medieval. a centralização do poder nas mãos do rei, em contrapartida ao poder pulverizado dos senhores feudais. o surgimento de uma nova cultura mais urbana e laica, em oposição à rural-religiosa do feudalismo. a busca de urna nova espiritualidade, possibilitando a ruptura da unidade cristã através da Reforma. a ocupação do poder político pela burguesia, sustentada no crescente enriquecimento dessa classe.'

# Busca as páginas mais relevantes
paginas_relacionadas = encontrar_paginas_relevantes(questao, embeddings_paginas, top_n=5)

print("Páginas mais relevantes para a questão:")
for pagina, similaridade in paginas_relacionadas:
    print(f"Página {pagina} com similaridade {similaridade:.4f}")

Páginas mais relevantes para a questão:
Página 17 com similaridade 0.7267
Página 136 com similaridade 0.7192
Página 20 com similaridade 0.6948
Página 118 com similaridade 0.6943
Página 119 com similaridade 0.6856
