In [1]:
import pandas as pd
import numpy as np
import faiss
import pickle
from sentence_transformers import SentenceTransformer

# üöÄ Carregar o modelo
model = SentenceTransformer('all-mpnet-base-v2')

# üöÄ Carregar o DataFrame e os embeddings
dataset = pd.read_csv('./data/processed/DATASET_FINAL_EMBEDDINGS.csv')

with open('./data/processed/embeddings.pkl', 'rb') as f:
    embeddings = pickle.load(f)

# üöÄ Normalizando os embeddings para otimizar a busca
embeddings = np.array(embeddings).astype('float32')
faiss.normalize_L2(embeddings)

# üöÄ Criar o √≠ndice FAISS
index = faiss.IndexFlatIP(embeddings.shape[1])
index.add(embeddings)

print(f"‚úÖ √çndice de busca criado com {index.ntotal} jurisprud√™ncias indexadas.")

# üîç Fun√ß√£o de busca sem√¢ntica
def buscar_jurisprudencia(query, top_k=5):
    # Gerar o embedding da consulta
    query_embedding = model.encode([query], normalize_embeddings=True)
    
    # Realizar a busca
    distances, indices = index.search(np.array(query_embedding).astype('float32'), top_k)
    
    resultados = []
    for idx, score in zip(indices[0], distances[0]):
        resultado = {
            'diagn√≥stico': dataset.loc[idx, 'diagn√≥stico'],
            'conclus√£o': dataset.loc[idx, 'conclus√£o'],
            'conclus√£o justificada': dataset.loc[idx, 'conclus√£o justificada'],
            'cid': dataset.loc[idx, 'cid'],
            'princ√≠pio ativo': dataset.loc[idx, 'princ√≠pio ativo'],
            'nome comercial': dataset.loc[idx, 'nome comercial'],
            'tipo da tecnologia': dataset.loc[idx, 'tipo da tecnologia'],
            '√≥rg√£o': dataset.loc[idx, '√≥rg√£o'],
            'serventia': dataset.loc[idx, 'serventia'],
            'refer√™ncia': dataset.loc[idx, 'link visualiza√ß√£o'],
            'similaridade': float(score)
        }
        resultados.append(resultado)

    return pd.DataFrame(resultados)

# üöÄ Exemplo de Consulta
print("üîé Exemplo de Busca:")
resultado_busca = buscar_jurisprudencia("Qual o entendimento sobre o Obesidade em Goi√°s?", top_k=5)
print(resultado_busca)


  from .autonotebook import tqdm as notebook_tqdm


‚úÖ √çndice de busca criado com 1708 jurisprud√™ncias indexadas.
üîé Exemplo de Busca:
  diagn√≥stico                                          conclus√£o  \
0  Obesidade.  1. Trata-se de demanda judicial envolvendo o r...   
1  Obesidade.  1. Trata-se de demanda judicial envolvendo o r...   
2  Obesidade.  Considerando quadro cl√≠nico da requerente desc...   
3  Obesidade.  1. Trata-se de demanda judicial envolvendo a r...   
4   Obesidade  Considerando o diagn√≥stico informado de obesid...   

  conclus√£o justificada                                 cid princ√≠pio ativo  \
0         N√£o favor√°vel                     E66 - Obesidade   N√£o Informado   
1             Favor√°vel  E66.9 - Obesidade n√£o especificada   N√£o Informado   
2             Favor√°vel                     E66 - Obesidade     LIRAGLUTIDA   
3             Favor√°vel                     E66 - Obesidade   N√£o Informado   
4             Favor√°vel                     E66 - Obesidade     LIRAGLUTIDA   

  nome comer