In [1]:
import json
import pandas as pd
from openai import OpenAI
import faiss
import os
from tqdm import tqdm
from getpass import getpass
import h5py
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
OPENAI_KEY = getpass("KEY OpenAI")
NOME_MODELO_EMB_OPENAI = "text-embedding-3-large"
DIM_MODELO_EMB_OPENAI = 3072

# Modelos disponíveis
MODELOS_EMB_NOME_E_DIM_EMB = [(NOME_MODELO_EMB_OPENAI, DIM_MODELO_EMB_OPENAI)]

# Modelos para gerar. A ideia é que, uma vez que já foi gerado, pode tirar daqui. Daí ele não precisa carregar o arquivo e ver se está lá
MODELOS_EMB_PARA_GERAR = []

KEY OpenAI ········


In [3]:
ARQUIVO_EMBEDDINGS_CHUNKS = 'outputs/embeddings_chunks.h5'
ARQUIVO_EMBEDDINGS_QUESTOES = 'outputs/embeddings_questoes.h5'

# 1. Carregar as bases de dados de chunks e de questões

In [4]:
def load_jsonl(path):
    with open(path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

chunks_pesquisa = load_jsonl('inputs/chunks_pesquisa.jsonl')
questoes = load_jsonl('inputs/questoes.jsonl')

Separa as URN/TEXTO dos chunks e as ID/ENUNCIADO das questões

In [5]:
urn_chunks = [c['URN'] for c in chunks_pesquisa]
texto_chunks = [c['TEXTO'] for c in chunks_pesquisa]

id_questoes = [q['ID_QUESTAO'] for q in questoes]
enunciado_questoes = [q['ENUNCIADO_COM_ALTERNATIVAS'] for q in questoes]

## 1.1 Gera qrels no formato considerando todos os chunks e no nível de artigo

In [6]:
# Cria um qrels no formato esperado
id_questao = []
urn_chunk = []
score = []
rank = []
for q in questoes:
    total_docs = len(q['URN_FUNDAMENTACAO'])
    id_questao += [q['ID_QUESTAO']] * total_docs
    urn_chunk += q['URN_FUNDAMENTACAO']
    score += [1] * total_docs
    rank += list(range(1, total_docs+1))

qrels_todos_chunks = pd.DataFrame({
    "QUERY_KEY": id_questao,
    "DOC_KEY": urn_chunk,
    "SCORE": score,
    "RANK": rank
})

In [7]:
import copy
import re

padrao = re.compile(r'!art\d{1,3}')

questoes_fund_apenas_art = copy.deepcopy(questoes)

for questao in questoes_fund_apenas_art:
    nova_fundamentacao = []

    for texto in questao.get("URN_FUNDAMENTACAO", []):
        match = padrao.search(texto)

        if match:
            # corta exatamente no final de !artX
            nova_fundamentacao.append(texto[:match.end()])
        else:
            nova_fundamentacao.append(texto)

    questao["URN_FUNDAMENTACAO"] = list(set(nova_fundamentacao))

# Cria um qrels no formato esperado
id_questao = []
urn_chunk = []
score = []
rank = []
for q in questoes_fund_apenas_art:
    total_docs = len(q['URN_FUNDAMENTACAO'])
    id_questao += [q['ID_QUESTAO']] * total_docs
    urn_chunk += q['URN_FUNDAMENTACAO']
    score += [1] * total_docs
    rank += list(range(1, total_docs+1))

qrels_apenas_art = pd.DataFrame({
    "QUERY_KEY": id_questao,
    "DOC_KEY": urn_chunk,
    "SCORE": score,
    "RANK": rank
})

# 2. Criar as estruturas em arquivos H5

Garante que o arquivo existe e que tem os datasets nele:

In [8]:
def criar_estrutura_embeddings(arquivo, nome_id, lista_id):
    with h5py.File(arquivo, "a") as f:
        chunk_size=128
        n = len(lista_id)
        
        if nome_id not in f:
            # Quando criar o dataset para as URNS/ID, já cria ele preenchido com todas elas
            f.create_dataset(
                nome_id,
                data=np.array(lista_id, dtype="S"),  # grava tudo de uma vez
                maxshape=(None,),
                dtype=h5py.string_dtype(encoding="utf-8"),
                chunks=True
            )
    
        for nome_modelo, dim_modelo in MODELOS_EMB_NOME_E_DIM_EMB:
            if nome_modelo not in f:
                # Quando criar o dataset com os embeddings do modelo, cria preenchido com nan
                ds = f.create_dataset(
                    nome_modelo,
                    shape=(n, dim_modelo),
                    maxshape=(n, dim_modelo),
                    dtype=np.float16,
                    compression="gzip",
                    chunks=(chunk_size, dim_modelo)
                )
                ds[:] = np.nan

criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_CHUNKS, 'urn', urn_chunks)
criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_QUESTOES, 'id', id_questoes)

Funções auxiliares para saber se já existe embedding associado e para atualizar embeddings:

In [9]:
def existe_embedding(arquivo, nome_modelo, idx):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        return not np.isnan(ds[idx, 0])
    
def atualizar_embedding(arquivo, nome_modelo, idx, embedding):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        ds[idx] = np.asarray(embedding, dtype=np.float16)

# 2. Cria embeddings para o campo TEXTO (chunks) e para o campo ENUNCIADO_COM_ALTERNATIVAS (questões)

Funções auxiliares para geração de embeddings

In [10]:
def extrai_emb_com_retry(id, texto, nome_modelo, func_get_emb):
    try:
        return func_get_emb(nome_modelo, texto)
    except Exception as e:
        print(f'id: {id}. Chunk muito grande. Reduzindo em 20%')
        print(e.message)
        # Extrai, da mensagem de erro, o total de tokens requisitados e diminui o texto proporcionalmente.
        # No caso da openai, eles aceitam 8192 de entrada.
        # Na hora de diminuir, garante que vai diminuir pelo menos 20% do texto de entrada
        reduzir_para = int(len(texto)*.8)
        if nome_modelo == EMB_MODEL_OPENAI:
            match = re.search(r'requested\s+(\d+)\s+tokens', ex.message)
             # Se não achou a mensagem, considera 8192 para reduzir em 20%
            total_token_requisitados = int(match.group(1)) if match else 8192
            reduzir_para = int(min(8192/total_token_requisitados, 0.8) * len(texto))
            
        return extrai_emb_com_retry(id, texto[:reduzir_para], nome_modelo, func_get_emb)

def extrai_emb_chunks_e_salva(nome_modelo, func_get_emb):
    for chunk in tqdm(chunks_pesquisa):
        urn = chunk['URN']
        texto = chunk['TEXTO']
    
        if nome_modelo not in emb_chunks[urn]:
            emb_chunks[urn][nome_modelo] = extrai_emb_com_retry(urn, texto, nome_modelo, func_get_emb)
            #emb_chunks[urn][nome_modelo] = func_get_emb(nome_modelo, texto)
            salvar_embeddings(NOME_ARQUIVO_EMBEDDINGS_CHUNKS, emb_chunks)

def extrai_emb_questoes_e_salva(nome_modelo, func_get_emb):
    for q in tqdm(questoes):
        id = q['ID_QUESTAO']
        texto = q['ENUNCIADO_COM_ALTERNATIVAS']
    
        if nome_modelo not in emb_questoes[id]:
            emb_questoes[id][nome_modelo] = extrai_emb_com_retry(id, texto, nome_modelo, func_get_emb)
            salvar_embeddings(NOME_ARQUIVO_EMBEDDINGS_QUESTOES, emb_questoes)

Função para extrair embeddings usando o modelo da openAI

In [11]:
client_openai = OpenAI(api_key=OPENAI_KEY, base_url=None)
def extrair_embeddings_openai(nome_modelo, texto):
   return client_openai.embeddings.create(input = [texto], model=nome_modelo).data[0].embedding

Agora gera os embeddings dos chunks:

In [12]:
# Varre todos os urns
for idx, urn in enumerate(tqdm(urn_chunks)):
    texto = texto_chunks[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx):
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrair_embeddings_openai(nome_modelo, texto)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx, emb_gerado)

100%|██████████████████████████████████████████████████████████████████████████████████████| 7036/7036 [00:00<?, ?it/s]


Gera os embeddings dos enunciados

In [13]:
# Varre todos os enunciado
for idx, id in enumerate(tqdm(id_questoes)):
    texto = enunciado_questoes[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx):
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrair_embeddings_openai(nome_modelo, texto)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx, emb_gerado)

100%|████████████████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<?, ?it/s]


# 3. Pesquisa semântica

## 3.1. Testes com similaridade de cosseno e pandas

Pode desconsiderar esse código. É só pra comparar com o FAISS depois.

In [14]:
def gerar_dict_embeddings(arquivo, coluna_id):
    embeddings = {}

    with h5py.File(arquivo, "r") as f:
        embeddings[coluna_id] = f[coluna_id][:].astype(str)
        for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
            embeddings[nome_modelo] = f[nome_modelo][:]

    return embeddings

In [15]:
dict_emb_chunks = gerar_dict_embeddings(ARQUIVO_EMBEDDINGS_CHUNKS, 'urn')
dict_emb_questoes = gerar_dict_embeddings(ARQUIVO_EMBEDDINGS_QUESTOES, 'id')

df_emb_chunks = pd.DataFrame({
    "urn": dict_emb_chunks["urn"]
})
df_emb_questoes = pd.DataFrame({
    "id": dict_emb_questoes["id"]
})

for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    df_emb_chunks[nome_modelo] = list(dict_emb_chunks[nome_modelo])
    df_emb_questoes[nome_modelo] = list(dict_emb_questoes[nome_modelo])

In [16]:
def get_chunks_proximos(id_questao, nome_modelo, n_chunks = 20):
    emb_questao = df_emb_questoes[nome_modelo][df_emb_questoes.id == id_questao].values[0]

    df_chunks_similares = df_emb_chunks.copy()
    df_chunks_similares['similarity'] = df_chunks_similares[nome_modelo].apply(lambda x: cosine_similarity([x], [emb_questao])[0,0])
    df_chunks_similares = df_chunks_similares.sort_values("similarity", ascending=False)
    
    return df_chunks_similares.head(n_chunks)

In [17]:
# Para testar:
get_chunks_proximos('1',NOME_MODELO_EMB_OPENAI, 3).urn.iloc[0:3].tolist()

['urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc6',
 'urn:lex:br:autoridade.nacional.protecao.dados;conselho.diretor:resolucao:2024-07-16;18;anexo.1!art2_cpt_inc3',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc3']

## 3.2. Testes com FAISS

Carregar e normalizar embeddings.

Obs.: Os embeddings da OpenAI já são normalizados (mas há uma perda na conversão de f32 pra f16 para salvar no H5), nem precisaria disso.

In [18]:
def carregar_embeddings_faiss(arquivo, coluna_id, nome_modelo):
    with h5py.File(arquivo, "r") as f:
        ids = f[coluna_id][:].astype(str)
        emb = f[nome_modelo][:].astype(np.float32)

    return ids, emb

# A ideia dessa função é, uma vez carregado todos os embeddings, filtrar apenas aqueles
# que batem com a máscara. Será usado para indexar apenas os embeddings que se referem a artigos completos
urns_chunks_pesquisa_apenas_art = { c['URN'] for c in chunks_pesquisa if c['TIPO'] == 'ART' or c['TIPO'] == 'JUR'}
def filtro_apenas_art(urn):
    return urn in urns_chunks_pesquisa_apenas_art

def filtro_seleciona_tudo(_):
    return True
    
def filtrar_embeddings(urns, emb, func_filtro):
    mask = np.array([func_filtro(i) for i in urns], dtype=bool)

    return urns[mask], emb[mask]

def normalizar_embeddings(x):
    faiss.normalize_L2(x)
    return x

Criar o índice.

In [19]:
def criar_mapa_indice_chunks(arquivo, filtro_seleciona_id):
    mapa_indice_faiss = {}
    
    for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
        urns, emb_chunks = carregar_embeddings_faiss(arquivo, 'urn', nome_modelo)
        urns, emb_chunks = filtrar_embeddings(urns, emb_chunks, filtro_seleciona_id)
                                           
        emb_chunks = normalizar_embeddings(emb_chunks)
        dim = emb_chunks.shape[1]
        
        index_faiss = faiss.IndexFlatL2(dim)
        index_faiss.add(emb_chunks)
    
        mapa_indice_faiss[nome_modelo] = index_faiss
        print(f"Índice criado com {index_faiss.ntotal} vetores")
    
    return urns, mapa_indice_faiss

urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo = criar_mapa_indice_chunks(ARQUIVO_EMBEDDINGS_CHUNKS, filtro_seleciona_tudo)
urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo = criar_mapa_indice_chunks(ARQUIVO_EMBEDDINGS_CHUNKS, filtro_apenas_art)

Índice criado com 7036 vetores
Índice criado com 1095 vetores


Função de busca no índice

In [20]:
# Mapa embeddings da questão por modelo
mapa_emb_questao_por_modelo = {}
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    ids_q, emb_q = carregar_embeddings_faiss(ARQUIVO_EMBEDDINGS_QUESTOES, 'id', nome_modelo)
    emb_q = normalizar_embeddings(emb_q)
    mapa_emb_questao_por_modelo[nome_modelo] = emb_q

# Mapa id da questão por índice. Considera que todos os embeddings foram criados sequencialmente (foi feito assim mesmo)
mapa_id_questao = {id_: i for i, id_ in enumerate(ids_q)}

In [21]:
def get_chunks_proximos_faiss(id_questao, nome_modelo, urns, mapa_indices, n_chunks=20):
    idx_q = mapa_id_questao[id_questao]
    query =  mapa_emb_questao_por_modelo[nome_modelo][idx_q:idx_q+1]  # shape (1, dim)
    
    distancias, indices = mapa_indices[nome_modelo].search(query, n_chunks)

    resultados = []
    for rank, (i, d) in enumerate(zip(indices[0], distancias[0])):
        resultados.append({
            "rank": rank + 1,
            "urn": urns[i],
            "distancia_l2": float(d),
            "similaridade_cosine_aprox": 1 - d / 2
        })

    return resultados

Alguns testes

In [22]:
get_chunks_proximos_faiss('675', NOME_MODELO_EMB_OPENAI, urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo, n_chunks=3)

[{'rank': 1,
  'urn': 'tema_stf_483',
  'distancia_l2': 0.8037692904472351,
  'similaridade_cosine_aprox': 0.5981153547763824},
 {'rank': 2,
  'urn': 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt',
  'distancia_l2': 0.9373655319213867,
  'similaridade_cosine_aprox': 0.5313172340393066},
 {'rank': 3,
  'urn': 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc4',
  'distancia_l2': 0.9542654752731323,
  'similaridade_cosine_aprox': 0.5228672623634338}]

In [23]:
get_chunks_proximos_faiss('675', NOME_MODELO_EMB_OPENAI, urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo, n_chunks=3)

[{'rank': 1,
  'urn': 'tema_stf_483',
  'distancia_l2': 0.8037692904472351,
  'similaridade_cosine_aprox': 0.5981153547763824},
 {'rank': 2,
  'urn': 'urn:lex:br:federal:lei:2011-11-18;12527!art34',
  'distancia_l2': 0.9836373925209045,
  'similaridade_cosine_aprox': 0.5081813037395477},
 {'rank': 3,
  'urn': 'urn:lex:br:federal:lei:2018-08-14;13709!art23',
  'distancia_l2': 0.9871585369110107,
  'similaridade_cosine_aprox': 0.5064207315444946}]

Calcula as métricas para toda a base de dados.

In [25]:
def pesquisa_semantica(urns_nos_indices, mapa_indice_faiss, n_chunks=20):   
    mapa_df_resultado_por_modelo = {}

    total_porcentagem = len(MODELOS_EMB_NOME_E_DIM_EMB)*len(questoes)
    with tqdm(total=total_porcentagem) as pbar:
        for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
            col_resultado_id_questao=[]
            col_resultado_urn_chunk=[]
            col_resultado_rank=[]
            
            for q in questoes:
                id_questao = q['ID_QUESTAO']
                resultados_para_id_questao = get_chunks_proximos_faiss(id_questao, nome_modelo, urns_nos_indices, mapa_indice_faiss, n_chunks)
                
                ids_questao = [id_questao] * len(resultados_para_id_questao)
                primeiros_20_urns = [item['urn'] for item in resultados_para_id_questao]
                ranking = [item['rank'] for item in resultados_para_id_questao]
        
                col_resultado_id_questao.extend(ids_questao)
                col_resultado_urn_chunk.extend(primeiros_20_urns)
                col_resultado_rank.extend(ranking)
    
                pbar.update(1)
        
            df_resultados_por_modelo = pd.DataFrame({
                "QUERY_KEY": col_resultado_id_questao,
                "DOC_KEY": col_resultado_urn_chunk,
                "RANK": col_resultado_rank,
            })
            mapa_df_resultado_por_modelo[nome_modelo] = df_resultados_por_modelo
    
    return mapa_df_resultado_por_modelo

In [26]:
mapa_resultados_todos_chunks_por_modelo = pesquisa_semantica(urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo, n_chunks=20)
mapa_resultados_apenas_art_por_modelo = pesquisa_semantica(urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo, n_chunks=20)

100%|███████████████████████████████████████████████████████████████████████████████| 700/700 [00:04<00:00, 171.03it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<00:00, 2217.05it/s]


In [28]:
from metricas import histograma_metricas, boxplot_metricas, metricas

mapa_metricas_todos_chunks = {}
mapa_metricas_apenas_art = {}

for nome_modelo, _ in tqdm(MODELOS_EMB_NOME_E_DIM_EMB):
    mapa_metricas_todos_chunks[nome_modelo] = metricas(mapa_resultados_todos_chunks_por_modelo[nome_modelo], qrels_todos_chunks, aproximacao_trec_eval=True, k=[5, 10, 20])
    mapa_metricas_apenas_art[nome_modelo] = metricas(mapa_resultados_apenas_art_por_modelo[nome_modelo], qrels_apenas_art, aproximacao_trec_eval=True, k=[5, 10, 20])

100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.90s/it]


In [30]:
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    print(f'########################## {nome_modelo} ##########################')
    display(mapa_metricas_todos_chunks[nome_modelo].describe())

########################## text-embedding-3-large ##########################


Unnamed: 0,P@5,P@10,P@20,R@5,R@10,R@20,MRR@5,MRR@10,MRR@20,nDCG@5,nDCG@10,nDCG@20
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,0.174286,0.129143,0.082929,0.468491,0.599537,0.710422,0.43731,0.452902,0.458488,0.391336,0.450069,0.490156
std,0.150996,0.11211,0.069109,0.422703,0.408479,0.377406,0.400626,0.385735,0.379604,0.36144,0.344462,0.326977
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.1,0.05,0.0,0.2,0.4,0.0,0.125,0.125,0.0,0.149782,0.231378
50%,0.2,0.1,0.05,0.333333,0.666667,1.0,0.333333,0.333333,0.333333,0.363318,0.430677,0.489132
75%,0.2,0.2,0.1,1.0,1.0,1.0,1.0,1.0,1.0,0.63093,0.63093,0.695302
max,0.8,0.6,0.4,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [31]:
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    print(f'########################## {nome_modelo} ##########################')
    display(mapa_metricas_apenas_art[nome_modelo].describe())

########################## text-embedding-3-large ##########################


Unnamed: 0,P@5,P@10,P@20,R@5,R@10,R@20,MRR@5,MRR@10,MRR@20,nDCG@5,nDCG@10,nDCG@20
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,0.22,0.123429,0.068571,0.760466,0.820813,0.882116,0.724214,0.729605,0.73206,0.69403,0.717888,0.73684
std,0.15186,0.087696,0.049656,0.378397,0.342252,0.287777,0.392427,0.383271,0.378775,0.365633,0.34601,0.326285
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.2,0.1,0.05,0.5,0.8,1.0,0.5,0.5,0.5,0.5,0.5,0.5
50%,0.2,0.1,0.05,1.0,1.0,1.0,1.0,1.0,1.0,0.877215,0.919721,0.920236
75%,0.2,0.1,0.05,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
max,0.8,0.5,0.25,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
