# Caderno 2. Gerar embeddings

In [1]:
import json
from openai import OpenAI
import os
from tqdm import tqdm
from getpass import getpass
import h5py
import numpy as np

In [2]:
OPENAI_KEY = getpass("KEY OpenAI")
NOME_MODELO_EMB_OPENAI = "text-embedding-3-large"
DIM_MODELO_EMB_OPENAI = 3072

# Modelos disponíveis
MODELOS_EMB_NOME_E_DIM_EMB = [(NOME_MODELO_EMB_OPENAI, DIM_MODELO_EMB_OPENAI)]

# Modelos para gerar. A ideia é que, uma vez que já foi gerado, pode tirar daqui. Daí ele não precisa carregar o arquivo e ver se está lá
# MODELOS_EMB_PARA_GERAR = [(NOME_MODELO_EMB_OPENAI, DIM_MODELO_EMB_OPENAI)]
MODELOS_EMB_PARA_GERAR = []

KEY OpenAI ········


In [3]:
ARQUIVO_EMBEDDINGS_CHUNKS = 'outputs/2 - embeddings/embeddings_chunks.h5'
ARQUIVO_EMBEDDINGS_QUESTOES = 'outputs/2 - embeddings/embeddings_questoes.h5'

# 1. Carregar as bases de dados de chunks e de questões

In [4]:
def load_jsonl(path):
    with open(path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

chunks_pesquisa = load_jsonl('inputs/chunks_pesquisa.jsonl')
questoes = load_jsonl('inputs/questoes.jsonl')

## 1.1 Lista de urns/texto dos chunks e dos ids/enunciados das questões.

Separa as URN/TEXTO dos chunks e as ID/ENUNCIADO das questões.

Isso é necessário porque os embeddings são salvos em listas pareadas no H5.

In [5]:
urn_chunks = [c['URN'] for c in chunks_pesquisa]
texto_chunks = [c['TEXTO'] for c in chunks_pesquisa]

id_questoes = [q['ID_QUESTAO'] for q in questoes]
enunciado_questoes = [q['ENUNCIADO_COM_ALTERNATIVAS'] for q in questoes]

# 2. Criar as estruturas em arquivos H5

Garante que o arquivo existe e que tem os datasets nele:

In [10]:
def criar_estrutura_embeddings(arquivo, nome_id, lista_id):
    with h5py.File(arquivo, "a") as f:
        chunk_size=128
        n = len(lista_id)
        
        if nome_id not in f:
            # Quando criar o dataset para as URNS/ID, já cria ele preenchido com todas elas
            f.create_dataset(
                nome_id,
                data=np.array(lista_id, dtype="S"),  # grava tudo de uma vez
                maxshape=(None,),
                dtype=h5py.string_dtype(encoding="utf-8"),
                chunks=True
            )
    
        for nome_modelo, dim_modelo in MODELOS_EMB_NOME_E_DIM_EMB:
            if nome_modelo not in f:
                # Quando criar o dataset com os embeddings do modelo, cria preenchido com nan
                ds = f.create_dataset(
                    nome_modelo,
                    shape=(n, dim_modelo),
                    maxshape=(n, dim_modelo),
                    dtype=np.float16,
                    compression="gzip",
                    chunks=(chunk_size, dim_modelo)
                )
                ds[:] = np.nan

criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_CHUNKS, 'urn', urn_chunks)
criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_QUESTOES, 'id', id_questoes)

Funções auxiliares para saber se já existe embedding associado e para atualizar embeddings:

In [11]:
def existe_embedding(arquivo, nome_modelo, idx):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        return not np.isnan(ds[idx, 0])
    
def atualizar_embedding(arquivo, nome_modelo, idx, embedding):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        ds[idx] = np.asarray(embedding, dtype=np.float16)

# 3. Cria embeddings para o campo TEXTO (chunks da base de pesquisa) e para o campo ENUNCIADO_COM_ALTERNATIVAS (questões)

Funções auxiliares para geração de embeddings

In [12]:
def extrai_emb_com_retry(id, texto, nome_modelo, func_get_emb):
    try:
        return func_get_emb(nome_modelo, texto)
    except Exception as e:
        tqdm.write(f'id: {id}. Chunk muito grande. Reduzindo em 20%\n{e.message}')
        # Extrai, da mensagem de erro, o total de tokens requisitados e diminui o texto proporcionalmente.
        # No caso da openai, eles aceitam 8192 de entrada.
        # Na hora de diminuir, garante que vai diminuir pelo menos 20% do texto de entrada
        reduzir_para = int(len(texto)*.8)
        if nome_modelo == NOME_MODELO_EMB_OPENAI:
            match = re.search(r'requested\s+(\d+)\s+tokens', e.message)
             # Se não achou a mensagem, considera 8192 para reduzir em 20%
            total_token_requisitados = int(match.group(1)) if match else 8192
            reduzir_para = int(min(8192/total_token_requisitados, 0.8) * len(texto))
            
        return extrai_emb_com_retry(id, texto[:reduzir_para], nome_modelo, func_get_emb)

Função para extrair embeddings para os modelos da openAI:

In [13]:
client_openai = OpenAI(api_key=OPENAI_KEY, base_url=None)
def extrair_embeddings_openai(nome_modelo, texto):
   return client_openai.embeddings.create(input = [texto], model=nome_modelo).data[0].embedding

Agora gera os embeddings dos chunks:

In [14]:
# Varre todos os urns
for idx, urn in enumerate(tqdm(urn_chunks)):
    texto = texto_chunks[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx):
            
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrai_emb_com_retry(urn, texto, nome_modelo, extrair_embeddings_openai)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx, emb_gerado)

100%|█████████████████████████████████████████████████████████████████████████| 6932/6932 [00:00<00:00, 1668479.02it/s]


Gera os embeddings dos enunciados:

In [15]:
# Varre todos os enunciados das questões
for idx, id in enumerate(tqdm(id_questoes)):
    texto = enunciado_questoes[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx):
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrai_emb_com_retry(id, texto, nome_modelo, extrair_embeddings_openai)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx, emb_gerado)

100%|████████████████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<?, ?it/s]
