## Imports e Configurações

In [None]:
import openai
import numpy as np
import time
from urllib.parse import quote_plus
from sqlalchemy import create_engine, text

# Configurações
OPENAI_API_KEY = "<chave_openai>"
EMBEDDING_MODEL = "text-embedding-3-large"
openai_client = openai.OpenAI(api_key=OPENAI_API_KEY)

# Conexão com o banco via SQLAlchemy
password = quote_plus("super#")
DATABASE_URL = f"postgresql://postgres:{password}@localhost:5433/decision_db"
engine = create_engine(DATABASE_URL)


## Funções gerais

In [None]:
def generate_embedding(text, label=""):
    try:
        start = time.time()
        response = openai_client.embeddings.create(input=[text], model=EMBEDDING_MODEL)
        elapsed = time.time() - start
        print(f"⏱️ Tempo para gerar embedding ({label}): {elapsed:.2f}s")
        return np.array(response.data[0].embedding, dtype=np.float32)
    except Exception as e:
        print(f"❌ Erro ao gerar embedding ({label}): {e}")
        return None

def cv_json_to_text(data):
    partes = []

    if "experiencias" in data:
        for exp in data["experiencias"]:
            empresa = exp.get("empresa", "")
            cargo = exp.get("cargo", "")
            inicio = exp.get("inicio", "")
            fim = exp.get("fim", "") or "o momento"
            descricao = exp.get("descricao", "")
            frase = f"Experiência como {cargo} na empresa {empresa}, de {inicio} até {fim}. {descricao}".strip()
            partes.append(frase)

    if "formacoes" in data:
        for form in data["formacoes"]:
            curso = form.get("curso", "")
            instituicao = form.get("instituicao", "")
            frase = f"Formação acadêmica em {curso} pela instituição {instituicao}."
            partes.append(frase)

    habilidades = data.get("habilidades", [])
    if habilidades:
        frase = f"Habilidades técnicas incluem: {', '.join(habilidades)}."
        partes.append(frase)

    idiomas = data.get("idiomas", [])
    if idiomas:
        idiomas_str = []
        for idioma in idiomas:
            nome = idioma.get("idioma", "")
            nivel = idioma.get("nivel", "")
            idiomas_str.append(f"{nome} ({nivel})")
        frase = "Idiomas: " + ", ".join(idiomas_str) + "."
        partes.append(frase)

    return " ".join(partes)

## Busca registros pedentes
  - CVs sem texto semantico e embeddings

In [None]:
# Buscar registros a atualizar
with engine.begin() as conn:
    result = conn.execute(text("""
        SELECT id, cv_pt_json
        FROM processed_applicants
        WHERE cv_texto_semantico IS NULL OR cv_embedding IS NULL OR cv_embedding_vector IS NULL and cv_pt_json is not NULL
        LIMIT 30000
    """))
    registros = result.mappings().all()


## Processa registros e salva no banco

In [None]:
# Processar cada registro
for row in registros:
    id = row["id"]
    json_raw = row["cv_pt_json"]

    if not json_raw:
        print(f"⚠️ ID {id} não possui JSON válido.")
        continue

    cv_json = json_raw
    texto = cv_json_to_text(cv_json)
    embedding = generate_embedding(texto, label=f"id={id}")

    if embedding is not None:
        try:
            with engine.begin() as conn:
                conn.execute(text("""
                    UPDATE processed_applicants
                    SET 
                        cv_texto_semantico = :texto,
                        cv_embedding = :embedding,
                        cv_embedding_vector = :vector
                    WHERE id = :id
                """), {
                    "texto": texto,
                    "embedding": embedding.tobytes(),
                    "vector": embedding.tolist(),
                    "id": id
                })
            print(f"✅ Atualizado ID {id}")
        except Exception as e:
            print(f"❌ Falha ao atualizar ID {id}: {e}")
    else:
        print(f"❌ Embedding falhou para ID {id}")
