## Imports e configurações

In [1]:
import openai
import numpy as np
import pandas as pd
import time
from urllib.parse import quote_plus
from sqlalchemy import create_engine, text

# Configuração OpenAI
OPENAI_API_KEY = "<chave_openai>"
EMBEDDING_MODEL = "text-embedding-3-large"
openai_client = openai.OpenAI(api_key=OPENAI_API_KEY)

# Conexão com PostgreSQL
password = quote_plus("super#")
DATABASE_URL = f"postgresql://postgres:{password}@localhost:5433/decision_db"
engine = create_engine(DATABASE_URL)

## Função para gerar embeddings

In [None]:
# Função para gerar embedding
def generate_embedding(text, label=""):
    try:
        start = time.time()
        response = openai_client.embeddings.create(input=[text], model=EMBEDDING_MODEL)
        elapsed = time.time() - start
        print(f"⏱️ Embedding gerado ({label}) em {elapsed:.2f}s")
        return np.array(response.data[0].embedding, dtype=np.float32)
    except Exception as e:
        print(f"❌ Erro no embedding ({label}): {e}")
        return None



## Teste de Busca Semantica

In [None]:
# 🔎 Texto da vaga ajustado para se parecer com o cv_texto_semantico
vaga_texto = (
    "Experiência como Especialista em SAP ABAP na empresa IBM, de janeiro de 2020 até o momento. "
    "Responsável por desenvolvimento e manutenção de sistemas SAP utilizando a linguagem ABAP. "
    "Trabalhou em projetos de customização e integração de módulos SAP com foco técnico. "
    "Formação acadêmica em Ciência da Computação."
    "Habilidades técnicas incluem: SAP ABAP, desenvolvimento de relatórios, user exits, enhancement points, BAPI, performance tuning e debugging."
)

vaga_embedding = generate_embedding(vaga_texto, label="Vaga")

# Etapa 2: Busca semântica (sem nenhum UPDATE)
with engine.begin() as conn:
    result = conn.execute(text(f"""
        SELECT id, nome, cv_texto_semantico,
               1 - (cv_embedding_vector <=> (:vaga_vec)::vector) AS similaridade
        FROM processed_applicants
        WHERE cv_embedding_vector IS NOT NULL
        ORDER BY cv_embedding_vector <=> (:vaga_vec)::vector
        LIMIT 3000
    """), {"vaga_vec": vaga_embedding.tolist()})
    
    candidatos = result.mappings().all()

# Mostrar resultados
df_resultado = pd.DataFrame(candidatos)
pd.set_option('display.max_colwidth', 500)
display(df_resultado)