## Imports e Configurações

In [None]:
import re
import json
import subprocess
import numpy as np
import time
from sqlalchemy import create_engine, text
from datetime import datetime
from urllib.parse import quote_plus
import openai

# Configuração do banco
password = quote_plus("super#")
DATABASE_URL = f"postgresql://postgres:{password}@localhost:5433/decision_db"
engine = create_engine(DATABASE_URL)

# Configuração dos modelos
OLLAMA_MODEL = "gemma3:4b-it-qat"
EMBEDDING_MODEL = "text-embedding-3-large"
OPENAI_API_KEY = "<chave_openai>"  # substitua pela sua chave real
openai_client = openai.OpenAI(api_key=OPENAI_API_KEY)


## Funções Gerais

In [3]:
def limpar_texto_llm(text: str) -> str:
    ansi_escape = re.compile(r'\x1B(?:[@-Z\\-_]|\[[0-?]*[ -/]*[@-~])')
    text = ansi_escape.sub('', text)
    text = re.sub(r'[⠁-⣿]+', '', text)
    return text.strip()

def gerar_texto_semantico_ollama(vaga) -> str:
    areas = vaga["perfil_vaga_areas_atuacao"] or ''
    atividades = vaga["perfil_vaga_principais_atividades"] or ''
    competencias = vaga["perfil_vaga_competencia_tecnicas_e_comportamentais"] or ''

    if not (areas and atividades and competencias):
        return ""

def gerar_embedding(texto, label=""):
    try:
        start = time.time()
        response = openai_client.embeddings.create(input=[texto], model=EMBEDDING_MODEL)
        elapsed = time.time() - start
        print(f"⏱️ Embedding gerado ({label}) em {elapsed:.2f}s")
        return np.array(response.data[0].embedding, dtype=np.float32)
    except Exception as e:
        print(f"❌ Erro ao gerar embedding ({label}): {e}")
        return None


    prompt = (
        "Você é um especialista em RH e NLP. Sua tarefa é gerar uma descrição de vaga formal e objetiva, "
        "com frases curtas e diretas, no mesmo estilo do exemplo abaixo:\n\n"
        "Experiência como Especialista em SAP ABAP na empresa IBM, de janeiro de 2020 até o momento. "
        "Responsável por desenvolvimento e manutenção de sistemas SAP utilizando a linguagem ABAP. "
        "Trabalhou em projetos de customização e integração de módulos SAP com foco técnico. "
        "Formação acadêmica em Ciência da Computação. "
        "Habilidades técnicas incluem: SAP ABAP, desenvolvimento de relatórios, user exits, enhancement points, BAPI, performance tuning e debugging.\n\n"
        "Com base nas informações abaixo, gere um novo parágrafo com o mesmo estilo. "
        "Comece com 'Experiência como Desenvolvedor ABAP'. Use linguagem formal, sem copiar o exemplo literalmente:\n\n"
        f"Área de atuação: {areas}\n"
        f"Principais atividades: {atividades}\n"
        f"Competências técnicas e comportamentais: {competencias}\n\n"
        "Finalize com: 'Habilidades técnicas incluem: ...' preenchendo com as competências listadas, se houver. "
        "Não use colchetes, datas fictícias, nomes de empresa ou instruções no texto final. Gere um parágrafo limpo, direto e natural."
    )

    try:
        result = subprocess.check_output(
            ["ollama", "run", OLLAMA_MODEL],
            input=prompt.encode("utf-8"),
            stderr=subprocess.STDOUT,
            timeout=120
        ).decode("utf-8")
        texto = limpar_texto_llm(result)
        return texto if len(texto) > 20 else ""
    except Exception as e:
        print(f"Erro no Ollama (vaga {vaga['id']}): {e}")
        return ""
    


## Busca registros pendentes

In [None]:
# Consulta vagas pendentes
with engine.begin() as conn:
    rows = conn.execute(text("""
        SELECT id, perfil_vaga_areas_atuacao, perfil_vaga_principais_atividades,
               perfil_vaga_competencia_tecnicas_e_comportamentais
        FROM vagas
        WHERE vaga_texto_semantico IS NULL OR vaga_embedding IS NULL
        LIMIT 100000
    """)).mappings().all()

print(f"🔎 Vagas pendentes encontradas: {len(rows)}")

## Atualiza com texto semantico e embeddings

In [7]:
for vaga in rows:
    print(f"\n🚀 Processando vaga ID {vaga['id']}")
    
    texto_semantico = gerar_texto_semantico_ollama(vaga)
    if not texto_semantico:
        print("⚠️ Texto semântico não gerado.")
        continue

    embedding = gerar_embedding(texto_semantico, label=f"vaga_{vaga['id']}")
    if embedding is None:
        continue

    # Atualiza no banco
    try:
        with engine.begin() as conn:
            conn.execute(text("""
                UPDATE vagas SET
                    vaga_texto_semantico = :texto,
                    vaga_embedding = :embedding,
                    vaga_embedding_vector = :vector,
                    updated_at = :updated
                WHERE id = :id
            """), {
                "texto": texto_semantico,
                "embedding": embedding.tobytes(),
                "vector": str(embedding.tolist()),
                "updated": datetime.utcnow(),
                "id": vaga["id"]
            })
        print("✅ Atualização concluída.")
    except Exception as e:
        print(f"❌ Falha ao atualizar vaga {vaga['id']}: {e}")


🔎 Vagas pendentes encontradas: 22

🚀 Processando vaga ID 1645
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11315
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11314
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10380
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10379
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10395
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10394
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10384
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10383
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10382
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 10381
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11882
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11728
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11727
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 11726
⚠️ Texto semântico não gerado.

🚀 Processando vaga ID 14112
⚠️ Texto semântico não gerado.

🚀 Proc