## Importação e configurações

In [6]:
import re
import time
import json
import subprocess
from sqlalchemy import create_engine, text
from datetime import datetime
import os

# 🔧 Conexão com o banco
DATABASE_URL = "postgresql://postgres:super#@localhost:5433/decision_db"
engine = create_engine(DATABASE_URL)

OLLAMA_MODEL = "gemma3:4b-it-qat"

ordem_niveis = {
    "ensino médio": 1, "técnico": 2, "tecnólogo": 4, "especialização": 3, "graduação": 5,
    "bacharel": 6,"pós-graduação": 7, "MBA": 8, "mestrado": 9, "doutorado": 10, "certificacao": 0
}

VALID_NIVEIS_IDIOMA = {"básico", "intermediário", "avançado", "fluente", "nativo"}

CHUNK_SIZE = 5000 #Divide o arquivo do CV para não sobrecarregar o modelo
DEBUG = False
SAVE_LOGS = False 
MAX_RETRIES = 10 # Máximo de tentativas para objter JSON

## Funções gerais

In [7]:
# Funções Utilitárias
def remove_ansi(text):
    ansi_escape = re.compile(r'\x1B(?:[@-Z\\-_]|\[[0-?]*[ -/]*[@-~])')
    return ansi_escape.sub('', text)

def corrigir_espacamento_letras(texto):
    def corrigir_linha(linha):
        return re.sub(r'((?:[A-Za-zÀ-ÿ]\s){3,}[A-Za-zÀ-ÿ])', lambda m: m.group(0).replace(' ', ''), linha)
    return '\n'.join(corrigir_linha(l) for l in texto.splitlines())

def split_chunks(text, size=CHUNK_SIZE):
    chunks = [text[i:i+size] for i in range(0, len(text), size)]
    if DEBUG:
        print(f"🔹 Total de chunks gerados: {len(chunks)}")
    return chunks

def salvar_logs(nome_base, conteudo):
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    filename = f"logs/{nome_base}_{timestamp}.txt"
    os.makedirs("logs", exist_ok=True)
    with open(filename, "w", encoding="utf-8") as f:
        f.write(conteudo)

def remover_duplicatas(lista, chaves):
    vistos = set()
    unicos = []
    for item in lista:
        chave = tuple(str(item.get(k) or "").strip().lower() for k in chaves)
        if chave not in vistos:
            vistos.add(chave)
            unicos.append(item)
    return unicos

def idioma_foi_mencionado(cv_text, idioma):
    if not idioma:
        return False
    return re.search(rf"\b{re.escape(str(idioma))}\b", cv_text, re.IGNORECASE)

def merge_results(r_form, r_exp, r_hab, r_idi):
    return {
        "formacoes": r_form.get("formacoes", []),
        "experiencias": r_exp.get("experiencias", []),
        "habilidades": r_hab.get("habilidades", []),
        "idiomas": r_idi.get("idiomas", [])
    }

## Busca registros não processados

In [8]:
sql = """
SELECT a.id, a.informacoes_pessoais_data_aceite, a.informacoes_pessoais_nome,
       a.informacoes_pessoais_cpf, a.informacoes_pessoais_fonte_indicacao,
       a.informacoes_pessoais_email, a.informacoes_pessoais_email_secundario,
       a.informacoes_pessoais_data_nascimento, a.informacoes_pessoais_telefone_celular,
       a.informacoes_pessoais_telefone_recado, a.informacoes_pessoais_sexo,
       a.informacoes_pessoais_estado_civil, a.informacoes_pessoais_pcd,
       a.informacoes_pessoais_endereco, a.informacoes_pessoais_skype,
       a.informacoes_pessoais_url_linkedin, a.informacoes_pessoais_facebook,
       a.informacoes_pessoais_download_cv, a.cv_pt
FROM applicants a
LEFT JOIN processed_applicants p ON a.id = p.id
WHERE p.id IS NULL
LIMIT 10000
"""

with engine.begin() as conn:
    results = conn.execute(text(sql)).mappings().all()

if not results:
    print("Nenhum registro novo encontrado.")
    exit()

## Função de extração e normalização de CV com LLM

In [9]:
def extract_section(applicant_id, section_name, schema_snippet, cv_text):
    cv_text = corrigir_espacamento_letras(cv_text)

    if section_name == "formacoes":
        prompt_base = (
            f"Você é um especialista em RH. Extraia apenas a **formação acadêmica formal** do currículo abaixo.\n\n"
            f"⚠️ NÃO inclua experiências profissionais, cargos ou atividades realizadas no trabalho.\n"
            f"⚠️ NÃO confunda certificações, treinamentos curtos ou cursos livres com formação acadêmica.\n"
            f"⚠️ Ignore nomes de empresas, funções (ex: analista, gerente, técnico) e ambientes de trabalho.\n"
            f"❌ Nunca use nomes de empresas como instituição de ensino.\n"
            f"❌ Nunca crie formações genéricas sem curso explícito.\n"
            f"❌ Nunca invente cursos com base no nome de instituições mencionadas em experiências profissionais (ex: onde a pessoa deu aula, participou de eventos ou prestou serviços).\n"
            f"✅ Considere apenas instituições formais (escolas, faculdades, universidades, centros técnicos reconhecidos).\n"
            f"✅ Sempre inclua o ensino médio (ex: 'ensino médio', '2º grau completo') se for mencionado.\n\n"
            f"📌 Certificações (ex: PMP, Java Programmer, SAFe Agilist) devem ser classificadas como tipo 'certificacao' no campo 'nivel'.\n"
            f"📌 Cursos livres, treinamentos, bootcamps, workshops e formações SAP devem ser classificados como tipo 'curso' no campo 'nivel'.\n"
            f"📌 Um curso simples ou certificação geralmente é de curta duração, não conduz a um diploma acadêmico e é focado em uma habilidade específica.\n"
            f"📌 Nunca classifique certificações, cursos livres ou formações SAP como 'tecnólogo'.\n"
            f"📌 Cursos com nome iniciado por **'Tecnologia em ...'** devem ser classificados como **'tecnólogo'** (nível superior).\n"
            f"📌 Cursos com nome iniciado por **'Técnico em ...'** devem ser classificados como **'técnico'** (nível médio).\n"
            f"📌 Atenção: **'Tecnologia'** no nome do curso indica um curso tecnólogo (superior), enquanto **'Técnico'** indica um curso técnico (médio). Nunca confunda os dois.\n\n"
            f"Formato esperado (JSON com a chave '{section_name}'):\n{schema_snippet}\n\n"
            f"Regras obrigatórias:\n"
            f"- Campo 'nivel': use apenas uma das opções: ensino médio, técnico, tecnólogo, graduação, pós-graduação, especialização, MBA, mestrado, doutorado, curso, certificacao.\n"
            f"- Campo 'observacoes': use apenas quando a formação estiver incompleta, trancada ou interrompida (ex: 'incompleto', 'trancado'); caso contrário, use null.\n"
            f"- Os campos 'ano_inicio' e 'ano_fim' devem obrigatoriamente conter mês e ano no formato MM/YYYY. Exemplo válido: '03/2018'.\n"
            f"- Nunca preencha apenas o mês (ex: '01') ou apenas o ano (ex: '2018'). Ambos devem estar presentes. Se o mês for desconhecido, use '01' como padrão.\n"
            f"- O JSON deve começar com '{{ \"{section_name}\": [' }}'"
        )

    elif section_name == "experiencias":
        prompt_base = (
            f"Você é um especialista em RH. Extraia todas as **experiências profissionais formais** do currículo abaixo.\n\n"
            f"{schema_snippet}\n\n"
            f"⚠️ **Regras obrigatórias**:\n"
            f"- Experiência é qualquer atividade em empresa, escola, hospital, órgão público ou consultoria com *cargo* declarado.\n"
            f"- NÃO confunda experiência com formação ou cursos.\n"
            f"- Ignore linhas como 'ensino superior', 'pós-graduação', 'MBA', etc., quando não houver cargo.\n"
            f"- Para cada experiência retorne:\n"
            f"  • **empresa**\n"
            f"  • **cargo**\n"
            f"  • **data início** e **data fim** devem estar obrigatoriamente no formato **MM/AAAA**, com **mês e ano em formato numérico** (ex: '03/2022'). Se o mês não for informado, use '01' como padrão.\n"
            f"  • **descrição** detalhada das atividades\n"
            f"- **NUNCA** preencha datas como 'MM/0000', '0000', '2022', 'jan/2020' ou similares. Use sempre números.\n"
            f"- Se não conseguir extrair ao menos o ANO, marque a experiência como **inválida** e NÃO a inclua.\n"
            f"- Cada empresa/cargo deve ser um item separado (não agrupe várias empresas).\n"
            f"- Instituições educacionais contam como experiência apenas se houver cargo (ex.: instrutor, professor).\n"
            f"- Se não houver experiências válidas, devolva: {{ \"{section_name}\": [] }}\n"
        )
        
    elif section_name == "habilidades":
        prompt_base = (
            f"Você é um especialista em RH. Extraia as habilidades técnicas e profissionais do currículo abaixo.\n\n"
            f"Formato: JSON com a chave '{section_name}' e lista de habilidades.\n\n"
            f"{schema_snippet}\n\n"
            f"Regras:\n"
            f"- Cada item deve ser uma habilidade única.\n"
            f"- Não agrupe várias ferramentas em uma única string.\n"
            f"- Idiomas não entram em habilidades."
        )
    elif section_name == "idiomas":
        prompt_base = (
            f"Você é um especialista em RH. Extraia **apenas os idiomas falados ou estudados** mencionados no currículo abaixo.\n\n"
            f"Formato esperado:\n{schema_snippet}\n\n"
            f"⚠️ Regras obrigatórias:\n"
            f"- NÃO inclua nomes de escolas de idiomas (ex: CNA, Wizard, Fisk, etc.)\n"
            f"- NÃO deduza idiomas com base em nomes de instituições, culturas ou nacionalidade\n"
            f"- NÃO inclua linguagens de programação (ex: Python, Java, etc.)\n"
            f"- Se nenhum idioma for citado claramente, retorne: {{ '{section_name}': [] }}\n"
            f"- Campo 'nivel' deve ser: básico, intermediário, avançado, fluente ou nativo. Use null se ausente."
        )

    chunks = split_chunks(cv_text)
    seen_chunks = set()
    combined_data = []

    for i, chunk in enumerate(chunks):
        chunk_key = hash(chunk)
        if chunk_key in seen_chunks:
            continue
        seen_chunks.add(chunk_key)

        print(f"🧩 Processando chunk {i+1}/{len(chunks)} com {len(chunk)} caracteres")
        prompt = f"{prompt_base}\n\nCurrículo (parte {i+1}/{len(chunks)}):\n{chunk}"

        if DEBUG:
            print(f"📤 Prompt enviado ao modelo:\n{prompt}")
            if SAVE_LOGS:
                salvar_logs(f"prompt_chunk{i+1}", prompt)

        for attempt in range(1, MAX_RETRIES + 1):
            try:
                prompt_atual = prompt
                output = subprocess.check_output(
                    ["ollama", "run", OLLAMA_MODEL, "--think=false"],
                    input=prompt_atual.encode("utf-8"),
                    stderr=subprocess.STDOUT,
                    timeout=300
                ).decode("utf-8")

                if DEBUG:
                    print(f"📥 Resposta do modelo:\n{output}")
                    if SAVE_LOGS:
                        salvar_logs(f"resposta_chunk{i+1}", output)

                if "{" not in output or "}" not in output:
                    raise ValueError("❌ A resposta não contém JSON.")

                raw_json = remove_ansi(output[output.find('{'):output.rfind('}') + 1]).strip()

                try:
                    parsed = json.loads(raw_json)
                except json.JSONDecodeError as e:
                    print(f"⚠️ Tentando ajuste adaptativo devido a erro de parsing: {e}")
                    prompt_reparo = (
                        f"{prompt_base}\n\n"
                        f"Currículo (parte {i+1}/{len(chunks)}):\n{chunk}\n\n"
                        f"⚠️ A resposta anterior gerou o erro:\n{str(e)}\n"
                        f"Por favor, corrija e retorne um JSON válido com a chave '{section_name}'."
                    )

                    if SAVE_LOGS:
                        os.makedirs("logs", exist_ok=True)
                        clean_output = remove_ansi(output)
                        log_data = (
                            f"applicant_id={applicant_id} | Erro de parsing: {str(e)}\n"
                            f"Resposta que falhou:\n{clean_output}\n\n"
                        )
                        log_filename = os.path.join("logs", f"reparo_prompt_{datetime.now().date()}.log")
                        with open(log_filename, "a", encoding="utf-8") as f:
                            f.write(log_data)
                        output = subprocess.check_output(
                            ["ollama", "run", OLLAMA_MODEL, "--think=false"],
                            input=prompt_reparo.encode("utf-8"),
                            stderr=subprocess.STDOUT,
                            timeout=120
                        ).decode("utf-8")

                    raw_json = remove_ansi(output[output.find('{'):output.rfind('}') + 1]).strip()
                    parsed = json.loads(raw_json)

                if isinstance(parsed, list):
                    parsed = {section_name: parsed}

                if section_name == "experiencias":
                    for item in parsed.get("experiencias", []):
                        if "data_inicio" in item:
                            item["inicio"] = item.pop("data_inicio")
                        if "data_inicio" in item:  # segurança dupla para inconsistências como "data inicio"
                            item["inicio"] = item.pop("data inicio")
                        if "data_fim" in item:
                            item["fim"] = item.pop("data_fim")
                        if "data fim" in item:
                            item["fim"] = item.pop("data fim")

                combined_data.extend(parsed.get(section_name, []))
                break  # Sucesso

            except Exception as e:
                print(f"⚠️ Erro ao extrair '{section_name}' do chunk {i+1} (tentativa {attempt}): {e}")
                if attempt == MAX_RETRIES and SAVE_LOGS:
                    salvar_logs(f"erro_chunk{i+1}", output)

    if section_name == "formacoes":
        combined_data = remover_duplicatas(combined_data, ["curso", "instituicao", "ano_inicio", "ano_fim"])
    elif section_name == "experiencias":
        combined_data = remover_duplicatas(combined_data, ["empresa", "cargo", "inicio", "fim"])
    elif section_name == "idiomas":
        combined_data = remover_duplicatas(combined_data, ["idioma", "nivel"])
    elif section_name == "habilidades":
        combined_data = list(set(item.strip() for item in combined_data if isinstance(item, str)))

    return {section_name: combined_data}

## Chama extração e insere no banco de dados

In [None]:
for idx, result in enumerate(results, 1):
    start_time = time.time()
    applicant_id = result["id"]
    print(f"\n🔄 Processando candidato {idx}/{len(results)} (ID: {applicant_id})")

    cv_text = result["cv_pt"]
    if not cv_text or len(cv_text.strip()) < 30:
        print("⚠️ Currículo vazio ou muito curto, pulando.")
        continue

    schema_form = json.dumps({"formacoes": [{"curso": "", "nivel": "", "instituicao": "", "ano_inicio": "", "ano_fim": "", "observacoes": None}]}, ensure_ascii=False)
    schema_exp  = json.dumps({"experiencias": [{"empresa": "", "cargo": "", "inicio": "", "fim": "", "descricao": ""}]}, ensure_ascii=False)
    schema_hab  = json.dumps({"habilidades": []}, ensure_ascii=False)
    schema_idi  = json.dumps({"idiomas": [{"idioma": "", "nivel": ""}]}, ensure_ascii=False)

    r_form = extract_section(applicant_id, "formacoes", schema_form, cv_text)
    r_exp  = extract_section(applicant_id, "experiencias", schema_exp, cv_text)
    r_hab  = extract_section(applicant_id, "habilidades", schema_hab, cv_text)
    r_idi  = extract_section(applicant_id, "idiomas", schema_idi, cv_text)

    if not r_form or not r_exp or not r_hab or not r_idi:
        print(f"⚠️ Extração incompleta para candidato {applicant_id}, pulando inserção.")
        continue

    for idioma in r_idi.get("idiomas", []):
        if not isinstance(idioma, dict):
            continue
        nivel = (idioma.get("nivel") or "").strip().lower()
        idioma["nivel"] = nivel if nivel in VALID_NIVEIS_IDIOMA else ""

    r_idi["idiomas"] = [
        idioma for idioma in r_idi.get("idiomas", [])
        if isinstance(idioma, dict) and idioma_foi_mencionado(cv_text, idioma.get("idioma", ""))
    ]

    for f in r_form.get("formacoes", []):
        if "observacoes" not in f:
            f["observacoes"] = None
        if isinstance(f.get("ano_fim"), str) and "incompleto" in f["ano_fim"].lower():
            f["ano_fim"] = None
            f["observacoes"] = "incompleto"

    final_json = merge_results(r_form, r_exp, r_hab, r_idi)

    nivel_maximo_formacao = None
    niveis = [
        (f.get("nivel") or "").strip().lower()
        for f in final_json.get("formacoes", [])
        if (
            (f.get("nivel") or "").strip().lower() in ordem_niveis and
            not ((f.get("observacoes") or "").strip().lower() in {"trancado", "em andamento", "interrompida"})
        )
    ]
    if niveis:
        nivel_maximo_formacao = max(niveis, key=lambda x: ordem_niveis[x])

    insert_sql = text("""
        INSERT INTO processed_applicants (
            id, data_aceite, nome, cpf, fonte_indicacao, email, email_secundario, data_nascimento,
            telefone_celular, telefone_recado, sexo, estado_civil, pcd, endereco, skype, url_linkedin,
            facebook, download_cv, cv_pt_json, nivel_maximo_formacao
        ) VALUES (
            :id, :data_aceite, :nome, :cpf, :fonte_indicacao, :email, :email_secundario, :data_nascimento,
            :telefone_celular, :telefone_recado, :sexo, :estado_civil, :pcd, :endereco, :skype, :url_linkedin,
            :facebook, :download_cv, :cv_pt_json, :nivel_maximo_formacao
        )
        ON CONFLICT (id) DO UPDATE SET
            data_aceite = EXCLUDED.data_aceite,
            nome = EXCLUDED.nome,
            cpf = EXCLUDED.cpf,
            fonte_indicacao = EXCLUDED.fonte_indicacao,
            email = EXCLUDED.email,
            email_secundario = EXCLUDED.email_secundario,
            data_nascimento = EXCLUDED.data_nascimento,
            telefone_celular = EXCLUDED.telefone_celular,
            telefone_recado = EXCLUDED.telefone_recado,
            sexo = EXCLUDED.sexo,
            estado_civil = EXCLUDED.estado_civil,
            pcd = EXCLUDED.pcd,
            endereco = EXCLUDED.endereco,
            skype = EXCLUDED.skype,
            url_linkedin = EXCLUDED.url_linkedin,
            facebook = EXCLUDED.facebook,
            download_cv = EXCLUDED.download_cv,
            cv_pt_json = EXCLUDED.cv_pt_json,
            nivel_maximo_formacao = EXCLUDED.nivel_maximo_formacao
    """)

    print("📦 JSON final a ser inserido no banco:")
    print(json.dumps(final_json, indent=2, ensure_ascii=False))

    with engine.begin() as conn:
        conn.execute(insert_sql, {
            "id": applicant_id,
            "data_aceite": result["informacoes_pessoais_data_aceite"],
            "nome": result["informacoes_pessoais_nome"],
            "cpf": result["informacoes_pessoais_cpf"],
            "fonte_indicacao": result["informacoes_pessoais_fonte_indicacao"],
            "email": result["informacoes_pessoais_email"],
            "email_secundario": result["informacoes_pessoais_email_secundario"],
            "data_nascimento": result["informacoes_pessoais_data_nascimento"],
            "telefone_celular": result["informacoes_pessoais_telefone_celular"],
            "telefone_recado": result["informacoes_pessoais_telefone_recado"],
            "sexo": result["informacoes_pessoais_sexo"],
            "estado_civil": result["informacoes_pessoais_estado_civil"],
            "pcd": result["informacoes_pessoais_pcd"],
            "endereco": result["informacoes_pessoais_endereco"],
            "skype": result["informacoes_pessoais_skype"],
            "url_linkedin": result["informacoes_pessoais_url_linkedin"],
            "facebook": result["informacoes_pessoais_facebook"],
            "download_cv": result["informacoes_pessoais_download_cv"],
            "cv_pt_json": json.dumps(final_json, ensure_ascii=False),
            "nivel_maximo_formacao": nivel_maximo_formacao
        })

    elapsed = time.time() - start_time
    print(f"✅ Candidato {applicant_id} inserido com sucesso. ⏱️ Tempo: {elapsed:.2f} segundos") 