## Importa√ß√£o e configura√ß√µes

In [6]:
import re
import time
import json
import subprocess
from sqlalchemy import create_engine, text
from datetime import datetime
import os

# üîß Conex√£o com o banco
DATABASE_URL = "postgresql://postgres:super#@localhost:5433/decision_db"
engine = create_engine(DATABASE_URL)

OLLAMA_MODEL = "gemma3:4b-it-qat"

ordem_niveis = {
    "ensino m√©dio": 1, "t√©cnico": 2, "tecn√≥logo": 4, "especializa√ß√£o": 3, "gradua√ß√£o": 5,
    "bacharel": 6,"p√≥s-gradua√ß√£o": 7, "MBA": 8, "mestrado": 9, "doutorado": 10, "certificacao": 0
}

VALID_NIVEIS_IDIOMA = {"b√°sico", "intermedi√°rio", "avan√ßado", "fluente", "nativo"}

CHUNK_SIZE = 5000 #Divide o arquivo do CV para n√£o sobrecarregar o modelo
DEBUG = False
SAVE_LOGS = False 
MAX_RETRIES = 10 # M√°ximo de tentativas para objter JSON

## Fun√ß√µes gerais

In [7]:
# Fun√ß√µes Utilit√°rias
def remove_ansi(text):
    ansi_escape = re.compile(r'\x1B(?:[@-Z\\-_]|\[[0-?]*[ -/]*[@-~])')
    return ansi_escape.sub('', text)

def corrigir_espacamento_letras(texto):
    def corrigir_linha(linha):
        return re.sub(r'((?:[A-Za-z√Ä-√ø]\s){3,}[A-Za-z√Ä-√ø])', lambda m: m.group(0).replace(' ', ''), linha)
    return '\n'.join(corrigir_linha(l) for l in texto.splitlines())

def split_chunks(text, size=CHUNK_SIZE):
    chunks = [text[i:i+size] for i in range(0, len(text), size)]
    if DEBUG:
        print(f"üîπ Total de chunks gerados: {len(chunks)}")
    return chunks

def salvar_logs(nome_base, conteudo):
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    filename = f"logs/{nome_base}_{timestamp}.txt"
    os.makedirs("logs", exist_ok=True)
    with open(filename, "w", encoding="utf-8") as f:
        f.write(conteudo)

def remover_duplicatas(lista, chaves):
    vistos = set()
    unicos = []
    for item in lista:
        chave = tuple(str(item.get(k) or "").strip().lower() for k in chaves)
        if chave not in vistos:
            vistos.add(chave)
            unicos.append(item)
    return unicos

def idioma_foi_mencionado(cv_text, idioma):
    if not idioma:
        return False
    return re.search(rf"\b{re.escape(str(idioma))}\b", cv_text, re.IGNORECASE)

def merge_results(r_form, r_exp, r_hab, r_idi):
    return {
        "formacoes": r_form.get("formacoes", []),
        "experiencias": r_exp.get("experiencias", []),
        "habilidades": r_hab.get("habilidades", []),
        "idiomas": r_idi.get("idiomas", [])
    }

## Busca registros n√£o processados

In [8]:
sql = """
SELECT a.id, a.informacoes_pessoais_data_aceite, a.informacoes_pessoais_nome,
       a.informacoes_pessoais_cpf, a.informacoes_pessoais_fonte_indicacao,
       a.informacoes_pessoais_email, a.informacoes_pessoais_email_secundario,
       a.informacoes_pessoais_data_nascimento, a.informacoes_pessoais_telefone_celular,
       a.informacoes_pessoais_telefone_recado, a.informacoes_pessoais_sexo,
       a.informacoes_pessoais_estado_civil, a.informacoes_pessoais_pcd,
       a.informacoes_pessoais_endereco, a.informacoes_pessoais_skype,
       a.informacoes_pessoais_url_linkedin, a.informacoes_pessoais_facebook,
       a.informacoes_pessoais_download_cv, a.cv_pt
FROM applicants a
LEFT JOIN processed_applicants p ON a.id = p.id
WHERE p.id IS NULL
LIMIT 10000
"""

with engine.begin() as conn:
    results = conn.execute(text(sql)).mappings().all()

if not results:
    print("Nenhum registro novo encontrado.")
    exit()

## Fun√ß√£o de extra√ß√£o e normaliza√ß√£o de CV com LLM

In [9]:
def extract_section(applicant_id, section_name, schema_snippet, cv_text):
    cv_text = corrigir_espacamento_letras(cv_text)

    if section_name == "formacoes":
        prompt_base = (
            f"Voc√™ √© um especialista em RH. Extraia apenas a **forma√ß√£o acad√™mica formal** do curr√≠culo abaixo.\n\n"
            f"‚ö†Ô∏è N√ÉO inclua experi√™ncias profissionais, cargos ou atividades realizadas no trabalho.\n"
            f"‚ö†Ô∏è N√ÉO confunda certifica√ß√µes, treinamentos curtos ou cursos livres com forma√ß√£o acad√™mica.\n"
            f"‚ö†Ô∏è Ignore nomes de empresas, fun√ß√µes (ex: analista, gerente, t√©cnico) e ambientes de trabalho.\n"
            f"‚ùå Nunca use nomes de empresas como institui√ß√£o de ensino.\n"
            f"‚ùå Nunca crie forma√ß√µes gen√©ricas sem curso expl√≠cito.\n"
            f"‚ùå Nunca invente cursos com base no nome de institui√ß√µes mencionadas em experi√™ncias profissionais (ex: onde a pessoa deu aula, participou de eventos ou prestou servi√ßos).\n"
            f"‚úÖ Considere apenas institui√ß√µes formais (escolas, faculdades, universidades, centros t√©cnicos reconhecidos).\n"
            f"‚úÖ Sempre inclua o ensino m√©dio (ex: 'ensino m√©dio', '2¬∫ grau completo') se for mencionado.\n\n"
            f"üìå Certifica√ß√µes (ex: PMP, Java Programmer, SAFe Agilist) devem ser classificadas como tipo 'certificacao' no campo 'nivel'.\n"
            f"üìå Cursos livres, treinamentos, bootcamps, workshops e forma√ß√µes SAP devem ser classificados como tipo 'curso' no campo 'nivel'.\n"
            f"üìå Um curso simples ou certifica√ß√£o geralmente √© de curta dura√ß√£o, n√£o conduz a um diploma acad√™mico e √© focado em uma habilidade espec√≠fica.\n"
            f"üìå Nunca classifique certifica√ß√µes, cursos livres ou forma√ß√µes SAP como 'tecn√≥logo'.\n"
            f"üìå Cursos com nome iniciado por **'Tecnologia em ...'** devem ser classificados como **'tecn√≥logo'** (n√≠vel superior).\n"
            f"üìå Cursos com nome iniciado por **'T√©cnico em ...'** devem ser classificados como **'t√©cnico'** (n√≠vel m√©dio).\n"
            f"üìå Aten√ß√£o: **'Tecnologia'** no nome do curso indica um curso tecn√≥logo (superior), enquanto **'T√©cnico'** indica um curso t√©cnico (m√©dio). Nunca confunda os dois.\n\n"
            f"Formato esperado (JSON com a chave '{section_name}'):\n{schema_snippet}\n\n"
            f"Regras obrigat√≥rias:\n"
            f"- Campo 'nivel': use apenas uma das op√ß√µes: ensino m√©dio, t√©cnico, tecn√≥logo, gradua√ß√£o, p√≥s-gradua√ß√£o, especializa√ß√£o, MBA, mestrado, doutorado, curso, certificacao.\n"
            f"- Campo 'observacoes': use apenas quando a forma√ß√£o estiver incompleta, trancada ou interrompida (ex: 'incompleto', 'trancado'); caso contr√°rio, use null.\n"
            f"- Os campos 'ano_inicio' e 'ano_fim' devem obrigatoriamente conter m√™s e ano no formato MM/YYYY. Exemplo v√°lido: '03/2018'.\n"
            f"- Nunca preencha apenas o m√™s (ex: '01') ou apenas o ano (ex: '2018'). Ambos devem estar presentes. Se o m√™s for desconhecido, use '01' como padr√£o.\n"
            f"- O JSON deve come√ßar com '{{ \"{section_name}\": [' }}'"
        )

    elif section_name == "experiencias":
        prompt_base = (
            f"Voc√™ √© um especialista em RH. Extraia todas as **experi√™ncias profissionais formais** do curr√≠culo abaixo.\n\n"
            f"{schema_snippet}\n\n"
            f"‚ö†Ô∏è **Regras obrigat√≥rias**:\n"
            f"- Experi√™ncia √© qualquer atividade em empresa, escola, hospital, √≥rg√£o p√∫blico ou consultoria com *cargo* declarado.\n"
            f"- N√ÉO confunda experi√™ncia com forma√ß√£o ou cursos.\n"
            f"- Ignore linhas como 'ensino superior', 'p√≥s-gradua√ß√£o', 'MBA', etc., quando n√£o houver cargo.\n"
            f"- Para cada experi√™ncia retorne:\n"
            f"  ‚Ä¢ **empresa**\n"
            f"  ‚Ä¢ **cargo**\n"
            f"  ‚Ä¢ **data in√≠cio** e **data fim** devem estar obrigatoriamente no formato **MM/AAAA**, com **m√™s e ano em formato num√©rico** (ex: '03/2022'). Se o m√™s n√£o for informado, use '01' como padr√£o.\n"
            f"  ‚Ä¢ **descri√ß√£o** detalhada das atividades\n"
            f"- **NUNCA** preencha datas como 'MM/0000', '0000', '2022', 'jan/2020' ou similares. Use sempre n√∫meros.\n"
            f"- Se n√£o conseguir extrair ao menos o ANO, marque a experi√™ncia como **inv√°lida** e N√ÉO a inclua.\n"
            f"- Cada empresa/cargo deve ser um item separado (n√£o agrupe v√°rias empresas).\n"
            f"- Institui√ß√µes educacionais contam como experi√™ncia apenas se houver cargo (ex.: instrutor, professor).\n"
            f"- Se n√£o houver experi√™ncias v√°lidas, devolva: {{ \"{section_name}\": [] }}\n"
        )
        
    elif section_name == "habilidades":
        prompt_base = (
            f"Voc√™ √© um especialista em RH. Extraia as habilidades t√©cnicas e profissionais do curr√≠culo abaixo.\n\n"
            f"Formato: JSON com a chave '{section_name}' e lista de habilidades.\n\n"
            f"{schema_snippet}\n\n"
            f"Regras:\n"
            f"- Cada item deve ser uma habilidade √∫nica.\n"
            f"- N√£o agrupe v√°rias ferramentas em uma √∫nica string.\n"
            f"- Idiomas n√£o entram em habilidades."
        )
    elif section_name == "idiomas":
        prompt_base = (
            f"Voc√™ √© um especialista em RH. Extraia **apenas os idiomas falados ou estudados** mencionados no curr√≠culo abaixo.\n\n"
            f"Formato esperado:\n{schema_snippet}\n\n"
            f"‚ö†Ô∏è Regras obrigat√≥rias:\n"
            f"- N√ÉO inclua nomes de escolas de idiomas (ex: CNA, Wizard, Fisk, etc.)\n"
            f"- N√ÉO deduza idiomas com base em nomes de institui√ß√µes, culturas ou nacionalidade\n"
            f"- N√ÉO inclua linguagens de programa√ß√£o (ex: Python, Java, etc.)\n"
            f"- Se nenhum idioma for citado claramente, retorne: {{ '{section_name}': [] }}\n"
            f"- Campo 'nivel' deve ser: b√°sico, intermedi√°rio, avan√ßado, fluente ou nativo. Use null se ausente."
        )

    chunks = split_chunks(cv_text)
    seen_chunks = set()
    combined_data = []

    for i, chunk in enumerate(chunks):
        chunk_key = hash(chunk)
        if chunk_key in seen_chunks:
            continue
        seen_chunks.add(chunk_key)

        print(f"üß© Processando chunk {i+1}/{len(chunks)} com {len(chunk)} caracteres")
        prompt = f"{prompt_base}\n\nCurr√≠culo (parte {i+1}/{len(chunks)}):\n{chunk}"

        if DEBUG:
            print(f"üì§ Prompt enviado ao modelo:\n{prompt}")
            if SAVE_LOGS:
                salvar_logs(f"prompt_chunk{i+1}", prompt)

        for attempt in range(1, MAX_RETRIES + 1):
            try:
                prompt_atual = prompt
                output = subprocess.check_output(
                    ["ollama", "run", OLLAMA_MODEL, "--think=false"],
                    input=prompt_atual.encode("utf-8"),
                    stderr=subprocess.STDOUT,
                    timeout=300
                ).decode("utf-8")

                if DEBUG:
                    print(f"üì• Resposta do modelo:\n{output}")
                    if SAVE_LOGS:
                        salvar_logs(f"resposta_chunk{i+1}", output)

                if "{" not in output or "}" not in output:
                    raise ValueError("‚ùå A resposta n√£o cont√©m JSON.")

                raw_json = remove_ansi(output[output.find('{'):output.rfind('}') + 1]).strip()

                try:
                    parsed = json.loads(raw_json)
                except json.JSONDecodeError as e:
                    print(f"‚ö†Ô∏è Tentando ajuste adaptativo devido a erro de parsing: {e}")
                    prompt_reparo = (
                        f"{prompt_base}\n\n"
                        f"Curr√≠culo (parte {i+1}/{len(chunks)}):\n{chunk}\n\n"
                        f"‚ö†Ô∏è A resposta anterior gerou o erro:\n{str(e)}\n"
                        f"Por favor, corrija e retorne um JSON v√°lido com a chave '{section_name}'."
                    )

                    if SAVE_LOGS:
                        os.makedirs("logs", exist_ok=True)
                        clean_output = remove_ansi(output)
                        log_data = (
                            f"applicant_id={applicant_id} | Erro de parsing: {str(e)}\n"
                            f"Resposta que falhou:\n{clean_output}\n\n"
                        )
                        log_filename = os.path.join("logs", f"reparo_prompt_{datetime.now().date()}.log")
                        with open(log_filename, "a", encoding="utf-8") as f:
                            f.write(log_data)
                        output = subprocess.check_output(
                            ["ollama", "run", OLLAMA_MODEL, "--think=false"],
                            input=prompt_reparo.encode("utf-8"),
                            stderr=subprocess.STDOUT,
                            timeout=120
                        ).decode("utf-8")

                    raw_json = remove_ansi(output[output.find('{'):output.rfind('}') + 1]).strip()
                    parsed = json.loads(raw_json)

                if isinstance(parsed, list):
                    parsed = {section_name: parsed}

                if section_name == "experiencias":
                    for item in parsed.get("experiencias", []):
                        if "data_inicio" in item:
                            item["inicio"] = item.pop("data_inicio")
                        if "data_inicio" in item:  # seguran√ßa dupla para inconsist√™ncias como "data inicio"
                            item["inicio"] = item.pop("data inicio")
                        if "data_fim" in item:
                            item["fim"] = item.pop("data_fim")
                        if "data fim" in item:
                            item["fim"] = item.pop("data fim")

                combined_data.extend(parsed.get(section_name, []))
                break  # Sucesso

            except Exception as e:
                print(f"‚ö†Ô∏è Erro ao extrair '{section_name}' do chunk {i+1} (tentativa {attempt}): {e}")
                if attempt == MAX_RETRIES and SAVE_LOGS:
                    salvar_logs(f"erro_chunk{i+1}", output)

    if section_name == "formacoes":
        combined_data = remover_duplicatas(combined_data, ["curso", "instituicao", "ano_inicio", "ano_fim"])
    elif section_name == "experiencias":
        combined_data = remover_duplicatas(combined_data, ["empresa", "cargo", "inicio", "fim"])
    elif section_name == "idiomas":
        combined_data = remover_duplicatas(combined_data, ["idioma", "nivel"])
    elif section_name == "habilidades":
        combined_data = list(set(item.strip() for item in combined_data if isinstance(item, str)))

    return {section_name: combined_data}

## Chama extra√ß√£o e insere no banco de dados

In [None]:
for idx, result in enumerate(results, 1):
    start_time = time.time()
    applicant_id = result["id"]
    print(f"\nüîÑ Processando candidato {idx}/{len(results)} (ID: {applicant_id})")

    cv_text = result["cv_pt"]
    if not cv_text or len(cv_text.strip()) < 30:
        print("‚ö†Ô∏è Curr√≠culo vazio ou muito curto, pulando.")
        continue

    schema_form = json.dumps({"formacoes": [{"curso": "", "nivel": "", "instituicao": "", "ano_inicio": "", "ano_fim": "", "observacoes": None}]}, ensure_ascii=False)
    schema_exp  = json.dumps({"experiencias": [{"empresa": "", "cargo": "", "inicio": "", "fim": "", "descricao": ""}]}, ensure_ascii=False)
    schema_hab  = json.dumps({"habilidades": []}, ensure_ascii=False)
    schema_idi  = json.dumps({"idiomas": [{"idioma": "", "nivel": ""}]}, ensure_ascii=False)

    r_form = extract_section(applicant_id, "formacoes", schema_form, cv_text)
    r_exp  = extract_section(applicant_id, "experiencias", schema_exp, cv_text)
    r_hab  = extract_section(applicant_id, "habilidades", schema_hab, cv_text)
    r_idi  = extract_section(applicant_id, "idiomas", schema_idi, cv_text)

    if not r_form or not r_exp or not r_hab or not r_idi:
        print(f"‚ö†Ô∏è Extra√ß√£o incompleta para candidato {applicant_id}, pulando inser√ß√£o.")
        continue

    for idioma in r_idi.get("idiomas", []):
        if not isinstance(idioma, dict):
            continue
        nivel = (idioma.get("nivel") or "").strip().lower()
        idioma["nivel"] = nivel if nivel in VALID_NIVEIS_IDIOMA else ""

    r_idi["idiomas"] = [
        idioma for idioma in r_idi.get("idiomas", [])
        if isinstance(idioma, dict) and idioma_foi_mencionado(cv_text, idioma.get("idioma", ""))
    ]

    for f in r_form.get("formacoes", []):
        if "observacoes" not in f:
            f["observacoes"] = None
        if isinstance(f.get("ano_fim"), str) and "incompleto" in f["ano_fim"].lower():
            f["ano_fim"] = None
            f["observacoes"] = "incompleto"

    final_json = merge_results(r_form, r_exp, r_hab, r_idi)

    nivel_maximo_formacao = None
    niveis = [
        (f.get("nivel") or "").strip().lower()
        for f in final_json.get("formacoes", [])
        if (
            (f.get("nivel") or "").strip().lower() in ordem_niveis and
            not ((f.get("observacoes") or "").strip().lower() in {"trancado", "em andamento", "interrompida"})
        )
    ]
    if niveis:
        nivel_maximo_formacao = max(niveis, key=lambda x: ordem_niveis[x])

    insert_sql = text("""
        INSERT INTO processed_applicants (
            id, data_aceite, nome, cpf, fonte_indicacao, email, email_secundario, data_nascimento,
            telefone_celular, telefone_recado, sexo, estado_civil, pcd, endereco, skype, url_linkedin,
            facebook, download_cv, cv_pt_json, nivel_maximo_formacao
        ) VALUES (
            :id, :data_aceite, :nome, :cpf, :fonte_indicacao, :email, :email_secundario, :data_nascimento,
            :telefone_celular, :telefone_recado, :sexo, :estado_civil, :pcd, :endereco, :skype, :url_linkedin,
            :facebook, :download_cv, :cv_pt_json, :nivel_maximo_formacao
        )
        ON CONFLICT (id) DO UPDATE SET
            data_aceite = EXCLUDED.data_aceite,
            nome = EXCLUDED.nome,
            cpf = EXCLUDED.cpf,
            fonte_indicacao = EXCLUDED.fonte_indicacao,
            email = EXCLUDED.email,
            email_secundario = EXCLUDED.email_secundario,
            data_nascimento = EXCLUDED.data_nascimento,
            telefone_celular = EXCLUDED.telefone_celular,
            telefone_recado = EXCLUDED.telefone_recado,
            sexo = EXCLUDED.sexo,
            estado_civil = EXCLUDED.estado_civil,
            pcd = EXCLUDED.pcd,
            endereco = EXCLUDED.endereco,
            skype = EXCLUDED.skype,
            url_linkedin = EXCLUDED.url_linkedin,
            facebook = EXCLUDED.facebook,
            download_cv = EXCLUDED.download_cv,
            cv_pt_json = EXCLUDED.cv_pt_json,
            nivel_maximo_formacao = EXCLUDED.nivel_maximo_formacao
    """)

    print("üì¶ JSON final a ser inserido no banco:")
    print(json.dumps(final_json, indent=2, ensure_ascii=False))

    with engine.begin() as conn:
        conn.execute(insert_sql, {
            "id": applicant_id,
            "data_aceite": result["informacoes_pessoais_data_aceite"],
            "nome": result["informacoes_pessoais_nome"],
            "cpf": result["informacoes_pessoais_cpf"],
            "fonte_indicacao": result["informacoes_pessoais_fonte_indicacao"],
            "email": result["informacoes_pessoais_email"],
            "email_secundario": result["informacoes_pessoais_email_secundario"],
            "data_nascimento": result["informacoes_pessoais_data_nascimento"],
            "telefone_celular": result["informacoes_pessoais_telefone_celular"],
            "telefone_recado": result["informacoes_pessoais_telefone_recado"],
            "sexo": result["informacoes_pessoais_sexo"],
            "estado_civil": result["informacoes_pessoais_estado_civil"],
            "pcd": result["informacoes_pessoais_pcd"],
            "endereco": result["informacoes_pessoais_endereco"],
            "skype": result["informacoes_pessoais_skype"],
            "url_linkedin": result["informacoes_pessoais_url_linkedin"],
            "facebook": result["informacoes_pessoais_facebook"],
            "download_cv": result["informacoes_pessoais_download_cv"],
            "cv_pt_json": json.dumps(final_json, ensure_ascii=False),
            "nivel_maximo_formacao": nivel_maximo_formacao
        })

    elapsed = time.time() - start_time
    print(f"‚úÖ Candidato {applicant_id} inserido com sucesso. ‚è±Ô∏è Tempo: {elapsed:.2f} segundos") 