In [49]:
import pandas as pd
import time
import os
from google import genai
import json
from dotenv import load_dotenv

In [None]:
load_dotenv()
client = genai.Client(api_key=os.getenv("api_key"))

In [None]:
df = pd.read_excel("source data/database cbo.xlsx", sheet_name = 0)
unique_cbo = df['cbo'].unique()

In [None]:
for cbo_atual in unique_cbo:
    print(f"\nüîÅ Processando CBO: {cbo_atual}")

    df_filtrado = df[df['cbo'] == cbo_atual].copy()
    df_filtrado['task_full'] = df_filtrado['task_group'] + ': ' + df_filtrado['task']
    tabela_tarefas = df_filtrado[['task_full', 'key']].to_string(index=False)

    description = df_filtrado['description'].unique()

    prompt_usuario = f"""
Voc√™ √© um especialista em an√°lise ocupacional e economia do trabalho, com profundo conhecimento da Classifica√ß√£o Brasileira de Ocupa√ß√µes (CBO).

Sua tarefa √© avaliar criticamente a *Frequ√™ncia* e a *Import√¢ncia* de uma lista de tarefas para o desempenho eficaz da ocupa√ß√£o "{description}", identificada pelo CBO {cbo_atual}.

*Instru√ß√£o Mestra: O Princ√≠pio da Centralidade Funcional*

Antes de avaliar qualquer tarefa, voc√™ deve primeiro considerar o *n√∫cleo funcional* da ocupa√ß√£o "{description}". Responda mentalmente: "Qual √© o prop√≥sito principal e a entrega de valor fundamental deste cargo?". Esta resposta ser√° sua √¢ncora para todas as avalia√ß√µes.

- *Contexto Acima de Tudo:* A avalia√ß√£o de cada tarefa deve ser relativa √† sua contribui√ß√£o para o n√∫cleo funcional da ocupa√ß√£o.
- *Evite o Vi√©s de Compet√™ncias Gen√©ricas:* Compet√™ncias pessoais (ex: "Demonstrar Empatia", "Trabalhar em Equipe") devem ser pontuadas estritamente dentro do contexto da ocupa√ß√£o.
    - *Exemplo-Guia:* A tarefa "Demonstrar Empatia" √© *extremamente importante (5)* e *constante (5)* para um Psicanalista (CBO 2515-50), pois √© a ferramenta central de seu trabalho. Para um Policial Militar (CBO 5172-10), a mesma tarefa, embora √∫til, √© *ocasional (2)* e de *import√¢ncia moderada (3)*, pois o n√∫cleo funcional do cargo √© a aplica√ß√£o da lei e a manuten√ß√£o da ordem.
- *An√°lise Global:* Analise a lista completa de tarefas antes de pontuar, para entender o escopo geral e garantir uma distribui√ß√£o de notas coerente e diferenciada.

*Crit√©rios de Avalia√ß√£o*

1.  *Frequ√™ncia (Escala de 1 a 5):* Qu√£o prevalente √© a tarefa na rotina de trabalho?
    - *1 (Muito Raramente):* Atividade excepcional, n√£o faz parte da rotina esperada do cargo.
    - *2 (Ocasionalmente):* Acontece de forma pontual ou em resposta a situa√ß√µes espec√≠ficas; n√£o √© uma atividade programada ou rotineira.
    - *3 (Frequentemente):* Parte regular e esperada das responsabilidades, mas n√£o ocupa a maior parte do tempo de trabalho.
    - *4 (Muito Frequentemente):* Uma das principais atividades do cargo; ocupa uma por√ß√£o significativa do tempo e da aten√ß√£o di√°ria.
    - *5 (Constantemente / Tarefa Central):* √â a ess√™ncia da ocupa√ß√£o. A atividade que define o papel e √© realizada de forma quase cont√≠nua.

2.  *Import√¢ncia (Escala de 1 a 5):* Qual o impacto da tarefa para o sucesso e o prop√≥sito da ocupa√ß√£o?
    - *1 (Nada Importante):* Tarefa acess√≥ria, sem impacto direto no resultado.
    - *2 (Pouco Importante):* Contribui marginalmente.
    - *3 (Moderadamente Importante):* Tarefa de suporte relevante, mas n√£o cr√≠tica.
    - *4 (Muito Importante):* Cr√≠tica para o bom desempenho, mas n√£o √© a miss√£o principal.
    - *5 (Extremamente Importante):* Tarefa fundamental. Sua m√° execu√ß√£o compromete diretamente a miss√£o e os resultados essenciais do cargo.

*Formato da Resposta*

Gere a frequ√™ncia e a import√¢ncia para cada tarefa na tabela abaixo. Sua resposta deve ser um JSON limpo, sem nenhum texto ou justificativa adicional.

*Ocupa√ß√£o:* "{description}"
*CBO:* {cbo_atual}
*Tarefas para Avalia√ß√£o:*
{tabela_tarefas}

*JSON de Sa√≠da:*
[
  {{
    "key": "key",
    "frequency": NUMERO_DE_1_A_5,
    "importance": NUMERO_DE_1_A_5
  }},
  {{
    "key": "key",
    "frequency": NUMERO_DE_1_A_5,
    "importance": NUMERO_DE_1_A_5
  }}
]
"""

    try:
        tempo_inicio = time.time()

        response = client.models.generate_content(
            model="gemini-2.5-flash",
            contents=prompt_usuario,
        )
        resposta = response.text
        resposta = resposta.replace("```json", "").replace("```", "")
        tempo_fim = time.time()
        duracao = tempo_fim - tempo_inicio
        print(f"CBO {cbo_atual} processado em {duracao:.2f} segundos")

        arquivo_saida = os.path.join("json/frequency_importance", f"{cbo_atual}.json")
        with open(arquivo_saida, "w", encoding="utf-8") as f:
            json.dump(json.loads(resposta), f, ensure_ascii=False, indent=4)

    except Exception as e:
        print(f"Erro ao processar CBO {cbo_atual}: {e}")

In [53]:
all_json = []
arquivos_com_erro = []

pasta = "json/frequency_importance"

for nome_arquivo in os.listdir(pasta):
    if nome_arquivo.endswith(".json"):
        caminho_arquivo = os.path.join(pasta, nome_arquivo)
        try:
            with open(caminho_arquivo, "r", encoding="utf-8") as f:
                conteudo = f.read().strip()
                if not conteudo:
                    raise ValueError("Arquivo vazio")
                dados = json.loads(conteudo)
                if isinstance(dados, list):
                    all_json.extend(dados)
                else:
                    all_json.append(dados)
        except Exception as e:
            print(f"Erro no arquivo '{nome_arquivo}': {e}")
            arquivos_com_erro.append(caminho_arquivo)


for caminho in arquivos_com_erro:
    try:
        os.remove(caminho)
        print(f"Arquivo deletado: {os.path.basename(caminho)}")
    except Exception as e:
        print(f"Erro ao deletar {os.path.basename(caminho)}: {e}")


with open("json/frequency_importance.json", "w", encoding="utf-8") as f:
    json.dump(all_json, f, ensure_ascii=False, indent=2)

In [54]:
with open("json/frequency_importance.json", "r", encoding="utf-8") as f:
    data = json.load(f)

df = pd.DataFrame(data)

df.to_excel("results/frequency_importance.xlsx", index=False)