In [3]:
import json
import pandas as pd

# Função genérica para carregar JSON
def carregar_json(caminho):
    with open(caminho, 'r', encoding='utf-8') as f:
        return json.load(f)

# Função para processar arquivos no formato de prospects
def processar_prospects(json_data):
    lista = []
    for id_vaga, info in json_data.items():
        titulo = info.get("titulo", "")
        modalidade = info.get("modalidade", "")
        for prospect in info.get("prospects", []):
            prospect.update({
                "id_vaga": id_vaga,
                "titulo_vaga": titulo,
                "modalidade": modalidade
            })
            lista.append(prospect)
    return pd.DataFrame(lista)

# Função para processar arquivos no formato de vagas
def processar_vagas(json_data):
    lista = []
    for id_vaga, dados_vaga in json_data.items():
        item = {"id_vaga": id_vaga}
        for secao, valores in dados_vaga.items():
            if isinstance(valores, dict):
                for chave, valor in valores.items():
                    item[f"{secao}_{chave}"] = valor
        lista.append(item)
    return pd.DataFrame(lista)

# Função para processar arquivos no formato de applicants
def processar_applicants(json_data):
    lista = []
    for id_candidato, dados in json_data.items():
        base = {"id_candidato": id_candidato}
        for secao, valores in dados.items():
            if isinstance(valores, dict):
                for chave, valor in valores.items():
                    base[f"{secao}_{chave}"] = valor
        lista.append(base)
    return pd.DataFrame(lista)

# Caminhos dos arquivos
paths = {
    "prospects": "../data/raw/prospects.json",
    "vagas": "../data/raw/vagas.json",
    "applicants": "../data/raw/applicants.json"
}

# Criar os DataFrames finais
RAW_RH_PROSPECTS = processar_prospects(carregar_json(paths["prospects"]))
RAW_RH_VAGAS = processar_vagas(carregar_json(paths["vagas"]))
RAW_RH_APPLICANTS = processar_applicants(carregar_json(paths["applicants"]))


In [7]:
print(RAW_RH_PROSPECTS.info())
RAW_RH_PROSPECTS.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   nome                53759 non-null  object
 1   codigo              53759 non-null  object
 2   situacao_candidado  53759 non-null  object
 3   data_candidatura    53759 non-null  object
 4   ultima_atualizacao  53759 non-null  object
 5   comentario          53759 non-null  object
 6   recrutador          53759 non-null  object
 7   id_vaga             53759 non-null  object
 8   titulo_vaga         53759 non-null  object
 9   modalidade          53759 non-null  object
dtypes: object(10)
memory usage: 4.1+ MB
None


Unnamed: 0,nome,codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,id_vaga,titulo_vaga,modalidade
0,José Vieira,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,
1,Srta. Isabela Cavalcante,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,
2,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,
3,Alexia Barbosa,25360,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,
4,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,4533,2021-2605708-Microfocus Application Life Cycle...,


In [8]:
print(RAW_RH_VAGAS.info())
RAW_RH_VAGAS.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 45 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   id_vaga                                               14081 non-null  object
 1   informacoes_basicas_data_requicisao                   14081 non-null  object
 2   informacoes_basicas_limite_esperado_para_contratacao  14081 non-null  object
 3   informacoes_basicas_titulo_vaga                       14081 non-null  object
 4   informacoes_basicas_vaga_sap                          14081 non-null  object
 5   informacoes_basicas_cliente                           14081 non-null  object
 6   informacoes_basicas_solicitante_cliente               14081 non-null  object
 7   informacoes_basicas_empresa_divisao                   14081 non-null  object
 8   informacoes_basicas_requisitante                      14081 non-nu

Unnamed: 0,id_vaga,informacoes_basicas_data_requicisao,informacoes_basicas_limite_esperado_para_contratacao,informacoes_basicas_titulo_vaga,informacoes_basicas_vaga_sap,informacoes_basicas_cliente,informacoes_basicas_solicitante_cliente,informacoes_basicas_empresa_divisao,informacoes_basicas_requisitante,informacoes_basicas_analista_responsavel,...,perfil_vaga_demais_observacoes,perfil_vaga_viagens_requeridas,perfil_vaga_equipamentos_necessarios,beneficios_valor_venda,beneficios_valor_compra_1,beneficios_valor_compra_2,informacoes_basicas_data_inicial,informacoes_basicas_data_final,perfil_vaga_habilidades_comportamentais_necessarias,informacoes_basicas_nome_substituto
0,5185,04-05-2021,00-00-0000,Operation Lead -,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,...,100% Remoto Período – entre 5 – 6 meses,,Nenhum -,-,R$,,,,,
1,5184,04-05-2021,00-00-0000,Consultor PP/QM Sênior,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,...,• Início: Imediato • Fim: Jan/22,,Nenhum -,-,R$,,,,,
2,5183,04-05-2021,00-00-0000,ANALISTA PL/JR C/ SQL,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Albuquerque,...,Localização: Remoto Perfil: Analista Pleno ou ...,,Nenhum -,-,R$,,,,,
3,5182,04-05-2021,18-05-2021,Technical Architect - 11894809,Não,Nelson-Page,Dr. Raul Monteiro,Decision São Paulo,Cecília Freitas,Clara Rios,...,Budgeted Rate - indicate currency and type (ho...,Não,Notebook padrão -,- p/ mês (168h),fechado,,18-05-2021,17-01-2022,,
4,5181,04-05-2021,00-00-0000,Consultor SAP AUTHORIZATION (BCA) -Pleno / Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,...,contratação CLT full pela Decision locação rem...,Sim,Nenhum -,-,R$,,,,,


In [9]:
print(RAW_RH_APPLICANTS.info())
RAW_RH_APPLICANTS.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42482 entries, 0 to 42481
Data columns (total 56 columns):
 #   Column                                            Non-Null Count  Dtype 
---  ------                                            --------------  ----- 
 0   id_candidato                                      42482 non-null  object
 1   infos_basicas_telefone_recado                     42482 non-null  object
 2   infos_basicas_telefone                            42482 non-null  object
 3   infos_basicas_objetivo_profissional               42482 non-null  object
 4   infos_basicas_data_criacao                        42482 non-null  object
 5   infos_basicas_inserido_por                        42482 non-null  object
 6   infos_basicas_email                               42482 non-null  object
 7   infos_basicas_local                               42482 non-null  object
 8   infos_basicas_sabendo_de_nos_por                  42482 non-null  object
 9   infos_basicas_data_atualizac

Unnamed: 0,id_candidato,infos_basicas_telefone_recado,infos_basicas_telefone,infos_basicas_objetivo_profissional,infos_basicas_data_criacao,infos_basicas_inserido_por,infos_basicas_email,infos_basicas_local,infos_basicas_sabendo_de_nos_por,infos_basicas_data_atualizacao,...,cargo_atual_id_ibrati,cargo_atual_email_corporativo,cargo_atual_cargo_atual,cargo_atual_projeto_atual,cargo_atual_cliente,cargo_atual_unidade,cargo_atual_data_admissao,cargo_atual_data_ultima_promocao,cargo_atual_nome_superior_imediato,cargo_atual_email_superior_imediato
0,31000,,(11) 97048-2708,,10-11-2021 07:29:49,Luna Correia,carolina_aparecida@gmail.com,,,10-11-2021 07:29:49,...,,,,,,,,,,
1,31001,,(11) 93723-4396,Analista Administrativo,10-11-2021 08:56:16,Laura Pacheco,eduardo_rios@hotmail.com,"São Paulo, São Paulo",Outros,11-11-2021 11:10:31,...,,,,,,,,,,
2,31002,,(11) 92399-9824,Administrativo | Financeiro,10-11-2021 09:01:00,Laura Pacheco,pedro_henrique_carvalho@gmail.com,"São Paulo, São Paulo",Anúncio,10-11-2021 11:42:36,...,,,,,,,,,,
3,31003,,(11) 98100-1727,Área administrativa,10-11-2021 09:08:13,Laura Pacheco,thiago_barbosa@hotmail.com,"São Paulo, São Paulo",Site de Empregos,10-11-2021 16:04:51,...,,,,,,,,,,
4,31004,,(11) 92517-2678,,10-11-2021 09:18:46,Maria Clara Pires,diogo_das_neves@hotmail.com,,,10-11-2021 09:22:03,...,,,,,,,,,,
