In [204]:
import pandas as pd
import json

print("Bibliotecas importadas.")

Bibliotecas importadas.


## Definição dos Nomes dos Arquivos

In [205]:
jobs_filename = '../data/raw/vagas.json'
applicants_filename = '../data/raw/applicants.json'
prospects_relationship_filename = '../data/raw/prospects.json'

print(f"Arquivo de Vagas (Jobs):                 {jobs_filename}")
print(f"Arquivo de Candidatos (Applicants):      {applicants_filename}")
print(f"Arquivo de Relacionamento (Prospects):   {prospects_relationship_filename}")

Arquivo de Vagas (Jobs):                 ../data/raw/vagas.json
Arquivo de Candidatos (Applicants):      ../data/raw/applicants.json
Arquivo de Relacionamento (Prospects):   ../data/raw/prospects.json


## Carregamento do DataFrame de Vagas (Jobs)

In [206]:
print(f"Tentando carregar vagas de: {jobs_filename}")
df_jobs = None
try:
    # Carrega o JSON inteiro usando a biblioteca json
    with open(jobs_filename, 'r', encoding='utf-8') as f:
        jobs_raw_data = json.load(f)

    # Transforma o dicionário em uma lista de registros
    jobs_list_for_normalize = []
    if isinstance(jobs_raw_data, dict):
        for job_id, details in jobs_raw_data.items():
            record = {'id_vaga_original_jobs': job_id} # Adiciona o ID da vaga como uma coluna
            if isinstance(details, dict):
                record.update(details) # Adiciona as chaves do dicionário 'details'
            else:
                print(f"!!! Aviso: Estrutura inesperada para vaga ID {job_id}. Detalhes não são um dicionário.")
            jobs_list_for_normalize.append(record)
    else:
        raise ValueError(f"O arquivo '{jobs_filename}' não é um dicionário no nível raiz como esperado para o achatamento.")

    if jobs_list_for_normalize:
        # Usa json_normalize para achatar as estruturas aninhadas.
        df_jobs = pd.json_normalize(jobs_list_for_normalize, sep='_')
        print(f">>> DataFrame df_jobs carregado e achatado com sucesso! ({len(df_jobs)} registros, {len(df_jobs.columns)} colunas)")
    else:
        print(f"!!! AVISO: Nenhum dado de vaga encontrado ou processado do arquivo {jobs_filename}.")
        df_jobs = pd.DataFrame() # Cria um DataFrame vazio se não houver dados

except FileNotFoundError:
    print(f"!!! ERRO: Arquivo '{jobs_filename}' não encontrado.")
except json.JSONDecodeError:
    print(f"!!! ERRO: Falha ao decodificar o JSON em '{jobs_filename}'. Verifique se o arquivo é um JSON válido.")
except ValueError as ve:
     print(f"!!! ERRO ao processar o JSON de Jobs: {ve}")
except Exception as e:
    print(f"!!! ERRO inesperado ao carregar e achatar {jobs_filename}: {e}")

# Exibe confirmação ou erro
if df_jobs is not None:
    print("DataFrame df_jobs criado.")
else:
    print("Falha ao criar df_jobs.")

Tentando carregar vagas de: ../data/raw/vagas.json
>>> DataFrame df_jobs carregado e achatado com sucesso! (14081 registros, 45 colunas)
DataFrame df_jobs criado.


In [207]:
df_jobs.head(10)

Unnamed: 0,id_vaga_original_jobs,informacoes_basicas_data_requicisao,informacoes_basicas_limite_esperado_para_contratacao,informacoes_basicas_titulo_vaga,informacoes_basicas_vaga_sap,informacoes_basicas_cliente,informacoes_basicas_solicitante_cliente,informacoes_basicas_empresa_divisao,informacoes_basicas_requisitante,informacoes_basicas_analista_responsavel,informacoes_basicas_tipo_contratacao,informacoes_basicas_prazo_contratacao,informacoes_basicas_objetivo_vaga,informacoes_basicas_prioridade_vaga,informacoes_basicas_origem_vaga,informacoes_basicas_superior_imediato,informacoes_basicas_nome,informacoes_basicas_telefone,perfil_vaga_pais,perfil_vaga_estado,perfil_vaga_cidade,perfil_vaga_bairro,perfil_vaga_regiao,perfil_vaga_local_trabalho,perfil_vaga_vaga_especifica_para_pcd,perfil_vaga_faixa_etaria,perfil_vaga_horario_trabalho,perfil_vaga_nivel profissional,perfil_vaga_nivel_academico,perfil_vaga_nivel_ingles,perfil_vaga_nivel_espanhol,perfil_vaga_outro_idioma,perfil_vaga_areas_atuacao,perfil_vaga_principais_atividades,perfil_vaga_competencia_tecnicas_e_comportamentais,perfil_vaga_demais_observacoes,perfil_vaga_viagens_requeridas,perfil_vaga_equipamentos_necessarios,beneficios_valor_venda,beneficios_valor_compra_1,beneficios_valor_compra_2,informacoes_basicas_data_inicial,informacoes_basicas_data_final,perfil_vaga_habilidades_comportamentais_necessarias,informacoes_basicas_nome_substituto
0,5185,04-05-2021,00-00-0000,Operation Lead -,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Avançado,Fluente,,TI - Sistemas e Ferramentas-,Operations Lead\n\nRoles & Responsibilities:\n...,Required Skills:\n• Prior experience in Cloud ...,100% Remoto Período – entre 5 – 6 meses,,Nenhum -,-,R$,,,,,
1,5184,04-05-2021,00-00-0000,Consultor PP/QM Sênior,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,Contratação,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Fluente,Nenhum,,TI - Desenvolvimento/Programação-,Consultor PP/QM Sr.\n\n• Consultor PP/QM Sênio...,• Consultor PP/QM Sênior com experiencia em pr...,• Início: Imediato • Fim: Jan/22,,Nenhum -,-,R$,,,,,
2,5183,04-05-2021,00-00-0000,ANALISTA PL/JR C/ SQL,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Albuquerque,CLT Full,,RFP,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Analista,Ensino Superior Completo,Nenhum,Intermediário,,TI - Sistemas e Ferramentas-,Descrição – Atividades:\n\no Monitoramento das...,Requisitos mandatórios:\n\no Conhecimentos Téc...,Localização: Remoto Perfil: Analista Pleno ou ...,,Nenhum -,-,R$,,,,,
3,5182,04-05-2021,18-05-2021,Technical Architect - 11894809,Não,Nelson-Page,Dr. Raul Monteiro,Decision São Paulo,Cecília Freitas,Clara Rios,"PJ/Autônomo, CLT Full",Determinado,Contratação,Alta: Alta complexidade 3 a 5 dias,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Analista,Ensino Superior Completo,Básico,Básico,,TI - Projetos-,Descrição/Comentário: Architecture Frameworks ...,Descrição/Comentário: Architecture Frameworks ...,Budgeted Rate - indicate currency and type (ho...,Não,Notebook padrão -,- p/ mês (168h),fechado,,18-05-2021,17-01-2022,,
4,5181,04-05-2021,00-00-0000,Consultor SAP AUTHORIZATION (BCA) -Pleno / Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Intermediário,Nenhum,,TI - SAP-,Experiência como Consultor SAP AUTHORIZATION (...,Experiência como Consultor SAP AUTHORIZATION (...,contratação CLT full pela Decision locação rem...,Sim,Nenhum -,-,R$,,,,,
5,5180,04-05-2021,00-00-0000,Desenvolvedor Web Pleno / Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Raquel Vieira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Básico,Nenhum,,TI - Desenvolvimento/Programação-,"Graduated or with course of programming logic,...",Desenvolvedor Web (Microsoft .Net).\nconhecime...,contratação CLT full pela Decision locação rem...,Não,,-,R$,,,,A mais urgente é de consultor Web (programador...,
6,5179,04-05-2021,00-00-0000,Consultor SAP HR Pleno,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Pleno,Ensino Superior Completo,Técnico,Nenhum,,TI - SAP-,Experiência como Coordenado HR Pleno,Experiência como Coordenado HR Pleno,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
7,5178,04-05-2021,00-00-0000,Consultor FI Pleno / Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Intermediário,Nenhum,,TI - SAP-,Experiência como Consultor FI Pleno / Sênior,Experiência como Consultor FI Pleno / Sênior,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
8,5177,04-05-2021,00-00-0000,Consultor SAP CS / PM Pleno / Senior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Avançado,Nenhum,,TI - SAP-,Experiência como Consultor SAP CS / PM,Experiência como Consultor SAP CS / PM,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
9,5176,04-05-2021,00-00-0000,Consultor SAP SD Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,,,,Superior Imediato:,,,Brasil,Paraná,Londrina,,,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Técnico,Nenhum,,TI - SAP-,Experiência como Consultor SAP SD Sênior,Experiência como Consultor SAP SD Sênior,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,


In [208]:
df_jobs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 45 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   id_vaga_original_jobs                                 14081 non-null  object
 1   informacoes_basicas_data_requicisao                   14081 non-null  object
 2   informacoes_basicas_limite_esperado_para_contratacao  14081 non-null  object
 3   informacoes_basicas_titulo_vaga                       14081 non-null  object
 4   informacoes_basicas_vaga_sap                          14081 non-null  object
 5   informacoes_basicas_cliente                           14081 non-null  object
 6   informacoes_basicas_solicitante_cliente               14081 non-null  object
 7   informacoes_basicas_empresa_divisao                   14081 non-null  object
 8   informacoes_basicas_requisitante                      14081 non-nu

### Ajustando as colunas de df_jobs para os tipos corretos

In [209]:
# Colunas de Data para df_jobs
date_cols_jobs = [
    'informacoes_basicas_data_requicisao',
    'informacoes_basicas_limite_esperado_para_contratacao'
]
for col in date_cols_jobs:
    if col in df_jobs.columns:
        print(f"  df_jobs: Convertendo '{col}' para datetime...")
        try:
            df_jobs[col] = pd.to_datetime(df_jobs[col], dayfirst=True, errors='coerce')
        except Exception:
            df_jobs[col] = pd.to_datetime(df_jobs[col], errors='coerce')
    else:
        print(f"  df_jobs: Aviso - Coluna data '{col}' não encontrada.")

# Colunas Booleanas para df_jobs (usando o tipo 'boolean' nulo do Pandas)
bool_cols_jobs = [
    'informacoes_basicas_vaga_sap',
    'perfil_vaga_vaga_especifica_para_pcd',
    'perfil_vaga_viagens_requeridas'
]
map_sim_nao_geral = {'Sim': True, 'sim': True, 'S': True, 's': True, 'True': True, 'true': True, 'TRUE': True,
                      'Não': False, 'nao': False, 'Nao': False, 'N': False, 'n': False, 'False': False, 'false': False, 'FALSE': False}
for col in bool_cols_jobs:
    if col in df_jobs.columns:
        print(f"  df_jobs: Convertendo '{col}' para booleano (Pandas)...")
        df_jobs[col] = df_jobs[col].map(map_sim_nao_geral).astype('boolean')
    else:
        print(f"  df_jobs: Aviso - Coluna booleana '{col}' não encontrada.")
        
# Colunas Categóricas para df_jobs
category_cols_jobs = [
    'informacoes_basicas_tipo_contratacao', 'informacoes_basicas_prioridade_vaga',
    'perfil_vaga_nivel profissional', 'perfil_vaga_nivel_academico',
    'perfil_vaga_nivel_ingles', 'perfil_vaga_nivel_espanhol',
    'perfil_vaga_pais', 'perfil_vaga_estado', 'perfil_vaga_cidade'
]
for col in category_cols_jobs:
    if col in df_jobs.columns:
        print(f"  df_jobs: Convertendo '{col}' para categoria...")
        df_jobs[col] = df_jobs[col].astype('category')
    else:
        print(f"  df_jobs: Aviso - Coluna categoria '{col}' não encontrada.")

# Colunas Texto para df_jobs
for col in df_jobs.select_dtypes(include=['object']).columns:
    print(f"  df_jobs: Convertendo '{col}' para 'string'...")
    df_jobs[col] = df_jobs[col].astype('string')

  df_jobs: Convertendo 'informacoes_basicas_data_requicisao' para datetime...
  df_jobs: Convertendo 'informacoes_basicas_limite_esperado_para_contratacao' para datetime...
  df_jobs: Convertendo 'informacoes_basicas_vaga_sap' para booleano (Pandas)...
  df_jobs: Convertendo 'perfil_vaga_vaga_especifica_para_pcd' para booleano (Pandas)...
  df_jobs: Convertendo 'perfil_vaga_viagens_requeridas' para booleano (Pandas)...
  df_jobs: Convertendo 'informacoes_basicas_tipo_contratacao' para categoria...
  df_jobs: Convertendo 'informacoes_basicas_prioridade_vaga' para categoria...
  df_jobs: Convertendo 'perfil_vaga_nivel profissional' para categoria...
  df_jobs: Convertendo 'perfil_vaga_nivel_academico' para categoria...
  df_jobs: Convertendo 'perfil_vaga_nivel_ingles' para categoria...
  df_jobs: Convertendo 'perfil_vaga_nivel_espanhol' para categoria...
  df_jobs: Convertendo 'perfil_vaga_pais' para categoria...
  df_jobs: Convertendo 'perfil_vaga_estado' para categoria...
  df_jobs: Co

  df_jobs[col] = pd.to_datetime(df_jobs[col], dayfirst=True, errors='coerce')


In [210]:
df_jobs.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 45 columns):
 #   Column                                                Non-Null Count  Dtype         
---  ------                                                --------------  -----         
 0   id_vaga_original_jobs                                 14081 non-null  string        
 1   informacoes_basicas_data_requicisao                   14081 non-null  datetime64[ns]
 2   informacoes_basicas_limite_esperado_para_contratacao  7989 non-null   datetime64[ns]
 3   informacoes_basicas_titulo_vaga                       14081 non-null  string        
 4   informacoes_basicas_vaga_sap                          14081 non-null  boolean       
 5   informacoes_basicas_cliente                           14081 non-null  string        
 6   informacoes_basicas_solicitante_cliente               14081 non-null  string        
 7   informacoes_basicas_empresa_divisao                   14081 non-null  string

In [211]:
df_jobs.head(10)

Unnamed: 0,id_vaga_original_jobs,informacoes_basicas_data_requicisao,informacoes_basicas_limite_esperado_para_contratacao,informacoes_basicas_titulo_vaga,informacoes_basicas_vaga_sap,informacoes_basicas_cliente,informacoes_basicas_solicitante_cliente,informacoes_basicas_empresa_divisao,informacoes_basicas_requisitante,informacoes_basicas_analista_responsavel,informacoes_basicas_tipo_contratacao,informacoes_basicas_prazo_contratacao,informacoes_basicas_objetivo_vaga,informacoes_basicas_prioridade_vaga,informacoes_basicas_origem_vaga,informacoes_basicas_superior_imediato,informacoes_basicas_nome,informacoes_basicas_telefone,perfil_vaga_pais,perfil_vaga_estado,perfil_vaga_cidade,perfil_vaga_bairro,perfil_vaga_regiao,perfil_vaga_local_trabalho,perfil_vaga_vaga_especifica_para_pcd,perfil_vaga_faixa_etaria,perfil_vaga_horario_trabalho,perfil_vaga_nivel profissional,perfil_vaga_nivel_academico,perfil_vaga_nivel_ingles,perfil_vaga_nivel_espanhol,perfil_vaga_outro_idioma,perfil_vaga_areas_atuacao,perfil_vaga_principais_atividades,perfil_vaga_competencia_tecnicas_e_comportamentais,perfil_vaga_demais_observacoes,perfil_vaga_viagens_requeridas,perfil_vaga_equipamentos_necessarios,beneficios_valor_venda,beneficios_valor_compra_1,beneficios_valor_compra_2,informacoes_basicas_data_inicial,informacoes_basicas_data_final,perfil_vaga_habilidades_comportamentais_necessarias,informacoes_basicas_nome_substituto
0,5185,2021-05-04,NaT,Operation Lead -,False,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Avançado,Fluente,,TI - Sistemas e Ferramentas-,Operations Lead Roles & Responsibilities: • T...,Required Skills: • Prior experience in Cloud I...,100% Remoto Período – entre 5 – 6 meses,,Nenhum -,-,R$,,,,,
1,5184,2021-05-04,NaT,Consultor PP/QM Sênior,False,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,Contratação,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Fluente,Nenhum,,TI - Desenvolvimento/Programação-,Consultor PP/QM Sr. • Consultor PP/QM Sênior ...,• Consultor PP/QM Sênior com experiencia em pr...,• Início: Imediato • Fim: Jan/22,,Nenhum -,-,R$,,,,,
2,5183,2021-05-04,NaT,ANALISTA PL/JR C/ SQL,False,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Albuquerque,CLT Full,,RFP,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Analista,Ensino Superior Completo,Nenhum,Intermediário,,TI - Sistemas e Ferramentas-,Descrição – Atividades: o Monitoramento das i...,Requisitos mandatórios: o Conhecimentos Técni...,Localização: Remoto Perfil: Analista Pleno ou ...,,Nenhum -,-,R$,,,,,
3,5182,2021-05-04,2021-05-18,Technical Architect - 11894809,False,Nelson-Page,Dr. Raul Monteiro,Decision São Paulo,Cecília Freitas,Clara Rios,"PJ/Autônomo, CLT Full",Determinado,Contratação,Alta: Alta complexidade 3 a 5 dias,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Analista,Ensino Superior Completo,Básico,Básico,,TI - Projetos-,Descrição/Comentário: Architecture Frameworks ...,Descrição/Comentário: Architecture Frameworks ...,Budgeted Rate - indicate currency and type (ho...,False,Notebook padrão -,- p/ mês (168h),fechado,,18-05-2021,17-01-2022,,
4,5181,2021-05-04,NaT,Consultor SAP AUTHORIZATION (BCA) -Pleno / Sênior,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Intermediário,Nenhum,,TI - SAP-,Experiência como Consultor SAP AUTHORIZATION (...,Experiência como Consultor SAP AUTHORIZATION (...,contratação CLT full pela Decision locação rem...,True,Nenhum -,-,R$,,,,,
5,5180,2021-05-04,NaT,Desenvolvedor Web Pleno / Sênior,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Raquel Vieira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Básico,Nenhum,,TI - Desenvolvimento/Programação-,"Graduated or with course of programming logic,...",Desenvolvedor Web (Microsoft .Net). conhecimen...,contratação CLT full pela Decision locação rem...,False,,-,R$,,,,A mais urgente é de consultor Web (programador...,
6,5179,2021-05-04,NaT,Consultor SAP HR Pleno,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Pleno,Ensino Superior Completo,Técnico,Nenhum,,TI - SAP-,Experiência como Coordenado HR Pleno,Experiência como Coordenado HR Pleno,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
7,5178,2021-05-04,NaT,Consultor FI Pleno / Sênior,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Intermediário,Nenhum,,TI - SAP-,Experiência como Consultor FI Pleno / Sênior,Experiência como Consultor FI Pleno / Sênior,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
8,5177,2021-05-04,NaT,Consultor SAP CS / PM Pleno / Senior,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,CLT Full,,,,,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Avançado,Nenhum,,TI - SAP-,Experiência como Consultor SAP CS / PM,Experiência como Consultor SAP CS / PM,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,
9,5176,2021-05-04,NaT,Consultor SAP SD Sênior,False,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,CLT Full,,,,,Superior Imediato:,,,Brasil,Paraná,Londrina,,,2000,False,De: Até:,,Sênior,Ensino Superior Completo,Técnico,Nenhum,,TI - SAP-,Experiência como Consultor SAP SD Sênior,Experiência como Consultor SAP SD Sênior,contratação CLT full pela Decision locação rem...,,Nenhum -,-,R$,,,,,


## Carregamento do DataFrame de Candidatos (Applicants)


In [212]:
print(f"\nTentando carregar candidatos de: {applicants_filename}")
df_applicants = None

try:
    with open(applicants_filename, 'r', encoding='utf-8') as f:
        applicants_raw_data = json.load(f)

    applicants_list_for_normalize = []
    if isinstance(applicants_raw_data, dict):
        for app_id, details in applicants_raw_data.items():
            record = {'id_candidato_original_applicants': app_id} # Adiciona ID do candidato
            if isinstance(details, dict):
                record.update(details) # Adiciona detalhes do candidato
            else:
                 print(f"!!! Aviso: Estrutura inesperada para candidato ID {app_id}.")
            applicants_list_for_normalize.append(record)
    else:
        raise ValueError(f"O arquivo '{applicants_filename}' não é um dicionário no nível raiz como esperado.")


    if applicants_list_for_normalize:
        df_applicants = pd.json_normalize(applicants_list_for_normalize, sep='_')
        print(f">>> DataFrame df_applicants carregado com sucesso! ({len(df_applicants)} registros, {len(df_applicants.columns)} colunas)")
    else:
        print(f"!!! AVISO: Nenhum dado de candidato encontrado ou processado do arquivo {applicants_filename}.")
        df_applicants = pd.DataFrame()

except FileNotFoundError:
    print(f"!!! ERRO: Arquivo '{applicants_filename}' não encontrado.")
except json.JSONDecodeError:
    print(f"!!! ERRO: Falha ao decodificar o JSON em '{applicants_filename}'.")
except ValueError as ve:
     print(f"!!! ERRO ao processar o JSON de Applicants: {ve}")
except Exception as e:
    print(f"!!! ERRO inesperado ao carregar e achatar {applicants_filename}: {e}")

# Exibe confirmação ou erro
if df_applicants is not None:
    print("DataFrame df_applicants criado.")
else:
    print("Falha ao criar df_applicants.")


Tentando carregar candidatos de: ../data/raw/applicants.json
>>> DataFrame df_applicants carregado com sucesso! (42482 registros, 58 colunas)
DataFrame df_applicants criado.


In [213]:
df_applicants.head(10)

Unnamed: 0,id_candidato_original_applicants,cv_pt,cv_en,infos_basicas_telefone_recado,infos_basicas_telefone,infos_basicas_objetivo_profissional,infos_basicas_data_criacao,infos_basicas_inserido_por,infos_basicas_email,infos_basicas_local,infos_basicas_sabendo_de_nos_por,infos_basicas_data_atualizacao,infos_basicas_codigo_profissional,infos_basicas_nome,informacoes_pessoais_data_aceite,informacoes_pessoais_nome,informacoes_pessoais_cpf,informacoes_pessoais_fonte_indicacao,informacoes_pessoais_email,informacoes_pessoais_email_secundario,informacoes_pessoais_data_nascimento,informacoes_pessoais_telefone_celular,informacoes_pessoais_telefone_recado,informacoes_pessoais_sexo,informacoes_pessoais_estado_civil,informacoes_pessoais_pcd,informacoes_pessoais_endereco,informacoes_pessoais_skype,informacoes_pessoais_url_linkedin,informacoes_pessoais_facebook,informacoes_profissionais_titulo_profissional,informacoes_profissionais_area_atuacao,informacoes_profissionais_conhecimentos_tecnicos,informacoes_profissionais_certificacoes,informacoes_profissionais_outras_certificacoes,informacoes_profissionais_remuneracao,informacoes_profissionais_nivel_profissional,formacao_e_idiomas_nivel_academico,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,informacoes_profissionais_qualificacoes,informacoes_profissionais_experiencias,formacao_e_idiomas_outro_curso,cargo_atual_id_ibrati,cargo_atual_email_corporativo,cargo_atual_cargo_atual,cargo_atual_projeto_atual,cargo_atual_cliente,cargo_atual_unidade,cargo_atual_data_admissao,cargo_atual_data_ultima_promocao,cargo_atual_nome_superior_imediato,cargo_atual_email_superior_imediato
0,31000,assistente administrativo\n\n\nsantosbatista\n...,,,(11) 97048-2708,,10-11-2021 07:29:49,Luna Correia,carolina_aparecida@gmail.com,,,10-11-2021 07:29:49,31000,Carolina Aparecida,Cadastro anterior ao registro de aceite,Carolina Aparecida,,:,carolina_aparecida@gmail.com,,0000-00-00,(11) 97048-2708,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
1,31001,formação acadêmica\nensino médio (2º grau) em ...,,,(11) 93723-4396,Analista Administrativo,10-11-2021 08:56:16,Laura Pacheco,eduardo_rios@hotmail.com,"São Paulo, São Paulo",Outros,11-11-2021 11:10:31,31001,Eduardo Rios,Cadastro anterior ao registro de aceite,Eduardo Rios,,Outros: Contato do RH,eduardo_rios@hotmail.com,,28-12-1994,(11) 93723-4396,,Feminino,Solteiro,Não,são paulo,,,,Analista Administrativo,Administrativa,,,,1900,,Ensino Superior Incompleto,Nenhum,Nenhum,-,,,,,,,,,,,,,,,,,
2,31002,objetivo: área administrativa | financeira\n\n...,,,(11) 92399-9824,Administrativo | Financeiro,10-11-2021 09:01:00,Laura Pacheco,pedro_henrique_carvalho@gmail.com,"São Paulo, São Paulo",Anúncio,10-11-2021 11:42:36,31002,Pedro Henrique Carvalho,Cadastro anterior ao registro de aceite,Pedro Henrique Carvalho,,Anúncio:,pedro_henrique_carvalho@gmail.com,,12-12-1988,(11) 92399-9824,,Feminino,Solteiro,Não,são paulo,,,,Administrativo | Financeiro,Administrativa,,"MS [77-418] MOS: Microsoft Office Word 2013, M...",,"2.500,00",,Ensino Superior Completo,Intermediário,Básico,Português - Fluente,,Administração de Empresas,2012.0,,,,,,,,,,,,,,
3,31003,formação\nensino médio completo\ninformática i...,,,(11) 98100-1727,Área administrativa,10-11-2021 09:08:13,Laura Pacheco,thiago_barbosa@hotmail.com,"São Paulo, São Paulo",Site de Empregos,10-11-2021 16:04:51,31003,Thiago Barbosa,Cadastro anterior ao registro de aceite,Thiago Barbosa,,Site de Empregos: Infojobs,thiago_barbosa@hotmail.com,,08-05-1992,(11) 98100-1727,,Feminino,Casado,Não,são paulo,,,,Área administrativa,Administrativa,,,,110000,,Ensino Superior Incompleto,Nenhum,Nenhum,-,,,,,,,,,,,,,,,,,
4,31004,última atualização em 09/11/2021\n­ sp\n\nensi...,,,(11) 92517-2678,,10-11-2021 09:18:46,Maria Clara Pires,diogo_das_neves@hotmail.com,,,10-11-2021 09:22:03,31004,Diogo das Neves,Cadastro anterior ao registro de aceite,Diogo das Neves,,:,diogo_das_neves@hotmail.com,,31-12-1969,(11) 92517-2678,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
5,31005,"brasileira\n41 anos, casada\nobjetivo: adminis...",,,(11) 94989-4617,Administrativa/logística e ou comercial,10-11-2021 09:19:56,Clara Rios,maya_fonseca@gmail.com,"São Paulo, São Paulo",Site de Empregos,10-11-2021 16:54:03,31005,Maya Fonseca,Cadastro anterior ao registro de aceite,Maya Fonseca,,Site de Empregos:,maya_fonseca@gmail.com,,24-12-1979,(11) 94989-4617,,Feminino,Casado,,são paulo,,,,Administrativa/logística e ou comercial,Comercial,,,,200000,,Ensino Técnico Completo,Básico,Básico,-,,,0.0,,,,,,,,,,,,,,
6,31006,objetivo\nárea financeira / controladoria / fa...,,,(11) 94846-8897,Analista Administrativo Financeiro,10-11-2021 09:22:20,Clara Rios,thomas_rodrigues@gmail.com,"São Paulo, São Paulo",Site de Empregos,13-11-2021 00:27:53,31006,Thomas Rodrigues,Cadastro anterior ao registro de aceite,Thomas Rodrigues,,Site de Empregos:,thomas_rodrigues@gmail.com,,12-09-1990,(11) 94846-8897,,Masculino,Solteiro,,são paulo,,,,Analista Administrativo Financeiro,Financeira/Controladoria,,,"SAP, DN4,MICROSIGA,TOTVS",2800,,Ensino Superior Cursando,Nenhum,Intermediário,-,,Gestão Financeira,2011.0,,,,,,,,,,,,,,
7,31007,belo horizonte/mg – cep: 30.626-710\nhabilitaç...,,,(31) 99869-5928,Desejo fazer parte do time da empresa oferecen...,10-11-2021 09:27:18,Clara Rios,pedro_miguel_nascimento@hotmail.com,"Belo Horizonte, Minas Gerais",Outros,10-11-2021 11:49:11,31007,Pedro Miguel Nascimento,Cadastro anterior ao registro de aceite,Pedro Miguel Nascimento,,Outros: Me chamaram pelo WhatsApp,pedro_miguel_nascimento@hotmail.com,,09-04-1995,(31) 99869-5928,,Feminino,Casado,Não,minas gerais,,,,Desejo fazer parte do time da empresa oferecen...,"Administrativa, Comercial, Financeira/Controla...",,,,168800,,Ensino Superior Completo,Nenhum,Nenhum,Português - Fluente,,Logística,0.0,,,,,,,,,,,,,,
8,31008,última atualização em 04/11/2021\n\nresumo\nex...,,,(11) 92883-2196,,10-11-2021 09:32:58,Maria Clara Pires,ágatha_pereira@gmail.com,,,10-11-2021 09:32:58,31008,Ágatha Pereira,Cadastro anterior ao registro de aceite,Ágatha Pereira,,:,ágatha_pereira@gmail.com,,0000-00-00,(11) 92883-2196,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
9,31009,"nasceu em 28 de maio de 1990, 31 anos.\nfemini...",,,(11) 95355-4464,,10-11-2021 09:39:27,Maria Clara Pires,paulo_novaes@gmail.com,,,10-11-2021 09:39:27,31009,Paulo Novaes,Cadastro anterior ao registro de aceite,Paulo Novaes,,:,paulo_novaes@gmail.com,,0000-00-00,(11) 95355-4464,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,


In [214]:
df_applicants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42482 entries, 0 to 42481
Data columns (total 58 columns):
 #   Column                                            Non-Null Count  Dtype 
---  ------                                            --------------  ----- 
 0   id_candidato_original_applicants                  42482 non-null  object
 1   cv_pt                                             42482 non-null  object
 2   cv_en                                             42482 non-null  object
 3   infos_basicas_telefone_recado                     42482 non-null  object
 4   infos_basicas_telefone                            42482 non-null  object
 5   infos_basicas_objetivo_profissional               42482 non-null  object
 6   infos_basicas_data_criacao                        42482 non-null  object
 7   infos_basicas_inserido_por                        42482 non-null  object
 8   infos_basicas_email                               42482 non-null  object
 9   infos_basicas_local         

### Ajustando as colunas de df_applicants para os tipos corretos

In [215]:
# Colunas de Data para df_applicants
date_cols_applicants = [
    'infos_basicas_data_criacao', 'infos_basicas_data_atualizacao',
    'informacoes_pessoais_data_aceite', 'informacoes_pessoais_data_nascimento'
]
for col in date_cols_applicants:
    if col in df_applicants.columns:
        print(f"  df_applicants: Convertendo '{col}' para datetime...")
        try:
            df_applicants[col] = pd.to_datetime(df_applicants[col], dayfirst=True, errors='coerce')
        except Exception:
            df_applicants[col] = pd.to_datetime(df_applicants[col], errors='coerce')
    else:
        print(f"  df_applicants: Aviso - Coluna data '{col}' não encontrada.")

# Colunas Numéricas para df_applicants
numeric_cols_applicants = ['informacoes_profissionais_remuneracao']
for col in numeric_cols_applicants:
    if col in df_applicants.columns:
        print(f"  df_applicants: Convertendo '{col}' para numérico...")
        df_applicants[col] = pd.to_numeric(df_applicants[col], errors='coerce')
    else:
        print(f"  df_applicants: Aviso - Coluna numérica '{col}' não encontrada.")
        
# Colunas Booleanas para df_applicants
bool_cols_applicants = ['informacoes_pessoais_pcd']
for col in bool_cols_applicants:
    if col in df_applicants.columns:
        print(f"  df_applicants: Convertendo '{col}' para booleano (Pandas)...")
        # Se 'pcd' puder ser '' (string vazia), o map o deixará como NaN, que 'astype('boolean')' aceita.
        df_applicants[col] = df_applicants[col].map(map_sim_nao_geral).astype('boolean')
    else:
        print(f"  df_applicants: Aviso - Coluna booleana '{col}' não encontrada.")

# Colunas Categóricas para df_applicants
category_cols_applicants = [
    'infos_basicas_sabendo_de_nos_por', 'informacoes_pessoais_fonte_indicacao',
    'informacoes_pessoais_sexo', 'informacoes_pessoais_estado_civil',
    'informacoes_profissionais_nivel_profissional'
]
for col in category_cols_applicants:
    if col in df_applicants.columns:
        print(f"  df_applicants: Convertendo '{col}' para categoria...")
        df_applicants[col] = df_applicants[col].astype('category')
    else:
        print(f"  df_applicants: Aviso - Coluna categoria '{col}' não encontrada.")

# Colunas Texto para df_applicants
for col in df_applicants.select_dtypes(include=['object']).columns:
    print(f"  df_applicants: Convertendo '{col}' para 'string'...")
    df_applicants[col] = df_applicants[col].astype('string')
           
print("\nInformações de df_applicants após conversão de tipos:")

  df_applicants: Convertendo 'infos_basicas_data_criacao' para datetime...
  df_applicants: Convertendo 'infos_basicas_data_atualizacao' para datetime...
  df_applicants: Convertendo 'informacoes_pessoais_data_aceite' para datetime...


  df_applicants[col] = pd.to_datetime(df_applicants[col], dayfirst=True, errors='coerce')


  df_applicants: Convertendo 'informacoes_pessoais_data_nascimento' para datetime...
  df_applicants: Convertendo 'informacoes_profissionais_remuneracao' para numérico...
  df_applicants: Convertendo 'informacoes_pessoais_pcd' para booleano (Pandas)...
  df_applicants: Convertendo 'infos_basicas_sabendo_de_nos_por' para categoria...
  df_applicants: Convertendo 'informacoes_pessoais_fonte_indicacao' para categoria...
  df_applicants: Convertendo 'informacoes_pessoais_sexo' para categoria...
  df_applicants: Convertendo 'informacoes_pessoais_estado_civil' para categoria...
  df_applicants: Convertendo 'informacoes_profissionais_nivel_profissional' para categoria...


  df_applicants[col] = pd.to_datetime(df_applicants[col], dayfirst=True, errors='coerce')


  df_applicants: Convertendo 'id_candidato_original_applicants' para 'string'...
  df_applicants: Convertendo 'cv_pt' para 'string'...
  df_applicants: Convertendo 'cv_en' para 'string'...
  df_applicants: Convertendo 'infos_basicas_telefone_recado' para 'string'...
  df_applicants: Convertendo 'infos_basicas_telefone' para 'string'...
  df_applicants: Convertendo 'infos_basicas_objetivo_profissional' para 'string'...
  df_applicants: Convertendo 'infos_basicas_inserido_por' para 'string'...
  df_applicants: Convertendo 'infos_basicas_email' para 'string'...
  df_applicants: Convertendo 'infos_basicas_local' para 'string'...
  df_applicants: Convertendo 'infos_basicas_codigo_profissional' para 'string'...
  df_applicants: Convertendo 'infos_basicas_nome' para 'string'...
  df_applicants: Convertendo 'informacoes_pessoais_nome' para 'string'...
  df_applicants: Convertendo 'informacoes_pessoais_cpf' para 'string'...
  df_applicants: Convertendo 'informacoes_pessoais_email' para 'string'

In [216]:
df_applicants.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42482 entries, 0 to 42481
Data columns (total 58 columns):
 #   Column                                            Non-Null Count  Dtype         
---  ------                                            --------------  -----         
 0   id_candidato_original_applicants                  42482 non-null  string        
 1   cv_pt                                             42482 non-null  string        
 2   cv_en                                             42482 non-null  string        
 3   infos_basicas_telefone_recado                     42482 non-null  string        
 4   infos_basicas_telefone                            42482 non-null  string        
 5   infos_basicas_objetivo_profissional               42482 non-null  string        
 6   infos_basicas_data_criacao                        42463 non-null  datetime64[ns]
 7   infos_basicas_inserido_por                        42482 non-null  string        
 8   infos_basicas_email       

In [None]:
df_applicants.head(10)

Unnamed: 0,id_candidato_original_applicants,cv_pt,cv_en,infos_basicas_telefone_recado,infos_basicas_telefone,infos_basicas_objetivo_profissional,infos_basicas_data_criacao,infos_basicas_inserido_por,infos_basicas_email,infos_basicas_local,infos_basicas_sabendo_de_nos_por,infos_basicas_data_atualizacao,infos_basicas_codigo_profissional,infos_basicas_nome,informacoes_pessoais_data_aceite,informacoes_pessoais_nome,informacoes_pessoais_cpf,informacoes_pessoais_fonte_indicacao,informacoes_pessoais_email,informacoes_pessoais_email_secundario,informacoes_pessoais_data_nascimento,informacoes_pessoais_telefone_celular,informacoes_pessoais_telefone_recado,informacoes_pessoais_sexo,informacoes_pessoais_estado_civil,informacoes_pessoais_pcd,informacoes_pessoais_endereco,informacoes_pessoais_skype,informacoes_pessoais_url_linkedin,informacoes_pessoais_facebook,informacoes_profissionais_titulo_profissional,informacoes_profissionais_area_atuacao,informacoes_profissionais_conhecimentos_tecnicos,informacoes_profissionais_certificacoes,informacoes_profissionais_outras_certificacoes,informacoes_profissionais_remuneracao,informacoes_profissionais_nivel_profissional,formacao_e_idiomas_nivel_academico,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,informacoes_profissionais_qualificacoes,informacoes_profissionais_experiencias,formacao_e_idiomas_outro_curso,cargo_atual_id_ibrati,cargo_atual_email_corporativo,cargo_atual_cargo_atual,cargo_atual_projeto_atual,cargo_atual_cliente,cargo_atual_unidade,cargo_atual_data_admissao,cargo_atual_data_ultima_promocao,cargo_atual_nome_superior_imediato,cargo_atual_email_superior_imediato
0,31000,assistente administrativo santosbatista itap...,,,(11) 97048-2708,,2021-11-10 07:29:49,Luna Correia,carolina_aparecida@gmail.com,,,2021-11-10 07:29:49,31000,Carolina Aparecida,NaT,Carolina Aparecida,,:,carolina_aparecida@gmail.com,,NaT,(11) 97048-2708,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
1,31001,formação acadêmica ensino médio (2º grau) em e...,,,(11) 93723-4396,Analista Administrativo,2021-11-10 08:56:16,Laura Pacheco,eduardo_rios@hotmail.com,"São Paulo, São Paulo",Outros,2021-11-11 11:10:31,31001,Eduardo Rios,NaT,Eduardo Rios,,Outros: Contato do RH,eduardo_rios@hotmail.com,,1994-12-28,(11) 93723-4396,,Feminino,Solteiro,False,são paulo,,,,Analista Administrativo,Administrativa,,,,1900.0,,Ensino Superior Incompleto,Nenhum,Nenhum,-,,,,,,,,,,,,,,,,,
2,31002,objetivo: área administrativa | financeira re...,,,(11) 92399-9824,Administrativo | Financeiro,2021-11-10 09:01:00,Laura Pacheco,pedro_henrique_carvalho@gmail.com,"São Paulo, São Paulo",Anúncio,2021-11-10 11:42:36,31002,Pedro Henrique Carvalho,NaT,Pedro Henrique Carvalho,,Anúncio:,pedro_henrique_carvalho@gmail.com,,1988-12-12,(11) 92399-9824,,Feminino,Solteiro,False,são paulo,,,,Administrativo | Financeiro,Administrativa,,"MS [77-418] MOS: Microsoft Office Word 2013, M...",,,,Ensino Superior Completo,Intermediário,Básico,Português - Fluente,,Administração de Empresas,2012.0,,,,,,,,,,,,,,
3,31003,formação ensino médio completo informática int...,,,(11) 98100-1727,Área administrativa,2021-11-10 09:08:13,Laura Pacheco,thiago_barbosa@hotmail.com,"São Paulo, São Paulo",Site de Empregos,2021-11-10 16:04:51,31003,Thiago Barbosa,NaT,Thiago Barbosa,,Site de Empregos: Infojobs,thiago_barbosa@hotmail.com,,1992-05-08,(11) 98100-1727,,Feminino,Casado,False,são paulo,,,,Área administrativa,Administrativa,,,,,,Ensino Superior Incompleto,Nenhum,Nenhum,-,,,,,,,,,,,,,,,,,
4,31004,última atualização em 09/11/2021 ­ sp ensino ...,,,(11) 92517-2678,,2021-11-10 09:18:46,Maria Clara Pires,diogo_das_neves@hotmail.com,,,2021-11-10 09:22:03,31004,Diogo das Neves,NaT,Diogo das Neves,,:,diogo_das_neves@hotmail.com,,1969-12-31,(11) 92517-2678,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
5,31005,"brasileira 41 anos, casada objetivo: administr...",,,(11) 94989-4617,Administrativa/logística e ou comercial,2021-11-10 09:19:56,Clara Rios,maya_fonseca@gmail.com,"São Paulo, São Paulo",Site de Empregos,2021-11-10 16:54:03,31005,Maya Fonseca,NaT,Maya Fonseca,,Site de Empregos:,maya_fonseca@gmail.com,,1979-12-24,(11) 94989-4617,,Feminino,Casado,,são paulo,,,,Administrativa/logística e ou comercial,Comercial,,,,,,Ensino Técnico Completo,Básico,Básico,-,,,0.0,,,,,,,,,,,,,,
6,31006,objetivo área financeira / controladoria / fat...,,,(11) 94846-8897,Analista Administrativo Financeiro,2021-11-10 09:22:20,Clara Rios,thomas_rodrigues@gmail.com,"São Paulo, São Paulo",Site de Empregos,2021-11-13 00:27:53,31006,Thomas Rodrigues,NaT,Thomas Rodrigues,,Site de Empregos:,thomas_rodrigues@gmail.com,,1990-09-12,(11) 94846-8897,,Masculino,Solteiro,,são paulo,,,,Analista Administrativo Financeiro,Financeira/Controladoria,,,"SAP, DN4,MICROSIGA,TOTVS",2800.0,,Ensino Superior Cursando,Nenhum,Intermediário,-,,Gestão Financeira,2011.0,,,,,,,,,,,,,,
7,31007,belo horizonte/mg – cep: 30.626-710 habilitaçã...,,,(31) 99869-5928,Desejo fazer parte do time da empresa oferecen...,2021-11-10 09:27:18,Clara Rios,pedro_miguel_nascimento@hotmail.com,"Belo Horizonte, Minas Gerais",Outros,2021-11-10 11:49:11,31007,Pedro Miguel Nascimento,NaT,Pedro Miguel Nascimento,,Outros: Me chamaram pelo WhatsApp,pedro_miguel_nascimento@hotmail.com,,1995-04-09,(31) 99869-5928,,Feminino,Casado,False,minas gerais,,,,Desejo fazer parte do time da empresa oferecen...,"Administrativa, Comercial, Financeira/Controla...",,,,,,Ensino Superior Completo,Nenhum,Nenhum,Português - Fluente,,Logística,0.0,,,,,,,,,,,,,,
8,31008,última atualização em 04/11/2021 resumo exper...,,,(11) 92883-2196,,2021-11-10 09:32:58,Maria Clara Pires,ágatha_pereira@gmail.com,,,2021-11-10 09:32:58,31008,Ágatha Pereira,NaT,Ágatha Pereira,,:,ágatha_pereira@gmail.com,,NaT,(11) 92883-2196,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,
9,31009,"nasceu em 28 de maio de 1990, 31 anos. feminin...",,,(11) 95355-4464,,2021-11-10 09:39:27,Maria Clara Pires,paulo_novaes@gmail.com,,,2021-11-10 09:39:27,31009,Paulo Novaes,NaT,Paulo Novaes,,:,paulo_novaes@gmail.com,,NaT,(11) 95355-4464,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,


## Carregamento do DataFrame de Relacionamento (Prospects Relationship)

In [218]:
print(f"\nIniciando criação e enriquecimento direto de df_prospects_relationship a partir de: {prospects_relationship_filename}")

# Lista para armazenar os dados enriquecidos de cada interação
all_enriched_prospects_data = []
df_prospects_relationship = None # Inicializa

# Verifica se df_jobs e df_applicants estão carregados e não vazios
if not ('df_jobs' in locals() and isinstance(df_jobs, pd.DataFrame) and not df_jobs.empty):
    print("!!! ERRO: df_jobs não está carregado ou está vazio.")
elif not ('df_applicants' in locals() and isinstance(df_applicants, pd.DataFrame) and not df_applicants.empty):
    print("!!! ERRO: df_applicants não está carregado ou está vazio.")
else:
    try:     
        # Ajusta os index
        df_jobs_indexed = df_jobs.set_index('id_vaga_original_jobs', drop=False)
        df_applicants_indexed = df_applicants.set_index('id_candidato_original_applicants', drop=False)

        # Carrega o JSON de relacionamento
        with open(prospects_relationship_filename, 'r', encoding='utf-8') as f:
            prospects_raw_data = json.load(f)
        print(f"  Arquivo '{prospects_relationship_filename}' carregado.")

        # Itera sobre os dados de relacionamento
        for job_id_from_prospect_key, job_info_from_prospect in prospects_raw_data.items():
            job_id_for_lookup = str(job_id_from_prospect_key) # Chave do JSON é o ID da vaga
            
            prospects_list_for_job = job_info_from_prospect.get('prospects', [])

            if not isinstance(prospects_list_for_job, list):
                print(f"  Aviso: 'prospects' não é uma lista para a vaga ID {job_id_for_lookup}. Pulando esta vaga.")
                continue

            for prospect_interaction_details in prospects_list_for_job:
                if not isinstance(prospect_interaction_details, dict):
                    print(f"  Aviso: Item de prospect não é um dicionário para a vaga ID {job_id_for_lookup}. Pulando este item.")
                    continue

                # Inicia o registro com detalhes da interação
                current_record = prospect_interaction_details.copy()
                current_record['id_vaga_interacao'] = job_id_for_lookup # ID da vaga da interação
                current_record['titulo_vaga_interacao'] = job_info_from_prospect.get('titulo')
                current_record['modalidade_vaga_interacao'] = job_info_from_prospect.get('modalidade')
                
                applicant_id_for_lookup = str(prospect_interaction_details.get('codigo')) # 'codigo' é o ID do candidato

                # 1. Buscar e adicionar detalhes do candidato
                if applicant_id_for_lookup and applicant_id_for_lookup in df_applicants_indexed.index:
                    applicant_details_series = df_applicants_indexed.loc[applicant_id_for_lookup]
                    for col_name, value in applicant_details_series.items():
                        current_record[f"app_{col_name}"] = value # Adiciona prefixo 'app_'
                else:
                    print(f"  Aviso: Candidato ID '{applicant_id_for_lookup}' (da interação na vaga '{job_id_for_lookup}') não encontrado em df_applicants.")

                # 2. Buscar e adicionar detalhes da vaga
                if job_id_for_lookup in df_jobs_indexed.index:
                    job_details_series = df_jobs_indexed.loc[job_id_for_lookup]
                    for col_name, value in job_details_series.items():
                        current_record[f"job_{col_name}"] = value # Adiciona prefixo 'job_'
                else:
                    print(f"  Aviso: Vaga ID '{job_id_for_lookup}' (da interação) não encontrada em df_jobs.")
                
                all_enriched_prospects_data.append(current_record)
        
        if all_enriched_prospects_data:
            df_prospects_relationship = pd.DataFrame(all_enriched_prospects_data)
            print(f"\n>>> DataFrame df_prospects_relationship criado e enriquecido diretamente com sucesso! ({len(df_prospects_relationship)} registros, {len(df_prospects_relationship.columns)} colunas)")
        else:
            print("\n!!! AVISO: Nenhum dado de interação de prospects foi processado para criar df_prospects_relationship.")
            df_prospects_relationship = pd.DataFrame() # Cria DataFrame vazio

    except FileNotFoundError as e:
        print(f"!!! ERRO: Arquivo de relacionamento '{prospects_relationship_filename}' não encontrado. Detalhe: {e}")
    except KeyError as e:
        print(f"!!! ERRO: Coluna chave esperada não encontrada em df_jobs ou df_applicants. Detalhe: {e}")
    except json.JSONDecodeError:
        print(f"!!! ERRO: Falha ao decodificar o JSON em '{prospects_relationship_filename}'. Verifique se o arquivo é um JSON válido.")
    except Exception as e:
        print(f"!!! ERRO inesperado durante a criação e enriquecimento de df_prospects_relationship: {e}")

# Verificação final
if df_prospects_relationship is not None:
    if not df_prospects_relationship.empty:
        print("DataFrame df_prospects_relationship (enriquecido) está pronto.")
    else:
        print("DataFrame df_prospects_relationship foi criado, mas está vazio.")
else:
    print("Falha ao criar df_prospects_relationship.")


Iniciando criação e enriquecimento direto de df_prospects_relationship a partir de: ../data/raw/prospects.json
  Arquivo '../data/raw/prospects.json' carregado.
  Aviso: Candidato ID '22977' (da interação na vaga '4535') não encontrado em df_applicants.
  Aviso: Candidato ID '22662' (da interação na vaga '4537') não encontrado em df_applicants.
  Aviso: Candidato ID '22626' (da interação na vaga '4537') não encontrado em df_applicants.
  Aviso: Candidato ID '22608' (da interação na vaga '4537') não encontrado em df_applicants.
  Aviso: Candidato ID '22607' (da interação na vaga '4537') não encontrado em df_applicants.
  Aviso: Candidato ID '22845' (da interação na vaga '4547') não encontrado em df_applicants.
  Aviso: Candidato ID '22553' (da interação na vaga '4559') não encontrado em df_applicants.
  Aviso: Candidato ID '22767' (da interação na vaga '4565') não encontrado em df_applicants.
  Aviso: Candidato ID '22779' (da interação na vaga '4587') não encontrado em df_applicants.
 

In [219]:
df_prospects_relationship.head()

Unnamed: 0,nome,codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,id_vaga_interacao,titulo_vaga_interacao,modalidade_vaga_interacao,app_id_candidato_original_applicants,app_cv_pt,app_cv_en,app_infos_basicas_telefone_recado,app_infos_basicas_telefone,app_infos_basicas_objetivo_profissional,app_infos_basicas_data_criacao,app_infos_basicas_inserido_por,app_infos_basicas_email,app_infos_basicas_local,app_infos_basicas_sabendo_de_nos_por,app_infos_basicas_data_atualizacao,app_infos_basicas_codigo_profissional,app_infos_basicas_nome,app_informacoes_pessoais_data_aceite,app_informacoes_pessoais_nome,app_informacoes_pessoais_cpf,app_informacoes_pessoais_fonte_indicacao,app_informacoes_pessoais_email,app_informacoes_pessoais_email_secundario,app_informacoes_pessoais_data_nascimento,app_informacoes_pessoais_telefone_celular,app_informacoes_pessoais_telefone_recado,app_informacoes_pessoais_sexo,app_informacoes_pessoais_estado_civil,app_informacoes_pessoais_pcd,app_informacoes_pessoais_endereco,app_informacoes_pessoais_skype,app_informacoes_pessoais_url_linkedin,app_informacoes_pessoais_facebook,app_informacoes_profissionais_titulo_profissional,app_informacoes_profissionais_area_atuacao,app_informacoes_profissionais_conhecimentos_tecnicos,app_informacoes_profissionais_certificacoes,app_informacoes_profissionais_outras_certificacoes,app_informacoes_profissionais_remuneracao,app_informacoes_profissionais_nivel_profissional,app_formacao_e_idiomas_nivel_academico,app_formacao_e_idiomas_nivel_ingles,app_formacao_e_idiomas_nivel_espanhol,app_formacao_e_idiomas_outro_idioma,app_formacao_e_idiomas_instituicao_ensino_superior,app_formacao_e_idiomas_cursos,app_formacao_e_idiomas_ano_conclusao,app_informacoes_pessoais_download_cv,app_informacoes_profissionais_qualificacoes,app_informacoes_profissionais_experiencias,app_formacao_e_idiomas_outro_curso,app_cargo_atual_id_ibrati,app_cargo_atual_email_corporativo,app_cargo_atual_cargo_atual,app_cargo_atual_projeto_atual,app_cargo_atual_cliente,app_cargo_atual_unidade,app_cargo_atual_data_admissao,app_cargo_atual_data_ultima_promocao,app_cargo_atual_nome_superior_imediato,app_cargo_atual_email_superior_imediato,job_id_vaga_original_jobs,job_informacoes_basicas_data_requicisao,job_informacoes_basicas_limite_esperado_para_contratacao,job_informacoes_basicas_titulo_vaga,job_informacoes_basicas_vaga_sap,job_informacoes_basicas_cliente,job_informacoes_basicas_solicitante_cliente,job_informacoes_basicas_empresa_divisao,job_informacoes_basicas_requisitante,job_informacoes_basicas_analista_responsavel,job_informacoes_basicas_tipo_contratacao,job_informacoes_basicas_prazo_contratacao,job_informacoes_basicas_objetivo_vaga,job_informacoes_basicas_prioridade_vaga,job_informacoes_basicas_origem_vaga,job_informacoes_basicas_superior_imediato,job_informacoes_basicas_nome,job_informacoes_basicas_telefone,job_perfil_vaga_pais,job_perfil_vaga_estado,job_perfil_vaga_cidade,job_perfil_vaga_bairro,job_perfil_vaga_regiao,job_perfil_vaga_local_trabalho,job_perfil_vaga_vaga_especifica_para_pcd,job_perfil_vaga_faixa_etaria,job_perfil_vaga_horario_trabalho,job_perfil_vaga_nivel profissional,job_perfil_vaga_nivel_academico,job_perfil_vaga_nivel_ingles,job_perfil_vaga_nivel_espanhol,job_perfil_vaga_outro_idioma,job_perfil_vaga_areas_atuacao,job_perfil_vaga_principais_atividades,job_perfil_vaga_competencia_tecnicas_e_comportamentais,job_perfil_vaga_demais_observacoes,job_perfil_vaga_viagens_requeridas,job_perfil_vaga_equipamentos_necessarios,job_beneficios_valor_venda,job_beneficios_valor_compra_1,job_beneficios_valor_compra_2,job_informacoes_basicas_data_inicial,job_informacoes_basicas_data_final,job_perfil_vaga_habilidades_comportamentais_necessarias,job_informacoes_basicas_nome_substituto
0,José Vieira,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,,25632,\ndados pessoais\nestado civil: casado\nidade:...,,,(21) 93485-6494,,2021-03-25 13:36:19,Ana Lívia Moreira,josé_vieira@gmail.com,,,2021-03-25 13:36:19,25632,José Vieira,NaT,José Vieira,,:,josé_vieira@gmail.com,,NaT,(21) 93485-6494,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4530,2021-03-10,NaT,CONSULTOR CONTROL M,False,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Lívia Moreira,PJ/Autônomo,,,,,Superior Imediato:,,,Brasil,Rio de Janeiro,Rio de Janeiro,,,2000,False,De: Até:,,Pleno,Ensino Superior Completo,Nenhum,Nenhum,,TI - Desenvolvimento/Programação-,- Experiência comprovada em projetos de control-M,- Experiência comprovada em projetos de control-M,Contratação PJ Projeto pontual de 2 a 3 meses ...,,Nenhum -,-,R$,,,,,
1,Srta. Isabela Cavalcante,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,,25529,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,(21) 94261-6276,ANALISTA DE REDES E TELEPROCESSAMENTO/INFRAEST...,2021-03-22 22:48:58,Ana Lívia Moreira,srta._isabela_cavalcante@hotmail.com,"Rio de Janeiro, Rio de Janeiro",Site de Empregos,2021-03-22 23:36:28,25529,Srta. Isabela Cavalcante,NaT,Srta. Isabela Cavalcante,,Site de Empregos: Linkdin,srta._isabela_cavalcante@hotmail.com,,1973-10-25,(21) 94261-6276,,Masculino,Solteiro,False,rio de janeiro,,,,ANALISTA DE REDES E TELEPROCESSAMENTO/INFRAEST...,"TI - Governança, TI - Infraestrutura, TI - Pro...",,,,,,Ensino Superior Completo,Intermediário,Básico,-,,,2020.0,,,,,,,,,,,,,,,4530,2021-03-10,NaT,CONSULTOR CONTROL M,False,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Lívia Moreira,PJ/Autônomo,,,,,Superior Imediato:,,,Brasil,Rio de Janeiro,Rio de Janeiro,,,2000,False,De: Até:,,Pleno,Ensino Superior Completo,Nenhum,Nenhum,,TI - Desenvolvimento/Programação-,- Experiência comprovada em projetos de control-M,- Experiência comprovada em projetos de control-M,Contratação PJ Projeto pontual de 2 a 3 meses ...,,Nenhum -,-,R$,,,,,
2,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25364,\n\nárea de atuação: lider de consultoria / ge...,,,(21) 96332-6963,Liderança / Desenvolvimento,2021-03-17 09:41:10,Juliana Cassiano,sra._yasmin_fernandes@hotmail.com,"São Paulo, São Paulo",Site de Empregos,2021-04-12 12:15:57,25364,Sra. Yasmin Fernandes,NaT,Sra. Yasmin Fernandes,,Site de Empregos: APINFO / Linkedin,sra._yasmin_fernandes@hotmail.com,,1973-01-31,(21) 96332-6963,,Masculino,Casado,False,são paulo,,,,Liderança / Desenvolvimento,TI - Projetos,"- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8....",,- Capacitação PeopleSoft (Formação Técnica) – ...,,,Ensino Superior Completo,Avançado,Intermediário,-,,Tecnologia da Informação,1995.0,,,,,,,,,,,,,,,4531,2021-03-10,NaT,2021-2607395-PeopleSoft Application Engine-Dom...,False,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,Vitória Melo,Srta. Bella Ferreira,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,,Gestão e Alocação de Recursos de TI-,Key skills required for the job are:\n\nPeople...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,-,hora,,,,,
3,Alexia Barbosa,25360,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25360,informações pessoais\n estado civil: casado\n...,,,(11) 97744-8180,,2021-03-17 08:20:21,Juliana Cassiano,alexia_barbosa@hotmail.com,,,2021-03-17 08:20:21,25360,Alexia Barbosa,NaT,Alexia Barbosa,,:,alexia_barbosa@hotmail.com,,NaT,(11) 97744-8180,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4531,2021-03-10,NaT,2021-2607395-PeopleSoft Application Engine-Dom...,False,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,Vitória Melo,Srta. Bella Ferreira,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,,Gestão e Alocação de Recursos de TI-,Key skills required for the job are:\n\nPeople...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,-,hora,,,,,
4,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,4533,2021-2605708-Microfocus Application Life Cycle...,,26338,"solteiro, brasileiro, 21/06/1987\nhabilitação ...",,,(31) 92702-5791,,2021-04-27 13:12:34,Stella Vieira,arthur_almeida@gmail.com,,,2022-11-25 11:04:15,26338,Arthur Almeida,2022-11-25 11:04:00,Arthur Almeida,,:,arthur_almeida@gmail.com,,NaT,(31) 92702-5791,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4533,2021-03-11,1970-01-01,2021-2605708-Microfocus Application Life Cycle...,False,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,False,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,,Gestão e Alocação de Recursos de TI-,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Atuação somente em horário comercial. Tempo in...,,,"207,00 -",hora,,,,Telefonica,


In [220]:
df_prospects_relationship.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 113 columns):
 #    Column                                                    Non-Null Count  Dtype         
---   ------                                                    --------------  -----         
 0    nome                                                      53759 non-null  object        
 1    codigo                                                    53759 non-null  object        
 2    situacao_candidado                                        53759 non-null  object        
 3    data_candidatura                                          53759 non-null  object        
 4    ultima_atualizacao                                        53759 non-null  object        
 5    comentario                                                53759 non-null  object        
 6    recrutador                                                53759 non-null  object        
 7    id_vaga_interacao            

### Ajustando as colunas de df_prospects_relationship para os tipos corretos

In [221]:
COLS_DATE_APPLICANTS = ['infos_basicas_data_criacao', 'infos_basicas_data_atualizacao', 'informacoes_pessoais_data_aceite', 'informacoes_pessoais_data_nascimento']
COLS_NUM_APPLICANTS = ['informacoes_profissionais_remuneracao']
COLS_BOOL_APPLICANTS = ['informacoes_pessoais_pcd']
COLS_CAT_APPLICANTS = ['infos_basicas_sabendo_de_nos_por', 'informacoes_pessoais_fonte_indicacao', 'informacoes_pessoais_sexo', 'informacoes_pessoais_estado_civil', 'informacoes_profissionais_nivel_profissional']

COLS_DATE_JOBS = ['informacoes_basicas_data_requicisao', 'informacoes_basicas_limite_esperado_para_contratacao']
COLS_BOOL_JOBS = ['informacoes_basicas_vaga_sap', 'perfil_vaga_vaga_especifica_para_pcd', 'perfil_vaga_viagens_requeridas']
COLS_CAT_JOBS = ['informacoes_basicas_tipo_contratacao', 'informacoes_basicas_prioridade_vaga', 'perfil_vaga_nivel_profissional', 'perfil_vaga_nivel_academico', 'perfil_vaga_nivel_ingles', 'perfil_vaga_nivel_espanhol', 'perfil_vaga_pais', 'perfil_vaga_estado', 'perfil_vaga_cidade']


# Colunas de Data
date_cols_enriched = ['data_candidatura', 'ultima_atualizacao']
date_cols_enriched.extend([f"app_{col}" for col in COLS_DATE_APPLICANTS if f"app_{col}" in df_prospects_relationship.columns])
date_cols_enriched.extend([f"job_{col}" for col in COLS_DATE_JOBS if f"job_{col}" in df_prospects_relationship.columns])
for col in date_cols_enriched:
    if col in df_prospects_relationship.columns:
        print(f"  Convertendo '{col}' para datetime...")
        try: df_prospects_relationship[col] = pd.to_datetime(df_prospects_relationship[col], dayfirst=True, errors='coerce')
        except: df_prospects_relationship[col] = pd.to_datetime(df_prospects_relationship[col], errors='coerce')

# Colunas Categóricas
category_cols_enriched = ['situacao_candidado', 'modalidade_vaga_interacao', 'recrutador']
category_cols_enriched.extend([f"app_{col}" for col in COLS_CAT_APPLICANTS if f"app_{col}" in df_prospects_relationship.columns])
category_cols_enriched.extend([f"job_{col}" for col in COLS_CAT_JOBS if f"job_{col}" in df_prospects_relationship.columns])
for col in category_cols_enriched:
    if col in df_prospects_relationship.columns:
        print(f"  Convertendo '{col}' para categoria...")
        df_prospects_relationship[col] = df_prospects_relationship[col].astype('category')

# Colunas Booleanas
map_sim_nao_geral = {'Sim': True, 'sim': True, 'S': True, 's': True, 'True': True, 'true': True, 'TRUE': True,
                      'Não': False, 'nao': False, 'Nao': False, 'N': False, 'n': False, 'False': False, 'false': False, 'FALSE': False}
bool_cols_enriched = []
bool_cols_enriched.extend([f"app_{col}" for col in COLS_BOOL_APPLICANTS if f"app_{col}" in df_prospects_relationship.columns])
bool_cols_enriched.extend([f"job_{col}" for col in COLS_BOOL_JOBS if f"job_{col}" in df_prospects_relationship.columns])
for col in bool_cols_enriched:
    if col in df_prospects_relationship.columns:
        print(f"  Convertendo '{col}' para booleano (Pandas)...")
        df_prospects_relationship[col] = df_prospects_relationship[col].map(map_sim_nao_geral).astype('boolean')

# Colunas Numéricas
numeric_cols_enriched = []
numeric_cols_enriched.extend([f"app_{col}" for col in COLS_NUM_APPLICANTS if f"app_{col}" in df_prospects_relationship.columns])
for col in numeric_cols_enriched:
    if col in df_prospects_relationship.columns:
        print(f"  Convertendo '{col}' para numérico...")
        df_prospects_relationship[col] = pd.to_numeric(df_prospects_relationship[col], errors='coerce')

# Conversão das colunas 'object' restantes para 'string' Dtype
print("\n  Convertendo 'object' restantes em df_prospects_relationship para 'string'...")
for col in df_prospects_relationship.select_dtypes(include=['object']).columns:
    print(f"    Convertendo '{col}' para 'string'...")
    df_prospects_relationship[col] = df_prospects_relationship[col].astype('string')


  Convertendo 'data_candidatura' para datetime...
  Convertendo 'ultima_atualizacao' para datetime...
  Convertendo 'app_infos_basicas_data_criacao' para datetime...
  Convertendo 'app_infos_basicas_data_atualizacao' para datetime...
  Convertendo 'app_informacoes_pessoais_data_aceite' para datetime...
  Convertendo 'app_informacoes_pessoais_data_nascimento' para datetime...
  Convertendo 'job_informacoes_basicas_data_requicisao' para datetime...
  Convertendo 'job_informacoes_basicas_limite_esperado_para_contratacao' para datetime...
  Convertendo 'situacao_candidado' para categoria...
  Convertendo 'modalidade_vaga_interacao' para categoria...
  Convertendo 'recrutador' para categoria...
  Convertendo 'app_infos_basicas_sabendo_de_nos_por' para categoria...
  Convertendo 'app_informacoes_pessoais_fonte_indicacao' para categoria...
  Convertendo 'app_informacoes_pessoais_sexo' para categoria...
  Convertendo 'app_informacoes_pessoais_estado_civil' para categoria...
  Convertendo 'app_

In [222]:
df_prospects_relationship.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 113 columns):
 #    Column                                                    Non-Null Count  Dtype         
---   ------                                                    --------------  -----         
 0    nome                                                      53759 non-null  string        
 1    codigo                                                    53759 non-null  string        
 2    situacao_candidado                                        53759 non-null  category      
 3    data_candidatura                                          53759 non-null  datetime64[ns]
 4    ultima_atualizacao                                        49846 non-null  datetime64[ns]
 5    comentario                                                53759 non-null  string        
 6    recrutador                                                53759 non-null  category      
 7    id_vaga_interacao            

In [223]:
df_prospects_relationship.head(10)

Unnamed: 0,nome,codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,id_vaga_interacao,titulo_vaga_interacao,modalidade_vaga_interacao,app_id_candidato_original_applicants,app_cv_pt,app_cv_en,app_infos_basicas_telefone_recado,app_infos_basicas_telefone,app_infos_basicas_objetivo_profissional,app_infos_basicas_data_criacao,app_infos_basicas_inserido_por,app_infos_basicas_email,app_infos_basicas_local,app_infos_basicas_sabendo_de_nos_por,app_infos_basicas_data_atualizacao,app_infos_basicas_codigo_profissional,app_infos_basicas_nome,app_informacoes_pessoais_data_aceite,app_informacoes_pessoais_nome,app_informacoes_pessoais_cpf,app_informacoes_pessoais_fonte_indicacao,app_informacoes_pessoais_email,app_informacoes_pessoais_email_secundario,app_informacoes_pessoais_data_nascimento,app_informacoes_pessoais_telefone_celular,app_informacoes_pessoais_telefone_recado,app_informacoes_pessoais_sexo,app_informacoes_pessoais_estado_civil,app_informacoes_pessoais_pcd,app_informacoes_pessoais_endereco,app_informacoes_pessoais_skype,app_informacoes_pessoais_url_linkedin,app_informacoes_pessoais_facebook,app_informacoes_profissionais_titulo_profissional,app_informacoes_profissionais_area_atuacao,app_informacoes_profissionais_conhecimentos_tecnicos,app_informacoes_profissionais_certificacoes,app_informacoes_profissionais_outras_certificacoes,app_informacoes_profissionais_remuneracao,app_informacoes_profissionais_nivel_profissional,app_formacao_e_idiomas_nivel_academico,app_formacao_e_idiomas_nivel_ingles,app_formacao_e_idiomas_nivel_espanhol,app_formacao_e_idiomas_outro_idioma,app_formacao_e_idiomas_instituicao_ensino_superior,app_formacao_e_idiomas_cursos,app_formacao_e_idiomas_ano_conclusao,app_informacoes_pessoais_download_cv,app_informacoes_profissionais_qualificacoes,app_informacoes_profissionais_experiencias,app_formacao_e_idiomas_outro_curso,app_cargo_atual_id_ibrati,app_cargo_atual_email_corporativo,app_cargo_atual_cargo_atual,app_cargo_atual_projeto_atual,app_cargo_atual_cliente,app_cargo_atual_unidade,app_cargo_atual_data_admissao,app_cargo_atual_data_ultima_promocao,app_cargo_atual_nome_superior_imediato,app_cargo_atual_email_superior_imediato,job_id_vaga_original_jobs,job_informacoes_basicas_data_requicisao,job_informacoes_basicas_limite_esperado_para_contratacao,job_informacoes_basicas_titulo_vaga,job_informacoes_basicas_vaga_sap,job_informacoes_basicas_cliente,job_informacoes_basicas_solicitante_cliente,job_informacoes_basicas_empresa_divisao,job_informacoes_basicas_requisitante,job_informacoes_basicas_analista_responsavel,job_informacoes_basicas_tipo_contratacao,job_informacoes_basicas_prazo_contratacao,job_informacoes_basicas_objetivo_vaga,job_informacoes_basicas_prioridade_vaga,job_informacoes_basicas_origem_vaga,job_informacoes_basicas_superior_imediato,job_informacoes_basicas_nome,job_informacoes_basicas_telefone,job_perfil_vaga_pais,job_perfil_vaga_estado,job_perfil_vaga_cidade,job_perfil_vaga_bairro,job_perfil_vaga_regiao,job_perfil_vaga_local_trabalho,job_perfil_vaga_vaga_especifica_para_pcd,job_perfil_vaga_faixa_etaria,job_perfil_vaga_horario_trabalho,job_perfil_vaga_nivel profissional,job_perfil_vaga_nivel_academico,job_perfil_vaga_nivel_ingles,job_perfil_vaga_nivel_espanhol,job_perfil_vaga_outro_idioma,job_perfil_vaga_areas_atuacao,job_perfil_vaga_principais_atividades,job_perfil_vaga_competencia_tecnicas_e_comportamentais,job_perfil_vaga_demais_observacoes,job_perfil_vaga_viagens_requeridas,job_perfil_vaga_equipamentos_necessarios,job_beneficios_valor_venda,job_beneficios_valor_compra_1,job_beneficios_valor_compra_2,job_informacoes_basicas_data_inicial,job_informacoes_basicas_data_final,job_perfil_vaga_habilidades_comportamentais_necessarias,job_informacoes_basicas_nome_substituto
0,José Vieira,25632,Encaminhado ao Requisitante,2021-03-25,2021-03-25,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,,25632,dados pessoais estado civil: casado idade: 33...,,,(21) 93485-6494,,2021-03-25 13:36:19,Ana Lívia Moreira,josé_vieira@gmail.com,,,2021-03-25 13:36:19,25632,José Vieira,NaT,José Vieira,,:,josé_vieira@gmail.com,,NaT,(21) 93485-6494,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4530,2021-03-10,NaT,CONSULTOR CONTROL M,,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Lívia Moreira,PJ/Autônomo,,,,,Superior Imediato:,,,Brasil,Rio de Janeiro,Rio de Janeiro,,,2000,,De: Até:,,Pleno,Ensino Superior Completo,Nenhum,Nenhum,,TI - Desenvolvimento/Programação-,- Experiência comprovada em projetos de control-M,- Experiência comprovada em projetos de control-M,Contratação PJ Projeto pontual de 2 a 3 meses ...,,Nenhum -,-,R$,,,,,
1,Srta. Isabela Cavalcante,25529,Encaminhado ao Requisitante,2021-03-22,2021-03-23,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,4530,CONSULTOR CONTROL M,,25529,"solteiro, 47 anos estrada meringuava, nº 1763...",,,(21) 94261-6276,ANALISTA DE REDES E TELEPROCESSAMENTO/INFRAEST...,2021-03-22 22:48:58,Ana Lívia Moreira,srta._isabela_cavalcante@hotmail.com,"Rio de Janeiro, Rio de Janeiro",Site de Empregos,2021-03-22 23:36:28,25529,Srta. Isabela Cavalcante,NaT,Srta. Isabela Cavalcante,,Site de Empregos: Linkdin,srta._isabela_cavalcante@hotmail.com,,1973-10-25,(21) 94261-6276,,Masculino,Solteiro,,rio de janeiro,,,,ANALISTA DE REDES E TELEPROCESSAMENTO/INFRAEST...,"TI - Governança, TI - Infraestrutura, TI - Pro...",,,,,,Ensino Superior Completo,Intermediário,Básico,-,,,2020.0,,,,,,,,,,,,,,,4530,2021-03-10,NaT,CONSULTOR CONTROL M,,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Lívia Moreira,PJ/Autônomo,,,,,Superior Imediato:,,,Brasil,Rio de Janeiro,Rio de Janeiro,,,2000,,De: Até:,,Pleno,Ensino Superior Completo,Nenhum,Nenhum,,TI - Desenvolvimento/Programação-,- Experiência comprovada em projetos de control-M,- Experiência comprovada em projetos de control-M,Contratação PJ Projeto pontual de 2 a 3 meses ...,,Nenhum -,-,R$,,,,,
2,Sra. Yasmin Fernandes,25364,Contratado pela Decision,2021-03-17,2021-04-12,Data de Inicio: 12/04/2021,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25364,área de atuação: lider de consultoria / gere...,,,(21) 96332-6963,Liderança / Desenvolvimento,2021-03-17 09:41:10,Juliana Cassiano,sra._yasmin_fernandes@hotmail.com,"São Paulo, São Paulo",Site de Empregos,2021-04-12 12:15:57,25364,Sra. Yasmin Fernandes,NaT,Sra. Yasmin Fernandes,,Site de Empregos: APINFO / Linkedin,sra._yasmin_fernandes@hotmail.com,,1973-01-31,(21) 96332-6963,,Masculino,Casado,,são paulo,,,,Liderança / Desenvolvimento,TI - Projetos,"- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8....",,- Capacitação PeopleSoft (Formação Técnica) – ...,,,Ensino Superior Completo,Avançado,Intermediário,-,,Tecnologia da Informação,1995.0,,,,,,,,,,,,,,,4531,2021-03-10,NaT,2021-2607395-PeopleSoft Application Engine-Dom...,,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,Vitória Melo,Srta. Bella Ferreira,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,,Gestão e Alocação de Recursos de TI-,Key skills required for the job are: PeopleSo...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,-,hora,,,,,
3,Alexia Barbosa,25360,Encaminhado ao Requisitante,2021-03-17,2021-03-17,,Juliana Cassiano,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25360,informações pessoais  estado civil: casado  ...,,,(11) 97744-8180,,2021-03-17 08:20:21,Juliana Cassiano,alexia_barbosa@hotmail.com,,,2021-03-17 08:20:21,25360,Alexia Barbosa,NaT,Alexia Barbosa,,:,alexia_barbosa@hotmail.com,,NaT,(11) 97744-8180,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4531,2021-03-10,NaT,2021-2607395-PeopleSoft Application Engine-Dom...,,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,Vitória Melo,Srta. Bella Ferreira,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,,Gestão e Alocação de Recursos de TI-,Key skills required for the job are: PeopleSo...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,-,hora,,,,,
4,Arthur Almeida,26338,Contratado pela Decision,2021-04-29,2021-05-18,,Stella Vieira,4533,2021-2605708-Microfocus Application Life Cycle...,,26338,"solteiro, brasileiro, 21/06/1987 habilitação c...",,,(31) 92702-5791,,2021-04-27 13:12:34,Stella Vieira,arthur_almeida@gmail.com,,,2022-11-25 11:04:15,26338,Arthur Almeida,2022-11-25 11:04:00,Arthur Almeida,,:,arthur_almeida@gmail.com,,NaT,(31) 92702-5791,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4533,2021-03-11,1970-01-01,2021-2605708-Microfocus Application Life Cycle...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,,Gestão e Alocação de Recursos de TI-,Arquiteto Foco na área e automação. Requerid...,Arquiteto Foco na área e automação. Requerid...,Atuação somente em horário comercial. Tempo in...,,,"207,00 -",hora,,,,Telefonica,
5,Dante Sampaio,24645,Desistiu,2021-04-27,2021-04-27,Profissional desistiu da vaga. Motivo : Na ver...,Yasmin da Rosa,4533,2021-2605708-Microfocus Application Life Cycle...,,24645,analista de teste/qa profissional hands on se...,,,(11) 93816-4224,,2021-02-22 20:39:58,Ana Camargo,dante_sampaio@gmail.com,,,2021-07-26 12:35:50,24645,Dante Sampaio,NaT,Dante Sampaio,,:,dante_sampaio@gmail.com,,1969-12-31,(11) 93816-4224,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4533,2021-03-11,1970-01-01,2021-2605708-Microfocus Application Life Cycle...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,,Gestão e Alocação de Recursos de TI-,Arquiteto Foco na área e automação. Requerid...,Arquiteto Foco na área e automação. Requerid...,Atuação somente em horário comercial. Tempo in...,,,"207,00 -",hora,,,,Telefonica,
6,Ana Luiza Vieira,26361,Documentação PJ,2021-04-28,2021-05-11,Aguardando confirmação de inicio _,Manuella Carvalho,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,26361,alta mobilidade para mudanças e viagens obje...,,,(71) 96972-8588,,2021-04-28 16:48:14,Manuella Carvalho,ana_luiza_vieira@hotmail.com,,,2021-04-28 16:48:14,26361,Ana Luiza Vieira,NaT,Ana Luiza Vieira,,:,ana_luiza_vieira@hotmail.com,,NaT,(71) 96972-8588,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código) E...,Automação de teste (conhecimento do código) E...,,,,"105,00 -",hora,,,,Tempo indeterminado. Atuação remota. Podem ser...,
7,Isabella da Cruz,26205,Desistiu,2021-04-23,2021-04-30,"profissional não atende ou responde ligações, ...",Ana Camargo,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,26205,"idade: 37 anos 172 apto.2703, vila maria josé ...",,,(62) 99945-1336,,2021-04-19 16:08:25,Ana Camargo,isabella_da_cruz@hotmail.com,,,2021-04-19 16:08:25,26205,Isabella da Cruz,NaT,Isabella da Cruz,,:,isabella_da_cruz@hotmail.com,,NaT,(62) 99945-1336,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código) E...,Automação de teste (conhecimento do código) E...,,,,"105,00 -",hora,,,,Tempo indeterminado. Atuação remota. Podem ser...,
8,Maria Helena Peixoto,26003,Não Aprovado pelo Cliente,2021-04-08,2021-04-16,"""Conversando com a candidata, foi exposto que ...",Carolina Araújo,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,26003,solteira – 40 anos – brasileira itaquaquecetub...,,,(11) 98863-3278,,2021-04-08 17:36:10,Agatha Montenegro,maria_helena_peixoto@gmail.com,,,2021-04-08 17:36:10,26003,Maria Helena Peixoto,NaT,Maria Helena Peixoto,,:,maria_helena_peixoto@gmail.com,,NaT,(11) 98863-3278,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código) E...,Automação de teste (conhecimento do código) E...,,,,"105,00 -",hora,,,,Tempo indeterminado. Atuação remota. Podem ser...,
9,Dra. Gabrielly Cassiano,25509,Desistiu,2021-03-22,2021-03-22,No momento não avalia,Dra. Luara Siqueira,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,25509,"são paulo, sp software qa engineer at dxc tec...",,,(00) 92083-4380,,2021-03-22 16:30:24,Dra. Luara Siqueira,dra._gabrielly_cassiano@gmail.com,,,2021-03-22 16:30:24,25509,Dra. Gabrielly Cassiano,NaT,Dra. Gabrielly Cassiano,,:,dra._gabrielly_cassiano@gmail.com,,NaT,(00) 92083-4380,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código) E...,Automação de teste (conhecimento do código) E...,,,,"105,00 -",hora,,,,Tempo indeterminado. Atuação remota. Podem ser...,


### Gerando um arquivo CSV com o dataframe de relacionamento

In [None]:
df_prospects_relationship.to_csv('../data/processed/prospects_relationship.csv')