In [3]:
import json
import pandas as pd

# ======== 1. Carregar os arquivos JSON ========
with open('applicants.json', 'r', encoding='utf-8') as f:
    applicants_raw = json.load(f)

with open('prospects.json', 'r', encoding='utf-8') as f:
    prospects_raw = json.load(f)

with open('jobs.json', 'r', encoding='utf-8') as f:
    jobs_raw = json.load(f)

# ======== 2. Processar Applicants.json ========
applicants_data = []
for applicant_id, info in applicants_raw.items():
    applicants_data.append({
        'codigo_profissional': applicant_id,
        'nome_applicant': info['infos_basicas'].get('nome'),
        'email': info['infos_basicas'].get('email'),
        'telefone': info['infos_basicas'].get('telefone'),
        'objetivo_profissional': info['infos_basicas'].get('objetivo_profissional'),
        'nivel_academico': info['formacao_e_idiomas'].get('nivel_academico'),
        'nivel_ingles': info['formacao_e_idiomas'].get('nivel_ingles'),
        'nivel_espanhol': info['formacao_e_idiomas'].get('nivel_espanhol'),
        'area_atuacao': info['informacoes_profissionais'].get('area_atuacao'),
        'conhecimentos_tecnicos': info['informacoes_profissionais'].get('conhecimentos_tecnicos'),
        'cv_pt': info.get('cv_pt', '')
    })

df_applicants = pd.DataFrame(applicants_data)

# ======== 3. Processar Prospects.json ========
prospects_data = []
for job_id, job_info in prospects_raw.items():
    for prospect in job_info.get("prospects", []):
        prospects_data.append({
            'codigo_vaga': job_id,
            'titulo_vaga_prospect': job_info.get('titulo', ''),
            'modalidade': job_info.get('modalidade', ''),
            'codigo_profissional': prospect.get('codigo'),
            'nome_candidato': prospect.get('nome'),
            'situacao_candidato': prospect.get('situacao_candidado'),
            'data_candidatura': prospect.get('data_candidatura'),
            'ultima_atualizacao': prospect.get('ultima_atualizacao'),
            'comentario': prospect.get('comentario'),
            'recrutador': prospect.get('recrutador')
        })

df_prospects = pd.DataFrame(prospects_data)

# ======== 4. Processar Jobs.json ========
jobs_data = []
for job_id, job_info in jobs_raw.items():
    info = job_info.get('informacoes_basicas', {})
    perfil = job_info.get('perfil_vaga', {})
    jobs_data.append({
        'codigo_vaga': job_id,
        'titulo_vaga': info.get('titulo_vaga'),
        'vaga_sap': info.get('vaga_sap'),
        'cliente': info.get('cliente'),
        'tipo_contratacao': info.get('tipo_contratacao'),
        'local_trabalho': perfil.get('local_trabalho'),
        'nivel_profissional': perfil.get('nivel profissional'),
        'nivel_ingles': perfil.get('nivel_ingles'),
        'nivel_espanhol': perfil.get('nivel_espanhol'),
        'areas_atuacao': perfil.get('areas_atuacao'),
        'principais_atividades': perfil.get('principais_atividades'),
        'competencias': perfil.get('competencia_tecnicas_e_comportamentais')
    })

df_jobs = pd.DataFrame(jobs_data)

# ======== 5. Juntar tudo ========
df_merge1 = pd.merge(df_prospects, df_applicants, on='codigo_profissional', how='left')
df_final = pd.merge(df_merge1, df_jobs, on='codigo_vaga', how='left')

# ======== 6. Resultado ========
print("Shape final:", df_final.shape)
print(df_final.head())

Shape final: (53759, 31)
  codigo_vaga                               titulo_vaga_prospect modalidade  \
0        4530                                CONSULTOR CONTROL M              
1        4530                                CONSULTOR CONTROL M              
2        4531  2021-2607395-PeopleSoft Application Engine-Dom...              
3        4531  2021-2607395-PeopleSoft Application Engine-Dom...              
4        4533  2021-2605708-Microfocus Application Life Cycle...              

  codigo_profissional            nome_candidato           situacao_candidato  \
0               25632               José Vieira  Encaminhado ao Requisitante   
1               25529  Srta. Isabela Cavalcante  Encaminhado ao Requisitante   
2               25364     Sra. Yasmin Fernandes     Contratado pela Decision   
3               25360            Alexia Barbosa  Encaminhado ao Requisitante   
4               26338            Arthur Almeida     Contratado pela Decision   

  data_candidatura 

In [9]:
import re

def clean_illegal_chars(val):
    if isinstance(val, str):
        # Remove caracteres de controle não permitidos no Excel (exceto \n e \t)
        return re.sub(r'[\x00-\x08\x0b\x0c\x0e-\x1f\x7f-\x9f]', '', val)
    return val

# Aplicar a função em todo o DataFrame
df_final_clean = df_final.applymap(clean_illegal_chars)

# Agora pode exportar com segurança
df_final_clean.to_excel("dados_unificados.xlsx", index=False)

  df_final_clean = df_final.applymap(clean_illegal_chars)


In [11]:
df_applicants.head()

Unnamed: 0,codigo_profissional,nome_applicant,email,telefone,objetivo_profissional,nivel_academico,nivel_ingles,nivel_espanhol,area_atuacao,conhecimentos_tecnicos,cv_pt
0,31000,Carolina Aparecida,carolina_aparecida@gmail.com,(11) 97048-2708,,,,,,,assistente administrativo\n\n\nsantosbatista\n...
1,31001,Eduardo Rios,eduardo_rios@hotmail.com,(11) 93723-4396,Analista Administrativo,Ensino Superior Incompleto,Nenhum,Nenhum,Administrativa,,formação acadêmica\nensino médio (2º grau) em ...
2,31002,Pedro Henrique Carvalho,pedro_henrique_carvalho@gmail.com,(11) 92399-9824,Administrativo | Financeiro,Ensino Superior Completo,Intermediário,Básico,Administrativa,,objetivo: área administrativa | financeira\n\n...
3,31003,Thiago Barbosa,thiago_barbosa@hotmail.com,(11) 98100-1727,Área administrativa,Ensino Superior Incompleto,Nenhum,Nenhum,Administrativa,,formação\nensino médio completo\ninformática i...
4,31004,Diogo das Neves,diogo_das_neves@hotmail.com,(11) 92517-2678,,,,,,,última atualização em 09/11/2021\n­ sp\n\nensi...


In [13]:
df_applicants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42482 entries, 0 to 42481
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   codigo_profissional     42482 non-null  object
 1   nome_applicant          42482 non-null  object
 2   email                   42482 non-null  object
 3   telefone                42482 non-null  object
 4   objetivo_profissional   42482 non-null  object
 5   nivel_academico         42482 non-null  object
 6   nivel_ingles            42482 non-null  object
 7   nivel_espanhol          42482 non-null  object
 8   area_atuacao            42482 non-null  object
 9   conhecimentos_tecnicos  42482 non-null  object
 10  cv_pt                   42482 non-null  object
dtypes: object(11)
memory usage: 3.6+ MB


In [17]:
df_prospects.head()

Unnamed: 0,codigo_vaga,titulo_vaga_prospect,modalidade,codigo_profissional,nome_candidato,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador
0,4530,CONSULTOR CONTROL M,,25632,José Vieira,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira
1,4530,CONSULTOR CONTROL M,,25529,Srta. Isabela Cavalcante,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25364,Sra. Yasmin Fernandes,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25360,Alexia Barbosa,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano
4,4533,2021-2605708-Microfocus Application Life Cycle...,,26338,Arthur Almeida,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira


In [15]:
df_prospects.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   codigo_vaga           53759 non-null  object
 1   titulo_vaga_prospect  53759 non-null  object
 2   modalidade            53759 non-null  object
 3   codigo_profissional   53759 non-null  object
 4   nome_candidato        53759 non-null  object
 5   situacao_candidato    53759 non-null  object
 6   data_candidatura      53759 non-null  object
 7   ultima_atualizacao    53759 non-null  object
 8   comentario            53759 non-null  object
 9   recrutador            53759 non-null  object
dtypes: object(10)
memory usage: 4.1+ MB


In [19]:
df_jobs.head()

Unnamed: 0,codigo_vaga,titulo_vaga,vaga_sap,cliente,tipo_contratacao,local_trabalho,nivel_profissional,nivel_ingles,nivel_espanhol,areas_atuacao,principais_atividades,competencias
0,5185,Operation Lead -,Não,"Morris, Moran and Dodson",CLT Full,2000,Sênior,Avançado,Fluente,TI - Sistemas e Ferramentas-,Operations Lead\n\nRoles & Responsibilities:\n...,Required Skills:\n• Prior experience in Cloud ...
1,5184,Consultor PP/QM Sênior,Não,"Morris, Moran and Dodson",CLT Full,2000,Sênior,Fluente,Nenhum,TI - Desenvolvimento/Programação-,Consultor PP/QM Sr.\n\n• Consultor PP/QM Sênio...,• Consultor PP/QM Sênior com experiencia em pr...
2,5183,ANALISTA PL/JR C/ SQL,Não,"Morris, Moran and Dodson",CLT Full,2000,Analista,Nenhum,Intermediário,TI - Sistemas e Ferramentas-,Descrição – Atividades:\n\no Monitoramento das...,Requisitos mandatórios:\n\no Conhecimentos Téc...
3,5182,Technical Architect - 11894809,Não,Nelson-Page,"PJ/Autônomo, CLT Full",2000,Analista,Básico,Básico,TI - Projetos-,Descrição/Comentário: Architecture Frameworks ...,Descrição/Comentário: Architecture Frameworks ...
4,5181,Consultor SAP AUTHORIZATION (BCA) -Pleno / Sênior,Não,Mann and Sons,CLT Full,2000,Sênior,Intermediário,Nenhum,TI - SAP-,Experiência como Consultor SAP AUTHORIZATION (...,Experiência como Consultor SAP AUTHORIZATION (...


In [21]:
df_jobs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   codigo_vaga            14081 non-null  object
 1   titulo_vaga            14081 non-null  object
 2   vaga_sap               14081 non-null  object
 3   cliente                14081 non-null  object
 4   tipo_contratacao       14081 non-null  object
 5   local_trabalho         14081 non-null  object
 6   nivel_profissional     14081 non-null  object
 7   nivel_ingles           14081 non-null  object
 8   nivel_espanhol         14081 non-null  object
 9   areas_atuacao          14081 non-null  object
 10  principais_atividades  14081 non-null  object
 11  competencias           14081 non-null  object
dtypes: object(12)
memory usage: 1.3+ MB


In [25]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 31 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   codigo_vaga             53759 non-null  object
 1   titulo_vaga_prospect    53759 non-null  object
 2   modalidade              53759 non-null  object
 3   codigo_profissional     53759 non-null  object
 4   nome_candidato          53759 non-null  object
 5   situacao_candidato      53759 non-null  object
 6   data_candidatura        53759 non-null  object
 7   ultima_atualizacao      53759 non-null  object
 8   comentario              53759 non-null  object
 9   recrutador              53759 non-null  object
 10  nome_applicant          45095 non-null  object
 11  email                   45095 non-null  object
 12  telefone                45095 non-null  object
 13  objetivo_profissional   45095 non-null  object
 14  nivel_academico         45095 non-null  object
 15  ni