In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_json('../data/raw/prospects.json')

In [3]:
lista_de_candidaturas = []
for id_vaga, detalhes_vaga in df.items():
    for candidato in detalhes_vaga.get('prospects', []):
        # Cria um dicionário para a candidatura
        candidatura_info = {
            'id_vaga': id_vaga,
            'titulo_vaga': detalhes_vaga.get('titulo'),
            'modalidade_vaga': detalhes_vaga.get('modalidade')
        }
        # Adiciona as informações do candidato a esse dicionário
        candidatura_info.update(candidato)
        lista_de_candidaturas.append(candidatura_info)

# Criar o DataFrame final
df = pd.DataFrame(lista_de_candidaturas)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id_vaga             53759 non-null  int64 
 1   titulo_vaga         53759 non-null  object
 2   modalidade_vaga     53759 non-null  object
 3   nome                53759 non-null  object
 4   codigo              53759 non-null  object
 5   situacao_candidado  53759 non-null  object
 6   data_candidatura    53759 non-null  object
 7   ultima_atualizacao  53759 non-null  object
 8   comentario          53759 non-null  object
 9   recrutador          53759 non-null  object
dtypes: int64(1), object(9)
memory usage: 4.1+ MB


In [5]:
df.columns

Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome', 'codigo',
       'situacao_candidado', 'data_candidatura', 'ultima_atualizacao',
       'comentario', 'recrutador'],
      dtype='object')

In [6]:
for col in df.columns:
    if df[col].dtype == 'object':
        print(f"Column '{col}' has {df[col].nunique()} unique values.")

Column 'titulo_vaga' has 9910 unique values.
Column 'modalidade_vaga' has 6 unique values.
Column 'nome' has 26247 unique values.
Column 'codigo' has 29405 unique values.
Column 'situacao_candidado' has 21 unique values.
Column 'data_candidatura' has 1793 unique values.
Column 'ultima_atualizacao' has 1584 unique values.
Column 'comentario' has 12194 unique values.
Column 'recrutador' has 77 unique values.


In [7]:
for column in df.columns:
    if df[column].nunique() < 10:
        print(f"Column '{column}' unique values: {df[column].unique()}")

Column 'modalidade_vaga' unique values: ['' 'CLT' 'Cooperado' 'PJ' 'CLT - Estratégico' 'Hunting']


In [8]:
df = df.drop(
    ['titulo_vaga',
     'modalidade_vaga',
     'nome',
     'recrutador'], axis=1)

In [9]:
df.head()

Unnamed: 0,id_vaga,codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario
0,4530,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora"
1,4530,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n..."
2,4531,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021
3,4531,25360,Encaminhado ao Requisitante,17-03-2021,17-03-2021,
4,4533,26338,Contratado pela Decision,29-04-2021,18-05-2021,


In [10]:
df.situacao_candidado.unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision',
       'Desistiu', 'Documentação PJ', 'Não Aprovado pelo Cliente',
       'Prospect', 'Não Aprovado pelo RH', 'Aprovado',
       'Não Aprovado pelo Requisitante', 'Inscrito', 'Entrevista Técnica',
       'Em avaliação pelo RH', 'Contratado como Hunting',
       'Desistiu da Contratação', 'Entrevista com Cliente',
       'Documentação CLT', 'Recusado', 'Documentação Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

In [None]:
df.head(20)

Unnamed: 0,id_vaga,codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario
0,4530,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora"
1,4530,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n..."
2,4531,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021
3,4531,25360,Encaminhado ao Requisitante,17-03-2021,17-03-2021,
4,4533,26338,Contratado pela Decision,29-04-2021,18-05-2021,
5,4533,24645,Desistiu,27-04-2021,27-04-2021,Profissional desistiu da vaga. Motivo : Na ver...
6,4534,26361,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _
7,4534,26205,Desistiu,23-04-2021,30-04-2021,"profissional não atende ou responde ligações, ..."
8,4534,26003,Não Aprovado pelo Cliente,08-04-2021,16-04-2021,"""Conversando com a candidata, foi exposto que ..."
9,4534,25509,Desistiu,22-03-2021,22-03-2021,No momento não avalia
