In [1]:
import os
import json
import pandas as pd

In [2]:
FILE = '../data/raw/prospects.json'

def load_json(path):
    with open(path, 'r', encoding='utf-8') as f:
        return json.load(f)

# Applicants
data = load_json(FILE)
df = pd.DataFrame([
    {
        'vaga_id': vaga_id,
        'candidato_id': p.get('codigo'),
        **p
    }
    for vaga_id, vaga in data.items()
    for p in vaga.get('prospects', [])
])

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53759 entries, 0 to 53758
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   vaga_id             53759 non-null  object
 1   candidato_id        53759 non-null  object
 2   nome                53759 non-null  object
 3   codigo              53759 non-null  object
 4   situacao_candidado  53759 non-null  object
 5   data_candidatura    53759 non-null  object
 6   ultima_atualizacao  53759 non-null  object
 7   comentario          53759 non-null  object
 8   recrutador          53759 non-null  object
dtypes: object(9)
memory usage: 3.7+ MB


In [4]:
df.columns

Index(['vaga_id', 'candidato_id', 'nome', 'codigo', 'situacao_candidado',
       'data_candidatura', 'ultima_atualizacao', 'comentario', 'recrutador'],
      dtype='object')

In [5]:
for col in df.columns:
    if df[col].dtype == 'object':
        print(f"Column '{col}' has {df[col].nunique()} unique values.")

Column 'vaga_id' has 11279 unique values.
Column 'candidato_id' has 29405 unique values.
Column 'nome' has 26247 unique values.
Column 'codigo' has 29405 unique values.
Column 'situacao_candidado' has 21 unique values.
Column 'data_candidatura' has 1793 unique values.
Column 'ultima_atualizacao' has 1584 unique values.
Column 'comentario' has 12194 unique values.
Column 'recrutador' has 77 unique values.


In [6]:
df = df.drop(
    ['nome',
     'codigo',
     'nome',
     'recrutador'], axis=1)

In [7]:
df.head()

Unnamed: 0,vaga_id,candidato_id,situacao_candidado,data_candidatura,ultima_atualizacao,comentario
0,4530,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora"
1,4530,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n..."
2,4531,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021
3,4531,25360,Encaminhado ao Requisitante,17-03-2021,17-03-2021,
4,4533,26338,Contratado pela Decision,29-04-2021,18-05-2021,


In [8]:
df.situacao_candidado.unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision',
       'Desistiu', 'Documentação PJ', 'Não Aprovado pelo Cliente',
       'Prospect', 'Não Aprovado pelo RH', 'Aprovado',
       'Não Aprovado pelo Requisitante', 'Inscrito', 'Entrevista Técnica',
       'Em avaliação pelo RH', 'Contratado como Hunting',
       'Desistiu da Contratação', 'Entrevista com Cliente',
       'Documentação CLT', 'Recusado', 'Documentação Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

In [10]:
df.situacao_candidado.value_counts()

situacao_candidado
Prospect                          20021
Encaminhado ao Requisitante       16122
Inscrito                           3980
Não Aprovado pelo Cliente          3492
Contratado pela Decision           2758
Desistiu                           2349
Não Aprovado pelo RH               1765
Não Aprovado pelo Requisitante      765
Entrevista Técnica                  579
Sem interesse nesta vaga            576
Entrevista com Cliente              469
Em avaliação pelo RH                375
Contratado como Hunting             226
Aprovado                            209
Desistiu da Contratação              59
Documentação PJ                       4
Documentação CLT                      3
Recusado                              2
Documentação Cooperado                2
Encaminhar Proposta                   2
Proposta Aceita                       1
Name: count, dtype: int64