In [1]:
import os
import json
import pandas as pd
import unicodedata

In [2]:
FILE = '../data/raw/jobs.json'

def load_json(path):
    with open(path, 'r', encoding='utf-8') as f:
        return json.load(f)

# Applicants
data = load_json(FILE)
df = pd.DataFrame([
    {
        'vaga_id': job_id,
        **job.get('informacoes_basicas', {}),
        **job.get('perfil_vaga', {}),
        **job.get('beneficios', {}),
    }
    for job_id, job in data.items()
])

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 45 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   vaga_id                                  14081 non-null  object
 1   data_requicisao                          14081 non-null  object
 2   limite_esperado_para_contratacao         14081 non-null  object
 3   titulo_vaga                              14081 non-null  object
 4   vaga_sap                                 14081 non-null  object
 5   cliente                                  14081 non-null  object
 6   solicitante_cliente                      14081 non-null  object
 7   empresa_divisao                          14081 non-null  object
 8   requisitante                             14081 non-null  object
 9   analista_responsavel                     14081 non-null  object
 10  tipo_contratacao                         14081 non-null  o

In [4]:
df.columns

Index(['vaga_id', 'data_requicisao', 'limite_esperado_para_contratacao',
       'titulo_vaga', 'vaga_sap', 'cliente', 'solicitante_cliente',
       'empresa_divisao', 'requisitante', 'analista_responsavel',
       'tipo_contratacao', 'prazo_contratacao', 'objetivo_vaga',
       'prioridade_vaga', 'origem_vaga', 'superior_imediato', 'nome',
       'telefone', 'pais', 'estado', 'cidade', 'bairro', 'regiao',
       'local_trabalho', 'vaga_especifica_para_pcd', 'faixa_etaria',
       'horario_trabalho', 'nivel profissional', 'nivel_academico',
       'nivel_ingles', 'nivel_espanhol', 'outro_idioma', 'areas_atuacao',
       'principais_atividades', 'competencia_tecnicas_e_comportamentais',
       'demais_observacoes', 'viagens_requeridas', 'equipamentos_necessarios',
       'valor_venda', 'valor_compra_1', 'valor_compra_2', 'data_inicial',
       'data_final', 'habilidades_comportamentais_necessarias',
       'nome_substituto'],
      dtype='object')

In [5]:
for col in df.columns:
    if df[col].dtype == 'object':
        print(f"Column '{col}' has {df[col].nunique()} unique values.")

Column 'vaga_id' has 14081 unique values.
Column 'data_requicisao' has 1543 unique values.
Column 'limite_esperado_para_contratacao' has 1306 unique values.
Column 'titulo_vaga' has 12452 unique values.
Column 'vaga_sap' has 2 unique values.
Column 'cliente' has 112 unique values.
Column 'solicitante_cliente' has 311 unique values.
Column 'empresa_divisao' has 2 unique values.
Column 'requisitante' has 24 unique values.
Column 'analista_responsavel' has 63 unique values.
Column 'tipo_contratacao' has 40 unique values.
Column 'prazo_contratacao' has 3 unique values.
Column 'objetivo_vaga' has 6 unique values.
Column 'prioridade_vaga' has 4 unique values.
Column 'origem_vaga' has 3 unique values.
Column 'superior_imediato' has 1 unique values.
Column 'nome' has 81 unique values.
Column 'telefone' has 4 unique values.
Column 'pais' has 1 unique values.
Column 'estado' has 27 unique values.
Column 'cidade' has 167 unique values.
Column 'bairro' has 133 unique values.
Column 'regiao' has 11

In [6]:
df = df.drop(
    ['data_requicisao',
    'limite_esperado_para_contratacao',
    'cliente',
    'solicitante_cliente',
    'empresa_divisao',
    'requisitante',
    'analista_responsavel',
    'telefone',
    'pais',
    'superior_imediato'
    ]
     , axis=1)

In [7]:
for column in df.columns:
    if df[column].nunique() < 41:
        print(f"Column '{column}' unique values: {df[column].unique()}")

Column 'vaga_sap' unique values: ['Não' 'Sim']
Column 'tipo_contratacao' unique values: ['CLT Full' 'PJ/Autônomo, CLT Full' 'PJ/Autônomo' 'CLT Cotas' 'Cooperado'
 'Hunting' 'Hunting, PJ/Autônomo, CLT Full' 'PJ/Autônomo, CLT Cotas'
 'CLT Full, PJ/Autônomo' 'PJ/Autônomo, Hunting' 'PJ/Autônomo, Cooperado'
 'Cooperado, PJ/Autônomo' 'CLT Full, CLT Cotas, PJ/Autônomo' 'Estagiário'
 'PJ/Autônomo, Cooperado, CLT Cotas' 'Hunting, PJ/Autônomo' ''
 'Candidato poderá escolher, PJ/Autônomo'
 'PJ/Autônomo, Cooperado, CLT Full' 'CLT Full, Cooperado, PJ/Autônomo'
 'CLT Full, Hunting' 'Hunting, PJ/Autônomo, Cooperado'
 'Candidato poderá escolher, Hunting, PJ/Autônomo' 'Cooperado, CLT Full'
 'CLT Cotas, PJ/Autônomo' 'CLT Full, Cooperado'
 'CLT Full, CLT Cotas, Cooperado, Estagiário, PJ/Autônomo'
 'Hunting, CLT Full' 'PJ/Autônomo, CLT Cotas, CLT Full'
 'CLT Cotas, CLT Full' 'CLT Full, CLT Cotas'
 'CLT Cotas, Cooperado, Estagiário, PJ/Autônomo'
 'CLT Cotas, Cooperado, Estagiário, PJ/Autônomo, Hunting'
 'C

In [8]:
df = df.drop(
    ['regiao',
     'local_trabalho',
     'faixa_etaria',
     'horario_trabalho',
     'viagens_requeridas',
     'equipamentos_necessarios'
     ], axis=1)

In [9]:
df.columns

Index(['vaga_id', 'titulo_vaga', 'vaga_sap', 'tipo_contratacao',
       'prazo_contratacao', 'objetivo_vaga', 'prioridade_vaga', 'origem_vaga',
       'nome', 'estado', 'cidade', 'bairro', 'vaga_especifica_para_pcd',
       'nivel profissional', 'nivel_academico', 'nivel_ingles',
       'nivel_espanhol', 'outro_idioma', 'areas_atuacao',
       'principais_atividades', 'competencia_tecnicas_e_comportamentais',
       'demais_observacoes', 'valor_venda', 'valor_compra_1', 'valor_compra_2',
       'data_inicial', 'data_final', 'habilidades_comportamentais_necessarias',
       'nome_substituto'],
      dtype='object')

In [10]:
for col in df.columns:
    print(df[col].value_counts(normalize=True) * 100)
    print("=" * 60)

vaga_id
12364    0.007102
12380    0.007102
12381    0.007102
12382    0.007102
12383    0.007102
           ...   
5180     0.007102
5181     0.007102
5182     0.007102
5183     0.007102
5184     0.007102
Name: proportion, Length: 14081, dtype: float64
titulo_vaga
PROXXI JR                          0.568141
SAP SD                             0.390597
PROXXI                             0.319580
Desenvolvedor Java                 0.198850
SAP MM                             0.198850
                                     ...   
Especialista FI - SV-147           0.007102
Gerente de Integrações - SV-146    0.007102
CPI/PO SV-145                      0.007102
Gerente de Projetos - SV-144       0.007102
Technical Architect - 11894809     0.007102
Name: proportion, Length: 12452, dtype: float64
vaga_sap
Não    95.078475
Sim     4.921525
Name: proportion, dtype: float64
tipo_contratacao
PJ/Autônomo                                                         28.868688
CLT Full                       

In [14]:
df = df.drop(
    ['objetivo_vaga',
     'prioridade_vaga',
     'origem_vaga',
     'bairro',
     'vaga_especifica_para_pcd',
     'data_inicial',
     'data_final',
     'nome_substituto',
     'prazo_contratacao',
     'areas_atuacao',
     'valor_venda',
     'valor_compra_1',
     'valor_compra_2',
     'outro_idioma'
     ], axis=1)

In [15]:
df.columns

Index(['vaga_id', 'titulo_vaga', 'vaga_sap', 'tipo_contratacao', 'nome',
       'estado', 'cidade', 'nivel profissional', 'nivel_academico',
       'nivel_ingles', 'nivel_espanhol', 'principais_atividades',
       'competencia_tecnicas_e_comportamentais', 'demais_observacoes',
       'habilidades_comportamentais_necessarias'],
      dtype='object')

# Tratamentos para o modelo

* vaga_sap (feature engineering)
* tipo_contratacao (feature engineering)
* prazo_contratacao (feature engineering)
* nivel profissional (feature engineering)
* nivel_academico (feature engineering)
* nivel_ingles (feature engineering)
* nivel_espanhol (feature engineering)

In [16]:
df.vaga_sap.value_counts(normalize=True) * 100

vaga_sap
Não    95.078475
Sim     4.921525
Name: proportion, dtype: float64

In [None]:
def mapear_sim_nao(coluna: pd.Series) -> pd.Series:
    # 1. Cria o mapa: 'Sim' -> 1.
    mapa = {'Sim': 1}
    
    # 2. Padroniza a coluna para Title Case ('sim' -> 'Sim') para garantir o match.
    # 3. Aplica o mapa. Tudo que não for 'Sim' se tornará NaN.
    # 4. Preenche os valores NaN com 0.
    # 5. Converte o tipo da coluna para inteiro.
    coluna_numerica = coluna.str.title().map(mapa).fillna(0).astype('int8')
    
    return coluna_numerica

In [18]:
df['vaga_sap_num'] = mapear_sim_nao(df['vaga_sap'])

In [19]:
df.tipo_contratacao.value_counts(normalize=True) * 100

tipo_contratacao
PJ/Autônomo                                                         28.868688
CLT Full                                                            22.370570
CLT Full, PJ/Autônomo                                               15.169377
PJ/Autônomo, CLT Full                                                9.090263
Hunting                                                              8.742277
Cooperado                                                            5.560685
                                                                     4.289468
CLT Cotas                                                            2.940132
Cooperado, PJ/Autônomo                                               0.589447
CLT Full, Cooperado, PJ/Autônomo                                     0.468717
PJ/Autônomo, Cooperado                                               0.447411
PJ/Autônomo, CLT Cotas                                               0.262765
CLT Cotas, Cooperado, Estagiário, PJ/Autônomo  

In [20]:
df.tipo_contratacao.unique()

array(['CLT Full', 'PJ/Autônomo, CLT Full', 'PJ/Autônomo', 'CLT Cotas',
       'Cooperado', 'Hunting', 'Hunting, PJ/Autônomo, CLT Full',
       'PJ/Autônomo, CLT Cotas', 'CLT Full, PJ/Autônomo',
       'PJ/Autônomo, Hunting', 'PJ/Autônomo, Cooperado',
       'Cooperado, PJ/Autônomo', 'CLT Full, CLT Cotas, PJ/Autônomo',
       'Estagiário', 'PJ/Autônomo, Cooperado, CLT Cotas',
       'Hunting, PJ/Autônomo', '',
       'Candidato poderá escolher, PJ/Autônomo',
       'PJ/Autônomo, Cooperado, CLT Full',
       'CLT Full, Cooperado, PJ/Autônomo', 'CLT Full, Hunting',
       'Hunting, PJ/Autônomo, Cooperado',
       'Candidato poderá escolher, Hunting, PJ/Autônomo',
       'Cooperado, CLT Full', 'CLT Cotas, PJ/Autônomo',
       'CLT Full, Cooperado',
       'CLT Full, CLT Cotas, Cooperado, Estagiário, PJ/Autônomo',
       'Hunting, CLT Full', 'PJ/Autônomo, CLT Cotas, CLT Full',
       'CLT Cotas, CLT Full', 'CLT Full, CLT Cotas',
       'CLT Cotas, Cooperado, Estagiário, PJ/Autônomo',
     

In [21]:
def mapear_tipo_contratacao(coluna_contratacao: pd.Series) -> pd.Series:
    """
    Mapeia os tipos de contratação para um código numérico, tratando casos múltiplos como 'Híbrido'.

    Legenda: 0:Não Informado, 1:CLT, 2:PJ, 3:Cooperado, 4:Hunting, 5:Estagiário, 6:Híbrido
    """
    
    # Dicionário de busca. A ordem importa para a lógica if/elif.
    mapa_busca = {
        'clt': 1,
        'pj': 2,
        'cooperado': 3,
        'hunting': 4,
        'estagiario': 5,
    }

    def classificar_contratacao(valor):
        # Lida com valores nulos ou não-string
        if pd.isna(valor):
            return 0
        
        # Normaliza o texto para busca
        texto = str(valor).lower()
        texto = ''.join(c for c in unicodedata.normalize('NFKD', texto) if not unicodedata.combining(c))

        # Se o texto estiver vazio após a normalização, é 'Não Informado'
        if not texto.strip():
            return 0

        # Verifica a presença de cada palavra-chave
        tipos_encontrados = [palavra for palavra in mapa_busca if palavra in texto]
        
        # Aplica a lógica de classificação
        if len(tipos_encontrados) > 1:
            return 6 # Híbrido
        elif len(tipos_encontrados) == 1:
            palavra_encontrada = tipos_encontrados[0]
            return mapa_busca[palavra_encontrada]
        else:
            return 0 # Não Informado / Outros

    return coluna_contratacao.apply(classificar_contratacao)

In [22]:
df['contratacao_num'] = mapear_tipo_contratacao(df['tipo_contratacao'])

In [23]:
df['nivel profissional'].value_counts(normalize=True) * 100

nivel profissional
Sênior                    37.618067
Analista                  37.511540
Pleno                     15.084156
Júnior                     4.523826
Especialista               2.819402
Assistente                 1.029756
Gerente                    0.575243
Líder                      0.440310
Supervisor                 0.156239
Coordenador                0.149137
Auxiliar                   0.049712
Aprendiz                   0.021305
Trainee                    0.014204
Técnico de Nível Médio     0.007102
Name: proportion, dtype: float64

In [24]:
df['nivel profissional'].unique()

array(['Sênior', 'Analista', 'Pleno', 'Coordenador', 'Especialista',
       'Gerente', 'Supervisor', 'Assistente', 'Líder', 'Júnior',
       'Aprendiz', 'Auxiliar', 'Trainee', 'Técnico de Nível Médio'],
      dtype=object)

In [25]:
def mapear_nivel_profissional(coluna_nivel: pd.Series) -> pd.Series:
    """
    Mapeia uma coluna de texto de nível profissional para uma representação ordinal numérica.

    Args:
        coluna_nivel (pd.Series): A coluna do DataFrame com os níveis profissionais.

    Returns:
        pd.Series: Uma nova coluna com os valores ordinais correspondentes.
    """
    # Dicionário com a hierarquia de senioridade
    mapa_ordinal = {
        'Aprendiz': 1,
        'Auxiliar': 2,
        'Assistente': 3,
        'Trainee': 4,
        'Júnior': 5,
        'Técnico de Nível Médio': 6,
        'Pleno': 7,
        'Sênior': 8,
        'Especialista': 9,
        'Líder': 10,
        'Supervisor': 11,
        'Coordenador': 12,
        'Gerente': 13,
        'Outro': 0  # 'Outro' será considerado como 'Não Informado'
    }

    # Aplica o mapa. Valores não encontrados (como '' ou nulos) se tornarão NaN.
    coluna_numerica = coluna_nivel.map(mapa_ordinal)
    
    # Preenche os valores NaN com 0 e converte para um tipo inteiro.
    return coluna_numerica.fillna(0).astype('int8')

In [26]:
df['nivel_profissional_num'] = mapear_nivel_profissional(df['nivel profissional'])

In [27]:
df.columns

Index(['vaga_id', 'titulo_vaga', 'vaga_sap', 'tipo_contratacao', 'nome',
       'estado', 'cidade', 'nivel profissional', 'nivel_academico',
       'nivel_ingles', 'nivel_espanhol', 'principais_atividades',
       'competencia_tecnicas_e_comportamentais', 'demais_observacoes',
       'habilidades_comportamentais_necessarias', 'vaga_sap_num',
       'contratacao_num', 'nivel_profissional_num'],
      dtype='object')