In [1]:
import json

import pandas as pd

In [2]:
with open("vagas.json", encoding="utf-8") as json_data:
    json_file = json.load(json_data)

In [3]:
# json_file

In [4]:
# json_file.keys()

In [5]:
# Lista para armazenar os dados das vagas
df_vagas = []

# Itera sobre cada vaga no JSON
for vaga_id, vaga in json_file.items():
    linha = {
        "id_vaga": vaga_id
    }

    # informacoes_basicas
    info_basicas = vaga.get("informacoes_basicas", {})
    linha.update({
        "data_requicisao": info_basicas.get("data_requicisao", ""),
        "limite_esperado_para_contratacao": info_basicas.get("limite_esperado_para_contratacao", ""),
        "titulo_vaga": info_basicas.get("titulo_vaga", ""),
        "vaga_sap": info_basicas.get("vaga_sap", ""),
        "cliente": info_basicas.get("cliente", ""),
        "solicitante_cliente": info_basicas.get("solicitante_cliente", ""),
        "empresa_divisao": info_basicas.get("empresa_divisao", ""),
        "requisitante": info_basicas.get("requisitante", ""),
        "analista_responsavel": info_basicas.get("analista_responsavel", ""),
        "tipo_contratacao": info_basicas.get("tipo_contratacao", ""),
        "prazo_contratacao": info_basicas.get("prazo_contratacao", ""),
        "objetivo_vaga": info_basicas.get("objetivo_vaga", ""),
        "prioridade_vaga": info_basicas.get("prioridade_vaga", ""),
        "origem_vaga": info_basicas.get("origem_vaga", ""),
        "superior_imediato": info_basicas.get("superior_imediato", "")
    })

    # perfil_vaga
    perfil = vaga.get("perfil_vaga", {})
    linha.update({
        "nome": perfil.get("nome", ""),
        "telefone": perfil.get("telefone", ""),
        "pais": perfil.get("pais", ""),
        "estado": perfil.get("estado", ""),
        "cidade": perfil.get("cidade", ""),
        "bairro": perfil.get("bairro", ""),
        "regiao": perfil.get("regiao", ""),
        "local_trabalho": perfil.get("local_trabalho", ""),
        "vaga_especifica_para_pcd": perfil.get("vaga_especifica_para_pcd", ""),
        "faixa_etaria": perfil.get("faixa_etaria", ""),
        "horario_trabalho": perfil.get("horario_trabalho", ""),
        "nivel profissional": perfil.get("nivel profissional", ""),
        "nivel_academico": perfil.get("nivel_academico", ""),
        "nivel_ingles": perfil.get("nivel_ingles", ""),
        "nivel_espanhol": perfil.get("nivel_espanhol", ""),
        "outro_idioma": perfil.get("outro_idioma", ""),
        "areas_atuacao": perfil.get("areas_atuacao", ""),
        "principais_atividades": perfil.get("principais_atividades", ""),
        "competencia_tecnicas_e_comportamentais": perfil.get("competencia_tecnicas_e_comportamentais", ""),
        "demais_observacoes": perfil.get("demais_observacoes", ""),
        "viagens_requeridas": perfil.get("viagens_requeridas", ""),
        "equipamentos_necessarios": perfil.get("equipamentos_necessarios", "")
    })

    # beneficios
    beneficios = vaga.get("beneficios", {})
    linha.update({
        "valor_venda": beneficios.get("valor_venda", ""),
        "valor_compra_1": beneficios.get("valor_compra_1", ""),
        "valor_compra_2": beneficios.get("valor_compra_2", ""),
        "data_inicial": beneficios.get("data_inicial", ""),
        "data_final": beneficios.get("data_final", ""),
        "habilidades_comportamentais_necessarias": beneficios.get("habilidades_comportamentais_necessarias", ""),
        "nome_substituto": beneficios.get("nome_substituto", "")
    })

    # Adiciona a linha ao DataFrame
    df_vagas.append(linha)

# Converte a lista de dicionários em DataFrame
df_vagas = pd.DataFrame(df_vagas)

In [6]:
df_vagas["nivel profissional"].unique()

array(['Sênior', 'Analista', 'Pleno', 'Coordenador', 'Especialista',
       'Gerente', 'Supervisor', 'Assistente', 'Líder', 'Júnior',
       'Aprendiz', 'Auxiliar', 'Trainee', 'Técnico de Nível Médio'],
      dtype=object)

In [7]:
df_vagas["nivel profissional"].value_counts()

Sênior                    5297
Analista                  5282
Pleno                     2124
Júnior                     637
Especialista               397
Assistente                 145
Gerente                     81
Líder                       62
Supervisor                  22
Coordenador                 21
Auxiliar                     7
Aprendiz                     3
Trainee                      2
Técnico de Nível Médio       1
Name: nivel profissional, dtype: int64

In [8]:
# df_vagas.info()

In [9]:
def limpar_valor(valor):
    valor = str(valor)
    valor = valor.strip()

    # Substitui '-' por 0 e lida com casos claramente inválidos
    if valor == '-' or 'p/ mês' in valor or '(' in valor or valor.count('.') > 1:
        return 0.0

    # Remove "R$", letras, espaços e outros símbolos
    valor = (
        valor
        .replace('R$', '')
        .replace('.', '')  # remove pontos de milhar
        .replace(',', '.')  # troca vírgula decimal por ponto
    )

    # Remove qualquer coisa que não seja número ou ponto
    valor = ''.join(c for c in valor if c.isdigit() or c == '.')

    # Tenta converter
    try:
        return float(valor)
    except:
        return 0.0


# Aplica a função à coluna
df_vagas['valor_venda'] = df_vagas['valor_venda'].apply(limpar_valor)

In [10]:
# Conversão de colunas com datas (formato dd-mm-yyyy)
colunas_data = [
    'data_requicisao', 'limite_esperado_para_contratacao',
    'data_inicial', 'data_final'
]

for col in colunas_data:
    df_vagas[col] = pd.to_datetime(df_vagas[col], format='%d-%m-%Y', errors='coerce')

# Conversão para string
colunas_string = [
    'titulo_vaga', 'vaga_sap', 'cliente', 'solicitante_cliente',
    'empresa_divisao', 'requisitante', 'analista_responsavel',
    'tipo_contratacao', 'prazo_contratacao', 'objetivo_vaga',
    'prioridade_vaga', 'origem_vaga', 'superior_imediato',
    'nome', 'telefone', 'pais', 'estado', 'cidade', 'bairro',
    'regiao', 'local_trabalho', 'vaga_especifica_para_pcd',
    'faixa_etaria', 'horario_trabalho', 'nivel profissional', 'nivel_academico',
    'nivel_ingles', 'nivel_espanhol', 'outro_idioma', 'areas_atuacao',
    'principais_atividades', 'competencia_tecnicas_e_comportamentais',
    'demais_observacoes', 'viagens_requeridas', 'equipamentos_necessarios',
    'valor_compra_1', 'valor_compra_2', 'habilidades_comportamentais_necessarias',
    'nome_substituto'
]

df_vagas[colunas_string] = df_vagas[colunas_string].astype(str)

# Conversão para inteiro
df_vagas['id_vaga'] = pd.to_numeric(df_vagas['id_vaga'], errors='coerce').astype('Int64')

In [11]:
df_vagas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14081 entries, 0 to 14080
Data columns (total 45 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   id_vaga                                  14081 non-null  Int64         
 1   data_requicisao                          14081 non-null  datetime64[ns]
 2   limite_esperado_para_contratacao         7989 non-null   datetime64[ns]
 3   titulo_vaga                              14081 non-null  object        
 4   vaga_sap                                 14081 non-null  object        
 5   cliente                                  14081 non-null  object        
 6   solicitante_cliente                      14081 non-null  object        
 7   empresa_divisao                          14081 non-null  object        
 8   requisitante                             14081 non-null  object        
 9   analista_responsavel                   

In [12]:
df_vagas

Unnamed: 0,id_vaga,data_requicisao,limite_esperado_para_contratacao,titulo_vaga,vaga_sap,cliente,solicitante_cliente,empresa_divisao,requisitante,analista_responsavel,...,demais_observacoes,viagens_requeridas,equipamentos_necessarios,valor_venda,valor_compra_1,valor_compra_2,data_inicial,data_final,habilidades_comportamentais_necessarias,nome_substituto
0,5185,2021-05-04,NaT,Operation Lead -,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,...,100% Remoto Período – entre 5 – 6 meses,,Nenhum -,0.0,R$,,NaT,NaT,,
1,5184,2021-05-04,NaT,Consultor PP/QM Sênior,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Yasmin da Rosa,...,• Início: Imediato • Fim: Jan/22,,Nenhum -,0.0,R$,,NaT,NaT,,
2,5183,2021-05-04,NaT,ANALISTA PL/JR C/ SQL,Não,"Morris, Moran and Dodson",Dra. Catarina Marques,Decision São Paulo,Maria Laura Nogueira,Ana Albuquerque,...,Localização: Remoto Perfil: Analista Pleno ou ...,,Nenhum -,0.0,R$,,NaT,NaT,,
3,5182,2021-05-04,2021-05-18,Technical Architect - 11894809,Não,Nelson-Page,Dr. Raul Monteiro,Decision São Paulo,Cecília Freitas,Clara Rios,...,Budgeted Rate - indicate currency and type (ho...,Não,Notebook padrão -,0.0,fechado,,NaT,NaT,,
4,5181,2021-05-04,NaT,Consultor SAP AUTHORIZATION (BCA) -Pleno / Sênior,Não,Mann and Sons,Cauê Fogaça,Decision São Paulo,Maria Laura Nogueira,Srta. Bella Ferreira,...,contratação CLT full pela Decision locação rem...,Sim,Nenhum -,0.0,R$,,NaT,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14076,12368,2024-02-28,2024-03-31,PMP 5203658 - Dynamics,Não,Miller-Curry,Guilherme Campos,Decision Campinas,Sra. Juliana Oliveira,Sra. Joana Sousa,...,,,,123.0,APPLICATION DEVELOPER-MICROSOFT ANALYTICS - ba...,,NaT,NaT,,
14077,12367,2024-02-28,2024-02-29,MM com IM - FSR 3910,Não,Bishop-Reed,Lívia Vasconcelos,Decision São Paulo,Manuella Jesus,Srta. Bella Ferreira,...,FSR: 3910,Não,,168.0,Fechado,,NaT,NaT,,
14078,12366,2024-02-27,2024-02-29,964 - Assistente fiscal ou financeiro,Não,"Glover, Warren and Norris",Lorenzo Cunha,Decision São Paulo,Maria Lopes,Maria Clara Pires,...,"Modelo de trabalho: Hibrido, 3 vezes por seman...",Não,,168.0,Fechado,,NaT,NaT,,
14079,12365,2024-02-27,2024-02-29,966 - Analista pleno ou sênior de área fiscal,Não,"Glover, Warren and Norris",Lorenzo Cunha,Decision São Paulo,Maria Lopes,Melina Montenegro,...,"Modelo de trabalho: Hibrido, 3 vezes por seman...",Não,,168.0,Fechado,,NaT,NaT,,


# Novas linhas de código

In [13]:
 # Função de classificação para título da vaga

def classificar_titulo_area_nivel(titulo):
    titulo_lower = titulo.lower()
    nivel = "Outros"
    area = "Outros"

    # Definir nível
    if "estagi" in titulo_lower or "trainee" in titulo_lower:
        nivel = "Estágio/Trainee"
    elif "assistente" in titulo_lower:
        nivel = "Assistente"
    elif "junior" in titulo_lower or "jr" in titulo_lower:
        nivel = "Júnior"
    elif "pleno" in titulo_lower or "pl" in titulo_lower:
        nivel = "Pleno"
    elif "senior" in titulo_lower or "sr" in titulo_lower or "sênior" in titulo_lower or "sn" in titulo_lower:
        nivel = "Sênior"
    elif "coordenador" in titulo_lower or "líder" in titulo_lower:
        nivel = "Coordenação"
    elif "gerente" in titulo_lower or "manager" in titulo_lower:
        nivel = "Gerência"
    elif "diretor" in titulo_lower:
        nivel = "Diretoria"

    # Definir área
    if "fiscal" in titulo_lower or "contábil" in titulo_lower or "contabilidade" in titulo_lower:
        area = "Fiscal/Contábil"
    elif "financeiro" in titulo_lower or "billing" in titulo_lower:
        area = "Financeiro"
    elif "projetos" in titulo_lower or "pmo" in titulo_lower:
        area = "Projetos"
    elif "sap" in titulo_lower:
        area = "SAP"
    elif "infraestrutura" in titulo_lower or "infra" in titulo_lower:
        area = "Infraestrutura"
    elif "dados" in titulo_lower or "data" in titulo_lower or "bi" in titulo_lower:
        area = "Dados/BI"
    elif "segurança" in titulo_lower:
        area = "Segurança da Informação"
    elif "recrutador" in titulo_lower or "rh" in titulo_lower or "recursos humanos" in titulo_lower:
        area = "Recursos Humanos"
    elif "desenvolvedor" in titulo_lower or "developer" in titulo_lower or "programador" in titulo_lower:
        area = "Desenvolvimento"
    elif "analista" in titulo_lower:
        area = "Análise de Sistemas"
    elif "consultor" in titulo_lower:
        area = "Consultoria"
    elif "arquiteto" in titulo_lower:
        area = "Arquitetura de Sistemas"
    elif "engenheiro" in titulo_lower:
        area = "Engenharia de Software"
    elif "scrum" in titulo_lower:
        area = "Metodologias Ágeis"

    return f"{area} - {nivel}"


# Aplicar a função no DataFrame
df_vagas['class_titulo_vaga'] = df_vagas['titulo_vaga'].apply(classificar_titulo_area_nivel)

In [14]:
# Agrupar o tipo de contratação

def classificar_contratacao(valor):
    if not valor or valor.strip() == "":
        return "Não Informado"
    valor_lower = valor.lower()

    # Classificações exclusivas
    if "candidato poderá escolher" in valor_lower:
        return "Escolha do Candidato"
    elif all(x in valor_lower for x in ["clt", "pj", "cooperado", "estagiário", "hunting"]):
        return "Misto"
    elif "," in valor:
        return "Misto"
    elif "clt" in valor_lower:
        return "CLT"
    elif "pj" in valor_lower or "autônomo" in valor_lower:
        return "PJ/Autônomo"
    elif "cooperado" in valor_lower:
        return "Cooperado"
    elif "estagiário" in valor_lower:
        return "Estágio"
    elif "hunting" in valor_lower:
        return "Hunting"
    else:
        return "Outros"


# Aplicando ao DataFrame
df_vagas["class_tipo_contratacao"] = df_vagas["tipo_contratacao"].apply(classificar_contratacao)

In [15]:
# Ajustes no prazo de contratação
df_vagas['prazo_contratacao'] = df_vagas['prazo_contratacao'].replace(r'^\s*$', 'Indeterminado', regex=True)
df_vagas['prazo_contratacao'] = df_vagas['prazo_contratacao'].fillna('Indeterminado')

In [16]:
# Tranformar score de inglês
mapa_ingles = {
    'Nenhum': 0,
    'Básico': 1,
    'Intermediário': 2,
    'Avançado': 3,
    'Técnico': 3,
    'Fluente': 4
}

# Aplicar o mapeamento na nova coluna
df_vagas['score_ingles'] = df_vagas['nivel_ingles'].map(mapa_ingles)

In [17]:
# Dicionário de mapeamento
mapa_espanhol = {
    'Nenhum': 0,
    'Básico': 1,
    'Intermediário': 2,
    'Avançado': 3,
    'Técnico': 3,
    'Fluente': 4
}

# Substituir strings vazias ou espaços por NaN temporariamente
df_vagas['nivel_espanhol'] = df_vagas['nivel_espanhol'].replace(r'^\s*$', None, regex=True)

# Aplicar o mapeamento e substituir valores ausentes por 0
df_vagas['score_espanhol'] = df_vagas['nivel_espanhol'].map(mapa_espanhol).fillna(0).astype(int)

In [18]:
# Criar nova coluna para a área de atuação e classificar de acordo com novas áreas.
def classificar_macrogrupo(area):
    if pd.isnull(area):
        return 'Outro'

    area = area.lower()

    if any(t in area for t in ['desenvolvimento', 'programa', 'design', 'mobile', 'ux']):
        return 'TI - Desenvolvimento'
    elif any(t in area for t in ['banco de dados', 'processos e negócios']):
        return 'TI - Dados'
    elif 'arquitetura' in area:
        return 'TI - Arquitetura'
    elif any(t in area for t in ['infraestrutura', 'suporte', 'telecom']):
        return 'TI - Infraestrutura'
    elif any(t in area for t in ['qualidade', 'segurança da informação', 'governança']):
        return 'TI - Qualidade e Segurança'
    elif any(t in area for t in ['sap', 'sistemas e ferramentas']):
        return 'TI - Sistemas/Plataformas'
    elif any(t in area for t in ['projetos', 'gestão e alocação']):
        return 'TI - Projetos e Gestão TI'
    elif any(t in area for t in ['administrativa', 'jurídica', 'comercial', 'marketing', 'novos negócios', 'relacionamento técnico', 'qualidade corporativa']):
        return 'Administrativo/Corporativo'
    elif 'financeira' in area or 'controladoria' in area:
        return 'Financeiro/Controladoria'
    elif 'recursos humanos' in area:
        return 'RH / Pessoas'
    else:
        return 'Outro'


# Criar a nova coluna com a classificação
df_vagas['class_area_atuacao'] = df_vagas['areas_atuacao'].apply(classificar_macrogrupo)


In [19]:
df_vagas.to_parquet("vagas.parquet", index=False)