# Imports

In [18]:
import pandas as pd
from unidecode import unidecode
from datetime import datetime

# Load Data

In [25]:
df_gupy = pd.read_excel('../data/data_raw/vagas_gupy_raw.xlsx')

df_vagas = pd.concat([df_gupy], axis = 0)
df_vagas.head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_da_vaga,local,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,Publicada em: 03/02/2024,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Curitiba - PR,Híbrido,Unidades V4 Company,Pessoa Jurídica,,Também p/ PcD,,6711345.0,Descrição da vagaVenha se juntar com a gente n...
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,Publicada em: 02/02/2024,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,São Paulo - SP,Híbrido,NeoAssist,Efetivo,,Também p/ PcD,,6710537.0,Descrição da vagaA Neo está buscando uma pesso...
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,Publicada em: 02/02/2024,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Maceió),Maceió - AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Também p/ PcD,,6709810.0,Descrição da vagaCom mais de 12 anos no mercad...
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,Publicada em: 02/02/2024,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,Não informado,Remoto,MESHA TECNOLOGIA,Efetivo,,Também p/ PcD,,6709335.0,Descrição da vagaCom mais de 12 anos no mercad...
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,Publicada em: 02/02/2024,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,Não informado,Remoto,Grupo OLX,Efetivo,,Também p/ PcD,,6609585.0,Descrição da vagaQuer fazer parte de uma das m...


# Tratamento dos Dados

In [26]:
df_vagas.dtypes

site_da_vaga        object
link_site           object
link_origem         object
data_publicacao     object
data_expiracao      object
data_coleta         object
posicao             object
titulo_da_vaga      object
local               object
modalidade          object
nome_empresa        object
contrato            object
regime             float64
pcd                 object
beneficios         float64
codigo_vaga        float64
descricao           object
dtype: object

In [27]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,Publicada em: 03/02/2024
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_da_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,Híbrido


In [28]:
df_vagas['data_publicacao'] = df_vagas['data_publicacao'].apply(lambda x: datetime.strptime(x.replace('Publicada em: ', '').replace('/', '-'),'%d-%m-%Y').strftime('%Y-%m-%d'))
df_vagas['data_coleta'] = df_vagas['data_coleta']
df_vagas['pcd'] = df_vagas['pcd'].apply(lambda x: 'Sim' if x == 'Também p/ PcD' else 'Não informado')

In [30]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,2024-02-03
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_da_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,Híbrido


# Features

## Senioridade

In [31]:
# matches para as senioridades
junior_matches = ['junior', ' jr'  , ' i', ' l ']
pleno_matches = ['pleno', ' pl', ' ii', ' ll ']
senior_matches = ['senior', ' sr', ' iii', ' lll ']

# removendo acentos e deixando letras minúsculas
df_vagas['titulo_da_vaga_tratado'] = df_vagas['titulo_da_vaga'].apply(lambda x: unidecode(x.lower()))

# função de faz matches com as senioridades das vagas
def busca_senioridade(titulo_vaga, match_list):
    senioridade = False
    for sub_string in match_list:
        if sub_string in titulo_vaga:
            senioridade = True
    
    return senioridade

# aplicando função
df_vagas['senioridade_junior'] = df_vagas['titulo_da_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, junior_matches))
df_vagas['senioridade_pleno'] = df_vagas['titulo_da_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, pleno_matches))
df_vagas['senioridade_senior'] = df_vagas['titulo_da_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, senior_matches))

# categorizando senioridades
df_vagas['senioridade'] = df_vagas[['senioridade_junior', 
                                    'senioridade_pleno', 
                                    'senioridade_senior']].apply(lambda x:  'Pleno/Sênior' if (x['senioridade_pleno']) and (x['senioridade_senior']) else
                                                                            'Júnior/Pleno' if (x['senioridade_junior']) and (x['senioridade_pleno']) else
                                                                            'Júnior' if x['senioridade_junior'] else 
                                                                            'Pleno' if x['senioridade_pleno'] else
                                                                            'Sênior' if x['senioridade_senior'] else
                                                                            'Não informado'
                                                                            , axis = 1)

In [32]:
df_vagas.loc[df_vagas['senioridade'] == 'Não informado', 'titulo_da_vaga_tratado'].unique()

array(['analista de dados - trainne (presencial - maceio)',
       'analista de dados - remota',
       'processo seletivo 2024.1 - analista de ciencia de dados',
       ' analista de dados - rio de janeiro/rj',
       'analista de dados | cresol confederacao', 'analista de dados ',
       'analista de dados', 'pessoa analista de dados ll',
       'analista de dados (foco em backstock)',
       'analista de dados controladoria - canoas ou lajeado/rs',
       'analista de dados - fortbras - sao paulo/sp',
       'analista de qualidade de dados ',
       'analista de dados - contas a receber',
       'analista de dados (e-commerce)', 'analista de dados - crm - bi',
       'cas | analista de dados - foco em gestao de comunidade de dados',
       'analista de dados - geoprocessamento | manufacturing.',
       'analista de dados (remoto)', 'analista de dados | salvador',
       'analista de dados | mercado ',
       'analista de sistemas / engenheiro de dados',
       'analista de privacida

## Localidade

In [33]:
df_vagas['cidade'] = df_vagas['local'].apply(lambda x: 'Não informado' if x == 'Não informado' else x.split(' - ')[0])
df_vagas['estado'] = df_vagas['local'].apply(lambda x: 'Não informado' if x == 'Não informado' else x.split(' - ')[1])

In [34]:
df_vagas['cidade']

0           Curitiba
1          São Paulo
2             Maceió
3      Não informado
4      Não informado
           ...      
309        Fortaleza
310         Salvador
311    Poços de C...
312    Não informado
313        São Paulo
Name: cidade, Length: 314, dtype: object

# Save Dataframe

In [35]:
columns_selected = [
            'site_da_vaga',
            'link_site',
            'link_origem',
            'data_publicacao',
            'data_coleta',
            'posicao',
            'titulo_da_vaga',
            'senioridade',
            'cidade',
            'estado',
            'modalidade',
            'nome_empresa',
            'contrato',
            'regime',
            'pcd',
            'beneficios',
            'codigo_vaga',
            'descricao',
            'data_expiracao'
]

In [36]:
df_vagas[columns_selected].to_excel('../data/data_clean/vagas_gupy_clean.xlsx', index=False)

In [37]:
df_vagas[columns_selected].head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_coleta,posicao,titulo_da_vaga,senioridade,cidade,estado,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao,data_expiracao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,2024-02-03,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Júnior/Pleno,Curitiba,PR,Híbrido,Unidades V4 Company,Pessoa Jurídica,,Sim,,6711345.0,Descrição da vagaVenha se juntar com a gente n...,2024-03-01
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,2024-02-02,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,São Paulo,SP,Híbrido,NeoAssist,Efetivo,,Sim,,6710537.0,Descrição da vagaA Neo está buscando uma pesso...,2024-04-01
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,2024-02-02,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Maceió),Não informado,Maceió,AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Sim,,6709810.0,Descrição da vagaCom mais de 12 anos no mercad...,2024-04-30
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,2024-02-02,2024-02-05,Analista de Dados,Analista de Dados - Remota,Não informado,Não informado,Não informado,Remoto,MESHA TECNOLOGIA,Efetivo,,Sim,,6709335.0,Descrição da vagaCom mais de 12 anos no mercad...,2024-03-31
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,2024-02-02,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,Não informado,Não informado,Remoto,Grupo OLX,Efetivo,,Sim,,6609585.0,Descrição da vagaQuer fazer parte de uma das m...,2024-03-18
