# Imports

In [2]:
import re
import pandas as pd
from unidecode import unidecode
from datetime import datetime

# Load Data

In [3]:
df_gupy = pd.read_excel('../data/data_raw/vagas_gupy_raw.xlsx')

df_vagas = pd.concat([df_gupy], axis = 0)
df_vagas.head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_vaga,local,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,Publicada em: 03/02/2024,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Curitiba - PR,Híbrido,Unidades V4 Company,Pessoa Jurídica,,Também p/ PcD,,6711345.0,Descrição da vagaVenha se juntar com a gente n...
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,Publicada em: 02/02/2024,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,São Paulo - SP,Híbrido,NeoAssist,Efetivo,,Também p/ PcD,,6710537.0,Descrição da vagaA Neo está buscando uma pesso...
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,Publicada em: 02/02/2024,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Maceió),Maceió - AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Também p/ PcD,,6709810.0,Descrição da vagaCom mais de 12 anos no mercad...
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,Publicada em: 02/02/2024,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,Não informado,Remoto,MESHA TECNOLOGIA,Efetivo,,Também p/ PcD,,6709335.0,Descrição da vagaCom mais de 12 anos no mercad...
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,Publicada em: 02/02/2024,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,Não informado,Remoto,Grupo OLX,Efetivo,,Também p/ PcD,,6609585.0,Descrição da vagaQuer fazer parte de uma das m...


# Tratamento dos Dados

In [4]:
df_vagas.dtypes

site_da_vaga        object
link_site           object
link_origem         object
data_publicacao     object
data_expiracao      object
data_coleta         object
posicao             object
titulo_vaga         object
local               object
modalidade          object
nome_empresa        object
contrato            object
regime             float64
pcd                 object
beneficios         float64
codigo_vaga        float64
descricao           object
dtype: object

In [5]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,Publicada em: 03/02/2024
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,Híbrido


In [6]:
df_vagas['data_publicacao'] = df_vagas['data_publicacao'].apply(lambda x: datetime.strptime(x.replace('Publicada em: ', '').replace('/', '-'),'%d-%m-%Y').strftime('%Y-%m-%d'))
df_vagas['data_coleta'] = df_vagas['data_coleta']
df_vagas['pcd'] = df_vagas['pcd'].apply(lambda x: 'Sim' if x == 'Também p/ PcD' else 'Não informado')

In [7]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,2024-02-03
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,Híbrido


# Features

## Senioridade

In [8]:
# matches para as senioridades
junior_matches = ['junior', ' jr'  , ' i', ' l ']
pleno_matches = ['pleno', ' pl', ' ii', ' ll ']
senior_matches = ['senior', ' sr', ' iii', ' lll ']

# removendo acentos e deixando letras minúsculas
df_vagas['titulo_vaga_tratado'] = df_vagas['titulo_vaga'].apply(lambda x: unidecode(x.lower()))

# função de faz matches com as senioridades das vagas
def busca_senioridade(titulo_vaga, match_list):
    senioridade = False
    for sub_string in match_list:
        if sub_string in titulo_vaga:
            senioridade = True
    
    return senioridade

# aplicando função
df_vagas['senioridade_junior'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, junior_matches))
df_vagas['senioridade_pleno'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, pleno_matches))
df_vagas['senioridade_senior'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, senior_matches))

# categorizando senioridades
df_vagas['senioridade'] = df_vagas[['senioridade_junior', 
                                    'senioridade_pleno', 
                                    'senioridade_senior']].apply(lambda x:  'Pleno/Sênior' if (x['senioridade_pleno']) and (x['senioridade_senior']) else
                                                                            'Júnior/Pleno' if (x['senioridade_junior']) and (x['senioridade_pleno']) else
                                                                            'Júnior' if x['senioridade_junior'] else 
                                                                            'Pleno' if x['senioridade_pleno'] else
                                                                            'Sênior' if x['senioridade_senior'] else
                                                                            'Não informado'
                                                                            , axis = 1)

## Localidade

In [10]:
df_vagas['cidade'] = df_vagas['local'].apply(lambda x: 'Não informado' if x == 'Não informado' else x.split(' - ')[0])
df_vagas['estado'] = df_vagas['local'].apply(lambda x: 'Não informado' if x == 'Não informado' else x.split(' - ')[1])

In [11]:
df_vagas.query("estado == 'Não informado'")[['titulo_vaga', 'cidade', 'estado', 'modalidade']]

Unnamed: 0,titulo_vaga,cidade,estado,modalidade
3,Analista de Dados - Remota,Não informado,Não informado,Remoto
4,Analista de Dados Pleno,Não informado,Não informado,Remoto
5,Processo Seletivo 2024.1 - Analista de Ciência...,Não informado,Não informado,Remoto
11,PESSOA ANALISTA DE DADOS PL,Não informado,Não informado,Remoto
15,Analista de Banco de Dados Junior | DBDevOps -...,Não informado,Não informado,Remoto
...,...,...,...,...
296,Engenheiro(a) de dados Sênior,Não informado,Não informado,Remoto
298,Analista de Dados (Engenheiro),Não informado,Não informado,Remoto
299,Engenheiro de Dados III,Não informado,Não informado,Remoto
302,"Engenheiro de Suporte de Dados - RJ, SP e ES",Não informado,Não informado,Híbrido


In [12]:
df_vagas['estado'] = df_vagas.apply( lambda column: 'Todo o Brasil' if ( column['estado'] == 'Não informado' and column['modalidade'] == 'Remoto' ) else
                                                    column['estado'],
                                    axis=1
                            )

In [13]:
df_vagas.query("estado == 'Não informado'")[['titulo_vaga', 'cidade', 'estado', 'modalidade']]

Unnamed: 0,titulo_vaga,cidade,estado,modalidade
211,Banco de Talentos - Analista de Dados/ Analist...,Não informado,Não informado,Banco de Talentos
302,"Engenheiro de Suporte de Dados - RJ, SP e ES",Não informado,Não informado,Híbrido


## Skills

In [14]:
def get_skills_list(description: str) -> list[str] | None:

    try:
        # na gupy a descricao geralmente é dividida em 4 seções: 0 -> 'JOB DESCRIPTION';                 1 -> 'RESPONSIBILITIES AND ASSIGNMENTS';
        #                                                        2 -> 'REQUIREMENTS AND QUALIFICATIONS'; 3 -> 'ADDITIONAL INFORMATION'
        # a lista de beneficios geralmente esta contida na seção 'ADDITIONAL INFORMATION' (existem alguns casos que isso não é verdade)
        
        # divide a descricao em seções
        skills_sections = description.split('\n')
        
        # obtem o indice da seção 'ADDITIONAL INFORMATION' (geralmente é o terceiro indice mas existem paginas com menos seções)
        index_benefit = [ True if 'Requisitos e qualificações' in section else False for section in skills_sections ].index( True )

        # seleciona a seção 'ADDITIONAL INFORMATION'
        skills_str = skills_sections[index_benefit]

        # substitui multiplos espaços em sequência por apenas um
        skills_str = re.sub(r'\s+', ' ', skills_str)

        # adiciona um ponto-virgula ou ')' onde uma letra maiuscula é antecida por uma minuscula, precisamos dessa condição porque
        # em muitos casos não existe um caracter utilizado para deixar clara separação entre os benefícios dentro da string; nessa
        # situação, os beneficios estarão colados uns aos outros e a unica forma de diferenciá-los são os caracteres maiusculos.
        skills_str = re.sub(r'(?<=[a-z]|\))([A-Z])', r';\1', skills_str)  # Exemplo:  Gympass(ilimitado)Vale-TransporteConvenio
                                                                            #        -> Gympass(ilimitado);Vale-Transporte;Convenio
        
        # cria uma lista com substrings contendo uma letra maiúscula precedida e antecedida por um entre: ':', ';', '.', '•', '*'
        # esses simbolos geralmente antecedem / procedem os elementos da lista de beneficios dentro da string.
        skills_list = re.findall(r'(?:(?<=[\:\;\.\•\*]).*?[A-Z].*?(?=[\.\;\•\*\)]))', skills_str, flags=re.I)   # Exemplos: '* Gympass;' -> 'Gympass'
                                                                                                                #             '• PLR.'     -> 'PLR'
        
        # remove espaços vazios no final e inicio de cada elemento da lista
        skills_list = list( map( lambda skill: skill.strip(), skills_list ) )

        return skills_list
    
    except:
        return None
    
def replace_specifics_substrings(benefits_str: str) -> str:

    va_vr_matches = re.findall(r'V[R|A]\b', benefits_str)

    va_vr_map = zip(['Vale refeição', 'Vale alimentação'], ['VR', 'VA'])

    for va_vr_full, va_vr_short in va_vr_map:

        if va_vr_short in va_vr_matches:
            benefits_str = benefits_str.replace(va_vr_short, va_vr_full)

    return benefits_str

def format_skills_list(skills_list: list[str], skills_map: dict[str:list]) -> list[str] | None:

    try:
        skills_list_formatted = []

        # junta os beneficios em uma string separada por vírgula e espaço
        skills_str = ', '.join(skills_list)

        # # substitui as substrings 'VA' / 'VR' por 'Vale alimentação' / 'Vale refeição'
        skills_str = replace_specifics_substrings(skills_str)

        # remove acentos e deixa a string em lowercase
        skills_str = unidecode(skills_str).lower()

        for skills_key, skills_matches in skills_map.items():

            # verifica se o beneficio está presente dentro da string
            match_look = any( True if skill_word in skills_str else False for skill_word in skills_matches )

            if match_look:
                skills_list_formatted.append(skills_key)
            else:
                continue
        
        # se nenhum match é encontrado retona 'None' ao invés de uma lista vazia
        if len(skills_list_formatted) == 0:
            return None

        return skills_list_formatted
    
    except:
        return None

In [15]:
skills_map = {
    'Power BI': ['power bi', 'pbi', 'powerbi'],
    'Python': ['python', 'phython'],
    'SQL':['sql'],
    'No-SQL':['no sql'],
    'Pacote Office': ['pacite office', 'office'],
    'Excel': ['excel'],
    'Tableau':['tableau'],
    'Clickview': ['clickview']
}

In [32]:
df_vagas['skills'] = df_vagas['descricao'].apply(lambda descricao: format_skills_list(get_skills_list(descricao), skills_map))

## Beneficios

In [17]:
def get_benefits_list(description: str) -> list[str] | None:

    try:
        # na gupy a descricao geralmente é dividida em 4 seções: 0 -> 'JOB DESCRIPTION';                 1 -> 'RESPONSIBILITIES AND ASSIGNMENTS';
        #                                                        2 -> 'REQUIREMENTS AND QUALIFICATIONS'; 3 -> 'ADDITIONAL INFORMATION'
        # a lista de beneficios geralmente esta contida na seção 'ADDITIONAL INFORMATION' (existem alguns casos que isso não é verdade)
        
        # divide a descricao em seções
        description_sections = description.split('\n')
        
        # obtem o indice da seção 'ADDITIONAL INFORMATION' (geralmente é o terceiro indice mas existem paginas com menos seções)
        index_benefit = [ True if 'Informações adicionais' in section else False for section in description_sections ].index( True )

        # seleciona a seção 'ADDITIONAL INFORMATION'
        benefit_str = description_sections[index_benefit]

        # substitui multiplos espaços em sequência por apenas um
        benefit_str = re.sub(r'\s+', ' ', benefit_str)

        # adiciona um ponto-virgula ou ')' onde uma letra maiuscula é antecida por uma minuscula, precisamos dessa condição porque
        # em muitos casos não existe um caracter utilizado para deixar clara separação entre os benefícios dentro da string; nessa
        # situação, os beneficios estarão colados uns aos outros e a unica forma de diferenciá-los são os caracteres maiusculos.
        benefit_str = re.sub(r'(?<=[a-z]|\))([A-Z])', r';\1', benefit_str)  # Exemplo:  Gympass(ilimitado)Vale-TransporteConvenio
                                                                            #        -> Gympass(ilimitado);Vale-Transporte;Convenio
        
        # cria uma lista com substrings contendo uma letra maiúscula precedida e antecedida por um entre: ':', ';', '.', '•', '*'
        # esses simbolos geralmente antecedem / procedem os elementos da lista de beneficios dentro da string.
        benefit_list = re.findall(r'(?:(?<=[\:\;\.\•\*]).*?[A-Z].*?(?=[\.\;\•\*\)]))', benefit_str, flags=re.I)   # Exemplos: '* Gympass;' -> 'Gympass'
                                                                                                                #             '• PLR.'     -> 'PLR'
        
        # remove espaços vazios no final e inicio de cada elemento da lista
        benefit_list = list( map( lambda benefit: benefit.strip(), benefit_list ) )

        return benefit_list
    
    except:
        return None
    
def replace_va_vr_substrings(benefits_str: str) -> str:

    va_vr_matches = re.findall(r'V[R|A]\b', benefits_str)

    va_vr_map = zip(['Vale refeição', 'Vale alimentação'], ['VR', 'VA'])

    for va_vr_full, va_vr_short in va_vr_map:

        if va_vr_short in va_vr_matches:
            benefits_str = benefits_str.replace(va_vr_short, va_vr_full)

    return benefits_str

def format_benefits_list(benefit_list: list[str]) -> list[str] | None:

    try:
        benefit_list_formatted = []

        # junta os beneficios em uma string separada por vírgula e espaço
        benefits_str = ', '.join(benefit_list)

        # substitui as substrings 'VA' / 'VR' por 'Vale alimentação' / 'Vale refeição'
        benefits_str = replace_va_vr_substrings(benefits_str)

        # remove acentos e deixa a string em lowercase
        benefits_str = unidecode(benefits_str).lower()

        for benefit_key, benefit_matches in benefit_map.items():

            # verifica se o beneficio está presente dentro da string
            match_look = any( True if benefit_word in benefits_str else False for benefit_word in benefit_matches )

            if match_look:
                benefit_list_formatted.append(benefit_key)
            else:
                continue
        
        # se nenhum match é encontrado retona 'None' ao invés de uma lista vazia
        if len(benefit_list_formatted) == 0:
            return None

        return benefit_list_formatted
    
    except:
        return None

In [18]:
benefit_map = {
    'Assistência médica':                    ['medica', 'saude', 'medico'],
    'Assistência odontológica':              ['odonto', 'dentista'],
    'Assistência psicológia':                ['psicolog', 'saude mental'],
    'Auxílio academia':                      ['academia', 'gympass', 'gym', 'total pass'],
    'Auxílio combustível':                   ['combustivel'],
    'Auxílio creche':                        ['creche'],
    'Auxílio desenvolvimento':               ['desenvolvimento'],
    'Auxílio estacionamento':                ['estacionamento'],
    'Auxílio farmácia':                      ['farmacia', 'medicamento'],
    'Auxílio fretado':                       ['fretado'],
    'Auxílio home office':                   ['auxilio home', 'custo home'],
    'Bicicletário':                          ['bicleta'],
    'Bolsa auxílio':                         ['bolsa auxilio'],
    'Café da manhã':                         ['cafe da manha'],
    'Cesta básica':                          ['cesta basica'],
    'Cesta de natal':                        ['natal'],
    'Clube de vantagens':                    ['vantagens'],
    'Consignado':                            ['consignado'],
    'Convênio com empresas parceiras':       ['convenio'],
    'Cooperativa de crédito':                ['cooperativa de credito'],
    'Day off aniversário':                   ['aniversario'],
    'Desconto em produtos':                  ['desconto em produtos'],
    'Ginástica laboral':                     ['ginastica laboral'],
    'Horário flexível':                      ['horario flexivel', 'flexibilidade'],
    'Massoterapia':                          ['massoterapia', 'massagem'],
    'Participação nos Lucros ou Resultados': ['lucros', 'plr', 'ppr'],
    'Plano de Aquisição de Ações':           ['aquisicao de acoes'],
    'Previdência privada':                   ['previdencia'],
    'Programa de remuneração variável':      ['remuneracao variavel', 'bonificac', 'premiac'],
    'Programa de treinamentos':              ['treinamento', 'capacitacao'],
    'Refeitório':                            ['refeitorio'],
    'Restaurante interno':                   ['restaurante'],
    'Sala de Jogos':                         ['jogos'],
    'Seguro de vida':                        ['vida'],
    'Vale-alimentação':                      ['alimentacao'],
    'Vale-cultura':                          ['vale cultura', 'vale-cultura'],
    'Vale-refeição':                         ['refeicao', 'ticket'],
    'Vale-transporte':                       ['transporte'],
}

In [19]:
df_vagas['beneficios'] = df_vagas['descricao'].apply( lambda descricao: format_benefits_list(get_benefits_list(descricao)) )

## Contrato

In [30]:
df_vagas['contrato'] = df_vagas['contrato'].apply(lambda x: 'Autônomo' if x == 'Pessoa Jurídica' else x )

## Regime

In [None]:
df_vagas['regime'] = df_vagas['contrato'].apply(lambda x: 'PJ' if x == 'Autônono' else 'CLT')

# Save Dataframe

In [None]:
columns_selected = [
            'site_da_vaga',
            'link_site',
            'link_origem',
            'data_publicacao',
            'data_expiracao',
            'data_coleta',
            'posicao',
            'titulo_vaga',
            'senioridade',
            'cidade',
            'estado',
            'modalidade',
            'nome_empresa',
            'contrato',
            'regime',
            'pcd',
            'beneficios',
            'codigo_vaga',
            'descricao'
]

df_vagas[columns_selected].to_excel('../data/data_clean/vagas_gupy_clean.xlsx', index=False)

In [31]:
df_vagas[columns_selected].head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_vaga,senioridade,cidade,estado,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,2024-02-03,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Júnior/Pleno,Curitiba,PR,Híbrido,Unidades V4 Company,Pessoa Jurídica,,Sim,,6711345.0,Descrição da vagaVenha se juntar com a gente n...
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,2024-02-02,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,São Paulo,SP,Híbrido,NeoAssist,Efetivo,,Sim,"[Assistência médica, Assistência odontológica,...",6710537.0,Descrição da vagaA Neo está buscando uma pesso...
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,2024-02-02,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Maceió),Não informado,Maceió,AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Sim,"[Assistência médica, Assistência odontológica,...",6709810.0,Descrição da vagaCom mais de 12 anos no mercad...
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,2024-02-02,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,Não informado,Não informado,Todo o Brasil,Remoto,MESHA TECNOLOGIA,Efetivo,,Sim,"[Assistência médica, Assistência odontológica,...",6709335.0,Descrição da vagaCom mais de 12 anos no mercad...
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,2024-02-02,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,Não informado,Todo o Brasil,Remoto,Grupo OLX,Efetivo,,Sim,"[Assistência médica, Assistência odontológica,...",6609585.0,Descrição da vagaQuer fazer parte de uma das m...
