# Imports

In [1]:
import re
import pandas as pd
from unidecode import unidecode
from datetime import datetime

# Load Data

In [2]:
df_gupy = pd.read_excel('../data/data_raw/vagas_gupy_raw.xlsx')

df_vagas = pd.concat([df_gupy], axis = 0)
df_vagas.head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_vaga,local,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,Publicada em: 03/02/2024,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Curitiba - PR,H√≠brido,Unidades V4 Company,Pessoa Jur√≠dica,,Tamb√©m p/ PcD,,6711345.0,Descri√ß√£o da vagaVenha se juntar com a gente n...
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,Publicada em: 02/02/2024,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,S√£o Paulo - SP,H√≠brido,NeoAssist,Efetivo,,Tamb√©m p/ PcD,,6710537.0,Descri√ß√£o da vagaA Neo est√° buscando uma pesso...
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,Publicada em: 02/02/2024,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Macei√≥),Macei√≥ - AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Tamb√©m p/ PcD,,6709810.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,Publicada em: 02/02/2024,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,N√£o informado,Remoto,MESHA TECNOLOGIA,Efetivo,,Tamb√©m p/ PcD,,6709335.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,Publicada em: 02/02/2024,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,N√£o informado,Remoto,Grupo OLX,Efetivo,,Tamb√©m p/ PcD,,6609585.0,Descri√ß√£o da vagaQuer fazer parte de uma das m...


# Tratamento dos Dados

In [3]:
df_vagas.dtypes

site_da_vaga        object
link_site           object
link_origem         object
data_publicacao     object
data_expiracao      object
data_coleta         object
posicao             object
titulo_vaga         object
local               object
modalidade          object
nome_empresa        object
contrato            object
regime             float64
pcd                 object
beneficios         float64
codigo_vaga        float64
descricao           object
dtype: object

In [4]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,Publicada em: 03/02/2024
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,H√≠brido


In [5]:
df_vagas['data_publicacao'] = df_vagas['data_publicacao'].apply(lambda x: datetime.strptime(x.replace('Publicada em: ', '').replace('/', '-'),'%d-%m-%Y').strftime('%Y-%m-%d'))
df_vagas['data_coleta'] = df_vagas['data_coleta']
df_vagas['pcd'] = df_vagas['pcd'].apply(lambda x: 'Sim' if x == 'Tamb√©m p/ PcD' else 'N√£o informado')

In [6]:
df_vagas.head(1).T

Unnamed: 0,0
site_da_vaga,Gupy
link_site,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
link_origem,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...
data_publicacao,2024-02-03
data_expiracao,2024-03-01
data_coleta,2024-02-05
posicao,Analista de Dados
titulo_vaga,Analista de Dados - Junior/Pleno | V4 Jasson ...
local,Curitiba - PR
modalidade,H√≠brido


# Features

## Senioridade

In [7]:
# matches para as senioridades
junior_matches = ['junior', ' jr'  , ' i', ' l ']
pleno_matches = ['pleno', ' pl', ' ii', ' ll ']
senior_matches = ['senior', ' sr', ' iii', ' lll ']

# removendo acentos e deixando letras min√∫sculas
df_vagas['titulo_vaga_tratado'] = df_vagas['titulo_vaga'].apply(lambda x: unidecode(x.lower()))

# fun√ß√£o de faz matches com as senioridades das vagas
def busca_senioridade(titulo_vaga, match_list):
    senioridade = False
    for sub_string in match_list:
        if sub_string in titulo_vaga:
            senioridade = True
    
    return senioridade

# aplicando fun√ß√£o
df_vagas['senioridade_junior'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, junior_matches))
df_vagas['senioridade_pleno'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, pleno_matches))
df_vagas['senioridade_senior'] = df_vagas['titulo_vaga_tratado'].apply(lambda titulo_vaga: busca_senioridade(titulo_vaga, senior_matches))

# categorizando senioridades
df_vagas['senioridade'] = df_vagas[['senioridade_junior', 
                                    'senioridade_pleno', 
                                    'senioridade_senior']].apply(lambda x:  'Pleno/S√™nior' if (x['senioridade_pleno']) and (x['senioridade_senior']) else
                                                                            'J√∫nior/Pleno' if (x['senioridade_junior']) and (x['senioridade_pleno']) else
                                                                            'J√∫nior' if x['senioridade_junior'] else 
                                                                            'Pleno' if x['senioridade_pleno'] else
                                                                            'S√™nior' if x['senioridade_senior'] else
                                                                            'N√£o informado'
                                                                            , axis = 1)

In [8]:
df_vagas.loc[df_vagas['senioridade'] == 'N√£o informado', 'titulo_vaga_tratado'].unique()

array(['analista de dados - trainne (presencial - maceio)',
       'analista de dados - remota',
       'processo seletivo 2024.1 - analista de ciencia de dados',
       ' analista de dados - rio de janeiro/rj',
       'analista de dados | cresol confederacao', 'analista de dados ',
       'analista de dados', 'pessoa analista de dados ll',
       'analista de dados (foco em backstock)',
       'analista de dados controladoria - canoas ou lajeado/rs',
       'analista de dados - fortbras - sao paulo/sp',
       'analista de qualidade de dados ',
       'analista de dados - contas a receber',
       'analista de dados (e-commerce)', 'analista de dados - crm - bi',
       'cas | analista de dados - foco em gestao de comunidade de dados',
       'analista de dados - geoprocessamento | manufacturing.',
       'analista de dados (remoto)', 'analista de dados | salvador',
       'analista de dados | mercado ',
       'analista de sistemas / engenheiro de dados',
       'analista de privacida

## Localidade

In [9]:
df_vagas['cidade'] = df_vagas['local'].apply(lambda x: 'N√£o informado' if x == 'N√£o informado' else x.split(' - ')[0])
df_vagas['estado'] = df_vagas['local'].apply(lambda x: 'N√£o informado' if x == 'N√£o informado' else x.split(' - ')[1])

In [10]:
df_vagas.query("estado == 'N√£o informado'")[['titulo_vaga', 'cidade', 'estado', 'modalidade']]

Unnamed: 0,titulo_vaga,cidade,estado,modalidade
3,Analista de Dados - Remota,N√£o informado,N√£o informado,Remoto
4,Analista de Dados Pleno,N√£o informado,N√£o informado,Remoto
5,Processo Seletivo 2024.1 - Analista de Ci√™ncia...,N√£o informado,N√£o informado,Remoto
11,PESSOA ANALISTA DE DADOS PL,N√£o informado,N√£o informado,Remoto
15,Analista de Banco de Dados Junior | DBDevOps -...,N√£o informado,N√£o informado,Remoto
...,...,...,...,...
296,Engenheiro(a) de dados S√™nior,N√£o informado,N√£o informado,Remoto
298,Analista de Dados (Engenheiro),N√£o informado,N√£o informado,Remoto
299,Engenheiro de Dados III,N√£o informado,N√£o informado,Remoto
302,"Engenheiro de Suporte de Dados - RJ, SP e ES",N√£o informado,N√£o informado,H√≠brido


In [27]:
df_vagas['estado'] = df_vagas.apply( lambda column: 'Todo o Brasil' if ( column['estado'] == 'N√£o informado' and column['modalidade'] == 'Remoto' ) else
                                                    column['estado'],
                                    axis=1
                            )

In [28]:
df_vagas.query("estado == 'N√£o informado'")[['titulo_vaga', 'cidade', 'estado', 'modalidade']]

Unnamed: 0,titulo_vaga,cidade,estado,modalidade
211,Banco de Talentos - Analista de Dados/ Analist...,N√£o informado,N√£o informado,Banco de Talentos
302,"Engenheiro de Suporte de Dados - RJ, SP e ES",N√£o informado,N√£o informado,H√≠brido


## Beneficios

In [12]:
df_vagas.head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_vaga,local,modalidade,...,beneficios,codigo_vaga,descricao,titulo_vaga_tratado,senioridade_junior,senioridade_pleno,senioridade_senior,senioridade,cidade,estado
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,2024-02-03,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,Curitiba - PR,H√≠brido,...,,6711345.0,Descri√ß√£o da vagaVenha se juntar com a gente n...,analista de dados - junior/pleno | v4 jasson ...,True,True,False,J√∫nior/Pleno,Curitiba,PR
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,2024-02-02,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,S√£o Paulo - SP,H√≠brido,...,,6710537.0,Descri√ß√£o da vagaA Neo est√° buscando uma pesso...,analista de dados pleno,False,True,False,Pleno,S√£o Paulo,SP
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,2024-02-02,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Macei√≥),Macei√≥ - AL,Presencial,...,,6709810.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...,analista de dados - trainne (presencial - maceio),False,False,False,N√£o informado,Macei√≥,AL
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,2024-02-02,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,N√£o informado,Remoto,...,,6709335.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...,analista de dados - remota,False,False,False,N√£o informado,N√£o informado,N√£o informado
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,2024-02-02,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,N√£o informado,Remoto,...,,6609585.0,Descri√ß√£o da vagaQuer fazer parte de uma das m...,analista de dados pleno,False,True,False,Pleno,N√£o informado,N√£o informado


In [13]:
descriptions = df_vagas.loc[:25, 'descricao']
descriptions

0     Descri√ß√£o da vagaVenha se juntar com a gente n...
1     Descri√ß√£o da vagaA Neo est√° buscando uma pesso...
2     Descri√ß√£o da vagaCom mais de 12 anos no mercad...
3     Descri√ß√£o da vagaCom mais de 12 anos no mercad...
4     Descri√ß√£o da vagaQuer fazer parte de uma das m...
5     Descri√ß√£o da vagaO Processo Seletivo 2024.1 El...
6     Descri√ß√£o da vagaCarregamos a nobre miss√£o de¬†...
7     Descri√ß√£o da vagaVoc√™ quer fazer parte da equi...
8     Descri√ß√£o da vagaSomos aproximadamente 50k Min...
9     Descri√ß√£o da vagaSomos o Grupo Casas Bahia, co...
10    Descri√ß√£o da vagaInova√ß√£o e transforma√ß√£o digi...
11    Descri√ß√£o da vagaAQUI SUA CARREIRA COME√áA GRAN...
12    Descri√ß√£o da vagaSobre a Alper Seguros¬†Para pr...
13    Descri√ß√£o da vagaEstamos em busca de um¬†Analis...
14    Descri√ß√£o da vagaVoc√™ se¬†identifica com a √°rea...
15    Descri√ß√£o da vagaNossa √°rea de Estrat√©gia e Te...
16    Descri√ß√£o da vagaVenha integrar o time de¬†Digi.

In [14]:
descriptions[21].split('\n')

['Descri√ß√£o da vagaSobre o Reclame AQUIO Reclame AQUI √© a maior plataforma de solu√ß√£o de conflitos entre consumidores e empresas da Am√©rica Latina! Durante 20 anos de hist√≥ria, temos ajudado a tornar mais simples, f√°cil e transparente esse relacionamento.\xa0Todos os dias, recebemos a visita de milh√µes de consumidores que pesquisam a reputa√ß√£o e o atendimento das marcas e as experi√™ncias de outros consumidores.Somos refer√™ncia em reputa√ß√£o e confian√ßa nas rela√ß√µes de consumo! Al√©m de um grande gerador de dados, com informa√ß√µes valiosas e √∫nicas de jornadas e experi√™ncias de compra que contribuem, inclusive, para que as empresas evoluam no seu processo de atendimento.#VemSerRA #QueroCrescerComRA #oRA√©MeuLugar\xa0Trabalhamos com pessoas que:- Querem mudar o mundo e gostam de ajudar as pessoas;- Pensam diferente, mas respeitam as diferen√ßas;- Sejam criativas para solucionar e superar os desafios do dia a dia;- N√£o t√™m medo de mudan√ßas;- Sabem o seu valor e s√£o

In [15]:
def get_benefits_list(description: str) -> list[str] | None:

    try:
        # na gupy a descricao geralmente √© dividida em 4 se√ß√µes: 0 -> 'JOB DESCRIPTION';                 1 -> 'RESPONSIBILITIES AND ASSIGNMENTS';
        #                                                        2 -> 'REQUIREMENTS AND QUALIFICATIONS'; 3 -> 'ADDITIONAL INFORMATION'
        # a lista de beneficios geralmente esta contida na se√ß√£o 'ADDITIONAL INFORMATION' (existem alguns casos que isso n√£o √© verdade)
        
        # divide a descricao em se√ß√µes
        description_sections = description.split('\n')
        
        # obtem o indice da se√ß√£o 'ADDITIONAL INFORMATION' (geralmente √© o terceiro indice mas existem paginas com menos se√ß√µes)
        index_benefit = [ True if 'Informa√ß√µes adicionais' in section else False for section in description_sections ].index( True )

        # seleciona a se√ß√£o 'ADDITIONAL INFORMATION'
        benefit_str = description_sections[index_benefit]

        # substitui multiplos espa√ßos em sequ√™ncia por apenas um
        benefit_str = re.sub(r'\s+', ' ', benefit_str)

        # adiciona um ponto-virgula ou ')' onde uma letra maiuscula √© antecida por uma minuscula, precisamos dessa condi√ß√£o porque
        # em muitos casos n√£o existe um caracter utilizado para deixar clara separa√ß√£o entre os benef√≠cios dentro da string; nessa
        # situa√ß√£o, os beneficios estar√£o colados uns aos outros e a unica forma de diferenci√°-los s√£o os caracteres maiusculos.
        benefit_str = re.sub(r'(?<=[a-z]|\))([A-Z])', r';\1', benefit_str)  # Exemplo:  Gympass(ilimitado)Vale-TransporteConvenio
                                                                            #        -> Gympass(ilimitado);Vale-Transporte;Convenio
        
        # cria uma lista com substrings contendo uma letra mai√∫scula precedida e antecedida por um entre: ':', ';', '.', '‚Ä¢', '*'
        # esses simbolos geralmente antecedem / procedem os elementos da lista de beneficios dentro da string.
        benefit_list = re.findall(r'(?:(?<=[\:\;\.\‚Ä¢\*]).*?[A-Z].*?(?=[\.\;\‚Ä¢\*\)]))', benefit_str, flags=re.I)   # Exemplos: '* Gympass;' -> 'Gympass'
                                                                                                                #             '‚Ä¢ PLR.'     -> 'PLR'
        
        # remove espa√ßos vazios no final e inicio de cada elemento da lista
        benefit_list = list( map( lambda benefit: benefit.strip(), benefit_list ) )

        return benefit_list
    
    except:
        return None

In [16]:
benefit_map = {
    'Assist√™ncia m√©dica':                    ['medica', 'saude', 'medico'],
    'Assist√™ncia odontol√≥gica':              ['odonto', 'dentista'],
    'Assist√™ncia psicol√≥gia':                ['psicolog', 'saude mental'],
    'Aux√≠lio academia':                      ['academia', 'gympass', 'gym', 'total pass'],
    'Aux√≠lio combust√≠vel':                   ['combustivel'],
    'Aux√≠lio creche':                        ['creche'],
    'Aux√≠lio desenvolvimento':               ['desenvolvimento'],
    'Aux√≠lio estacionamento':                ['estacionamento'],
    'Aux√≠lio farm√°cia':                      ['farmacia', 'medicamento'],
    'Aux√≠lio fretado':                       ['fretado'],
    'Aux√≠lio home office':                   ['auxilio home', 'custo home'],
    'Biciclet√°rio':                          ['bicleta'],
    'Bolsa aux√≠lio':                         ['bolsa auxilio'],
    'Caf√© da manh√£':                         ['cafe da manha'],
    'Cesta b√°sica':                          ['cesta basica'],
    'Cesta de natal':                        ['natal'],
    'Clube de vantagens':                    ['vantagens'],
    'Consignado':                            ['consignado'],
    'Conv√™nio com empresas parceiras':       ['convenio'],
    'Cooperativa de cr√©dito':                ['cooperativa de credito'],
    'Day off anivers√°rio':                   ['aniversario'],
    'Desconto em produtos':                  ['desconto em produtos'],
    'Gin√°stica laboral':                     ['ginastica laboral'],
    'Hor√°rio flex√≠vel':                      ['horario flexivel', 'flexibilidade'],
    'Massoterapia':                          ['massoterapia', 'massagem'],
    'Participa√ß√£o nos Lucros ou Resultados': ['lucros', 'plr', 'ppr'],
    'Plano de Aquisi√ß√£o de A√ß√µes':           ['aquisicao de acoes'],
    'Previd√™ncia privada':                   ['previdencia'],
    'Programa de remunera√ß√£o vari√°vel':      ['remuneracao variavel', 'bonificac', 'premiac'],
    'Programa de treinamentos':              ['treinamento', 'capacitacao'],
    'Refeit√≥rio':                            ['refeitorio'],
    'Restaurante interno':                   ['restaurante'],
    'Sala de Jogos':                         ['jogos'],
    'Seguro de vida':                        ['vida'],
    'Vale-alimenta√ß√£o':                      ['alimentacao'],
    'Vale-cultura':                          ['vale cultura', 'vale-cultura'],
    'Vale-refei√ß√£o':                         ['refeicao', 'ticket'],
    'Vale-transporte':                       ['transporte'],
}

In [17]:
def replace_va_vr_substrings(benefits_str: str) -> str:

    va_vr_matches = re.findall(r'V[R|A]\b', benefits_str)

    va_vr_map = zip(['Vale refei√ß√£o', 'Vale alimenta√ß√£o'], ['VR', 'VA'])

    for va_vr_full, va_vr_short in va_vr_map:

        if va_vr_short in va_vr_matches:
            benefits_str = benefits_str.replace(va_vr_short, va_vr_full)

    return benefits_str

In [18]:
def format_benefits_list(benefit_list: list[str]) -> list[str] | None:

    try:
        benefit_list_formatted = []

        # junta os beneficios em uma string separada por v√≠rgula e espa√ßo
        benefits_str = ', '.join(benefit_list)

        # substitui as substrings 'VA' / 'VR' por 'Vale alimenta√ß√£o' / 'Vale refei√ß√£o'
        benefits_str = replace_va_vr_substrings(benefits_str)

        # remove acentos e deixa a string em lowercase
        benefits_str = unidecode(benefits_str).lower()

        for benefit_key, benefit_matches in benefit_map.items():

            # verifica se o beneficio est√° presente dentro da string
            match_look = any( True if benefit_word in benefits_str else False for benefit_word in benefit_matches )

            if match_look:
                benefit_list_formatted.append(benefit_key)
            else:
                continue
        
        # se nenhum match √© encontrado retona 'None' ao inv√©s de uma lista vazia
        if len(benefit_list_formatted) == 0:
            return None

        return benefit_list_formatted
    
    except:
        return None

In [19]:
teste_str = df_vagas.loc[246, 'descricao']
beneficios_vaga = get_benefits_list(teste_str)
beneficios_vaga

['Fazendo parte do time, voc√™ ter√° ‚ÄúSuper',
 'Benef√≠cios‚Äù como:Flexibilidade de hor√°rio Podemos sempre nos adaptar √†s mudan√ßas do dia a dia, o importante mesmo √© sempre alcan√ßar o objetivo',
 'Ajuda de custo Home Office:A gente d√° o suporte necess√°rio para que voc√™ possa trabalhar no conforto do seu lar',
 'Flash Benef√≠cios Flex√≠veis (VA + VR',
 'Transformar o mundo d√° uma fome, n√©?! E √© claro que o nosso recheado VA e VR n√£o podem ficar de fora dessa miss√£o',
 'Plano de sa√∫de e odontol√≥gico:A sa√∫de sempre em primeiro lugar, para voc√™ e seus dependentes',
 'Sa√∫de e Bem-estar:Parceria com o Gympass e aux√≠lio farm√°cia',
 'Treinamentos e educa√ß√£o',
 'Temos parcerias com escolas e universidades e oferecemos treinamentos Ea',
 'D gratuitos',
 'Ambiente que valoriza feedbacks 1:1']

In [20]:
format_benefits_list(beneficios_vaga)

['Assist√™ncia m√©dica',
 'Assist√™ncia odontol√≥gica',
 'Aux√≠lio academia',
 'Aux√≠lio farm√°cia',
 'Aux√≠lio home office',
 'Hor√°rio flex√≠vel',
 'Programa de treinamentos',
 'Vale-alimenta√ß√£o',
 'Vale-refei√ß√£o']

In [21]:
df_vagas.columns

Index(['site_da_vaga', 'link_site', 'link_origem', 'data_publicacao',
       'data_expiracao', 'data_coleta', 'posicao', 'titulo_vaga', 'local',
       'modalidade', 'nome_empresa', 'contrato', 'regime', 'pcd', 'beneficios',
       'codigo_vaga', 'descricao', 'titulo_vaga_tratado', 'senioridade_junior',
       'senioridade_pleno', 'senioridade_senior', 'senioridade', 'cidade',
       'estado'],
      dtype='object')

In [22]:
df_vagas['beneficios'] = df_vagas['descricao'].apply( lambda descricao: get_benefits_list(descricao) )
df_vagas['beneficios'] = df_vagas['beneficios'].apply( lambda beneficios: format_benefits_list(beneficios) )

In [23]:
df_vagas['beneficios']

0                                                   None
1      [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
2      [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
3      [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
4      [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
                             ...                        
309    [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
310    [Assist√™ncia m√©dica, Aux√≠lio desenvolvimento, ...
311                                                 None
312    [Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...
313                                                 None
Name: beneficios, Length: 314, dtype: object

In [24]:
df_vagas.loc[47, 'beneficios']

['Aux√≠lio home office',
 'Day off anivers√°rio',
 'Participa√ß√£o nos Lucros ou Resultados',
 'Seguro de vida',
 'Vale-alimenta√ß√£o',
 'Vale-refei√ß√£o',
 'Vale-transporte']

In [25]:
df_vagas['beneficios'].count()

205

## Regime

In [26]:
df_vagas['contrato'].value_counts()

contrato
Efetivo              266
Pessoa Jur√≠dica       22
Banco de Talentos     14
Associado              5
Tamb√©m p/ PcD          2
Tempor√°rio             2
Aut√¥nomo               1
Est√°gio                1
Name: count, dtype: int64

# Save Dataframe

In [29]:
columns_selected = [
            'site_da_vaga',
            'link_site',
            'link_origem',
            'data_publicacao',
            'data_expiracao',
            'data_coleta',
            'posicao',
            'titulo_vaga',
            'senioridade',
            'cidade',
            'estado',
            'modalidade',
            'nome_empresa',
            'contrato',
            'regime',
            'pcd',
            'beneficios',
            'codigo_vaga',
            'descricao'
]

In [30]:
df_vagas[columns_selected].to_excel('../data/data_clean/vagas_gupy_clean.xlsx', index=False)

In [31]:
df_vagas[columns_selected].head()

Unnamed: 0,site_da_vaga,link_site,link_origem,data_publicacao,data_expiracao,data_coleta,posicao,titulo_vaga,senioridade,cidade,estado,modalidade,nome_empresa,contrato,regime,pcd,beneficios,codigo_vaga,descricao
0,Gupy,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,https://franquiasv4.gupy.io/job/eyJqb2JJZCI6Nj...,2024-02-03,2024-03-01,2024-02-05,Analista de Dados,Analista de Dados - Junior/Pleno | V4 Jasson ...,J√∫nior/Pleno,Curitiba,PR,H√≠brido,Unidades V4 Company,Pessoa Jur√≠dica,,Sim,,6711345.0,Descri√ß√£o da vagaVenha se juntar com a gente n...
1,Gupy,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,https://neoassist.gupy.io/job/eyJqb2JJZCI6Njcx...,2024-02-02,2024-04-01,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,S√£o Paulo,SP,H√≠brido,NeoAssist,Efetivo,,Sim,"[Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...",6710537.0,Descri√ß√£o da vagaA Neo est√° buscando uma pesso...
2,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTgx...,2024-02-02,2024-04-30,2024-02-05,Analista de Dados,Analista de Dados - Trainne (Presencial - Macei√≥),N√£o informado,Macei√≥,AL,Presencial,MESHA TECNOLOGIA,Efetivo,,Sim,"[Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...",6709810.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...
3,Gupy,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,https://mesha.gupy.io/job/eyJqb2JJZCI6NjcwOTMz...,2024-02-02,2024-03-31,2024-02-05,Analista de Dados,Analista de Dados - Remota,N√£o informado,N√£o informado,Todo o Brasil,Remoto,MESHA TECNOLOGIA,Efetivo,,Sim,"[Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...",6709335.0,Descri√ß√£o da vagaCom mais de 12 anos no mercad...
4,Gupy,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,https://vemserolxbrasil.gupy.io/job/eyJqb2JJZC...,2024-02-02,2024-03-18,2024-02-05,Analista de Dados,Analista de Dados Pleno,Pleno,N√£o informado,Todo o Brasil,Remoto,Grupo OLX,Efetivo,,Sim,"[Assist√™ncia m√©dica, Assist√™ncia odontol√≥gica,...",6609585.0,Descri√ß√£o da vagaQuer fazer parte de uma das m...
