# Importando bibliotecas

In [1]:
import pandas as pd

# Funções

In [8]:
def create_nulls_dataframe(data):
    """
    Cria um DataFrame com a contagem de valores nulos para cada coluna de um DataFrame.

    Args:
        data (pd.DataFrame): O DataFrame a ser analisado.

    Returns:
        pd.DataFrame: DataFrame contendo as colunas 'features' e 'nulos', ordenado do maior para o menor número de nulos.
    """
    nulos_df = data.isnull().sum().reset_index()
    nulos_df.columns = ['features', 'nulos']
    nulos_df = nulos_df.sort_values(by='nulos', ascending=False).reset_index(drop=True)
    return nulos_df


# Carregar dataset

In [2]:
data = pd.read_csv('/Users/leticiapires/Desktop/AIDecision/merged_data.csv')
data.head()

  data = pd.read_csv('/Users/leticiapires/Desktop/AIDecision/merged_data.csv')


Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,cargo_atual_id_ibrati,cargo_atual_email_corporativo,cargo_atual_cargo_atual,cargo_atual_projeto_atual,cargo_atual_cliente,cargo_atual_unidade,cargo_atual_data_admissao,cargo_atual_data_ultima_promocao,cargo_atual_nome_superior_imediato,cargo_atual_email_superior_imediato
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,,,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,,,,,,,,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,,,,,,,,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,,,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56702 entries, 0 to 56701
Columns: 112 entries, id_vaga to cargo_atual_email_superior_imediato
dtypes: float64(20), int64(1), object(91)
memory usage: 48.5+ MB


In [4]:
# Verificar nulos nesse dataframe 
data.isnull().sum()

id_vaga                                    0
titulo                                  2943
modalidade                             55019
candidato_nome                          2943
candidato_codigo                        2943
                                       ...  
cargo_atual_unidade                    56642
cargo_atual_data_admissao              55806
cargo_atual_data_ultima_promocao       55806
cargo_atual_nome_superior_imediato     56702
cargo_atual_email_superior_imediato    56702
Length: 112, dtype: int64

As colunas com cargo_atual parecem ter bastante nulos, vamos investigar pra entender melhor se mantemos.

In [5]:
# Verificar quantos não nulos tem nas colunas que iniciam com cargo_atual
lista_cargo_atual = data.columns[data.columns.str.startswith('cargo_atual')].to_list()
lista_cargo_atual

['cargo_atual_id_ibrati',
 'cargo_atual_email_corporativo',
 'cargo_atual_cargo_atual',
 'cargo_atual_projeto_atual',
 'cargo_atual_cliente',
 'cargo_atual_unidade',
 'cargo_atual_data_admissao',
 'cargo_atual_data_ultima_promocao',
 'cargo_atual_nome_superior_imediato',
 'cargo_atual_email_superior_imediato']

In [6]:
# E número de não nulos em cada coluna
data[data.columns[data.columns.str.startswith('cargo_atual')]].notnull().sum()

cargo_atual_id_ibrati                   59
cargo_atual_email_corporativo            0
cargo_atual_cargo_atual                 60
cargo_atual_projeto_atual                0
cargo_atual_cliente                     60
cargo_atual_unidade                     60
cargo_atual_data_admissao              896
cargo_atual_data_ultima_promocao       896
cargo_atual_nome_superior_imediato       0
cargo_atual_email_superior_imediato      0
dtype: int64

Vamos remover inicialmente essas features e testar um modelo sem elas pra entender primeiro. já que são poucos dados.

In [7]:
# Remover colunas que não são relevantes para o modelo
data.drop(columns=lista_cargo_atual, inplace=True)
data

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_outro_idioma,cv_pt,cv_en,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,informacoes_profissionais_qualificacoes,informacoes_profissionais_experiencias,formacao_e_idiomas_outro_curso
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,,2020.0,,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,-,\n\nárea de atuação: lider de consultoria / ge...,,,Tecnologia da Informação,1995.0,,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,-,informações pessoais\n estado civil: casado\n...,,,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56697,14219,,,,,,,,,,...,,,,,,,,,,
56698,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Ana Cardoso,16828.0,Desistiu,26-02-2025,28-02-2025,Recebeu a confirmação de outro processo seleti...,Elisa Nunes,...,-,"brasileiro, solteiro, 40 anos\njardim presiden...",,,,,,,,
56699,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Pedro Lucas das Neves,15042.0,Encaminhado ao Requisitante,28-02-2025,28-02-2025,,Elisa Nunes,...,-,\nformação principal\npós graduação em adminis...,,,,,,,,
56700,14221,Consultor Sênior Oracle EPM FCCS - 1434,,Maria Eduarda Cassiano,49190.0,Prospect,26-02-2025,26-02-2025,,Luna Correia,...,,,,,,,,,,


In [9]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_pessoais_url_linkedin,56702
1,informacoes_pessoais_facebook,56702
2,informacoes_profissionais_experiencias,56702
3,informacoes_profissionais_qualificacoes,56702
4,infos_basicas_telefone_recado,56702
...,...,...
97,informacoes_basicas_analista_responsavel,164
98,perfil_vaga_nivel profissional,164
99,perfil_vaga_faixa_etaria,164
100,perfil_vaga_local_trabalho,164


Pode-se perceber que as primeiras features da tabela `nulos_df` vem tudo zerada, então vamos remover essas colunas do dataframe.

In [10]:
# Identificar as colunas com 56702 valores nulos
colunas_para_remover = nulos_df[nulos_df['nulos'] == 56702]['features'].tolist()

# Remover essas colunas do DataFrame principal
data.drop(columns=colunas_para_remover, inplace=True)

# Verificar o resultado
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56702 entries, 0 to 56701
Data columns (total 92 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               56702 non-null  int64  
 1   titulo                                                53759 non-null  object 
 2   modalidade                                            1683 non-null   object 
 3   candidato_nome                                        53759 non-null  object 
 4   candidato_codigo                                      53759 non-null  float64
 5   situacao_candidado                                    53759 non-null  object 
 6   data_candidatura                                      53759 non-null  object 
 7   ultima_atualizacao                                    49846 non-null  object 
 8   comentario                                            14

In [11]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_basicas_telefone,56699
1,beneficios_valor_compra_2,56527
2,informacoes_profissionais_nivel_profissional,56409
3,informacoes_basicas_nome,55919
4,perfil_vaga_horario_trabalho,55894
...,...,...
87,informacoes_basicas_cliente,164
88,beneficios_valor_venda,164
89,informacoes_basicas_solicitante_cliente,164
90,informacoes_basicas_empresa_divisao,164


## Analisando a coluna TARGET do modelo - `situacao_candidado`

In [12]:
# Renomear a coluna situacao_candidado para situacao_candidato
data.rename(columns={'situacao_candidado': 'situacao_candidato'}, inplace=True)


In [14]:
# Verificar valores únicos da coluna situacao_candidato
data['situacao_candidato'].unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision', nan,
       'Desistiu', 'Documentação PJ', 'Não Aprovado pelo Cliente',
       'Prospect', 'Não Aprovado pelo RH', 'Aprovado',
       'Não Aprovado pelo Requisitante', 'Inscrito', 'Entrevista Técnica',
       'Em avaliação pelo RH', 'Contratado como Hunting',
       'Desistiu da Contratação', 'Entrevista com Cliente',
       'Documentação CLT', 'Recusado', 'Documentação Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

In [15]:
# Verificar quantos tem de cada categoria
data['situacao_candidato'].value_counts()

situacao_candidato
Prospect                          20021
Encaminhado ao Requisitante       16122
Inscrito                           3980
Não Aprovado pelo Cliente          3492
Contratado pela Decision           2758
Desistiu                           2349
Não Aprovado pelo RH               1765
Não Aprovado pelo Requisitante      765
Entrevista Técnica                  579
Sem interesse nesta vaga            576
Entrevista com Cliente              469
Em avaliação pelo RH                375
Contratado como Hunting             226
Aprovado                            209
Desistiu da Contratação              59
Documentação PJ                       4
Documentação CLT                      3
Recusado                              2
Documentação Cooperado                2
Encaminhar Proposta                   2
Proposta Aceita                       1
Name: count, dtype: int64

In [16]:
# Verificar se um mesmo id de candidato pode estar associado a mais de uma situação
data['id_candidato'].value_counts()

id_candidato
833.0      73
1677.0     70
12450.0    54
27660.0    53
16747.0    45
           ..
38200.0     1
38171.0     1
38169.0     1
37967.0     1
30478.0     1
Name: count, Length: 23463, dtype: int64

In [18]:
# Verificar se um mesmo id_candidato está associado a mais de uma situacao_candidato
# ids_multiplas_situacoes = data.groupby('id_candidato', 'id_vaga')['situacao_candidado'].nunique()

# Agrupar por id_candidato e id_vaga, contando o número de situações únicas
ids_multiplas_situacoes = data.groupby('id_candidato')['situacao_candidato'].nunique()
ids_multiplas_situacoes
# # Filtrar apenas os IDs com mais de uma situação
# ids_multiplas_situacoes = ids_multiplas_situacoes[ids_multiplas_situacoes > 1]

# # Exibir os resultados
# ids_multiplas_situacoes

id_candidato
3.0        1
10.0       2
15.0       4
18.0       1
23.0       2
          ..
47117.0    1
47118.0    1
47119.0    1
47122.0    1
47123.0    1
Name: situacao_candidato, Length: 23463, dtype: int64

In [19]:
data[data['id_candidato'] == 15.0]

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_academico,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso
312,4630,SAP MM - Ingles Mandatorio - 11774567,,Dr. Erick da Rosa,15.0,Desistiu,22-03-2021,30-03-2021,"Por motivos pessoais, profissional desistiu da...",Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
16683,905,SAP PWCE,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,13-06-2019,14-06-2019,"Modalidade PJ Pretensão R$ 110,00/h",Eloah Leão,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
19151,10043,SAP MM/WM,,Dr. Erick da Rosa,15.0,Prospect,17-08-2022,17-08-2022,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
28686,2943,SAP MM Sênior - 20204046613,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,02-09-2020,09-09-2020,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
30551,13634,Consultor SAP WM Sênior - SV-250,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,26-11-2024,04-12-2024,Cliente não teve boas recomendações de projeto...,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
30788,13700,Especialista SAP,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,23-10-2024,13-11-2024,Cliente não aprovou por que procura mais exper...,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
34693,3264,SAP FI/MM - ID 2020-2543255,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,09-10-2020,09-10-2020,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
49743,2514,SAP MM,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,01-06-2020,01-06-2020,Modalidade: CLT Decision Valor de compra: R$ 8...,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
52320,2126,SAP MM/WM - 20201841382,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,12-02-2020,12-02-2020,"Valor de compra: R$ 96,00 Disponibilidade: Ime...",Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
54987,13733,SAP WM Consultant - 988,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,19-11-2024,19-11-2024,,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,


In [20]:
sample = data[['ultima_atualizacao','comentario', 'id_candidato', 'situacao_candidato']]
sample.head(10)

Unnamed: 0,ultima_atualizacao,comentario,id_candidato,situacao_candidato
0,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",25632.0,Encaminhado ao Requisitante
1,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",25529.0,Encaminhado ao Requisitante
2,12-04-2021,Data de Inicio: 12/04/2021,25364.0,Contratado pela Decision
3,17-03-2021,,25360.0,Encaminhado ao Requisitante
4,,,,
5,18-05-2021,,26338.0,Contratado pela Decision
6,27-04-2021,Profissional desistiu da vaga. Motivo : Na ver...,24645.0,Desistiu
7,11-05-2021,Aguardando confirmação de inicio _,26361.0,Documentação PJ
8,30-04-2021,"profissional não atende ou responde ligações, ...",26205.0,Desistiu
9,16-04-2021,"""Conversando com a candidata, foi exposto que ...",26003.0,Não Aprovado pelo Cliente


Não possui itens duplicados. Possui mais de um candidato com aplicação, mas são aplicações pra vagas diferentes. O que leva a entender que o recrutador apenas atualiza a situação do candidato, sem criar um novo registro.

In [21]:
mapa_match = {
    # Match (1)
    'Contratado pela Decision': 1,
    'Contratado como Hunting': 1,

    # Não Match (0)
    'Não Aprovado pelo Cliente': 0,
    'Não Aprovado pelo RH': 0,
    'Não Aprovado pelo Requisitante': 0,
    'Desistiu': 0,
    'Desistiu da Contratação': 0,
    'Sem interesse nesta vaga': 0,
    'Recusado': 0,
}

# Aplica o mapeamento, valores não mapeados ficarão como NaN
data['match'] = data['situacao_candidato'].map(mapa_match)
data.head()

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,Intermediário,Básico,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,2020.0,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,Avançado,Intermediário,-,\n\nárea de atuação: lider de consultoria / ge...,,Tecnologia da Informação,1995.0,,,1.0
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,-,informações pessoais\n estado civil: casado\n...,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,


In [22]:
df_abertos = data[data['match'].isna()]
df_abertos.head()

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,Intermediário,Básico,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,2020.0,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,-,informações pessoais\n estado civil: casado\n...,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,
7,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361.0,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,,,-,alta mobilidade para mudanças e viagens\n\n\no...,,,,,,


In [None]:
data = data.dropna(subset=['match'])
data.head()

# Mantendo somente o que tem o match definido.

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,Avançado,Intermediário,-,\n\nárea de atuação: lider de consultoria / ge...,,Tecnologia da Informação,1995.0,,,1.0
5,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338.0,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,,,-,"solteiro, brasileiro, 21/06/1987\nhabilitação ...",,,,,,1.0
6,4533,2021-2605708-Microfocus Application Life Cycle...,,Dante Sampaio,24645.0,Desistiu,27-04-2021,27-04-2021,Profissional desistiu da vaga. Motivo : Na ver...,Yasmin da Rosa,...,,,-,analista de teste/qa\n\nprofissional hands on ...,,,,,,0.0
8,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Isabella da Cruz,26205.0,Desistiu,23-04-2021,30-04-2021,"profissional não atende ou responde ligações, ...",Ana Camargo,...,,,-,"idade: 37 anos\n172 apto.2703, vila maria josé...",,,,,,0.0
9,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Maria Helena Peixoto,26003.0,Não Aprovado pelo Cliente,08-04-2021,16-04-2021,"""Conversando com a candidata, foi exposto que ...",Carolina Araújo,...,,,-,solteira – 40 anos – brasileira\nitaquaquecetu...,,,,,,0.0


In [24]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11992 entries, 2 to 56698
Data columns (total 93 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               11992 non-null  int64  
 1   titulo                                                11992 non-null  object 
 2   modalidade                                            1042 non-null   object 
 3   candidato_nome                                        11992 non-null  object 
 4   candidato_codigo                                      11992 non-null  float64
 5   situacao_candidato                                    11992 non-null  object 
 6   data_candidatura                                      11992 non-null  object 
 7   ultima_atualizacao                                    11992 non-null  object 
 8   comentario                                            8477 no

In [25]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_basicas_telefone,11991
1,informacoes_profissionais_nivel_profissional,11916
2,beneficios_valor_compra_2,11912
3,formacao_e_idiomas_instituicao_ensino_superior,11821
4,perfil_vaga_outro_idioma,11810
...,...,...
88,data_candidatura,0
89,situacao_candidato,0
90,candidato_codigo,0
91,candidato_nome,0


## Removendo colunas não importantes

In [26]:
# Remover coluna candidato_nome, que não é importante pro modelo
data.drop(columns=['candidato_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['candidato_nome'], inplace=True)


In [27]:
# Remover coluna data_candidatura, que não é importante pro modelo
data.drop(columns=['data_candidatura'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['data_candidatura'], inplace=True)


In [28]:
# Remover coluna ultima_atualizacao, que não é importante pro modelo
data.drop(columns=['ultima_atualizacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['ultima_atualizacao'], inplace=True)


In [30]:
data['recrutador']

2        Juliana Cassiano
5           Stella Vieira
6          Yasmin da Rosa
8             Ana Camargo
9         Carolina Araújo
               ...       
56582       Laura Pacheco
56597       Laura Pacheco
56616         Elisa Nunes
56684         Elisa Nunes
56698         Elisa Nunes
Name: recrutador, Length: 11992, dtype: object

In [31]:
# Remover coluna recrutador, que não é importante pro modelo
data.drop(columns=['recrutador'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['recrutador'], inplace=True)


In [32]:
# Remover coluna infos_basicas_data_criacao, que não é importante pro modelo
data.drop(columns=['infos_basicas_data_criacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_data_criacao'], inplace=True)


In [33]:
data['infos_basicas_inserido_por']

2            Juliana Cassiano
5               Stella Vieira
6                 Ana Camargo
8                 Ana Camargo
9           Agatha Montenegro
                 ...         
56582           Paulo Peixoto
56597           Laura Pacheco
56616              Eloah Leão
56684    Srta. Bella Ferreira
56698             Dr. Luan Sá
Name: infos_basicas_inserido_por, Length: 11992, dtype: object

In [34]:
# Remover coluna infos_basicas_inserido_por, que não é importante pro modelo
data.drop(columns=['infos_basicas_inserido_por'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_inserido_por'], inplace=True)


In [35]:
# Remover infos_basicas_email, que não é importante pro modelo
data.drop(columns=['infos_basicas_email'], inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_email'], inplace=True)


In [36]:
# Remover infos_basicas_data_atualizacao, que não é importante pro modelo
data.drop(columns=['infos_basicas_data_atualizacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_data_atualizacao'], inplace=True)


In [None]:
# Remover infos_basicas_nome, que não é importante pro modelo
data.drop(columns=['infos_basicas_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_nome'], inplace=True)


In [38]:
# Remover informacoes_pessoais_nome, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_nome'], inplace=True)


In [39]:
# Remover informacoes_pessoais_email, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_email'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_email'], inplace=True)


In [40]:
# Remover informacoes_pessoais_telefone_celular, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_telefone_celular'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_telefone_celular'], inplace=True)


In [41]:
# Remover informacoes_pessoais_endereco, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_endereco'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_endereco'], inplace=True)


In [42]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11992 entries, 2 to 56698
Data columns (total 80 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               11992 non-null  int64  
 1   titulo                                                11992 non-null  object 
 2   modalidade                                            1042 non-null   object 
 3   candidato_codigo                                      11992 non-null  float64
 4   situacao_candidato                                    11992 non-null  object 
 5   comentario                                            8477 non-null   object 
 6   informacoes_basicas_data_requicisao                   11988 non-null  object 
 7   informacoes_basicas_limite_esperado_para_contratacao  11988 non-null  object 
 8   informacoes_basicas_titulo_vaga                       11988 n

In [43]:
# Remover infos_basicas_telefone 
data.drop(columns=['infos_basicas_telefone'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_telefone'], inplace=True)


In [45]:
# Remover informacoes_basicas_data_requicisao
data.drop(columns=['informacoes_basicas_data_requicisao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_requicisao'], inplace=True)


In [47]:
# Remover informacoes_basicas_data_inicial
data.drop(columns=['informacoes_basicas_data_inicial'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_inicial'], inplace=True)


In [48]:
# Remover informacoes_basicas_data_final
data.drop(columns=['informacoes_basicas_data_final'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_final'], inplace=True)


In [51]:
# Remover informacoes_pessoais_data_aceite
data.drop(columns=['informacoes_pessoais_data_aceite'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_data_aceite'], inplace=True)


In [54]:
# Remover informacoes_basicas_telefone
data.drop(columns=['informacoes_basicas_telefone'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_telefone'], inplace=True)


In [60]:
# Remover informacoes_basicas_requisitante
data.drop(columns=['informacoes_basicas_requisitante'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_requisitante'], inplace=True)


In [61]:
# Remover informacoes_basicas_analista_responsavel
data.drop(columns=['informacoes_basicas_analista_responsavel'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_analista_responsavel'], inplace=True)


## Continuando análise de nulos

In [57]:
# Mostra todas as linhas e colunas do DataFrame
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)


In [62]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_profissionais_nivel_profissional,11916
1,beneficios_valor_compra_2,11912
2,formacao_e_idiomas_instituicao_ensino_superior,11821
3,perfil_vaga_outro_idioma,11810
4,informacoes_profissionais_certificacoes,11741
5,perfil_vaga_horario_trabalho,11718
6,informacoes_basicas_nome,11687
7,informacoes_profissionais_outras_certificacoes,11663
8,formacao_e_idiomas_outro_curso,11570
9,informacoes_basicas_nome_substituto,11392


In [59]:
data['informacoes_basicas_analista_responsavel']

2              Srta. Bella Ferreira
5                        Eloah Leão
6                        Eloah Leão
8                        Eloah Leão
9                        Eloah Leão
10                       Eloah Leão
14                       Eloah Leão
16                       Eloah Leão
19                       Eloah Leão
20                       Eloah Leão
21                       Eloah Leão
22                       Eloah Leão
23                       Eloah Leão
43                Ana Lívia Moreira
56                  Carolina Araújo
59                  Carolina Araújo
61                      Ana Camargo
62                      Ana Camargo
63                      Ana Camargo
66                      Ana Camargo
70                 Juliana Cassiano
74                 Emanuelly Vieira
79                     Luara Câmara
80                     Luara Câmara
84                     Luara Câmara
85              Dra. Luara Siqueira
86              Dra. Luara Siqueira
87              Dra. Luara S

In [50]:
data.columns

Index(['id_vaga', 'titulo', 'modalidade', 'candidato_codigo',
       'situacao_candidato', 'comentario',
       'informacoes_basicas_limite_esperado_para_contratacao',
       'informacoes_basicas_titulo_vaga', 'informacoes_basicas_vaga_sap',
       'informacoes_basicas_cliente',
       'informacoes_basicas_solicitante_cliente',
       'informacoes_basicas_empresa_divisao',
       'informacoes_basicas_requisitante',
       'informacoes_basicas_analista_responsavel',
       'informacoes_basicas_tipo_contratacao',
       'informacoes_basicas_prazo_contratacao',
       'informacoes_basicas_objetivo_vaga',
       'informacoes_basicas_prioridade_vaga',
       'informacoes_basicas_origem_vaga',
       'informacoes_basicas_superior_imediato', 'informacoes_basicas_nome',
       'informacoes_basicas_telefone', 'perfil_vaga_pais',
       'perfil_vaga_estado', 'perfil_vaga_cidade', 'perfil_vaga_bairro',
       'perfil_vaga_regiao', 'perfil_vaga_local_trabalho',
       'perfil_vaga_vaga_especifica_

# Tratando colunas com mais de 6.000 nulos

- `informacoes_basicas_telefone`: Drop — telefone provavelmente não é útil pro modelo
- `beneficios_valor_compra_2`: Drop (muito nulo)
- `perfil_vaga_outro_idioma`: Drop (pouca representatividade)
- `informacoes_basicas_nome`:  Provavelmente não ajuda o modelo (identificador)
- `perfil_vaga_horario_trabalho`:  Drop (nulo demais)
- `informacoes_basicas_nome_substituto`: Drop. Provavelmente não relevante

INVESTIGAR

- `informacoes_profissionais_nivel_profissional`: drop ou investigar se é importante
- `formacao_e_idiomas_instituicao_ensino_superior`: drop ou investigar
- `formacao_e_idiomas_outro_curso`: Drop ou agrupar como “outros cursos informados”


NOVAS VARIAVEIS
- `informacoes_profissionais_certificacoes`: transformar em binário (tem / não tem)
- `informacoes_profissionais_outras_certificacoes`: transformar em binário (tem / não tem)

In [68]:
# Drop informacoes_basicas_telefone, beneficios_valor_compra_2, perfil_vaga_outro_idioma, informacoes_basicas_nome, perfil_vaga_horario_trabalho, informacoes_basicas_nome_substituto
data_latest.drop(columns=['informacoes_basicas_telefone', 'beneficios_valor_compra_2', 'perfil_vaga_outro_idioma', 'informacoes_basicas_nome', 'perfil_vaga_horario_trabalho', 'informacoes_basicas_nome_substituto'], inplace=True)
data_latest.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6301 entries, 312 to 53540
Data columns (total 87 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               6301 non-null   int64  
 1   titulo                                                6301 non-null   object 
 2   modalidade                                            602 non-null    object 
 3   candidato_nome                                        6301 non-null   object 
 4   candidato_codigo                                      6301 non-null   float64
 5   situacao_candidado                                    6301 non-null   object 
 6   data_candidatura                                      6301 non-null   object 
 7   ultima_atualizacao                                    6301 non-null   object 
 8   comentario                                            4431 n

In [96]:
# Criar um DataFrame a partir da saída de data.isnull().sum()
nulos_df = data_latest.isnull().sum().reset_index()
nulos_df.columns = ['features', 'nulos']

# Ordenar do maior para o menor número de nulos
nulos_df = nulos_df.sort_values(by='nulos', ascending=False)

#reset index
nulos_df.reset_index(drop=True, inplace=True)

# Exibir o DataFrame
nulos_df

Unnamed: 0,features,nulos
0,informacoes_profissionais_nivel_profissional,6276
1,formacao_e_idiomas_instituicao_ensino_superior,6249
2,informacoes_profissionais_certificacoes,6194
3,informacoes_profissionais_outras_certificacoes,6131
4,informacoes_profissionais_conhecimentos_tecnicos,5787
...,...,...
79,infos_basicas_codigo_profissional,0
80,infos_basicas_nome,0
81,informacoes_pessoais_data_aceite,0
82,informacoes_pessoais_nome,0


In [100]:

# salve as colunas em csv
colunas = data_latest.columns.to_list()
colunas = pd.DataFrame(colunas, columns=['colunas'])
colunas.to_csv('/Users/leticiapires/Desktop/AIDecision/colunas.csv', index=False)

In [102]:
data_latest.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6301 entries, 312 to 53540
Data columns (total 84 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               6301 non-null   int64  
 1   titulo                                                6301 non-null   object 
 2   modalidade                                            602 non-null    object 
 3   candidato_nome                                        6301 non-null   object 
 4   candidato_codigo                                      6301 non-null   float64
 5   situacao_candidado                                    6301 non-null   object 
 6   data_candidatura                                      6301 non-null   object 
 7   ultima_atualizacao                                    6301 non-null   object 
 8   comentario                                            4431 n

In [70]:
# Investigar formacao_e_idiomas_outro_curso, formacao_e_idiomas_instituicao_ensino_superior, informacoes_profissionais_nivel_profissional
data_latest['formacao_e_idiomas_outro_curso'].unique()

array([nan, 'Outro Curso:'], dtype=object)

In [71]:
# Drop formacao_e_idiomas_outro_curso
data_latest.drop(columns=['formacao_e_idiomas_outro_curso'], inplace=True)

In [72]:
data_latest['formacao_e_idiomas_instituicao_ensino_superior'].unique()

array(['Fundação Getulio Vargas', 'UNICAMP', nan, 'FIAP',
       'Fundação Vanzolini', 'Universidade Metodista de São Paulo',
       'PR -> Universidade Federal do Paraná - UFPR',
       'Universidade Paulista', 'Fasp', 'Faculdades Oswaldo Cruz',
       'Cruzeiro do Sul', 'Universidade São Judas',
       'Universidade Presbiteriana Mackenzie',
       'Universidade São Judas Tadeu',
       'SP -> Pontifícia Universidade Católica de São Paulo - PUCSP',
       'UNib', 'UNIVERSIDADE DE BRASILIA', 'Makenzie', 'UNIJORGE',
       'Pontifícia Universidade Católica de São Paulo',
       'SP -> Faculdade de Informática e Administração Paulista - FIAP',
       'University City Of São Paulo', 'unicsul', 'UNIP',
       'Centro Universitário SENAC', 'Universidade Maringa',
       'Centro Universitario Claretiano', 'Universidade Anhenbi Morumbi',
       'UNIBERO',
       'FIAP (Faculdade de Informática e Administração Paulista) São Paulo – SP.',
       'unesa', 'Universidade Mogi das Cruzes', 'IPT- U

In [73]:
data_latest['informacoes_profissionais_nivel_profissional'].unique()

array([nan, 'Sênior', 'Analista', 'Especialista',
       'Técnico de Nível Médio', 'Estagiário', 'Júnior', 'Pleno'],
      dtype=object)

In [74]:
# `informacoes_profissionais_certificacoes`: transformar em binário (tem / não tem)
data_latest['informacoes_profissionais_certificacoes'].unique()

array([nan, 'PMP - Project Management Professional',
       'Agile Product Lifecycle Management 9 Certified Implementation Specialist',
       'ITIL v3 - IT Infraestructure Library, COBIT - Governança de TI',
       'SAP MM', 'SAP FI',
       'MS [70-177] Microsoft Project Server 2010, configurando',
       'ITIL v3 - IT Infraestructure Library', 'SAP FI, SAP CO',
       'SAP CO, SAP FI', 'SAP PS', 'SAP SD',
       'MS [70-640] Windows Server 2008 Active Directory, Configuring, MS [70-642] Windows Server 2008 Network Infrastructure, Configuring, MS [70-646] Windows Server 2008, Server Administrator, MS [70-290] Managing and Maintaining a Windows Server 2003 Environment',
       'SAP FI /AA, SAP FI/CO, SAP FI',
       'ITIL v3 - IT Infraestructure Library, MS [70-410] Installing and Configuring Windows Server 2012, MS [70-290] Managing and Maintaining a Windows Server 2003 Environment',
       'Agile Product Lifecycle Management 9 Certified Implementation Specialist, COBIT - Governança 

In [75]:
# `informacoes_profissionais_outras_certificacoes`: transformar em binário (tem / não tem)
data_latest['informacoes_profissionais_outras_certificacoes'].unique()

array([nan, '11 - 932337913',
       'Cloud AMS-EC2 UX: O QUE É EXPERIÊNCIA DE USUÁRIO GIT E GITHUB: CONTROLE TYPESCRIPT: EVOLUINDO SEU JAVASCRIPT Spring Boot - Construa uma API Rest',
       'TOGAF Machine Learning AWS', 'lean seis sigma Scrum Master - SFC',
       'SAP - CEE - Customer Engagement Executive', 'Cpf 06377635800',
       'Curso completo de Desenvolvimento Web Fundamental - Udemy',
       'Não tirei a certificação ainda mas possui o curso do Itil foundation V3.',
       'Procurement Innovation – SAP Ariba and S/4HANA in a Nutshell SF5_HR + Finance with SAP S/4 Hana Cloud and SAP SuccessFactors LEO5_SAP Leonardo Machine Learning Foundation C_TFIN52_65 Financial Accounting with SAP ERP 6.0 EH SAP Simple Finance, on-premise edition 1503 - Migration SAP S/4HANA PRODS4PRESALES SAP Assessment for Foundational Presales Skills S4H10_Integration whith SAP S/4Hana Cloud',
       '\uf0fc Gestão Ágil de Produtos – Hiflex Consultoria. \uf0fc Fundamentos em Gerenciamento de Projetos Ág

Deixar essas em standby pra usar LLM/OpenAI -  

Perguntas:
1. Esta pessoa possui alguma certificação oficial? Responda apenas com "Sim" ou "Não".
2. Esta pessoa possui algum curso ou preparação sem certificação? Responda com "Sim" ou "Não".
3. Quais tecnologias, certificações ou áreas são mencionadas? Liste as tags separadas por vírgula. - Liste somente se a primeira pergunta por sim.


## Analisar features linha 11 até 35

In [76]:
data_latest['informacoes_profissionais_conhecimentos_tecnicos'].unique()

# Usar LLM ou TIF pra vetorizar e criar novas colunas


array(['• Profissional certificado SAP, em implementações completas em diferentes segmentos de indústria e serviços e gerenciamento de soluções focado nos módulos de logística MM/WM, diferentes industry solutions como, Automotive, Chemicals, Steel e utilities tendo participado nos seguintes projetos: AkzoNobel, Bayer Crop Science, LBR Dairy Products, Bosch electric Tools, Agrenco Biotechnology, Folha de São Paulo Newspaper, Libbs Pharma, Fleury Laboratories, Villares Steel, Behr Automotive, BMS Pharma, Goodyear Tyres, Bandeirante Energy, Exxon, Siemens, Nazca Cosmetic, VDO-Automotive, Natura Cosmetic, Açominas Special Steel, Renner-Dupont, Manesmann, Mann Filters; • Implementação de todos os cenários do módulo MM, WM, QM e LES e SAP VIM, desenvolvimentos de novos cenários. Implementação de cenários localizados Brasil com integração aos demais módulos FI e SD desde a versão SAP 3.0F até ECC EHP 6.0-7.0. Implementação de Processos de Importação e suporte a implementações de software de a

In [77]:
data_latest['modalidade'].unique()

array([nan, 'Cooperado', 'PJ', 'CLT', 'CLT - Estratégico', 'Hunting'],
      dtype=object)

In [78]:
data_latest['informacoes_pessoais_download_cv'].unique()

# Pode dropar porque traz somente o link do currículo exemplo: 469.pdf
data_latest.drop(columns=['informacoes_pessoais_download_cv'], inplace=True)

In [79]:
data_latest['perfil_vaga_bairro'].unique()

# Manter e depois fazer um one hot encoding

array([nan, 'Vila Leopoldina', 'Centro', 'Paraiso', 'Granja Julieta',
       'butanta', 'Lapa', 'República', 'Rio de Janeiro', 'Aricanduva',
       'Jurubatuba', 'Alexandre Dumas', 'Marg. Pinheiros/Morumbi',
       'CPTM Morumbi', 'Alphaville', 'Morumbi', 'Vila Nova Conceição',
       'Vila Olimpia', 'Barra Funda', 'sul', 'Jabaquara', 'interlagos',
       'Chacara Santo Antonio', 'Zona Sul', 'Cidade Jardim',
       'Alphavile - Capgemini', 'Santa Paula', 'Recife Antigo',
       'barra funda', 'Cenesp', 'Ipanema - Zona Sul',
       'Morumbi - Edifício Morumbi (Corporate Diamond Tower)', 'Butantã',
       'Itaim Bibi', 'Alphavile', 'Santo André', 'Pinheiros',
       'Chácara Santo Antônio',
       'Al. Europa, 1206 Cond. Pólo Empresarial Tamboré - Santana de Parnaíba/SP',
       'santo amaro', 'butanta/morumbi', 'Interlagos',
       'Santo Amaro / Barueri', 'Vila Mariana', 'alameda Europa', 'Itaim',
       'Tamboré', 'Gloria', 'Morumbi/butanta', 'Av. Paulista', 'Paiçandu',
       'Morumb

In [80]:
data_latest['perfil_vaga_regiao'].unique()

# Manter e depois fazer um one hot encoding

array([nan, 'Outra', 'Centro', 'Grande São Paulo', 'Sul', 'Oeste',
       'Leste', 'ABC', 'Niterói'], dtype=object)

In [81]:
data_latest['formacao_e_idiomas_cursos'].unique()

# Pensar o que fazer. Criar feature de tech ou não tech?

array(['MBA', 'Financeira/Economia', nan,
       'MBA em Sistemas de Gestão Empresarial/ERP SAP',
       'Administração de Empresas', 'Engenharia de software',
       'Gestão da Tecnologia da Informação', 'Matemática',
       'Ciência da Computação', 'Engenharia de sistemas',
       'Ciência e Tecnologia', 'Sistemas de Informação',
       'Análise de Sistemas & Tecnologia da Informação',
       'Administração com ênfase em sistemas da Informação',
       'Recursos Humanos', 'Análise de Sistemas', 'Ciências contábeis',
       'Gestão de Projetos', 'Planejamento Estratégico',
       'Processamento de Dados', 'Engenharia Agrícola', 'Design',
       'Tecnologia da Informação', 'Administração', 'Informática',
       'Engenharia de Controle e Automação',
       'Análise e Desenvolvimento de Sistemas', 'Ciências Exatas',
       'Ciências Contábeis', 'Segurança da informação',
       'Engenharia da Computação', 'Direito', 'Gestão empresarial',
       'Finanças/Controladoria', 'Marketing',
    

In [82]:
data_latest['informacoes_pessoais_pcd'].unique()

# Criar feature não informado

array([nan, 'Não', 'Sim'], dtype=object)

In [83]:
data_latest['formacao_e_idiomas_ano_conclusao'].unique()

# Gerar nova feature - anos_desde_conclusao?

array([2.002e+03, 1.985e+03,       nan, 2.012e+03, 1.998e+03, 0.000e+00,
       2.015e+03, 2.005e+03, 1.984e+03, 2.018e+03, 1.987e+03, 2.010e+03,
       2.000e+03, 1.999e+03, 2.011e+03, 2.019e+03, 2.016e+03, 2.014e+03,
       2.004e+03, 1.993e+03, 1.989e+03, 1.992e+03, 1.997e+03, 2.025e+03,
       2.003e+03, 1.979e+03, 2.001e+03, 1.986e+03, 1.000e+00, 2.023e+03,
       2.021e+03, 2.006e+03, 2.017e+03, 1.988e+03, 3.000e+00, 2.013e+03,
       2.020e+03, 1.300e+01, 1.983e+03, 1.980e+03, 2.008e+03, 2.009e+03,
       2.024e+03, 2.007e+03, 1.996e+03, 1.995e+03, 1.994e+03, 2.022e+03,
       4.000e+00, 1.990e+03, 1.020e+03, 2.000e+00, 1.991e+03, 2.200e+01,
       5.000e+00, 2.026e+03, 1.976e+03, 2.925e+03, 1.977e+03, 1.975e+03])

In [84]:
data_latest['formacao_e_idiomas_nivel_espanhol'].unique()

array([nan, 'Nenhum', 'Básico', 'Intermediário', 'Avançado', 'Fluente'],
      dtype=object)

In [85]:
data_latest['formacao_e_idiomas_nivel_ingles'].unique()

array([nan, 'Nenhum', 'Intermediário', 'Básico', 'Fluente', 'Avançado'],
      dtype=object)

In [86]:
# Adicionar os que estão nan como nenhum

data_latest['formacao_e_idiomas_nivel_ingles'] = data_latest['formacao_e_idiomas_nivel_ingles'].fillna('Nenhum')
data_latest['formacao_e_idiomas_nivel_espanhol'] = data_latest['formacao_e_idiomas_nivel_espanhol'].fillna('Nenhum')


In [87]:
data_latest['informacoes_profissionais_area_atuacao'].unique()

array([nan, 'TI - Desenvolvimento/Programação', 'TI - SAP',
       'TI - Arquitetura, TI - Banco de Dados, TI - Desenvolvimento/Programação, TI - Projetos',
       'TI - Infraestrutura',
       'TI - Arquitetura, TI - Banco de Dados, TI - Governança, TI - Processos e Negócios, TI - Projetos, TI - Segurança da Informação',
       'TI - Processos e Negócios, TI - Projetos, TI - Sistemas e Ferramentas, TI - Suporte',
       'TI - Processos e Negócios, TI - Projetos',
       'Comercial, Gestão e Alocação de Recursos de TI, Marketing, Novos Negócios e Parcerias, TI - Governança, TI - Processos e Negócios, TI - Projetos, TI - SAP, TI - Suporte',
       'TI - Projetos', 'TI - Suporte', 'TI - Processos e Negócios',
       'TI - Governança, TI - Infraestrutura, TI - Processos e Negócios, TI - Projetos, TI - Qualidade/Testes, TI - SAP, TI - Sistemas e Ferramentas, TI - Suporte',
       'TI - Banco de Dados',
       'TI - Processos e Negócios, TI - Projetos, TI - Sistemas e Ferramentas',
       '

In [88]:
data_latest['informacoes_profissionais_area_atuacao'] = data_latest['informacoes_profissionais_area_atuacao'].fillna('não informado')

In [89]:
data_latest['formacao_e_idiomas_nivel_academico'].unique()

array(['Pós Graduação Completo', 'Ensino Superior Completo', nan,
       'Pós Graduação Incompleto', 'Mestrado Completo',
       'Mestrado Cursando', 'Ensino Superior Cursando',
       'Ensino Técnico Completo', 'Mestrado Incompleto',
       'Pós Graduação Cursando', 'Ensino Superior Incompleto',
       'Ensino Médio Completo', 'Ensino Médio Cursando',
       'Doutorado Completo', 'Ensino Técnico Cursando',
       'Ensino Fundamental Completo', 'Doutorado Incompleto',
       'Ensino Médio Incompleto', 'Ensino Técnico Incompleto',
       'Ensino Fundamental Cursando'], dtype=object)

✅ Se o campo é obrigatório no sistema:
- Provavelmente o candidato tem formação, só não preencheu.
- Preencher com 'nao_informado'

❗ Se não é obrigatório:
- Pode ser que o candidato não tenha formação formal.
- Preencher com 'sem_formacao' (ou equivalente neutro)

In [90]:
# Informacoes pessoais sexo - só manter se for justificável legalmente
data_latest['informacoes_pessoais_sexo'].unique()

array([nan, 'Masculino', 'Feminino'], dtype=object)

In [91]:
# Remover informacoes_pessoais_sexo
data_latest.drop(columns=['informacoes_pessoais_sexo'], inplace=True)

In [92]:
data_latest['informacoes_profissionais_remuneracao'].unique()

array(['0', '15000', '7500', '9470', '14.500', '3500', '5000', '2200',
       '7.500', '94', '1200', '4000', '9500', '2015', '4.500', '17000',
       '2044', '9000', '8600', 'R$ 6.000,00', '12000', 'R$ 165,00 hora',
       '4500', '6000', '5500', '10500', '16000', '19900 PJ',
       'R$ 103,00 / hora', '10000', '80,00', '3000', '6.000', '2178,95',
       '480000', '8500', '3517,94', '20.000', '12.500 CLT',
       '95,00 por hora', nan, '4700', '78,00/h', 'R$1300,00', '1300',
       '1235,0', '1,300', '14.213,00', 'R$ 1000,00 + benefícios',
       '23.000,00 mensal', 'R$45.00', '1320,14', 'R$ 75,00', '1605,65',
       '1633,00', '8000,00 / Mês', '2.000,00', '$1750,00',
       '8000,00 Mensal', 'R$11000,00', '100,00 por hora', '11000', '1165',
       '2043,14', 'R$9000,00', '1.900,00', '3000 mil mensal', '3.200,00',
       'R$ 1.587,00 CLT', '5400', '70 reais hora', '3.500,00', '2100,00',
       'R$4000,00', 'R$: 2.400,00 - Mensal - C', '2800', '12.000',
       '11.200,00', 'R$ 26.000 me

In [93]:
data_latest['informacoes_profissionais_remuneracao'] = data_latest['informacoes_profissionais_remuneracao'].fillna('nao_informado')


In [94]:
data_latest['infos_basicas_sabendo_de_nos_por'].unique()

# Substituir os que são nan pra Outros
data_latest['infos_basicas_sabendo_de_nos_por'] = data_latest['infos_basicas_sabendo_de_nos_por'].fillna('Outros')

In [95]:
data_latest['perfil_vaga_habilidades_comportamentais_necessarias'].unique()

array([nan, 'Projeto Bradeco-I',
       'Conhecimento no módulo FI no submódulo AP-AR-FM-CM- S/4 HANA 1809\nConfiguração, desenvolvimento de especificações e testes',
       'valor hora máximo para trabalharmos no limite é 89,00.\nSkill: Pleno',
       'Indeterminado', 'Projeto: Mc Donalds',
       'Inicio: Imediato\nDuração: até Dezembro/2020 chance de prorrogação ou absorção.\n\nO cliente disponibiliza notebook.',
       'É possível enviar opções entre hoje e amanhã?\n\n\nCV´s em inglês somente com pretensão PJ e CLT',
       'hunting - CLT FULL\n\ncliente quer pagar até R$ 14.000,00 - informado pelo Jorge',
       'Rate R$ 100,00 taxa máxima do consultor R$ 72,80.',
       '• Data prevista para início do projeto: 27/07\n• Tempo de Projeto 12 meses',
       'Cliente Bradesco\n\n• Pode ser remoto\nvenda = 100 - 120/hora',
       'Projeto MAstercard',
       '- A vaga será para atuar remotamente e será celetizado, após 3 meses será absorvido pelo cliente (CLT FULL)\n\nProjeto Mastercar