# Importando bibliotecas

In [1]:
import pandas as pd

# Funções

In [2]:
def create_nulls_dataframe(data):
    """
    Cria um DataFrame com a contagem de valores nulos para cada coluna de um DataFrame.

    Args:
        data (pd.DataFrame): O DataFrame a ser analisado.

    Returns:
        pd.DataFrame: DataFrame contendo as colunas 'features' e 'nulos', ordenado do maior para o menor número de nulos.
    """
    nulos_df = data.isnull().sum().reset_index()
    nulos_df.columns = ['features', 'nulos']
    nulos_df = nulos_df.sort_values(by='nulos', ascending=False).reset_index(drop=True)
    return nulos_df


# Carregar dataset

In [3]:
data = pd.read_csv('/Users/leticiapires/Desktop/AIDecision/merged_data.csv')
data.head()

  data = pd.read_csv('/Users/leticiapires/Desktop/AIDecision/merged_data.csv')


Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,cargo_atual_id_ibrati,cargo_atual_email_corporativo,cargo_atual_cargo_atual,cargo_atual_projeto_atual,cargo_atual_cliente,cargo_atual_unidade,cargo_atual_data_admissao,cargo_atual_data_ultima_promocao,cargo_atual_nome_superior_imediato,cargo_atual_email_superior_imediato
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,,,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,,,,,,,,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,,,,,,,,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,,,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56702 entries, 0 to 56701
Columns: 112 entries, id_vaga to cargo_atual_email_superior_imediato
dtypes: float64(20), int64(1), object(91)
memory usage: 48.5+ MB


In [5]:
# Verificar nulos nesse dataframe 
data.isnull().sum()

id_vaga                                    0
titulo                                  2943
modalidade                             55019
candidato_nome                          2943
candidato_codigo                        2943
                                       ...  
cargo_atual_unidade                    56642
cargo_atual_data_admissao              55806
cargo_atual_data_ultima_promocao       55806
cargo_atual_nome_superior_imediato     56702
cargo_atual_email_superior_imediato    56702
Length: 112, dtype: int64

As colunas com cargo_atual parecem ter bastante nulos, vamos investigar pra entender melhor se mantemos.

In [6]:
# Verificar quantos não nulos tem nas colunas que iniciam com cargo_atual
lista_cargo_atual = data.columns[data.columns.str.startswith('cargo_atual')].to_list()
lista_cargo_atual

['cargo_atual_id_ibrati',
 'cargo_atual_email_corporativo',
 'cargo_atual_cargo_atual',
 'cargo_atual_projeto_atual',
 'cargo_atual_cliente',
 'cargo_atual_unidade',
 'cargo_atual_data_admissao',
 'cargo_atual_data_ultima_promocao',
 'cargo_atual_nome_superior_imediato',
 'cargo_atual_email_superior_imediato']

In [7]:
# E número de não nulos em cada coluna
data[data.columns[data.columns.str.startswith('cargo_atual')]].notnull().sum()

cargo_atual_id_ibrati                   59
cargo_atual_email_corporativo            0
cargo_atual_cargo_atual                 60
cargo_atual_projeto_atual                0
cargo_atual_cliente                     60
cargo_atual_unidade                     60
cargo_atual_data_admissao              896
cargo_atual_data_ultima_promocao       896
cargo_atual_nome_superior_imediato       0
cargo_atual_email_superior_imediato      0
dtype: int64

Vamos remover inicialmente essas features e testar um modelo sem elas pra entender primeiro. já que são poucos dados.

In [8]:
# Remover colunas que não são relevantes para o modelo
data.drop(columns=lista_cargo_atual, inplace=True)
data

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_outro_idioma,cv_pt,cv_en,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,informacoes_profissionais_qualificacoes,informacoes_profissionais_experiencias,formacao_e_idiomas_outro_curso
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,,2020.0,,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,-,\n\nárea de atuação: lider de consultoria / ge...,,,Tecnologia da Informação,1995.0,,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,-,informações pessoais\n estado civil: casado\n...,,,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56697,14219,,,,,,,,,,...,,,,,,,,,,
56698,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Ana Cardoso,16828.0,Desistiu,26-02-2025,28-02-2025,Recebeu a confirmação de outro processo seleti...,Elisa Nunes,...,-,"brasileiro, solteiro, 40 anos\njardim presiden...",,,,,,,,
56699,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Pedro Lucas das Neves,15042.0,Encaminhado ao Requisitante,28-02-2025,28-02-2025,,Elisa Nunes,...,-,\nformação principal\npós graduação em adminis...,,,,,,,,
56700,14221,Consultor Sênior Oracle EPM FCCS - 1434,,Maria Eduarda Cassiano,49190.0,Prospect,26-02-2025,26-02-2025,,Luna Correia,...,,,,,,,,,,


In [9]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_pessoais_url_linkedin,56702
1,informacoes_pessoais_facebook,56702
2,informacoes_profissionais_experiencias,56702
3,informacoes_profissionais_qualificacoes,56702
4,infos_basicas_telefone_recado,56702
...,...,...
97,informacoes_basicas_analista_responsavel,164
98,perfil_vaga_nivel profissional,164
99,perfil_vaga_faixa_etaria,164
100,perfil_vaga_local_trabalho,164


Pode-se perceber que as primeiras features da tabela `nulos_df` vem tudo zerada, então vamos remover essas colunas do dataframe.

In [10]:
# Identificar as colunas com 56702 valores nulos
colunas_para_remover = nulos_df[nulos_df['nulos'] == 56702]['features'].tolist()

# Remover essas colunas do DataFrame principal
data.drop(columns=colunas_para_remover, inplace=True)

# Verificar o resultado
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56702 entries, 0 to 56701
Data columns (total 92 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               56702 non-null  int64  
 1   titulo                                                53759 non-null  object 
 2   modalidade                                            1683 non-null   object 
 3   candidato_nome                                        53759 non-null  object 
 4   candidato_codigo                                      53759 non-null  float64
 5   situacao_candidado                                    53759 non-null  object 
 6   data_candidatura                                      53759 non-null  object 
 7   ultima_atualizacao                                    49846 non-null  object 
 8   comentario                                            14

In [11]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_basicas_telefone,56699
1,beneficios_valor_compra_2,56527
2,informacoes_profissionais_nivel_profissional,56409
3,informacoes_basicas_nome,55919
4,perfil_vaga_horario_trabalho,55894
...,...,...
87,informacoes_basicas_cliente,164
88,beneficios_valor_venda,164
89,informacoes_basicas_solicitante_cliente,164
90,informacoes_basicas_empresa_divisao,164


# Analisando a coluna TARGET do modelo - `situacao_candidado`

In [12]:
# Renomear a coluna situacao_candidado para situacao_candidato
data.rename(columns={'situacao_candidado': 'situacao_candidato'}, inplace=True)


In [13]:
# Verificar valores únicos da coluna situacao_candidato
data['situacao_candidato'].unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision', nan,
       'Desistiu', 'Documentação PJ', 'Não Aprovado pelo Cliente',
       'Prospect', 'Não Aprovado pelo RH', 'Aprovado',
       'Não Aprovado pelo Requisitante', 'Inscrito', 'Entrevista Técnica',
       'Em avaliação pelo RH', 'Contratado como Hunting',
       'Desistiu da Contratação', 'Entrevista com Cliente',
       'Documentação CLT', 'Recusado', 'Documentação Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

In [14]:
# Verificar quantos tem de cada categoria
data['situacao_candidato'].value_counts()

situacao_candidato
Prospect                          20021
Encaminhado ao Requisitante       16122
Inscrito                           3980
Não Aprovado pelo Cliente          3492
Contratado pela Decision           2758
Desistiu                           2349
Não Aprovado pelo RH               1765
Não Aprovado pelo Requisitante      765
Entrevista Técnica                  579
Sem interesse nesta vaga            576
Entrevista com Cliente              469
Em avaliação pelo RH                375
Contratado como Hunting             226
Aprovado                            209
Desistiu da Contratação              59
Documentação PJ                       4
Documentação CLT                      3
Recusado                              2
Documentação Cooperado                2
Encaminhar Proposta                   2
Proposta Aceita                       1
Name: count, dtype: int64

In [15]:
# Verificar se um mesmo id de candidato pode estar associado a mais de uma situação
data['id_candidato'].value_counts()

id_candidato
833.0      73
1677.0     70
12450.0    54
27660.0    53
16747.0    45
           ..
38200.0     1
38171.0     1
38169.0     1
37967.0     1
30478.0     1
Name: count, Length: 23463, dtype: int64

In [16]:
# Verificar se um mesmo id_candidato está associado a mais de uma situacao_candidato
# ids_multiplas_situacoes = data.groupby('id_candidato', 'id_vaga')['situacao_candidado'].nunique()

# Agrupar por id_candidato e id_vaga, contando o número de situações únicas
ids_multiplas_situacoes = data.groupby('id_candidato')['situacao_candidato'].nunique()
ids_multiplas_situacoes
# # Filtrar apenas os IDs com mais de uma situação
# ids_multiplas_situacoes = ids_multiplas_situacoes[ids_multiplas_situacoes > 1]

# # Exibir os resultados
# ids_multiplas_situacoes

id_candidato
3.0        1
10.0       2
15.0       4
18.0       1
23.0       2
          ..
47117.0    1
47118.0    1
47119.0    1
47122.0    1
47123.0    1
Name: situacao_candidato, Length: 23463, dtype: int64

In [17]:
data[data['id_candidato'] == 15.0]

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_academico,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso
312,4630,SAP MM - Ingles Mandatorio - 11774567,,Dr. Erick da Rosa,15.0,Desistiu,22-03-2021,30-03-2021,"Por motivos pessoais, profissional desistiu da...",Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
16683,905,SAP PWCE,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,13-06-2019,14-06-2019,"Modalidade PJ Pretensão R$ 110,00/h",Eloah Leão,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
19151,10043,SAP MM/WM,,Dr. Erick da Rosa,15.0,Prospect,17-08-2022,17-08-2022,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
28686,2943,SAP MM Sênior - 20204046613,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,02-09-2020,09-09-2020,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
30551,13634,Consultor SAP WM Sênior - SV-250,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,26-11-2024,04-12-2024,Cliente não teve boas recomendações de projeto...,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
30788,13700,Especialista SAP,,Dr. Erick da Rosa,15.0,Não Aprovado pelo Cliente,23-10-2024,13-11-2024,Cliente não aprovou por que procura mais exper...,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
34693,3264,SAP FI/MM - ID 2020-2543255,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,09-10-2020,09-10-2020,,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
49743,2514,SAP MM,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,01-06-2020,01-06-2020,Modalidade: CLT Decision Valor de compra: R$ 8...,Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
52320,2126,SAP MM/WM - 20201841382,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,12-02-2020,12-02-2020,"Valor de compra: R$ 96,00 Disponibilidade: Ime...",Srta. Bella Ferreira,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,
54987,13733,SAP WM Consultant - 988,,Dr. Erick da Rosa,15.0,Encaminhado ao Requisitante,19-11-2024,19-11-2024,,Elisa Nunes,...,Pós Graduação Completo,,,-,,Fundação Getulio Vargas,MBA,2002.0,,


In [18]:
sample = data[['ultima_atualizacao','comentario', 'id_candidato', 'situacao_candidato']]
sample.head(10)

Unnamed: 0,ultima_atualizacao,comentario,id_candidato,situacao_candidato
0,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",25632.0,Encaminhado ao Requisitante
1,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",25529.0,Encaminhado ao Requisitante
2,12-04-2021,Data de Inicio: 12/04/2021,25364.0,Contratado pela Decision
3,17-03-2021,,25360.0,Encaminhado ao Requisitante
4,,,,
5,18-05-2021,,26338.0,Contratado pela Decision
6,27-04-2021,Profissional desistiu da vaga. Motivo : Na ver...,24645.0,Desistiu
7,11-05-2021,Aguardando confirmação de inicio _,26361.0,Documentação PJ
8,30-04-2021,"profissional não atende ou responde ligações, ...",26205.0,Desistiu
9,16-04-2021,"""Conversando com a candidata, foi exposto que ...",26003.0,Não Aprovado pelo Cliente


Não possui itens duplicados. Possui mais de um candidato com aplicação, mas são aplicações pra vagas diferentes. O que leva a entender que o recrutador apenas atualiza a situação do candidato, sem criar um novo registro.

In [19]:
mapa_match = {
    # Match (1)
    'Contratado pela Decision': 1,
    'Contratado como Hunting': 1,

    # Não Match (0)
    'Não Aprovado pelo Cliente': 0,
    'Não Aprovado pelo RH': 0,
    'Não Aprovado pelo Requisitante': 0,
    'Desistiu': 0,
    'Desistiu da Contratação': 0,
    'Sem interesse nesta vaga': 0,
    'Recusado': 0,
}

# Aplica o mapeamento, valores não mapeados ficarão como NaN
data['match'] = data['situacao_candidato'].map(mapa_match)
data.head()

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,Intermediário,Básico,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,2020.0,,,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,Avançado,Intermediário,-,\n\nárea de atuação: lider de consultoria / ge...,,Tecnologia da Informação,1995.0,,,1.0
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,-,informações pessoais\n estado civil: casado\n...,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,


In [20]:
df_abertos = data[data['match'].isna()]
df_abertos.head()

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
0,4530,CONSULTOR CONTROL M,,José Vieira,25632.0,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,...,,,-,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529.0,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,...,Intermediário,Básico,-,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,,2020.0,,,
3,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Alexia Barbosa,25360.0,Encaminhado ao Requisitante,17-03-2021,17-03-2021,,Juliana Cassiano,...,,,-,informações pessoais\n estado civil: casado\n...,,,,,,
4,4532,,,,,,,,,,...,,,,,,,,,,
7,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361.0,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,,,-,alta mobilidade para mudanças e viagens\n\n\no...,,,,,,


In [21]:
data = data.dropna(subset=['match'])
data.head()

# Mantendo somente o que tem o match definido.

Unnamed: 0,id_vaga,titulo,modalidade,candidato_nome,candidato_codigo,situacao_candidato,data_candidatura,ultima_atualizacao,comentario,recrutador,...,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364.0,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,Avançado,Intermediário,-,\n\nárea de atuação: lider de consultoria / ge...,,Tecnologia da Informação,1995.0,,,1.0
5,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338.0,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,,,-,"solteiro, brasileiro, 21/06/1987\nhabilitação ...",,,,,,1.0
6,4533,2021-2605708-Microfocus Application Life Cycle...,,Dante Sampaio,24645.0,Desistiu,27-04-2021,27-04-2021,Profissional desistiu da vaga. Motivo : Na ver...,Yasmin da Rosa,...,,,-,analista de teste/qa\n\nprofissional hands on ...,,,,,,0.0
8,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Isabella da Cruz,26205.0,Desistiu,23-04-2021,30-04-2021,"profissional não atende ou responde ligações, ...",Ana Camargo,...,,,-,"idade: 37 anos\n172 apto.2703, vila maria josé...",,,,,,0.0
9,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Maria Helena Peixoto,26003.0,Não Aprovado pelo Cliente,08-04-2021,16-04-2021,"""Conversando com a candidata, foi exposto que ...",Carolina Araújo,...,,,-,solteira – 40 anos – brasileira\nitaquaquecetu...,,,,,,0.0


In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11992 entries, 2 to 56698
Data columns (total 93 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               11992 non-null  int64  
 1   titulo                                                11992 non-null  object 
 2   modalidade                                            1042 non-null   object 
 3   candidato_nome                                        11992 non-null  object 
 4   candidato_codigo                                      11992 non-null  float64
 5   situacao_candidato                                    11992 non-null  object 
 6   data_candidatura                                      11992 non-null  object 
 7   ultima_atualizacao                                    11992 non-null  object 
 8   comentario                                            8477 no

In [23]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_basicas_telefone,11991
1,informacoes_profissionais_nivel_profissional,11916
2,beneficios_valor_compra_2,11912
3,formacao_e_idiomas_instituicao_ensino_superior,11821
4,perfil_vaga_outro_idioma,11810
...,...,...
88,data_candidatura,0
89,situacao_candidato,0
90,candidato_codigo,0
91,candidato_nome,0


# Removendo colunas não importantes

In [24]:
# Remover coluna candidato_nome, que não é importante pro modelo
data.drop(columns=['candidato_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['candidato_nome'], inplace=True)


In [25]:
# Remover coluna data_candidatura, que não é importante pro modelo
data.drop(columns=['data_candidatura'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['data_candidatura'], inplace=True)


In [26]:
# Remover coluna ultima_atualizacao, que não é importante pro modelo
data.drop(columns=['ultima_atualizacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['ultima_atualizacao'], inplace=True)


In [27]:
data['recrutador']

2        Juliana Cassiano
5           Stella Vieira
6          Yasmin da Rosa
8             Ana Camargo
9         Carolina Araújo
               ...       
56582       Laura Pacheco
56597       Laura Pacheco
56616         Elisa Nunes
56684         Elisa Nunes
56698         Elisa Nunes
Name: recrutador, Length: 11992, dtype: object

In [28]:
# Remover coluna recrutador, que não é importante pro modelo
data.drop(columns=['recrutador'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['recrutador'], inplace=True)


In [29]:
# Remover coluna infos_basicas_data_criacao, que não é importante pro modelo
data.drop(columns=['infos_basicas_data_criacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_data_criacao'], inplace=True)


In [30]:
data['infos_basicas_inserido_por']

2            Juliana Cassiano
5               Stella Vieira
6                 Ana Camargo
8                 Ana Camargo
9           Agatha Montenegro
                 ...         
56582           Paulo Peixoto
56597           Laura Pacheco
56616              Eloah Leão
56684    Srta. Bella Ferreira
56698             Dr. Luan Sá
Name: infos_basicas_inserido_por, Length: 11992, dtype: object

In [31]:
# Remover coluna infos_basicas_inserido_por, que não é importante pro modelo
data.drop(columns=['infos_basicas_inserido_por'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_inserido_por'], inplace=True)


In [32]:
# Remover infos_basicas_email, que não é importante pro modelo
data.drop(columns=['infos_basicas_email'], inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_email'], inplace=True)


In [33]:
# Remover infos_basicas_data_atualizacao, que não é importante pro modelo
data.drop(columns=['infos_basicas_data_atualizacao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_data_atualizacao'], inplace=True)


In [34]:
# Remover infos_basicas_nome, que não é importante pro modelo
data.drop(columns=['infos_basicas_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_nome'], inplace=True)


In [35]:
# Remover informacoes_pessoais_nome, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_nome'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_nome'], inplace=True)


In [36]:
# Remover informacoes_pessoais_email, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_email'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_email'], inplace=True)


In [37]:
# Remover informacoes_pessoais_telefone_celular, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_telefone_celular'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_telefone_celular'], inplace=True)


In [38]:
# Remover informacoes_pessoais_endereco, que não é importante pro modelo
data.drop(columns=['informacoes_pessoais_endereco'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_endereco'], inplace=True)


In [39]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11992 entries, 2 to 56698
Data columns (total 80 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   id_vaga                                               11992 non-null  int64  
 1   titulo                                                11992 non-null  object 
 2   modalidade                                            1042 non-null   object 
 3   candidato_codigo                                      11992 non-null  float64
 4   situacao_candidato                                    11992 non-null  object 
 5   comentario                                            8477 non-null   object 
 6   informacoes_basicas_data_requicisao                   11988 non-null  object 
 7   informacoes_basicas_limite_esperado_para_contratacao  11988 non-null  object 
 8   informacoes_basicas_titulo_vaga                       11988 n

In [40]:
# Remover infos_basicas_telefone 
data.drop(columns=['infos_basicas_telefone'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['infos_basicas_telefone'], inplace=True)


In [41]:
# Remover informacoes_basicas_data_requicisao
data.drop(columns=['informacoes_basicas_data_requicisao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_requicisao'], inplace=True)


In [42]:
# Remover informacoes_basicas_data_inicial
data.drop(columns=['informacoes_basicas_data_inicial'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_inicial'], inplace=True)


In [43]:
# Remover informacoes_basicas_data_final
data.drop(columns=['informacoes_basicas_data_final'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_data_final'], inplace=True)


In [44]:
# Remover informacoes_pessoais_data_aceite
data.drop(columns=['informacoes_pessoais_data_aceite'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_data_aceite'], inplace=True)


In [45]:
# Remover informacoes_basicas_telefone
data.drop(columns=['informacoes_basicas_telefone'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_telefone'], inplace=True)


In [46]:
# Remover informacoes_basicas_requisitante
data.drop(columns=['informacoes_basicas_requisitante'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_requisitante'], inplace=True)


In [47]:
# Remover informacoes_basicas_analista_responsavel
data.drop(columns=['informacoes_basicas_analista_responsavel'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_analista_responsavel'], inplace=True)


# Continuando análise de nulos

In [48]:
# Mostra todas as linhas e colunas do DataFrame
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)


In [49]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_profissionais_nivel_profissional,11916
1,beneficios_valor_compra_2,11912
2,formacao_e_idiomas_instituicao_ensino_superior,11821
3,perfil_vaga_outro_idioma,11810
4,informacoes_profissionais_certificacoes,11741
5,perfil_vaga_horario_trabalho,11718
6,informacoes_basicas_nome,11687
7,informacoes_profissionais_outras_certificacoes,11663
8,formacao_e_idiomas_outro_curso,11570
9,informacoes_basicas_nome_substituto,11392


In [50]:
data['informacoes_profissionais_nivel_profissional'].unique()

array([nan, 'Pleno', 'Sênior', 'Analista', 'Especialista', 'Júnior',
       'Estagiário', 'Técnico de Nível Médio', 'Líder'], dtype=object)

In [51]:
# Considerar como Não informado os que estão Nan
data['informacoes_profissionais_nivel_profissional'].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['informacoes_profissionais_nivel_profissional'].fillna('Não informado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['informacoes_profissionais_nivel_profissional'].fillna('Não informado', inplace=True)


In [52]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,beneficios_valor_compra_2,11912
1,formacao_e_idiomas_instituicao_ensino_superior,11821
2,perfil_vaga_outro_idioma,11810
3,informacoes_profissionais_certificacoes,11741
4,perfil_vaga_horario_trabalho,11718
5,informacoes_basicas_nome,11687
6,informacoes_profissionais_outras_certificacoes,11663
7,formacao_e_idiomas_outro_curso,11570
8,informacoes_basicas_nome_substituto,11392
9,informacoes_pessoais_download_cv,10998


In [53]:
# Remover beneficios_valor_compra_2 , tem muitos nulos e acho que não é relevante
data.drop(columns=['beneficios_valor_compra_2'], inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['beneficios_valor_compra_2'], inplace=True)


In [54]:
# Colocar Nan como Não informado coluna formacao_e_idiomas_instituicao_ensino_superior
data['formacao_e_idiomas_instituicao_ensino_superior'].fillna('Não informado', inplace=True)

#PROXIMA ETAPA (SEM PRIORIDADE) - AJUSTAR PRA PADORNIZAR OS NOMES - TENTAR UM MODELO DESSA FORMA MESMO


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['formacao_e_idiomas_instituicao_ensino_superior'].fillna('Não informado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['formacao_e_idiomas_instituicao_ensino_superior'].fillna('Não informado', inplace=True)


In [55]:
# Colocar nan como Nenhum para perfil_vaga_outro_idioma
data['perfil_vaga_outro_idioma'].fillna('Nenhum', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['perfil_vaga_outro_idioma'].fillna('Nenhum', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['perfil_vaga_outro_idioma'].fillna('Nenhum', inplace=True)


In [56]:
data['informacoes_profissionais_certificacoes'].unique()

array([nan, 'PMP - Project Management Professional',
       'ITIL v3 - IT Infraestructure Library',
       'MS [98-361] Visual Studio Software Development Fundamentals, MS [70-488] Developing Microsoft SharePoint Server 2013 Core Solutions, MS [70-432] Microsoft SQL Server 2008, Implementation and Maintenance',
       'SAP Foundations, SAP MM, SAP SD',
       'Agile Product Lifecycle Management 9 Certified Implementation Specialist',
       'MS [70-410] Installing and Configuring Windows Server 2012',
       'ITIL v2 - IT Infraestructure Library', 'COBIT - Governança de TI',
       'SAP FI/CO', 'SAP SD, SAP SEM',
       'SAP TM, SAP SD, SAP PMO, SAP Hana, SAP Basis, SAP ABAP Foundaition, Primavera Portfolio Management Certified Implementation Specialist, PMP - Project Management Professional',
       'ITIL v3 - IT Infraestructure Library, COBIT - Governança de TI',
       'SAP MM, MS [77-422] MOS: Microsoft Office PowerPoint 2013, MS [77-418] MOS: Microsoft Office Word 2013, MS [77-420

In [57]:
# Substitua Nan por nenhum - informacoes_profissionais_certificacoes
data['informacoes_profissionais_certificacoes'].fillna('Nenhum', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['informacoes_profissionais_certificacoes'].fillna('Nenhum', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['informacoes_profissionais_certificacoes'].fillna('Nenhum', inplace=True)


In [58]:
# Criar nova coluna a partir da coluna informacoes_profissionais_certificacoes, se o campo tiver vazio/nan, significa que não tem certificação
data['possui_certificacao'] = data['informacoes_profissionais_certificacoes'].apply(
    lambda x: 'Não' if pd.isna(x) or str(x).strip() == '' else 'Sim'
)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['possui_certificacao'] = data['informacoes_profissionais_certificacoes'].apply(


In [59]:
data.head()

Unnamed: 0,id_vaga,titulo,modalidade,candidato_codigo,situacao_candidato,comentario,informacoes_basicas_limite_esperado_para_contratacao,informacoes_basicas_titulo_vaga,informacoes_basicas_vaga_sap,informacoes_basicas_cliente,informacoes_basicas_solicitante_cliente,informacoes_basicas_empresa_divisao,informacoes_basicas_tipo_contratacao,informacoes_basicas_prazo_contratacao,informacoes_basicas_objetivo_vaga,informacoes_basicas_prioridade_vaga,informacoes_basicas_origem_vaga,informacoes_basicas_superior_imediato,informacoes_basicas_nome,perfil_vaga_pais,perfil_vaga_estado,perfil_vaga_cidade,perfil_vaga_bairro,perfil_vaga_regiao,perfil_vaga_local_trabalho,perfil_vaga_vaga_especifica_para_pcd,perfil_vaga_faixa_etaria,perfil_vaga_horario_trabalho,perfil_vaga_nivel profissional,perfil_vaga_nivel_academico,perfil_vaga_nivel_ingles,perfil_vaga_nivel_espanhol,perfil_vaga_outro_idioma,perfil_vaga_areas_atuacao,perfil_vaga_principais_atividades,perfil_vaga_competencia_tecnicas_e_comportamentais,perfil_vaga_demais_observacoes,perfil_vaga_viagens_requeridas,perfil_vaga_equipamentos_necessarios,beneficios_valor_venda,beneficios_valor_compra_1,perfil_vaga_habilidades_comportamentais_necessarias,informacoes_basicas_nome_substituto,id_candidato,infos_basicas_objetivo_profissional,infos_basicas_local,infos_basicas_sabendo_de_nos_por,infos_basicas_codigo_profissional,informacoes_pessoais_fonte_indicacao,informacoes_pessoais_data_nascimento,informacoes_pessoais_sexo,informacoes_pessoais_estado_civil,informacoes_pessoais_pcd,informacoes_profissionais_titulo_profissional,informacoes_profissionais_area_atuacao,informacoes_profissionais_conhecimentos_tecnicos,informacoes_profissionais_certificacoes,informacoes_profissionais_outras_certificacoes,informacoes_profissionais_remuneracao,informacoes_profissionais_nivel_profissional,formacao_e_idiomas_nivel_academico,formacao_e_idiomas_nivel_ingles,formacao_e_idiomas_nivel_espanhol,formacao_e_idiomas_outro_idioma,cv_pt,formacao_e_idiomas_instituicao_ensino_superior,formacao_e_idiomas_cursos,formacao_e_idiomas_ano_conclusao,informacoes_pessoais_download_cv,formacao_e_idiomas_outro_curso,match,possui_certificacao
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,25364.0,Contratado pela Decision,Data de Inicio: 12/04/2021,00-00-0000,2021-2607395-PeopleSoft Application Engine-Dom...,Não,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,Brasil,São Paulo,São Paulo,,,2000.0,Não,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Key skills required for the job are:\n\nPeople...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,-,hora,,,25364.0,Liderança / Desenvolvimento,"São Paulo, São Paulo",Site de Empregos,25364.0,Site de Empregos: APINFO / Linkedin,31-01-1973,Masculino,Casado,Não,Liderança / Desenvolvimento,TI - Projetos,"- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8....",Nenhum,- Capacitação PeopleSoft (Formação Técnica) – ...,15.000 - Mensal PJ,Não informado,Ensino Superior Completo,Avançado,Intermediário,-,\n\nárea de atuação: lider de consultoria / ge...,Não informado,Tecnologia da Informação,1995.0,,,1.0,Sim
5,4533,2021-2605708-Microfocus Application Life Cycle...,,26338.0,Contratado pela Decision,,01-01-1970,2021-2605708-Microfocus Application Life Cycle...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,Brasil,São Paulo,São Paulo,,,2000.0,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,Nenhum,Gestão e Alocação de Recursos de TI-,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Atuação somente em horário comercial. Tempo in...,,,"207,00 -",hora,Telefonica,,26338.0,,,,26338.0,:,0000-00-00,,,,,,,Nenhum,,,Não informado,,,,-,"solteiro, brasileiro, 21/06/1987\nhabilitação ...",Não informado,,,,,1.0,Sim
6,4533,2021-2605708-Microfocus Application Life Cycle...,,24645.0,Desistiu,Profissional desistiu da vaga. Motivo : Na ver...,01-01-1970,2021-2605708-Microfocus Application Life Cycle...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,Brasil,São Paulo,São Paulo,,,2000.0,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,Nenhum,Gestão e Alocação de Recursos de TI-,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Atuação somente em horário comercial. Tempo in...,,,"207,00 -",hora,Telefonica,,24645.0,,,,24645.0,:,31-12-1969,,,,,,,Nenhum,,,Não informado,,,,-,analista de teste/qa\n\nprofissional hands on ...,Não informado,,,,,0.0,Sim
8,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,26205.0,Desistiu,"profissional não atende ou responde ligações, ...",01-01-1970,2021-2605711-Microfocus QTP - UFT Automation T...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,Brasil,São Paulo,São Paulo,,,2000.0,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,,,"105,00 -",hora,Tempo indeterminado.\nAtuação remota.\nPodem s...,,26205.0,,,,26205.0,:,0000-00-00,,,,,,,Nenhum,,,Não informado,,,,-,"idade: 37 anos\n172 apto.2703, vila maria josé...",Não informado,,,,,0.0,Sim
9,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,26003.0,Não Aprovado pelo Cliente,"""Conversando com a candidata, foi exposto que ...",01-01-1970,2021-2605711-Microfocus QTP - UFT Automation T...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,Brasil,São Paulo,São Paulo,,,2000.0,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,,,"105,00 -",hora,Tempo indeterminado.\nAtuação remota.\nPodem s...,,26003.0,,,,26003.0,:,0000-00-00,,,,,,,Nenhum,,,Não informado,,,,-,solteira – 40 anos – brasileira\nitaquaquecetu...,Não informado,,,,,0.0,Sim


In [60]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,perfil_vaga_horario_trabalho,11718
1,informacoes_basicas_nome,11687
2,informacoes_profissionais_outras_certificacoes,11663
3,formacao_e_idiomas_outro_curso,11570
4,informacoes_basicas_nome_substituto,11392
5,informacoes_pessoais_download_cv,10998
6,modalidade,10950
7,informacoes_profissionais_conhecimentos_tecnicos,10903
8,perfil_vaga_bairro,10834
9,perfil_vaga_regiao,10805


In [61]:
data['perfil_vaga_horario_trabalho'].unique()

array([nan, 'Comercial',
       'Vaga para cobertura de licença maternidade, em tor', '9 AS 18',
       '9/18 14/22', '9/18', '6x1 / madrugada 5x2', 'comercial',
       'Horario comercial', '9 as 18', '09:00 as 18:00',
       'Vide descrição da vaga', '8/17',
       '08:30 às 12:30 hrs / 14:00 às 18:00 hrs', '09 horas as 18 horas',
       'Comercial - 09h às 18h segunda a sexta', '09h as 187h',
       'hibrido 3 x por semana na Franciso Matarazzo proxi', '9 às 18 hs',
       'Das 9 às 18hs', 'das *9 as 18hs', 'DAS 09:00 AS 18:00',
       '9h as 18h', '02 vagas - Das 09h às 18h e das 10 às 19h'],
      dtype=object)

In [62]:
# Remover perfil_vaga_horario_trabalho, não é relevante
data.drop(columns=['perfil_vaga_horario_trabalho'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['perfil_vaga_horario_trabalho'], inplace=True)


In [63]:
nulos_df = create_nulls_dataframe(data)
nulos_df

Unnamed: 0,features,nulos
0,informacoes_basicas_nome,11687
1,informacoes_profissionais_outras_certificacoes,11663
2,formacao_e_idiomas_outro_curso,11570
3,informacoes_basicas_nome_substituto,11392
4,informacoes_pessoais_download_cv,10998
5,modalidade,10950
6,informacoes_profissionais_conhecimentos_tecnicos,10903
7,perfil_vaga_bairro,10834
8,perfil_vaga_regiao,10805
9,formacao_e_idiomas_cursos,10143


In [64]:
# Remover informacoes_basicas_nome,informacoes_basicas_nome_substituto,  perfil_vaga_bairro, perfil_vaga_regiao, informacoes_pessoais_pcd, informacoes_pessoais_estado_civil, informacoes_pessoais_sexo

data.drop(columns=['informacoes_basicas_nome', 'informacoes_basicas_nome_substituto', 'perfil_vaga_bairro', 'perfil_vaga_regiao', 'informacoes_pessoais_pcd', 'informacoes_pessoais_estado_civil', 'informacoes_pessoais_sexo'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_basicas_nome', 'informacoes_basicas_nome_substituto', 'perfil_vaga_bairro', 'perfil_vaga_regiao', 'informacoes_pessoais_pcd', 'informacoes_pessoais_estado_civil', 'informacoes_pessoais_sexo'], inplace=True)


In [65]:
nulos_df = create_nulls_dataframe(data)
nulos_df.head(10)

Unnamed: 0,features,nulos
0,informacoes_profissionais_outras_certificacoes,11663
1,formacao_e_idiomas_outro_curso,11570
2,informacoes_pessoais_download_cv,10998
3,modalidade,10950
4,informacoes_profissionais_conhecimentos_tecnicos,10903
5,formacao_e_idiomas_cursos,10143
6,formacao_e_idiomas_ano_conclusao,9938
7,formacao_e_idiomas_nivel_espanhol,9932
8,informacoes_profissionais_area_atuacao,9931
9,formacao_e_idiomas_nivel_ingles,9858


In [66]:
data['informacoes_pessoais_download_cv'].unique()

array([nan, '32142.doc', '33028.pdf', '32342.pdf', '32340.pdf',
       '32319.pdf', '32265.pdf', '31985.doc', '31946.pdf', '32117.pdf',
       '32116.pdf', '32145.pdf', '32169.docx', '32162.pdf', '33141.pdf',
       '33000.docx', '32203.doc', '23830.pdf', '33239.pdf', '33066.pdf',
       '32308.pdf', '33155.pdf', '33672.pdf', '33606.pdf', '33468.pdf',
       '33453.pdf', '33438.pdf', '33653.docx', '33163.pdf', '27200.pdf',
       '33015.docx', '32095.pdf', '33870.pdf', '33868.pdf', '33941.pdf',
       '33926.pdf', '33175.pdf', '33681.docx', '33654.pdf', '33652.docx',
       '33651.pdf', '33650.docx', '35630.pdf', '33133.pdf', '33995.docx',
       '33085.pdf', '33113.pdf', '33513.pdf', '33151.pdf', '33137.pdf',
       '33124.pdf', '33153.pdf', '24755.pdf', '32005.docx', '33138.pdf',
       '33400.pdf', '33204.pdf', '32092.docx', '34701.pdf', '33881.pdf',
       '33376.pdf', '33375.pdf', '33373.pdf', '33372.pdf', '33371.pdf',
       '33370.pdf', '34113.pdf', '33676.pdf', '21030.doc', '33

In [67]:
# Remover informacoes_pessoais_download_cv
data.drop(columns=['informacoes_pessoais_download_cv'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['informacoes_pessoais_download_cv'], inplace=True)


In [68]:
data['formacao_e_idiomas_outro_curso'].unique()

array([nan, 'Outro Curso:'], dtype=object)

In [69]:
# Remover formacao_e_idiomas_outro_curso
data.drop(columns=['formacao_e_idiomas_outro_curso'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['formacao_e_idiomas_outro_curso'], inplace=True)


In [70]:
data['modalidade'].unique()

array([nan, 'CLT', 'Cooperado', 'PJ', 'CLT - Estratégico', 'Hunting'],
      dtype=object)

In [71]:
# Replace nan com 'Não informado'
data['modalidade'].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['modalidade'].fillna('Não informado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['modalidade'].fillna('Não informado', inplace=True)


In [72]:
data['formacao_e_idiomas_ano_conclusao'].unique()

array([1.995e+03,       nan, 2.008e+03, 2.019e+03, 2.013e+03, 2.020e+03,
       2.011e+03, 1.988e+03, 1.979e+03, 2.021e+03, 2.003e+03, 2.010e+03,
       2.002e+03, 2.022e+03, 2.000e+03, 1.996e+03, 0.000e+00, 2.006e+03,
       2.005e+03, 2.018e+03, 2.016e+03, 2.026e+03, 2.015e+03, 1.987e+03,
       2.004e+03, 2.017e+03, 2.023e+03, 2.014e+03, 1.985e+03, 4.000e+00,
       2.007e+03, 1.999e+03, 1.992e+03, 2.024e+03, 2.009e+03, 1.997e+03,
       1.993e+03, 1.975e+03, 1.991e+03, 2.012e+03, 3.000e+00, 1.989e+03,
       1.986e+03, 1.990e+03, 2.001e+03, 1.984e+03, 2.025e+03, 1.976e+03,
       1.000e+00, 1.994e+03, 1.981e+03, 2.000e+00, 5.000e+00, 1.300e+01,
       1.980e+03, 1.983e+03, 1.998e+03, 2.925e+03, 2.200e+01, 1.982e+03,
       2.040e+02, 9.400e+01, 1.977e+03, 1.020e+03])

In [73]:
# Remover formacao_e_idiomas_ano_conclusao
data.drop(columns=['formacao_e_idiomas_ano_conclusao'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.drop(columns=['formacao_e_idiomas_ano_conclusao'], inplace=True)


In [74]:
data['formacao_e_idiomas_nivel_espanhol'].unique()

array(['Intermediário', nan, 'Nenhum', 'Básico', 'Fluente', 'Avançado'],
      dtype=object)

In [75]:
# Colocar nan como Não informado formacao_e_idiomas_nivel_espanhol
data['formacao_e_idiomas_nivel_espanhol'].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['formacao_e_idiomas_nivel_espanhol'].fillna('Não informado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['formacao_e_idiomas_nivel_espanhol'].fillna('Não informado', inplace=True)


In [76]:
data['formacao_e_idiomas_nivel_ingles'].unique()

array(['Avançado', nan, 'Intermediário', 'Fluente', 'Básico', 'Nenhum'],
      dtype=object)

In [77]:
data['formacao_e_idiomas_nivel_ingles'].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['formacao_e_idiomas_nivel_ingles'].fillna('Não informado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['formacao_e_idiomas_nivel_ingles'].fillna('Não informado', inplace=True)


In [78]:
data['informacoes_profissionais_conhecimentos_tecnicos'].unique()

array(['- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8.57 PeopleCode, SQR, Crystal, XML Publisher, Query Manager, App Engine, App Package, Process Scheduler, Segurança, App Message, Integration Broker, Workflow, Tree Manager) - PeopleSoft FSCM 8.9, 9.1 HCM 9.0, 9.2, CRM e CS - Microsoft Visual Basic, Java, XML, JavaScript, HTML, CSS, JQuery, Python - Windows, Linux, Unix - Microsoft SQL Server, Microsoft Access, MySql, Oracle. - Oracle PL/SQL, Procedures, Triggers e Functions. - Oracle OIC',
       nan,
       'POO(Programação Orientada à Objetos); Linguagens: Delphi(5, 6, 7, 2006, 2007), Java (6 e 8); Java: JPA, Hibernate, JSF (Richfaces e Primefaces), SpringBoot, SpringMVC, SpringSecurity, JUnit, Velocity, Quartz, Glassfish, Tomcat, WildFly, etc; IDE: Eclipse, Sublime, VSCode; Web: HTML, CSS, javascript; Banco de Dados: Firebird, Oracle, MSSQL Server, MySQL, Postgres; SO: Windows e Linux; Web Services: SOAP, API REST; AWS cloud computing; Ferramentas: Git, SVN, Ant, Maven, Gradle, Git

In [79]:
data['informacoes_profissionais_conhecimentos_tecnicos'] = data['informacoes_profissionais_conhecimentos_tecnicos'].fillna('Não informado')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['informacoes_profissionais_conhecimentos_tecnicos'] = data['informacoes_profissionais_conhecimentos_tecnicos'].fillna('Não informado')


## TfidfVectorizer


In [80]:
pip install nltk


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [81]:
import nltk
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/leticiapires/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [83]:
import re
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

import nltk
nltk.download('stopwords', quiet=True)

stopwords = nltk.corpus.stopwords.words('portuguese')

def preprocess(text):
    if pd.isnull(text):
        return ""
    # Minúsculo
    text = text.lower()
    # Remover caracteres especiais e números, mas deixar palavras como c#, sql, etc
    text = re.sub(r'[^a-zA-Z#\s]', ' ', text)
    # Remover espaços extras
    text = re.sub(r'\s+', ' ', text).strip()
    # Remover stopwords
    tokens = [word for word in text.split() if word not in stopwords]
    return ' '.join(tokens)

# Aplicar no dataframe
data['informacoes_limpa'] = data['informacoes_profissionais_conhecimentos_tecnicos'].apply(preprocess)

# Agora aplicar TF-IDF
texts = data['informacoes_limpa']

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)

import pandas as pd
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

print(tfidf_df.head())


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['informacoes_limpa'] = data['informacoes_profissionais_conhecimentos_tecnicos'].apply(preprocess)


    aa  aaa  aae  abaixo  abap  abastecimentos  abbvie  abed  abend  abertura  \
0  0.0  0.0  0.0     0.0   0.0             0.0     0.0   0.0    0.0       0.0   
1  0.0  0.0  0.0     0.0   0.0             0.0     0.0   0.0    0.0       0.0   
2  0.0  0.0  0.0     0.0   0.0             0.0     0.0   0.0    0.0       0.0   
3  0.0  0.0  0.0     0.0   0.0             0.0     0.0   0.0    0.0       0.0   
4  0.0  0.0  0.0     0.0   0.0             0.0     0.0   0.0    0.0       0.0   

   aberturas  ability  abnt  abobe  abordagem  abordando  abr  abradi  abrang  \
0        0.0      0.0   0.0    0.0        0.0        0.0  0.0     0.0     0.0   
1        0.0      0.0   0.0    0.0        0.0        0.0  0.0     0.0     0.0   
2        0.0      0.0   0.0    0.0        0.0        0.0  0.0     0.0     0.0   
3        0.0      0.0   0.0    0.0        0.0        0.0  0.0     0.0     0.0   
4        0.0      0.0   0.0    0.0        0.0        0.0  0.0     0.0     0.0   

   abrangem  abrangendo  a

In [None]:
tfidf_df