In [131]:
import pandas as pd
import json
import string
import re
import nltk
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

from nltk.tokenize import WordPunctTokenizer

from unidecode import unidecode


### Primeiro vamos carregar o arquivo JSON

In [132]:
with open('prospects.json','r',encoding='utf-8') as file:
        dados_candidatos = json.load(file)


## Agora iremos realizar o tratamento para separar o JSON em Tabela

### PROSPECTS.JSON
#### Essa base são candidatos que realizaram candidaturas em determinadas vagas, temos uma coluna chamada situacao_candidato onde temos uma informação muito importante, se o candidato foi ou não contratado

In [133]:
info_candidaturas_vaga = []

for id_vaga,vaga_info in dados_candidatos.items():
    titulo_vaga = vaga_info.get('titulo','')
    modalidade_vaga = vaga_info.get('modalidade','')
    candidatura_vaga = vaga_info.get('prospects',[])

    for candidatura in candidatura_vaga:
        registro = {
            'id_vaga': id_vaga,
            'titulo_vaga': titulo_vaga,
            'modalidade_vaga': modalidade_vaga,
            'nome_candidato': candidatura.get('nome',''),
            'id_candidato': candidatura.get('codigo', ''),
            'situacao_candidado': candidatura.get('situacao_candidado', ''),
            'data_candidatura': candidatura.get('data_candidatura', ''),
            'ultima_atualizacao': candidatura.get('ultima_atualizacao', ''),
            'comentario': candidatura.get('comentario', ''),
            'recrutador': candidatura.get('recrutador', '')
        }

        info_candidaturas_vaga.append(registro)
    

In [134]:
df_candidaturas = pd.DataFrame(info_candidaturas_vaga)

In [135]:
df_candidaturas.head(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador
0,4530,CONSULTOR CONTROL M,,José Vieira,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano


In [136]:
df_candidaturas.tail(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador
53756,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Ana Cardoso,16828,Desistiu,26-02-2025,28-02-2025,Recebeu a confirmação de outro processo seleti...,Elisa Nunes
53757,14220,Consultor Sênior Especialista SAP LES-TRA - 1433,,Pedro Lucas das Neves,15042,Encaminhado ao Requisitante,28-02-2025,28-02-2025,,Elisa Nunes
53758,14221,Consultor Sênior Oracle EPM FCCS - 1434,,Maria Eduarda Cassiano,49190,Prospect,26-02-2025,26-02-2025,,Luna Correia



### APPLICANTS.JSON

In [137]:
with open('applicants.json','r',encoding='utf-8') as file:
    dados_candidatos = json.load(file)

info_candidatos = []

for candidato_id, candidato_info in dados_candidatos.items():
    infos_basicas = candidato_info.get('info_basicas',{})
    infos_prof = candidato_info.get('informacoes_profissionais',{})
    formacao = candidato_info.get('formacao_e_idiomas',{})

    registroCandidato = {
        'id_candidato': candidato_id,
        'cv_texto_pt': candidato_info.get('cv_pt', ''),
        'cv_texto_en': candidato_info.get('cv_en', ''),
        'applicant_area_atuacao': infos_prof.get('area_atuacao', ''),
        'applicant_conhecimentos': infos_prof.get('conhecimentos_tecnicos', ''),
        'applicant_certificacoes': infos_prof.get('certificacoes', ''),
        'applicant_nivel_profissional': infos_prof.get('nivel_profissional', ''),
        'applicant_nivel_academico': formacao.get('nivel_academico', ''),
        'applicant_nivel_ingles': formacao.get('nivel_ingles', ''),
        'applicant_nivel_espanhol': formacao.get('nivel_espanhol', ''),
        'applicant_nome': infos_basicas.get('nome', '')
        # Acredito que outros dados como e-mail, telefone, etc... não tem necessidade
    }

    info_candidatos.append(registroCandidato)


df_candidatos = pd.DataFrame(info_candidatos)

df_candidatos.head(3)

Unnamed: 0,id_candidato,cv_texto_pt,cv_texto_en,applicant_area_atuacao,applicant_conhecimentos,applicant_certificacoes,applicant_nivel_profissional,applicant_nivel_academico,applicant_nivel_ingles,applicant_nivel_espanhol,applicant_nome
0,31000,assistente administrativo\n\n\nsantosbatista\n...,,,,,,,,,
1,31001,formação acadêmica\nensino médio (2º grau) em ...,,Administrativa,,,,Ensino Superior Incompleto,Nenhum,Nenhum,
2,31002,objetivo: área administrativa | financeira\n\n...,,Administrativa,,"MS [77-418] MOS: Microsoft Office Word 2013, M...",,Ensino Superior Completo,Intermediário,Básico,


In [138]:
df_candidatos.tail(3)

Unnamed: 0,id_candidato,cv_texto_pt,cv_texto_en,applicant_area_atuacao,applicant_conhecimentos,applicant_certificacoes,applicant_nivel_profissional,applicant_nivel_academico,applicant_nivel_ingles,applicant_nivel_espanhol,applicant_nome
42479,5997,,,,,,,,,,
42480,5998,,,,,,,,,,
42481,5999,,,,,,,,,,


In [139]:
with open('vagas.json', 'r', encoding='utf-8') as file:
    vagas = json.load(file)


info_vagas = []


for id_vaga, vaga_info in vagas.items():
    info_basicas = vaga_info.get('informacoes_basicas', {})
    perfil = vaga_info.get('perfil_vaga', {})

    registro_vaga = {
        'id_vaga': id_vaga, # 
        'titulo_vaga_detalhado': info_basicas.get('titulo_vaga', ''),
        'cliente_vaga': info_basicas.get('cliente', ''),
        'tipo_contratacao': info_basicas.get('tipo_contratacao', ''),
        'pais_vaga': perfil.get('pais', ''),
        'estado_vaga': perfil.get('estado', ''),
        'cidade_vaga': perfil.get('cidade', ''),
        'nivel_profissional_vaga': perfil.get('nivel_profissional', ''),
        'nivel_academico_vaga': perfil.get('nivel_academico', ''),
        'nivel_ingles_vaga': perfil.get('nivel_ingles', ''),
        'nivel_espanhol_vaga': perfil.get('nivel_espanhol', ''),
        'areas_atuacao_vaga': perfil.get('areas_atuacao', ''),
        'atividades_vaga': perfil.get('principais_atividades', ''), 
        'competencias_vaga': perfil.get('competencia_tecnicas_e_comportamentais', ''), 
        'observacoes_vaga': perfil.get('demais_observacoes', ''),
        'pcd_vaga': perfil.get('vaga_especifica_para_pcd', '')
    }

    info_vagas.append(registro_vaga)


df_vagas = pd.DataFrame(info_vagas)

In [140]:
df_vagas.head(3)

Unnamed: 0,id_vaga,titulo_vaga_detalhado,cliente_vaga,tipo_contratacao,pais_vaga,estado_vaga,cidade_vaga,nivel_profissional_vaga,nivel_academico_vaga,nivel_ingles_vaga,nivel_espanhol_vaga,areas_atuacao_vaga,atividades_vaga,competencias_vaga,observacoes_vaga,pcd_vaga
0,5185,Operation Lead -,"Morris, Moran and Dodson",CLT Full,Brasil,São Paulo,São Paulo,,Ensino Superior Completo,Avançado,Fluente,TI - Sistemas e Ferramentas-,Operations Lead\n\nRoles & Responsibilities:\n...,Required Skills:\n• Prior experience in Cloud ...,100% Remoto Período – entre 5 – 6 meses,Não
1,5184,Consultor PP/QM Sênior,"Morris, Moran and Dodson",CLT Full,Brasil,São Paulo,São Paulo,,Ensino Superior Completo,Fluente,Nenhum,TI - Desenvolvimento/Programação-,Consultor PP/QM Sr.\n\n• Consultor PP/QM Sênio...,• Consultor PP/QM Sênior com experiencia em pr...,• Início: Imediato • Fim: Jan/22,Não
2,5183,ANALISTA PL/JR C/ SQL,"Morris, Moran and Dodson",CLT Full,Brasil,São Paulo,São Paulo,,Ensino Superior Completo,Nenhum,Intermediário,TI - Sistemas e Ferramentas-,Descrição – Atividades:\n\no Monitoramento das...,Requisitos mandatórios:\n\no Conhecimentos Téc...,Localização: Remoto Perfil: Analista Pleno ou ...,Não


In [141]:
df_vagas.tail(3)

Unnamed: 0,id_vaga,titulo_vaga_detalhado,cliente_vaga,tipo_contratacao,pais_vaga,estado_vaga,cidade_vaga,nivel_profissional_vaga,nivel_academico_vaga,nivel_ingles_vaga,nivel_espanhol_vaga,areas_atuacao_vaga,atividades_vaga,competencias_vaga,observacoes_vaga,pcd_vaga
14078,12366,964 - Assistente fiscal ou financeiro,"Glover, Warren and Norris","CLT Full, PJ/Autônomo",Brasil,São Paulo,São Paulo,,Ensino Superior Completo,Básico,Básico,TI - Projetos-,Qualificações técnicas: conhecimento básico em...,"Local: Alphaville, Barueri\nQual região: SP\nI...","Modelo de trabalho: Hibrido, 3 vezes por seman...",
14079,12365,966 - Analista pleno ou sênior de área fiscal,"Glover, Warren and Norris","CLT Full, PJ/Autônomo",Brasil,São Paulo,Barueri,,Ensino Superior Completo,Básico,Básico,TI - Projetos-,Qualificações técnicas: apuração de impostos r...,"Local: Alphaville, Barueri, SP.\nQual região: ...","Modelo de trabalho: Hibrido, 3 vezes por seman...",
14080,12364,965 - Assistente ou analista de área contábil,"Glover, Warren and Norris","CLT Full, PJ/Autônomo",Brasil,São Paulo,Barueri,,Ensino Superior Completo,Básico,Básico,TI - Projetos-,Qualificações técnicas: reconciliação de conta...,"Local: Alphaville, Barueri, SP.\nRegião: Grand...","Modelo de trabalho: Hibrido, 3 vezes por seman...",


#### Fazendo merge de PROSPECTS e APPLICANTS


In [142]:
df_final_temp = pd.merge(
    df_candidaturas,
    df_candidatos,
    on='id_candidato',
    how='left'
)
print("\nMerge df_candidaturas + df_candidatos -> df_final_temp: ")
df_final_temp.head(3)


Merge df_candidaturas + df_candidatos -> df_final_temp: 


Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,cv_texto_pt,cv_texto_en,applicant_area_atuacao,applicant_conhecimentos,applicant_certificacoes,applicant_nivel_profissional,applicant_nivel_academico,applicant_nivel_ingles,applicant_nivel_espanhol,applicant_nome
0,4530,CONSULTOR CONTROL M,,José Vieira,25632,Encaminhado ao Requisitante,25-03-2021,25-03-2021,"Encaminhado para - PJ R$ 72,00/hora",Ana Lívia Moreira,\ndados pessoais\nestado civil: casado\nidade:...,,,,,,,,,
1,4530,CONSULTOR CONTROL M,,Srta. Isabela Cavalcante,25529,Encaminhado ao Requisitante,22-03-2021,23-03-2021,"encaminhado para - R$ 6.000,00 – CLT Full , n...",Ana Lívia Moreira,"solteiro, 47 anos\n\nestrada meringuava, nº 17...",,"TI - Governança, TI - Infraestrutura, TI - Pro...",,,,Ensino Superior Completo,Intermediário,Básico,
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,\n\nárea de atuação: lider de consultoria / ge...,,TI - Projetos,"- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8....",,,Ensino Superior Completo,Avançado,Intermediário,


In [143]:
#Informações de vaga nesse outro merge
print(df_final_temp.columns)
print(df_vagas.columns)

df_final_temp['id_vaga'] = df_final_temp['id_vaga'].astype(str)
df_vagas['id_vaga'] = df_vagas['id_vaga'].astype(str)

df_final = pd.merge(
    df_final_temp,
    df_vagas,
    on='id_vaga',
    how='left'
)

print(df_final.columns)
print(df_final.head(3))

Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome_candidato',
       'id_candidato', 'situacao_candidado', 'data_candidatura',
       'ultima_atualizacao', 'comentario', 'recrutador', 'cv_texto_pt',
       'cv_texto_en', 'applicant_area_atuacao', 'applicant_conhecimentos',
       'applicant_certificacoes', 'applicant_nivel_profissional',
       'applicant_nivel_academico', 'applicant_nivel_ingles',
       'applicant_nivel_espanhol', 'applicant_nome'],
      dtype='object')
Index(['id_vaga', 'titulo_vaga_detalhado', 'cliente_vaga', 'tipo_contratacao',
       'pais_vaga', 'estado_vaga', 'cidade_vaga', 'nivel_profissional_vaga',
       'nivel_academico_vaga', 'nivel_ingles_vaga', 'nivel_espanhol_vaga',
       'areas_atuacao_vaga', 'atividades_vaga', 'competencias_vaga',
       'observacoes_vaga', 'pcd_vaga'],
      dtype='object')
Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome_candidato',
       'id_candidato', 'situacao_candidado', 'data_candidatura',
       'ultima_at

### Features e Pré-Processamento

##### Como tinhamos observado anteriormente, a coluna situacao_candidato é importante, onde indica se o candidato foi ou não aderente a vaga, vamos então separar da seguinte forma:
##### 1 -> Aderente
##### 0 -> Não aderente

In [144]:
# Visualizando o que temos na coluna situacao_candidato
df_final['situacao_candidado'].unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision',
       'Desistiu', 'Documentação PJ', 'Não Aprovado pelo Cliente',
       'Prospect', 'Não Aprovado pelo RH', 'Aprovado',
       'Não Aprovado pelo Requisitante', 'Inscrito', 'Entrevista Técnica',
       'Em avaliação pelo RH', 'Contratado como Hunting',
       'Desistiu da Contratação', 'Entrevista com Cliente',
       'Documentação CLT', 'Recusado', 'Documentação Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

## Mapeamento de Status para Variável Alvo ('situacao_candidado')

### Status Mapeados para 1 (Aderente):

* 'Contratado pela Decision'
* 'Contratado como Hunting'
* 'Aprovado'
* 'Proposta Aceita'
* 'Documentação PJ'
* 'Documentação CLT'
* 'Documentação Cooperado'
* 'Encaminhar Proposta'

### Status Mapeados para 0 (Não Aderente):

* 'Não Aprovado pelo Cliente'
* 'Não Aprovado pelo Requisitante'
* 'Recusado'


In [145]:
df_final['situacao_candidado'].value_counts()

situacao_candidado
Prospect                          20021
Encaminhado ao Requisitante       16122
Inscrito                           3980
Não Aprovado pelo Cliente          3492
Contratado pela Decision           2758
Desistiu                           2349
Não Aprovado pelo RH               1765
Não Aprovado pelo Requisitante      765
Entrevista Técnica                  579
Sem interesse nesta vaga            576
Entrevista com Cliente              469
Em avaliação pelo RH                375
Contratado como Hunting             226
Aprovado                            209
Desistiu da Contratação              59
Documentação PJ                       4
Documentação CLT                      3
Recusado                              2
Documentação Cooperado                2
Encaminhar Proposta                   2
Proposta Aceita                       1
Name: count, dtype: int64

In [146]:
## fazer um dicionario
dic_map_situacao_candidato = {
    'Contratado pela Decision': 1,
    'Contratado como Hunting': 1,
    'Aprovado': 1,           
    'Proposta Aceita': 1,    
    'Documentação PJ': 1,    
    'Documentação CLT': 1,   
    'Documentação Cooperado': 1, 
    'Encaminhar Proposta': 1, 
    'Não Aprovado pelo Cliente': 0,   
    'Não Aprovado pelo Requisitante': 0,  
    'Recusado': 0
}

In [147]:
dic_map_situacao_candidato

{'Contratado pela Decision': 1,
 'Contratado como Hunting': 1,
 'Aprovado': 1,
 'Proposta Aceita': 1,
 'Documentação PJ': 1,
 'Documentação CLT': 1,
 'Documentação Cooperado': 1,
 'Encaminhar Proposta': 1,
 'Não Aprovado pelo Cliente': 0,
 'Não Aprovado pelo Requisitante': 0,
 'Recusado': 0}

In [148]:
# Criando uma coluna para determinar aderente a vaga ou não
df_final['aderente'] = df_final['situacao_candidado'].map(dic_map_situacao_candidato)
linhas_com_nan = df_final['aderente'].isnull().sum()
print(linhas_com_nan)
df_final.dropna(subset=['aderente'],inplace=True)
df_final['aderente'] = df_final['aderente'].astype(int)

46295


In [205]:
df_final.shape

(7464, 73)

In [149]:
df_final['aderente'].isna().sum()

0

In [150]:
df_final.head(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,nivel_profissional_vaga,nivel_academico_vaga,nivel_ingles_vaga,nivel_espanhol_vaga,areas_atuacao_vaga,atividades_vaga,competencias_vaga,observacoes_vaga,pcd_vaga,aderente
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,,Ensino Médio Completo,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Key skills required for the job are:\n\nPeople...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",Não,1
4,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,,Ensino Médio Completo,Técnico,Fluente,Gestão e Alocação de Recursos de TI-,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Atuação somente em horário comercial. Tempo in...,Não,1
6,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,Não,1


In [151]:
print(df_final['aderente'].value_counts(normalize=True))

aderente
0    0.570606
1    0.429394
Name: proportion, dtype: float64


In [152]:
# temos um problema, a maioria dos dados são de pessoas que não foram contratadas 94%
# isso pode ter um problema no momento do treino pelo fato de esta desbalanceado
print(df_final['aderente'].value_counts())

aderente
0    4259
1    3205
Name: count, dtype: int64


In [153]:
df_final.columns

Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome_candidato',
       'id_candidato', 'situacao_candidado', 'data_candidatura',
       'ultima_atualizacao', 'comentario', 'recrutador', 'cv_texto_pt',
       'cv_texto_en', 'applicant_area_atuacao', 'applicant_conhecimentos',
       'applicant_certificacoes', 'applicant_nivel_profissional',
       'applicant_nivel_academico', 'applicant_nivel_ingles',
       'applicant_nivel_espanhol', 'applicant_nome', 'titulo_vaga_detalhado',
       'cliente_vaga', 'tipo_contratacao', 'pais_vaga', 'estado_vaga',
       'cidade_vaga', 'nivel_profissional_vaga', 'nivel_academico_vaga',
       'nivel_ingles_vaga', 'nivel_espanhol_vaga', 'areas_atuacao_vaga',
       'atividades_vaga', 'competencias_vaga', 'observacoes_vaga', 'pcd_vaga',
       'aderente'],
      dtype='object')

In [154]:

def limpar_texto(texto):
    # verifica se é uma string
    if not isinstance(texto,str):
        return ""
    texto = texto.lower()
    # remover espaços/quebras de linha
    texto = re.sub(r'\s+',' ',texto).strip()
    # remover pontuação
    texto = re.sub(r'[' + re.escape(string.punctuation) + r']','',texto)
    # remover espaços inicio e fim
    texto = texto.strip()
    # remover acentos
    texto = unidecode(texto)
    
    return texto

colunas_texto = ['cv_texto_pt','cv_texto_en',
                 'applicant_conhecimentos',
                 'applicant_certificacoes',
                 'atividades_vaga',
                 'competencias_vaga',
                 'titulo_vaga_detalhado',
                 'observacoes_vaga',
                 'comentario']


for col in colunas_texto:
    nova_coluna = col + '_limpo'
    print(f"Limpando a coluna: {col} -> {nova_coluna}")
    df_final[nova_coluna] = df_final[col].apply(limpar_texto) 

Limpando a coluna: cv_texto_pt -> cv_texto_pt_limpo
Limpando a coluna: cv_texto_en -> cv_texto_en_limpo
Limpando a coluna: applicant_conhecimentos -> applicant_conhecimentos_limpo
Limpando a coluna: applicant_certificacoes -> applicant_certificacoes_limpo
Limpando a coluna: atividades_vaga -> atividades_vaga_limpo
Limpando a coluna: competencias_vaga -> competencias_vaga_limpo
Limpando a coluna: titulo_vaga_detalhado -> titulo_vaga_detalhado_limpo
Limpando a coluna: observacoes_vaga -> observacoes_vaga_limpo
Limpando a coluna: comentario -> comentario_limpo


In [155]:
print(df_final.columns)

Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome_candidato',
       'id_candidato', 'situacao_candidado', 'data_candidatura',
       'ultima_atualizacao', 'comentario', 'recrutador', 'cv_texto_pt',
       'cv_texto_en', 'applicant_area_atuacao', 'applicant_conhecimentos',
       'applicant_certificacoes', 'applicant_nivel_profissional',
       'applicant_nivel_academico', 'applicant_nivel_ingles',
       'applicant_nivel_espanhol', 'applicant_nome', 'titulo_vaga_detalhado',
       'cliente_vaga', 'tipo_contratacao', 'pais_vaga', 'estado_vaga',
       'cidade_vaga', 'nivel_profissional_vaga', 'nivel_academico_vaga',
       'nivel_ingles_vaga', 'nivel_espanhol_vaga', 'areas_atuacao_vaga',
       'atividades_vaga', 'competencias_vaga', 'observacoes_vaga', 'pcd_vaga',
       'aderente', 'cv_texto_pt_limpo', 'cv_texto_en_limpo',
       'applicant_conhecimentos_limpo', 'applicant_certificacoes_limpo',
       'atividades_vaga_limpo', 'competencias_vaga_limpo',
       'titulo_vaga_det

In [156]:
print("Curriculo Original: \n",df_final.loc[2,'cv_texto_pt']) # mostrando os caracateres do primeiro currículo antes da transformação

Curriculo Original: 
 

área de atuação: lider de consultoria / gerenciamento de projeto / liderança técnica / analista senior
resumo de qualificações
- profissional com 30 anos de experiência na área de ti, adquirida em projetos desenvolvidos em empresas nacionais de grande porte e consultorias especializadas.
- sólida experiência na área de tecnologia da informação atuando como consultor pleno-senior, liderando equipes de desenvolvimento, implantação e upgrade de sistemas erp, crm, hcm e campus solution.
- sólida experiência em implantação de novas funcionalidades e backoffice à solução peoplesoft.
- forte atuação junto a clientes internos e externos para implantação de novos processos de negócio através de soluções erp – crm e hcm.
- vivência nos processos de integração entre módulos do peoplesoft e sistemas externos e internos.
- experiência em ferramentas para gerenciamento de projetos (msproject e hp ppm).
- experiência em consultoria remota e monitoramento de processos de produç

In [157]:
colunas_limpas = [col + '_limpo' for col in colunas_texto if col in df_final.columns]
print(colunas_limpas)
tokenizer = WordPunctTokenizer() # Instancia o tokenizer

for col in colunas_limpas:
    nova_coluna_tokens = col.replace('_limpo','_tokens')
    print(f'Tokenizando a coluna: {col} -> {nova_coluna_tokens}')
    df_final[nova_coluna_tokens] = df_final[col].apply(lambda texto: tokenizer.tokenize(texto) if pd.notna(texto) else [])

['cv_texto_pt_limpo', 'cv_texto_en_limpo', 'applicant_conhecimentos_limpo', 'applicant_certificacoes_limpo', 'atividades_vaga_limpo', 'competencias_vaga_limpo', 'titulo_vaga_detalhado_limpo', 'observacoes_vaga_limpo', 'comentario_limpo']
Tokenizando a coluna: cv_texto_pt_limpo -> cv_texto_pt_tokens
Tokenizando a coluna: cv_texto_en_limpo -> cv_texto_en_tokens
Tokenizando a coluna: applicant_conhecimentos_limpo -> applicant_conhecimentos_tokens
Tokenizando a coluna: applicant_certificacoes_limpo -> applicant_certificacoes_tokens
Tokenizando a coluna: atividades_vaga_limpo -> atividades_vaga_tokens
Tokenizando a coluna: competencias_vaga_limpo -> competencias_vaga_tokens
Tokenizando a coluna: titulo_vaga_detalhado_limpo -> titulo_vaga_detalhado_tokens
Tokenizando a coluna: observacoes_vaga_limpo -> observacoes_vaga_tokens
Tokenizando a coluna: comentario_limpo -> comentario_tokens


In [158]:
df_final.head(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,comentario_limpo,cv_texto_pt_tokens,cv_texto_en_tokens,applicant_conhecimentos_tokens,applicant_certificacoes_tokens,atividades_vaga_tokens,competencias_vaga_tokens,titulo_vaga_detalhado_tokens,observacoes_vaga_tokens,comentario_tokens
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,data de inicio 12042021,"[area, de, atuacao, lider, de, consultoria, ge...",[],"[peoplesoft, peopletools, 849, 853, 855, 857, ...",[],"[key, skills, required, for, the, job, are, pe...","[o, recurso, peoplesoft, tem, como, responsabi...","[20212607395peoplesoft, application, enginedom...","[remoto, depois, presencial, tempo, indetermin...","[data, de, inicio, 12042021]"
4,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,,"[solteiro, brasileiro, 21061987, habilitacao, ...",[],[],[],"[arquiteto, foco, na, area, e, automacao, requ...","[arquiteto, foco, na, area, e, automacao, requ...","[20212605708microfocus, application, life, cyc...","[atuacao, somente, em, horario, comercial, tem...",[]
6,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,aguardando confirmacao de inicio,"[alta, mobilidade, para, mudancas, e, viagens,...",[],[],[],"[automacao, de, teste, conhecimento, do, codig...","[automacao, de, teste, conhecimento, do, codig...","[20212605711microfocus, qtp, uft, automation, ...",[],"[aguardando, confirmacao, de, inicio]"


In [159]:
print("Verificar limpeza:", df_final['cv_texto_pt_limpo'].iloc[0][:100]) 

Verificar limpeza: area de atuacao lider de consultoria  gerenciamento de projeto  lideranca tecnica  analista senior r


In [160]:
print("Verificar tokens:", df_final['cv_texto_pt_tokens'].iloc[0][:100]) 

Verificar tokens: ['area', 'de', 'atuacao', 'lider', 'de', 'consultoria', 'gerenciamento', 'de', 'projeto', 'lideranca', 'tecnica', 'analista', 'senior', 'resumo', 'de', 'qualificacoes', 'profissional', 'com', '30', 'anos', 'de', 'experiencia', 'na', 'area', 'de', 'ti', 'adquirida', 'em', 'projetos', 'desenvolvidos', 'em', 'empresas', 'nacionais', 'de', 'grande', 'porte', 'e', 'consultorias', 'especializadas', 'solida', 'experiencia', 'na', 'area', 'de', 'tecnologia', 'da', 'informacao', 'atuando', 'como', 'consultor', 'plenosenior', 'liderando', 'equipes', 'de', 'desenvolvimento', 'implantacao', 'e', 'upgrade', 'de', 'sistemas', 'erp', 'crm', 'hcm', 'e', 'campus', 'solution', 'solida', 'experiencia', 'em', 'implantacao', 'de', 'novas', 'funcionalidades', 'e', 'backoffice', 'a', 'solucao', 'peoplesoft', 'forte', 'atuacao', 'junto', 'a', 'clientes', 'internos', 'e', 'externos', 'para', 'implantacao', 'de', 'novos', 'processos', 'de', 'negocio', 'atraves', 'de', 'solucoes', 'erp', '-', '

### Removendo STOPWORDS (de,a,o,que)

In [161]:
nltk.download('stopwords')
stopwords_pt = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to c:\Users\Menacho\anaconda
[nltk_data]     3\envs\ambienteposfiap\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [162]:
stopwords_pt

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [163]:
type(stopwords_pt)

list

In [164]:
def remover_stopwords(lista_tokens,stopwords):
    if not isinstance(lista_tokens,list): # verifica se realmente é uma lista
        return []
    tokens_sem_stopwords = [token for token in lista_tokens if token not in stopwords and len(token) > 1] # Aqui removemos stopwords e também tokens de 1 letra
    return tokens_sem_stopwords


#Utilizar as colunas que possuem tokens no final
colunas_tokens = [col for col in df_final.columns if '_tokens' in col]
print(colunas_tokens)
#Para pecorrer uma lista demora muito, vamos utilizar set para transforma-lo em um estrutura de dados onde o python usa uma técnica eficiente ( tabela hash )
stopwords_set = set(stopwords_pt)
print(stopwords_set)

for col in colunas_tokens:
    coluna_nostop = col.replace('_tokens','_nostop')
    print(f"Removendo stopwords de: {col} -> {coluna_nostop}")
    df_final[coluna_nostop] = df_final[col].apply(lambda tokens: remover_stopwords(tokens,stopwords_set))

['cv_texto_pt_tokens', 'cv_texto_en_tokens', 'applicant_conhecimentos_tokens', 'applicant_certificacoes_tokens', 'atividades_vaga_tokens', 'competencias_vaga_tokens', 'titulo_vaga_detalhado_tokens', 'observacoes_vaga_tokens', 'comentario_tokens']
{'esse', 'tenha', 'forem', 'formos', 'éramos', 'seriam', 'só', 'era', 'seja', 'tenho', 'seremos', 'tinham', 'tiveram', 'teu', 'tiverem', 'houvermos', 'serão', 'há', 'este', 'seu', 'tenhamos', 'tivesse', 'já', 'esses', 'fui', 'seríamos', 'houveríamos', 'hajam', 'houveria', 'seus', 'estavam', 'depois', 'tuas', 'estiveram', 'seria', 'um', 'fôramos', 'mais', 'terão', 'esta', 'isto', 'nossas', 'ser', 'também', 'estiver', 'lhes', 'sou', 'vocês', 'esteve', 'que', 'no', 'tivermos', 'fôssemos', 'terei', 'tivéssemos', 'hajamos', 'delas', 'está', 'dela', 'ao', 'estivemos', 'foi', 'pelos', 'ou', 'aquelas', 'o', 'estivéramos', 'aquela', 'como', 'eles', 'estivesse', 'do', 'até', 'dos', 'houverem', 'estávamos', 'suas', 'estar', 'haja', 'dele', 'nossos', 'num

In [165]:
print("\n Antes e Depois da remoção de stopwords")
print("Tokens originais: ",df_final['cv_texto_pt_tokens'].iloc[0][:500])
print("Tokens depois da remoção: ",df_final['cv_texto_pt_nostop'].iloc[0][:500])


 Antes e Depois da remoção de stopwords
Tokens originais:  ['area', 'de', 'atuacao', 'lider', 'de', 'consultoria', 'gerenciamento', 'de', 'projeto', 'lideranca', 'tecnica', 'analista', 'senior', 'resumo', 'de', 'qualificacoes', 'profissional', 'com', '30', 'anos', 'de', 'experiencia', 'na', 'area', 'de', 'ti', 'adquirida', 'em', 'projetos', 'desenvolvidos', 'em', 'empresas', 'nacionais', 'de', 'grande', 'porte', 'e', 'consultorias', 'especializadas', 'solida', 'experiencia', 'na', 'area', 'de', 'tecnologia', 'da', 'informacao', 'atuando', 'como', 'consultor', 'plenosenior', 'liderando', 'equipes', 'de', 'desenvolvimento', 'implantacao', 'e', 'upgrade', 'de', 'sistemas', 'erp', 'crm', 'hcm', 'e', 'campus', 'solution', 'solida', 'experiencia', 'em', 'implantacao', 'de', 'novas', 'funcionalidades', 'e', 'backoffice', 'a', 'solucao', 'peoplesoft', 'forte', 'atuacao', 'junto', 'a', 'clientes', 'internos', 'e', 'externos', 'para', 'implantacao', 'de', 'novos', 'processos', 'de', 'negocio', 

In [166]:
#Definindo a importâncias das palavras utilizando TF-IDF
#Vamos juntar os tokens agora sem stopwords em um string só, porque o TF-IDF não faz a leitura de listas

colunas_nostop_para_str = [col + '_nostop' for col in df_final.columns]
colunas_nostop_para_str = [col for col in colunas_nostop_para_str if col in df_final.columns]

print(colunas_nostop_para_str)

for col in colunas_nostop_para_str:
    nova_coluna_str = col + "_str"
    #Apenas listas que irão ser juntadas
    print(type(col))
    df_final[nova_coluna_str] = df_final[col].apply(lambda tokens: ' '.join(tokens) if isinstance(tokens,list) else '' )  

['comentario_nostop', 'cv_texto_pt_nostop', 'cv_texto_en_nostop', 'applicant_conhecimentos_nostop', 'applicant_certificacoes_nostop', 'titulo_vaga_detalhado_nostop', 'atividades_vaga_nostop', 'competencias_vaga_nostop', 'observacoes_vaga_nostop']
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>


In [167]:
df_final.head(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,comentario_nostop,comentario_nostop_str,cv_texto_pt_nostop_str,cv_texto_en_nostop_str,applicant_conhecimentos_nostop_str,applicant_certificacoes_nostop_str,titulo_vaga_detalhado_nostop_str,atividades_vaga_nostop_str,competencias_vaga_nostop_str,observacoes_vaga_nostop_str
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,"[data, inicio, 12042021]",data inicio 12042021,area atuacao lider consultoria gerenciamento p...,,peoplesoft peopletools 849 853 855 857 peoplec...,,20212607395peoplesoft application enginedomain...,key skills required the job are peoplesoft app...,recurso peoplesoft responsabilidades projetar ...,remoto presencial tempo indeterminado
4,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,[],,solteiro brasileiro 21061987 habilitacao categ...,,,,20212605708microfocus application life cycle m...,arquiteto foco area automacao requerido experi...,arquiteto foco area automacao requerido experi...,atuacao somente horario comercial tempo indete...
6,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,"[aguardando, confirmacao, inicio]",aguardando confirmacao inicio,alta mobilidade mudancas viagens objetivo atua...,,,,20212605711microfocus qtp uft automation testing,automacao teste conhecimento codigo experienci...,automacao teste conhecimento codigo experienci...,


In [168]:
df_final.tail(5)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,comentario_nostop,comentario_nostop_str,cv_texto_pt_nostop_str,cv_texto_en_nostop_str,applicant_conhecimentos_nostop_str,applicant_certificacoes_nostop_str,titulo_vaga_detalhado_nostop_str,atividades_vaga_nostop_str,competencias_vaga_nostop_str,observacoes_vaga_nostop_str
53526,14154,Gerente de Projetos Sênior,Cooperado,Aurora Mendonça,49887,Contratado pela Decision,10-02-2025,12-02-2025,Início programado para 17/02/2025. Projetos RH...,Melina Montenegro,...,"[inicio, programado, 17022025, projetos, rh, c...",inicio programado 17022025 projetos rh cliente...,,,,,gerente projetos senior,cargo gerente projetos senior inicio imediato,experiencia forte atuacao varejo experiencia m...,contratacao cooperado
53529,14156,Consultor SAP SD - FSR 4449,,Alícia Cardoso,32530,Contratado pela Decision,10-02-2025,13-02-2025,,Yasmin da Rosa,...,[],,,,,,consultor sap sd fsr 4449,modelo alocacao remoto ingles fluente comunica...,informacoes sobre habilidade habilidade princi...,substituicao sim outros informacoes adicionais...
53589,14166,Analista de Dados ETL Sênior,Cooperado,Henry Pastor,49917,Contratado pela Decision,12-02-2025,12-02-2025,Cliente Assaí. Início em 03/03/2025.,Melina Montenegro,...,"[cliente, assai, inicio, 03032025]",cliente assai inicio 03032025,,,,,analista dados etl senior,cargo analista dados etl senior local aricandu...,descricao atividades experiencia manutencao de...,
53590,14167,Consultor Sênior SAP SD - 1418,,Ana Sophia Moraes,49791,Não Aprovado pelo Requisitante,13-02-2025,14-02-2025,"Reprovado pelo busdget, de acordo com tabela d...",Yasmin da Rosa,...,"[reprovado, busdget, acordo, tabela, deloitte]",reprovado busdget acordo tabela deloitte,,,,,consultor senior sap sd 1418,vaga consultor senior sap sd modelo trabalho h...,conhecimentos tecnicos requeridos consultor se...,reembolso despesas estacionamento km deloitte ...
53622,14173,Especialista em Governança de Segurança da Inf...,,Augusto Mendonça,49965,Contratado pela Decision,17-02-2025,17-02-2025,Início programado para 19/02/2025. Assaí Ataca...,Melina Montenegro,...,"[inicio, programado, 19022025, assai, atacadista]",inicio programado 19022025 assai atacadista,,,,,especialista governanca seguranca informacao,especialista governanca seguranca informacao d...,responsabilidades desenvolver implementar poli...,


In [169]:
#Combinar textos em uma coluna ( CV + Descrição vaga)
df_final.columns

Index(['id_vaga', 'titulo_vaga', 'modalidade_vaga', 'nome_candidato',
       'id_candidato', 'situacao_candidado', 'data_candidatura',
       'ultima_atualizacao', 'comentario', 'recrutador', 'cv_texto_pt',
       'cv_texto_en', 'applicant_area_atuacao', 'applicant_conhecimentos',
       'applicant_certificacoes', 'applicant_nivel_profissional',
       'applicant_nivel_academico', 'applicant_nivel_ingles',
       'applicant_nivel_espanhol', 'applicant_nome', 'titulo_vaga_detalhado',
       'cliente_vaga', 'tipo_contratacao', 'pais_vaga', 'estado_vaga',
       'cidade_vaga', 'nivel_profissional_vaga', 'nivel_academico_vaga',
       'nivel_ingles_vaga', 'nivel_espanhol_vaga', 'areas_atuacao_vaga',
       'atividades_vaga', 'competencias_vaga', 'observacoes_vaga', 'pcd_vaga',
       'aderente', 'cv_texto_pt_limpo', 'cv_texto_en_limpo',
       'applicant_conhecimentos_limpo', 'applicant_certificacoes_limpo',
       'atividades_vaga_limpo', 'competencias_vaga_limpo',
       'titulo_vaga_det

In [170]:
colunas_texto_combinar = [
                          'cv_texto_pt_nostop_str',
                          'applicant_conhecimentos_nostop_str',
                          'applicant_certificacoes_nostop_str',
                          'atividades_vaga_nostop_str',
                          'competencias_vaga_nostop_str',
                          'titulo_vaga_detalhado_nostop_str',
                          'observacoes_vaga_nostop_str',
                          'comentario_nostop_str' 
                          ]

if colunas_texto_combinar:
    df_final["txt_combinado_para_tfidf"] = df_final[colunas_texto_combinar].agg(' '.join,axis=1)

In [171]:
df_final.head(3)

Unnamed: 0,id_vaga,titulo_vaga,modalidade_vaga,nome_candidato,id_candidato,situacao_candidado,data_candidatura,ultima_atualizacao,comentario,recrutador,...,comentario_nostop_str,cv_texto_pt_nostop_str,cv_texto_en_nostop_str,applicant_conhecimentos_nostop_str,applicant_certificacoes_nostop_str,titulo_vaga_detalhado_nostop_str,atividades_vaga_nostop_str,competencias_vaga_nostop_str,observacoes_vaga_nostop_str,txt_combinado_para_tfidf
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,Sra. Yasmin Fernandes,25364,Contratado pela Decision,17-03-2021,12-04-2021,Data de Inicio: 12/04/2021,Juliana Cassiano,...,data inicio 12042021,area atuacao lider consultoria gerenciamento p...,,peoplesoft peopletools 849 853 855 857 peoplec...,,20212607395peoplesoft application enginedomain...,key skills required the job are peoplesoft app...,recurso peoplesoft responsabilidades projetar ...,remoto presencial tempo indeterminado,area atuacao lider consultoria gerenciamento p...
4,4533,2021-2605708-Microfocus Application Life Cycle...,,Arthur Almeida,26338,Contratado pela Decision,29-04-2021,18-05-2021,,Stella Vieira,...,,solteiro brasileiro 21061987 habilitacao categ...,,,,20212605708microfocus application life cycle m...,arquiteto foco area automacao requerido experi...,arquiteto foco area automacao requerido experi...,atuacao somente horario comercial tempo indete...,solteiro brasileiro 21061987 habilitacao categ...
6,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,Ana Luiza Vieira,26361,Documentação PJ,28-04-2021,11-05-2021,Aguardando confirmação de inicio _,Manuella Carvalho,...,aguardando confirmacao inicio,alta mobilidade mudancas viagens objetivo atua...,,,,20212605711microfocus qtp uft automation testing,automacao teste conhecimento codigo experienci...,automacao teste conhecimento codigo experienci...,,alta mobilidade mudancas viagens objetivo atua...


In [172]:
print(df_final['txt_combinado_para_tfidf'].iloc[0])

area atuacao lider consultoria gerenciamento projeto lideranca tecnica analista senior resumo qualificacoes profissional 30 anos experiencia area ti adquirida projetos desenvolvidos empresas nacionais grande porte consultorias especializadas solida experiencia area tecnologia informacao atuando consultor plenosenior liderando equipes desenvolvimento implantacao upgrade sistemas erp crm hcm campus solution solida experiencia implantacao novas funcionalidades backoffice solucao peoplesoft forte atuacao junto clientes internos externos implantacao novos processos negocio atraves solucoes erp crm hcm vivencia processos integracao modulos peoplesoft sistemas externos internos experiencia ferramentas gerenciamento projetos msproject hp ppm experiencia consultoria remota monitoramento processos producao distancia vivencia processos analise levantamento requisitos detalhamento escopo definicao arquitetura elaboracao especificacoes tecnicasfuncionais implantacao processos producao experiencia a

In [173]:
# Aplicar TF-IDF 
from sklearn.feature_extraction.text import TfidfVectorizer
import time

tfidf_vetorizar = TfidfVectorizer(max_features=5000,ngram_range=(1,1)) # uma palavra

start_time = time.time()

tfidf_matrix = tfidf_vetorizar.fit_transform(df_final['txt_combinado_para_tfidf'])
end_time = time.time()

In [174]:
tfidf_matrix.shape

(7464, 5000)

In [None]:
# Variaveis categoricas

colunas_categoricas = [  
    'modalidade_vaga', 'tipo_contratacao',
    'pais_vaga', 'estado_vaga', 'cidade_vaga',
    'nivel_profissional_vaga', 'nivel_academico_vaga',
    'nivel_ingles_vaga', 'nivel_espanhol_vaga',
    'areas_atuacao_vaga', 'pcd_vaga',
    'applicant_area_atuacao', 'applicant_nivel_profissional',
    'applicant_nivel_academico', 'applicant_nivel_ingles', 'applicant_nivel_espanhol'
]

df_categoricas = df_final[colunas_categoricas].copy()

In [176]:
df_categoricas.head(3)

Unnamed: 0,modalidade_vaga,tipo_contratacao,pais_vaga,estado_vaga,cidade_vaga,nivel_profissional_vaga,nivel_academico_vaga,nivel_ingles_vaga,nivel_espanhol_vaga,areas_atuacao_vaga,pcd_vaga,applicant_area_atuacao,applicant_nivel_profissional,applicant_nivel_academico,applicant_nivel_ingles,applicant_nivel_espanhol
2,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Não,TI - Projetos,,Ensino Superior Completo,Avançado,Intermediário
4,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Fluente,Gestão e Alocação de Recursos de TI-,Não,,,,,
6,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,


In [177]:
for col in colunas_categoricas:
    if df_categoricas[col].isnull().any():
        df_categoricas[col] = df_categoricas[col].fillna('Desconhecido_NA')

df_categoricas.head(10)

Unnamed: 0,modalidade_vaga,tipo_contratacao,pais_vaga,estado_vaga,cidade_vaga,nivel_profissional_vaga,nivel_academico_vaga,nivel_ingles_vaga,nivel_espanhol_vaga,areas_atuacao_vaga,pcd_vaga,applicant_area_atuacao,applicant_nivel_profissional,applicant_nivel_academico,applicant_nivel_ingles,applicant_nivel_espanhol
2,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Nenhum,Nenhum,Gestão e Alocação de Recursos de TI-,Não,TI - Projetos,,Ensino Superior Completo,Avançado,Intermediário
4,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Fluente,Gestão e Alocação de Recursos de TI-,Não,,,,,
6,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,
8,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,
15,,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,
16,CLT,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,
19,CLT,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,,,,,
22,CLT,PJ/Autônomo,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Técnico,Nenhum,Gestão e Alocação de Recursos de TI-,Não,Desconhecido_NA,Desconhecido_NA,Desconhecido_NA,Desconhecido_NA,Desconhecido_NA
38,,"PJ/Autônomo, CLT Full",Brasil,São Paulo,São Paulo,,Ensino Superior Completo,Básico,Básico,TI - Projetos-,Não,,,,,
54,,Hunting,Brasil,São Paulo,São Paulo,,Ensino Médio Completo,Nenhum,Nenhum,Financeira/Controladoria-,Não,,,,,


In [178]:
df_categoricas_encoded = pd.get_dummies(df_categoricas,columns=colunas_categoricas,drop_first=False,dtype=int)


In [179]:
df_categoricas_encoded.head(10)

Unnamed: 0,modalidade_vaga_,modalidade_vaga_CLT,modalidade_vaga_CLT - Estratégico,modalidade_vaga_Cooperado,modalidade_vaga_Hunting,modalidade_vaga_PJ,tipo_contratacao_,tipo_contratacao_CLT Cotas,"tipo_contratacao_CLT Cotas, CLT Full","tipo_contratacao_CLT Cotas, Cooperado",...,applicant_nivel_ingles_Fluente,applicant_nivel_ingles_Intermediário,applicant_nivel_ingles_Nenhum,applicant_nivel_espanhol_,applicant_nivel_espanhol_Avançado,applicant_nivel_espanhol_Básico,applicant_nivel_espanhol_Desconhecido_NA,applicant_nivel_espanhol_Fluente,applicant_nivel_espanhol_Intermediário,applicant_nivel_espanhol_Nenhum
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
6,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
8,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
15,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
16,0,1,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
19,0,1,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
22,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
38,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
54,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0


In [180]:
from scipy.sparse import hstack

#Combinar Features Textuais e Categoricas
print(tfidf_matrix.shape[0])
print(df_categoricas_encoded.shape[0])

7464
7464


In [181]:
X_final = hstack([tfidf_matrix,df_categoricas_encoded.values],format='csr')
y_final = df_final['aderente'].values

In [182]:
print(X_final)


<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 1623117 stored elements and shape (7464, 5551)>
  Coords	Values
  (0, 222)	0.023758903968633074
  (0, 226)	0.010410538074038507
  (0, 240)	0.007974807234801309
  (0, 241)	0.007158159371506747
  (0, 243)	0.013830149283867662
  (0, 250)	0.0065490520955632766
  (0, 267)	0.008218524820167954
  (0, 321)	0.04960233728905366
  (0, 327)	0.036471911650271534
  (0, 342)	0.014080144805700908
  (0, 345)	0.012300436692314703
  (0, 363)	0.017508551205609894
  (0, 370)	0.013739497555351912
  (0, 375)	0.010553670882929366
  (0, 378)	0.02291774076009583
  (0, 390)	0.010696750562628832
  (0, 396)	0.009784093743744037
  (0, 403)	0.030649215403631445
  (0, 418)	0.013919577744031715
  (0, 456)	0.01042604612526104
  (0, 457)	0.01773805885672413
  (0, 496)	0.012669884831811721
  (0, 502)	0.02401255445472668
  (0, 504)	0.017366344572667825
  (0, 519)	0.008237977043182385
  :	:
  (7463, 4304)	0.05093597789917172
  (7463, 4306)	0.03664079806992337
  

In [183]:
print(y_final)

[1 1 1 ... 1 0 1]


In [184]:
from sklearn.model_selection import train_test_split

X_temp,X_test,y_temp,y_test = train_test_split(X_final,y_final,test_size=0.20,random_state=42,stratify=y_final)

X_train,X_val,y_train,y_val = train_test_split(X_temp,y_temp,test_size=0.25,random_state=42,stratify=y_temp)

In [185]:
print(X_train.shape)
print(X_val.shape)
print(X_test.shape)


(4478, 5551)
(1493, 5551)
(1493, 5551)


In [186]:
print(pd.Series(y_train).value_counts(normalize=True))

0    0.570567
1    0.429433
Name: proportion, dtype: float64


In [187]:
print(pd.Series(y_val).value_counts(normalize=True))

0    0.570663
1    0.429337
Name: proportion, dtype: float64


In [188]:
print(pd.Series(y_test).value_counts(normalize=True))

0    0.570663
1    0.429337
Name: proportion, dtype: float64


In [189]:
# Dados tratados, então agora vamos Construir, treinar e avaliar o modelo
# importando bibliotecas necessárias
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from sklearn.utils import class_weight # Calcular pesos
from sklearn.metrics import classification_report, confusion_matrix # análise de métricas
import numpy as np
import matplotlib.pyplot as plt

In [190]:
# Calculando pesos de classe
peso_classe = class_weight.compute_class_weight('balanced',classes=np.unique(y_train),y=y_train)

In [191]:
print(peso_classe)

[0.87632094 1.16432657]


In [192]:
# transformando o array em uma bilbioteca para poder buscar com indices
peso_classe_dic = dict(enumerate(peso_classe))
print(peso_classe_dic)

{0: 0.876320939334638, 1: 1.1643265730629224}


In [193]:
# definindo a aarquitutera da rede neural
input_features = X_train.shape[1]
print(input_features)

model = keras.Sequential(
    [
        keras.Input(shape=(input_features,),sparse=True, name="entrada"),
        layers.Dense(128, activation="relu", name="camada_oculta_1"),
        layers.Dropout(0.4, name='dropout_1'), # 40% de neuronios desligados para evitarmos overfiting
        layers.Dense(64, activation="relu", name="camada_oculta_2"),
        layers.Dropout(0.4, name='dropout_2'), # 40% de neuronios desligados para evitarmos overfiting
        layers.Dense(1, activation="sigmoid", name="camada_saida") # apenas uma camada de saida
    ],
    name="ModeloRanking"
)

model.summary()

5551


In [194]:
# definindo métricas, apenas acuracia não seria o ideal, por conta de termos poucos aderentes
metricas = [
    keras.metrics.BinaryAccuracy(name="accuracy"),
    keras.metrics.Precision(name="precision"),
    keras.metrics.Recall(name="recall"),
    keras.metrics.AUC(name="auc")
]

otimizar = keras.optimizers.Adam(learning_rate=0.00005) # vamos em passos bem pequenos
# compilar modelo
model.compile(optimizer=otimizar,loss="binary_crossentropy",metrics=metricas) # binary_crossentropy -> função de perda
print("modelo compilado!")

modelo compilado!


In [None]:
# treinando o modelo
print("Iniciando treinamento do modelo")
epocas = 100
batch_size = 128

# se não tiver melhora, vamos utilizar um callback
parar_antes = tf.keras.callbacks.EarlyStopping(monitor='val_auc',patience=7,mode='max',restore_best_weights=True)

inicio_treino = time.time()

hist = model.fit(
    X_train,
    y_train,
    batch_size = batch_size,
    epochs = epocas,
    validation_data = (X_val,y_val),
    class_weight = peso_classe_dic,
    callbacks = [parar_antes],
    verbose = 1
)

final_treino = time.time()

print("Treinamento concluido")
print("Tempo em segundos ", final_treino - inicio_treino)

Iniciando treinamento do modelo
Epoch 1/30
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 31ms/step - accuracy: 0.5668 - auc: 0.5383 - loss: 0.6936 - precision: 0.4865 - recall: 0.0747 - val_accuracy: 0.5834 - val_auc: 0.6634 - val_loss: 0.6802 - val_precision: 0.6173 - val_recall: 0.0780
Epoch 2/30
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 19ms/step - accuracy: 0.5855 - auc: 0.6041 - loss: 0.6870 - precision: 0.5752 - recall: 0.1451 - val_accuracy: 0.6222 - val_auc: 0.7047 - val_loss: 0.6765 - val_precision: 0.6825 - val_recall: 0.2246
Epoch 3/30
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - accuracy: 0.5989 - auc: 0.6243 - loss: 0.6849 - precision: 0.5952 - recall: 0.2205 - val_accuracy: 0.6490 - val_auc: 0.7279 - val_loss: 0.6718 - val_precision: 0.7067 - val_recall: 0.3120
Epoch 4/30
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - accuracy: 0.6139 - auc: 0.6523 - loss: 0.6808 - precisio

In [196]:
# Agora que treinamos o modelo com os dados de treino, vamos avaliar com os dados de testes
resultados_testes = model.evaluate(
    X_test,
    y_test,
    batch_size = batch_size,
    verbose = 0
)

In [197]:
print(resultados_testes)

[0.48790687322616577, 0.7816476821899414, 0.7655986547470093, 0.7082683444023132, 0.8420656323432922]


In [None]:
# Fazer previsões de probabilidade no conjunto de teste
y_pred_proba_test = model.predict(X_test, batch_size = BATCH_SIZE if 'BATCH_SIZE' in locals() else 128)
# Converter probabilidades em classes (0 ou 1) usando um limiar (threshold) de 0.4
y_pred_class_test = (y_pred_proba_test > 0.4).astype(int)

print("\nMatriz de Confusão (Conjunto de Teste):")
print(confusion_matrix(y_test, y_pred_class_test))

print("\nRelatório de Classificação (Conjunto de Teste):")
print(classification_report(y_test, y_pred_class_test, target_names=['Nao Aderente (0)', 'Aderente (1)']))

[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step

Matriz de Confusão (Conjunto de Teste):
[[631 221]
 [135 506]]

Relatório de Classificação (Conjunto de Teste):
                  precision    recall  f1-score   support

Nao Aderente (0)       0.82      0.74      0.78       852
    Aderente (1)       0.70      0.79      0.74       641

        accuracy                           0.76      1493
       macro avg       0.76      0.77      0.76      1493
    weighted avg       0.77      0.76      0.76      1493



In [201]:
path = "modelo_final.keras"
model.save(path)


In [202]:
import joblib

path = "tfidf_vectorizer.pkl"
joblib.dump(tfidf_vetorizar, path)


['tfidf_vectorizer.pkl']

In [203]:
path = 'colunas_categoricas_final.pkl'
pathOriginal = 'colunas_categoricas_originais.pkl'

joblib.dump(df_categoricas_encoded.columns.tolist(), path)
joblib.dump(colunas_categoricas,pathOriginal)

['colunas_categoricas_originais.pkl']