In [3]:
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter
from nltk.corpus import stopwords

# Ajustes de exibição
pd.set_option('display.max_columns', None)

In [None]:
# utilizar nível da vaga
# Adicionar etapa de limpeza na coluna título da vaga (remover traços, barras, etc)

In [4]:
# Lista de funções
def print_all(lista):

    print([*lista])

def encontrar_trechos(df: pd.core.frame.DataFrame,coluna: str, texto: str, usa_regex: bool = False):
    return df[coluna][df[coluna].str.contains(texto,regex = usa_regex, case=False).fillna(False)]

def encontrar_logica(df,coluna,texto,usa_regex = False):
    return list(df[coluna].str.contains(texto,regex = usa_regex, case=False).fillna(False))

def encontrar_chaves(serie, texto,usa_regex = False):
    return serie[serie.index.str.contains(texto, regex = usa_regex, case= False)]

def palavras_associadas(dados, coluna, regex):
    observado_completo = ' '.join(encontrar_trechos(dados,coluna,regex,usa_regex=True).values)
    lista = [word for word in observado_completo.split()]
    contagem = Counter(lista).most_common()
    serie = pd.Series(dict(contagem))
    return contagem, serie

In [5]:
# Carregar os arquivos Parquet
applicants = pd.read_parquet("applicants.parquet")
prospects = pd.read_parquet("prospects.parquet")
vagas = pd.read_parquet("vagas.parquet")

In [6]:
# Renomear colunas para evitar conflitos e identificar origem
applicants = applicants.add_prefix("applicants_")
prospects = prospects.add_prefix("prospects_")
vagas = vagas.add_prefix("vagas_")

In [76]:
# Primeiro merge: prospects + vagas
merged = pd.merge(
    prospects,
    vagas,
    left_on="prospects_vaga_id",
    right_on="vagas_id_vaga",
    how="inner"
)

# Segundo merge: resultado + applicants
final_df = pd.merge(
    merged,
    applicants,
    left_on="prospects_codigo",
    right_on="applicants_infos_basicas_codigo_profissional",
    how="inner"
)

In [77]:
# Filtra casos de MATCHES e NÃO MATCHES com base em valores selecionados
final_df = final_df[final_df['prospects_situacao_candidado'].isin(["Não Aprovado pelo Cliente",
                                                                   "Contratado pela Decision",
                                                                   "Não Aprovado pelo RH",
                                                                   "Não Aprovado pelo Requisitante",
                                                                   "Sem interesse nesta vaga",
                                                                   "Contratado como Hunting",
                                                                   "Aprovado",
                                                                   "Recusado",
                                                                   "Proposta Aceita"])]

final_df

Unnamed: 0,prospects_vaga_id,prospects_titulo,prospects_modalidade,prospects_quantidade_prospects,prospects_nome,prospects_codigo,prospects_situacao_candidado,prospects_data_candidatura,prospects_ultima_atualizacao,prospects_comentario,prospects_recrutador,vagas_id_vaga,vagas_data_requicisao,vagas_limite_esperado_para_contratacao,vagas_titulo_vaga,vagas_vaga_sap,vagas_cliente,vagas_solicitante_cliente,vagas_empresa_divisao,vagas_requisitante,vagas_analista_responsavel,vagas_tipo_contratacao,vagas_prazo_contratacao,vagas_objetivo_vaga,vagas_prioridade_vaga,vagas_origem_vaga,vagas_superior_imediato,vagas_nome,vagas_telefone,vagas_pais,vagas_estado,vagas_cidade,vagas_bairro,vagas_regiao,vagas_local_trabalho,vagas_vaga_especifica_para_pcd,vagas_faixa_etaria,vagas_horario_trabalho,vagas_nivel profissional,vagas_nivel_academico,vagas_nivel_ingles,vagas_nivel_espanhol,vagas_outro_idioma,vagas_areas_atuacao,vagas_principais_atividades,vagas_competencia_tecnicas_e_comportamentais,vagas_demais_observacoes,vagas_viagens_requeridas,vagas_equipamentos_necessarios,vagas_valor_venda,vagas_valor_compra_1,vagas_valor_compra_2,vagas_data_inicial,vagas_data_final,vagas_habilidades_comportamentais_necessarias,vagas_nome_substituto,vagas_categoria_contratacao,applicants_id_applicants,applicants_telefone_recado,applicants_telefone,applicants_infos_basicas_objetivo_profissional,applicants_infos_basicas_data_criacao,applicants_infos_basicas_inserido_por,applicants_infos_basicas_email,applicants_infos_basicas_local,applicants_infos_basicas_sabendo_de_nos_por,applicants_infos_basicas_data_atualizacao,applicants_infos_basicas_codigo_profissional,applicants_infos_basicas_nome,applicants_data_aceite,applicants_nome,applicants_cpf,applicants_fonte_indicacao,applicants_email,applicants_email_secundario,applicants_data_nascimento,applicants_telefone_celular,applicants_sexo,applicants_estado_civil,applicants_pcd,applicants_endereco,applicants_skype,applicants_url_linkedin,applicants_facebook,applicants_titulo_profissional,applicants_area_atuacao,applicants_conhecimentos_tecnicos,applicants_certificacoes,applicants_outras_certificacoes,applicants_remuneracao,applicants_nivel_profissional,applicants_nivel_academico,applicants_nivel_ingles,applicants_nivel_espanhol,applicants_outro_idioma,applicants_instituicao_ensino_superior,applicants_cursos,applicants_ano_conclusao,applicants_download_cv,applicants_qualificacoes,applicants_experiencias,applicants_outro_curso,applicants_id_ibrati,applicants_email_corporativo,applicants_cargo_atual,applicants_projeto_atual,applicants_cliente,applicants_unidade,applicants_data_admissao,applicants_data_ultima_promocao,applicants_nome_superior_imediato,applicants_email_superior_imediato,applicants_cv_pt,applicants_cv_en
2,4531,2021-2607395-PeopleSoft Application Engine-Dom...,,2,Sra. Yasmin Fernandes,25364,Contratado pela Decision,2021-03-17,2021-04-12,Data de Inicio: 12/04/2021,Juliana Cassiano,4531,2021-03-10,NaT,2021-2607395-PeopleSoft Application Engine-Dom...,Não,Gonzalez and Sons,Valentim Duarte,Decision São Paulo,Vitória Melo,Srta. Bella Ferreira,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Médio Completo,Nenhum,Nenhum,,Gestão e Alocação de Recursos de TI-,Key skills required for the job are:\n\nPeople...,O recurso Peoplesoft tem como responsabilidade...,"Remoto DEPOIS PRESENCIAL, TEMPO INDETERMINADO",,Notebook padrão -,0.0,hora,,NaT,NaT,,,PJ/Autônomo,25364,,(21) 96332-6963,Liderança / Desenvolvimento,17-03-2021 09:41:10,Juliana Cassiano,sra._yasmin_fernandes@hotmail.com,"São Paulo, São Paulo",Site de Empregos,12-04-2021 12:15:57,25364,Sra. Yasmin Fernandes,Cadastro anterior ao registro de aceite,Sra. Yasmin Fernandes,,Site de Empregos: APINFO / Linkedin,sra._yasmin_fernandes@hotmail.com,,31-01-1973,(21) 96332-6963,Masculino,Casado,Não,são paulo,,,,Liderança / Desenvolvimento,TI - Projetos,"- PeopleSoft (PeopleTools 8.49, 8.53, 8.55, 8....",,- Capacitação PeopleSoft (Formação Técnica) – ...,0.0,,Ensino Superior Completo,Avançado,Intermediário,-,,Tecnologia da Informação,1995,,,,,0,,,,,,,,,,\n\nárea de atuação: lider de consultoria / ge...,
4,4533,2021-2605708-Microfocus Application Life Cycle...,,2,Arthur Almeida,26338,Contratado pela Decision,2021-04-29,2021-05-18,,Stella Vieira,4533,2021-03-11,1970-01-01,2021-2605708-Microfocus Application Life Cycle...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Fluente,,Gestão e Alocação de Recursos de TI-,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Arquiteto\n\nFoco na área e automação.\n\nRequ...,Atuação somente em horário comercial. Tempo in...,,,207.0,hora,,NaT,NaT,,,PJ/Autônomo,26338,,(31) 92702-5791,,27-04-2021 13:12:34,Stella Vieira,arthur_almeida@gmail.com,,,25-11-2022 11:04:15,26338,Arthur Almeida,25/11/2022 11:04,Arthur Almeida,,:,arthur_almeida@gmail.com,,0000-00-00,(31) 92702-5791,,,,,,,,,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,"solteiro, brasileiro, 21/06/1987\nhabilitação ...",
8,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,10,Maria Helena Peixoto,26003,Não Aprovado pelo Cliente,2021-04-08,2021-04-16,"""Conversando com a candidata, foi exposto que ...",Carolina Araújo,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,,,105.0,hora,,NaT,NaT,,,PJ/Autônomo,26003,,(11) 98863-3278,,08-04-2021 17:36:10,Agatha Montenegro,maria_helena_peixoto@gmail.com,,,08-04-2021 17:36:10,26003,Maria Helena Peixoto,Cadastro anterior ao registro de aceite,Maria Helena Peixoto,,:,maria_helena_peixoto@gmail.com,,0000-00-00,(11) 98863-3278,,,,,,,,,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,solteira – 40 anos – brasileira\nitaquaquecetu...,
13,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,10,Sr. Benjamin Sampaio,12819,Não Aprovado pelo RH,2021-03-19,2021-03-22,"Candidato não soube se expressar muito bem, ma...",Dra. Luara Siqueira,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,,,105.0,hora,,NaT,NaT,,,PJ/Autônomo,12819,,(11) 95685-3023,,07-01-2019 12:33:40,Helena Barros,sr._benjamin_sampaio@gmail.com,,,19-03-2021 16:10:55,12819,Sr. Benjamin Sampaio,Cadastro anterior ao registro de aceite,Sr. Benjamin Sampaio,,:,sr._benjamin_sampaio@gmail.com,,31-12-1969,(11) 95685-3023,,,,,,,,,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,45 anos – brasileiro\n\nperfil profissional\n1...,
15,4534,2021-2605711-Microfocus QTP - UFT Automation T...,,10,Gael Nunes,8838,Não Aprovado pelo Cliente,2021-04-06,2021-04-16,Candidato reprovado pelo cliente . Candidato a...,Carolina Araújo,4534,2021-03-11,1970-01-01,2021-2605711-Microfocus QTP - UFT Automation T...,Não,Barnes-Woods,Maysa Andrade,Decision São Paulo,Vitória Melo,Eloah Leão,PJ/Autônomo,,Contratação,Média: Média complexidade 6 a 10 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Sênior,Ensino Médio Completo,Técnico,Nenhum,,Gestão e Alocação de Recursos de TI-,Automação de teste (conhecimento do código)\n\...,Automação de teste (conhecimento do código)\n\...,,,,105.0,hora,,NaT,NaT,,,PJ/Autônomo,8838,,(11) 96967-1884,Lotus Notes,19-04-2018 15:10:36,pelo próprio candidato,gael_nunes@gmail.com,,Outros,06-04-2021 22:20:37,8838,Gael Nunes,Cadastro anterior ao registro de aceite,Gael Nunes,,Outros: Importação,gael_nunes@gmail.com,,31-12-1969,(11) 96967-1884,,,,,,,,Lotus Notes,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,\ndados pessoais\n\n• nascimento: 9/7/1977 res...,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44814,14078,Tech Lead Cyber - 14688495,,3,Sra. Laura da Conceição,35823,Não Aprovado pelo Cliente,2025-01-28,2025-02-04,Grade/salário do cdd acima da expectativa do c...,Luna Correia,14078,2025-01-23,2025-01-23,Tech Lead Cyber - 14688495,Sim,"Morris, Moran and Dodson",Isabela Abreu,Decision São Paulo,Maria Lopes,Manuela Ribeiro,"CLT Full, PJ/Autônomo",Indeterminado,Contratação,Alta: Alta complexidade 3 a 5 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,Sul,2000,Não,De: Até:,,Analista,Ensino Superior Completo,Avançado,,,TI - SAP-,Vaga: Tech Lead Cyber 14688495\nPeríodo de Alo...,Disponibilidade para Viagens: Não se aplica\nD...,Hunting Tipo de Contratação: CLT Cliente SLA: ...,Não,,168.0,Aberto,,NaT,NaT,,,"CLT, PJ/Autônomo",35823,,(11) 98206-8931,Cybersecurity,03-05-2022 17:57:06,Dra. Lunna Melo,sra._laura_da_conceição@gmail.com,"São Paulo, São Paulo",,03-05-2022 17:57:06,35823,Sra. Laura da Conceição,03/05/2022 17:57,Sra. Laura da Conceição,,:,sra._laura_da_conceição@gmail.com,,0000-00-00,(11) 98206-8931,,,,são paulo,,,,Cybersecurity,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,objetivo \nformação\nibta – mba – gestão ...,
44821,14083,Consultor SAP S4HANA/ECC - SAP RE Sênior - CGE...,,4,Maria Clara Monteiro,7952,Não Aprovado pelo Cliente,2025-01-27,2025-01-28,(reprovado skill x vaga),Yasmin da Rosa,14083,2025-01-26,2025-03-04,Consultor SAP S4HANA/ECC - SAP RE Sênior - CGE...,Sim,"Morris, Moran and Dodson",Isabela Abreu,Decision São Paulo,Maria Lopes,Srta. Luara Rocha,PJ/Autônomo,Determinado,Contratação,Alta: Alta complexidade 3 a 5 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,Santa Bárbara d`Oeste,,Outra,2000,Não,De: Até:,,Sênior,Ensino Superior Completo,Básico,,,TI - SAP-,Vaga: Consultor SAP S4HANA/ECC - SAP RE SR CGE...,Procuramos um Consultor SAP RE Sr. com sólida ...,Hibrido - pode ser que seja necessário ir até ...,Não,,168.0,Aberto,,NaT,NaT,,,PJ/Autônomo,7952,,(11) 92884-9428,CONSULTOR SAP FI/RE,03-04-2018 17:05:15,pelo próprio candidato,maria_clara_monteiro@gmail.com,,Outros,12-11-2021 13:05:56,7952,Maria Clara Monteiro,Cadastro anterior ao registro de aceite,Maria Clara Monteiro,,Outros: Importação,maria_clara_monteiro@gmail.com,,31-12-1969,(11) 92884-9428,Masculino,,,,,,,CONSULTOR SAP FI/RE,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,\n\n\nresumo das qualificações\n\nconsultor sa...,
44901,14126,Consultor SAP FI,,7,Srta. Isabel Novais,14167,Não Aprovado pelo RH,2025-02-07,2025-02-07,Estava no cliente MSG e não mencionou o client...,Elisa Nunes,14126,2025-02-06,2025-02-10,Consultor SAP FI,Sim,Reed PLC,Lara Albuquerque,Decision São Paulo,Manuella Jesus,Srta. Luara Rocha,PJ/Autônomo,Determinado,Contratação,Alta: Alta complexidade 3 a 5 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,Outra,2000,,De: Até:,,Analista,Ensino Superior Completo,Avançado,,,TI - SAP-,Consultor SAP FI\nCom ênfase em FI-AP e FI-AR\...,Turno / Horário de Trabalho: comercial\n* Níve...,Alocação PJ Profissional informa a taxa Client...,Sim,,168.0,Fechado,,NaT,NaT,,,PJ/Autônomo,14167,,(21) 94542-5629,Consultoria SAP Modulo FI CO,13-02-2019 16:24:20,Dr. Luan Sá,srta._isabel_novais@gmail.com,"Rio de Janeiro, Rio de Janeiro",Outros,14-02-2019 08:42:54,14167,Srta. Isabel Novais,Cadastro anterior ao registro de aceite,Srta. Isabel Novais,,Outros: Anuncio de vagas SAP em grupo whatsapp,srta._isabel_novais@gmail.com,,20-02-1981,(21) 94542-5629,Feminino,União Estável,Não,rio de janeiro,,,,Consultoria SAP Modulo FI CO,TI - SAP,19 anos de experiência sendo 1 ano trabalhado ...,, Academia SAP Financial pela HB Brasil conclu...,0.0,,Ensino Superior Completo,Avançado,Básico,-,,Ciência e Tecnologia,0,,,,,0,,,,,,,,,,consultora funcional sap fi-co sênior\ndados p...,
45022,14179,Analista Golange & Ruby,,11,Bella Aragão,36973,Não Aprovado pelo RH,2025-02-18,2025-02-18,Candidato atualmente na NTTData.,Laura Pacheco,14179,2025-02-17,2025-02-17,Analista Golange & Ruby,Sim,Bishop-Reed,Lívia Vasconcelos,Decision São Paulo,Manuella Jesus,Manuela Ribeiro,"CLT Full, PJ/Autônomo",Indeterminado,Contratação,Alta: Alta complexidade 3 a 5 dias,Nova Posição,Superior Imediato:,,,Brasil,São Paulo,São Paulo,,,2000,Não,De: Até:,,Analista,Ensino Superior Completo,Fluente,,,TI - Projetos-,Analista Golange & Ruby\n1. Tempo de Alocação ...,Go (Golang) e Ruby combina duas tecnologias ba...,,Não,,168.0,Fechado,,NaT,NaT,,,"CLT, PJ/Autônomo",36973,,(11) 99783-5587,programação,17-06-2022 15:19:43,Paulo Peixoto,bella_aragão@gmail.com,São Paulo,,17-06-2022 15:19:43,36973,Bella Aragão,17/06/2022 15:19,Bella Aragão,,:,bella_aragão@gmail.com,,0000-00-00,(11) 99783-5587,,,,são paulo,,,,programação,,,,,0.0,,,,,-,,,,,,,,0,,,,,,,,,,"engenheiro de software - pj, ingresso rápido +...",


In [136]:
features_palavras_chaves = {
                 'key_SAP': r'SAP',
                 'key_SD': r'\bSD\b',
                 'key_MM': r'\bMM\b',
                 'key_ABAP': r'\bABAP\b',
                 'key_AMS': r'AMS',
                 'key_JAVA': r'java',
                 'key_ORACLE': r'oracle',
                 'key_CLOUD': r'cloud|AWS|Azure',
                 'key_EBS': r'\bEBS\b',
                 'key_DBA': r'\bDBA\b',
                 'key_PROXXI': r'\bPROXXI\b',
                 'key_C_HASH': r'C#',
                 'key_OPERATIONS': r'Operations|Operações',
                 'key_PMO': r'\bPMO\b',
                 'key_ADM': r'\b(Adm|Administ|Administrativo|Administrador)\b',
                 'key_MARKETING': r'market',
                 'key_TI': r'\bTI\b',
                 'key_SALESFORCE': r'Salesforce',
                 'key_PROJETOS': r'Projetos',
                 'key_DADOS': r'Dados|Data',
                 'key_SECURITY': r'\b(Segurança|Security|Cyber)\b',
                 'key_WEB': r'\bWeb\b',
                 'key_SCRUM': r'\bScrum\b',
                 'key_SERVICE': r'Service',
                 'key_REACT_NATIVE_ANGULAR': r'\b(react|native|angular)',
                 'key_NET': r'.Net',
                 'key_Analista': r'Analista|Analyst',
                 'key_DEVOPS': r'devops',
                 'key_PYTHON': r'\bpython\b',
                 'key_C_PLUS_PLUS': r'C\+\+',
                 #'key_DEV': r'(Desenvolvedor|Developer|Dev)',
                 'key_COBOL': r'Cobol',
                 'key_ANDROID': r'Android',
                 'key_SQL': r'SQL',
}

In [137]:
# Criação de colunas binárias que informam palavras chave ou não
for coluna, regex_pattern in features_palavras_chaves.items():
    final_df[coluna] = final_df['prospects_titulo'].str.contains(regex_pattern, regex= True, case= False).astype(int)

  final_df[coluna] = final_df['prospects_titulo'].str.contains(regex_pattern, regex= True, case= False).astype(int)
  final_df[coluna] = final_df['prospects_titulo'].str.contains(regex_pattern, regex= True, case= False).astype(int)
  final_df[coluna] = final_df['prospects_titulo'].str.contains(regex_pattern, regex= True, case= False).astype(int)


In [79]:
# Total de prospecções que sobraram após filtro de Matches
final_df.shape

(8173, 114)

In [138]:
# Total de prospecções que não teve nenhum valor "1" nas colunas binárias criadas
final_df[final_df[list(features_palavras_chaves.keys())].eq(0).all(axis=1)].shape

(1879, 148)

In [139]:
# Substitui df por apenas as linhas com "0" em todas as colunas binárias
final_df = final_df[final_df[list(features_palavras_chaves.keys())].eq(0).all(axis=1)]

In [None]:
# SAP tem sub opções de consultor, SD, MM, ABAP, AMS
# Java
# Oracle possui subs de : Cloud, EBS, DBA, SQL
# PROXXI subs: C#
# Operations subs: PMO
# Adm. subs: Administrativo, Administrador
# Marketing
# TI subs: 
# Salesforce
# Projetos
# Dados: subs: Cientista
# Segurança subs: Cyber, Security
# Web
# Scrum
# Service
# React, native, ou angular
# Analista
# DevOps
# Python
# C++
# Desenvolvedor ou Developer ou Dev
# Cobol
# Android
# SQL

In [140]:
# Conta palavras mais repetidas em toda a coluna de título da prospecção
texto = " ".join(final_df['prospects_titulo'].dropna()).split()
Counter(texto)

Counter({'-': 764,
         'de': 250,
         'Consultor': 213,
         'Desenvolvedor': 195,
         'Developer': 97,
         'Senior': 94,
         'Dev': 78,
         'Pleno': 65,
         '/': 63,
         'End': 62,
         'Sênior': 57,
         'Engineer': 55,
         'QA': 54,
         'Suporte': 53,
         'Sr': 53,
         'Tech': 49,
         'Product': 43,
         'Owner': 43,
         'Full': 41,
         'SR': 41,
         'Front': 40,
         'Manager': 40,
         'Técnico': 40,
         'Quality': 38,
         'Arquiteto': 37,
         'Lead': 36,
         'Stack': 36,
         '–': 36,
         'e': 35,
         'Assistente': 35,
         'Gerente': 35,
         'Especialista': 34,
         'Software': 34,
         'Junior': 31,
         'Test': 30,
         'PL': 30,
         'Frontend': 30,
         'Telecom': 30,
         'Automation': 29,
         'Backend': 29,
         'Estoque': 28,
         'Power': 27,
         'Assurance': 26,
         'JDE': 24

In [135]:
# Contagem de palavras que estejam em linhas que possuem a palavra declarada para a função
palavras_associadas(final_df, 'prospects_titulo', 'Data')

([('Data', 95),
  ('-', 63),
  ('Big', 21),
  ('Engineer', 20),
  ('Desenvolvedor', 16),
  ('/', 15),
  ('(I)', 15),
  ('Engineering', 12),
  ('Consultor', 11),
  ('Data&AI', 9),
  ('science', 8),
  ('RPA', 8),
  ('13292255', 8),
  ('11723180', 6),
  ('Scientist', 6),
  ('Datastage', 5),
  ('Business', 5),
  ('Intelligence', 5),
  ('Science', 4),
  ('Practitioner', 4),
  ('Lake', 4),
  ('&', 4),
  ('Network', 4),
  ('Nível', 4),
  ('Pl.', 4),
  ('Sr.Porto', 4),
  ('Seguro', 4),
  ('SR', 4),
  ('RE-232128_1', 4),
  ('DATA', 3),
  ('Platform', 3),
  ('Manipulation', 3),
  ('GCP', 3),
  ('(ID', 3),
  ('25641):', 3),
  ('Pleno', 3),
  ('Senior', 3),
  ('Consultant', 3),
  ('Digital', 3),
  ('11262713', 3),
  ('JR', 3),
  ('BIG', 2),
  ('Support', 2),
  ('Migration', 2),
  ('11969150', 2),
  ('Engineer-Business', 2),
  ('(Z)', 2),
  ('de', 2),
  ('4252913', 2),
  ('Inteligence', 2),
  ('11582865', 2),
  ('Sr', 2),
  ('11691277', 2),
  ('Platforms-AWS', 2),
  ('LATAM', 2),
  ('MASTERDATA', 2