In [2]:
import spacy
from spacy.matcher import PhraseMatcher
import pandas as pd

In [5]:
# Load a spaCy language model (Portuguese in this case)
# python -m spacy download pt_core_news_lg
try:
    nlp = spacy.load("pt_core_news_lg")
    print("Loaded pt_core_news_lg model.")
except OSError:
    print("Model 'pt_core_news_lg' not found. Trying 'pt_core_news_sm'.")
    print("Install larger model with: python -m spacy download pt_core_news_lg")

Loaded pt_core_news_lg model.


In [4]:
# 1. Define skills list
skill_list = ['a/b testing', 'adaptabilidade', 'ai', 'airflow', 'análise de dados', 'análise de negócios', 'api', 'aprendizado de máquina', 
              'aprendizado por reforço', 'arquitetura de dados', 'artificial intelligence', 'aws', 'azure', 'bi', 'big data', 
              'business analytics', 'business intelligence', 'ciência de dados', 'cloud', 'cloud computing', 'colaboração', 
              'computação em nuvem', 'computer vision', 'comunicação eficaz', 'critical thinking', 'data analysis', 'data architecture', 
              'data cleaning', 'data engineering', 'data governance', 'data mining', 'data pipeline', 'data quality', 'data science', 
              'data storytelling', 'data visualization', 'data warehouse', 'data wrangling', 'deep learning', 'docker', 
              'engenharia de dados', 'estatística', 'etl', 'excel', 'feature engineering', 'gcp', 'governança de dados', 'hadoop', 'ia', 
              'inteligência artificial', 'inteligência de negócios', 'kubernetes', 'limpeza de dados', 'machine learning', 'matlab', 
              'mineração de dados', 'mysql', 'natural language processing', 'nlp', 'nosql', 'numpy', 'nuvem', 'pandas', 
              'pensamento crítico', 'pipelines', 'pln', 'postgresql', 'power bi', 'predictive', 'preditiva', 'problem solving', 
              'processamento de linguagem natural', 'python', 'pytorch', 'qualidade dos dados', 'r', 'redes neurais', 
              'reinforcement learning', 'scikit-learn', 'solução de problemas', 'spark', 'sql', 'sql server', 'stata', 'statistics', 
              'séries temporais', 'tableau', 'tensorflow', 'testes a/b', 'time series', 'trabalho em equipe', 'visualização de dados', 
              'visão computacional', 'programação']

# skill_list = [x.lower() for x in skill_list]
skill_list = list(set(skill_list))

In [None]:
skill_list

['machine learning',
 'cloud computing',
 'artificial intelligence',
 'cloud',
 'visão computacional',
 'data warehouse',
 'tensorflow',
 'feature engineering',
 'programação',
 'kubernetes',
 'data visualization',
 'pln',
 'pipelines',
 'governança de dados',
 'gcp',
 'excel',
 'tableau',
 'adaptabilidade',
 'computer vision',
 'pensamento crítico',
 'azure',
 'computação em nuvem',
 'estatística',
 'ai',
 'r',
 'trabalho em equipe',
 'hadoop',
 'limpeza de dados',
 'arquitetura de dados',
 'data cleaning',
 'séries temporais',
 'postgresql',
 'business intelligence',
 'time series',
 'python',
 'data architecture',
 'a/b testing',
 'etl',
 'inteligência de negócios',
 'ciência de dados',
 'reinforcement learning',
 'natural language processing',
 'problem solving',
 'inteligência artificial',
 'colaboração',
 'aprendizado por reforço',
 'data wrangling',
 'engenharia de dados',
 'redes neurais',
 'airflow',
 'nosql',
 'data analysis',
 'data quality',
 'comunicação eficaz',
 'aprendi

In [6]:
# 2. Prepare the Matcher
matcher = PhraseMatcher(nlp.vocab, attr="LOWER") # Match case-insensitively

# Convert skill strings to spaCy Doc objects for PhraseMatcher
skill_patterns = [nlp.make_doc(text) for text in skill_list]
matcher.add("SKILL", skill_patterns) # Add the patterns to the matcher

In [None]:
# 3. Your Sample Job Description
job_descriptions = pd.read_csv('../data/raw/jobs_data.csv')['job_description']

job_descriptions.head()


0    Dandy is transforming the massive ($200B) but ...
1    Onebridge is a Consulting firm with an HQ in I...
2    HCLTech is a global technology company, spread...
3    About CloudWalk:\nWe are not just another fint...
4    We’re growing! Don't miss the opportunity to b...
Name: job_description, dtype: object

In [9]:
# 4. Process the Text and Find Matches
for job_description_text in job_descriptions[:20]:
    doc = nlp(job_description_text)
    matches = matcher(doc)

    # Extract the matched skill texts, ensuring uniqueness
    found_skills = set()
    for match_id, start, end in matches:
        span = doc[start:end]  # The matched span
        found_skills.add(span.text.strip()) # Use text and add to set to avoid duplicates

    if found_skills:
        for skill in sorted(list(found_skills)): # Sort for consistent output
            print(skill)
    else:
        print("No skills from the list were found.")


BI
Python
SQL
critical thinking
data analysis
predictive
problem solving
statistics
SQL
Tableau
data analysis
AI
Big Data
Business Intelligence
Cloud
ETL
NoSQL
cloud
spark
AI
SQL
problem solving
BI
SQL
SQL Server
Tableau
business intelligence
data analysis
pipelines
AI
AWS
Azure
Cloud
Data Architecture
Python
R
SQL
Tableau
cloud
AI
BI
Business Intelligence
Power BI
SQL
Tableau
data visualization
BI
IA
Inteligência Artificial
Power BI
SQL
colaboração
qualidade dos dados
BI
Ciência de Dados
Data Science
Power BI
Python
SQL
Spark
análise de dados
visualização de dados
AWS
Airflow
Análise de dados
Azure
BI
GCP
Power BI
Programação
Python
SQL
adaptabilidade
análise de dados
colaboração
computação em nuvem
limpeza de dados
nuvem
visualização de dados
Big Data
ETL
IA
Python
SQL
análise de dados
pipelines
BI
Excel
SQL
data analysis
data visualization
BI
Cloud
Data Storytelling
NumPy
Pandas
Python
SQL
Tableau
análise de dados
ciência de dados
data warehouse
estatística
machine learning
programa

In [76]:
print(job_description_text)


Job Description
A Pagaleve é uma empresa do setor de
“Buy Now Pay Later”
, uma
startup fintech
inovadora e uma das primeiras empresas a oferecer pagamento parcelado no PIX, sem juros, e sem a necessidade de usar cartão de crédito. Temos como objetivo oferecer a lojistas um novo método de pagamento, para aumentar suas vendas de um jeito simples, descomplicado e ágil, mas também temos como objetivo oferecer às pessoas a oportunidade de comprar aquilo que desejam, sem se comprometerem com os altos juros do cartão de crédito.
Venha fazer parte do time de Risco da Pagaleve!
Responsibilities and assignments
Apoio em manipulação de dados e realização de estudos analíticos para aprimorar as estratégias de crédito/fraude para pessoas físicas e jurídicas
Monitorar indicadores de performance de crédito e fraude como taxa de aprovação, inadimplência e etc
Colaborar com time de Data Science para monitorar e melhorar a performance dos modelos
Apoiar o time nas demandas do dia a dia
Requirements And 

In [68]:
job_descriptions.sample(10)

Unnamed: 0,job_id,work_model,job_title,company_name,location,time_posted,num_applicants,xp_level,job_type,job_sectors,job_description
478,4179161403,Híbrido,Pessoa Coordenadora de Observabilidade,Alelo Brasil,"Barueri, SP",Há 3 dias,110 candidaturas,Pleno-sênior,Tempo integral,Atividades dos serviços de tecnologia da infor...,Estamos entre as 150 melhores empresas para se...
877,4194374154,Híbrido,Analista de BI - SP,Tecnocomp Tecnologia e Serviços,"São Paulo, SP",Há 1 dia,73 candidaturas,Pleno-sênior,Tempo integral,Segurança de redes e computadores,Desenvolvimento e implementação de soluções de...
468,4192173148,Presencial,ANALISTA DE OPERAÇÕES JR,Michelin,"Curitiba, PR",Há 2 dias,136 candidaturas,Não aplicável,Tempo integral,"Fabricação de veículos automotores, reboques e...",- - - - - - - - - - - -\nImportante Vaga Para ...
73,4183109869,Híbrido,Pessoa Assistente Sucesso do Cliente,Neoway,"São Paulo, SP",Há 2 semanas,,Assistente,Tempo integral,Serviços de dados de tecnologia da informação,#Nosso jeito de fazer história:\nEntre para a ...
307,4184710716,Remoto,Analista de FP&A Junior | Globoplay - Vaga exc...,Globo,Rio de Janeiro e Região,Há 1 semana,152 candidaturas,Pleno-sênior,Tempo integral,"Tecnologia, Informação e Mídia",Job Description\nA Globo é feita de gente que ...
37,4166586517,Híbrido,Analista de Negócios Pleno,iFood,"Osasco, SP",Há 1 semana,,Pleno-sênior,Tempo integral,Desenvolvimento de software,"Nosso modo de fazer no time\nNa nossa equipe, ..."
266,4188379800,Presencial,ASSISTENTE ADMINISTRATIVO,Universidade Cruzeiro do Sul,"São Paulo, SP",Há 1 semana,28 candidaturas,Não aplicável,Tempo integral,Atividades de apoio à educação,"Olá, somos a Cruzeiro do Sul Educacional!\n⭐\n..."
772,4193631480,Híbrido,Data Scientist III,Bradesco,"Osasco, SP",Há 5 dias,,Assistente,Tempo integral,Bancos,Sobre o Bradesco\nO Bradesco é um dos maiores ...
1112,4187504154,Presencial,Assistente de Melhoria de Processos,Komgroup Industrial Ltda,"Palhoça, SC",Há 1 semana,,Não aplicável,Tempo integral,"Fabricação de máquinas, aparelhos e materiais ...",A Komeco é uma marca brasileira 100% capital n...
370,4184907103,Remoto,Scrum Master\nTrabalho Remoto\nEfetivo,Gauge,Brasil,Há 1 semana,180 candidaturas,Pleno-sênior,Tempo integral,Marketing,Descrição da vaga\nSomos uma empresa do Grupo ...


In [56]:

# --- Example of processing multiple job posts (assuming they are in a DataFrame) ---
job_description_text = job_descriptions[0:10]

results = {}
for index, row in job_description_text.iterrows():
    job_id = row['job_id']
    text = row['job_description']
    doc = nlp(text)
    matches = matcher(doc)
    skills = set()
    for match_id, start, end in matches:
        skills.add(doc[start:end].text.strip())
    results[job_id] = sorted(list(skills))

print("\n--- Results for multiple jobs ---")
print(results)


--- Results for multiple jobs ---
{4187060561: ['API', 'SQL'], 4142781980: [], 4189553004: [], 4193195407: ['Estatística', 'Excel', 'SQL', 'estatística', 'python', 'trabalho em equipe'], 4175781800: ['Excel', 'Power BI', 'Tableau', 'análise de dados'], 4193413664: ['Power BI'], 4179429367: ['API'], 4184262596: [], 4191196959: ['Aprendizado de Máquina', 'Estatística', 'Python', 'SQL', 'análise de dados', 'cloud computing', 'estatística', 'numpy', 'pandas', 'visualização de dados'], 4188230342: ['Excel', 'MySQL', 'Power BI', 'análise de dados', 'colaboração', 'comunicação eficaz', 'visualização de dados']}


In [62]:
print(job_descriptions[0:10]['job_description'][2])

Job Description
A Globo é feita de gente que quer fazer diferente, fazer junto, fazer o futuro.
Gente espalhada por todo o país (e mundo!) trabalhando com conteúdo, notícias, negócios, tecnologia e brasilidade de sobra. Canais na TV aberta e por assinatura, produtos digitais como globoplay, Cartola, g1, ge, gshow e outros serviços estão reunidos no mesmo lugar, na mesma Globo.
Novos modelos de negócios digitais estão sendo pensados e desenvolvidos, buscando nos aproximar cada vez mais do usuário e dos seus desejos. As oportunidades de novos negócios também trazem a chance e o desafio de construirmos novos times
data-driven
e que coloquem o consumidor no centro das nossas decisões.
Criamos ambientes onde todas as pessoas são incluídas, acolhidas e valorizadas. Nos empenhamos em ser uma Globo cada vez mais diversa, em representatividade e pensamento, aprendendo uns com os outros e estimulando a criatividade e inovação.
Posição focada na atenção aos clientes internacionais em complemento 