# Skill extraction

In [1]:
import sys
import os
import pandas as pd

# Get the project root directory (e.g., linkedin_jobs_analysis/)
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Add project root to sys.path
if project_root not in sys.path:
    sys.path.append(project_root)

from src.utils.logger import setup_logging
from src.analysis.extracting_skills_list import SkillExtractor
from config.analysis import STANDARD_SKILL_MAP

setup_logging()

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
STANDARD_SKILL_MAP = {
    'Solução de problemas': [
        r'\bsolucao[-\s]*de[-\s]*problemas\b',
        r'\bproblem[-\s]*solving\b'
    ],
    'Pensamento crítico': [
        r'\bcritical[-\s]*thinking\b',
        r'\bpensamento[-\s]*critico\b'
    ],
    'Inteligência Artificial': [
        r'\bia\b',
        r'\binteligencia[-\s]*artificial\b',
        r'\bartificial[-\s]*intelligence\b',
        r'\bai\b'
    ],
    'Machine Learning': [
        r'\bmachine[-\s]*learning\b',
        r'\baprendizado[-\s]*de[-\s]*maquina\b'
    ],
    'Cloud': [
        r'\bcloud\b',
        r'\bnuvem\b',
        r'\bcomputacao[-\s]*em[-\s]*nuvem\b',
        r'\bcloud[-\s]*computing\b',
        r'\bgcp\b',
        r'\bazure\b'
    ],
    'NLP': [
        r'\bnatural[-\s]*language[-\s]*processing\b',
        r'\bprocessamento[-\s]*de[-\s]*linguagem[-\s]*natural\b',
        r'\bpln\b',
        r'\bnlp\b'
    ],
    'Visão computacional': [
        r'\bvisao[-\s]*computacional\b',
        r'\bcomputer[-\s]*vision\b'
    ],
    'Feature engineering': [
        r'\bfeature[-\s]*engineering\b'
    ],
    'Visualização de dados': [
        r'\bdata[-\s]*visualization\b',
        r'\btableau\b',
        r'\bpower[-\s]*bi\b',
        r'\bvisualizacao[-\s]*de[-\s]*dados\b'
    ],
    'Programação': [
        r'\bprogramacao\b'
    ],
    'GCP': [
        r'\bgcp\b'
    ],
    'Excel': [
        r'\bexcel\b'
    ],
    'Tableau': [
        r'\btableau\b'
    ],
    'Adaptabildiade': [
        r'\badaptabilidade\b'
    ],
    'Azure': [
        r'\bazure\b'
    ],
    'Estatística': [
        r'\bestatistica\b',
        r'\bstatistics\b'
    ],
    'R': [
        r'\br\b'
    ],
    'Trabalho em equipe': [
        r'\btrabalho[-\s]*em[-\s]*equipe\b'
    ],
    'Limpeza de dados': [
        r'\blimpeza[-\s]*de[-\s]*dados\b',
        r'\bdata[-\s]*cleaning\b'
    ],
    'Arquitetura de dados': [
        r'\barquitetura[-\s]*de[-\s]*dados\b',
        r'\bdata[-\s]*architecture\b'
    ],
    'Séries temporais': [
        r'\bseries[-\s]*temporais\b',
        r'\btime[-\s]*series\b'
    ],
    'BI': [
        r'\bbusiness[-\s]*intelligence\b',
        r'\binteligencia[-\s]*de[-\s]*negocios\b'
    ],
    'Python': [
        r'\bpython\b'
    ],
    'Teste A/B': [
        r'\ba/b\b'
    ],
    'ETL': [
        r'\betl\b'
    ],
    'Aprendizado por reforço': [
        r'\breinforcement[-\s]*learning\b'
    ],
    'PostgreSQL': [
        r'\bpostgresql\b'
    ],
    'Redes neurais': [
        r'\bredes[-\s]*neurais\b'
    ],
    'NoSQL': [
        r'\bnosql\b'
    ],
    'Airflow': [
        r'\bairflow\b'
    ],
    'Comunicação': [
        r'\bcomunicacao\b'
    ],
    'Tensorflow': [
        r'\btensorflow\b'
    ],
    'Data Warehouse': [
        r'\bdata[-\s]*warehouse\b'
    ],
    'Kubernetes': [
        r'\bkubernetes\b'
    ],
    'Pipeline': [
        r'\bpipeline\b',
        r'\bdata[-\s]*pipeline\b'
    ],
    'Governança de dados': [
        r'\bgovernanca[-\s]*de[-\s]*dados\b',
        r'\bdata[-\s]*governance\b'
    ],
    'Hadoop': [
        r'\bhadoop\b'
    ],
    'Manipulação de dados': [
        r'\bdata[-\s]*wrangling\b',
        r'\bmanipulacao[-\s]*de[-\s]*dados\b'
    ],
    'Qualidade dos dados': [
        r'\bdata[-\s]*quality\b',
        r'\bqualidade[-\s]*dos[-\s]*dados\b'
    ],
    'PyTorch': [
        r'\bpytorch\b'
    ],
    'MySQL': [
        r'\bmysql\b'
    ],
    'Análise de negócios': [
        r'\bbusiness[-\s]*analytics\b',
        r'\banalise[-\s]*de[-\s]*negocios\b'
    ],
    'Deep Learning': [
        r'\bdeep[-\s]*learning\b',
        r'\baprendizado[-\s]*profundo\b'
    ],
    'Big Data': [
        r'\bbig[-\s]*data\b'
    ],
    'Data storytelling': [
        r'\bstorytelling\b'
    ],
    'Mineração de dados': [
        r'\bmineracao[-\s]*de[-\s]*dados\b',
        r'\bdata[-\s]*mining\b'
    ],
    'SQL': [
        r'\bsql\b'
    ],
    'Power BI': [
        r'\bpower[-\s]*bi\b'
    ],
    'Spark': [
        r'\bspark\b',
        r'\bpyspark\b'
    ],
    'API': [
        r'\bapi\b'
    ],
    'Scikit-learn': [
        r'\bscikit[-\s]*learn\b'
    ],
    'Pandas': [
        r'\bpandas\b'
    ],
    'Docker': [
        r'\bdocker\b'
    ],
    'AWS': [
        r'\baws\b'
    ],
    'MATLAB': [
        r'\bmatlab\b'
    ],
    'SQL Server': [
        r'\bsql[-\s]*server\b'
    ],
    'NumPy': [
        r'\bnumpy\b'
    ]
}

In [None]:
STANDARD_SKILL_MAP = {
    'Solução de problemas': [
        r'\bsolu[çc][aã]o\s+de\s+problemas\b',
        r'\bproblem\s+solving\b'
    ],
    'Pensamento crítico': [
        r'\bcritical\s+thinking\b', 
        r'\bpensamento\s+cr[ií]tico\b'
    ],
    'Inteligência Artificial': [
        r'\bia\b', 
        r'\bintelig[êe]ncia\s+artificial\b', 
        r'\bartificial\s+intelligence\b', 
        r'\bai\b'
    ],
    'Machine Learning': [
        r'\bmachine\s+learning\b', 
        r'\baprendizado\s+de\s+m[áa]quina\b',
        r'\bml\b'
    ],
    'Cloud': [
        r'\bcloud\b', 
        r'\bnuvem\b', 
        r'\bcomputa[çc][aã]o\s+em\s+nuvem\b', 
        r'\bcloud\s+computing\b'
    ],
    'NLP': [
        r'\bnatural\s+language\s+processing\b', 
        r'\bprocessamento\s+de\s+linguagem\s+natural\b',
        r'\bpln\b', 
        r'\bnlp\b'
    ],
    'Visão computacional': [
        r'\bvis[ãa]o\s+computacional\b', 
        r'\bcomputer\s+vision\b',
        r'\bcv\b'
    ],
    'Feature engineering': [
        r'\bfeature\s+engineering\b',
        r'\bengenharia\s+de\s+caracter[íi]sticas\b'
    ],
    'Visualização de dados': [
        r'\bdata\s+visualization\b', 
        r'\bvisualiza[çc][ãa]o\s+de\s+dados\b',
        r'\bdata\s+viz\b'
    ],
    'Programação': [
        r'\bprograma[çc][ãa]o\b',
        r'\bprogramming\b',
        r'\bcoding\b'
    ],
    'Excel': [
        r'\bexcel\b',
        r'\bmicrosoft\s+excel\b'
    ],
    'Tableau': [
        r'\btableau\b'
    ],
    'Adaptabilidade': [
        r'\badaptabilidade\b',
        r'\badaptability\b'
    ],
    'Azure': [
        r'\bazure\b',
        r'\bmicrosoft\s+azure\b'
    ],
    'GCP': [
        r'\bgcp\b',
        r'\bgoogle\s+cloud\s+platform\b',
        r'\bgoogle\s+cloud\b'
    ],
    'Estatística': [
        r'\bestat[íi]stica\b', 
        r'\bstatistics\b',
        r'\bstats\b'
    ],
    'R': [
        r'\br\b',
        r'\br\s+language\b',
        r'\br\s+programming\b'
    ],
    'Trabalho em equipe': [
        r'\btrabalho\s+em\s+equipe\b',
        r'\bteamwork\b',
        r'\bteam\s+work\b'
    ],
    'Limpeza de dados': [
        r'\blimpeza\s+de\s+dados\b', 
        r'\bdata\s+cleaning\b'
    ],
    'Arquitetura de dados': [
        r'\barquitetura\s+de\s+dados\b', 
        r'\bdata\s+architecture\b'
    ],
    'Séries temporais': [
        r'\bs[ée]ries\s+temporais\b', 
        r'\btime\s+series\b'
    ],
    'BI': [
        r'\bbusiness\s+intelligence\b', 
        r'\bintelig[êe]ncia\s+de\s+neg[óo]cios\b',
        r'\bbi\b'
    ],
    'Python': [
        r'\bpython\b'
    ],
    'Teste A/B': [
        r'\ba/b\b',
        r'\ba/b\s+testing\b',
        r'\bteste\s+a/b\b'
    ],
    'ETL': [
        r'\betl\b',
        r'\bextract\s+transform\s+load\b'
    ],
    'Aprendizado por reforço': [
        r'\breinforcement\s+learning\b',
        r'\baprendizado\s+por\s+refor[çc]o\b',
        r'\brl\b'
    ],
    'PostgreSQL': [
        r'\bpostgresql\b',
        r'\bpostgres\b'
    ],
    'Redes neurais': [
        r'\bredes\s+neurais\b',
        r'\bneural\s+networks\b',
        r'\bnn\b'
    ],
    'NoSQL': [
        r'\bnosql\b',
        r'\bnon\s+sql\b',
        r'\bn[ãa]o\s+relacional\b'
    ],
    'Airflow': [
        r'\bairflow\b',
        r'\bapache\s+airflow\b'
    ],
    'Comunicação': [
        r'\bcomunica[çc][ãa]o\b',
        r'\bcommunication\b'
    ],
    'Tensorflow': [
        r'\btensorflow\b',
        r'\btf\b'
    ],
    'Data Warehouse': [
        r'\bdata\s+warehouse\b',
        r'\bdw\b'
    ],
    'Kubernetes': [
        r'\bkubernetes\b',
        r'\bk8s\b'
    ],
    'Pipeline': [
        r'\bpipeline\b', 
        r'\bdata\s+pipeline\b'
    ],
    'Governança de dados': [
        r'\bgovernança\s+de\s+dados\b', 
        r'\bdata\s+governance\b'
    ],
    'Hadoop': [
        r'\bhadoop\b',
        r'\bapache\s+hadoop\b'
    ],
    'Manipulação de dados': [
        r'\bdata\s+wrangling\b', 
        r'\bmanipu[çc]a[ãa]o\s+de\s+dados\b'
    ],
    'Qualidade dos dados': [
        r'\bdata\s+quality\b', 
        r'\bqualidade\s+dos\s+dados\b'
    ],
    'PyTorch': [
        r'\bpytorch\b',
        r'\bpy[-\s]?torch\b'
    ],
    'MySQL': [
        r'\bmysql\b'
    ],
    'Análise de negócios': [
        r'\bbusiness\s+analytics\b', 
        r'\ban[áa]lise\s+de\s+neg[óo]cios\b'
    ],
    'Deep Learning': [
        r'\bdeep\s+learning\b', 
        r'\baprendizado\s+profundo\b',
        r'\bdl\b'
    ],
    'Big Data': [
        r'\bbig\s+data\b'
    ],
    'Data storytelling': [
        r'\bstorytelling\b',
        r'\bdata\s+storytelling\b'
    ],
    'Mineração de dados': [
        r'\bmineração\s+de\s+dados\b', 
        r'\bdata\s+mining\b'
    ],
    'SQL': [
        r'\bsql\b',
        r'\bstructured\s+query\s+language\b'
    ],
    'Power BI': [
        r'\bpower\s+bi\b',
        r'\bpowerbi\b'
    ],
    'Spark': [
        r'\bspark\b', 
        r'\bpyspark\b',
        r'\bapache\s+spark\b'
    ],
    'API': [
        r'\bapi\b',
        r'\bapis\b',
        r'\bapplication\s+programming\s+interface\b'
    ],
    'Scikit-learn': [
        r'\bscikit[-\s]?learn\b',
        r'\bsklearn\b'
    ],
    'Pandas': [
        r'\bpandas\b',
        r'\bpd\b'
    ],
    'Docker': [
        r'\bdocker\b'
    ],
    'AWS': [
        r'\baws\b',
        r'\bamazon\s+web\s+services\b'
    ],
    'MATLAB': [
        r'\bmatlab\b'
    ],
    'SQL Server': [
        r'\bsql\s+server\b',
        r'\bmssql\b',
        r'\bmicrosoft\s+sql\s+server\b'
    ],
    'NumPy': [
        r'\bnumpy\b',
        r'\bnp\b'
    ],
    'Git': [
        r'\bgit\b',
        r'\bgithub\b',
        r'\bversion\s+control\b',
        r'\bcontrole\s+de\s+vers[ãa]o\b'
    ],
    'Jupyter': [
        r'\bjupyter\b',
        r'\bjupyter\s+notebook\b'
    ],
    'Linux': [
        r'\blinux\b',
        r'\bunix\b'
    ],
    'Flask': [
        r'\bflask\b'
    ],
    'Django': [
        r'\bdjango\b'
    ],
    'REST': [
        r'\brest\b',
        r'\brestful\b',
        r'\brest\s+api\b'
    ],
    'FastAPI': [
        r'\bfastapi\b',
        r'\bfast\s+api\b'
    ]
}

In [19]:
def test_skill_extractor(test_cases = [
        (
            "Precisamos de um profissional com experiência em Python e SQL.",
            ['Python', 'SQL']
        ),
        (
            "Conhecimento em Machine Learning (ML) e PowerBI é essencial.",
            ['Machine Learning', 'Power BI']
        ),
        (
            "Domínio de AWS, Azure e GCP para cloud computing.",
            ['Cloud', 'AWS', 'Azure', 'GCP']
        ),
        (
            "Experiência com PySpark e Spark para processamento de dados.",
            ['Spark']
        ),
        (
            "Habilidade em Excel avançado e análise de dados.",
            ['Excel']
        ),
        (
            "Conhecimento em Airflow para orquestração de pipelines.",
            ['Airflow']
        ),
        (
            "Não há requisitos técnicos específicos para esta vaga.",
            []
        ),
        (
            "Necessário conhecimento em Python e pandas para análise de dados.",
            ['Python', 'Pandas']
        ),
        (
            "A palavra 'excelente' não deve ser confundida com 3xc3l.",
            []
        ),
        (
            "MLOps e Machine Learning são importantes para a vaga.",
            ['Machine Learning']  # Assuming MLOps isn't in our test skills
        )
    ]):
    """Test function for SkillExtractor with various edge cases"""

    extractor = SkillExtractor(STANDARD_SKILL_MAP)
    
    passed = 0
    failed = 0
    failed_cases = []
    
    for text, expected in test_cases:
        try:
            result = extractor.extract_skills(text)
            result_set = set(result)
            expected_set = set(expected)
            
            # Check for missing skills
            missing = expected_set - result_set
            # Check for extra skills (only fail if we got completely unexpected skills)
            extra = result_set - expected_set
            
            if not missing and not extra:
                passed += 1
                print(f"PASS: '{text}' -> {result}")
            else:
                failed += 1
                failed_cases.append({
                    'text': text,
                    'expected': expected,
                    'got': result,
                    'missing': list(missing),
                    'extra': list(extra)
                })
                print(f"FAIL: '{text}'")
                print(f"  Expected: {expected}")
                print(f"  Got:      {result}")
                if missing:
                    print(f"  Missing:  {list(missing)}")
                if extra:
                    print(f"  Extra:    {list(extra)}")
                    
        except Exception as e:
            failed += 1
            failed_cases.append({
                'text': text,
                'error': str(e)
            })
            print(f"ERROR processing: '{text}' - {str(e)}")
    
    # Print summary
    print(f"\nTest Results: {passed} passed, {failed} failed")
    
    if failed_cases:
        print("\nFailed Cases Summary:")
        for case in failed_cases:
            if 'error' in case:
                print(f"Text: '{case['text']}'")
                print(f"Error: {case['error']}")
            else:
                print(f"Text: '{case['text']}'")
                print(f"Expected: {case['expected']}")
                print(f"Got:      {case['got']}")
                if case['missing']:
                    print(f"Missing:  {case['missing']}")
                if case['extra']:
                    print(f"Extra:    {case['extra']}")
            print("---")
    
    return {
        'passed': passed,
        'failed': failed,
        'failed_cases': failed_cases,
        'success_rate': passed / (passed + failed) if (passed + failed) > 0 else 0
    }

In [28]:
# skills_list = [skill for synonyms in STANDARD_SKILL_MAP.values() for skill in synonyms]
extractor = SkillExtractor(STANDARD_SKILL_MAP)
text = 'MLOps e Machine Learning python SQL são analise analise de dados importantes para a vaga'
extractor.extract_skills(text)

2025-05-18 17:06:51,608 - src.analysis.extracting_skills_list - SUCCESS - Successfully loaded spaCy model: pt_core_news_lg
2025-05-18 17:06:51,609 - src.analysis.extracting_skills_list - INFO - Prepared regex patterns for 67 skills.


['SQL', 'Data Analysis', 'Machine Learning', 'Python']

In [12]:
extractor.regex_patterns

{'Solução de problemas': [re.compile(r'\b(solu[cç][ãa]o de problemas|problem solving)\b',
             re.IGNORECASE|re.UNICODE),
  re.compile(r'\b(resolu[cç][ãa]o|solu[cç][ãa]o)\b.*\b(problema|problem)\b',
             re.IGNORECASE|re.UNICODE)],
 'Pensamento crítico': [re.compile(r'\b(critical thinking|pensamento cr[ií]tico)\b',
             re.IGNORECASE|re.UNICODE)],
 'Inteligência Artificial': [re.compile(r'\b(ia|ai|intelig[êe]ncia artificial|artificial intelligence)\b',
             re.IGNORECASE|re.UNICODE),
  re.compile(r'(?!.*\b(?:air|aide|caixa|main)\b)\b(ia|ai)\b',
             re.IGNORECASE|re.UNICODE),
  re.compile(r'\b(?:chatbot|llm|generative ai)\b', re.IGNORECASE|re.UNICODE)],
 'Machine Learning': [re.compile(r'\b(machine learning|aprendizado de m[aá]quina|ml\b)\b',
             re.IGNORECASE|re.UNICODE),
  re.compile(r'\b(?:modelos?|algoritmos?)\b.*\b(?:aprendizado|machine learning)\b',
             re.IGNORECASE|re.UNICODE)],
 'Cloud': [re.compile(r'\b(cloud|nuvem|com

In [4]:
test_skill_extractor()

2025-05-18 17:00:59,059 - src.analysis.extracting_skills_list - SUCCESS - Successfully loaded spaCy model: pt_core_news_lg
2025-05-18 17:00:59,064 - src.analysis.extracting_skills_list - INFO - Prepared regex patterns for 57 skills.


FAIL: 'Precisamos de um profissional com experiência em Python e SQL.'
  Expected: ['Python', 'SQL']
  Got:      ['SQL']
  Missing:  ['Python']
FAIL: 'Conhecimento em Machine Learning (ML) e PowerBI é essencial.'
  Expected: ['Machine Learning', 'Power BI']
  Got:      ['Visualização de dados', 'Power BI', 'Machine Learning']
  Extra:    ['Visualização de dados']
PASS: 'Domínio de AWS, Azure e GCP para cloud computing.' -> ['Azure', 'AWS', 'GCP', 'Cloud']
PASS: 'Experiência com PySpark e Spark para processamento de dados.' -> ['Spark']
PASS: 'Habilidade em Excel avançado e análise de dados.' -> ['Excel']
PASS: 'Conhecimento em Airflow para orquestração de pipelines.' -> ['Airflow']
PASS: 'Não há requisitos técnicos específicos para esta vaga.' -> []
PASS: 'Necessário conhecimento em Python e pandas para análise de dados.' -> ['Pandas', 'Python']
PASS: 'A palavra 'excelente' não deve ser confundida com 3xc3l.' -> []
PASS: 'MLOps e Machine Learning são importantes para a vaga.' -> ['Mach

{'passed': 8,
 'failed': 2,
 'failed_cases': [{'text': 'Precisamos de um profissional com experiência em Python e SQL.',
   'expected': ['Python', 'SQL'],
   'got': ['SQL'],
   'missing': ['Python'],
   'extra': []},
  {'text': 'Conhecimento em Machine Learning (ML) e PowerBI é essencial.',
   'expected': ['Machine Learning', 'Power BI'],
   'got': ['Visualização de dados', 'Power BI', 'Machine Learning'],
   'missing': [],
   'extra': ['Visualização de dados']}],
 'success_rate': 0.8}

In [15]:
jobs = pd.read_csv('../data/processed/df_jobs_classified.csv')
skills = pd.read_csv('../data/processed/df_skills.csv')

---

In [1]:
import re
from typing import Dict, List
import pandas as pd


In [2]:
import sys
import os

# Get the project root directory (e.g., linkedin_jobs_analysis/)
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Add project root to sys.path
if project_root not in sys.path:
    sys.path.append(project_root)

# Now import from src
from config.analysis import ROLE_PATTERNS, SPECIAL_CASES
from src.analysis.analysis_utils import test_classifier, title_classifier


In [3]:
def title_classifier(title: str) -> str:
    """
    Classifies job titles into standardized categories using pattern matching.
    
    Args:
        title: The raw job title to classify
        
    Returns:
        str: The standardized job category or 'Outros' if no match found
    """
    if not isinstance(title, str) or len(title.strip()) == 0:
        return 'Outros'
    
    title_lower = title.lower().strip()
    matches = []

    for role, patterns in ROLE_PATTERNS.items():
        for pattern in patterns:
            if re.search(pattern, title_lower):
                matches.append(role)
                break

    if matches:
        for candidate_role in matches:
            special_rules = SPECIAL_CASES.get(candidate_role, [])
            for exclude_pattern, new_role in special_rules:
                if re.search(exclude_pattern, title_lower):
                    if new_role:
                        return new_role
                    matches.remove(candidate_role)

        for role in ROLE_PATTERNS.keys():
            if role in matches:
                return role

    if any(word in title_lower for word in ['dados', 'data']):
        return 'Outros Dados'

    return 'Outros'

In [4]:
title_classifier('Analista de dados e automação com IA - Pleno	')

'Analista de Dados'

In [5]:
jobs_classified = pd.read_csv('jobs_classified.csv')
jobs_classified_tuple = list(zip(jobs_classified['job_title'], jobs_classified['classified_job_title']))

test_classifier(jobs_classified_tuple)

FAIL: 'Analista de dados e automação com IA - Pleno'
  Expected: Engenheiro de IA
  Got:      Analista de Dados
FAIL: 'Engenheiro (a) de IA'
  Expected: Outros
  Got:      Engenheiro de IA
FAIL: 'Engenheiro (a) de Automação Sr / CS / Uberlândia - MG'
  Expected: Engenheiro de IA
  Got:      Outros
FAIL: 'Engenheiro (a) de IA'
  Expected: Outros
  Got:      Engenheiro de IA
FAIL: 'Engenheiro (a) de IA'
  Expected: Outros
  Got:      Engenheiro de IA
FAIL: 'Engenheiro (a) de IA'
  Expected: Outros
  Got:      Engenheiro de IA
FAIL: 'Engenheiro(a) de Software (Fullstack) | IT Energy'
  Expected: Outros
  Got:      Engenheiro de Software
FAIL: 'Engenheiro(a) de Software Pleno – Plataforma de IA'
  Expected: Outros
  Got:      Engenheiro de Software
FAIL: 'Engenheiro de Automação Industrial'
  Expected: Engenheiro de IA
  Got:      Outros
FAIL: 'Engenheiro(a) de Software Frontend'
  Expected: Outros
  Got:      Engenheiro de Software
FAIL: 'Engenheiro(a) de Software (.NET) Jr/Pleno | Electr

In [27]:
ROLE_PATTERNS['Cientista de Dados']

['\\b(data scientist|cientista de dados)\\b',
 '\\b(ml|machine learning|deep learning|llm|nlp)\\b',
 '(pesquisador|research).*(dados|data)',
 'ci[êe]ncia de dados',
 '\\bgenai\\b',
 '(computer vision|visão computacional)']

In [7]:
jobs_classified[jobs_classified['classified_job_title']=='Engenheiro de Dados'].sample(20)

Unnamed: 0.1,Unnamed: 0,job_title,classified_job_title
2752,2752,Azure Data Engineer,Engenheiro de Dados
3059,3059,Blockchain Data Engineer (Senior/Lead) ID34521,Engenheiro de Dados
3035,3035,Data Engineer with PowerCenter Experience - Re...,Engenheiro de Dados
1076,1076,Engenheiro(a) de Dados (DevOps/DataOps),Engenheiro de Dados
737,737,Engenheiro de Dados - Trabalho Remoto | REF#25...,Engenheiro de Dados
1886,1886,Engenheiro/ Engenheira de Dados Pyspark,Engenheiro de Dados
833,833,Engenheiro(a) de Dados,Engenheiro de Dados
1911,1911,Engenheiro de dados,Engenheiro de Dados
2398,2398,Data Engineer,Engenheiro de Dados
2893,2893,Banco de Talentos Data Engineer,Engenheiro de Dados


---

# Location

In [8]:
import pandas as pd
import re


In [None]:
def standardize_locations(df: pd.DataFrame, location_col: str = 'location') -> pd.DataFrame:
    """
    Standardizes location data into separate city, state, and country columns.
    Handles cases like "São Paulo, Brasil" correctly.
    """
    
    df['city'] = None
    df['state'] = None
    df['country'] = 'Brasil'
    
    state_mapping = {
        'AC': 'Acre', 'AL': 'Alagoas', 'AP': 'Amapá', 'AM': 'Amazonas',
        'BA': 'Bahia', 'CE': 'Ceará', 'DF': 'Distrito Federal',
        'ES': 'Espírito Santo', 'GO': 'Goiás', 'MA': 'Maranhão',
        'MT': 'Mato Grosso', 'MS': 'Mato Grosso do Sul',
        'MG': 'Minas Gerais', 'PA': 'Pará', 'PB': 'Paraíba',
        'PR': 'Paraná', 'PE': 'Pernambuco', 'PI': 'Piauí',
        'RJ': 'Rio de Janeiro', 'RN': 'Rio Grande do Norte',
        'RS': 'Rio Grande do Sul', 'RO': 'Rondônia',
        'RR': 'Roraima', 'SC': 'Santa Catarina',
        'SP': 'São Paulo', 'SE': 'Sergipe', 'TO': 'Tocantins'
    }
    
    state_mapping = {**{v: k for k, v in state_mapping.items()}, **state_mapping}
    
    def extract_location(location):
        if pd.isna(location):
            return (None, None, None)
            
        location = str(location).strip()
        
        if re.search(r',\s*Brasil$', location, flags=re.IGNORECASE):
            city = re.sub(r',\s*Brasil$', '', location, flags=re.IGNORECASE).strip()
            state = None
            for state_abbr, state_name in state_mapping.items():
                if city.lower() == state_name.lower():
                    state = state_abbr
                    break
            return (city.title(), state, 'Brasil')
        
        match = re.match(r'^(?P<city>[^,]+),\s*(?P<state>[A-Z]{2})$', location)
        if match:
            return (match.group('city').title(), match.group('state').upper(), 'Brasil')
        
        match = re.match(r'^(?P<city>[^,]+),\s*(?P<state>.+)$', location)
        if match:
            state = match.group('state')
            if state.lower() in ['brasil', 'brazil']:
                return (match.group('city').title(), None, 'Brasil')
            state_abbr = state_mapping.get(state.title(), state)
            return (match.group('city').title(), state_abbr, 'Brasil')
        
        match = re.match(r'^(?P<city>.+)\s+e\s+Região$', location)
        if match:
            city = match.group('city')
            state = state_mapping.get(city.title(), None)
            return (city.title(), state, 'Brasil')
        
        return (location.title(), state_mapping.get(location.title(), None), 'Brasil')
    
    df[['city', 'state', 'country']] = df[location_col].apply(
        lambda x: pd.Series(extract_location(x))
    )
    
    return df

In [46]:
job_copy

Unnamed: 0,job_id,work_model,keyword,scrape_date,job_title,company_name,location,num_applicants,xp_level,job_type,job_sectors,job_description,classified_job_title,post_date,city,state,country
0,4219203458,Presencial,Analista de Dados,2025-05-17,Analista de Dados e Serviço ao Cliente Junior,Cielo,"Barueri, SP",177.0,Assistente,Tempo integral,Atividades de serviços financeiros,"Job Description\nSomos mais que uma máquina, s...",Analista de Dados,03-05-2025,Barueri,SP,Brasil
1,4229491792,Presencial,Analista de Dados,2025-05-17,Analista de dados de negócios,SulAmérica,"São Paulo, SP",117.0,Pleno-sênior,Tempo integral,Seguros e previdência complementar e Serviços ...,A SulAmérica há mais de 125 anos se dedica a e...,Analista de Dados,16-05-2025,São Paulo,SP,Brasil
2,4209520797,Presencial,Analista de Dados,2025-05-17,Analista de Dados Júnior,Banco Fibra,"São Paulo, SP",163.0,Não aplicável,Tempo integral,Bancos,Somos um Banco que trabalha na busca do melhor...,Analista de Dados,19-04-2025,São Paulo,SP,Brasil
3,4201072662,Presencial,Analista de Dados,2025-05-17,"Analista de Dados - Júnior, Pleno e Sênior | R...",Capco,"São Paulo, SP",112.0,Pleno-sênior,Tempo integral,Atividades de serviços financeiros,SOBRE A CAPCO\nA Capco é uma consultoria globa...,Analista de Dados,26-04-2025,São Paulo,SP,Brasil
4,4223039814,Presencial,Analista de Dados,2025-05-17,Analista de Dados & Analytics Pleno | Riscos e...,C6 Bank,"São Paulo, SP",89.0,Assistente,Tempo integral,Bancos,Nossa área de Processos & Controles\nA área de...,Analista de Dados,10-05-2025,São Paulo,SP,Brasil
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3500,4231053333,Presencial,Analista de BI,2025-05-18,Programador de Sistemas de Informação,Sebratel,"Porto Alegre, RS",,Assistente,Tempo integral,Telecomunicações,"DESCRIÇÃO\nA SEBRATEL, empresa referência no s...",Outros,16-05-2025,Porto Alegre,RS,Brasil
3501,4232436842,Híbrido,Analista de BI,2025-05-18,Analista de BI (Inteligência de Mercado) - MG,Drogaria Araujo S/A,"Belo Horizonte, MG",,Pleno-sênior,Tempo integral,Comércio varejista,"A Drogaria Araujo, a maior Rede de Varejo Farm...",Analista de BI,,Belo Horizonte,MG,Brasil
3502,4232150473,Híbrido,Analista de BI,2025-05-18,Analista de bi business intelligence,Netvagas,"São Paulo, SP",,Pleno-sênior,Tempo integral,Fornecimento e gestão de recursos humanos,"Na Connect For People, acreditamos em conectar...",Analista de BI,17-05-2025,São Paulo,SP,Brasil
3503,4232380566,Remoto,Analista de BI,2025-05-18,Analista de bi pleno,Netvagas,Brasil,,Assistente,Tempo integral,Fornecimento e gestão de recursos humanos,"A FIAP é uma faculdade de tecnologia, inovação...",Analista de BI,17-05-2025,,,Brasil


In [43]:
jobs = pd.read_csv('../data/processed/df_jobs_classified.csv')
job_copy = jobs.copy()
df = standardize_locations(jobs, location_col='location')

In [40]:
df[df['location'].str.contains('remoto')]

Unnamed: 0,job_id,work_model,keyword,scrape_date,job_title,company_name,location,num_applicants,xp_level,job_type,job_sectors,job_description,classified_job_title,post_date,city,state,country


In [50]:
job_copy['city'].unique()

array(['Barueri', 'São Paulo', 'Maracanaú', 'Brasília', 'Curitiba',
       'Guará', 'Blumenau', 'Campinas', 'Fortaleza', 'Indaial',
       'Rio de Janeiro', 'Contagem', 'Caxias do Sul', 'Mogi das Cruzes',
       'Uberlândia', 'Porto Alegre', 'Cravinhos', 'Pereiro', 'Itajaí',
       'Betim', 'Macaé', 'Goiânia', 'Palotina', 'Campo Grande', 'Serra',
       'Tijucas', 'Novo Hamburgo', 'Osasco', 'Maringá', 'Cachoeirinha',
       'Vitória', 'Mossoró', 'Sorocaba', 'Dois Irmãos', 'Arcos',
       'Jaraguá do Sul', 'Joinville', 'Capivari', 'Várzea Grande', None,
       'Marília', 'Aracaju', 'Pato Branco', 'Franca', 'Rio do Sul',
       'Sumaré', 'Ibirama', 'Belo Horizonte', 'Recife', 'Manaus',
       'Embu das Artes', 'Eldorado do Sul', 'Viçosa',
       'São José do Rio Preto', 'Leopoldina', 'Monte Belo', 'Londrina',
       'Salvador', 'Morrinhos', 'Vila Velha', 'Ribeirão Preto', 'Cuiabá',
       'Florianópolis', 'Belém', 'Jundiaí', 'Santo André', 'Santa Rosa',
       'Guarulhos', 'Matão', 'Luca

In [53]:
df['city'].unique().sort()
df['city'].unique()

array(['Barueri', 'São Paulo', 'Maracanaú', 'Brasília', 'Curitiba',
       'Guará', 'Blumenau', 'Campinas', 'Fortaleza', 'Indaial',
       'Rio De Janeiro', 'Contagem', 'Caxias Do Sul', 'Mogi Das Cruzes',
       'Uberlândia', 'Porto Alegre', 'Cravinhos', 'Pereiro', 'Itajaí',
       'Betim', 'Macaé', 'Goiânia', 'Palotina', 'Campo Grande', 'Serra',
       'Tijucas', 'Novo Hamburgo', 'Osasco', 'Maringá', 'Cachoeirinha',
       'Vitória', 'Mossoró', 'Sorocaba', 'Dois Irmãos', 'Arcos',
       'Jaraguá Do Sul', 'Joinville', 'Capivari', 'Várzea Grande',
       'Brasil', 'Marília', 'Aracaju', 'Pato Branco', 'Franca',
       'Rio Do Sul', 'Sumaré', 'Ibirama', 'Belo Horizonte', 'Recife',
       'Manaus', 'Embu Das Artes', 'Eldorado Do Sul', 'Viçosa',
       'São José Do Rio Preto', 'Leopoldina', 'Monte Belo', 'Londrina',
       'Salvador', 'Morrinhos', 'Vila Velha', 'Ribeirão Preto', 'Cuiabá',
       'Florianópolis', 'Belém', 'Jundiaí', 'Santo André', 'Santa Rosa',
       'Guarulhos', 'Matão', '

In [72]:
job_copy[(job_copy[['city', 'state', 'country']] != df[['city', 'state', 'country']]).any(axis=1)][['city', 'state', 'country']]

Unnamed: 0,city,state,country
23,São Paulo,,Brasil
25,São Paulo,,Brasil
26,São Paulo,,Brasil
30,Rio de Janeiro,RJ,Brasil
31,São Paulo,,Brasil
...,...,...,...
3485,,,Brasil
3486,,,Brasil
3490,Rio de Janeiro,,Brasil
3503,,,Brasil


In [89]:
mask = (job_copy[['city', 'state', 'country']] != df[['city', 'state', 'country']])
# Show both DataFrames side by side where they differ
differences = pd.concat([job_copy[mask.any(axis=1)], df[mask.any(axis=1)]], axis=1, keys=['job_copy', 'df'])
differences[[('job_copy', 'city'), ('job_copy', 'state'), ('job_copy', 'country'), ('df', 'city'), ('df', 'state'), ('df', 'country')]].sample(10)

Unnamed: 0_level_0,job_copy,job_copy,job_copy,df,df,df
Unnamed: 0_level_1,city,state,country,city,state,country
830,São Paulo,,Brasil,São Paulo,SP,Brasil
724,,,Brasil,Brasil,,Brasil
3351,Rio de Janeiro,,Brasil,Rio De Janeiro,,Brasil
2419,São José dos Pinhais,PR,Brasil,São José Dos Pinhais,PR,Brasil
3399,Rio de Janeiro,,Brasil,Rio De Janeiro,,Brasil
2345,São Paulo,,Brasil,São Paulo,SP,Brasil
2027,Rio de Janeiro,RJ,Brasil,Rio De Janeiro,RJ,Brasil
1573,,,Brasil,Brasil,,Brasil
1997,Caxias do Sul,RS,Brasil,Caxias Do Sul,RS,Brasil
496,,,Brasil,Brasil,,Brasil


In [56]:
df

Unnamed: 0,job_id,work_model,keyword,scrape_date,job_title,company_name,location,num_applicants,xp_level,job_type,job_sectors,job_description,classified_job_title,post_date,city,state,country
0,4219203458,Presencial,Analista de Dados,2025-05-17,Analista de Dados e Serviço ao Cliente Junior,Cielo,"Barueri, SP",177.0,Assistente,Tempo integral,Atividades de serviços financeiros,"Job Description\nSomos mais que uma máquina, s...",Analista de Dados,03-05-2025,Barueri,SP,Brasil
1,4229491792,Presencial,Analista de Dados,2025-05-17,Analista de dados de negócios,SulAmérica,"São Paulo, SP",117.0,Pleno-sênior,Tempo integral,Seguros e previdência complementar e Serviços ...,A SulAmérica há mais de 125 anos se dedica a e...,Analista de Dados,16-05-2025,São Paulo,SP,Brasil
2,4209520797,Presencial,Analista de Dados,2025-05-17,Analista de Dados Júnior,Banco Fibra,"São Paulo, SP",163.0,Não aplicável,Tempo integral,Bancos,Somos um Banco que trabalha na busca do melhor...,Analista de Dados,19-04-2025,São Paulo,SP,Brasil
3,4201072662,Presencial,Analista de Dados,2025-05-17,"Analista de Dados - Júnior, Pleno e Sênior | R...",Capco,"São Paulo, SP",112.0,Pleno-sênior,Tempo integral,Atividades de serviços financeiros,SOBRE A CAPCO\nA Capco é uma consultoria globa...,Analista de Dados,26-04-2025,São Paulo,SP,Brasil
4,4223039814,Presencial,Analista de Dados,2025-05-17,Analista de Dados & Analytics Pleno | Riscos e...,C6 Bank,"São Paulo, SP",89.0,Assistente,Tempo integral,Bancos,Nossa área de Processos & Controles\nA área de...,Analista de Dados,10-05-2025,São Paulo,SP,Brasil
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3500,4231053333,Presencial,Analista de BI,2025-05-18,Programador de Sistemas de Informação,Sebratel,"Porto Alegre, RS",,Assistente,Tempo integral,Telecomunicações,"DESCRIÇÃO\nA SEBRATEL, empresa referência no s...",Outros,16-05-2025,Porto Alegre,RS,Brasil
3501,4232436842,Híbrido,Analista de BI,2025-05-18,Analista de BI (Inteligência de Mercado) - MG,Drogaria Araujo S/A,"Belo Horizonte, MG",,Pleno-sênior,Tempo integral,Comércio varejista,"A Drogaria Araujo, a maior Rede de Varejo Farm...",Analista de BI,,Belo Horizonte,MG,Brasil
3502,4232150473,Híbrido,Analista de BI,2025-05-18,Analista de bi business intelligence,Netvagas,"São Paulo, SP",,Pleno-sênior,Tempo integral,Fornecimento e gestão de recursos humanos,"Na Connect For People, acreditamos em conectar...",Analista de BI,17-05-2025,São Paulo,SP,Brasil
3503,4232380566,Remoto,Analista de BI,2025-05-18,Analista de bi pleno,Netvagas,Brasil,,Assistente,Tempo integral,Fornecimento e gestão de recursos humanos,"A FIAP é uma faculdade de tecnologia, inovação...",Analista de BI,17-05-2025,Brasil,,Brasil
