In [2]:
import fitz
import os
import re
import pandas as pd
from urllib.request import urlretrieve
from pathlib import Path


## Baixando Editais

In [3]:
pasta_dos_editais = Path() / "editais"
os.makedirs(pasta_dos_editais, exist_ok=True)

link_editais = {
    "bloco-1": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-1-10jan2024.pdf",
    "bloco-2": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-2-10jan2024.pdf",
    "bloco-3": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-3-10jan2024.pdf",
    "bloco-4": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-4-10jan2024.pdf",
    "bloco-5": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-5-10jan2024.pdf",
    "bloco-6": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-6-10jan2024.pdf",
    "bloco-7": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-7-10jan2024.pdf",
    "bloco-8": "https://www.gov.br/gestao/pt-br/concursonacional/editais/edital-cpnu-bloco-8-10jan2024.pdf",
}

pdf_editais = {}

for bloco, link_edital in link_editais.items():
    local_pdf = pasta_dos_editais / link_edital.split("/")[-1]
    if not local_pdf.exists():
        print(f"Baixando edital do {bloco} com o link {link_edital}...")
        path, headers  = urlretrieve(link_edital, local_pdf)
    else:
        print(f"Edital do {bloco} já existe.")

    pdf_editais[bloco] = local_pdf

Edital do bloco-1 já existe.
Edital do bloco-2 já existe.
Edital do bloco-3 já existe.
Edital do bloco-4 já existe.
Edital do bloco-5 já existe.
Edital do bloco-6 já existe.
Edital do bloco-7 já existe.
Edital do bloco-8 já existe.


In [4]:
conteudo_editais = {}

for bloco, pdf_edital in pdf_editais.items():
    documento = fitz.open(pdf_edital)
    conteudo = ""
    for pagina in documento:
        conteudo += pagina.get_text()
    conteudo_editais[bloco] = conteudo

In [None]:
conteudo_editais

## Extraindo os cargos

In [5]:
EXPRESSAO_REGULAR_NUMERO_PAGINA = re.compile(r"\s*(\n|\s*\n){2,}\s*\d+\s*\n\s*")

conteudo_editais_sem_numero_pagina = {}

for bloco, conteudo_edital in conteudo_editais.items():
    conteudo_editais_sem_numero_pagina[bloco] = EXPRESSAO_REGULAR_NUMERO_PAGINA.sub("", conteudo_edital)


In [6]:
# exemplos de cargos no texto extraído
"""
(B1-04-H) Cargo: Tecnologista em Informações Geográficas e Estatísticas
Descrição do Cargo: exercício de atividades especializadas de produção, análise e disseminação de dados e informações de
natureza estatística, geográfica, cartográfica, geodésica e ambiental.
Especialidade: Geoprocessamento
 Formação exigida: Certificado de conclusão ou diploma, devidamente registrado em Engenharia cartográfica ou engenharia
de agrimensura ou engenharia ambiental ou geografia ou engenharia florestal ou engenharia agrônoma ou engenharia de
recursos hídricos ou ciência ambiental ou arquitetura e urbanismo
Atividades previstas para a especialidade: Executar atividades relacionadas às ciências da geoinformação,  sensoriamento
remoto, processamento e representação de dados geográficos e estrutura territorial brasileira; implementar sistemas
computacionais para coleta, armazenamento, tratamento, processamento, análise e reprodução de dados geoespaciais;






47

desenvolver e implantar modelos de dados geoespaciais, funções topológicas e arquitetura de geoserviços; utilizar ferramentas
de geoprocessamento para o processamento e análise de dados geoespaciais vetoriais e matriciais simples e avançadas,
processamento digital de imagens de satélites e fotografias aéreas e dados de altimetrias para construção de modelos digitais
de terreno MDT; realizar análises de sensoriamento remoto que necessitam de capacidade técnica em geoprocessamento,
manipulação, tratamento e interpretação de imagens de satélite de baixa, média, alta e altíssima resolução; coletar, editar e
manter base de dados espaciais - vetor e raster; processar e tratar imagens de satélite; coletar e analisar dados e informações
sobre a dinâmica de uso e cobertura da terra;  coletar em campo, dados e informações de feições urbanas, rurais, da natureza
e de áreas agrícolas; elaborar mapas temáticos para a disponibilização em publicações técnicas, atlas, séries de mapas e
serviços web; desenvolver técnicas de machine learning, change detection, inteligência artificial (IA), extração automática de
feições e ciência de dados; elaborar redação de pareceres e relatórios técnicos; ter conhecimento de Qgis e ArcGis; aplicar
conhecimento de desenvolvimento de sistemas integrados a um ou mais bancos de dados relacionais (Mysql, PostgreSQL, Sql
Server ou Oracle ou SQLite); ter conhecimento em bancos de dados geográficos; automatizar análises e relatórios através de
aplicações, scripts ou plugins (Python preferencialmente); participar dos treinamentos presenciais e a distância e organizá-los,
se for o caso, bem como atuar como instrutor/tutor/facilitador e oferecendo suporte e apoio técnico na organização e realização
destes;  e executar outras atividades compatíveis com o cargo.
Remuneração inicial na data do Edital: R$ 8.453,00, composta de R$ 5.255,40 (cinco mil e duzentos e cinquenta e cinco
reais e quarenta centavos) de vencimento básico + R$ 3.197,60 (três mil e cento e noventa e sete reais e sessenta centavos)
de gratificação de desempenho (GDIBGE) de 80 pontos. Ao ingressar, o novo servidor receberá 80 pontos de gratificação até
sua primeira avaliação, quando poderá chegar aos 100 pontos e a remuneração atingir o valor de R$ 9.252,40 (nove mil e
duzentos e cinquenta e dois reais e quarenta centavos). Não inclui valores de retribuição de titulação (RT).
Legislação: Lei nº 11.355, de 19 de outubro de 2006.
Jornada de Trabalho:  40 horas semanais.
Local de exercício: os candidatos selecionados poderão ser alocados em uma das seguintes cidades: Rio Branco – AC,
Maceió / AL, Fortaleza / CE, Brasília / DF, Goiânia / GO, São Luis / MA, Belo Horizonte / MG, Campo Grande / MS, Cuiabá /
MT, Belém / PA, João Pessoa / PB, Recife / PE, Teresina / PI, Rio de Janeiro / RJ, Natal / RN, Porto Velho / RO, Boa Vista /
RR, Porto Alegre – RS, Florianópolis / SC, São Paulo / SP, Palmas / TO.

(B1-04-I) Cargo: Tecnologista em Informações Geográficas e Estatísticas
Descrição do Cargo: exercício de atividades especializadas de produção, análise e disseminação de dados e informações de
natureza estatística, geográfica, cartográfica, geodésica e ambiental.
Especialidade: Gestão em pesquisa
Formação exigida: Certificado de conclusão ou diploma, devidamente registrado em qualquer área do conhecimento
Atividades previstas para a especialidade: Realizar atividades diretamente relacionadas à gestão das pesquisas
econômicas, domiciliares, de cadastro de endereços e geocientíficas; supervisionar pesquisas de campo; preparar, aplicar e
avaliar treinamentos para as pesquisas; elaborar relatórios diversos sobre o desempenho das pesquisas; realizar outras
atividades compatíveis com o cargo.
Remuneração inicial na data do Edital: R$ 8.453,00, composta de R$ 5.255,40 (cinco mil e duzentos e cinquenta e cinco
reais e quarenta centavos) de vencimento básico + R$ 3.197,60 (três mil e cento e noventa e sete reais e sessenta centavos)
de gratificação de desempenho (GDIBGE) de 80 pontos. Ao ingressar, o novo servidor receberá 80 pontos de gratificação até
sua primeira avaliação, quando poderá chegar aos 100 pontos e a remuneração atingir o valor de R$ 9.252,40 (nove mil e
duzentos e cinquenta e dois reais e quarenta centavos). Não inclui valores de retribuição de titulação (RT).
Legislação: Lei nº 11.355, de 19 de outubro de 2006.
Jornada de Trabalho:  40 horas semanais.
Local de exercício: os candidatos selecionados poderão ser alocados em uma das seguintes cidades: Maceió / AL, Manaus /
AM, Salvador / BA, Fortaleza / CE, Brasília / DF, Vitória / ES, Goiânia / GO, São Luis / MA, Belo Horizonte / MG, Campo






48


"""

EXPRESSAO_REGULAR_CODIGO = re.compile(
    r"""(?x)
    # (B1-04-H) Cargo: Tecnologista em Informações Geográficas e Estatísticas
    (?P<codigo>\([\w\d\-]+\))
    \s*-?\s*
    Cargo:
    """
)

EXPRESSAO_REGULAR_SALARIO = re.compile(
    r"""(?x)
    # R$ 7.736,77
    R\$\s+(?P<salario>\d+\.\d{3},\d+)
    """,
    re.UNICODE
)

EXPRESSAO_REGULAR_CARGO = re.compile(
    r"""(?xi)
    # (B1-04-H) Cargo: Tecnologista em Informações Geográficas e Estatísticas
    (?P<codigo>\([\w\d\-]+\))
    \s*-?\s*
    Cargo:
    \s+
    (?P<cargo>[\w\W]+?)
    \s*
    # Descrição do Cargo: exercício de atividades especializadas de produção, análise e disseminação de dados e informações de
    # natureza estatística, geográfica, cartográfica, geodésica e ambiental.
    (
        Especialidade:
        \s+
        (?P<especialidade_antes>[\w\W]+?)
        \s*
    )?
    Descrição\sdo\sCargo:
    \s+
    (?P<descricao_cargo>[\w\W]+?)
    # Especialidade: Geoprocessamento
    (
        Especialidade:
        \s+
        (?P<especialidade>[\w\W]+?)
        \s*
    )?
    # Formação exigida: Certificado de conclusão ou diploma, devidamente registrado em Engenharia cartográfica ou engenharia
    # de agrimensura ou engenharia ambiental ou geografia ou engenharia florestal ou engenharia agrônoma ou engenharia de
    # recursos hídricos ou ciência ambiental ou arquitetura e urbanismo
    Forma[çc][ãa]o\sexigida:
    \s+
    (?P<formacao_exigida>[\w\W]+?)
    \s*
    # Atividades previstas para a especialidade: Executar atividades relacionadas às ciências da geoinformação,  sensoriamento
    # remoto, processamento e representação de dados geográficos e estrutura territorial brasileira; implementar sistemas
    # computacionais para coleta, armazenamento, tratamento, processamento, análise e reprodução de dados geoespaciais;

    # desenvolver e implantar modelos de dados geoespaciais, funções topológicas e arquitetura de geoserviços; utilizar ferramentas
    # de geoprocessamento para o processamento e análise de dados geoespaciais vetoriais e matriciais simples e avançadas,
    # processamento digital de imagens de satélites e fotografias aéreas e dados de altimetrias para construção de modelos digitais
    # de terreno MDT; realizar análises de sensoriamento remoto que necessitam de capacidade técnica em geoprocessamento,
    # manipulação, tratamento e interpretação de imagens de satélite de baixa, média, alta e altíssima resolução; coletar, editar e
    # manter base de dados espaciais - vetor e raster; processar e tratar imagens de satélite; coletar e analisar dados e informações
    # sobre a dinâmica de uso e cobertura da terra;  coletar em campo, dados e informações de feições urbanas, rurais, da natureza
    # e de áreas agrícolas; elaborar mapas temáticos para a disponibilização em publicações técnicas, atlas, séries de mapas e
    # serviços web; desenvolver técnicas de machine learning, change detection, inteligência artificial (IA), extração automática de
    # feições e ciência de dados; elaborar redação de pareceres e relatórios técnicos; ter conhecimento de Qgis e ArcGis; aplicar
    # conhecimento de desenvolvimento de sistemas integrados a um ou mais bancos de dados relacionais (Mysql, PostgreSQL, Sql
    # Server ou Oracle ou SQLite); ter conhecimento em bancos de dados geográficos; automatizar análises e relatórios através de
    # aplicações, scripts ou plugins (Python preferencialmente); participar dos treinamentos presenciais e a distância e organizá-los,
    # se for o caso, bem como atuar como instrutor/tutor/facilitador e oferecendo suporte e apoio técnico na organização e realização
    # destes;  e executar outras atividades compatíveis com o cargo.
    (
        Atividades\sprevistas\spara\sa\sespecialidade:
        \s+
        (?P<atividades_previstas>[\w\W]+?)
        \s*
    )?
    # Remuneração inicial na data do Edital: R$ 8.453,00, composta de R$ 5.255,40 (cinco mil e duzentos e cinquenta e cinco
    # reais e quarenta centavos) de vencimento básico + R$ 3.197,60 (três mil e cento e noventa e sete reais e sessenta centavos)
    # de gratificação de desempenho (GDIBGE) de 80 pontos. Ao ingressar, o novo servidor receberá 80 pontos de gratificação até
    # sua primeira avaliação, quando poderá chegar aos 100 pontos e a remuneração atingir o valor de R$ 9.252,40 (nove mil e
    # duzentos e cinquenta e dois reais e quarenta centavos). Não inclui valores de retribuição de titulação (RT).
    Remunera[çc][ãa]o\sinicial\sna\sdata\sdo\sEdital:?
    \s+
    (?P<remuneracao_inicial>[\w\W]+?)
    \s*
    # Legislação: Lei nº 11.355, de 19 de outubro de 2006.
    (
        Legisla[çc][ãa]o:
        \s+
        (?P<legislacao>[\w\W]+?)
        \s*
    )?
    # Jornada de Trabalho:  40 horas semanais.
    (
        Jornada\sde\sTrabalho:
        \s+
        (?P<jornada_trabalho>[\w\W]+?)
        \s*
    )?
    # Local de exercício: os candidatos selecionados poderão ser alocados em uma das seguintes cidades: Rio Branco – AC,
    # Maceió / AL, Fortaleza / CE, Brasília / DF, Goiânia / GO, São Luis / MA, Belo Horizonte / MG, Campo Grande / MS, Cuiabá /
    # MT, Belém / PA, João Pessoa / PB, Recife / PE, Teresina / PI, Rio de Janeiro / RJ, Natal / RN, Porto Velho / RO, Boa Vista /
    # RR, Porto Alegre – RS, Florianópolis / SC, São Paulo / SP, Palmas / TO.
    Local\s+de\s+exerc[íi]cio:
    \s*
    (?P<local_exercicio>Nacional|[\w\W]+)
    \s*\.?
    """,
    re.UNICODE | re.IGNORECASE
)

In [155]:
[1, 2, 3,4 ][2:4]

[3, 4]

In [21]:
dados_cargos = []

for bloco, conteudo in conteudo_editais_sem_numero_pagina.items():
    inicio = 0
    for resultado in EXPRESSAO_REGULAR_CODIGO.finditer(conteudo):
        final = resultado.start()
        if final == 1:
            print(conteudo[inicio:final])
        if (cargo_encontrado := EXPRESSAO_REGULAR_CARGO.search(conteudo[inicio:final])):
            dicionario_cargo = cargo_encontrado.groupdict()
            dicionario_cargo["bloco"] = bloco
            dicionario_cargo["especialidade"] = dicionario_cargo["especialidade"] or dicionario_cargo["especialidade_antes"]
            dicionario_cargo["remuneracao_extraida"] = EXPRESSAO_REGULAR_SALARIO.search(dicionario_cargo["remuneracao_inicial"]).group("salario").replace(".", "")
            dados_cargos.append(dicionario_cargo)
        else:
            print(f"Cargo não encontrado entre posições {inicio} e {final} do {bloco}.")
        inicio = final

    if (cargo_encontrado := EXPRESSAO_REGULAR_CARGO.search(conteudo[final:])):
        dicionario_cargo = cargo_encontrado.groupdict()
        dicionario_cargo["bloco"] = bloco
        dicionario_cargo["especialidade"] = dicionario_cargo["especialidade"] or dicionario_cargo["especialidade_antes"]
        dicionario_cargo["remuneracao_extraida"] = EXPRESSAO_REGULAR_SALARIO.search(dicionario_cargo["remuneracao_inicial"]).group("salario").replace(".", "")
        dados_cargos.append(dicionario_cargo)


Cargo não encontrado entre posições 0 e 156173 do bloco-1.
Cargo não encontrado entre posições 0 e 153973 do bloco-2.
Cargo não encontrado entre posições 0 e 152381 do bloco-3.
Cargo não encontrado entre posições 0 e 147706 do bloco-4.
Cargo não encontrado entre posições 0 e 152643 do bloco-5.
Cargo não encontrado entre posições 0 e 152066 do bloco-6.
Cargo não encontrado entre posições 0 e 157537 do bloco-7.
Cargo não encontrado entre posições 0 e 136365 do bloco-8.


In [193]:
len(dados_cargos)

165

In [8]:
dados_cargos[0]

{'codigo': '(B1-01-A)',
 'cargo': 'Arquiteto',
 'especialidade_antes': None,
 'descricao_cargo': 'exercício de atividades relativas ao exercício das competências institucionais e legais a cargo da AGU. \n',
 'especialidade': 'Arquitetura',
 'formacao_exigida': 'Certificado de conclusão ou diploma, devidamente registrado em arquitetura com registro em seu conselho \nde classe',
 'atividades_previstas': 'Desenvolver e realizar projetos de arquitetura; planejar, coordenar a operação e \na manutenção, orçar, emitir laudo técnico, vistoriar, fiscalizar execução de contratos de obras; controlar a qualidade dos \nsuprimentos e serviços comprados e executados; elaborar normas e documentos e outras atividades compatíveis com o \ncargo.',
 'remuneracao_inicial': 'R$ 7.736,77 (sete mil, setecentos e trinta e seis reais e setenta e sete centavos), \ncomposta de R$ 3.281,35 (três mil, duzentos e oitenta e um reais e trinta e cinco centavos) de vencimento básico + R$ 932,22 \n(novecentos e trinta e 

In [None]:
[m.start() for m in re.finditer('(?<!do )(?<!\n)(?<!, )Cargo:', conteudo_editais_sem_numero_pagina["bloco-1"])]

In [None]:
inicio = 136365
variacao = 1
conteudo_editais_sem_numero_pagina["bloco-1"][inicio:inicio+variacao]

In [None]:
import pprint
for resultado in EXPRESSAO_REGULAR_CARGO.finditer(conteudo_editais_sem_numero_pagina["bloco-1"]):
    pprint.pprint(resultado.groupdict())
    print("")

In [None]:
print(conteudo_editais_sem_numero_pagina["bloco-1"][:-30000])

## Criar DataFrame do Pandas

In [22]:
df = pd.DataFrame(dados_cargos)

In [23]:
def trim_all_columns(df):
    """
    Trim whitespace from ends of each value across all series in dataframe
    """
    trim_strings = lambda x: x.strip() if isinstance(x, str) else x
    return df.applymap(trim_strings)


df = trim_all_columns(df)

df

Unnamed: 0,codigo,cargo,especialidade_antes,descricao_cargo,especialidade,formacao_exigida,atividades_previstas,remuneracao_inicial,legislacao,jornada_trabalho,local_exercicio,bloco,remuneracao_extraida
0,(B1-01-A),Arquiteto,,exercício de atividades relativas ao exercício...,Arquitetura,"Certificado de conclusão ou diploma, devidamen...",Desenvolver e realizar projetos de arquitetura...,"R$ 7.736,77 (sete mil, setecentos e trinta e s...","Lei nº 11.355, de 19 de outubro de 2006; Lei n...",40 horas semanais.,Nacional,bloco-1,773677
1,(B1-01-B),Engenheiro,,exercício de atividades relativas ao exercício...,Engenharia Agronômica,"Certificado de conclusão ou diploma, devidamen...",,"R$ 7.736,77 (sete mil, setecentos e trinta e s...","Lei nº 11.355, de 19 de outubro de 2006; Lei n...",40 horas semanais.,Nacional,bloco-1,773677
2,(B1-01-C),Engenheiro,,exercício de atividades relativas ao exercício...,Engenharia Civil,"Certificado de conclusão ou diploma, devidamen...",,"R$ 7.736,77 (sete mil, setecentos e trinta e s...","Lei nº 11.355, de 19 de outubro de 2006; Lei n...",40 horas semanais.,Nacional,bloco-1,773677
3,(B1-01-D),Engenheiro,,exercício de atividades relativas ao exercício...,Engenharia de Produção,"Certificado de conclusão ou diploma, devidamen...",,"R$ 7.736,77 (sete mil, setecentos e trinta e s...","Lei nº 11.355, de 19 de outubro de 2006; Lei n...",40 horas semanais.,Nacional,bloco-1,773677
4,(B1-01-E),Engenheiro,,exercício de atividades relativas ao exercício...,Engenharia Elétrica,"Certificado de conclusão ou diploma, devidamen...",,"R$ 7.736,77 (sete mil, setecentos e trinta e s...","Lei nº 11.355, de 19 de outubro de 2006; Lei n...",40 horas semanais.,Nacional,bloco-1,773677
...,...,...,...,...,...,...,...,...,...,...,...,...,...
160,(B8-02-D),Técnico em Informações Geográficas e Estatísti...,,exercício de atribuições voltadas para o supor...,Nível médio,"Certificado de conclusão ou diploma, devidamen...","coletar dados em diversas fontes, planejar, or...","R$ 4.008,24. Remuneração inicial considera gr...",,40 horas semanais,os candidatos selecionados poderão ser alocado...,bloco-8,400824
161,(B8-02-E),Técnico em Informações Geográficas e Estatísti...,,exercício de atribuições voltadas para o supor...,Nível médio,"Certificado de conclusão ou diploma, devidamen...","coletar dados em diversas fontes, planejar, or...","R$ 4.008,24. Remuneração inicial considera gr...",,40 horas semanais,os candidatos selecionados poderão ser alocado...,bloco-8,400824
162,(B8-03-A),Agente de atividades agropecuárias,,"Atividades de natureza especializada, de nível...",Curso Técnico Agrícola com registro em Conselh...,Curso de Técnico Agrícola – nas modalidades Té...,Execução de tarefas técnico-operacionais relat...,"R$ 7.436,29 (Sete mil e quatrocentos e trinta ...",Lei nº 13.324 de 29 de julho de 2016.,40 horas semanais,Nacional,bloco-8,743629
163,(B8-03-B),Agente de inspeção sanitária e industrial de p...,,"Atividades de natureza especializada, de nível...",Curso Técnico Agrícola com registro em Conselh...,Curso de Técnico Agrícola – nas modalidades Té...,Execução de tarefas técnico-operacionais relat...,"R$ 7.436,29 (Sete mil e quatrocentos e trinta ...",Lei nº 13.324 de 29 de julho de 2016.,40 horas semanais,Nacional,bloco-8,743629


In [24]:
# exportar para csv
df.to_csv("lista-cargos-cnu-2024.csv", sep=";", index=False)

# exportar para planilha excel
df.to_excel("lista-cargos-cnu-2024.xlsx", index=False)