In [None]:
# ==========================================
# Este script realiza a coleta autom√°tica de portarias publicadas no Di√°rio Oficial de SC
# para o tema "calculados sobre a m√©dia das contribui√ß√µes".
#
# Fluxo geral:
# 1Ô∏è‚É£ Busca as mat√©rias usando a API:
#     https://portal.doe.sea.sc.gov.br/apis/materia/materia?ano=2025&mes=7&dataInicio=&dataFim=&assunto=35&categoria=4704302&dsMateria=calculados%20sobre%20a%20m%C3%A9dia%20das%20contribui%C3%A7%C3%B5es&tipoBusca=1&sortEdicao=&numeroEdicao=&numeroMateria=&ondePesquisar=4
#
# 2Ô∏è‚É£ Para cada resultado, chama:
#     https://portal.doe.sea.sc.gov.br/apis/edicao-preview/extrato/edicao/4099/materia/1094369
#     Este link retorna a URL final para o PDF espec√≠fico daquela mat√©ria.
#
# 3Ô∏è‚É£ Baixa o PDF, extrai os dados (nome do servidor, matr√≠cula, cargo, √≥rg√£o).
# 4Ô∏è‚É£ Gera uma planilha Excel com os resultados.
# ==========================================
!pip install requests pandas pdfplumber tqdm

import requests
import pandas as pd
import pdfplumber
from tqdm import tqdm
import re

anos = range(2025, 2026)
meses = range(1, 13)

BASE_URL = "https://portal.doe.sea.sc.gov.br"
API_MATERIA = BASE_URL + "/apis/materia/materia"
API_PDF_JSON = BASE_URL + "/apis/edicao-preview/extrato/edicao/{}/materia/{}"

HEADERS = {"User-Agent": "Mozilla/5.0"}

dados = []

print("üîé Buscando mat√©rias‚Ä¶")

# === Etapa 1: Consulta √† API para listar as mat√©rias ===
for ano in anos:
    for mes in meses:
        params = {
            "ano": ano, "mes": mes,
            "assunto": "35", "categoria": "4704302",
            "dsMateria": "calculados sobre a m√©dia das contribui√ß√µes",
            "tipoBusca": "1", "ondePesquisar": "4"
        }
        resp = requests.get(API_MATERIA, params=params, headers=HEADERS)
        if resp.ok:
            lista = resp.json()
            if isinstance(lista, list):
                dados.extend(lista)

print(f"‚úÖ {len(dados)} mat√©rias encontradas")

# === Etapa 2: Para cada mat√©ria, pega a URL real do PDF ===
def obter_pdf_url(cdJornal, cdMateria):
    url_json = API_PDF_JSON.format(cdJornal, cdMateria)
    resp = requests.get(url_json, headers=HEADERS)
    if not resp.ok:
        return None
    return resp.json().get("urlExtratoArquivo")

# === Etapa 3: Processa o PDF e devolve lista de registros v√°lidos ===
def extrair_detalhes_pdf(url_pdf):
    resp = requests.get(url_pdf, headers=HEADERS)
    if not resp.ok:
        return []

    with open("/tmp/materia.pdf", "wb") as f:
        f.write(resp.content)

    with pdfplumber.open("/tmp/materia.pdf") as pdf:
        texto = ""
        for page in pdf.pages:
            texto += page.extract_text().replace("\n", " ")

    texto = re.sub(r'\s+', ' ', texto).strip()
    texto = re.sub(r'-\s+(\d+)', r'-\1', texto)  # Corrige matr√≠culas quebradas

    # Quebra o texto em blocos por portaria
    blocos = re.split(r'(PORTARIA\s+N¬∫\s+\d+\s*-\s*\d{2}/\d{2}/\d{4}\.)', texto)

    registros = []

    for i in range(1, len(blocos), 2):
        cabecalho = blocos[i]
        corpo = blocos[i+1]
        bloco_texto = (cabecalho + " " + corpo).strip()

        if "calculados sobre a m√©dia das contribui√ß√µes" not in bloco_texto.lower():
            continue

        # N√∫mero da portaria e data
        try:
            portaria_match = re.search(r'PORTARIA\s+N¬∫\s+(\d+)\s*-\s*(\d{2}/\d{2}/\d{4})', cabecalho, flags=re.IGNORECASE)
            numero_portaria = portaria_match.group(1)
            data_portaria = portaria_match.group(2)
        except:
            numero_portaria = ""
            data_portaria = ""

        # Nome
        try:
            idx_matricula = bloco_texto.lower().find(", matr√≠cula")
            texto_ate_matricula = bloco_texto[:idx_matricula]
            idx_a = max(
                texto_ate_matricula.rfind(" √† "),
                texto_ate_matricula.rfind(" a "),
                texto_ate_matricula.rfind(" de ")
            )
            nome = texto_ate_matricula[idx_a+3:].strip() if idx_a != -1 else ""
        except:
            nome = ""

        # Matr√≠cula (valida formato com 12 caracteres)
        try:
            match_matricula = re.search(
                r'(\d{7}-\d-\d{2})', bloco_texto
            )
            matricula = match_matricula.group(1).strip() if match_matricula else ""
        except:
            matricula = ""

        # Cargo
        try:
            cargo = bloco_texto.split("no cargo de")[-1].split(",")[0].strip()
        except:
            cargo = ""

        # √ìrg√£o ‚Äî √∫ltima palavra entre '-' e '.'
        try:
          orgao_match = re.search(r'[‚Äì-]\s*([A-Z]+)\.', bloco_texto)
          orgao = orgao_match.group(1).strip() if orgao_match else ""
        except:
          orgao = ""


        registros.append((nome, matricula, cargo, orgao, numero_portaria, data_portaria))

    return registros

# === Etapa 4: Processa todas as mat√©rias e coleta todos os registros v√°lidos ===
resultados = []
for item in tqdm(dados, desc="üìÑ Processando mat√©rias"):
    url_pdf = obter_pdf_url(item["cdJornal"], item["cd_materia"])
    if not url_pdf:
        continue

    registros_pdf = extrair_detalhes_pdf(url_pdf)

    for nome, matricula, cargo, orgao, numero_portaria, data_portaria in registros_pdf:
        resultados.append({
            "Nome do Servidor": nome,
            "Matr√≠cula": matricula,
            "Cargo": cargo,
            "√ìrg√£o de Origem": orgao,
            "Data de Publica√ß√£o do DOE": item["dtPublicacaoJornal"][:10],
            "N√∫mero da Edi√ß√£o do DOE": item["vlNumero"],
            "N√∫mero da Portaria": numero_portaria,
            "Data da Portaria": data_portaria
        })

# Converte para DataFrame
df_final = pd.DataFrame(resultados)

# === Etapa 5: Salva Excel ===
df_final.to_excel("portarias_doe.xlsx", index=False)
print("üìÅ Arquivo Excel gerado: portarias_doe.xlsx")

from google.colab import files
files.download("portarias_doe.xlsx")


üîé Buscando mat√©rias‚Ä¶
‚úÖ 207 mat√©rias encontradas


üìÑ Processando mat√©rias: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 207/207 [07:33<00:00,  2.19s/it]

üìÅ Arquivo Excel gerado: portarias_doe.xlsx





<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

MELHORIAS A SEREM FEITAS NO C√ìDIGO

- n√∫mero de portaria est√° vindo sempre o primeiro n√∫mero - OK
- a matr√≠cula algumas estao vindo erradas, talvez o que podemos fazer seja colocar que todas as matr√≠culas tem que ter 12 numeros obrigat√≥riamente - OK
- √≥rg√£o de origem ICP-Brasil n√£o est√° correto (nem sei de onde ele est√° tirando isso)- OK
- um deles n√£o est√° vindo o org√£o de origem, verificar. - OK

primeiro o script busca esse retorno de api, contendo o ano e o m√™s de busca
https://portal.doe.sea.sc.gov.br/apis/materia/materia?ano=2025&mes=7&dataInicio=&dataFim=&assunto=35&categoria=4704302&dsMateria=calculados%20sobre%20a%20m%C3%A9dia%20das%20contribui%C3%A7%C3%B5es&tipoBusca=1&sortEdicao=&numeroEdicao=&numeroMateria=&ondePesquisar=4

com o retorno dessa chamada da api √© possivel buscar especificamente cada resultado a partir desse link
https://portal.doe.sea.sc.gov.br/apis/edicao-preview/extrato/edicao/4099/materia/1094369

neste link √© possivel obter o .pdf da mat√©ria certificada com todo o conte√∫do buscado
