Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Novo spider base]: SAI #907

Closed
1 task done
ogecece opened this issue Jul 14, 2023 · 5 comments · Fixed by #956
Closed
1 task done

[Novo spider base]: SAI #907

ogecece opened this issue Jul 14, 2023 · 5 comments · Fixed by #956
Labels
spider Adiciona ou atualiza um robô raspador type:enhancement Novo recurso ou ferramenta

Comments

@ogecece
Copy link
Member

ogecece commented Jul 14, 2023

URL

https://imap.org.br/

Municípios replicados

  1. Lauro de Freitas - BA: SAI, IMAP
  2. Estância - SE: SAI, IMAP
  3. Igaci - AL: SAI, IMAP

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Detalhes do site de publicação

No response

Observações

Sobre mapeamento de municípios

Para descobrir outros sistemas, é possível acessar o site da empresa e descobrir prefeituras contratantes a partir deste formulário:

image

Como mapeado em #401 (onde diversos municípios da Bahia já foram mapeados com esse sistema) a empresa pode fornecer o serviço em um endereço mas sempre ele sempre estará disponível também por meio do dom.imap.org.br. Para cada prefeitura, é necessário obter o ID para acessar o site dom.imap.org.br correto.

Pelo que entendi, os tipos 1, 2 e 3 em #401 devem ser todos SAI com roupagens um pouco diferentes. Nele, é possível encontrar o ID da prefeitura dessa maneira (se alguém descobrir uma maneira mais fácil, comenta aí por favor):

Ao acessar o site da prefeitura, o link para o sistema de publicação deveria estar no topo da tela:

image

No formulário da busca, no seletor de "Entidade" podemos inspecionar o item da "Prefeitura" e então descobrir o ID

image
image

Assim, é possível que mais de uma centena de municípios sejam adicionados por esse sistema.

Sobre a pré-análise do sistema

No IMAP não há filtro de data, apenas por ano. No SAI, o formulário possui filtro de data mas ainda assim o resultado é limitado pelo ano. Ou seja, o filtro por data é meio inútil.

Assim, o funcionamento dos sistemas fica muito similar. Parece não haver diferença na estratégia de raspagem. Se forem equivalentes mesmo, utilizar o SAI parece melhor pois não precisaríamos mapear os IDs.

Não existe uma issue aberta sobre isso

  • Eu verifiquei e não existe uma issue aberta ou marcada com incompatible para o mesmo sistema.
@ogecece ogecece added type:enhancement Novo recurso ou ferramenta spider Adiciona ou atualiza um robô raspador labels Jul 14, 2023
@trevineju trevineju self-assigned this Jul 31, 2023
@trevineju trevineju removed their assignment Oct 1, 2023
@trevineju
Copy link
Member

Maragogipe - BA também publica nesse sistema (SAI): https://sai.io.org.br/ba/maragojipe/site/diariooficial

@trevineju
Copy link
Member

Jeremoabo-BA também publica nesse sistema (SAI), mas em uma url diferente: https://www.jeremoabo.ba.gov.br/Site/DiarioOficial

#852

@victorfernandesraton
Copy link
Contributor

Já encontrei uma forma de pegar esses dados do portal SAI

Irei atuar na cidade de Maragojipe BA como POC

@victorfernandesraton
Copy link
Contributor

Issue em draft, vi aqui que tem uns checks a se fazer antes

#956

@victorfernandesraton
Copy link
Contributor

PR pronta l'a pessoal!!!!!!!

@trevineju trevineju linked a pull request Oct 16, 2023 that will close this issue
5 tasks
@trevineju trevineju changed the title [Novo spider base]: SAI/IMAP [Novo spider base]: SAI Mar 17, 2024
ogecece added a commit that referenced this issue Mar 20, 2024
 #### Checklist - Novo spider
 
* [x] Você executou uma extração completa do spider localmente e os
dados retornados estavam corretos.
* [x] Você executou uma extração por período (`start_date` e `end_date`
definidos) ao menos uma vez e os dados retornados estavam corretos.
* [x] Você verificou que não existe nenhum erro nos logs
(`log_count/ERROR` igual a zero).
* [x] Você definiu o atributo de classe `start_date` no seu spider com a
data do Diário Oficial mais antigo disponível na página da cidade.
* [x] Você garantiu que todos os campos que poderiam ser extraídos foram
extraídos [de acordo com a
documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos).
#### Descrição

Implementação do raspador para sites produzidos pelo SAI, presentes na
Issue #907
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
spider Adiciona ou atualiza um robô raspador type:enhancement Novo recurso ou ferramenta
Projects
Development

Successfully merging a pull request may close this issue.

3 participants