-
-
Notifications
You must be signed in to change notification settings - Fork 384
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Novo spider base]: SAI #907
Comments
Maragogipe - BA também publica nesse sistema (SAI): https://sai.io.org.br/ba/maragojipe/site/diariooficial |
Jeremoabo-BA também publica nesse sistema (SAI), mas em uma url diferente: https://www.jeremoabo.ba.gov.br/Site/DiarioOficial |
Já encontrei uma forma de pegar esses dados do portal SAI Irei atuar na cidade de Maragojipe BA como POC |
Issue em draft, vi aqui que tem uns checks a se fazer antes |
PR pronta l'a pessoal!!!!!!! |
#### Checklist - Novo spider * [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. * [x] Você executou uma extração por período (`start_date` e `end_date` definidos) ao menos uma vez e os dados retornados estavam corretos. * [x] Você verificou que não existe nenhum erro nos logs (`log_count/ERROR` igual a zero). * [x] Você definiu o atributo de classe `start_date` no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. * [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos [de acordo com a documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos). #### Descrição Implementação do raspador para sites produzidos pelo SAI, presentes na Issue #907
URL
https://imap.org.br/
Municípios replicados
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Detalhes do site de publicação
No response
Observações
Sobre mapeamento de municípios
Para descobrir outros sistemas, é possível acessar o site da empresa e descobrir prefeituras contratantes a partir deste formulário:
Como mapeado em #401 (onde diversos municípios da Bahia já foram mapeados com esse sistema) a empresa pode fornecer o serviço em um endereço mas sempre ele sempre estará disponível também por meio do
dom.imap.org.br
. Para cada prefeitura, é necessário obter o ID para acessar o sitedom.imap.org.br
correto.Pelo que entendi, os tipos 1, 2 e 3 em #401 devem ser todos SAI com roupagens um pouco diferentes. Nele, é possível encontrar o ID da prefeitura dessa maneira (se alguém descobrir uma maneira mais fácil, comenta aí por favor):
Assim, é possível que mais de uma centena de municípios sejam adicionados por esse sistema.
Sobre a pré-análise do sistema
No IMAP não há filtro de data, apenas por ano. No SAI, o formulário possui filtro de data mas ainda assim o resultado é limitado pelo ano. Ou seja, o filtro por data é meio inútil.
Assim, o funcionamento dos sistemas fica muito similar. Parece não haver diferença na estratégia de raspagem. Se forem equivalentes mesmo, utilizar o SAI parece melhor pois não precisaríamos mapear os IDs.
Não existe uma issue aberta sobre isso
The text was updated successfully, but these errors were encountered: