-
-
Notifications
You must be signed in to change notification settings - Fork 384
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Adiciona spider base para o sistema replicável Atende, e spiders derivados para as cidades com D.O.s nesse sistema. #1046
base: main
Are you sure you want to change the base?
Conversation
…cia na criação do spider base do sistema replicável Atende.
Essa versão implementa a classe 'BaseAtendeT2Spider' para buscar os dirários nas páginas com layout 'Tipo 2', identificadas pelo Mapeador Atende desenvolvido em okfn-brasil#1043.
para trabalhar com o spider base do sistema replicável 'Atende'. Resolve okfn-brasil#430 Adiciona spider para Campo Mourão - PR.
spider base do sistema replicável 'Atende'.
Sistema replicável 'Atende'.
de download na página de 'Detalhes da Edição' quando não encontrar na página padrão (layout Tipo 2). Caso conhecido: Araucária - PR (https://araucaria.atende.net/diariooficial)
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
…latina - PR. Sistema replicável 'Atende' (layout Tipo 2).
… RS. Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
Sistema replicável 'Atende' (layout Tipo 2).
os diários nas páginas do sistema replicável 'atende' com layout 'Tipo 1'.
Sistema replicável 'Atende' (layout Tipo 1).
Sistema replicável 'Atende' (layout Tipo 1). Resolve okfn-brasil#1038 Conforme comentado em okfn-brasil#1038 (comment) esse novo spider coleta apenas da edição 333 em diante. Como falta a informação de data para muitas edições na página, a estratégia foi incluir a verificação do número da edição para limitar o download dos arquivos e salvar a data `datetime.date.max` nos metadados para que a etapa de 'data processing' realize a extração dessa informação.
original de Camaquã, para refletir o último dia antes da publicação da edição 333 no novo site atende.net Ajuste associado à issue okfn-brasil#1038
@AlexJBSilva muito obrigada pela PR! Sei que ainda estava em rascunho, porém, tendo em vista as enchentes no Rio Grande do Sul, fizemos um esforço de priorizar a adição de municípios de lá e esta PR tem vários. Por isso, tomei a liberdade de seguir a partir de onde você parou. Aqui você adiciona duas novas classes base e, como o "Layout 2" estava mais desenvolvido (você até anexou testes, enquanto o "Layout 1" não) e tem uma cobertura maior de municípios do RS, foquei nele. Fiz uma PR (#1145) que puxa suas contribuições daqui e as finaliza lá. Optei por fazer isso e não revisar aqui pois, como disse acima, queria reduzir o escopo pra um sistema só por vez sem jogar fora o que você já tinha começado aqui (não queria perder o "Layout 1" e os demais municípios que já estão aqui). Como acabei revisando vou deixar alguns feedbacks, mas mesmo eu não tenho certeza se precisa (visto que ainda era rascunho, pode ser só que você ia ajustar depois)
Muito obrigada pela contribuição |
Checklist - Novo spider
start_date
eend_date
definidos) ao menos uma vez e os dados retornados estavam corretos.log_count/ERROR
igual a zero).start_date
no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.Descrição
Adiciona o spider base para o sistema replicável Atende, e os spiders derivados para as cidades com D.O.s nesse sistema.
Através do mapeador ATENDE (PR #1043), foram identificadas 34 cidades com Diários Oficiais disponíveis.
Esse sistema apresenta 2 layouts de página: layout
Tipo 1
e layoutTipo 2
.Tipo 1
: 4 cidades3552403SumaréSPSumaré já possui um spider funcional e não precisará de um novo spider, pois os diários no sistema Atende (layout Tipo 1) não possuem todos os metadados (inclusive data de publicação).
Tipo 2
: 30 cidadesDos testes realizados com Araucária, Campo Mourão e Gravataí:
Extra: Automatizando a criação de Spiders derivados.
Seguindo a dica da @trevineju, fiz o script abaixo para criar os spiders utilizando o arquivo
cidades_atende_t2.csv
com as infomações de configuração:Para usar:
querido-diario/data_collection/data
;cd querido-diario/data_collection/data
e execute o scriptpython script.py
.