This repository has been archived by the owner on Oct 2, 2023. It is now read-only.
Critério para filtrar itens a serem coletados por data é falho #95
Labels
bug
Something isn't working
Projects
Atualmente o critério utilizado é o mesmo para todas as bases de dados:
maria-quiteria/datasets/models.py
Line 27 in a1e3094
Porém esse critério não funciona para todas as bases. Exemplo:
Atualmente vamos checar se os itens novos tem data maior ou igual a data da última raspagem e não a última data do item. Em nenhum dos dois casos vamos conseguir coletar os novos itens, caso eles tenham data menor que a data da última raspagem. No caso dos contratos da prefeitura, por exemplo, os contratos estão desatualizados desde 2017. Se os contratos dos últimos três anos forem atualizados, vamos acabar perdendo-os.
Um outro problema é que nem todos os registros têm, necessariamente, uma data.
Minha ideia no momento: cada model especificar o campo de data a ser utilizado. Caso não tenha um, usamos o
crawled_at
. O que acham?The text was updated successfully, but these errors were encountered: