Refactors file pipeline to add queue #60

cuducos · 2020-03-18T00:39:32Z

Como discutido em #59, esse PR inicia uma tentativa de utilizar filas para reduzir o uso de memória – mas ainda é um rascunho, algumas coisas que sei que faltam:

Flag para baixar os arquivos pelo pipeline ou pela fila
Escolher o "modelo" no banco de dados a partir do tipo de item do objeto coletado no Scrapy
Salvar checksum
Testar se não quebrei nada no refactor do ExtractFileContentPipeline (tentei deixar o código mais legível, usando variáveis com nomes significativos para humanos e menos índices numéricos)
Configurar RabbitMQ em produção
Configurar RabbitMQ em desenvolvimento
Testar se a chamada no send do ator a partir do Scrapy funciona (sendo que a tarefa depende do Django; creio que sim, pois é o worker quem executa mas preciso testar)
Criar o worker com acesso ao ORM do Django (alguém já usou o django_dramatiq?)

E mais umas coisas que eu não sei ainda : )

Coisas importantes, agora:

Abri esse PR para ser mergeado na branch em salva-diarios (e não em master), era essa a ideia?
Claro que estou curioso para qualquer feedback até aqui, mas especialmente:
- O que acham do # TODO que deixei no datasets/tasks.py (linha 16)?
- O que acham do # TODO que deixei no scraper/pipelines.py (linha 33)?

anapaulagomes

Cuducos, obrigada pela sua primeira contribuição! 🎉

Abri esse PR para ser mergeado na branch em salva-diarios (e não em master), era essa a ideia?

Acredito que seria interessante ter uma feature flag aqui pra manter o funcionamento dos spiders que ainda não possuem dados sendo salvos no banco. Acho bom manter pra quem quiser rodar os spiders localmente fora do comando crawl e ainda assim ter o conteúdo dos arquivos. O que você acha?
Eu, por exemplo, ainda rodo os coletores locais pra fazer pesquisa nos arquivos e atualizar o Kaggle. Ainda é um passo manual que ainda está longe de ser automatizado.

De um jeito ou de outro, esse PR poderia ser mergeado na master mesmo. O salva-diarios é que não pode ser mergeado antes. 🙏

setup.cfg

datasets/tasks.py

datasets/tests/test_tasks.py

scraper/pipelines.py

cuducos · 2020-03-28T19:28:27Z

Atualizando a lista de afazeres do post inicial com outros items:

UPDATE Movi para o post inicial.

This commit is a WIP

cuducos · 2020-03-28T22:31:44Z

Pronto! Avencei um pouco e agora já não considero mais draft, yay!

Para testarmos em ambiente de staging ou produção no Heroku, precisamos que alguém com acesso ative o CloudAMQP. Deve funcionar normalmente, pois adicionei o worker no Procfile e usei a variável de ambiente padrão do Heroku no core/settings.py.

anapaulagomes

Caramba, essa é uma bela feature pra MQ! 🎉 Deixei alguns comentários.
Não pude deployar pra staging pq tua branch não pertence a esse repo mas adicionei o addon e te coloquei como colaborador. Fiquei com preguiça de configurar uma review app, hoje tá corrido (malz ae haha).

README.md

core/settings.py

datasets/tasks.py

scraper/pipelines.py

Apenas direciono ao site oficial pois as instruções de instalação variam muito de acordo com o sistema operacional (sendo que antes disso a própria documentação recomenda Docker).

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

anapaulagomes

Boa, @cuducos! 🏆
Amanhã vou deployar para staging, assim podemos testar antes de mergear.

datasets/migrations/0005_adds_checksum_field_to_gazette.py

datasets/tasks.py

anapaulagomes

Depois de muitas lágrimas (risos), consegui identificar os motivos pelos quais não estava funcionando:

Precisamos ter configurado o limite do broker (BROKER_POOL_LIMIT=1) e o número de processos do worker - assim respeitamos os limites do plano gratuito e evitamos o famigerado connection refused
No método que salvava os diários estávamos aceitando o valor padrão dos itens (um conteúdo vazio) mas estávamos checando se ele é nulo ou não pra atualizar. Por isso nenhum diário tinha seu conteúdo atualizado.
No pipeline não estávamos retornando o item de volta

Fora isso:

Adicionei as atas ao rolê, já que o pipeline quebra sem suporte a elas

Commitei essas mudanças nessa branch de testes (baseada na tua). Lá dá pra ver as diferenças.

No momento estou rodando toda a coleta de diários e atas. O pico de mensagens na fila chegou a 11 mil. Três filas, 7 conexões abertas (máximo de 20 conexões). O consumo de memória no worker se manteve em 128MB - not bad.

Infelizmente uma parte ainda teremos que resolver: o arquivo não é encontrado (acredito que pelo fato do heroku não persisti-los), logo não é lido. :(

scraper/settings.py

anapaulagomes · 2020-04-01T09:23:09Z

scraper/pipelines.py

+            if ASYNC_FILE_PROCESSING:
+                content_from_file.send(**kwargs)
+            else:
+                item["file_content"] = content_from_file(**kwargs)


Na real, não está funcionando como esperado. Retorna um gerador e nada acontece feijoada. Primeiro pq temos que retornar o item e lá em cima retornamos None e embaixo um generator. Além disso, não dá pra retornar vários itens (o yield está dentro do loop). Consegui pôr pra funcionar assim:

def item_completed(self, results, item, info): if not results: return item content_from_file_urls = [] for result in results: ok, file_info = result if not ok: continue kwargs = { "item_name": item.__class__.__name__, "url": file_info["url"], "path": f"{FILES_STORE}{file_info['path']}", "checksum": file_info["checksum"], "save_to_db": ASYNC_FILE_PROCESSING, "keep_file": KEEP_FILES, } if ASYNC_FILE_PROCESSING: content_from_file.send(**kwargs) else: content_from_file_urls.append(content_from_file(**kwargs)) item["file_content"] = content_from_file_urls return item

Putz! Falha minha. Como results era plural, meu instinto foi criar um gerador, mas acho que (a) não faz sentido, e, com certeza, (b) justifica o erro.

Procfile

README.md

datasets/tasks.py

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Assim ele é reconhecido globalmente Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

cuducos · 2020-04-01T16:09:29Z

Infelizmente uma parte ainda teremos que resolver: o arquivo não é encontrado (acredito que pelo fato do heroku não persisti-los), logo não é lido. :(

Poder ser por isso, mas mesmo se persistisse: são processos diferentes, ou seja, Docker containers diferentes. Precisamos de um volume compartilhado.

Acho que se a gente usar um S3, fica barato, ou quase de graça. Vai ser só uma escrita, uma leitura por arquivo (depois apagamos). O que acha?

anapaulagomes · 2020-04-20T13:02:40Z

Fechando esse PR em favor do #101. Obrigada, @cuducos! 🏅

anapaulagomes added 14 commits March 13, 2020 21:07

Salva diários no banco

0eec13c

Exclui migrations do flake8

a1afa85

Adiciona teste para estratégia de atualização de um diário

c1e035a

Corrige bug no retorno de eventos de um diário

1776e10

Adiciona pytest-django

a92e312

Adiciona django settings module ao ci

7c85ba7

Adiciona variáveis de ambiente a todo pipeline

d1452de

Salva apenas a url do diario

899a2e7

Adiciona interce no admin para diarios

d174de0

Corrige filtro por data e bug na última página

7ab3337

Salva diários antigos (outro site, antes de 2015) [WIP]

23cef91

Adapta testes

c2b872a

Adiciona formato DD/MM/YYYY e DD/MM/YY como padrão

676a0e9

Remove diários e agenda do runner.py

a81c6bb

anapaulagomes reviewed Mar 18, 2020

View reviewed changes

anapaulagomes added this to In progress in MVP - banco de dados Mar 20, 2020

anapaulagomes changed the base branch from salva-diarios to master March 21, 2020 16:28

cuducos added 2 commits March 28, 2020 15:53

Refactors file pipeline to add queue

fb80037

This commit is a WIP

Merge branch 'master' into queue-for-tika

124ac52

cuducos marked this pull request as ready for review March 28, 2020 22:31

anapaulagomes suggested changes Mar 29, 2020

View reviewed changes

cuducos and others added 4 commits March 29, 2020 13:41

Melhora instruções sobre o RabbitMQ

8ab7785

Apenas direciono ao site oficial pois as instruções de instalação variam muito de acordo com o sistema operacional (sendo que antes disso a própria documentação recomenda Docker).

Traduz comentário no módulo tasks

249cb78

Corrige CLOUDAMQP_URL em produção

80b9e14

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Typo

eea789d

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

cuducos requested a review from anapaulagomes March 29, 2020 18:04

Merge branch 'master' into queue-for-tika

5148a77

cuducos mentioned this pull request Mar 29, 2020

Transformar parte Django em um módulo único #71

Closed

anapaulagomes temporarily deployed to maria-quiter-queue-for-qdhhodg March 29, 2020 19:14 Inactive

anapaulagomes approved these changes Mar 29, 2020

View reviewed changes

anapaulagomes temporarily deployed to staging-maria-quiteria March 29, 2020 19:23 Inactive

anapaulagomes reviewed Mar 29, 2020

View reviewed changes

datasets/migrations/0005_adds_checksum_field_to_gazette.py Outdated Show resolved Hide resolved

Resolve conflito de migrações

eb6677f

anapaulagomes reviewed Mar 30, 2020

View reviewed changes

datasets/tasks.py Outdated Show resolved Hide resolved

Muda uso do environ_prefix

4fb8be7

anapaulagomes suggested changes Apr 1, 2020

View reviewed changes

cuducos and others added 8 commits April 1, 2020 12:03

Update scraper/settings.py

171da60

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Update Procfile with args to dramatiq

c2f04ac

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Typo

8112dcc

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Cleanup

3abfcf4

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Seta um broker

f351f86

Assim ele é reconhecido globalmente Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Seta o broker

228f4b3

Assim ele é reconhecido globalmente Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Typo

39c2039

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Typo

8c043ee

Co-Authored-By: Ana Paula Gomes <apgomes88@gmail.com>

Merge branch 'master' into queue-for-tika

880f8c9

anapaulagomes mentioned this pull request Apr 20, 2020

Fila para extração de documentos de maneira assíncrona #101

Merged

9 tasks

anapaulagomes closed this Apr 20, 2020

MVP - banco de dados automation moved this from In progress to Done Apr 20, 2020

cuducos deleted the queue-for-tika branch January 1, 2021 16:55

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Refactors file pipeline to add queue #60

Refactors file pipeline to add queue #60

cuducos commented Mar 18, 2020 •

edited

Loading

anapaulagomes left a comment

cuducos commented Mar 28, 2020 •

edited

Loading

cuducos commented Mar 28, 2020

anapaulagomes left a comment

anapaulagomes left a comment

anapaulagomes left a comment •

edited

Loading

anapaulagomes Apr 1, 2020

cuducos Apr 1, 2020

cuducos commented Apr 1, 2020

anapaulagomes commented Apr 20, 2020

Refactors file pipeline to add queue #60

Refactors file pipeline to add queue #60

Conversation

cuducos commented Mar 18, 2020 • edited Loading

anapaulagomes left a comment

Choose a reason for hiding this comment

cuducos commented Mar 28, 2020 • edited Loading

cuducos commented Mar 28, 2020

anapaulagomes left a comment

Choose a reason for hiding this comment

anapaulagomes left a comment

Choose a reason for hiding this comment

anapaulagomes left a comment • edited Loading

Choose a reason for hiding this comment

anapaulagomes Apr 1, 2020

Choose a reason for hiding this comment

cuducos Apr 1, 2020

Choose a reason for hiding this comment

cuducos commented Apr 1, 2020

anapaulagomes commented Apr 20, 2020

cuducos commented Mar 18, 2020 •

edited

Loading

cuducos commented Mar 28, 2020 •

edited

Loading

anapaulagomes left a comment •

edited

Loading