Cria worker para converter arquivos PDF para TXT #119

zoedsoupe · 2023-07-08T19:46:25Z

Descrição

Esta PR implementa a segunda parte do script de importação de cotações de pescado do site da Pesagro. Nesta parte do fluxo, um novo worker foi implementado, para vasculhar a tabela cotacao em busca de cotações (links) que ainda não foram baixadas.

Após baixar cada arquivo, uma verificação deve ser feita, pois alguns links da Pesagro são um conjunto de PDFs num arquivo zip, que devem ser extraídos.

Com todos os PDFs extraídos, deve-se então fazer upload na API da Zamzar de cada um dos PDFs extraídos, os convertendo para TXT. Não podemos ultrapassar o rate limit da API deles (5 requests por segundo).

Tendo o arquivo convertido, é preciso baixá-lo para que o último worker possa ser iniciado para fazer a ingestão (parsing) dos dados de cada pescado.

O script original pode ser encontrado no repositório cotacoes-api: https://github.com/peapescarte/cotacao-api/blob/feat-etl-module/etl/crawler.py

Pontos para atenção

O worker de conversão deve seguir o seguinte fluxo:
1. Buscar cotacoes no banco que ainda não foram baixadas
2. Baixar cada cotação, no site da Pesagro
3. Caso uma cotação seja um arquivo zip, extrair todos os PDFs contidos no arquivo
4. Fazer upload de cada PDF para a API da Zamzar, para conversão em TXT de cada um, respeitando o rate limit deles (no máximo 5 requests por segundo)
5. Baixar o arquivo convertido da Zamzar, caso já esteja pronto ou agendar uma nova consulta na API deles

Possui novas configurações?

Configurações internas para o uso correto da lib mox
Variável de ambiente FETCH_PESAGRO_COTACOES, um booleano para controlar se os workers devem ser iniciados com a aplicação ou não

Possui migrations?

N/A

Cyytrus

Eu curti bastante as abordagens utilizadas, mas tenho 1 ponto, que foi o mesmo que levantei no twitter:

Não acho mta lógica em utilizar uma API para converter PDF para txt, existem formas gratuitas bem mais rapidas para isso, como ghostscript, é possível instalá-lo no docker da aplicação e utilizá-lo sem problemas, uma vez que tenha os PDFs baixados basta você rodar o comando do link acima com um System.cmd() que rapidinho um txt é baixado onde vc especificar, sem rate limit.

Com isso, fica até mais fácil de testar com os asserts e tals 😃

Caso tenha dificuldades, podemos marcar um pair para fazer essa implementação <3

apps/cotacoes_etl/lib/cotacoes_etl/workers/pesagro/cotacao_converter.ex

zoedsoupe · 2023-07-10T00:03:07Z

@Cyytrus Primeiramente, muito obrigada pelo comentário! Você realmente me salvou! Eu fiquei procurando e pesquisando formas de converter um PDF pra TXT e não achei nada sobre ghostscript. Como são muitos arquivos, vou extrair essa lógica pra um outro worker, porque esse Converter ficou muito grande.

…oração

…o feat/cotacao-converter * 'main' of github.com:peapescarte/pescarte-plataforma: chore: increment asdf documentation (#117)

…rte-plataforma into feat/cotacao-converter * 'feat/cotacao-converter' of github.com:peapescarte/pescarte-plataforma:

* main: Cria worker para converter arquivos PDF para TXT (#119)

* main: Feat/radio component (#121) Melhora o ambiente de desenvolvimento com Docker (#123) resolve testes do contexto de cotacao Melhora estrutura para importação de cotações da Pesagro (#122) Cria worker para converter arquivos PDF para TXT (#119)

* main: (35 commits) divide Dockerfile em prod e dev stages e atualiza doc Criando estrutura inicial para app catalogo (#120) Feat/radio component (#121) Melhora o ambiente de desenvolvimento com Docker (#123) resolve testes do contexto de cotacao Melhora estrutura para importação de cotações da Pesagro (#122) Cria worker para converter arquivos PDF para TXT (#119) chore: increment asdf documentation (#117) Adiciona integração com API da Zamzar para conversão de PDF para TXT (#118) Cria app CotacoesETL e buscador de novas cotações na Pesagro (#113) Implementa handler e repository para app cotacoes (#114) Cria modelos para APP de Cotações (#111) adiciona app de cotacoes (#110) Feat/textarea component (#109) Bug/correcoes layout (#108) Bug/correcoes layout (#84) adiciona mutation para adicionar tags a uma midia (#107) adiciona o app seeder no Dockerfile adiciona secret key base para api corrige strings para atomos na release ...

testes

2df4967

zoedsoupe requested review from douglastofoli and AlexJunior01 July 8, 2023 19:46

zoedsoupe self-assigned this Jul 8, 2023

Merge branch 'main' into feat/cotacao-converter

52c530f

Cyytrus reviewed Jul 9, 2023

View reviewed changes

apps/cotacoes_etl/lib/cotacoes_etl/workers/pesagro/cotacao_converter.ex Outdated Show resolved Hide resolved

Zoey de Souza Pessanha added 7 commits July 10, 2023 09:15

remove integração com zamzar API e remove CotacaoConverter para refat…

51c4fb1

…oração

testes para conversor PDF

97dd3d0

worker para extrair zips

c581c64

melhora testes do PDFConverter

22a7ee3

melhora os testes de ZIPExtractor

7f46d93

wip testes boletim-downloader

f5e4626

Merge branch 'main' of github.com:peapescarte/pescarte-plataforma int…

b1098e9

…o feat/cotacao-converter * 'main' of github.com:peapescarte/pescarte-plataforma: chore: increment asdf documentation (#117)

zoedsoupe enabled auto-merge (squash) July 11, 2023 00:29

zoedsoupe force-pushed the feat/cotacao-converter branch from 9411968 to 630e8fe Compare July 11, 2023 00:36

zoedsoupe requested a review from Cyytrus July 11, 2023 00:37

Merge branch 'feat/cotacao-converter' of github.com:peapescarte/pesca…

055a6aa

…rte-plataforma into feat/cotacao-converter * 'feat/cotacao-converter' of github.com:peapescarte/pescarte-plataforma:

zoedsoupe force-pushed the feat/cotacao-converter branch from 630e8fe to 055a6aa Compare July 11, 2023 00:38

zoedsoupe disabled auto-merge July 18, 2023 20:08

zoedsoupe merged commit 503bc4e into main Jul 18, 2023
3 of 4 checks passed

zoedsoupe deleted the feat/cotacao-converter branch July 18, 2023 20:08

zoedsoupe pushed a commit that referenced this pull request Jul 18, 2023

Merge branch 'main' into feat/cotacao-ingester

5f2a775

* main: Cria worker para converter arquivos PDF para TXT (#119)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cria worker para converter arquivos PDF para TXT #119

Cria worker para converter arquivos PDF para TXT #119

zoedsoupe commented Jul 8, 2023 •

edited

Cyytrus left a comment

zoedsoupe commented Jul 10, 2023

Cria worker para converter arquivos PDF para TXT #119

Cria worker para converter arquivos PDF para TXT #119

Conversation

zoedsoupe commented Jul 8, 2023 • edited

Descrição

Pontos para atenção

Possui novas configurações?

Possui migrations?

Cyytrus left a comment

Choose a reason for hiding this comment

zoedsoupe commented Jul 10, 2023

zoedsoupe commented Jul 8, 2023 •

edited