Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[bug] Raspadores não mais fazendo coletas em produção #929

Closed
trevineju opened this issue Sep 14, 2023 · 0 comments · Fixed by #930
Closed

[bug] Raspadores não mais fazendo coletas em produção #929

trevineju opened this issue Sep 14, 2023 · 0 comments · Fixed by #930
Labels
type:bug Algo não está funcionando type:production Esse problema afeta o que está em produção

Comments

@trevineju
Copy link
Member

trevineju commented Sep 14, 2023

Após #925 e #926, os raspadores em produção pararam de funcionar, o que só foi percebido quando as cidades de #927 foram entrar. Usando umas das cidades de exemplo, Prado-BA, tivemos os seguintes erros na Zyte:

  • problema com biblioteca pkg_resources:

2023-09-12 14:17:21    ERROR    /usr/local/sbin/start-crawl:8: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html Less
  import pkg_resources

  • Abandona coleta de itens por conta de validação. Foram vários itens abandonados, apenas um ilustrado abaixo.

2023-09-12 01:18:02    WARNING    [scrapy.core.scraper] Dropped: Validation failed! More

As vezes é comum isso acontecer, porém no #927 deixei logs das coletas locais que fiz e nenhum item era abandonado nesses testes.

  • Entra numa recursão sem fim, o que topa memória das máquinas da Zyte e aí cessa a execução.

71:    2023-09-12 01:18:37    CRITICAL    [twisted] Less
[...]
  File "/app/python/lib/python3.11/site-packages/botocore/awsrequest.py", line 389, in _prepare_headers
    headers = HeadersDict(original.headers.items())
  File "/app/python/lib/python3.11/site-packages/botocore/awsrequest.py", line 614, in init
    self.update(*args, **kwargs)
  File "", line 947, in update
  File "", line 119, in instancecheck
RecursionError: maximum recursion depth exceeded in comparison

image

Fazendo downgrade do Spidermon[monitoring], foi percebido que o problema começa na versão 17.0.1, enquanto na 17.0.0 executa corretamente.

Logs:
17.0.0:
ba_prado-downgrade-17.csv
ba_prado-downgrade-17.txt

17.1.0:
ba_prado-downgrade-17-1.csv
ba_prado-downgrade-17-1.txt

@trevineju trevineju added type:bug Algo não está funcionando help wanted type:production Esse problema afeta o que está em produção labels Sep 14, 2023
rennerocha added a commit that referenced this issue Sep 18, 2023
### Descrição
Resolve #929 

### Comentários
Atualizando minha venv local com os novos requirements, a execução de
Prado-BA - mesmo raspador apontado na issue, coletando apenas desde
agosto/23 até hoje, gera os seguintes arquivos:

[prado_com_erro.csv](https://github.com/okfn-brasil/querido-diario/files/12612259/prado_com_erro.csv)
- vazio

[prado_com_erro.txt](https://github.com/okfn-brasil/querido-diario/files/12612261/prado_com_erro.txt)

Ao fazer as atualizações propostas neste PR, temos (para o mesmo período
de coleta):

[prado_modificado.csv](https://github.com/okfn-brasil/querido-diario/files/12612271/prado_modificado.csv)
- coleta com sucesso

[prado_modificado.txt](https://github.com/okfn-brasil/querido-diario/files/12612273/prado_modificado.txt)

Atualizar a biblioteca deprecada `pkg_resources` foi um dos erros
apontados em #929. Segui as instruções em
https://importlib-resources.readthedocs.io/en/latest/migration.html para
isso. Pareceu funcionar.

Quanto ao erro de validação apontado na issue #929, há uma issue aberta
no repositório do Spidermon, que dialoga com o problema:
scrapinghub/spidermon#379. Não tive certeza o
que fazer com isso.

Abro o PR como ponto de partida do que já enderecei, porém talvez haja
outras verificações e modificações para fazer.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
type:bug Algo não está funcionando type:production Esse problema afeta o que está em produção
Projects
No open projects
Development

Successfully merging a pull request may close this issue.

1 participant