Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG] #17

Closed
fael0306 opened this issue Jun 6, 2023 · 3 comments
Closed

[BUG] #17

fael0306 opened this issue Jun 6, 2023 · 3 comments
Assignees
Labels
bug Something isn't working

Comments

@fael0306
Copy link

fael0306 commented Jun 6, 2023

Descreva o bug
O programa roda, porém, o script sempre encontra 0 ocorrências, mesmo elas existindo na Hemeroteca.

Reproduzir
Foi seguido exatamente o passo a passo solicitado. Foi feita a tentativa no Windows e no Linux, em diferentes computadores, sem sucesso.

Comportamento esperado
Era para aparecer as ocorrências na pasta, conforme a documentação. Ele sequer encontra ocorrências.

Screenshots
image

Desktop (por favor, preencha as seguintes informações):

  • SO: Linux Mint, Windows 10 e Windows 11
  • Versão do Python: 3.11
  • Terminal ou terminal virtual: CMD, PowerShell e Terminal (Linux Mint)
@fael0306 fael0306 added the bug Something isn't working label Jun 6, 2023
@ericbrasiln
Copy link
Owner

Olá @fael0306

Mujito obrigado pelo contato e pelo interesse na ferramenta.

Desculpe a demora em responder.

Alguma coisa aconteceu com o site da HDB que está causando esse funcionamento na pyHDB.
Ainda não consegui descobrir o que é!

No mês de julho vou retomar essa issue e buscar a solução.

Enquanto isso, você pode tentar executar o arquivo pyHDB_acervos.py.

Ele faz a busca em um acervo (pasta do jornal) ou lista de acervos. Para isso você precisa informar o número do acervo. Esse número (que geralmente representa um pasta de uma década de um determinado periódico), pode ser encontrado de algumas maneiras.

1) Buscar no código fonte da página dos resultados:

Se você inspecionar a página de resultados, e buscar #BibMaisButton, você encontrará as 50 tags que contém informações sobre as ocorrências e seus acervos. O número do acervo está nessa tag, como mostrado na imagem. Assim, você consegue encontrar todos os acervos que tem ocorrências de sua busca.

bib_mais

2) Encontrar o número na url de um acervo:

Se você clicar em um acervo na lista de resultado, abrirá a página da primeira ocorrência. Nessa url você encontra um numero entre bib= e &pesq=. Esse é o número do acervo.

bib_hdb

Exemplo de execução do pyHDB_acervos.py

Peek.16-06-2023.15-28.mp4

@fael0306
Copy link
Author

fael0306 commented Jun 17, 2023

Boa tarde, Eric.

Da forma alternativa funcionou perfeitamente.

Muito obrigado!

Espero que consiga fazer o programa principal voltar a funcionar.

Abraços.
😁

@ericbrasiln
Copy link
Owner

@fael0306 fiz algumas corresções e lancei uma nova versão. Testei no linux e no windows, ambas funcionaram normalmente.

Você pode ver as informações aqui.

É importante ressaltar que ao tentar raspar buscas com alguns milhares de ocorrências é mais comum encontrar erros, em função do próprio site da HDB apresentar problemas de carregamento quando utilizado em longas sequências.

Minha sugestão é utilizar a pyHDB para buscas divididas por décadas e com termos que gerem menos de 1000 ocorrências de resultado.

Qualquer coisa, me avise.
Abraços

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants