Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Выбор данных #21

Open
Svist122 opened this issue Feb 27, 2023 · 2 comments
Open

Выбор данных #21

Svist122 opened this issue Feb 27, 2023 · 2 comments

Comments

@Svist122
Copy link

Добрый день, как я понимаю вопрос нехватки оперативка связан с тем что парсер забирает все данные каждой организации, а можно ли как то его ограничить по выкачиванию данных, например

  1. Выкачивать только компании у которых есть email или телефон
  2. Выкачивать все компании но только поля название, email, телефон, сайт без не нужных забивающих память ссылок
@interlark
Copy link
Owner

По сути сайт 2GIS - это SPA, с каждым кликом, каждым переходом на очередную страницу поисковой выдачи приложение гидрируется API и перестраивает свой DOM, потребляя память под новые данные и не освобождая старую, что приводит к утечке памяти. Такое происходит по разным причинам, часто из-за неправильной отвязке хандлеров событий разработчиками сайта.

В планах написать восстановление процесса парсинга с последней успешно спарсеной страницы, это даст возможность парсить на любом размере памяти.

@Svist122
Copy link
Author

Я вас понял, звучит логично. А что если в момент когда загрузка память превышает заданную в настройках например 3 гигабайта копировать (с /page/2) и принудительно обрубать эту ссылку, после чего подставлять ее в самый низ массива ссылок.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants