Skip to content

declarator-org/dscrap

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

dscrap

Scraper for https://ideputat.er.ru/ website

Скрейпер обращается к фронте-енду указанного сайта, по очереди ротируя цифры в конфе УРЛ (порядковые номера персон в источнике).

Часть страниц отвечает 200, контент с нее сохраняется в результирующий файл.

Часть страниц отвечает 403/404, такой результат записывается в лог. Часть страниц не отвечает, такое соединение сбрасывается скриптом. По всей видимости, часть страниц были удалены/удалены из публичного доступа.

Результаты скрепйинга сохраняются в результирующие файлы после прохода 50 тысяч идентификаторов.

По состоянию на 23/11/2024 после id=313464 контента нет.

todo: написать скрипт для сохранения фотографий из источника

About

Scraper for https://ideputat.er.ru/ website

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages