Scraper for https://ideputat.er.ru/ website
Скрейпер обращается к фронте-енду указанного сайта, по очереди ротируя цифры в конфе УРЛ (порядковые номера персон в источнике).
Часть страниц отвечает 200, контент с нее сохраняется в результирующий файл.
Часть страниц отвечает 403/404, такой результат записывается в лог. Часть страниц не отвечает, такое соединение сбрасывается скриптом. По всей видимости, часть страниц были удалены/удалены из публичного доступа.
Результаты скрепйинга сохраняются в результирующие файлы после прохода 50 тысяч идентификаторов.
По состоянию на 23/11/2024 после id=313464 контента нет.
todo: написать скрипт для сохранения фотографий из источника