Консольная программа для скрапинга веб-страниц с новостями.
Для сборки программы в исполняемый файл выполните команду (или воспользуйтесь собранной версией):
pyinstaller webscraper.py -F -c -n webscraper
Для запуска откройте командную строку Windows и запустите webscraper.exe, передав в качестве аргумента URL для скрапинга. Шаблон с параметрами должен находиться в той же директории, что и исполняемый файл webscraper.exe.
webscraper.exe --url=http://your_site/news/1/
template.json - шаблон с параметрами для парсинга страниц, содержит список тегов и длинну строки.
- Получаем на входе аргумент командной строки с URL
- Обрабатываем URL в классе url
- Формируем имя директории для записи в файл
- Подгружаем текущий шаблон и передаем его в парсер
- Передаем сырые данные в парсер
- Форматируем полученный от парсера контент и записываем его в файл
- Добавление возможности авторизации на ресурсах
- Добавление еще одного аргумента для использования с разными шаблонами
- Обработка ошибок
- Загрузка списка сайтов из файла
- Использование специализированных библиотек для скрапинга
- Сохранение результатов в БД
https://quote.rbc.ru/news/article/5f4d0b839a794768c88f6a2e https://lenta.ru/news/2020/09/03/kilogram/ https://www.gazeta.ru/politics/2020/09/06_a_13238384.shtml