Skip to content

Парсинг документов PEP на базе фреймворка Scrapy.

Notifications You must be signed in to change notification settings

Tatiana314/Scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy_parser_pep - проект парсинга документов PEP на базе фреймворка Scrapy.

Парсер собирает ссылки на документы PEP со стартовой страницы по адресу https://peps.python.org/ и переходит по каждой ссылке, чтобы получить актуальную информацию о каждом документе PEP.

Парсер работает в асинхронном режиме, что существенно ускоряет процесс парсинга. После сбора информации, парсер обрабатывает ее и выводит результаты в два файла формата .csv. Названия файлов содержат временную метку для уникальности.

В первом файле выводится список всех PEP документов вместе с их номерами, названиями и статусами. Во втором файле представлена сводка по статусам PEP - количество документов, найденных в каждом статусе. В последней строке второго файла указана общая информация о количестве всех найденных документов. Файлы сохраняются в папку results, находящуюся в корне проекта.

Технологии

Python Scrapy CSS XPath

Запуск проекта

Клонировать репозиторий:

git clone https://github.com/Tatiana314/Scrapy_parser_pep.git && cd Scrapy_parser_pep

Создать и активировать виртуальное окружение:

python -m venv venv
Linux/macOS: source env/bin/activate
windows: source env/scripts/activate

Установить зависимости из файла requirements.txt:

python -m pip install --upgrade pip
pip install -r requirements.txt

Запустить приложение:

scrapy crawl pep

Автор

Мусатова Татьяна

About

Парсинг документов PEP на базе фреймворка Scrapy.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages