Skip to content

Парсер документации Python и PEP на Scrapy

Notifications You must be signed in to change notification settings

94R1K/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Typing SVG

Проект асинхронного парсинга документации PEP

Описание

Выполняется парсинг данных со страницы с общей информацией о PEP (https://peps.python.org/), переход по ссылкам и сбор данных о каждом PEP. Парсер подготавливает данные и сохраняет их в два файла формата csv в папку results.

Перед использованием

Клонируйте репозиторий к себе на компьютер:

git clone https://github.com/94R1K/scrapy_parser_pep.git

В корневой папке создайте виртуальное окружение и установите зависимости:

python -m venv venv
pip install -r requirements.txt

Запуск парсера из командной строки:

scrapy crawl pep

Вывод результатов

Результатом работы парсера будет создание двух файлов:

  1. pep_ДатаВремя.csv - содержит список всех PEP (number, name, status);
  2. status_summary_ДатаВремя.csv - содержит сводку по статусам PEP: сколько найдено документов в каждом статусе (Status, Quantity). В последней строке этого файла в колонке Total выводится общее количество всех документов.

Об авторе

Лошкарев Ярослав Эдуардович
Python-разработчик (Backend)
Россия, г. Москва
E-mail: real-man228@yandex.ru

VK TG

About

Парсер документации Python и PEP на Scrapy

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages