Skip to content
This repository was archived by the owner on Sep 15, 2025. It is now read-only.
/ Parser Public archive

Пилотный проект парсера

License

Notifications You must be signed in to change notification settings

revlze/Parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

181 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер научных журналов eLibrary

Краткое описание

Данная программа собирает список публикаций автора по его идентификатору eLibrary и информацию о статьях. В текущей версии сохраняется следующая информация:

  • Список авторов (authors),
  • Заголовок публикации (title),
  • Год публикации (year),
  • Библиографическая информация (source title),
  • Количество цитирований(cited by),
  • Ссылка на страницу публикации (link),
  • Ссылка на источник (source id).

HTML-страницы с публикациями автора/организаций загружаются в папку <data_path>/raw/<organization_id>. Информация о публикациях сохраняется в файл формата CSV в папку <data_path>/processed/<organization_id>/publications.csv.

Установка

Вам потребуется Python 3.5 или более поздней версии. Вы можете иметь несколько установленных версий, это не должно вызвать проблем.

Также для корректной работы Вам подребуется установить некоторые библиотеки. Для этого можно просто указать путь до requirements.txt в консоли и ввести команду.

$ pip install -r /path/to/requirements.txt

Чтобы библиотека selenium могла имитировать работу браузера необходимо иметь предустановленным браузер Firefox, а также gekodriver.exe, затем указать в файле config.py путь до gekodriver на Вашем компьютере.

About

Пилотный проект парсера

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 5