Skip to content

Приложение для парсинга и анализа научных статей (на примере библиотеки cyberleninka). Справляется с сайтами, которые догружают основной контент после загрузки страницы. Парсинг производится с использованием библиотеки Selenium. При парсинге данные выгружаются в БД. Из всех статей ищутся наиболее часто встречающиеся слова и авторы, после чего фо…

Notifications You must be signed in to change notification settings

AlbertSadykovOfficial/PythonWebParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python web-parser with GUI

Особенности:

  1. Библиотека eel.js требует установленного браузера chrome.
  2. Для работы selenium требуется chrome webdriver, который нужно поместить в каталог (parse)
  3. На windows может возникнуть проблема с установкой пакета wordcloud

Ссылка для загрузки пакета wordcloud .whl формата и драйвера chromedriver.exe: https://disk.yandex.ru/d/EIpiXA7LWODBtA

Устанока библиотек:

		pip3 install selenium
		pip3 install nltk
		pip3 install collections
		pip3 install eel
		pip3 install wordcloud

Проблемы с Wordcloud

На windows может возникнуть проблема с установкой пакета wordcloud. Поэтому эту бибиотеку нужно установить вручную. Для этого стоит перейти в каталог с пакетом .whl и выполнить pip команду.

Установка локальных пакетов:

		pip install pakage-name.whl

Пример:

		pip install wordcloud-1.8.1-cp39-cp39-win_amd64.whl

About

Приложение для парсинга и анализа научных статей (на примере библиотеки cyberleninka). Справляется с сайтами, которые догружают основной контент после загрузки страницы. Парсинг производится с использованием библиотеки Selenium. При парсинге данные выгружаются в БД. Из всех статей ищутся наиболее часто встречающиеся слова и авторы, после чего фо…

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published