Skip to content

DUB1401/RulateParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

RulateParser

RulateParser – это кроссплатформенный скрипт для получения данных с сайта Tl.Rulate.ru в формате JSON. Он позволяет записать всю информацию о конкретной новелле, а также её главах и содержании глав.

Порядок установки и использования

  1. Загрузить последний релиз. Распаковать.
  2. Установить Python версии не старше 3.10. Рекомендуется добавить в PATH.
  3. В среду исполнения установить следующие пакеты: BeautifulSoup4, dublib, lxml.
pip install BeautifulSoup4
pip install dublib
pip install lxml

Либо установить сразу все пакеты при помощи следующей команды, выполненной из директории скрипта.

pip install -r requirements.txt
  1. Настроить скрипт путём редактирования Settings.json.
  2. Открыть директорию со скриптом в терминале. Можно использовать метод cd и прописать путь к папке, либо запустить терминал из проводника.
  3. Указать для выполнения главный файл скрипта main.py, передать ему команду вместе с параметрами, нажать кнопку ввода и дождаться завершения работы.

Консольные команды

parse [TARGET*] [FLAGS] [KEYS]

Проводит парсинг тайтла с указанным алиасом в JSON формат и загружает его обложки. В случае, если файл тайтла уже существует, дополнит его новыми данными.

Описание позиций:

  • TARGET – задаёт цель для парсинга. Обязательная позиция.
    • Аргумент – алиас тайтла для парсинга.
    • Флаги:
      • -collection – указывает, что список тайтлов для парсинга необходимо взять из файла Collection.txt;
      • -local – указывает для парсинга все локальные файлы.

Список специфических флагов:

  • -f – включает перезапись уже загруженных обложек и существующих JSON файлов.

Список специфических ключей:

  • --from – указывает алиас тайтла, с момента обнаружения которого в коллекции тайтлов необходимо начать парсинг.

Неспецифические флаги

Данный тип флагов работает при добавлении к любой команде и выполняет отдельную от оной функцию.

  • -s – выключает компьютер после завершения работы скрипта.

Settings.json

"login": ""

Логин для авторизации на сайте.


"password": ""

Пароль для авторизации на сайте.


"mature-book-id": 6860

ID книги, классифицируемой как 18+ произведение. С помощью её страницы будет отключаться предупреждение о возрастном ограничении.


"noveld-directory": ""

Указывает, куда сохранять JSON-файлы тайтлов. При пустом значении будет создана папка Novels в исполняемой директории скрипта.


"images-directory": ""

Указывает, куда сохранять иллюстрации новелл. При пустом значении будет создана папка Images в исполняемой директории скрипта.


"covers-directory": ""

Указывает, куда сохранять обложки тайтлов. При пустом значении будет создана папка Covers в исполняемой директории скрипта.


"link-to-images-directory": false

Если включено, корнем для ссылок иллюстраций будет считаться указанный в настройке images-directory каталог.


"prettifier": true

Включает набор готовых решений для повышения качества получаемого контента:

  • очистка небуквенных абзацев в конце глав;
  • удаление дублирующихся названий из текста глав;
  • замена трёх точек символом многоточия в названиях глав;
  • удаление лишних точек из названий глав.

"filters": true

Включает удаление подстрок из текста глав и описания новеллы по регулярным выражениям из файла Filters.txt. В файле поддерживается комментирование при помощи спецсимвола #.


"proxy": {
	"enable": false,
	"host": "",
	"port": "",
	"login": "",
	"password": ""
}

Указывает HTTP-прокси для выполнения запросов.


"delay": 0

Устанавливает интервал в секундах между последовательными запросами к серверу.

Copyright © DUB1401. 2024.

About

Парсер Tl.Rulate.ru в формат JSON.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Contributors

Languages