RulateParser – это кроссплатформенный скрипт для получения данных с сайта Tl.Rulate.ru в формате JSON. Он позволяет записать всю информацию о конкретной новелле, а также её главах и содержании глав.
- Загрузить последний релиз. Распаковать.
- Установить Python версии не старше 3.10. Рекомендуется добавить в PATH.
- В среду исполнения установить следующие пакеты: BeautifulSoup4, dublib, lxml.
pip install BeautifulSoup4
pip install dublib
pip install lxml
Либо установить сразу все пакеты при помощи следующей команды, выполненной из директории скрипта.
pip install -r requirements.txt
- Настроить скрипт путём редактирования Settings.json.
- Открыть директорию со скриптом в терминале. Можно использовать метод
cdи прописать путь к папке, либо запустить терминал из проводника. - Указать для выполнения главный файл скрипта
main.py, передать ему команду вместе с параметрами, нажать кнопку ввода и дождаться завершения работы.
parse [TARGET*] [FLAGS] [KEYS]
Проводит парсинг тайтла с указанным алиасом в JSON формат и загружает его обложки. В случае, если файл тайтла уже существует, дополнит его новыми данными.
Описание позиций:
- TARGET – задаёт цель для парсинга. Обязательная позиция.
- Аргумент – алиас тайтла для парсинга.
- Флаги:
- -collection – указывает, что список тайтлов для парсинга необходимо взять из файла Collection.txt;
- -local – указывает для парсинга все локальные файлы.
Список специфических флагов:
- -f – включает перезапись уже загруженных обложек и существующих JSON файлов.
Список специфических ключей:
- --from – указывает алиас тайтла, с момента обнаружения которого в коллекции тайтлов необходимо начать парсинг.
Данный тип флагов работает при добавлении к любой команде и выполняет отдельную от оной функцию.
- -s – выключает компьютер после завершения работы скрипта.
"login": ""Логин для авторизации на сайте.
"password": ""Пароль для авторизации на сайте.
"mature-book-id": 6860ID книги, классифицируемой как 18+ произведение. С помощью её страницы будет отключаться предупреждение о возрастном ограничении.
"noveld-directory": ""Указывает, куда сохранять JSON-файлы тайтлов. При пустом значении будет создана папка Novels в исполняемой директории скрипта.
"images-directory": ""Указывает, куда сохранять иллюстрации новелл. При пустом значении будет создана папка Images в исполняемой директории скрипта.
"covers-directory": ""Указывает, куда сохранять обложки тайтлов. При пустом значении будет создана папка Covers в исполняемой директории скрипта.
"link-to-images-directory": falseЕсли включено, корнем для ссылок иллюстраций будет считаться указанный в настройке images-directory каталог.
"prettifier": trueВключает набор готовых решений для повышения качества получаемого контента:
- очистка небуквенных абзацев в конце глав;
- удаление дублирующихся названий из текста глав;
- замена трёх точек символом многоточия в названиях глав;
- удаление лишних точек из названий глав.
"filters": trueВключает удаление подстрок из текста глав и описания новеллы по регулярным выражениям из файла Filters.txt. В файле поддерживается комментирование при помощи спецсимвола #.
"proxy": {
"enable": false,
"host": "",
"port": "",
"login": "",
"password": ""
}Указывает HTTP-прокси для выполнения запросов.
"delay": 0Устанавливает интервал в секундах между последовательными запросами к серверу.
Copyright © DUB1401. 2024.