Парсер для проектов Habrahabr.ru и Geektimes.ru
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
habr
.codeclimate.yml
.gitignore
.travis.yml
Dockerfile
README.md
habraparse.py
requirements.txt
setup.py

README.md

habraparse

Build Status Code Climate Issue Count

Парсер для проектов Habrahabr.ru и Geektimes.ru

Для работы скрипта необходимо установить зависимости

pip install -r requirements.txt

Usage:

  ./habraparse.py save_favs_list [--gt] <username> <out_file>
  ./habraparse.py save_favs [--gt] [-cn --save-html --limit=N] <username> <out_dir>
  ./habraparse.py save_post [--gt] [-c --save-html] <topic_id> <out_file>

По умолчанию все команды работают с проектом HabraHabr.ru. При задании опции --gt скрипт будет работать с GeekTimes.ru

Команды:

  save_favs_list - сохранение в файл <out_file> списка URL избранного для пользователя <username>
  save_favs - сохранение в папку <out_dir> статей из избранного для пользователя <username>
  save_post - сохранение в файл <out_file> стати с заданным ID

Описание опций:

  --save-html          Сохранить в HTML (по умолчанию, в PDF)
  -n, --save-by-name       Сохранять с именем, полученным из названия статьи (по умолчанию - по ID статьи)
  -c, --with-comments     Сохранить вместе с коментариями
  --limit=N          Ограничить количество в N статей

Changelog: 12.02.2017

  • Добавлены мета теги для лучшего поиска PDF
  • Исправлена вставка автора(вставляется ссылка на автора рабочая)
  • Решана проблема с маштабированием изображений
  • Теперь тестируется только python 3.5 и 3.6, на других версиях тоже может работать.

01.02.2015

  • исправлены ошибки
  • добавлена поддержка Geektimes.ru и Megamozg.ru 28.05.2016
  • удалена поддержка Megamozg в связи с его кончиной (R.I.P.) 11.12.2016
  • исправлено поведение согласно изменениям на сайте
  • добавлен файл requirements.txt

Распространяется по лицензии GNU GPL v2.0. Under license GNU GPL v2.0