Экскурс
URL-адрес telegraph обладает интересным свойством.
К примеру, https://telegra.ph/Parsing-telegraph-06-09
Правая часть, после домена это
- Parsing-telegraph - название статьи (что пишется в графе Title)
- 06 - месяц в котором опубликована статья
- 09 - год, в котором была опубликована статья
Когда в месяц-год опубликовано >1 статьи с одинаковым post_name
К URL-адерсу добавляется приставка и URL второй статьи выпущенной с таким же тайтлом выглядел бы
https://telegra.ph/Parsing-telegraph-06-09-02
- Скачайте репозиторий
git clone https://github.com/hardworkerM/telegraph_parsing
- Установите все билиотеки
pip install -r requirements.txt
- key_words - список ключевых слов для парсинга (Title)
- months - месяца (в приницпе все 12)
- years - года, все очевидно
Во время разработки парсера я обнаружил огромное количество пустых, рекламных и прочих невалидных статей.
Поэтому, помимо во время парсинга будем проверять адрес на валидность check_spam
Не используйте telegraph для записи паролей и хранения личной информации :)