Skip to content

hardworkerM/telegraph_parsing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 

Repository files navigation

Парсинг telegraph

Экскурс
URL-адрес telegraph обладает интересным свойством.
К примеру, https://telegra.ph/Parsing-telegraph-06-09
Правая часть, после домена это

  • Parsing-telegraph - название статьи (что пишется в графе Title)
  • 06 - месяц в котором опубликована статья
  • 09 - год, в котором была опубликована статья

Когда в месяц-год опубликовано >1 статьи с одинаковым post_name
К URL-адерсу добавляется приставка и URL второй статьи выпущенной с таким же тайтлом выглядел бы
https://telegra.ph/Parsing-telegraph-06-09-02

Работа

  1. Скачайте репозиторий
git clone https://github.com/hardworkerM/telegraph_parsing
  1. Установите все билиотеки
pip install -r requirements.txt
  • key_words - список ключевых слов для парсинга (Title)
  • months - месяца (в приницпе все 12)
  • years - года, все очевидно

Спам

Во время разработки парсера я обнаружил огромное количество пустых, рекламных и прочих невалидных статей.

Поэтому, помимо во время парсинга будем проверять адрес на валидность check_spam


Вывод

Не используйте telegraph для записи паролей и хранения личной информации :)

Releases

No releases published

Packages

No packages published

Languages