Skip to content

roman-lugovkin/lj-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

lj-crawler 0.9

LiveJournal Crawler

Краулер Живого Журнала - livejournal.com

Собирает тексты постов и информацию о комментариях и комментаторах по заданному списку журналов в заданном временном диапазоне. Работает в многопоточном режиме (по умолчанию 5 потоков).

Запуск по одному пользователю: perl lj-user-crawler.pl tema

Запуск по списку: perl lj-crawler.pl lj.txt

По умолчанию собирается контент (чистый текст, без разметки) постов пользователя(ей) за текущий месяц с информацией о комментариях.

Основные параметры запуска lj-crawler.pl

  • -y - год или диапазон лет: -y 2017, -y 2001-2017
  • -m - диапазон месяцев если работа идет по одному году: -m 12, -m 1-6
  • -cm - отключение режима сбора комментариев: -cm n (по умолчанию собирает комментарии)
  • -d - очистка файлов данных перед сбором: -d 1 (по умолчанию дописывает данные)

Сбор данных журналов пользователей из списка в lj.txt за январь-июнь 2017 года без комментариев:

perl lj-crawler.pl lj.txt -y 2017 -m 1-6 -cm n

В результате работы краулера в каталоге ./data создаются по два файла на пользователя:

  • content.%username%.csv - очищенный от тегов текст постов, один пост на строке, поля разделены табуляцией: имя пользователя, id поста, дата и время поста, заголовок, текст поста
  • cm.%username%.json - комментарии к постам в формате JSON (в принципе там структура понята), одна строка на пост, поля разделены табуляцией: имя пользователя, id поста, время поста, комментариев должно быть, комментариев найдено, json-данные

Внимание! Настоящее ПО написано в исследовательских целях. Используя данное ПО вы принимаете на себя ответственность за возможное нарушение лицензионного соглашения сервиса www.livejournal.com

About

LiveJournal crawler

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages