LiveJournal Crawler
Краулер Живого Журнала - livejournal.com
Собирает тексты постов и информацию о комментариях и комментаторах по заданному списку журналов в заданном временном диапазоне. Работает в многопоточном режиме (по умолчанию 5 потоков).
Запуск по одному пользователю:
perl lj-user-crawler.pl tema
Запуск по списку:
perl lj-crawler.pl lj.txt
По умолчанию собирается контент (чистый текст, без разметки) постов пользователя(ей) за текущий месяц с информацией о комментариях.
Основные параметры запуска lj-crawler.pl
-y
- год или диапазон лет:-y 2017
,-y 2001-2017
-m
- диапазон месяцев если работа идет по одному году:-m 12
,-m 1-6
-cm
- отключение режима сбора комментариев:-cm n
(по умолчанию собирает комментарии)-d
- очистка файлов данных перед сбором:-d 1
(по умолчанию дописывает данные)
Сбор данных журналов пользователей из списка в lj.txt за январь-июнь 2017 года без комментариев:
perl lj-crawler.pl lj.txt -y 2017 -m 1-6 -cm n
В результате работы краулера в каталоге ./data создаются по два файла на пользователя:
content.%username%.csv
- очищенный от тегов текст постов, один пост на строке, поля разделены табуляцией: имя пользователя, id поста, дата и время поста, заголовок, текст постаcm.%username%.json
- комментарии к постам в формате JSON (в принципе там структура понята), одна строка на пост, поля разделены табуляцией: имя пользователя, id поста, время поста, комментариев должно быть, комментариев найдено, json-данные
Внимание! Настоящее ПО написано в исследовательских целях. Используя данное ПО вы принимаете на себя ответственность за возможное нарушение лицензионного соглашения сервиса www.livejournal.com