Skip to content

mishin/HabraData

 
 

Repository files navigation

HabraData
Ссылка на статью: http://habrahabr.ru/post/218607/

=========

run.py -- запускает сбор данных с хабра и генерацию датасета (требует наличия трех файлов ниже и хотя бы одного датасета статей)
article.py -- класс хабра-статья
habraPageParser.py -- парсит отдельную страницу со всеми статьями на ней
habraArticlesGenerator.py -- пробегает сайт хабры и передает парсеру нужные страницы -- имеет два метода, собрать всё и собрать только лучшее

Данные по статьям на хабре

Статьи скачаны 7 апреля 2014го года.
all.csv -- Все статьи начиная с момента публикации первого tutorial (27 сентября 2012).
dataset_top_all_time.csv -- Все статьи из лучшего за всё время
habra_dataset_monthly.csv -- Все статьи из лучшего за месяц
habra_dataset_weekly.csv -- Все статьи из лучшего за неделю

Формат собранных статей: id, title, author, score, views, favors, isTutorial

post_152563,Делаем уроки на Хабре,Boomburum,+137,23991,58,1
post_152569,Проект 3D-принтера ...,SLY_G,+29,25786,53,0
post_152571,Новое API в Gingerbread...,TheDimasig,+8,6643,52,1
post_152575,Опыт использования Palm ...,JetP1L0t,+6,12331,9,0
....
post_152641,Code Venture: Инвестиции...,Offenso,+3,3187,16,0
post_152643,Подушка comma(*) которая ..,sharamyshara,+38,30265,72,0
post_152645,Case study: Дневник.ру и ...,XaocCPS,+2,3729,7,0
....

*Все запятые в заголовках заменены на comma

alive_test_id.csv -- лог-проверки живая ли страница
test -- попытались открыть страницу
alive -- страница живая, если alive записи нет, то страница мертвая -- либо 404, либо закрыт доступ

type, id
test, 152563
alive, 152563
test, 152564
test, 152565

About

Данные по статьям на хабре

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published