# Сбор и пропроцессинг данных
В данном задании было предложено получить датасет из статей на habr размером от 100 тыс. статей, каждая из которых не менее 2000 символов. Некоторую сложность задаче придал тот факт, что у habr нет API для работы с содержимым сайта (как, например, у twitter). Еще одно ограничение бало вызвано тем, что при работе краулера в многопоточном режиме habr ограничивает количество запросов с одного ip-адреса, и, при превышении данного ограничения, блокирует ip-фдрес не некоторое время. Опытным путем было выяснено, что наиболее безопасным с точки зрения избегания блокировки является количество процессов равное 24. При таком кол-ве процессов общее время загрузки датасета составило около 6 часов. Это также связано с тем, что на habr часть постов либо пустые, либо закрытые, что не удовляетворяет условиям задачи и пришлось загружать более, чем 100 тыс. постов (конкретно - 300 тыс. постов).

In [0]:
import multiprocessing
from datetime import datetime
import json
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
from collections import defaultdict
from datetime import datetime
import pandas as pd



errs = []

def get_data(i):
    url = f"https://m.habr.com/kek/v1/articles/{i}/?fl=ru%2Cen&hl=ru"

    data = None

    try:
        r = requests.get(url)
        if r.status_code != 200:
            return 404
        if r.status_code == 503:
            return 503

        data = json.loads(r.text)

        article = data['data']
        # текст статьи поступает с html разметкой
        # ее можно убрать с помощью BeautifulSoup
        soup = BeautifulSoup(article['text_html'], 'lxml')

        id_ = article['id']
        is_tutorial = article['is_tutorial']
        time_published = article['time_published']
        comments_count = article['comments_count']
        lang = article['lang']
        tags_string = article['tags_string']
        title = article['title']
        content = soup.text
        reading_count = article['reading_count']
        author = article['author']['login']
        score = article['voting']['score']
        data = (id_,
                    time_published,
                    author,
                    title,
                    content,
                    lang,
                    comments_count,
                    reading_count,
                    score,
                    is_tutorial,
                    tags_string)
    except Exception as e:
        errs.append(i)
    return data

In [0]:
articles = []
num_processor = 24
with multiprocessing.Pool(num_processor) as mp:
    for result in tqdm(mp.imap_unordered(get_data, range(200000, 500000)), total=500000):
        articles.append(result)

100%|██████████| 100000/100000 [1:15:14<00:00, 22.15it/s]


In [0]:
import re
import pandas as pd

In [0]:
arts = [article for article in articles if not (isinstance(article, int) or article is None)]
data = defaultdict(list)

for ind, time, auth, title, text, lang, comm, reading, score, is_tut, tags in arts:
    data["ind"].append(ind)
    dt = datetime.strptime(time.split("+")[0], "%Y-%m-%dT%H:%M:%S")
    # в версии 3.7 можно делать так
    # dt = datetime.strptime(time, "%Y-%m-%dT%H:%M:%S%z")
    
    data["year"].append(dt.year)
    data["month"].append(dt.month)
    data["day"].append(dt.day)
    data["weekday"].append(dt.weekday())
    data["hour"].append(dt.hour)
    
    data["author"].append(auth)
    data["title"].append(title)
    data["text"].append(text)
    data["lang"].append(lang)
    data["comment_count"].append(comm)
    data["reading_count"].append(reading)
    data["score"].append(score)
    data["is_tutorial"].append(is_tut)
    data["tags"].append(tags)

In [0]:
df = pd.DataFrame(data=dict(data))
df.to_csv("data_habr/data_habr_full.csv", index=False)

Таким образом, в файле `data_habr_full.csv` находятся все данные, которые смог извлечь краулер. Получим теперь набор фильтрованных статей, где находятся статьи, дли текста которых не меньше 2000 символов и среди этих символов нет каких-либо служебных символов. В файле `data_habr_clean.csv` лежат уже статьи с очещенным текстом и дополнительной колонкой `text_len`.

In [0]:
df = df.dropna()
df["text"] = df["text"].apply(lambda x: re.sub('[^a-zа-я0-9]+', ' ', x.strip().lower()))

ls = df["text"]
ind = [i for i, item in enumerate(ls) if len(item) >= 2000]

In [23]:
df = df.iloc[ind]

df["text_len"] = [len(item) for item in df["text"]]
df.to_csv("data_habr/data_habr_clean.csv")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [24]:
df

Unnamed: 0,ind,year,month,day,weekday,hour,author,title,text,lang,comment_count,reading_count,score,is_tutorial,tags,text_len
0,200000,2013,11,13,2,16,clubadm,Клуб анонимных Дедов Морозов 2013 — 2014,буквально вчера британские ученые совершили оч...,ru,552,76703,130,False,"хабраадм, habraadm, анонимный дед мороз, адм, ...",2965
2,200036,2013,10,29,1,17,JuliaP,Будущее освещения — «лампочка» из органики,физик дмитрий паращук рассказывает об актуальн...,ru,7,5460,5,False,"ПостНаука, нанотехнологии, светоизлучающая орг...",2143
4,200044,2013,10,29,1,18,Gendalph,Еще один изогнутый телефон — LG G Flex,2 дня назад на engadget появилась новость об а...,ru,26,15974,0,False,"lg, g flex, изогнутый экран, self-healing glas...",6295
7,200046,2013,10,30,2,15,Kitsok,Как мы строили авиатренажер A320: история в ка...,привет всем в прошлом посте я написал о бесцен...,ru,23,32347,88,False,"авиасимулятор, своими руками, работа над ошибками",17552
8,200048,2013,10,29,1,19,guskov,Продуктивная прокрастинация: разработка под Bl...,я не фанат android и еще больший не фанат java...,ru,65,17769,45,False,"blackberry, tizen, разработка, blackberry worl...",13100
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
122247,499994,2020,5,1,4,13,tur007,Когда закончится коронавирус,уважаемые читатели я руковожу отделом data sci...,ru,27,10146,10,False,"коронавирус, прогнозирование, scipy.optimize",3424
122248,499992,2020,5,1,4,19,ForwardTelecom,Проектные технологии при внедрении биллинговых...,работаем с рисками на глобальном уровне мы в п...,ru,1,588,6,False,"биллинг, биллинговые системы, проектное управл...",12987
122249,499986,2020,5,1,4,12,GGribkov,И снова про embedded: ищем баги в проекте Embox,embox это кросс платформенная мультизадачная о...,ru,0,1471,14,False,"Embox, PVS-Studio, C, embed, embedded systems,...",17956
122250,499988,2020,5,1,4,13,indibiome,Сахар и COVID-19,пандемия covid 19 супер нова для науки часто т...,ru,71,64303,18,False,covid-19,15542
