In [1]:
import pandas as pd
import numpy as np
from multiprocessing import Pool
import matplotlib.pyplot as plt

In [2]:
pip install pymorphy2

Note: you may need to restart the kernel to use updated packages.


In [2]:
habs = pd.read_csv("habs.csv")
posts = pd.read_csv("posts.csv")
tags = pd.read_csv("tags.csv")
posts.drop("Unnamed: 0", axis=1, inplace=True)
posts.dropna(subset=["text"], inplace=True)
df = posts.merge(habs, on="post_id").drop("Unnamed: 0", axis=1)
df = df.merge(tags, on="post_id").drop("Unnamed: 0", axis=1)

In [3]:
df.drop_duplicates(subset=["title", "views_count", "author_nickname"], inplace=True)

In [4]:
df.drop("post_id", axis=1, inplace=True)
df["date"] = pd.to_datetime(df["date"]).apply(lambda date : date.year)

In [5]:
df["title"] = df["title"] + " " + df["hab"] + " " + df["tag"]

In [6]:
df["start_post"] = df["text"].apply(lambda x : x[:40])

In [8]:
df["text_len"] = df["text"].apply(lambda x : len(x.split()))
    
quantiles = np.quantile(df["text_len"], [0.05, 0.99])
df = df[(df["text_len"] >= quantiles[0])&(df["text_len"] <= quantiles[1])]

In [9]:
import re

from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords

patterns = "[a-zA-Z\d!#$%&'()*+,./:;<=>?@\[\]^_`{|}~—\"\-\n]+"
stopwords_ru = stopwords.words("russian")
morph = MorphAnalyzer()

def lemmatize(doc):
    doc = re.sub(patterns, ' ', doc)
    tokens = []
    for token in doc.split():
        if token and token not in stopwords_ru:
            token = token.strip()
            token = morph.normal_forms(token)[0]
            
            tokens.append(token)
            
    if len(tokens) > 2:
        return ' '.join(tokens)
    return None

In [11]:
df[df["text_len"] < 5000].to_csv("test.csv", columns=df.columns)

In [9]:
df.shape[0]

216604

In [10]:
df.sample(3)

Unnamed: 0,title,text,date,views_count,comments_count,bookmarks_count,rating,author_nickname,hab,tag,start_post,text_len
640305,Генерация документов. Легко и свободно Чулан г...,Продолжая тему генерации документов на основе ...,2017,3200,22,2,–9,PennyLane,Чулан,генератор,Продолжая тему генерации документов на о,258
50446,Теория и практика использования HBase Блог ком...,"Добрый день! Меня зовут Данил Липовой, наша ко...",2018,7600,11,47,+12,pustota_2009,Блог компании Сбербанк,hbase,"Добрый день! Меня зовут Данил Липовой, н",3180
1738779,Вышла вторая бета elementary OS Luna Настройка...,\n\nelementary OS дистрибутив основанный на U...,2013,31400,19,71,+20,fork,Настройка Linux,linux,\n\nelementary OS дистрибутив основанный,286


In [12]:
df.drop(columns=["date", "comments_count", "views_count", "author_nickname", "hab", "tag", "start_post"], inplace=True)

In [17]:
def change_rating(rate):
    if rate:
        if rate[0] == "+":
            return int(rate[1:])
        elif rate[0] == "–":
            return -int(rate[1:])
        else:
            return int(rate)
        
df["rating"] = df["rating"].apply(change_rating) 

In [19]:
df["rating"] = df["rating"] + 2 * df["bookmarks_count"]
df.drop("bookmarks_count", axis=1, inplace=True)

In [21]:
df.drop("text_len", axis=1, inplace=True)

In [22]:
df.to_csv("dataset.csv", index=False)

In [2]:
df = pd.read_csv("documents.csv")
df.sample(3)

Unnamed: 0,title,text,rating
170379,На чем писать десктопного клиента для веб-серв...,такой вопрос задаться возникнуть необходимость...,120
15655,"IT, откуда не ждали Блог компании Dell Technol...",как понимать шутка появляться просто появлятьс...,111
95930,Изменения в правилах Интернет-магазина Chrome:...,в правило интернет магазин произойти изменение...,26


In [6]:
df["text"].isna().sum()

0

In [5]:
df = df.dropna(subset=["text"])

In [23]:
lenghts = df["text"].apply(lambda x : len(x.split()))

In [21]:
def isfloat(number):
    if type(number) is float:
        return True
    else:
        return False

df.drop(index=df[df["title"].apply(lambda x : isfloat(x))].index, inplace=True)

In [22]:
df["text"] = df["text"] + " " + df["title"]

In [24]:
df = df[lenghts > 49]

In [27]:
df.to_csv("documents.csv", index=False)

In [2]:
df = pd.read_csv("documents.csv")

In [3]:
data = [text.split() for text in df["text"].values[:10]]
data

[['разработчик',
  'объявить',
  'появиться',
  'возможность',
  'добавлять',
  'профиль',
  'сертификат',
  'диплом',
  'онлайн',
  'курс',
  'университет',
  'нажатие',
  'один',
  'кнопка',
  'это',
  'расширение',
  'анонсировать',
  'рамка',
  'продолжение',
  'политика',
  'непрерывность',
  'профессиональный',
  'образовательный',
  'пространство',
  'встроить',
  'новый',
  'информация',
  'профиль',
  'нажать',
  'один',
  'кнопка',
  'помощь',
  'онлайн',
  'виджет',
  'уже',
  'университет',
  'установить',
  'свой',
  'сайт',
  'функция',
  'мгновенный',
  'добавление',
  'степень',
  'портфолио',
  'среди',
  'университет',
  'джордж',
  'вашингтон',
  'калифорнийский',
  'университет',
  'университет',
  'штат',
  'аризона',
  'университет',
  'кейо',
  'кембридж',
  'мельбурн',
  'проч',
  'также',
  'партнёр',
  'выступить',
  'такой',
  'моос',
  'платформа',
  'другой',
  'курс',
  '«в',
  'пользователь',
  'получать',
  'сертификат',
  'например',
  'сертификат',
  '

In [5]:
print(df.shape[0] // 3)
print(df.shape[0] // 3 * 2)
print(df.shape[0])

71160
142320
213480


In [13]:
df.loc[:71160, :].to_csv("part1.csv", index=True)
df.loc[71161:142320, :].to_csv("part2.csv", index=True)
df.loc[142321:, :].to_csv("part3.csv", index=True)

In [7]:
part1 = pd.read_csv("part1.csv")
part1

Unnamed: 0,title,text,rating
0,LinkedIn автоматизировал добавление в профиль ...,разработчик объявить появиться возможность доб...,28
1,MobileFaker: фальшивые звонки как социальное о...,с свой мобильник заказывать фальшивый звонок у...,20
2,Jelastic is the new kind of Java hosting platf...,облачный хостинг ранее разработать новый прило...,63
3,В Mozilla работают над версией Firefox OS для ...,относительно новый операционный система которы...,20
4,Как я спам слал Oracle Oracle,введение в небольшой статья хотеть рассказать ...,71
...,...,...,...
71156,Как быть идеальным клиентом Блог компании Used...,быть клиент обычный часть наш жизнь мало клиен...,32
71157,Венсан Жанти: зачем крупным компаниям дружить ...,этот осень команда «леруа мерлен» совместно пр...,18
71158,"Как сделать так, чтобы видео продавало: кейсы ...",в статья пойти речь роль видео современный инт...,54
71159,Тинькофф-банк ожидает получить больше прибыли ...,банковский предприятие олег тинькова опубликов...,20


In [11]:
part2 = pd.read_csv("part2.csv", index_col="Unnamed: 0")
part2

Unnamed: 0,title,text,rating
71161,8 советов по анализу трафика Блог компании dev...,часто особенно небольшой компания бывать получ...,49
71162,В ДНК сохранили операционную систему и видеоро...,в скорый время человечество генерировать данны...,118
71163,Крепление системного блока к столешнице DIY ил...,совсем коротенький пост оптимизация рабочий ме...,190
71164,Немного воскресной инфографики #2 Инфографика ...,разработчик проделать хороший работа отцифрова...,31
71165,Остросюжетная история об отсутствии синхрониза...,«против глупость сам бог бороться бессильны» ф...,263
...,...,...,...
142316,Как устроена IT-приёмная в Mail.Ru Group Блог ...,в любой компания сотрудник ежедневно обращатьс...,126
142317,Техника Помидора по-русски Управление проектам...,изучать хабра различный подход натолкнуться те...,179
142318,Копирасты наносят новый удар: Вконтакте начал ...,по многичисленный сообщение число сми социальн...,219
142319,Утечка: iOS 7 на iPad Блог компании Rozetked i...,так получиться именно наш команда – первый мир...,19


In [14]:
part3 = pd.read_csv("part3.csv", index_col="Unnamed: 0")
part3

Unnamed: 0,title,text,rating
142321,Брет Виктор — Изобретая по Принципу (Bret Vict...,чудесный необычный вдохновлять заставлять заду...,290
142322,Bison для JavaScript JavaScript javascript,нет а полноценный генератор яваскриптовый парс...,145
142323,Webmoney в Украине: вести с полей и петиция к ...,спешить первый строка сказать хороший ситуация...,49
142324,Как продвигать мероприятия в соцсетях? История...,мы знать поддержка один массовый городской пра...,50
142325,Сортировка треков в плейлисте VK Python python,начать писать скрипт весёлый новость ещё подос...,178
...,...,...,...
213475,Как научить Wordpress движок дружить с Proxy? ...,я заниматься разработка локальный корпоративны...,11
213476,Опубликованы обучающие материалы по Visual Stu...,привет хабра буквально вчера опубликовать анон...,52
213477,PostSharp. Отложенная загрузка зависимостей .N...,кусок код представить ниже наверняка писать а ...,38
213478,Обзор клавиатур для контроллера PS3 Игры и игр...,в принцип накладный клавиатура игровой контрол...,3
