In [7]:
import pickle
import pandas as pd
import os
import requests
from pathlib import Path
import nltk
from nltk import sent_tokenize, word_tokenize, regexp_tokenize
from nltk.corpus import stopwords
import pymorphy2
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
import progressbar

In [2]:
path_df = "pickles/big_df.pickle"

with open(path_df, 'rb') as data:
    df = pickle.load(data)

In [3]:
df.head()

Unnamed: 0,id,url,dateRFC,date,title,intro,text
0,2249,https://vc.ru/tribuna/2249-abrt3,"Tue, 28 Jan 2014 15:46:00 +0400",1390909560,Анализ стартапов от ABRT: Hudway vs. XPages Dy...,Возрождаем забытую практику разбора стартапов ...,Возрождаем забытую практику разбора стартапов ...
1,2626,https://vc.ru/flood/2626-riders,"Mon, 27 Jan 2014 11:28:42 +0400",1390807722,RIDERS - глобальное комьюнити экстремалов,Игорь Дебатур и Анатолий Черняков рассказали п...,Игорь Дебатур и Анатолий Черняков рассказали п...
2,2657,https://vc.ru/flood/2657-evernote,"Tue, 07 Jan 2014 12:31:05 +0400",1389083465,CEO Evernote покаялся и обещает новый дизайн с...,"Фил Либин, основатель и CEO Evernote, признал ...","Фил Либин, основатель и CEO Evernote, признал ..."
3,2658,https://vc.ru/flood/2658-nvidia,"Wed, 08 Jan 2014 15:07:20 +0400",1389179240,Nvidia показали стриминг с ПК на телевизор,Nvidia продемонстрировали на пресс-мероприятии...,Nvidia продемонстрировали на пресс-мероприятии...
4,2660,https://vc.ru/tribuna/2660-startup-tv-series,"Wed, 08 Jan 2014 11:15:49 +0400",1389165349,"Четыре шоу о стартапах, которые вы пропустили",Если вас тоже порядком напрягает истерия вокру...,Если вас тоже порядком напрягает истерия вокру...


In [4]:
url_stopwords_ru = "https://raw.githubusercontent.com/stopwords-iso/stopwords-ru/master/stopwords-ru.txt"


def get_text(url, encoding='utf-8', to_lower=True):
    url = str(url)
    if url.startswith('http'):
        r = requests.get(url)
        if not r.ok:
            r.raise_for_status()
        return r.text.lower() if to_lower else r.text
    elif os.path.exists(url):
        with open(url, encoding=encoding) as f:
            return f.read().lower() if to_lower else f.read()
    else:
        raise Exception('parameter [url] can be either URL or a filename')


def normalize_tokens(tokens):
    morph = pymorphy2.MorphAnalyzer()
    return [morph.parse(tok)[0].normal_form for tok in tokens]


def remove_stopwords(tokens, stopwords=None, min_length=4):
    if not stopwords:
        return tokens
    stopwords = set(stopwords)
    tokens = [tok
              for tok in tokens
              if tok not in stopwords and len(tok) >= min_length]
    return tokens


def tokenize_n_lemmatize(
    text, stopwords=None, normalize=True, 
    regexp=r'(?u)\b\w{4,}\b'):
    words = [w for sent in sent_tokenize(text)
             for w in regexp_tokenize(sent, regexp)]
    if normalize:
        words = normalize_tokens(words)
    if stopwords:
        words = remove_stopwords(words, stopwords)
    return words

stopwords_ru = get_text(url_stopwords_ru).splitlines()

In [8]:
def proc_df(df):
    nrows = len(df)
    bar = progressbar.ProgressBar(maxval=nrows).start()
    text_parsed_list = []
    for row in range(0, nrows):
        bar.update(row)
        text = df.loc[row]['title'] + ' ' + df.loc[row]['text']
        text = text.replace('_', ' ')
        text_parsed_list.append(' '.join(tokenize_n_lemmatize(text)))
    df['text_parsed'] = text_parsed_list
    bar.finish()

In [9]:
proc_df(df)

100% |########################################################################|


In [11]:
df.head()

Unnamed: 0,id,url,dateRFC,date,title,intro,text,text_parsed
0,2249,https://vc.ru/tribuna/2249-abrt3,"Tue, 28 Jan 2014 15:46:00 +0400",1390909560,Анализ стартапов от ABRT: Hudway vs. XPages Dy...,Возрождаем забытую практику разбора стартапов ...,Возрождаем забытую практику разбора стартапов ...,анализ стартап abrt hudway xpages dynamic возр...
1,2626,https://vc.ru/flood/2626-riders,"Mon, 27 Jan 2014 11:28:42 +0400",1390807722,RIDERS - глобальное комьюнити экстремалов,Игорь Дебатур и Анатолий Черняков рассказали п...,Игорь Дебатур и Анатолий Черняков рассказали п...,riders глобальный комьюнить экстремалов игорь ...
2,2657,https://vc.ru/flood/2657-evernote,"Tue, 07 Jan 2014 12:31:05 +0400",1389083465,CEO Evernote покаялся и обещает новый дизайн с...,"Фил Либин, основатель и CEO Evernote, признал ...","Фил Либин, основатель и CEO Evernote, признал ...",evernote покаяться обещать новый дизайн сервис...
3,2658,https://vc.ru/flood/2658-nvidia,"Wed, 08 Jan 2014 15:07:20 +0400",1389179240,Nvidia показали стриминг с ПК на телевизор,Nvidia продемонстрировали на пресс-мероприятии...,Nvidia продемонстрировали на пресс-мероприятии...,nvidia показать стриминг телевизор nvidia прод...
4,2660,https://vc.ru/tribuna/2660-startup-tv-series,"Wed, 08 Jan 2014 11:15:49 +0400",1389165349,"Четыре шоу о стартапах, которые вы пропустили",Если вас тоже порядком напрягает истерия вокру...,Если вас тоже порядком напрягает истерия вокру...,четыре стартап который пропустить если тоже по...


In [12]:
df.shape

(54822, 8)

In [10]:
with open('pickles\\parsed_big_df.pickle', 'wb') as output:
    pickle.dump(df, output)