In [30]:
import pymorphy2
import string
import nltk
import numpy as np
from corus import load_wiki
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.stem.snowball import SnowballStemmer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [2]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/adpashnin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/adpashnin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
path = 'ruwiki-latest-pages-articles.xml.bz2'
records = load_wiki(path)

In [4]:
wiki_texts = []
for i in range(1000):
    wiki_texts.append(next(records).text)

In [5]:
with open('doc.txt', 'r') as file:
    content = file.read().replace('\n', ' ')

In [44]:
def tokenize_ru(file_text):
    # firstly let's apply nltk tokenization
    tokens = word_tokenize(file_text)

    # let's delete punctuation symbols
    tokens = [i for i in tokens if (i not in string.punctuation)]

    # deleting stop_words
    stop_words = stopwords.words('russian') + get_stop_words('ru')
    stop_words.extend(['в', '', '•', '—', '–', 'к', 'на', '№', '©', '►', '...'])
    tokens = [i for i in tokens if (i not in stop_words and len(i) and not i.isnumeric())]
    # cleaning words
    tokens = [i.replace("«", "").replace("»", "") for i in tokens]
    
    morph = pymorphy2.MorphAnalyzer()
    #stems=[]
    #for item in tokens:
    #   stems.append(SnowballStemmer("russian").stem(item))
    morphs = []
    for item in tokens:
        morphs.append(sorted(morph.parse(item), key=lambda p: p.score)[0].normal_form)
    
    return morphs

In [31]:
#def tf_idf(corpus):
corpus = [content]+wiki_texts
stop_words = stopwords.words('russian') + get_stop_words('ru')
vectorizer = TfidfVectorizer(tokenizer = tokenize_ru)
X = vectorizer.fit_transform(corpus)
#return X

In [40]:
features = np.array(vectorizer.get_feature_names())
print(features[(-X.toarray()[0]).argsort()[:1000]])

['нарезать' 'масло' 'перец' 'зелень' 'вымыть' 'петрушка' 'соль'
 'сливочный' 'ингредиент' 'выложить' 'ложка' 'мл' 'приготовление' 'укроп'
 'яйцо' 'мука' 'добавить' 'очистить' 'минуть' 'лука' 'посолить'
 'растительный' 'перемешать' 'мелко' 'ст' 'духовка' 'смазать' 'тесто'
 'чеснок' 'столовый' 'посыпать' 'баклажан' 'помидор' 'л.' 'разогреть'
 'ломтик' 'соус' 'смешать' 'обжарить' 'способ' 'сметана' 'сахара'
 'начинка' 'молотый' 'сахар' 'измельчить' 'морковь' 'стакан' 'луковица'
 'мясо' 'промыть' 'поперчить' 'взбить' 'стол' 'залить' 'вод' 'уксус'
 'дрожжи' 'натереть' 'сок' 'лист' 'тест' 'нарубить' 'ч.' 'лимонный'
 'майонез' 'противень' 'филе' 'влить' 'блюдо' 'готовый' 'килограмм'
 'кусочек' 'репчатый' 'кабачок' 'кружочек' 'кубик' 'приготовить'
 'положить' 'пучок' 'выпекать' 'поставить' 'зубчик' 'бульон' 'томатный'
 'молока' 'семя' 'тёрка' 'капуста' 'пшеничный' 'смесь' 'сливка' '2–3'
 'тёртый' 'фарш' 'картофель' 'раскатать' 'сыр' 'орех' 'салат' 'сковорода'
 'полить' 'кусок' 'лук' 'овощ' 'кр

In [45]:
tokens = tokenize_ru(content)

In [46]:
freq_dist = nltk.FreqDist(w.lower() for w in tokens)

In [47]:
freq_dist.most_common(1000)

[('масло', 5245),
 ('перец', 3662),
 ('соль', 3637),
 ('нарезать', 3599),
 ('зелень', 2904),
 ('добавить', 2566),
 ('приготовление', 2392),
 ('вымыть', 2362),
 ('л.', 2328),
 ('минуть', 2297),
 ('растительный', 2082),
 ('мука', 2064),
 ('способ', 2050),
 ('яйцо', 2046),
 ('петрушка', 2031),
 ('выложить', 2019),
 ('сливочный', 1955),
 ('мл', 1941),
 ('лука', 1923),
 ('очистить', 1902),
 ('вод', 1872),
 ('ст', 1828),
 ('ингредиент', 1799),
 ('ложка', 1748),
 ('длить', 1524),
 ('укроп', 1446),
 ('столовый', 1393),
 ('чеснок', 1292),
 ('перемешать', 1219),
 ('мясо', 1219),
 ('тесто', 1197),
 ('помидор', 1187),
 ('сахара', 1176),
 ('посолить', 1174),
 ('мелко', 1152),
 ('духовка', 1113),
 ('посыпать', 1100),
 ('', 1091),
 ('баклажан', 1077),
 ('стол', 1058),
 ('в', 1056),
 ('лист', 1052),
 ('смазать', 1046),
 ('сахар', 1043),
 ('положить', 1014),
 ('поставить', 1013),
 ('молотый', 986),
 ('готовый', 979),
 ('соус', 977),
 ('течение', 944),
 ('разогреть', 924),
 ('сок', 907),
 ('килограмм', 