In [1]:
import os
import sys
import codecs
import collections

In [2]:
import nltk
from lxml import etree
from lxml.html.clean import Cleaner
from pymystem3 import Mystem

In [3]:
file = codecs.open('datasets/golos_io_topics.xml', encoding='utf-8')
data = file.read();

In [4]:
cleaner = Cleaner()
cleaner.allow_tags = ['item', 'field']
cleaner.remove_unknown_tags = False
clean_data = cleaner.clean_html(data)

In [5]:
fout = codecs.open('datasets/golos_io_topics-res.xml', encoding='utf-8', mode='w+')
fout.write(clean_data)
fout.close()

In [6]:
from nltk.corpus import stopwords
stopwords_list = stopwords.words('russian')

In [7]:
tree = etree.fromstring(clean_data)
items = tree.xpath("//field[@name='body']")

In [8]:
seq_list = [item.text for item in items]

In [9]:
fout = codecs.open('datasets/golos_io_topics-res2.txt', encoding='utf-8', mode='w+')
for item in seq_list:
    print(item, file=fout, sep="\n")
fout.close()

In [10]:
mystem = Mystem()

def convert_prefix2utags(mystem_prefix):
    utags_dict = {'_A':       '_ADJ',
                  '_ADV':     '_ADV',                                                                                                                                                                                                                                                                    
                  '_ADVPRO':  '_ADV',                                                                                                                                                                                                                                                                    
                  '_ANUM':    '_ADJ',                                                                                                                                                                                                                                                                 
                  '_APRO':    '_DET',                                                                                                                                                                                                                                                                   
                  '_COM':     '_ADJ',                                                                                                                                                                                                                                                                    
                  '_CONJ':    '_SCONJ',                                                                                                                                                                                                                                                                  
                  '_INTJ':    '_INTJ',                                                                                                                                                                                                                                                                   
                  '_NONLEX':  '_X',                                                                                                                                                                                                                                                                      
                  '_NUM':     '_NUM',                                                                                                                                                                                                                                                                    
                  '_PART':    '_PART',                                                                                                                                                                                                                                                                   
                  '_PR':      '_ADP',                                                                                                                                                                                                                                                                    
                  '_S':       '_NOUN',                                                                                                                                                                                                                                                                   
                  '_SPRO':    '_PRON',                                                                                                                                                                                                                                                                   
                  '_UNKN':    '_X',                                                                                                                                                                                                                                                                      
                  '_V':       '_VERB',
                  '':        ''}
    return utags_dict[mystem_prefix]

def get_word_prefix(word):
    lemmas = mystem.analyze(word)
    prefix = ""
    if (isinstance(lemmas, collections.Iterable)) and ('analysis' in lemmas[0]):
        try:
            prefix = "_"+(lemmas[0]['analysis'][0]['gr'].split("=")[0].split(",")[0]) 
        except IndexError:
            prefix = ""
    return convert_prefix2utags(prefix)

def lemmatize_words(word_list):
    processed_word_list = []
    for word in word_list:
        word = mystem.lemmatize(word)[0]
# remove lemma prefixes        
#        word_w_prefix = word+get_word_prefix(word)
        processed_word_list.append(word)
    return processed_word_list    

In [11]:
print(lemmatize_words(["люди"]))

['человек']


In [12]:
def remove_stopwords(word_list):
        processed_word_list = []
        for word in word_list:
            word = word.lower() # in case they arenet all lower cased
            if word not in stopwords.words("russian") and len(word) > 2:
                processed_word_list.append(word)
        return processed_word_list    

In [13]:
print (stopwords.words("russian"))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [18]:
test_tokenized = nltk.word_tokenize(seq_list[1100])
test_clean = remove_stopwords(test_tokenized)

In [29]:
print(test_clean)

['https', '//s15.postimg.org/dv7fam3ln/a2110ac82294.jpg', 'всем', 'привет', 'недавно', 'одна', 'девочка', 'звала', 'crp.center', 'освободилась', '1200', 'долларов', 'думаю', 'эххх', '...', 'вложила', 'криптовалюту', 'верила', 'проект', 'знаю', 'почему', 'слава', 'богу', 'интуиция', 'подвела', 'хотя', 'говорит', '1000', 'долларов', 'сняла', 'туда', '000', 'слава', 'богу', 'представьте', 'сколько', 'людей', 'потеряло', 'это', 'печально', 'видео', 'обращение', 'виталий', 'говорит', 'снова', 'будут', 'работать', 'это', 'обычно', 'сказки', 'вкладывайте', 'https', '//www.youtube.com/watch', 'time_continue=393', 'v=g9v3ix73moy', 'всем', 'мира', 'стабильного', 'дохода']


In [22]:
def preprocess_doc(doc_text):
    words_list = remove_stopwords(nltk.word_tokenize(doc_text))
# пока без леммизации
    // lemmas_list = lemmatize_words(words_list)
    lemmas_list = words_list
    return " ".join(lemmas_list)

In [25]:
def preprocess_lemma_doc(doc_text):
    words_list = remove_stopwords(nltk.word_tokenize(doc_text))
    lemmas_list = lemmatize_words(words_list)
    return " ".join(lemmas_list)

In [23]:
lemmas_doc = preprocess_doc(seq_list[1100])
lemmas_doc

'https //s15.postimg.org/dv7fam3ln/a2110ac82294.jpg всем привет недавно одна девочка звала crp.center освободилась 1200 долларов думаю эххх ... вложила криптовалюту верила проект знаю почему слава богу интуиция подвела хотя говорит 1000 долларов сняла туда 000 слава богу представьте сколько людей потеряло это печально видео обращение виталий говорит снова будут работать это обычно сказки вкладывайте https //www.youtube.com/watch time_continue=393 v=g9v3ix73moy всем мира стабильного дохода'

In [36]:
from nltk import FreqDist
fd = FreqDist(nltk.word_tokenize(lemmas_doc))
fd.most_common(50)

[('старения', 10),
 ('шаг', 8),
 ('исследования', 5),
 ('против', 5),
 ('жизни', 4),
 ('клинические', 4),
 ('всем', 4),
 ('терапий', 4),
 ('вопрос', 3),
 ('сами', 3),
 ('это', 3),
 ('витамин', 3),
 ('терапии', 3),
 ('типа', 3),
 ('открыть', 3),
 ('всё', 3),
 ('исследований', 3),
 ('проекта', 3),
 ('людей', 3),
 ('записи', 3),
 ('который', 2),
 ('далее', 2),
 ('какие', 2),
 ('работает', 2),
 ('научной', 2),
 ('одно', 2),
 ('принимать', 2),
 ('должны', 2),
 ('результаты', 2),
 ('анализов', 2),
 ('которые', 2),
 ('плюс', 2),
 ('нужно', 2),
 ('следующие', 2),
 ('желающим', 2),
 ('самому', 2),
 ('лично', 2),
 ('кто-то', 2),
 ('организация', 2),
 ('клинических', 2),
 ('краудфандинг', 2),
 ('новых', 2),
 ('создадим', 2),
 ('принадлежать', 2),
 ('участникам', 2),
 ('человек', 2),
 ('голос', 2),
 ('коварный', 2),
 ('пока', 2),
 ('ради', 2)]

In [37]:
fout = codecs.open('datasets/golos_io_topics-res-lines.txt', encoding='utf-8', mode='w+')
for item in seq_list:
    if item is not None:
        processed_doc = preprocess_doc(item)
        print(processed_doc, file=fout, sep="\n")
fout.close()

In [26]:
fout = codecs.open('datasets/golos_io_topics-res-lemmas.txt', encoding='utf-8', mode='w+')
for item in seq_list:
    if item is not None:
        processed_lemma_doc = preprocess_lemma_doc(item)
        print(processed_lemma_doc, file=fout, sep="\n")
fout.close()

In [27]:
text = "люди употребляют различные препараты делятся своими впечатлениями . акцент ноотропы , продление жизни . всему этому процессу хватает организованности . собственно этим займемся . прекрасный план . шаг 1. личный медицинский кабинет . должны результаты ваших анализов . сдавали . терапии , которые осуществляли . самое важно , должны результаты диагностики старения . плюс , , описание интервенций против старения . биомаркеры скорости старения далеки совершенств"

In [28]:
from pymystem3 import Mystem
m = Mystem()
lemmas = m.analyze(text)
// print(lemmas)

SyntaxError: invalid syntax (<ipython-input-28-80ffdd9fda40>, line 4)

In [None]:
lemmas[0]['analysis'][0]['gr'].split(",")[0]