In [1]:
!pip install corus pandas nltk scikit-learn spacy -q

In [2]:
!python3 -m spacy download ru_core_news_sm -q

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [None]:
!wget -q "https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2"

In [2]:
random_state = 42

In [3]:
import re
import nltk
import spacy

from corus import load_lenta2
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

path = 'lenta-ru-news.csv.bz2'
records = load_lenta2(path)

data = []
for i in range(1000):
    data.append(next(records).text)

data[0]

'Бои у Сопоцкина и Друскеник закончились отступлением германцев. Неприятель, приблизившись с севера к Осовцу начал артиллерийскую борьбу с крепостью. В артиллерийском бою принимают участие тяжелые калибры. С раннего утра 14 сентября огонь достиг значительного напряжения. Попытка германской пехоты пробиться ближе к крепости отражена. В Галиции мы заняли Дембицу. Большая колонна, отступавшая по шоссе от Перемышля к Саноку, обстреливалась с высот нашей батареей и бежала, бросив парки, обоз и автомобили. Вылазки гарнизона Перемышля остаются безуспешными. При продолжающемся отступлении австрийцев обнаруживается полное перемешивание их частей, захватываются новые партии пленных, орудия и прочая материальная часть. На перевале Ужок мы разбили неприятельский отряд, взяли его артиллерию и много пленных и, продолжая преследовать, вступили в пределы Венгрии. «Русский инвалид», 16 сентября 1914 года.'

In [4]:
nltk.download('punkt')
nltk.download('stopwords')
nlp_lemm = spacy.load("ru_core_news_sm", disable=['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'ner']);

[nltk_data] Downloading package punkt to /home/slfdstrctd/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/slfdstrctd/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [7]:
class TextProcessor:
    def __init__(self):
        self.lemmatizer = nlp_lemm
        self.stop_words = set(stopwords.words('russian'))

    def normalize(self, text):
        text = re.sub(r'[^a-zA-Zа-яА-Я0-9\s]', '', text)  # remove non-alphanumeric characters
        text = re.sub(r'\s+', ' ', text).strip()  # trim whitespace
        return text.lower()

    def tokenize(self, text):
        return word_tokenize(text, language='russian')

    def remove_stopwords(self, words):
        return [word for word in words if word not in self.stop_words]
    
    def lemmatize(self, text):
        doc = nlp_lemm(text)
        return [token.lemma_ for token in doc]

    def preprocess(self, text):
        text_normalized = self.normalize(text)
        words = self.tokenize(text_normalized)
        stop_tokens = self.remove_stopwords(words)
        processed_words = self.lemmatize(' '.join(stop_tokens))
        return processed_words

In [8]:
processor = TextProcessor()

In [9]:
normalized_text = processor.normalize(data[0])
normalized_text

'бои у сопоцкина и друскеник закончились отступлением германцев неприятель приблизившись с севера к осовцу начал артиллерийскую борьбу с крепостью в артиллерийском бою принимают участие тяжелые калибры с раннего утра 14 сентября огонь достиг значительного напряжения попытка германской пехоты пробиться ближе к крепости отражена в галиции мы заняли дембицу большая колонна отступавшая по шоссе от перемышля к саноку обстреливалась с высот нашей батареей и бежала бросив парки обоз и автомобили вылазки гарнизона перемышля остаются безуспешными при продолжающемся отступлении австрийцев обнаруживается полное перемешивание их частей захватываются новые партии пленных орудия и прочая материальная часть на перевале ужок мы разбили неприятельский отряд взяли его артиллерию и много пленных и продолжая преследовать вступили в пределы венгрии русский инвалид 16 сентября 1914 года'

In [10]:
tokens = processor.tokenize(normalized_text)
tokens

['бои',
 'у',
 'сопоцкина',
 'и',
 'друскеник',
 'закончились',
 'отступлением',
 'германцев',
 'неприятель',
 'приблизившись',
 'с',
 'севера',
 'к',
 'осовцу',
 'начал',
 'артиллерийскую',
 'борьбу',
 'с',
 'крепостью',
 'в',
 'артиллерийском',
 'бою',
 'принимают',
 'участие',
 'тяжелые',
 'калибры',
 'с',
 'раннего',
 'утра',
 '14',
 'сентября',
 'огонь',
 'достиг',
 'значительного',
 'напряжения',
 'попытка',
 'германской',
 'пехоты',
 'пробиться',
 'ближе',
 'к',
 'крепости',
 'отражена',
 'в',
 'галиции',
 'мы',
 'заняли',
 'дембицу',
 'большая',
 'колонна',
 'отступавшая',
 'по',
 'шоссе',
 'от',
 'перемышля',
 'к',
 'саноку',
 'обстреливалась',
 'с',
 'высот',
 'нашей',
 'батареей',
 'и',
 'бежала',
 'бросив',
 'парки',
 'обоз',
 'и',
 'автомобили',
 'вылазки',
 'гарнизона',
 'перемышля',
 'остаются',
 'безуспешными',
 'при',
 'продолжающемся',
 'отступлении',
 'австрийцев',
 'обнаруживается',
 'полное',
 'перемешивание',
 'их',
 'частей',
 'захватываются',
 'новые',
 'партии'

In [11]:
tokens_stop = processor.remove_stopwords(tokens)
' '.join(tokens_stop)

'бои сопоцкина друскеник закончились отступлением германцев неприятель приблизившись севера осовцу начал артиллерийскую борьбу крепостью артиллерийском бою принимают участие тяжелые калибры раннего утра 14 сентября огонь достиг значительного напряжения попытка германской пехоты пробиться ближе крепости отражена галиции заняли дембицу большая колонна отступавшая шоссе перемышля саноку обстреливалась высот нашей батареей бежала бросив парки обоз автомобили вылазки гарнизона перемышля остаются безуспешными продолжающемся отступлении австрийцев обнаруживается полное перемешивание частей захватываются новые партии пленных орудия прочая материальная часть перевале ужок разбили неприятельский отряд взяли артиллерию пленных продолжая преследовать вступили пределы венгрии русский инвалид 16 сентября 1914 года'

In [12]:
lemmas = processor.lemmatize(' '.join(tokens_stop))
' '.join(lemmas)

'бой сопоцкина друскеник закончиться отступление германец неприятель приблизиться север осовцу начал артиллерийский борьба крепость артиллерийский бой принимать участие тяжёлый калибр ранний утро 14 сентябрь огонь достигнуть значительный напряжение попытка германский пехота пробиться близкий крепость отразить галиции занять дембица большая колонна отступать шоссе перемышль саноку обстреливаться высота нашей батарея бежать бросить парки обоз автомобиль вылазка гарнизон перемышль оставаться безуспешный продолжаться отступление австриец обнаруживаться полный перемешивание часть захватываться новые партия пленный орудие прочий материальный часть перевал ужок разбить неприятельский отряд взять артиллерия пленный продолжать преследовать вступить предел венгрия русский инвалид 16 сентябрь 1914 год'