### Установка библиотек


In [1]:
!pip install corus



In [2]:
!pip install clean-text



In [3]:
!pip install num2words



In [4]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2

--2023-09-24 18:31:23--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-dac89df8aced?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230924%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230924T183123Z&X-Amz-Expires=300&X-Amz-Signature=65190d9f41fac48a347be52b9d960dab09b25ce48cb7869fab8fbea50e32ba5b&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.bz2&response-content-type=application%2Foctet-stream [following]
--2023-09-24 18:31:23--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-da

In [5]:
!pip install pymorphy2



##### Подключаем библиотеки

In [6]:
import re
from corus import load_lenta2
from cleantext import clean

from nltk import WordPunctTokenizer
from pymystem3 import Mystem
import nltk
from nltk.corpus import stopwords
import pymorphy2
from num2words import num2words

import warnings
warnings.filterwarnings("ignore")



### Загрузка данных

In [7]:
RANDOM_STATE = 123

In [8]:
path = '/content/lenta-ru-news.csv.bz2'
records = load_lenta2(path)

In [9]:
%%time
n = 10_000
try:
  dataset = [next(records).text for _ in range(n)]
except:
  pass

CPU times: user 2.96 s, sys: 54.4 ms, total: 3.01 s
Wall time: 3.1 s


In [10]:
print(f'Длина текстовых данных: {len(dataset)}')

Длина текстовых данных: 10000


### Обработка данных

#### Нормализация

##### Убираем html-теги

In [11]:
text = [re.sub('<[^<]+?>', '', word) for word in dataset]

In [12]:
text[0]

'Бои у Сопоцкина и Друскеник закончились отступлением германцев. Неприятель, приблизившись с севера к Осовцу начал артиллерийскую борьбу с крепостью. В артиллерийском бою принимают участие тяжелые калибры. С раннего утра 14 сентября огонь достиг значительного напряжения. Попытка германской пехоты пробиться ближе к крепости отражена. В Галиции мы заняли Дембицу. Большая колонна, отступавшая по шоссе от Перемышля к Саноку, обстреливалась с высот нашей батареей и бежала, бросив парки, обоз и автомобили. Вылазки гарнизона Перемышля остаются безуспешными. При продолжающемся отступлении австрийцев обнаруживается полное перемешивание их частей, захватываются новые партии пленных, орудия и прочая материальная часть. На перевале Ужок мы разбили неприятельский отряд, взяли его артиллерию и много пленных и, продолжая преследовать, вступили в пределы Венгрии. «Русский инвалид», 16 сентября 1914 года.'

##### Убираем эмодзи

In [13]:
clean(text[0], no_emoji=True)

'. , . . 14 . . . , , , , . . , , . , , , . " ", 16 1914 .'

**В процессе доработки**

#### Лемматизация/стемминг

In [14]:
m = Mystem()
text_lem = [(' '.join(m.lemmatize(word))).replace('  ', ' ') for word in text]

In [15]:
text_lem[0]

'бой  у  сопоцкин  и  друскеник  заканчиваться  отступление  германец . неприятель , приближаться  с  север  к  осовец  начинать  артиллерийский  борьба  с  крепость . в  артиллерийский  бой  принимать  участие  тяжелый  калибр . с  ранний  утро  14  сентябрь  огонь  достигать  значительный  напряжение . попытка  германский  пехота  пробиваться  близко  к  крепость  отражать . в  галиция  мы  занимать  дембицу . большой  колонна , отступать  по  шоссе  от  перемышль  к  санока , обстреливаться  с  высота  наш  батарея  и  бежать , бросать  парк , обоз  и  автомобиль . вылазка  гарнизон  перемышль  оставаться  безуспешный . при  продолжаться  отступление  австриец  обнаруживаться  полный  перемешивание  их  часть , захватываться  новый  партия  пленный , орудие  и  прочий  материальный  часть . на  перевал  ужок  мы  разбивать  неприятельский  отряд , взять  его  артиллерия  и  много  пленный  и , продолжать  преследовать , вступать  в  предел  венгрия . « русский  инвалид », 16  сентяб

#### Токенизация

In [16]:
tokenizer = WordPunctTokenizer()
text_token = [tokenizer.tokenize(word.lower()) for word in text_lem]

In [17]:
text_token[0][:10]

['бой',
 'у',
 'сопоцкин',
 'и',
 'друскеник',
 'заканчиваться',
 'отступление',
 'германец',
 '.',
 'неприятель']

#### Удаление стоп-слов

In [18]:
nltk.download('stopwords')
nltk_stop_words = set(stopwords.words("russian"))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [19]:
token_stop = [word for sentence in text_token for word in sentence
                if word is not nltk_stop_words]

In [20]:
token_stop[:10]

['бой',
 'у',
 'сопоцкин',
 'и',
 'друскеник',
 'заканчиваться',
 'отступление',
 'германец',
 '.',
 'неприятель']

#### Удаление пунктуации

In [21]:
pattern = re.compile(r'[^\w\s]')
token_punc = [word
              for word in token_stop
              if pattern.search(word) is None]

In [22]:
token_punc[:10]

['бой',
 'у',
 'сопоцкин',
 'и',
 'друскеник',
 'заканчиваться',
 'отступление',
 'германец',
 'неприятель',
 'приближаться']

##### Удаление предлогов

In [23]:
morth=pymorphy2.MorphAnalyzer()
functors_pos = {'INTJ', 'PRCL', 'CONJ', 'PREP'}
token_prep = [word
              for word in token_punc
              if morth.parse(word)[0].tag.POS not in functors_pos]

In [24]:
token_prep[:10]

['бой',
 'сопоцкин',
 'друскеник',
 'заканчиваться',
 'отступление',
 'германец',
 'неприятель',
 'приближаться',
 'север',
 'осовец']

##### Перевод цифр в текст

In [25]:
token_prep[22]

'14'

In [26]:
token_number = [num2words(word, lang='ru') if word.isdigit() else word
                 for word in token_prep]
token_number[:10]

['бой',
 'сопоцкин',
 'друскеник',
 'заканчиваться',
 'отступление',
 'германец',
 'неприятель',
 'приближаться',
 'север',
 'осовец']

In [27]:
token_number[22]

'четырнадцать'

# Эксперимент с токенизацией

In [28]:
%%timeit -r 100
tokenizer = WordPunctTokenizer()
clean_text = [tokenizer.tokenize(word.lower()) for word in dataset[:500]]

61.4 ms ± 18 ms per loop (mean ± std. dev. of 100 runs, 10 loops each)


In [29]:
%%timeit -r 100
reg_str = '\w+|[^\w\s]+'
clean_text = [re.sub('<[^<]+?>', '', word.lower()) for word in dataset[:500]]

5.14 ms ± 1.43 ms per loop (mean ± std. dev. of 100 runs, 100 loops each)
