# <center>Введение в NLP. Preprocessing.</center>

In [1]:
import sys

In [2]:
# Импорты
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

from string import punctuation
import pandas as pd
import numpy as np
from collections import Counter

In [3]:
# # Для nltk

# Для MACOS
#import ssl
#try:
#    _create_unverified_https_context = ssl._create_unverified_context
#except AttributeError:
#    pass
#else:
#    ssl._create_default_https_context = _create_unverified_https_context

nltk.download('punkt')
nltk.download("stopwords")

# # Для лемматизации

# !pip install stanza
# !pip install spacy_stanza
# !pip install pymorphy2==0.8
# stanza.download('ru') 
# import stanza
# from spacy_stanza import StanzaLanguage

### Чтение файла Война и мир

In [4]:
with open('../../data/war_and_peace/war_and_peace.txt', 'r', encoding='cp1251') as f:
    text = f.read()

In [5]:
text

'Спасибо, что скачали книгу в бесплатной электронной библиотеке Royallib.ru: http://royallib.ru\n\nВсе книги автора: http://royallib.ru/author/tolstoy_lev.html\n\nЭта же книга в других форматах: http://royallib.ru/book/tolstoy_lev/voyna_i_mir_kniga_1.html\n\nПриятного чтения!\n\n\n\n\n\nТом первый\n\n\n\nЧасть первая\n\n\n\nI\n\n–\xa0Eh bien, mon prince. G&#234;nes et Lucques ne sont plus que des apanages, des поместья, de la famille Buonaparte. Non, je vous pr&#233;viens que si vous ne me dites pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les infamies, toutes les atrocit&#233;s de cet Antichrist (ma parole, j’y crois) – je ne vous connais plus, vous n’&#234;tes plus mon ami, vous n’&#234;tes plus мой верный раб, comme vous dites.[1 - Ну, князь, Генуя и Лукка – поместья фамилии Бонапарте. Нет, я вам вперед говорю, если вы мне не скажете, что у нас война, если вы еще позволите себе защищать все гадости, все ужасы этого Антихриста (право, я верю, что он А

### Токенизация

#### Токенизация с помощью регулярных выражений

In [6]:
re_tokenized_text = re.findall(r'\w+', text.lower())

In [7]:
re_tokenized_text

['спасибо',
 'что',
 'скачали',
 'книгу',
 'в',
 'бесплатной',
 'электронной',
 'библиотеке',
 'royallib',
 'ru',
 'http',
 'royallib',
 'ru',
 'все',
 'книги',
 'автора',
 'http',
 'royallib',
 'ru',
 'author',
 'tolstoy_lev',
 'html',
 'эта',
 'же',
 'книга',
 'в',
 'других',
 'форматах',
 'http',
 'royallib',
 'ru',
 'book',
 'tolstoy_lev',
 'voyna_i_mir_kniga_1',
 'html',
 'приятного',
 'чтения',
 'том',
 'первый',
 'часть',
 'первая',
 'i',
 'eh',
 'bien',
 'mon',
 'prince',
 'g',
 '234',
 'nes',
 'et',
 'lucques',
 'ne',
 'sont',
 'plus',
 'que',
 'des',
 'apanages',
 'des',
 'поместья',
 'de',
 'la',
 'famille',
 'buonaparte',
 'non',
 'je',
 'vous',
 'pr',
 '233',
 'viens',
 'que',
 'si',
 'vous',
 'ne',
 'me',
 'dites',
 'pas',
 'que',
 'nous',
 'avons',
 'la',
 'guerre',
 'si',
 'vous',
 'vous',
 'permettez',
 'encore',
 'de',
 'pallier',
 'toutes',
 'les',
 'infamies',
 'toutes',
 'les',
 'atrocit',
 '233',
 's',
 'de',
 'cet',
 'antichrist',
 'ma',
 'parole',
 'j',
 'y',
 '

#### Частоты слов после токенизации RE

In [8]:
cntr = Counter(re_tokenized_text)

In [9]:
cntr_df = pd.DataFrame(cntr.items(), columns=['Word', 'Number']) \
    .sort_values(by='Number', ascending=False)

In [10]:
cntr_df.head(30)

Unnamed: 0,Word,Number
91,и,10825
4,в,5395
103,не,4556
1,что,4069
118,он,3867
173,на,3402
130,с,3143
125,как,2208
96,я,2089
540,его,1976


#### Токенизация с помощью NLTK

In [11]:
nltk_tokenized_text = nltk.word_tokenize(text.lower())

In [12]:
nltk_tokenized_text

['спасибо',
 ',',
 'что',
 'скачали',
 'книгу',
 'в',
 'бесплатной',
 'электронной',
 'библиотеке',
 'royallib.ru',
 ':',
 'http',
 ':',
 '//royallib.ru',
 'все',
 'книги',
 'автора',
 ':',
 'http',
 ':',
 '//royallib.ru/author/tolstoy_lev.html',
 'эта',
 'же',
 'книга',
 'в',
 'других',
 'форматах',
 ':',
 'http',
 ':',
 '//royallib.ru/book/tolstoy_lev/voyna_i_mir_kniga_1.html',
 'приятного',
 'чтения',
 '!',
 'том',
 'первый',
 'часть',
 'первая',
 'i',
 '–',
 'eh',
 'bien',
 ',',
 'mon',
 'prince',
 '.',
 'g',
 '&',
 '#',
 '234',
 ';',
 'nes',
 'et',
 'lucques',
 'ne',
 'sont',
 'plus',
 'que',
 'des',
 'apanages',
 ',',
 'des',
 'поместья',
 ',',
 'de',
 'la',
 'famille',
 'buonaparte',
 '.',
 'non',
 ',',
 'je',
 'vous',
 'pr',
 '&',
 '#',
 '233',
 ';',
 'viens',
 'que',
 'si',
 'vous',
 'ne',
 'me',
 'dites',
 'pas',
 'que',
 'nous',
 'avons',
 'la',
 'guerre',
 ',',
 'si',
 'vous',
 'vous',
 'permettez',
 'encore',
 'de',
 'pallier',
 'toutes',
 'les',
 'infamies',
 ',',
 'toute

#### Частоты слов после токенизации NLTK

In [13]:
cntr = Counter(nltk_tokenized_text)

In [14]:
cntr_df = pd.DataFrame(cntr.items(), columns=['Word', 'Number']) \
    .sort_values(by='Number', ascending=False)

In [15]:
cntr_df.head(30)

Unnamed: 0,Word,Number
1,",",33713
36,.,14160
101,и,10816
31,–,8749
5,в,5383
113,не,4552
128,он,3862
2,что,3770
184,на,3400
140,с,3132


### Удалениие стоп-слов

#### Удалениие стоп-слов

In [16]:
russian_stopwords = stopwords.words("russian")
russian_stopwords

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [17]:
punctuation = punctuation + '–»«`’'
clear_tokenized_text = [token for token in nltk_tokenized_text \
                          if token not in russian_stopwords and token not in punctuation]

In [18]:
clear_tokenized_text

['спасибо',
 'скачали',
 'книгу',
 'бесплатной',
 'электронной',
 'библиотеке',
 'royallib.ru',
 'http',
 '//royallib.ru',
 'книги',
 'автора',
 'http',
 '//royallib.ru/author/tolstoy_lev.html',
 'эта',
 'книга',
 'других',
 'форматах',
 'http',
 '//royallib.ru/book/tolstoy_lev/voyna_i_mir_kniga_1.html',
 'приятного',
 'чтения',
 'первый',
 'часть',
 'первая',
 'i',
 'eh',
 'bien',
 'mon',
 'prince',
 'g',
 '234',
 'nes',
 'et',
 'lucques',
 'ne',
 'sont',
 'plus',
 'que',
 'des',
 'apanages',
 'des',
 'поместья',
 'de',
 'la',
 'famille',
 'buonaparte',
 'non',
 'je',
 'vous',
 'pr',
 '233',
 'viens',
 'que',
 'si',
 'vous',
 'ne',
 'me',
 'dites',
 'pas',
 'que',
 'nous',
 'avons',
 'la',
 'guerre',
 'si',
 'vous',
 'vous',
 'permettez',
 'encore',
 'de',
 'pallier',
 'toutes',
 'les',
 'infamies',
 'toutes',
 'les',
 'atrocit',
 '233',
 's',
 'de',
 'cet',
 'antichrist',
 'ma',
 'parole',
 'j',
 'y',
 'crois',
 'je',
 'ne',
 'vous',
 'connais',
 'plus',
 'vous',
 'n',
 '234',
 'tes'

#### Частоты слов после удаления стоп-слов

In [19]:
cntr = Counter(clear_tokenized_text)

In [20]:
cntr_df = pd.DataFrame(cntr.items(), columns=['Word', 'Number']) \
    .sort_values(by='Number', ascending=False)

In [21]:
cntr_df.head(30)

Unnamed: 0,Word,Number
578,это,1315
275,сказал,1147
79,князь,1053
1320,пьер,625
1969,андрей,601
47,233,560
4693,наташа,503
294,сказала,471
5629,ростов,428
196,очень,392


### Стемминг

#### Стемминг

In [22]:
stemmer = SnowballStemmer("russian")

stemm_text = [stemmer.stem(token) for token in clear_tokenized_text]

In [23]:
stemm_text

['спасиб',
 'скача',
 'книг',
 'бесплатн',
 'электрон',
 'библиотек',
 'royallib.ru',
 'http',
 '//royallib.ru',
 'книг',
 'автор',
 'http',
 '//royallib.ru/author/tolstoy_lev.html',
 'эт',
 'книг',
 'друг',
 'формат',
 'http',
 '//royallib.ru/book/tolstoy_lev/voyna_i_mir_kniga_1.html',
 'приятн',
 'чтен',
 'перв',
 'част',
 'перв',
 'i',
 'eh',
 'bien',
 'mon',
 'prince',
 'g',
 '234',
 'nes',
 'et',
 'lucques',
 'ne',
 'sont',
 'plus',
 'que',
 'des',
 'apanages',
 'des',
 'помест',
 'de',
 'la',
 'famille',
 'buonaparte',
 'non',
 'je',
 'vous',
 'pr',
 '233',
 'viens',
 'que',
 'si',
 'vous',
 'ne',
 'me',
 'dites',
 'pas',
 'que',
 'nous',
 'avons',
 'la',
 'guerre',
 'si',
 'vous',
 'vous',
 'permettez',
 'encore',
 'de',
 'pallier',
 'toutes',
 'les',
 'infamies',
 'toutes',
 'les',
 'atrocit',
 '233',
 's',
 'de',
 'cet',
 'antichrist',
 'ma',
 'parole',
 'j',
 'y',
 'crois',
 'je',
 'ne',
 'vous',
 'connais',
 'plus',
 'vous',
 'n',
 '234',
 'tes',
 'plus',
 'mon',
 'ami',
 'v

#### Частоты слов после стемминга

In [24]:
cntr = Counter(stemm_text)

In [25]:
cntr_df = pd.DataFrame(cntr.items(), columns=['Word', 'Number']) \
    .sort_values(by='Number', ascending=False)

In [26]:
cntr_df.head(30)

Unnamed: 0,Word,Number
257,сказа,1828
218,котор,1782
11,эт,1742
76,княз,1530
344,сво,1437
82,говор,1179
1062,пьер,957
3156,наташ,752
12,друг,692
1509,андр,685


### Лемматизация

#### Лемматизация (может занять много времени)

In [27]:
#%%time
#snlp = stanza.Pipeline(lang="ru")
#nlp = StanzaLanguage(snlp)

# Разбиваем на два куска, так как максимальная длина входа 1000000 символов
#gap = len(nltk_tokenized_text) // 2
#subtext1 = ' '.join(nltk_tokenized_text[:gap])
#subtext2 = ' '.join(nltk_tokenized_text[gap:])

In [28]:
#doc1 = nlp(subtext1)
#doc2 = nlp(subtext2)

#lemm_text = [token.lemma_ for token in doc1] + [token.lemma_ for token in doc2]

In [29]:
#lemm_text

#### Частоты слов после лемматизации

In [30]:
#cntr = Counter(lemm_text)

In [31]:
#cntr_df = pd.DataFrame(cntr.items(), columns=['Word', 'Number']) \
#    .sort_values(by='Number', ascending=False)

In [32]:
#cntr_df.head(30)

### Мешок слов

In [33]:
parts_number = 5
part_size = len(stemm_text) // parts_number
text_parts = [stemm_text[i:i+part_size] for i in range(0, len(stemm_text), part_size)][:parts_number]
unique_words = Counter(stemm_text).keys()
print(f'Всего уникальных слов в тексте: {len(unique_words)}')
word2num = dict([(word, num) for num, word in enumerate(unique_words)])

Всего уникальных слов в тексте: 15998


In [34]:
print(f'Всего слов в одной части: {part_size}')

Всего слов в одной части: 29865


In [35]:
def get_bag_of_words(text):
    res = np.zeros(len(word2num))
    for word in text:
        res[word2num[word]] += 1
    return res
bags_of_words = [get_bag_of_words(part) for part in text_parts]

In [36]:
bow_df = pd.DataFrame([*bags_of_words], columns=word2num.keys(), index=range(1, parts_number + 1))

In [37]:
bow_df

Unnamed: 0,спасиб,скача,книг,бесплатн,электрон,библиотек,royallib.ru,http,//royallib.ru,автор,...,мерца,расцветш,ободрен,//royallib.ru/comment/tolstoy_lev/voyna_i_mir_kniga_1.html,notes,примечан,невероятн,4-го,с.,сладост
1,5.0,1.0,13.0,1.0,1.0,3.0,1.0,3.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1.0,0.0,15.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,8.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,3.0,1.0,16.0,1.0,1.0,2.0,1.0,3.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


### TF-IDF

In [38]:
tf = bow_df / part_size # Важность токена в документе
idf = np.log(parts_number / (bow_df != 0).sum(axis=0)) # Важность токена по всем документам
tf_idf = tf * idf

In [39]:
tf_idf

Unnamed: 0,спасиб,скача,книг,бесплатн,электрон,библиотек,royallib.ru,http,//royallib.ru,автор,...,мерца,расцветш,ободрен,//royallib.ru/comment/tolstoy_lev/voyna_i_mir_kniga_1.html,notes,примечан,невероятн,4-го,с.,сладост
1,3.7e-05,3.1e-05,0.0,3.1e-05,3.1e-05,9.2e-05,3.1e-05,9.2e-05,3.1e-05,1.7e-05,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,7e-06,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,7e-06,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.7e-05,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,2.2e-05,3.1e-05,0.0,3.1e-05,3.1e-05,6.1e-05,3.1e-05,9.2e-05,3.1e-05,1.7e-05,...,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05,5.4e-05


In [40]:
important_features = tf_idf.loc[:, (tf_idf.sum(axis=0) > 0.002)]
(important_features >= important_features.max(axis=0) / 2).astype(int)

Unnamed: 0,павловн,дядюшк,дмитриевн,денис,багратион,тушин,сперанск
1,1,0,0,0,0,0,0
2,0,0,0,1,1,1,0
3,0,0,0,1,1,0,0
4,0,0,0,1,0,0,1
5,0,1,1,0,0,0,0
