# NLP

Classify Russian texts into several categories. It is best if the body of the texts is really large. To pre-process texts: normalization, lemmatization, etc. Compare embeddings. Try several classification methods.

## Import libs and load data

In [1]:
with open("/home/akimg/Projects/ML_NeighborsClassifier-master/lab6/Bulgakov.txt", encoding="utf8") as f:
    bulgakov_text = f.read()
# bulgakov_text

In [2]:
with open("/home/akimg/Projects/ML_NeighborsClassifier-master/lab6/Soltykov.txt", encoding="utf8") as f:
    soltykov_text = f.read()
# soltykov_text

In [3]:
with open("/home/akimg/Projects/ML_NeighborsClassifier-master/lab6/Tolstoy.txt", encoding="utf8") as f:
    tolstoy_text = f.read()
# tostoy_text

## Text tokenization

Tokenization of the text is simply the selection of individual words from there. Please note that they are not converted to the same case, punctuation marks are not deleted.

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/akimg/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
bulgakov_token = nltk.word_tokenize(bulgakov_text)
# bulgakov_token

In [6]:
soltykov_token = nltk.word_tokenize(soltykov_text)
# soltykov_token

In [7]:
tolstoy_token = nltk.word_tokenize(tolstoy_text)
# tolstoy_token

## Text stammering

We will use the stammer to bring the words to one form.

In [8]:
from snowballstemmer import RussianStemmer
stemmer = RussianStemmer()

In [9]:
stemmer.stemWords(bulgakov_text.lower().split())

['через',
 'деся',
 'минут',
 'ива',
 'арнольдович',
 'и',
 'шариков,',
 'одет',
 'в',
 'кепк',
 'с',
 'утин',
 'нос',
 'и',
 'драпов',
 'пальт',
 'с',
 'поднят',
 'воротником,',
 'уеха',
 'в',
 'цирк.',
 'в',
 'квартир',
 'стихло.',
 'филипп',
 'филиппович',
 'оказа',
 'в',
 'сво',
 'кабинете.',
 'он',
 'зажег',
 'ламп',
 'под',
 'тяжел',
 'зелен',
 'колпаком,',
 'отч',
 'в',
 'громадн',
 'кабинет',
 'стал',
 'очен',
 'мирно,',
 'и',
 'нача',
 'меря',
 'комнату.',
 'долг',
 'и',
 'жарк',
 'свет',
 'кончик',
 'сигар',
 'бледно-зелен',
 'огнем.',
 'рук',
 'профессор',
 'залож',
 'в',
 'карма',
 'брюк,',
 'и',
 'тяжк',
 'дум',
 'терза',
 'ег',
 'учен',
 'с',
 'зализ',
 'лоб.',
 'он',
 'причмокивал,',
 'напева',
 'сквоз',
 'зуб',
 '«к',
 'берег',
 'священ',
 'нила…»',
 'и',
 'что-т',
 'бормотал.',
 'наконец',
 'отлож',
 'сигар',
 'в',
 'пепельницу,',
 'подошел',
 'к',
 'шкафу,',
 'сплош',
 'состоя',
 'из',
 'стекла,',
 'и',
 'ве',
 'кабинет',
 'освет',
 'трем',
 'сильн',
 'огн',
 'с',
 'п

In [10]:
stemmer.stemWords(soltykov_text.lower().split())

['и',
 'вот',
 'ход',
 'он,',
 'ход',
 'по',
 'комнатам,',
 'пот',
 'сядет',
 'и',
 'посидит.',
 'и',
 'все',
 'думает.',
 'думает,',
 'как',
 'он',
 'машин',
 'из',
 'англ',
 'выпишет,',
 'чтоб',
 'все',
 'па́р',
 'да',
 'па́ром,',
 'а',
 'холопск',
 'дух',
 'чтоб',
 'нискольк',
 'не',
 'было.',
 'думает,',
 'как',
 'он',
 'плодов',
 'сад',
 'разведет:',
 '«вот',
 'тут',
 'будут',
 'груши,',
 'сливы;',
 'вот',
 'тут',
 '—',
 'персики,',
 'тут',
 '—',
 'грецк',
 'орех!»',
 'посмотр',
 'в',
 'окошк',
 '—',
 'ан',
 'там',
 'все,',
 'как',
 'он',
 'задумал,',
 'все',
 'точн',
 'так',
 'уж',
 'и',
 'есть!',
 'ломятся,',
 'по',
 'щуч',
 'велению,',
 'под',
 'груз',
 'плод',
 'дерев',
 'грушевые,',
 'персиковые,',
 'абрикосовые,',
 'а',
 'он',
 'тольк',
 'зна',
 'фрукт',
 'машин',
 'собира',
 'да',
 'в',
 'рот',
 'кладет!',
 'думает,',
 'как',
 'он',
 'кор',
 'разведет,',
 'что',
 'ни',
 'кожи,',
 'ни',
 'мяса,',
 'а',
 'все',
 'одн',
 'молоко,',
 'все',
 'молоко!',
 'думает,',
 'как',
 'он'

In [11]:
stemmer.stemWords(tolstoy_text.lower().split())

['фроськ',
 'тих',
 'вошл',
 'в',
 'бан',
 'и',
 'в',
 'нерешительн',
 'остановилась.',
 'барин',
 'лежа',
 'на',
 'лавк',
 'на',
 'животе,',
 'и',
 'две',
 'девк',
 '-',
 'наташк',
 'и',
 'малашк',
 'тож',
 'голые,',
 'стоя',
 'с',
 'боков,',
 'по',
 'очеред',
 'ожесточен',
 'хлеста',
 'веник',
 'по',
 'раскален',
 'багрово-розов',
 'спине,',
 'блестевш',
 'от',
 'пота.',
 'барин',
 'блажен',
 'жмурился,',
 'одобрительн',
 'кряка',
 'при',
 'особен',
 'сильн',
 'ударе.',
 'наконец,',
 'он',
 'пода',
 'им',
 'знак',
 'останов',
 'и,',
 'громк',
 'отдуваясь,',
 'сел,',
 'опуст',
 'широк',
 'раздвинут',
 'ног',
 'на',
 'пол.',
 '-',
 '"квасу!"',
 '-',
 'хрипл',
 'крикнул',
 'он.',
 'быстр',
 'метнувш',
 'в',
 'угол,',
 'наташк',
 'пода',
 'ем',
 'ковш',
 'квасу.',
 'напившись,',
 'барин',
 'замет',
 'тих',
 'стоя',
 'у',
 'двер',
 'фроськ',
 'и',
 'поман',
 'е',
 'пальцем.',
 'медлен',
 'переступ',
 'бос',
 'ног',
 'по',
 'мокр',
 'полу,',
 'стыдлив',
 'прикрыв',
 'нагот',
 'руками,',
 '

## Text lemmatization

Another option is to use a lemmatizer instead of a stemmer - a thing that brings words to their initial form.

In [12]:
import pymystem3
mystem = pymystem3.Mystem()

In [13]:
bulgakov_lemm = mystem.lemmatize(' '.join(bulgakov_token[:200]))
# bulgakov_lemm

In [14]:
soltykov_lemm = mystem.lemmatize(' '.join(soltykov_token[:200]))
# soltykov_lemm

In [15]:
tolstoy_lemm = mystem.lemmatize(' '.join(tolstoy_token[:200]))
# tolstoy_lemm

## Text morphology

And you can lemmatize words using a morphological analyzer. Let's look at its capabilities using the word as an example 'нагота'.

In [17]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
morph.parse('нагота')

[Parse(word='нагота', tag=OpencorporaTag('NOUN,inan,femn,Sgtm sing,nomn'), normal_form='нагота', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'нагота', 29, 0),))]

In [18]:
bulgalov_lemm_pymorph = [morph.parse(s)[0].normal_form for s in bulgakov_token[:200]]
# bulgalov_lemm_pymorph

In [19]:
soltykov_lemm_pymorph = [morph.parse(s)[0].normal_form for s in soltykov_token[:200]]
# soltykov_lemm_pymorph

In [20]:
tolstoy_lemm_pymorph = [morph.parse(s)[0].normal_form for s in tolstoy_token[:200]]
# tolstoy_lemm_pymorph