# Russian pre-processing
This notebook is for anyone who wants to try the TF-IDF or Topic Modeling lessons on Russian text. Before continuing with those lessons, you need to create a *lemmatized derivative* of your original Russian text, which replaces all the words with their dictionary form, which will work much better with the word-count based methods.

## Install spaCy
Russian models are only available starting in spaCy 3.0. 

If you run into errors because spaCy 2.x is installed, you can run `!pip uninstall spacy -y` first, then run the cell below.

In [8]:
!pip install -U spacy>=3.0

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
zh-core-web-md 2.3.1 requires spacy<2.4.0,>=2.3.0, but you have spacy 3.0.5 which is incompatible.
pt-core-news-sm 2.3.0 requires spacy<2.4.0,>=2.3.0, but you have spacy 3.0.5 which is incompatible.
pt-core-news-md 2.3.0 requires spacy<2.4.0,>=2.3.0, but you have spacy 3.0.5 which is incompatible.
prodigy 1.10.7 requires catalogue<1.1.0,>=0.0.8, but you have catalogue 2.0.1 which is incompatible.
prodigy 1.10.7 requires spacy<2.4.0,>=2.3.0, but you have spacy 3.0.5 which is incompatible.
prodigy 1.10.7 requires srsly<1.1.0,>=0.0.6, but you have srsly 2.4.0 which is incompatible.
kindred 2.7.2 requires sphinx==1.5.5, but you have sphinx 3.4.3 which is incompatible.
it-core-news-sm 2.3.0 requires spacy<2.4.0,>=2.3.0, but you have spacy 3.0.5 which is incompatible.
es-core-news-sm 2.3.1 requires spacy<2

## Download Language Model

In [9]:
!python -m spacy download ru_core_news_md

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
Collecting ru-core-news-md==3.0.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.0.0/ru_core_news_md-3.0.0-py3-none-any.whl (43.9 MB)
[K     |████████████████████████████████| 43.9 MB 1.6 MB/s eta 0:00:01
Installing collected packages: ru-core-news-md
Successfully installed ru-core-news-md-3.0.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_md')


## Import Libraries

In [10]:
import spacy

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


## Load Language Model
Once the model is downloaded, we need to load it. There are two ways to load a spaCy language model.

1. We can import the model as a module and then load it from the module.

In [11]:
import ru_core_news_md
nlp = ru_core_news_md.load()

2. We can load the model by name.

In [None]:
#nlp = spacy.load('ru_core_news_md')

If you just downloaded the model for the first time, it’s advisable to use Option 1. Then you can use the model immediately. Otherwise, you’ll likely need to restart your Jupyter kernel (which you can do by clicking Kernel -> Restart Kernel… in the Jupyter Lab menu).

## Process Document
To create a derivative text file that we can use with TF-IDF, topic modeling, or other word-count based methods, we need to use spaCy to *lemmatize* the text, replacing each word with its dictionary form. The result will be an ungrammatical text that will produce better results than the original version when used with word-count methods.

The example text for Russian is *Яблони цветут* from *Новые люди* by Зинаида Николаевна Гиппиус [from Библиотека русской и советской классики](https://ruslit.traumlibrary.net/book/gippius-ss15-01/gippius-ss15-01.html). (Thanks to Katherine Bowers for the text referral.)

In [12]:
filepath = '../texts/other-languages/ru.txt'
text = open(filepath, encoding='utf-8').read()
document = nlp(text)

In [13]:
outname = filepath.replace('.txt', '-lemmatized.txt')
with open(outname, 'w', encoding='utf8') as out:
    for token in document:
        out.write(token.lemma_.lower())
        out.write(' ')

## Examine Differences
The code cell below prints the original word in the text, a dash, then the lemmatized form that was written to the derivative text document that you'll use for TF-IDF and topic modeling. It's a good idea to take a look at this so you can see if there are places where the model consistently makes mistakes, and also to understand what lemmatization is doing.

For instance, an earlier version of spaCy often associated the Spanish preposition `para` 'for' with the verb `parar` 'to stop'. If you just took that derivative file and used it for TF-IDF or topic modeling without realizing what was happening, you might reach the surprising conclusion that "stop" is a very frequent word in your text, when actually it's lemmatization problem. 

Also, keep in mind that lemmatization removes both case and and gender (from adjectives and verbs). So if you want to look at how often a particular adjective or past-tense verb is applied to masculine things or characters vs. feminine,  you'll need to prepare your text another way. (Be careful using the unlemmatized version, though: if you do, be sure to account for -- and count -- all of the adjectival declensions for each gender.)

In [14]:
for token in document:
    print(token.text + ' - ' + token.lemma_)

Яблони - яблони
цветут - цвести
* - *


 - 


I - i

 - 

Зачем - зачем
она - она
так - так
сделала - сделать
, - ,
что - что
я - я
не - не
умею - уметь
жить - жить
без - без
нее - нее
? - ?
Это - это
она - она
сделала - сделать
, - ,
я - я
не - не
виноват - виноватый
… - …


 - 


Я - я
написал - написать
это - это
– - –
и - и
мне - мне
стало - стать
странно - странный
. - .
Говорю - говорить
точно - точно
о - о
возлюбленной - возлюбленной
. - .
Но - но
возлюбленной - возлюбленной
у - у
меня - меня
нет - нет
. - .
Это - это
моя - мой
мать - мать
сделала - сделать
так - так
, - ,
что - что
я - я
умираю - умирать
без - без
нее - нее
. - .
Если - если
человека - человек
держать - держать
в - в
тепле - тепло
всю - весь
жизнь - жизнь
, - ,
а - а
потом - потом
неодетого - неодетый
выгнать - выгнать
на - на
двадцатиградусный - двадцатиградусный
мороз - мороз
, - ,
он - он
непременно - непременно
умрет - умереть
. - .
И - и
я - я
умру - умереть
. - .
Умру - умру
из - из
- - -
за - за
нее - не

Я - я
инстинктивно - инстинктивно
чувствовал - чувствовать
, - ,
что - что
надо - надо
все - все
переменить - переменить
. - .


 - 


С - с
нами - нами
поехала - поехать
наша - наш
старая - старый
экономка - экономка
, - ,
без - без
нее - нее
мы - мы
совсем - совсем
пропали - пропасть
бы - бы
. - .
Я - я
в - в
Москве - москва
никогда - никогда
не - не
был - быть
, - ,
а - а
мама - мама
хотя - хотя
и - и
жила - жить
там - там
прежде - прежде
, - ,
однако - однако
ничего - ничто
не - не
знала - знать
и - и
не - не
умела - уметь
. - .
Может - мочь
быть - быть
, - ,
и - и
сумела - суметь
бы - бы
, - ,
но - но
ей - ей
было - было
скучно - скучный
заботиться - заботиться
и - и
суетиться - суетиться
, - ,
и - и
я - я
это - это
отлично - отлично
понимал - понимать
. - .


 - 


Мы - мы
наняли - нанять
хорошенькую - хорошенький
квартирку - квартирка
на - на
Малой - малый
Никитской - никитский
и - и
зажили - зажить
припеваючи - припеваючи
, - ,
по - по
- - -
товарищески - товарищески
. - .
Езди

прошел - пройти
, - ,
тихо - тихо
так - так
, - ,
что - что
я - я
едва - едва
услышал - услышать
. - .
Я - я
обернулся - обернуться
: - :
шаги - шаг
слышались - слышаться
за - за
изгородью - изгородь
, - ,
в - в
чужом - чужой
саду - сад
. - .
Это - это
были - были
даже - даже
не - не
шаги - шаг
, - ,
а - а
какой - какой
- - -
то - то
связный - связный
шорох - шорох
, - ,
точно - точно
что - что
- - -
то - то
проволоклось - проволочься
по - по
земле - земля
– - –
и - и
затихло - затихнуть
. - .
Я - я
мог - мочь
бы - бы
встать - встать
и - и
посмотреть - посмотреть
, - ,
что - что
это - это
такое - такой
, - ,
– - –
изгородь - изгородь
приходилась - приходиться
мне - мне
в - в
одном - одном
месте - место
чуть - чуть
выше - высоко
пояса - пояс
, - ,
– - –
но - но
я - я
подумал - подумать
: - :
« - "
Ну - ну
, - ,
все - все
равно - равный
, - ,
не - не
стоит - стоить
» - "
. - .
Весенний - весенний
воздух - воздух
утомил - утомить
меня - меня
, - ,
мне - мне
хотелось - хотеться
быть - быть


– - –
Только - только
… - …
– - –
продолжала - продолжать
Марта - марта
, - ,
– - –
вы - вы
не - не
сердитесь - сердитесь
, - ,
но - но
часто - часто
вы - вы
играете - играть
такое - такой
составное - составной
, - ,
из - из
многих - многих
разных - разный
нот - нота
, - ,
а - а
всего - всего
- - -
то - то
нет - нет
. - .
Знаете - знать
, - ,
надо - надо
удаляться - удаляться
от - от
того - того
, - ,
что - что
люди - человек
придумали - придумать
, - ,
а - а
надо - надо
слушать - слушать
здесь - здесь
, - ,
– - –
она - она
провела - провести
рукой - рука
по - по
воздуху - воздух
, - ,
– - –
и - и
стараться - стараться
согласно - согласно
, - ,
чтоб - чтоб
все - все
вместе - вместе
шло - идти
к - к
одному - одному
… - …


 - 


Она - она
остановилась - остановиться
, - ,
видимо - видимо
затрудняясь - затрудняться
объяснить - объяснить
свою - свой
мысль - мысль
, - ,
но - но
, - ,
конечно - конечно
, - ,
я - я
ее - ее
понял - понять
. - .


 - 


– - –
Я - я
всегда - всегда
так - так
и

один - один
, - ,
теперь - теперь
, - ,
в - в
эту - этот
минуту - минута
, - ,
один - один
со - со
своим - свой
обещанием - обещание
и - и
таким - такой
большим - больший
желанием - желание
еще - еще
раз - раз
увидеть - увидеть
сад - сад
, - ,
весну - весна
, - ,
послушать - послушать
, - ,
что - что
будут - будут
говорить - говорить
яблони - яблоня
… - …
Как - как
всему - всему
я - я
покоряюсь - покоряться
без - без
борьбы - борьба
, - ,
всему - всему
, - ,
что - что
сильнее - сильный
меня - меня
– - –
я - я
покорился - покориться
и - и
тут - тут
неизбежному - неизбежный
. - .
Я - я
еще - еще
раз - раз
посмотрел - посмотреть
на - на
солнце - солнце
, - ,
слабо - слабо
улыбнулся - улыбнуться
и - и
, - ,
не - не
оглядываясь - оглядываться
, - ,
не - не
останавливаясь - останавливаться
, - ,
пошел - пойти
в - в
сад - сад
. - .


 - 


IX - ix

 - 

Когда - когда
я - я
захлопнул - захлопнуть
за - за
собой - себя
калитку - калитка
и - и
сделал - сделать
несколько - несколько
шагов - шаг
вг

И - и
с - с
каждым - каждый
часом - час
прибавляется - прибавляться
тяжесть - тяжесть
жизни - жизнь
. - .
Я - я
живу - жить
, - ,
потому - потому
что - что
не - не
имею - иметь
силы - сила
даже - даже
умереть - умереть
. - .
Живу - жить
в - в
Петербурге - петербург
, - ,
один - один
, - ,
в - в
темной - тёмный
и - и
пропахшей - пропахшей
кухней - кухня
квартире - квартира
, - ,
даю - давать
свои - свой
ненужные - ненужный
уроки - урок
музыки - музыка
и - и
ненужно - ненужно
возвращаюсь - возвращаться
домой - домой
. - .
Сколько - сколько
времени - время
это - это
еще - еще
будет - будет
продолжаться - продолжаться
? - ?


 - 


Посредине - посредине
потолка - потолок
, - ,
в - в
большой - большой
комнате - комната
, - ,
есть - быть
крюк - крюк
… - …
Я - я
уж - уж
говорил - говорить
о - о
нем - нем
. - .
Так - так
вот - вот
мне - мне
приходит - приходить
мысль - мысль
: - :
что - что
, - ,
если - если
я - я
принесу - принесу
из - из
передней - передний
веревку - верёвка
от - от
чемодана