## 1. Загружаем корпус 1:

Корпус *Dostoyevsky* состоит из романов, рассказов и повестей Ф.М. Достоевского и весит **20,4 МБ**

In [1]:
filename = 'Dostoyevsky.txt' 
with open(filename) as open_file:
    text_as_lines = open_file.readlines()

## 2. Предобрабатываем корпус 1:

In [3]:
!pip install spacy==3.2



In [4]:
import spacy
from tqdm import tqdm

In [5]:
!python -m spacy download ru_core_news_md

Collecting ru-core-news-md==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.2.0/ru_core_news_md-3.2.0-py3-none-any.whl (43.0 MB)
[K     |████████████████████████████████| 43.0 MB 5.0 MB/s eta 0:00:013
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_md')


In [6]:
russian_model = spacy.load('ru_core_news_md', disable=['ner', 'attribute_ruler'])

In [9]:
def preprocess(some_text):
    """принимает на вход строку текста, выдает список предложений
    каждое предлоежние -- список токенов с пос тегами"""
    output = []
    parsed_text = russian_model(some_text)
    one_sentence = []
    for word in parsed_text:
        lemma = word.lemma_
        pos = word.pos_
        token_with_pos_tag = word.lemma_+'_'+word.pos_
        if word.is_sent_start or lemma == '.':  
            output.append(one_sentence)
            one_sentence = []
        one_sentence.append(token_with_pos_tag)
    return(output)

In [10]:
preprocessed_texts_list = []
for line in tqdm(text_as_lines, position=0, leave=True): 
    preprocessed_texts_list.extend(preprocess(line))

100%|██████████| 98532/98532 [21:58<00:00, 74.71it/s]  


## 3. Обучаем модель *Dostoevsky.wordvectors*

In [12]:
!pip install gensim



In [13]:
import gensim

In [14]:
model = gensim.models.Word2Vec(preprocessed_texts_list)

In [15]:
model.save("Dostoyevsky.wordvectors")

## 4. Загружаем корпус 2:

Корпус *Tolstoy* состоит из романов, рассказов и повестей Л.Н. Толстого и весит **20,4 МБ**

In [19]:
file = 'Tolstoy.txt' 
with open(file) as open_tolstoy:
    text_lines = open_tolstoy.readlines()

## 5. Предобрабатываем корпус 2:

In [21]:
preprocessed_text_list = []
for line in tqdm(text_lines, position=0, leave=True): 
    preprocessed_text_list.extend(preprocess(line))

100%|██████████| 63471/63471 [18:41<00:00, 56.62it/s]  


## 6. Обучаем модель *Tolstoy.wordvectors*

In [23]:
model_tolstoy = gensim.models.Word2Vec(preprocessed_text_list)

In [24]:
model_tolstoy.save("Tolstoy.wordvectors")

## 7. Находим 3 слова с различными наборами семантических ассоциатов

Слова: долг, война, грязь


In [67]:
model.wv.most_similar('долг_NOUN')

[('жалование_NOUN', 0.7930797338485718),
 ('убежище_NOUN', 0.789128303527832),
 ('обязанность_NOUN', 0.7847358584403992),
 ('вина_NOUN', 0.7717090845108032),
 ('вера_NOUN', 0.7705187797546387),
 ('обида_NOUN', 0.7536798119544983),
 ('обещание_NOUN', 0.753195583820343),
 ('согласие_NOUN', 0.749993622303009),
 ('милость_NOUN', 0.7487629055976868),
 ('обольщение_NOUN', 0.7377333045005798)]

In [68]:
model_tolstoy.wv.most_similar('долг_NOUN')

[('обязанность_NOUN', 0.8071587681770325),
 ('семья_NOUN', 0.7922259569168091),
 ('честь_NOUN', 0.7502140402793884),
 ('имение_NOUN', 0.7403896450996399),
 ('отечество_NOUN', 0.7347727417945862),
 ('служба_NOUN', 0.7191548943519592),
 ('работа_NOUN', 0.7153307795524597),
 ('правило_NOUN', 0.7129880785942078),
 ('награда_NOUN', 0.7128452658653259),
 ('доход_NOUN', 0.7119536995887756)]

In [69]:
model.wv.most_similar('война_NOUN')

[('социальный_ADJ', 0.8789650201797485),
 ('издание_NOUN', 0.8762425780296326),
 ('страна_NOUN', 0.8722735643386841),
 ('тургенев_PROPN', 0.8709366917610168),
 ('15_ADJ', 0.867161750793457),
 ('исследование_NOUN', 0.8640002012252808),
 ('буква_NOUN', 0.8629506826400757),
 ('выпуск_NOUN', 0.8597203493118286),
 ('народный_ADJ', 0.8572708964347839),
 ('реформа_NOUN', 0.8572072982788086)]

In [70]:
model_tolstoy.wv.most_similar('война_NOUN')

[('искусство_NOUN', 0.8145579695701599),
 ('убийство_NOUN', 0.8130857348442078),
 ('государство_NOUN', 0.8089040517807007),
 ('политический_ADJ', 0.8084136843681335),
 ('наука_NOUN', 0.8010005950927734),
 ('школа_NOUN', 0.7844389081001282),
 ('россия_PROPN', 0.7779257893562317),
 ('история_NOUN', 0.7709567546844482),
 ('шекспир_PROPN', 0.768816351890564),
 ('правительство_NOUN', 0.7594237327575684)]

In [71]:
model.wv.most_similar('грязь_NOUN')

[('кожа_NOUN', 0.85402911901474),
 ('вытекать_VERB', 0.8212291598320007),
 ('каморка_NOUN', 0.8165959715843201),
 ('среда_NOUN', 0.8136339783668518),
 ('поместье_NOUN', 0.8052793741226196),
 ('поле_NOUN', 0.8035864233970642),
 ('кабак_NOUN', 0.7977530360221863),
 ('семья_NOUN', 0.7964116930961609),
 ('конура_NOUN', 0.7960054278373718),
 ('куртка_NOUN', 0.795711874961853)]

In [72]:
model_tolstoy.wv.most_similar('грязь_NOUN')

[('доска_NOUN', 0.8936564326286316),
 ('цепь_NOUN', 0.8852493166923523),
 ('дорожка_NOUN', 0.8817371129989624),
 ('аллея_NOUN', 0.8807147741317749),
 ('лощина_NOUN', 0.8739181160926819),
 ('река_NOUN', 0.8704800605773926),
 ('пруд_NOUN', 0.8704545497894287),
 ('низ_NOUN', 0.8653594255447388),
 ('туфля_NOUN', 0.8638460636138916),
 ('тропинка_NOUN', 0.8635293841362)]

## 8. Интерпретируем различия 

### 1) Долг

В модели *Dostoevsky.wordvectors* слово *долг* имеет следующие семантические ассоциаты:

* жалование_NOUN
* убежище_NOUN
* обязанность_NOUN
* вина_NOUN
* вера_NOUN
* обида_NOUN
* обещание_NOUN
* согласие_NOUN
* милость_NOUN
* обольщение_NOUN

В то время как в модели *Tolstoy.wordvectors* это же слово имеет другие семантические ассоциаты:

* обязанность_NOUN
* семья_NOUN
* честь_NOUN
* имение_NOUN
* отечество_NOUN
* служба_NOUN
* работа_NOUN
* правило_NOUN
* награда_NOUN
* доход_NOUN

Мы видим, что в произведениях Достоевского слово *долг* чаще используется в значении денежной суммы, взятой взаймы и подлежащей возврату (обязанность, обещание, милость, жалование), тогда как в произведениях Толстого слово *долг* является моральным обязательством человека (служебный долг, семейный, долг перед Отечеством). 

### 2) Война

В модели *Dostoevsky.wordvectors* слово *война* имеет следующие семантические ассоциаты:

* социальный_ADJ
* издание_NOUN
* страна_NOUN
* тургенев_PROPN
* 15_ADJ
* исследование_NOUN
* буква_NOUN
* выпуск_NOUN
* народный_ADJ
* реформа_NOUN

В то время как в модели *Tolstoy.wordvectors* это же слово имеет другие семантические ассоциаты:

* искусство_NOUN
* убийство_NOUN
* государство_NOUN
* политический_ADJ
* наука_NOUN
* школа_NOUN
* россия_PROPN
* история_NOUN
* шекспир_PROPN
* правительство_NOUN

Под словом *война* в произведениях Достоевского подразумевается война с социальными проблемами, которые нуждались в незамедлительных реформах (социальный, издание, реформа, страна), тогда как Толстой успользует данное слово в значении конфликта между странами (убийство, государство, политический, россия, история, правительство).

### 3) Грязь

В модели *Dostoevsky.wordvectors* слово *грязь* имеет следующие семантические ассоциаты:

* кожа_NOUN
* вытекать_VERB
* каморка_NOUN
* среда_NOUN
* поместье_NOUN
* поле_NOUN
* кабак_NOUN
* семья_NOUN
* конура_NOUN
* куртка_NOUN

В то время как в модели *Tolstoy.wordvectors* это же слово имеет другие семантические ассоциаты:

* доска_NOUN
* цепь_NOUN
* дорожка_NOUN
* аллея_NOUN
* лощина_NOUN
* река_NOUN
* пруд_NOUN
* низ_NOUN
* туфля_NOUN
* тропинка_NOUN

В произведениях Достоевского слово *грязь* ассоциируется с помещениями и предметами, связанными с человеком и его повседневной жизнью (каморка, поместье, кабак, конура, куртка, кожа), тогда как в произведениях Толстого слово *грязь* связано с природой, то есть с почвой (дорожка, аллея, лощина, река, пруд, тропинка). 