In [19]:
import gensim.downloader
import spacy
nlp = spacy.load('ru_core_news_sm')
nlp.max_length = 12312300000

In [20]:
list(gensim.downloader.info()['models'].keys())

['fasttext-wiki-news-subwords-300',
 'conceptnet-numberbatch-17-06-300',
 'word2vec-ruscorpora-300',
 'word2vec-google-news-300',
 'glove-wiki-gigaword-50',
 'glove-wiki-gigaword-100',
 'glove-wiki-gigaword-200',
 'glove-wiki-gigaword-300',
 'glove-twitter-25',
 'glove-twitter-50',
 'glove-twitter-100',
 'glove-twitter-200',
 '__testing_word2vec-matrix-synopsis']

In [21]:
word2vec_rus = gensim.downloader.load('word2vec-ruscorpora-300')

In [22]:
with open('chelkash1904.txt', 'r', errors='ignore') as file: 
    text = file.read() 

In [23]:
def preprocession(text):

    doc = nlp(text)
    tags = [token.pos_ for token in doc if not token.is_stop and token.is_alpha]
    tokens = [token.lemma_.lower() for token in doc if not token.is_stop and token.is_alpha]

    tokens = [token + "_" + tag for token, tag in zip(tokens, tags)]    
    
    return tokens

In [24]:
preprocessed = preprocession(text)
preprocessed


['потемнеть_VERB',
 'пыль_NOUN',
 'голубой_ADJ',
 'южный_ADJ',
 'небо_NOUN',
 'мутный_ADJ',
 'жаркий_ADJ',
 'солнце_NOUN',
 'смотреть_VERB',
 'зеленоватый_ADJ',
 'море_NOUN',
 'тонкий_ADJ',
 'серый_ADJ',
 'вуаль_NOUN',
 'отражаться_VERB',
 'вода_NOUN',
 'рассекаемой_VERB',
 'удар_NOUN',
 'весло_NOUN',
 'пароходных_VERB',
 'винт_NOUN',
 'острыми_VERB',
 'килями_NOUN',
 'турецкий_ADJ',
 'фелюга_NOUN',
 'судно_NOUN',
 'бороздить_VERB',
 'направление_NOUN',
 'тесный_ADJ',
 'гавань_NOUN',
 'заковать_VERB',
 'гранит_NOUN',
 'волна_NOUN',
 'море_NOUN',
 'подавить_VERB',
 'громадный_ADJ',
 'тяжесть_NOUN',
 'скользить_VERB',
 'хребет_NOUN',
 'биться_VERB',
 'борта_NOUN',
 'судно_NOUN',
 'берега_NOUN',
 'биться_VERB',
 'ропщут_NOUN',
 'вспененные_ADJ',
 'загрязнить_VERB',
 'разный_ADJ',
 'хлам_NOUN',
 'звон_NOUN',
 'якорный_ADJ',
 'цепь_NOUN',
 'грохот_NOUN',
 'сцепление_NOUN',
 'вагон_NOUN',
 'подвозить_VERB',
 'груз_NOUN',
 'металлический_ADJ',
 'вопль_NOUN',
 'железный_ADJ',
 'лист_NOUN',
 'п

In [25]:
def preparation(preproc):
    prepared = [word for word in preproc if word in word2vec_rus][:100]
    return prepared




In [26]:
def vectorization(prepared_text):
    vectorized = [word2vec_rus[word] for word in prepared]
    for v_word in vectorized:
        print(v_word)
        print()

vectorization(prepared)
        

[-4.95927967e-02  1.87942255e-02 -2.24211812e-02  1.01275034e-01
  1.03095835e-02  1.63163934e-02  1.39565747e-02 -6.84652701e-02
 -8.84221122e-03 -1.11194933e-02  1.61861867e-01 -5.00217490e-02
  4.84500341e-02  1.62905490e-03 -5.25175035e-02 -9.73281451e-03
 -4.08139022e-04 -3.84732522e-02  1.23225953e-02  1.28901094e-01
 -2.90240571e-02  9.04582441e-02 -3.88921313e-02  2.07648613e-02
  1.50512522e-02 -1.41415354e-02  7.07034320e-02 -9.51506719e-02
 -9.76596773e-02 -6.33512100e-04 -5.64631000e-02  2.50669774e-02
  4.51813154e-02  6.72796294e-02 -5.39105525e-03 -4.82750870e-02
  5.97456731e-02 -1.00819040e-02 -1.22325029e-02 -1.48889683e-02
  3.36186029e-02  2.68468075e-03  8.93503949e-02 -2.30547469e-02
  8.27536657e-02 -5.11891320e-02  2.80539412e-02 -2.37743203e-02
  1.00101214e-02 -5.60273342e-02  8.43228996e-02  4.24442813e-02
 -3.07813776e-03  1.10375779e-02  1.20965160e-01  6.06100895e-02
  3.93496314e-03  4.85966951e-02 -1.27552077e-01  6.78846017e-02
  4.49662432e-02 -8.76448

In [27]:
def analogy(prepared_text):
    for word in prepared_text:
        prepared_word = word
        analogy = word2vec_rus.most_similar(prepared_word, topn = 1)
        print(f'изначальное слово {prepared_word} -- аналогия {analogy}')

analogy(prepared)

изначальное слово вуаль_NOUN -- аналогия [('вуалетка_NOUN', 0.6199352741241455)]
изначальное слово пыль_NOUN -- аналогия [('пыльный_ADJ', 0.6770917177200317)]
изначальное слово крик_NOUN -- аналогия [('вопль_NOUN', 0.848732590675354)]
изначальное слово железо_NOUN -- аналогия [('медь_NOUN', 0.7057217359542847)]
изначальное слово резкий_ADJ -- аналогия [('резко_ADV', 0.6078967452049255)]
изначальное слово день_NOUN -- аналогия [('неделя_NOUN', 0.7186020016670227)]
изначальное слово удар_NOUN -- аналогия [('апперкот_NOUN', 0.6120994687080383)]
изначальное слово звон_NOUN -- аналогия [('звенеть_VERB', 0.7459673881530762)]
изначальное слово рвать_VERB -- аналогия [('разрывать_VERB', 0.6775113940238953)]
изначальное слово лист_NOUN -- аналогия [('листочек_NOUN', 0.7276023626327515)]
изначальное слово музыка_NOUN -- аналогия [('мелодия_NOUN', 0.7118150591850281)]
изначальное слово направление_NOUN -- аналогия [('бронегруппа::клейст_NOUN', 0.5311847925186157)]
изначальное слово матрос_NOUN --