In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 🧽🚿 Функция для предобработки русского текста

In [None]:
pip install pymorphy2

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/07/57/b2ff2fae3376d4f3c697b9886b64a54b476e1a332c67eee9f88e7f1ae8c9/pymorphy2-0.9.1-py3-none-any.whl (55kB)
[K     |████████████████████████████████| 61kB 3.0MB/s 
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
[?25l  Downloading https://files.pythonhosted.org/packages/3a/79/bea0021eeb7eeefde22ef9e96badf174068a2dd20264b9a378f2be1cdd9e/pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2MB)
[K     |████████████████████████████████| 8.2MB 6.1MB/s 
[?25hCollecting dawg-python>=0.7.1
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844


In [None]:
from gensim.parsing.preprocessing import strip_tags
from gensim.parsing.preprocessing import strip_numeric
from gensim.parsing.preprocessing import strip_punctuation
from gensim.parsing.preprocessing import strip_non_alphanum
from gensim.parsing.preprocessing import strip_short
from gensim.parsing.preprocessing import strip_multiple_whitespaces

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')

import re
import pymorphy2
morph = pymorphy2.MorphAnalyzer()


def preprocess_text(text, tokenization=False):
    """
    Предобрабатывает исходный русский текст.
    Выполняет очистку, токенизацию и лемматизацию.
    Возвращает список токенов или предобработанный текст.
    """
    text = text.lower()                     # приведение к нижнему регистру
    text = strip_tags(text)                 # удаление тэгов
    text = strip_numeric(text)              # удаление цифр
    text = strip_punctuation(text)          # удаление пунктуации
    text = strip_non_alphanum(text)         # удаление небуквенных символов
    text = strip_short(text)                # удаление коротких слов
    text = strip_multiple_whitespaces(text) # удаление множественных пробелов
    
    # Токенизация
    list_of_words = word_tokenize(text, language='russian') 

    # Удаление стоп-слов
    list_of_words = [w for w in list_of_words if w not in stopwords.words('russian')]

    # Лемматизация
    for i in range(len(list_of_words)): 
        list_of_words[i] = morph.parse(list_of_words[i])[0].normal_form

    if tokenization: # возвращаем список слов
        return list_of_words
    else: # возвращаем строку
        return ' '.join(w for w in list_of_words) 

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### 👉 Пример использования

In [None]:
example_text = "Ну что я могу 646сказать, я вижу кто-то наступил_на грабли, Ты разочаровал меня, \
ты был натравлен. По асфальту 336мимо 24.0 цемента, №Избегая% зевак^ под<\b> аплодисменты. Обитатели \
спальных аррондисманов?"

print(example_text, '\n\n')

print(preprocess_text(example_text, tokenization=True))

Ну что я могу 646сказать, я вижу кто-то наступил_на грабли, Ты разочаровал меня, ты был натравлен. По асфальту 336мимо 24.0 цемента, №Избегая% зевак^ под<> аплодисменты. Обитатели спальных аррондисманов? 


['мочь', 'сказать', 'видеть', 'наступить', 'грабли', 'разочаровать', 'натравить', 'асфальт', 'мимо', 'цемент', 'избегать', 'зевака', 'аплодисменты', 'обитатель', 'спальный', 'аррондисман']


## fasttext

In [None]:
import gensim
from gensim.models.wrappers import FastText 
from gensim.test.utils import datapath
from gensim.models import FastText


model = FastText.load_fasttext_format('drive/My Drive/cc.ru.300.bin')

In [None]:
similarity = model.wv.similarity('женщина', 'топор')
similarity

0.11836832

In [None]:
pip install compress-fasttext

Collecting compress-fasttext
  Downloading https://files.pythonhosted.org/packages/c4/a5/44314a0fd70b25a3d3246d49ab778ed6277e748c2055690a25b1afedc890/compress-fasttext-0.0.7.tar.gz
Building wheels for collected packages: compress-fasttext
  Building wheel for compress-fasttext (setup.py) ... [?25l[?25hdone
  Created wheel for compress-fasttext: filename=compress_fasttext-0.0.7-cp37-none-any.whl size=11082 sha256=30d8b03ec0e350ed0079ce3ca819100762238c8ab57bf0df72145524cb05e986
  Stored in directory: /root/.cache/pip/wheels/9e/d5/00/8665ad9b83767b6e4dac7984e6930a7bda3e3cbc5943bfc525
Successfully built compress-fasttext
Installing collected packages: compress-fasttext
Successfully installed compress-fasttext-0.0.7


In [None]:
pip install gensim==3.8.1

Collecting gensim==3.8.1
[?25l  Downloading https://files.pythonhosted.org/packages/44/93/c6011037f24e3106d13f3be55297bf84ece2bf15b278cc4776339dc52db5/gensim-3.8.1-cp37-cp37m-manylinux1_x86_64.whl (24.2MB)
[K     |████████████████████████████████| 24.2MB 158kB/s 
Installing collected packages: gensim
  Found existing installation: gensim 3.6.0
    Uninstalling gensim-3.6.0:
      Successfully uninstalled gensim-3.6.0
Successfully installed gensim-3.8.1


In [None]:
import compress_fasttext

NameError: ignored

In [None]:
import gensim
from gensim.models.wrappers import FastText


model = FastText.load_fasttext_format('cc.ru.300.bin')
# model = FastText.load_fasttext_format('ft_native_300_ru_wiki_lenta_lemmatize.bin')

In [None]:
model.wv.similarity('жена', 'муж')

In [None]:
# !pip3 install gensim==3.8.1

In [None]:
# !pip3 install compress-fasttext

In [None]:
import compress_fasttext


small_model = compress_fasttext.prune_ft_freq(model, pq=True)
small_model.save('small_rus_fasttext_model.bin')