In [1]:
!pip install transformers sentence_transformers sacremoses corus annoy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.24.0-py3-none-any.whl (5.5 MB)
[K     |████████████████████████████████| 5.5 MB 28.4 MB/s 
[?25hCollecting sentence_transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[K     |████████████████████████████████| 85 kB 6.1 MB/s 
[?25hCollecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 36.0 MB/s 
[?25hCollecting corus
  Downloading corus-0.9.0-py3-none-any.whl (83 kB)
[K     |████████████████████████████████| 83 kB 2.3 MB/s 
[?25hCollecting annoy
  Downloading annoy-1.17.1.tar.gz (647 kB)
[K     |████████████████████████████████| 647 kB 56.6 MB/s 
Collecting huggingface-hub<1.0,>=0.10.0
  Downloading huggingface_hub-0.10.1-py3-none-any.whl (163 kB)
[K     |████████████████████████████████| 163 kB 68.8 MB/s 
Collecting tokenizers!=0.11.3,<0.14,>=0.

In [2]:
import pandas as pd
import re
import io

import transformers
import sacremoses
import corus
import annoy

In [3]:
!wget http://www.manythings.org/anki/rus-eng.zip

--2022-11-15 18:16:16--  http://www.manythings.org/anki/rus-eng.zip
Resolving www.manythings.org (www.manythings.org)... 173.254.30.110
Connecting to www.manythings.org (www.manythings.org)|173.254.30.110|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 15011848 (14M) [application/zip]
Saving to: ‘rus-eng.zip’


2022-11-15 18:16:19 (5.81 MB/s) - ‘rus-eng.zip’ saved [15011848/15011848]



In [4]:
!mkdir rus-eng
!unzip rus-eng.zip -d rus-eng/

Archive:  rus-eng.zip
  inflating: rus-eng/rus.txt         
  inflating: rus-eng/_about.txt      


In [5]:
path_to_file = "/content/rus-eng/rus.txt"

In [7]:
def preprocess_sentence(w):
    w = w.lower().strip()
    w = re.sub(r"([?.!,])", r" \1 ", w)
    w = re.sub(r'[" "]+', " ", w)
    w = re.sub(r"[^a-zA-Zа-яА-Я?.!,']+", " ", w)
    w = w.strip()
    return w

In [8]:
def create_dataset(path, num_examples):
    lines = io.open(path, encoding='UTF-8').read().strip().split('\n')
    word_pairs = [[preprocess_sentence(w) for w in l.split('\t')[:2]]  for l in lines[:num_examples]]
    return zip(*word_pairs)

In [9]:
en, ru = create_dataset(path_to_file, None)
print(en[13])
print(ru[13])

who ?
кто ?


In [11]:
from transformers import AutoModelWithLMHead, AutoTokenizer

model = AutoModelWithLMHead.from_pretrained("Helsinki-NLP/opus-mt-ru-en")
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en")



Downloading:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/307M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.08M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/803k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.60M [00:00<?, ?B/s]

In [12]:
for i in range(10):
    input = ru[i]
    input_ids = tokenizer.encode(input, return_tensors="pt")
    output = model.generate(input_ids)
    decoded = tokenizer.decode(output[0], skip_special_tokens=True)
    print(f'ru: {input}, en: {decoded}, real: {en[i]}')



ru: марш !, en: Hurry up!, real: go .
ru: иди ., en: Go on., real: go .
ru: идите ., en: Go on., real: go .
ru: здравствуйте ., en: Hello., real: hi .
ru: привет !, en: Hey!, real: hi .
ru: хай ., en: Hey., real: hi .
ru: здрасте ., en: Hello., real: hi .
ru: здоро во !, en: Hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey, hey., real: hi .
ru: приветик !, en: Hello!, real: hi .
ru: беги !, en: Run!, real: run !


In [13]:
inputs = ['Сегодня идет дождь', 'Завтра мы поедем на пляж и будем там плавать', 
           'Мы смотрим телевизор.', 
          'Я сейчас работаю.',  
          'Мы любим ходить гулять, если на улице хорошая погода.']
for input in inputs:
    input_ids = tokenizer.encode(input, return_tensors="pt")
    output = model.generate(input_ids)
    decoded = tokenizer.decode(output[0], skip_special_tokens=True)
    print(f'ru: {input}, en: {decoded}')

ru: Сегодня идет дождь, en: It's raining today.
ru: Завтра мы поедем на пляж и будем там плавать, en: Tomorrow we'll go to the beach and swim there.
ru: Мы смотрим телевизор., en: We're watching TV.
ru: Я сейчас работаю., en: I'm working now.
ru: Мы любим ходить гулять, если на улице хорошая погода., en: We like to walk if the weather's good outside.


Предобученная модель неплохо справляется с переводом

In [16]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2022-11-15 18:26:32--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20221115%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221115T182632Z&X-Amz-Expires=300&X-Amz-Signature=6cd5c5cf4af9ea80507eafdad80f72295fede5669b05f50ce6d8020c33590230&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2022-11-15 18:26:33--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-

In [17]:
from corus import load_lenta
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)
next(records)

LentaRecord(
    url='https://lenta.ru/news/2018/12/14/cancer/',
    title='Названы регионы России с\xa0самой высокой смертностью от\xa0рака',
    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.',
    topic='Россия',
    tags='Общество',
    date=None
)

In [18]:
from sentence_transformers import SentenceTransformer
model_st = SentenceTransformer('symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli')

Downloading:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.73k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/677 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/356 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

In [19]:
text_news = 'экономическая политика России.'
embedding = model_st.encode(text_news)
print(embedding)
embedding.shape

[ 2.62698680e-01 -5.14553376e-02  8.84712219e-01  1.22895554e-01
 -3.09183210e-01 -6.55036628e-01  9.56811383e-02 -5.21152206e-02
 -1.37884593e+00  1.59062791e+00 -4.95152563e-01 -9.46011961e-01
  9.32952523e-01  4.43043798e-01  8.68995130e-01  3.02106768e-01
  1.38996452e-01 -2.13167787e-01 -8.19159210e-01  9.69524160e-02
  5.09997547e-01  5.61951101e-01  1.59177676e-01 -4.78128910e-01
  8.33004937e-02 -4.89078373e-01 -7.03137815e-01  2.52589613e-01
  1.12047565e+00 -6.12305701e-02 -2.50174850e-01 -1.20946896e+00
 -1.46515584e+00 -1.55111581e-01  1.03496730e+00  2.27209881e-01
 -1.88014545e-02 -4.16742295e-01 -6.49958730e-01  3.00078005e-01
  3.94406736e-01 -4.92680520e-01  6.70441210e-01  2.37224251e-02
 -1.68332919e-01 -1.45861864e-01 -3.35411519e-01  2.83036649e-01
 -9.61085737e-01  4.83752936e-01  3.97685245e-02  1.89564958e-01
  8.10047448e-01  4.79005158e-01  1.03477120e+00  1.06664765e+00
  1.27445742e-01 -4.13582623e-01 -2.60176927e-01 -1.65511981e-01
  6.34936690e-01 -1.71835

(768,)

In [20]:
def get_model_index(model_st):
    model_index = annoy.AnnoyIndex(768 ,'angular')
    index_map = {}
    counter = 0

    for element in records:
        index_map[counter] = element.text
        vector_model = model_st.encode(element.text)
        model_index.add_item(counter, vector_model) 
        counter += 1
        if counter > 10000:
            break

    model_index.build(10)
    return model_index, index_map

In [21]:
index, index_map = get_model_index(model_st)

In [22]:
def get_response(news, k, model_st, index, index_map):
    vector = model_st.encode(news)
    similar_news = index.get_nns_by_vector(vector, k, include_distances=True)
    result = pd.DataFrame({'news': [index_map[i] for i in similar_news[0]], 
                           'distance' : similar_news[1]})
    return result

In [23]:
new_ = 'США и Россия - две страны с интересной историей.'
get_response(new_, 10, model_st, index, index_map)

Unnamed: 0,news,distance
0,Россия в последние месяцы перебрасывала в Ливи...,1.060179
1,Россия не оставит без ответа выход США из Дого...,1.06089
2,Россия будет защищать договор о ракетах средне...,1.070578
3,Современная Россия не может соперничать с США ...,1.09694
4,Президент России Владимир Путин и президент СШ...,1.102236
5,"Россия перешла «все возможные красные линии», ...",1.10328
6,В случае войны между Россией и НАТО особое зна...,1.114706
7,Возможный выход Вашингтона из Договора о ракет...,1.114833
8,Россия сократит добычу нефти не на 200 тысяч б...,1.11503
9,Специалисты из Российского совета по междунаро...,1.120327


неплохие результаты