[Exploiting Similarities among Languages for Machine Translation](https://arxiv.org/pdf/1309.4168.pdf)

[Самоучитель клингонского](https://habr.com/ru/company/antiplagiat/blog/507848/)

[Word vectors for 157 languages](https://fasttext.cc/docs/en/crawl-vectors.html)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/My Drive/embeddings'

/content/drive/My Drive/embeddings


## Data

In [None]:
import gensim
import numpy as np
from gensim.models import KeyedVectors

### Загрузка эмбеддингов

In [None]:
!unzip cc.uk.300.vec.zip
!unzip cc.ru.300.vec.zip

Archive:  cc.uk.300.vec.zip
  inflating: cc.uk.300.vec           
Archive:  cc.ru.300.vec.zip
  inflating: cc.ru.300.vec           


In [None]:
%%time

uk_emb = KeyedVectors.load_word2vec_format("cc.uk.300.vec")

CPU times: user 2min 25s, sys: 3.03 s, total: 2min 28s
Wall time: 2min 34s


In [None]:
%%time

ru_emb = KeyedVectors.load_word2vec_format("cc.ru.300.vec")

CPU times: user 2min 24s, sys: 3.53 s, total: 2min 28s
Wall time: 2min 32s


In [None]:
ru_emb.most_similar([ru_emb["август"]], topn=10)

[('август', 1.0000001192092896),
 ('июль', 0.9383152723312378),
 ('сентябрь', 0.9240029454231262),
 ('июнь', 0.9222574830055237),
 ('октябрь', 0.9095539450645447),
 ('ноябрь', 0.8930036425590515),
 ('апрель', 0.8729087114334106),
 ('декабрь', 0.8652557730674744),
 ('март', 0.8545795679092407),
 ('февраль', 0.8401415944099426)]

In [None]:
uk_emb.most_similar([uk_emb["серпень"]])

[('серпень', 0.9999998807907104),
 ('липень', 0.9096441268920898),
 ('вересень', 0.9016969203948975),
 ('червень', 0.8992518782615662),
 ('жовтень', 0.8810408115386963),
 ('листопад', 0.8787633180618286),
 ('квітень', 0.8592804670333862),
 ('грудень', 0.8586863279342651),
 ('травень', 0.840811014175415),
 ('лютий', 0.8256431221961975)]

In [None]:
ru_emb.most_similar([uk_emb["серпень"]])

[('Недопустимость', 0.24435284733772278),
 ('конструктивность', 0.23293082416057587),
 ('офор', 0.23256804049015045),
 ('deteydlya', 0.230317160487175),
 ('пресечении', 0.22632381319999695),
 ('одностороннего', 0.22608886659145355),
 ('подход', 0.2230587750673294),
 ('иболее', 0.22003726661205292),
 ('2015Александр', 0.21872766315937042),
 ('конструктивен', 0.21796567738056183)]

### Загрузка размеченных датасетов

In [None]:
def load_word_pairs(filename):
    uk_ru_pairs = []
    uk_vectors = []
    ru_vectors = []
    with open(filename, "r") as inpf:
        for line in inpf:
            uk, ru = line.rstrip().split("\t")
            if uk not in uk_emb or ru not in ru_emb:
                continue
            uk_ru_pairs.append((uk, ru))
            uk_vectors.append(uk_emb[uk])
            ru_vectors.append(ru_emb[ru])
    return uk_ru_pairs, np.array(uk_vectors), np.array(ru_vectors)

In [None]:
uk_ru_train, X_train, Y_train = load_word_pairs("ukr_rus.train.txt")

In [None]:
uk_ru_test, X_test, Y_test = load_word_pairs("ukr_rus.test.txt")

## Маппинг эмбеддингов

Пусть $x_i \in \mathrm{R}^d$ векторное представление слова $i$ на исходном языке, и $y_i \in \mathrm{R}^d$ векторное представление его перевода на целевой язык. Наша цель - выучить линейную трансформацию $W$которая минимизирует Евклидово расстояние между $Wx_i$ и $y_i$ для некоторого подмножества векторов. Все это - Procrustes problem:

$$W^*= \arg\min_W \sum_{i=1}^n||Wx_i - y_i||_2$$
или
$$W^*= \arg\min_W ||WX - Y||_F$$

где $||*||_F$ - норма Фробениуса.

В греческой мифологии Прокруст был разбойником, который обитал в находящемся в Аттике Коридалле  и подстерегал путников на пути между Мегарой и Афинами. Он обманом заманивал путешественников в свой дом, укладывал их на своё ложе и тем, кому оно было коротко, отрубал ноги, а кому было длинно — вытягивал ноги по длине этого ложа.
Мы делаем то же самое с нашим пространством :) Прокрустово ложе в данном случае — это целевое пространство для эмбеддингов.

![embedding_mapping.png](https://github.com/yandexdataschool/nlp_course/raw/master/resources/embedding_mapping.png)

Обучим маппинг

In [None]:
from sklearn.linear_model import LinearRegression

mapping = LinearRegression(fit_intercept=False)
mapping.fit(X_train, Y_train)

Посмотрим, что теперь получилось

In [None]:
august = mapping.predict(uk_emb["серпень"].reshape(1, -1))
ru_emb.most_similar(august)

[('апрель', 0.8541285991668701),
 ('июнь', 0.8411202430725098),
 ('март', 0.839699387550354),
 ('сентябрь', 0.835986852645874),
 ('февраль', 0.8329297304153442),
 ('октябрь', 0.8311845660209656),
 ('ноябрь', 0.8278923630714417),
 ('июль', 0.8234528303146362),
 ('август', 0.812049925327301),
 ('декабрь', 0.803900420665741)]

Метрика - precision@k

In [None]:
def precision(pairs, mapped_vectors, topn=1):
    assert len(pairs) == len(mapped_vectors)
    num_matches = 0
    for i, (_, ru) in enumerate(pairs):
        result = ru_emb.most_similar(mapped_vectors[i, :].reshape(1, -1))
        if ru in [item[0] for item in result[:topn]]:
          num_matches += 1
    precision_val = num_matches / len(pairs)
    return precision_val


In [None]:
assert precision([("серпень", "август")], august, topn=5) == 0.0
assert precision([("серпень", "август")], august, topn=9) == 1.0
assert precision([("серпень", "август")], august, topn=10) == 1.0

In [None]:
precision_top1 = precision(uk_ru_test, mapping.predict(X_test), 1)
precision_top1

0.6356589147286822

## Улучшение (orthogonal Procrustean problem)

В оригинальной статье показано, что линейный маппинг должен быть ортогональным.
Наложим ограничение ортогональности на $W$. Тогда

$$W^*= \arg\min_W ||WX - Y||_F \text{, где: } W^TW = I$$

$$I \text{- identity matrix}$$

Вместо того, чтобы снова решать задачу регрессии, мы можем найти оптимальное ортогональное преобразование, используя SVD.
$$X^TY=U\Sigma V^T\text{, SVD}$$
$$W^*=UV^T$$

In [None]:
from scipy import linalg

In [None]:
def learn_transform(X_train, Y_train):
    matrix = X_train.T @ Y_train
    U, s, V = linalg.svd(matrix, full_matrices=True)
    W = U @ V
    return W

In [None]:
W = learn_transform(X_train, Y_train)

In [None]:
ru_emb.most_similar([np.matmul(uk_emb["серпень"], W)])

[('апрель', 0.8237906694412231),
 ('сентябрь', 0.8049713969230652),
 ('март', 0.802565336227417),
 ('июнь', 0.8021842837333679),
 ('октябрь', 0.8001737594604492),
 ('ноябрь', 0.7934484481811523),
 ('февраль', 0.7914122343063354),
 ('июль', 0.7908109426498413),
 ('август', 0.7891018390655518),
 ('декабрь', 0.7686373591423035)]

In [None]:
precision(uk_ru_test, np.matmul(X_test, W))

0.6537467700258398

## UK-RU Переводчик

Теперь мы готовы сделать наш переводчик: для каждого слова на исходном языке найдем ближайшее слово в целевом языке


In [None]:
with open("fairy_tale.txt", "r") as inpf:
    uk_sentences = [line.rstrip().lower() for line in inpf]

In [None]:
import nltk
from nltk import word_tokenize
nltk.download('punkt')

import string

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
def translate(sentence):
    result = []
    for word in word_tokenize(sentence):
      if word in uk_emb.key_to_index:
        predicted = ru_emb.most_similar([np.matmul(uk_emb[word], W)])[0][0]
        result.append(predicted)
    return ' '.join(result)

In [None]:
assert translate(".") == "."
assert translate("1, 3") == "1 , 3"
assert translate("кіт зловив мишу") == "кот поймал мышку"

In [None]:
for sentence in uk_sentences[:10]:
    print("src: {}\ndst: {}\n".format(sentence, translate(sentence)))

src: лисичка - сестричка і вовк - панібрат
dst: лисичка – сестричка и волк –

src: як була собі лисичка та зробила хатку, та й живе. а це приходять холоди. от лисичка замерзла та й побігла в село вогню добувать, щоб витопити. прибігає до одної баби та й каже:
dst: как была себе лисичка и сделала избушку , и и живет . а оно приходят морозы . из лисичка замерзла и и побежала во село огня , чтобы . прибегает к одной бабы и и говорит :

src: — здорові були, бабусю! з неділею... позичте мені огню, я вам одслужу.
dst: — здоровые были , бабушку ! со воскресеньем ... мне огня , мной тебе .

src: — добре, — каже, — лисичко - сестричко. сідай погрійся трохи, поки я пиріжечки повибираю з печі!
dst: — хорошо , — говорит , — – сестричка . садись немного , пока мной пирожки со печи !

src: а баба макові пиріжки пекла. от баба вибирає пиріжки та на столі кладе, щоб прохололи; а лисичка підгляділа та за пиріг, та з хати... виїла мачок із середини, а туди напхала сміттячка, стулила та й біжить.
dst: а 

In [None]:
with open('W.npy', 'wb') as f:
    np.save(f, W)