In [101]:
import warnings
warnings.filterwarnings('ignore')
import gensim
import numpy as np
from gensim.models import KeyedVectors

Load embeddings for ukrainian and russian:

In [102]:
uk_emb = KeyedVectors.load_word2vec_format("cc.uk.300.vec", limit = 100000)

In [103]:
ru_emb = KeyedVectors.load_word2vec_format("cc.ru.300.vec", limit = 100000)

In [104]:
ru_emb.most_similar([ru_emb["август"]], topn=10)

[('август', 1.0000001192092896),
 ('июль', 0.938315212726593),
 ('сентябрь', 0.9240026473999023),
 ('июнь', 0.9222574830055237),
 ('октябрь', 0.9095540046691895),
 ('ноябрь', 0.893003523349762),
 ('апрель', 0.8729085326194763),
 ('декабрь', 0.86525559425354),
 ('март', 0.8545794486999512),
 ('февраль', 0.8401417136192322)]

In [105]:
uk_emb.most_similar([uk_emb["серпень"]])

[('серпень', 1.0000003576278687),
 ('липень', 0.9096442461013794),
 ('вересень', 0.9016972780227661),
 ('червень', 0.8992522358894348),
 ('жовтень', 0.8810408711433411),
 ('листопад', 0.8787632584571838),
 ('квітень', 0.8592804074287415),
 ('грудень', 0.8586865067481995),
 ('травень', 0.8408110737800598),
 ('лютий', 0.8256436586380005)]

In [106]:
ru_emb.most_similar([uk_emb["серпень"]])

[('одностороннего', 0.2260887771844864),
 ('подход', 0.22305867075920105),
 ('конструктивное', 0.21656127274036407),
 ('подхода', 0.21423815190792084),
 ('аспектах', 0.21134454011917114),
 ('двустороннего', 0.2105553299188614),
 ('Продление', 0.20925389230251312),
 ('Подход', 0.2089262455701828),
 ('прикладного', 0.2064727395772934),
 ('Правовое', 0.2055036574602127)]

Load small dictionaries for correspoinding words pairs as trainset and testset:


In [221]:
def load_word_pairs(filename, src_emb, dst_emb, ch):
    pairs = []
    src_vectors = []
    dst_vectors = []
    with open(filename, "r", encoding='UTF8') as inpf:
        for line in inpf:
            src_word, dst_word = line.rstrip().split(ch)
            if src_word not in src_emb or dst_word not in dst_emb:
                continue
            pairs.append((src_word, dst_word))
            src_vectors.append(src_emb[src_word])
            dst_vectors.append(dst_emb[dst_word])
    return pairs, np.array(src_vectors), np.array(dst_vectors)

def load_uk_rus_word_pairs(filename):
    return load_word_pairs(filename, uk_emb, ru_emb, "\t")

In [222]:
uk_ru_train, X_train, Y_train = load_uk_rus_word_pairs("ukr_rus_train.txt")

## Embedding space mapping



Let $x_i \in \mathrm{R}^d$ be the distributed representation of word $i$ in the source language, and $y_i \in \mathrm{R}^d$ is the vector representation of its translation. Our purpose is to learn such linear transform $W$ that minimizes euclidian distance between $Wx_i$ and $y_i$ for some subset of word embeddings. Thus we can formulate so-called Procrustes problem:
$$W^*= \arg\min_W \sum_{i=1}^n||Wx_i - y_i||_2$$

or $$W^*= \arg\min_W ||WX - Y||_F$$

where $||*||_F$ - Frobenius norm.

In Greek mythology, Procrustes or "the stretcher" was a rogue smith and bandit from Attica who attacked people by stretching them or cutting off their legs, so as to force them to fit the size of an iron bed. We make same bad things with source embedding space. Our Procrustean bed is target embedding space.


In [109]:
from sklearn.linear_model import LinearRegression

In [110]:
mapping = LinearRegression().fit(X_train, Y_train)

In [111]:
print(mapping.score(X_train, Y_train))
print(mapping.coef_)

0.5865652846250251
[[-0.07448176  0.02855698  0.0047728  ...  0.05515353  0.07882916
   0.02582788]
 [-0.02114187  0.05680199  0.03354491 ...  0.0437839   0.01170793
   0.01858522]
 [ 0.14141488 -0.02344783  0.04475067 ... -0.00047044  0.04203068
  -0.03964037]
 ...
 [ 0.02423559  0.01803976 -0.04328813 ... -0.0570966   0.07869118
  -0.01255331]
 [ 0.00024544  0.01675807 -0.00442109 ...  0.05399176  0.07159237
  -0.05868448]
 [-0.04930566 -0.02664137 -0.03720214 ...  0.03776147  0.021207
  -0.0337888 ]]



Let's take a look at neigbours of the vector of word "серпень" ("август" in Russian) after linear transform:

In [112]:
august = mapping.predict(uk_emb["серпень"].reshape(1, -1))
ru_emb.most_similar(august)

[('апрель', 0.8620684146881104),
 ('июнь', 0.8531144261360168),
 ('март', 0.8480013012886047),
 ('сентябрь', 0.847731351852417),
 ('октябрь', 0.843162477016449),
 ('февраль', 0.8424291610717773),
 ('ноябрь', 0.840266764163971),
 ('июль', 0.8354388475418091),
 ('август', 0.8232010006904602),
 ('декабрь', 0.8181028366088867)]

мяу:3

In [113]:

cat = mapping.predict(uk_emb["кіт"].reshape(1, -1))
ru_emb.most_similar(cat)



[('кот', 0.7645192742347717),
 ('котик', 0.6762053966522217),
 ('щенок', 0.6658127903938293),
 ('пес', 0.6568678021430969),
 ('котенок', 0.6546682119369507),
 ('кошка', 0.6465268731117249),
 ('кролик', 0.6448255181312561),
 ('пёс', 0.628338098526001),
 ('хомяк', 0.6185213327407837),
 ('заяц', 0.6175107955932617)]

We can see that neighbourhood of this embedding cosists of different months, but right variant is on the ninth place.

As quality measure we will use precision top-1, top-5 and top-10 (for each transformed Ukrainian embedding we count how many right target pairs are found in top N nearest neighbours in Russian embedding space).


In [114]:
def precision(pairs, mapped_vectors, emb, topn=1):
    """
    :args:
        pairs = list of right word pairs [(uk_word_0, ru_word_0), ...]
        mapped_vectors = list of embeddings after mapping from source embedding space to destination embedding space
        topn = the number of nearest neighbours in destination embedding space to choose from
    :returns:
        precision_val, float number, total number of words for those we can find right translation at top K.
    """
    assert len(pairs) == len(mapped_vectors)
    num_matches = 0
    for i, (_, dst) in enumerate(pairs):
        similar = emb.most_similar([mapped_vectors[i]],topn=topn)
        for word, p in similar:
            if dst == word:
                num_matches += 1
    precision_val = num_matches / len(pairs)
    return precision_val

In [115]:
assert precision([("серпень", "август")], august, ru_emb, topn=5) == 0.0
assert precision([("серпень", "август")], august, ru_emb, topn=9) == 1.0
assert precision([("серпень", "август")], august, ru_emb, topn=10) == 1.0

In [116]:
uk_ru_test, X_test, Y_test = load_uk_rus_word_pairs("ukr_rus_test.txt")

In [117]:
assert precision(uk_ru_test, X_test, ru_emb) == 0.0
assert precision(uk_ru_test, Y_test, ru_emb) == 1.0

In [118]:
precision_top1 = precision(uk_ru_test, model.predict(X_test), ru_emb, 1)
precision_top5 = precision(uk_ru_test, model.predict(X_test), ru_emb, 5)

In [119]:
print(precision_top1)
print(precision_top5)

0.6744186046511628
0.8255813953488372


# Making it better (orthogonal Procrustean problem)

In [120]:
""" 
:returns: W* : float matrix[emb_dim x emb_dim] as defined in formulae above
"""

def learn_transform(X, Y):
    U, s, V = np.linalg.svd(np.matmul(X_train.T,Y_train))
    W = np.matmul(U,V)
    return W

In [121]:
W = learn_transform(X_train, Y_train)

In [122]:
print(precision(uk_ru_test, np.matmul(X_test, W), ru_emb))
print(precision(uk_ru_test, np.matmul(X_test, W), ru_emb, 5))

0.6831395348837209
0.8372093023255814


# UK-RU Translator

In [96]:
"""
:args:
    sentence - sentence in Ukrainian (str)
:returns:
    translation - sentence in Russian (str)

* find ukrainian embedding for each word in sentence
* transform ukrainian embedding vector
* find nearest russian word and replace
"""

def translate(sentence):
    # YOUR CODE HERE
    words = sentence.split(" ")
    translation = []
    for word in words:
        try:
            emb = uk_emb[word]
            translation.append(ru_emb.most_similar([np.matmul(emb, W)], topn=1)[0][0])           
        except:
            translation.append(word)
    return " ".join(translation)

In [97]:
with open("fairy_tale.txt", "r", encoding='UTF8') as inpf:
    uk_sentences = [line.rstrip().lower() for line in inpf]

In [98]:
def translate(sentence, src_emb, dst_emb):
    """
    :args:
        sentence - sentence in Ukrainian (str)
    :returns:
        translation - sentence in Russian (str)

    * find ukrainian embedding for each word in sentence
    * transform ukrainian embedding vector
    * find nearest russian word and replace
    """
    words = sentence.split(' ')
    translation = []
    for word in words:
        try:
            ru_word = dst_emb.most_similar([np.matmul(src_emb[word], W)], topn=1)[0][0]
            translation.append(ru_word)           
        except:
            translation.append(word)
    return ' '.join(translation)

def uk_ru_translate(sentence):
    return translate(sentence, uk_emb, ru_emb)

In [99]:
for sentence in uk_sentences:
    print("src: {}\ndst: {}\n".format(sentence, uk_ru_translate(sentence)))

src: лисичка - сестричка і вовк - панібрат
dst: лисичка – сестричка и волк – панібрат

src: як була собі лисичка , да й пішла раз до однії баби добувать огню ; ввійшла у хату да й каже : " добрий день тобі , бабусю !
dst: как была себе лисичка , че и пошла раз к однії бабы добувать огню ; вошла во избу че и говорит : " хороший день тебе , бабушку !

src: дай мені огня " .
dst: дай мне огня " .

src: а баба тільки що вийняла із печі пирожок із маком , солодкий , да й положила , щоб він прохолов ; а лисичка се і підгледала , да тілько що баба нахилилась у піч , щоб достать огня , то лисичка зараз ухватила пирожок да і драла з хати , да , біжучи , весь мак із його виїла , а туда сміття наклала .
dst: а бабка только что вийняла со печи пирожок со изюмом , сладкий , че и положила , чтобы он прохолов ; а лисичка ой и підгледала , че только что бабка нахилилась во печь , чтобы достать огня , то лисичка сейчас ухватила пирожок че и драла со избы , че , біжучи , весь мак со его виїла , а туда м

src: де се ти набрала стільки риби ? "
dst: куда ой ты набрала столько рыбы ? "

src: вона каже : " наловила , вовчику - братику ! "
dst: она говорит : " наловила , вовчику – братику ! "

src: а собі на думці : " подожди , і я зроблю з тобою таку штуку , як і ти зо мною " .
dst: а себе по мнении : " подожди , и мной сделаю со тобой такую штуку , как и ты За мной " .

src: - " як же ти ловила ? "
dst: – " как то ты ловила ? "

src: - " так , вовчику , уложила хвостик в ополонку , вожу тихенько да й кажу ; ловися , рибка , мала і велика !
dst: – " так , вовчику , уложила хвостик во ополонку , вожу тихонько че и говорю ; ловися , рыбка , имела и большая !

src: коли хочеш , то і ти піди , налови собі " .
dst: когда хочешь , то и ты піди , налови себе " .

src: він побіг да зробив так , як казала лисичка .
dst: он побежал че сделал так , как говорила лисичка .

src: а лисичка стала за деревом да й дивиться ; коли у вовчика зовсім хвостик примерз , вона тоді побігла в село да й кричить : " 

In [100]:
uk_ru_translate("кіт зловив мишу")

'кот поймал мышку'

# German and English languages

Load embeddings for German and English

In [323]:
en_emb = KeyedVectors.load_word2vec_format("cc.en.300.vec.gz",binary=False, limit = 10000)
de_emb = KeyedVectors.load_word2vec_format("cc.de.300.vec.gz",binary=False, limit = 10000)

Check matrix for orthogonality

In [324]:
def check_Orth(M):
    Id = np.matmul(M, M.T)
    assert (Id.shape[0] == Id.shape[1])
    assert isMatrixEquals(Id, np.eye(Id.shape[0], dtype = float))

Check matrices for equality

In [325]:
def is_Matrix_Equals(M1, M2):
    for i in range(M1.shape[0]):
        for j in range(M1.shape[1]):
            if abs(M1[i][j] - M2[i][j]) >= 0.01:
                print("FALSE")
                return False
    print("TRUE")        
    return True

In [326]:
def checkResults(pairs, X, Y, emb, words_num):
    # Get two transform matrices M1Frob and M2Frob for first 300 pairs and next 300 pairs respectively
    l = words_num
    h = words_num * 2 + 1
    M1 = learn_transform(X[:l], Y[:l])
    M2 = learn_transform(X[l:h], Y[l:h])
    # Calculate precision for M1Frob and M2Frob on different sets of pairs
    print("pair1 M1 topn = 5: {}".format(precision(pairs[:l], np.matmul(X[:l], M1), emb, 5)))
    print("pair1 M1 topn = 1: {}".format(precision(pairs[:l], np.matmul(X[:l], M1), emb)))
    print("pair1 M2 topn = 5: {}".format(precision(pairs[:l], np.matmul(X[:l], M2), emb, 5)))
    print("pair1 M2 topn = 1: {}".format(precision(pairs[:l], np.matmul(X[:l], M2), emb)))
    print("pair2 M1 topn = 5: {}".format(precision(pairs[l:h], np.matmul(X[l:h], M1), emb, 5)))
    print("pair2 M1 topn = 1: {}".format(precision(pairs[l:h], np.matmul(X[l:h], M1), emb)))
    print("pair2 M2 topn = 5: {}".format(precision(pairs[l:h], np.matmul(X[l:h], M2), emb, 5)))
    print("pair2 M2 topn = 1: {}".format(precision(pairs[l:h], np.matmul(X[l:h], M2), emb)))
    # Calculte Frobenius norm for matrix - |M1 - M2|
    M1_M2 = np.linalg.norm((M1 - M2), ord = 'fro')
    print("|M1 - M2|: {}".format(M1_M2))
    # Calculte Frobenius norm for matrix - |M1 - M2|/|M1|
    print("|M1 - M2|/|M1|: {}".format(M1_M2/np.linalg.norm(M1, ord='fro')))
    # Check orthogonality
    checkOrth(M1)
    checkOrth(M2)

English to German

In [327]:
def load_en_de_word_pairs(filename):
    return load_word_pairs(filename, en_emb, de_emb, " ")

Load embeddings for English and German

In [328]:
en_de_train, X_train, Y_train = load_en_de_word_pairs("en-de.0-5000.txt")

In [329]:
en_de_test, X_test, Y_test = load_en_de_word_pairs("en-de.5000-6500.txt")

In [331]:
checkResults(en_de_train, X_train, Y_train, de_emb, 300)

pair1 M1 topn = 5: 0.6766666666666666
pair1 M1 topn = 1: 0.3233333333333333
pair1 M2 topn = 5: 0.6766666666666666
pair1 M2 topn = 1: 0.3233333333333333
pair2 M1 topn = 5: 0.7906976744186046
pair2 M1 topn = 1: 0.32558139534883723
pair2 M2 topn = 5: 0.7906976744186046
pair2 M2 topn = 1: 0.32558139534883723
|M1 - M2|: 0.0
|M1 - M2|/|M1|: 0.0


In [332]:
checkResults(en_de_test, X_test, Y_test, de_emb, 300)

pair1 M1 topn = 5: 0.76
pair1 M1 topn = 1: 0.45666666666666667
pair1 M2 topn = 5: 0.76
pair1 M2 topn = 1: 0.45666666666666667
pair2 M1 topn = 5: 0.7536231884057971
pair2 M1 topn = 1: 0.5072463768115942
pair2 M2 topn = 5: 0.7536231884057971
pair2 M2 topn = 1: 0.5072463768115942
|M1 - M2|: 0.0
|M1 - M2|/|M1|: 0.0


German to English

In [333]:
def load_de_en_word_pairs(filename):
    return load_word_pairs(filename, de_emb, en_emb, " ")

Load embeddings for German and English

In [334]:
de_en_train, X_train, Y_train = load_de_en_word_pairs("de-en.0-5000.txt")

In [335]:
de_en_test, X_test, Y_test = load_de_en_word_pairs("de-en.5000-6500.txt")

In [336]:
checkResults(de_en_train, X_train, Y_train, en_emb, 300)

pair1 M1 topn = 5: 0.8066666666666666
pair1 M1 topn = 1: 0.4866666666666667
pair1 M2 topn = 5: 0.8066666666666666
pair1 M2 topn = 1: 0.4866666666666667
pair2 M1 topn = 5: 0.7940199335548173
pair2 M1 topn = 1: 0.42524916943521596
pair2 M2 topn = 5: 0.7940199335548173
pair2 M2 topn = 1: 0.42524916943521596
|M1 - M2|: 0.0
|M1 - M2|/|M1|: 0.0


In [337]:
checkResults(de_en_test, X_test, Y_test, en_emb, 200) 

pair1 M1 topn = 5: 0.665
pair1 M1 topn = 1: 0.36
pair1 M2 topn = 5: 0.665
pair1 M2 topn = 1: 0.36
pair2 M1 topn = 5: 0.6923076923076923
pair2 M1 topn = 1: 0.41208791208791207
pair2 M2 topn = 5: 0.6923076923076923
pair2 M2 topn = 1: 0.41208791208791207
|M1 - M2|: 0.0
|M1 - M2|/|M1|: 0.0
