In [1]:
import gensim
import numpy as np
from gensim.models import KeyedVectors
import warnings
warnings.filterwarnings('ignore')

In [2]:
uk_emb = KeyedVectors.load_word2vec_format("../cc.uk.300.vec", limit = 10000)

In [3]:
ru_emb = KeyedVectors.load_word2vec_format("../cc.ru.300.vec", limit = 10000)

In [326]:
#uk_emb.vocab

In [5]:
ru_emb.most_similar([ru_emb["август"]], topn=10)

[('август', 1.0),
 ('июль', 0.9383152723312378),
 ('сентябрь', 0.9240028858184814),
 ('июнь', 0.9222574830055237),
 ('октябрь', 0.9095539450645447),
 ('ноябрь', 0.8930035829544067),
 ('апрель', 0.8729087710380554),
 ('декабрь', 0.8652557730674744),
 ('март', 0.8545796871185303),
 ('февраль', 0.8401415944099426)]

In [6]:
uk_emb.most_similar([uk_emb["серпень"]])

[('серпень', 1.0),
 ('липень', 0.9096440076828003),
 ('вересень', 0.9016969799995422),
 ('червень', 0.8992519974708557),
 ('жовтень', 0.8810408115386963),
 ('листопад', 0.8787633776664734),
 ('квітень', 0.8592804670333862),
 ('грудень', 0.8586863279342651),
 ('травень', 0.8408110737800598),
 ('лютий', 0.8256431818008423)]

In [7]:
ru_emb.most_similar([uk_emb["серпень"]])

[('подход', 0.22305874526500702),
 ('подхода', 0.2142382562160492),
 ('сторона', 0.20514370501041412),
 ('стиль', 0.2022884339094162),
 ('наиболее', 0.1991657167673111),
 ('мышления', 0.19620802998542786),
 ('оформления', 0.19537699222564697),
 ('Способ', 0.19444894790649414),
 ('технику', 0.19307218492031097),
 ('принцип', 0.19293661415576935)]

In [8]:
def load_word_pairs(filename):
    uk_ru_pairs = []
    uk_vectors = []
    ru_vectors = []
    with open(filename, "r") as inpf:
        for line in inpf:
            uk, ru = line.rstrip().split("\t")
            if uk not in uk_emb or ru not in ru_emb:
                continue
            uk_ru_pairs.append((uk, ru))
            uk_vectors.append(uk_emb[uk])
            ru_vectors.append(ru_emb[ru])
    return uk_ru_pairs, np.array(uk_vectors), np.array(ru_vectors)

In [11]:
uk_ru_train, X_train, Y_train = load_word_pairs("../ukr_rus.train.txt")

In [12]:
uk_ru_test, X_test, Y_test = load_word_pairs("../ukr_rus.test.txt")

In [13]:
from sklearn.linear_model import LinearRegression
mapping = LinearRegression().fit(X_train, Y_train)
print(mapping.score(X_train, Y_train))
print(mapping.coef_)

0.7604608964938944
[[-0.13853334  0.03785874  0.00846561 ...  0.12043508  0.1230209
   0.05481485]
 [ 0.01697174  0.00580407  0.03639334 ...  0.02279952  0.11457596
  -0.00381462]
 [ 0.05413085 -0.05171295  0.04750827 ...  0.05530106  0.06657097
  -0.03942306]
 ...
 [ 0.01256713 -0.04073871 -0.04768448 ... -0.05323557  0.11357719
   0.01744952]
 [-0.05282985  0.0651894  -0.03701065 ...  0.18449809  0.13728851
  -0.12552929]
 [ 0.00325489 -0.0685897   0.11475997 ... -0.01013895  0.12247851
  -0.09955335]]


In [14]:
august = mapping.predict(uk_emb["серпень"].reshape(1, -1))
ru_emb.most_similar(august)

[('июнь', 0.857708215713501),
 ('июль', 0.8437438011169434),
 ('сентябрь', 0.8341312408447266),
 ('апрель', 0.8312028646469116),
 ('октябрь', 0.8284209370613098),
 ('ноябрь', 0.8258079290390015),
 ('март', 0.818211555480957),
 ('август', 0.8082067370414734),
 ('декабрь', 0.8062343597412109),
 ('февраль', 0.7984046339988708)]

In [23]:
def precision(pairs, mapped_vectors, topn=1):
    """
    :args:
        pairs = list of right word pairs [(uk_word_0, ru_word_0), ...]
        mapped_vectors = list of embeddings after mapping from source embedding space to destination embedding space
        topn = the number of nearest neighbours in destination embedding space to choose from
    :returns:
        precision_val, float number, total number of words for those we can find right translation at top K.
    """
    assert len(pairs) == len(mapped_vectors)
    num_matches = 0
    for i, (_, ru) in enumerate(pairs):
        # YOUR CODE HERE   
        mapped_vector = mapped_vectors[i]
        if ru in [x for (x,_) in ru_emb.most_similar([mapped_vector],topn=topn)]:
            num_matches += 1
    precision_val = num_matches / len(pairs)
    return precision_val

In [24]:
assert precision([("серпень", "август")], august, topn=5) == 0.0
assert precision([("серпень", "август")], august, topn=9) == 1.0
assert precision([("серпень", "август")], august, topn=10) == 1.0

In [35]:
assert precision(uk_ru_test, X_test) == 0.0
assert precision(uk_ru_test, Y_test) == 1.0

In [36]:
precision_top1 = precision(uk_ru_test, mapping.predict(X_test), 1)
precision_top5 = precision(uk_ru_test, mapping.predict(X_test), 5)

In [37]:
print(precision_top1)
print(precision_top5)

0.5615384615384615
0.7692307692307693


In [28]:
emb_dim = uk_emb.vector_size
print(emb_dim)

300


In [29]:
train_size = len(Y_train)

Y = X W <br>
Y = U s V W <br>
U' Y = s V W <br>
s' (U' Y) = V' W <br>
V' (s' (U' Y)) = W <br>


In [30]:
def learn_transform(X, Y):
    """ 
    :returns: W* : float matrix[emb_dim x emb_dim] as defined in formulae above
    """
    # YOU CODE HERE
    U, s, V = np.linalg.svd(X)
    s1 = np.zeros((train_size,emb_dim))
#     s1[:emb_dim] = np.diag(np.ones(emb_dim))
    s1[:emb_dim] = np.diag([1/x for x in s])
    W = np.matmul(V.T, np.matmul(s1.T, np.matmul(U.T, Y_train)))
    return W

In [31]:
W = learn_transform(X_train, Y_train)

In [32]:
ru_emb.most_similar([np.matmul(uk_emb["серпень"], W)])

[('июнь', 0.860994815826416),
 ('июль', 0.8461031913757324),
 ('сентябрь', 0.8380882143974304),
 ('апрель', 0.8337108492851257),
 ('октябрь', 0.8316503763198853),
 ('ноябрь', 0.8293546438217163),
 ('март', 0.8213068246841431),
 ('август', 0.8115796446800232),
 ('декабрь', 0.8101850152015686),
 ('февраль', 0.8020144701004028)]

In [33]:
print(precision(uk_ru_test, np.matmul(X_test, W)))
print(precision(uk_ru_test, np.matmul(X_test, W), 5))

0.5615384615384615
0.7615384615384615


In [208]:
with open("fairy_tale.txt", "r") as inpf:
    uk_sentences = [line.rstrip().lower() for line in inpf]

In [209]:
uk_sentences

['лисичка - сестричка і вовк - панібрат',
 'як була собі лисичка , да й пішла раз до однії баби добувать огню ; ввійшла у хату да й каже : " добрий день тобі , бабусю !',
 'дай мені огня " .',
 'а баба тільки що вийняла із печі пирожок із маком , солодкий , да й положила , щоб він прохолов ; а лисичка се і підгледала , да тілько що баба нахилилась у піч , щоб достать огня , то лисичка зараз ухватила пирожок да і драла з хати , да , біжучи , весь мак із його виїла , а туда сміття наклала .',
 'прибігла на поле , аж там пасуть хлопці бичків .',
 'вона і каже їм : " ей , хлопці !',
 'проміняйте мені бичка - третячка за маковий пирожок " .',
 'тії согласились ; так вона їм говорить : " смотріть же , ви не їжте зараз сього пирожка , а тоді уже розломите , як я заведу бичка за могилку ; а то ви його ні за що не розломите " .',
 'бачите вже - лисичка таки собі була розумна , що хоть кого да обманить .',
 'тії хлопці так і зробили , а лисичка як зайшла за могилу , да зараз у ліс і повернула , 

In [313]:
print(ru_emb.most_similar([np.matmul(uk_emb["серпень"], W)], topn=1)[0][0])
august = mapping.predict(uk_emb["серпень"].reshape(1, -1))
ru_emb.most_similar(august)
print(ru_emb.most_similar(mapping.predict(uk_emb["серпень"].reshape(1, -1)), topn=1)[0][0])

июнь
июнь


In [323]:
def translate(sentence):
    """
    :args:
        sentence - sentence in Ukrainian (str)
    :returns:
        translation - sentence in Russian (str)

    * find ukrainian embedding for each word in sentence
    * transform ukrainian embedding vector
    * find nearest russian word and replace
    """
    # YOUR CODE HERE
    words = sentence.split(' ')
    translation = []
    for word in words:
        try:
            emb = uk_emb[word]
            translation.append(ru_emb.most_similar([np.matmul(emb, W)], topn=1)[0][0])
#             translation.append(ru_emb.most_similar(mapping.predict(emb.reshape(1, -1)), topn=1)[0][0])
        except:
            translation.append(word)
    return ' '.join(translation)

In [315]:
# print(uk_emb['добре'])

In [324]:
print(  translate("сало серпень краще лютий"))

сельдь июнь лучше февраль


In [325]:
for sentence in uk_sentences:
    print("src: {}\ndst: {}\n".format(sentence, translate(sentence)))

src: лисичка - сестричка і вовк - панібрат
dst: Белянка из сестренка и волк из панібрат

src: як була собі лисичка , да й пішла раз до однії баби добувать огню ; ввійшла у хату да й каже : " добрий день тобі , бабусю !
dst: как была себе Белянка , приподнятой и ушли раз от однії бабы добувать огнь из отошли во хату приподнятой и мол по во хороший день Тебе , бабушку от

src: дай мені огня " .
dst: помогай ему из во из

src: а баба тільки що вийняла із печі пирожок із маком , солодкий , да й положила , щоб він прохолов ; а лисичка се і підгледала , да тілько що баба нахилилась у піч , щоб достать огня , то лисичка зараз ухватила пирожок да і драла з хати , да , біжучи , весь мак із його виїла , а туда сміття наклала .
dst: а баба только что нет.У со печи пирожок со изюмом , сладкий , приподнятой и из , чтобы он прохолов из а Белянка неприметно и підгледала , приподнятой но что баба выскользнула во печь , чтобы достать из , то Белянка сейчас ухватила пирожок приподнятой и убежали со хаты

src: побачивши , що вона їсть рибу , прибіг до їй да й каже : " здорово була , лисичко - сестричко !
dst: увидев , что она ест рыба , прибежал от ей приподнятой и мол по во здорово была , лисичко из подруга от

src: де се ти набрала стільки риби ? "
dst: куда неприметно ли набрала столько рыбы ? во

src: вона каже : " наловила , вовчику - братику ! "
dst: она мол по во наловила , вовчику из братцу от во

src: а собі на думці : " подожди , і я зроблю з тобою таку штуку , як і ти зо мною " .
dst: а себе по мнении по во подожди , и мной сделаю со тобой такую штуку , как и ли мной мной во из

src: - " як же ти ловила ? "
dst: из во как из ли нет.У ? во

src: - " так , вовчику , уложила хвостик в ополонку , вожу тихенько да й кажу ; ловися , рибка , мала і велика !
dst: из во да , вовчику , уложила хвостик во прорубь , во тихонько приподнятой и говорю из ловися , рыбка , имели и большая от

src: коли хочеш , то і ти піди , налови собі " .
dst: когда зачем , то и ли из , налови себе во из

s