<h1>Unsupervised multilingual embeddings with MUSE and GloVe</h1>

This Notebook contains the whole chain, from lemmatizing to tensorflow data.

In [None]:
import pickle
#from gensim.test.utils import datapath, get_tmpfile
from gensim.models import KeyedVectors
from gensim.models import Word2Vec
from typing import List
from pie_extended.cli.utils import get_tagger, get_model, download
#import gensim.downloader
#from transvec.transformers import TranslationWordVectorizer
from glove import Corpus, Glove
import unicodedata
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.cm as cm
from sklearn.manifold import TSNE
import matplotlib

import subprocess
import os
import fnmatch
from lxml import etree as et
import string
import io
import numpy as np
import pandas as pd
#import seaborn as sns

In [None]:
%matplotlib ipympl

<h2>Basic functions</h2>

Basic functions such as calling home made french tagger from XML files, calling MUSE aligner, generating stopword lists, ...

In [4]:
def tag(source, target):
    subprocess.call(['java','-jar','tagging.jar', source, target])

In [5]:
def align_models(source_language, target_language, source_model, target_model):
    subprocess.call(['python', './MUSE/unsupervised.py', '--src_lang', source_language, '--tgt_lang', target_language, '--src_emb', source_model, '--tgt_emb', target_model, '--n_refinement', '5'])

In [6]:
f = open("stopwords_gk.txt", "r",encoding='utf-8')
stopwords_gk=[]
for word in f.read().split("\n"):
    stopwords_gk.append(unicodedata.normalize("NFD", word))

In [16]:
f2 = open("stopwords_gk.txt", "r",encoding='utf-8')
stopwords_gk_combined=[]
for word in f2.read().split("\n"):
    stopwords_gk_combined.append(word)

In [7]:
f = open("stopwords.txt", "r",encoding='utf-8')
stopwords=f.read().split("\n")

<h2>French Tagging and Parsing</h2>

In [38]:
tag('./txts/odyssey_fr','./tagged')
tree=et.parse("./tagged/odyssee_fr.xml")

In [39]:
fr_lemmatized_sentences=[]
for p in tree.findall(".//sentence"):
    sentence=[]
    for word in p.findall(".//word"):
        if word.attrib["lemma"]!=" " and word.attrib["lemma"] not in stopwords and word.attrib["lemma"]!="" and word.attrib["form"] not in string.punctuation:
            sentence.append(word.attrib["lemma"])
    fr_lemmatized_sentences.append(sentence)

In [40]:
print(fr_lemmatized_sentences)

[['muse', 'sage', 'héros', 'errer', 'long', 'année', 'renverser', 'mur', 'sacré', 'Troie', 'visiter', 'cité', 'apprendre', 'moeurs', 'peuple', 'mer', 'coeur', 'endurer', 'souffrance', 'lutter', 'vie', 'compagnon'], ['prix', 'pouvoir', 'sauver', 'désir', 'vain', 'folie', 'causer', 'perte', 'insensé', 'assouvir', 'faim', 'génisse', 'soleil', 'dieu', 'leu', 'ravir', 'jour'], ['déesse', 'fille', 'Jupiter', 'redire', 'partie', 'malheur'], ['déjà', 'échapper', 'fin', 'terrible', 'patrie', 'sauver', 'guerre', 'flot', 'soupirer', 'foyer', 'époux', 'auguste', 'nymphe', 'Calypso', 'déesse', 'retenir', 'grotte', 'profond', 'brûler', 'faire', 'époux'], ['année', 'remplir', 'cercle', 'amener', 'jour', 'fixer', 'dieu', 'Ithaque', 'devoir', 'soutenir', 'lutte', 'milieu', 'ami'], ['dieu', 'pitié', 'Neptune', 'nourrir', 'long', 'courroux', 'divin', 'Ulysse', 'rentrer', 'patrie'], ['dieu', 'aller', 'visiter', 'éthiopien', 'contrée', 'lointain', 'éthiopien', 'placer', 'limite', 'monde', 'diviser', 'peupl

<h2>Greek Tagging (if in txt format)</h2>

NB: each line in the txt files must begin with "REF:line_no"
<br>Here, tagging using pie

In [33]:
gk_txt=open("./txts/1-4_gk.txt", encoding="utf8").read().splitlines()
gk_text = " ".join([ f"[REF:{line_no}] {line}" for line_no, line in enumerate(gk_txt) ])

In [4]:
from pie_extended.models.grc.imports import get_iterator_and_processor

greek_pie_model = "grc"
tagger = get_tagger(greek_pie_model, batch_size=256, device="cuda", model_path=None)

In [145]:
gk_lemmatized_sentences = []
iterator, processor = get_iterator_and_processor()

for form in tagger.iter_tag_token(gk_text, iterator=iterator, processor=processor):
    if form["form"].startswith("[REF:"):
        gk_lemmatized_sentences.append([])
    else:
        if form["lemma"] not in stopwords_gk and form["pos"]!="u" and form["form"] not in string.punctuation:
            gk_lemmatized_sentences[-1].append(form["lemma"])

Ἔνεπος : a
Μοῦσα : a
ἀνήρ : n
πολύτροπος : a
πλάσσω : a
πέρθω : v
πτολίεθρον : n
ἱερός : n
Τροία : n
· : n
εἶδον : n
ἄστυ : n
γιγνώσκω : v
νόος : n
ἄνθρωπος : n
· : n
πάσχω : n
πόντος : n
ἄλγος : n
θυμός : n
ἄρνυμαι : v
ψυχή : n
νόστος : n
ἑταῖρος : n
Ἀλλὰ : c
ῥύομαι : v
ἑταῖρος : n
ἵημι : v
ὄλλυμι : v
σφέτερος : a
ἀτασθαλία : a
νήπιος : a
κατεσθίω : a
βοῦς : n
ἠέλιος : n
Ὑπερίων : n
ἀφαιρέω : v
ἦμαρ : n
νόστιμος : a
Θεά : n
θυγάτηρ : n
Ζεύς : n
ἀμόθεν : d
φεύγω : v
ὄλεθρος : a
αἰπύς : a
οἴκοι : v
φεύγω : v
πόλεμος : n
θάλασσα : n
χράω : v
νόστος : n
γυνή : n
πότνια : n
νύμφη : n
Καλυψώ : n
δῖος : n
θεά : n
ἐρύκω : v
σπέος : n
γλαφυρός : a
λιλαίομαι : v
πόσις : n
Ἀλλὰ : c
ἐνιαυτός : v
περιπέλομαι : v
ἔτος : -
ἔρχομαι : v
θεός : n
ἐπικλώθω : v
νέομαι : v
Ἰθάκη : v
φεύγω : v
ἆθλος : v
φίλος : a
Ἅπας : n
θεός : n
ἐλεαίρω : n
Ποσειδεών : n
μενεαίνω : v
ἀσπερχές : d
Ὀδυσσεύς : 

Ἀγχίαλος : n
ἀνάσσω : v
Τάφιοι : a
φιλήρετμος : a
κατέρχομαι : v
ναῦς : n
ἑταῖρος : n
πλείων : a
πόντος : n
οἶνοψ : n
ἄνθρωπος : n
ἀλλόθροος : a
Τεμέως : n
χαλκός : n
ἄγω : n
σίδηρος : n
αἴθων : a
Ναῦς : n
ἵστημι : v
ἀγρός : n
πόλις : n
λιμήν : n
Ῥεῖθρον : n
Νήιον : a
ὑλήεις : a
Εὔχομαι : v
ξένος : n
πατρώιος : a
ἀρχή : n
ἐπέρχομαι : v
ἔρομαι : v
γέρων : n
Λαέρτης : n
ἥρως : v
ἔρχομαι : v
πόλινδε : d
πάσχω : v
πῆμα : n
ἀγρός : n
γράυς : n
ἀμφίπολος : a
παρτίθεμι : v
βρῶσις : n
πόσις : n
ἄν1 : d
κᾶμα : n
καταλαμβάνω : n
γυῖον : n
ἑρπύζω : n
γουνός : n
ἀλωή : n
οἰνόπεδος : a
ἔρχομαι : v
πατήρ : n
ἐπιδήμιος : a
θεός : n
βλάπτω : v
ὅσγε : a
κέλευθος : n
Ζεύς : n
Ὀδυσσεύς : n
θνήσκω : v
χθών : n
ζωός : a
κατερύκω : v
εὐρύς : a
πόντος : n
νῆσος : n
ἀμφίρυτος : a
ἀνήρ : n
χαλεπός : a
ἄγριος : a
ἐρυκανάω : v
ἀέκων : a
μαντεύομαι : v
ἀθάνατος : a
βάλλω : v
θυμός : v
οἴομαι : v
τελε

ὑπέρβιος : a
τέρπω : v
δαίνυμι : v
βοητύς : v
καλός : a
ἀκούω : v
ἀοιδός : v
τοιόσδε : a
ἐναλίγκιος : a
θεός : n
αὐδή : n
ἠῶθεν : d
καθέζομαι : v
κίω : v
ἀγορήνδε : v
ἀπεῖπον : v
μῦθος : n
ἀπηλεγέως : v
ἐξίημι : v
μέγαρον : v
ἀλεγύνω : v
δαίς : n
ἔδω : v
κτῆμα : n
ἀμείβω : v
οἶκος : n
δοκέω : v
λωίων : a
ἀμείνων : a
ὄλλυμι : v
νήποινος : a
βίοτος : n
εἷς : n
ἀνήρ : n
κείρω : v
ἐπιβόω : v
θεός : v
Ζεύς : n
δίδωμι : v
ἔργον : n
παλίντιτος : a
ὄλλυμι : v
νήποινος : a
δόμος : n
Ἔφημος : d
ἐμφύω : v
ὀδάξ : d
χεῖλος : n
θαυμάζω : v
Τηλέμαχος : n
ἀγορεύω : v
θαρσαλέος : d
Ἀντίνοος : n
υἱός : n
Εὐπείθης : n
πρόσφημι : -
Τηλέμαχος : n
θεός : n
διδάσκω : v
ὑψαγόρας : v
ἀγορεύω : v
θαρσαλέος : d
Κρονίων : n
βασιλεύς : n
Ἰθάκη : n
ἀμφίαλος : a
πατρώιος : a
γενεά : n
αὐδάω : v
ἀντίος : a
Ἀντίνοος : v
ἀγάσσεα : v
ἐθέλω : v
αἴρω : v
Ζεύς : a
δίδωμι : v
τεύχω : v
κακός : a
ἄνθρωπος : n

δόλος : n
πείθω : v
Ἀχαιός : a
τέτρατος : a
ἔτος : d
ἔρχομαι : v
ὥρα : v
ἐπέρχομαι : v
γυνή : v
οἶδα : v
σάφα : d
ἐφευρίσκω : v
ἄγω : a
ἀναλύω : v
ἱστός : a
ἀγλαός : a
ἐκτελέω : v
ἐθέλω : v
ἀνάγκη : n
Μνηστήρ : n
ὑποκρίνομαι : v
οἶδα : v
θυμός : n
Ἀχαιός : a
οἶδα : v
Ἀποπέμπω : n
μήτηρ : n
ἄνωγα : v
γαμέω : v
πατήρ : n
κέλομαι : v
ἁνδάνω : v
ἀνιάω : v
χρόνος : n
υἱός : n
Ἀχαιός : n
φρονέω : v
θυμός : n
Ἀθήνη : n
δίδωμι : v
ἐπίστημι : v
ἔργον : n
περικαλλής : a
φρήν : n
ἐσθλός : a
κέρδος : n
ἀκούω : v
παλαιός : a
Ἀχαιός : a
εὐπλοκαμίς : a
Τυρός : n
Ἀλκμήνη : n
Μυκήνη : n
εὐστέφανος : a
οὔτις : a
οἶδα : a
νόημα : a
ὅμοιος : a
Πηνελόπεια : a
νοέω : v
ἐναίσιμος : a
· : d
ἔδω : v
βίοτος : n
κτῆμα : d
νόος : n
θεός : n
τίθημι : n
στῆθος : n
μέγας : a
κλέος : n
σοίγε : a
ποθή : n
βίοτος : n
ἔργον : d
γαμέω : v
Ἀχαιός : a
ἐθέλω : v
Τηλέμαχος : n
πέπνυμαι : v
αὐδάω : v
ἀντι

· : d
βαίνω : v
ἴχνιον : n
θεός : n
Ἵκω : n
ἄγυρις : n
ἕδρα : n
ἀνήρ : n
Πύλιος : n
Νέστωρ : n
ἧμαι : v
υἱός : n
ἑταῖρος : n
ἐντύνω : v
δαίς : n
ὀπτάω : v
κρέας : n
πείρω : v
εἶδον : v
ξένος : a
ἔρχομαι : v
ἀθρόος : a
ἀσπάζομαι : v
χείρ : n
ἄνωγα : a
ἑδριάω : v
Πεισίστρατος : n
Νεστορίδης : n
πρῶτος : a
ἔρχομαι : v
αἱρέω : v
χείρ : n
ἱδρύω : v
δαίς : n
κῶας : n
μαλακός : a
ψάμαθος : n
ἅλιος : n
κασίγνητος : n
Θρασυμήδης : n
πατήρ : n
δίδωμι : n
μοῖρα : n
σπλάγχνον : n
ἐγχεύω : v
οἶνος : n
δέπας : n
χρύσεος : n
δειδίσκομαι : v
προσαυδάω : v
Παλλάς : n
Ἀθήνη : n
κόρη : n
Ζεύς : n
αἰγίοχος : a
Εὔχοος : n
ξένος : n
Ποσειδεών : n
ἄναξ : n
ἀντάω : v
δαίτη : n
βλώσκω : v
σπένδω : v
εὔχομαι : v
θέμις : n
δίδωμι : v
δέπας : n
οἶνος : n
μελιηδής : a
σπένδω : v
οἴομαι : v
εὔχομαι : v
ἀθάνατος : a
ἄνθρωπος : n
χατέω : v
θεός : n
Ἀλλά : a
νέος : a
ὁμηλικία : a
τοὔνεκα : a
δίδωμι : a
π

λαός : n
δῆμος : n
ἐχθαίρω : v
ἐφέπω : v
ὀμφή : n
θεός : n
οἶδα : v
ἔρχομαι : v
ἀποτίνω : v
βία : v
μόνος : a
Ἀχαιός : a
σύμπας : a
Ἀθήνη : n
γλαυκῶπις : a
ἐθέλω : v
φιλέω : v
περικήδομαι : v
κυδάλιμος : a
Ὀδυσσεύς : n
δῆμος : n
Τρώς : n
Ἀχαιός : a
πάσχω : v
ἄλγος : n
εἶδον : v
θεός : n
φιλέω : v
ἀναφανδά : d
Παλλάς : n
Ἀθήνη : n
παρίστημι : v
ἀναφανδά : d
ἐθέλω : v
φιλέω : v
κήδω : v
θυμός : v
ἐκλάω : v
γάμος : n
Τηλέμαχος : n
πέπνυμαι : v
αὐδάω : v
ἀντίος : a
γέρων : n
οἴομαι : v
ἔπος : v
τελέω : v
μέγας : d
ἄγη : v
ἄν1 : d
ἔλπω : v
θεός : n
ἐθέλω : v
Θεά : n
γλαυκῶπις : a
Ἀθήνη : n
προσεῖπον : v
Τηλέμαχος : n
ἔπος : n
φεύγω : n
ἕρκος : n
ὀδούς : n
θεός : n
ἐθέλω : v
σῴζω : v
ῥεῖα : d
ἀνήρ : n
τηλόθεν : d
βούλομαι : v
ἄν1 : d
ἔρχομαι : v
εἶδον : v
ἦμαρ : v
νόστιμος : a
μογέω : v
ἄλγος : n
ἔρχομαι : v
ἀπόλλυμι : v
ἐφέστιος : a
Ἀγαμέμνων : n
ὄλλυμι : v
δόλος : n

ἀγακλυτός : a
ἄναξ : n
ἕζομαι : v
κλισμός : n
θρόνος : n
ἔρχομαι : v
γέρων : n
ἀνακεράννυμι : v
κρατήρ : n
οἶνος : n
ἡδύποτος : n
ταμία : n
οἴγω : v
ἑνδέκατος : a
ἐνιαυτός : n
ἀπολύω : v
κρήδεμνον : n
γέρων : n
κεράννυμι : v
κρατήρ : n
ἀποσπένδω : v
εὔχομαι : v
Ἀθήνη : n
κόρη : n
Ζεύς : n
αἰγίοχος : a
σπένδω : v
πίνω : v
θυμός : n
ἐθέλω : v
κατακείω : v
βαίνω : v
Νέστωρ : n
Γερήνιος : a
ἱππότης : n
κοιμάω : v
Τηλέμαχος : n
υἱός : n
φίλος : a
θεῖος : a
Ὀδυσσεύς : n
λέχος : n
τρητός : n
αἴθουσα : n
ἐρίδουπος : n
Πεισίστρατος : n
ἐυμμελίας : n
ὄρχαμος : n
ἀνήρ : n
ἠίθεος : n
μέγαρον : n
καθεύδω : n
μυχός : n
δόμος : n
ὑψηλός : a
· : n
δέσποινα : n
ἄλοχος : n
πορσύνω : n
λέχος : n
εὐνή : n
φαίνω : n
ἠώς : n
ἠριγένεια : n
ῥοδοδάκτυλος : n
Νέστωρ : n
Γερήνιος : n
ἱππότης : n
ὄρνυμι : v
εὐνή : n
ἐξέρχομαι : v
καθέζομαι : v
λίθος : n
ξεστός : a
θύρα : a
ὑψηλός : a
λευκός : a
ἀποστί

δμωή : n
λούω : v
χρίω : v
ἔλαιον : n
βάλλω : v
χλαίνω : n
οὖλος : a
χιτών : n
ἕζομαι : v
θρόνος : n
Μενέλαος : n
Ἀτρείδης : n
Ἀμφίπολος : n
ἐπιχέω : v
φέρω : v
χέρνιψ : n
πρόχοος : n
καλός : v
χρύσεος : a
λέβης : n
ἀργύρεος : a
νίζω : v
τανύω : v
τράπεζα : n
ξεστός : a
Ταμία : n
αἰδοῖος : a
παρατίθημι : v
σῖτος : v
φέρω : v
ἐπιτίθημι : v
εἶδαρ : v
χαρίζομαι : v
πάρειμι : v
Δαιτρός : n
παρατίθημι : v
ἀείρω : v
πίναξ : n
κρέας : n
παντοῖος : a
τίθημι : v
κύπελλον : n
χρύσεος : a
ξανθός : a
Μενέλαος : n
δείκνυμι : v
πρόσφημι : v
Ἅπτεσθος : n
σῖτος : n
χαίρετος : a
ἔρομαι : v
πατέομαι : v
δεῖπνον : n
ἀνήρ : n
· : n
γένος : n
τοκεύς : n
ἀπόλλυμι : v
γένος : n
ἀνήρ : n
βασιλεύς : n
Διοτρεφής : a
σκηπτοῦχος : a
κακός : a
τίκτω : v
τοιόσδε : p
Φῆτος : d
παρατίθημι : v
αἱρέω : v
χείρ : n
νῶτον : n
πίων : n
ὀπτός : n
βοῦς : n
παρθέω : v
γέρας : n
ἰάλλω : v
χείρ : n
ὄνειαρ : n
ἑτοῖμος : a
πρόκειμ

πόλις : n
Τρώς : n
ἀβακέω : v
· : p
ἀναγιγνώσκω : v
ἀνηρωτός : a
ἀλεείνω : v
κερδοσύνη : n
Ἀλλά : c
λόεος : n
χρίον : n
ἔλαιος : n
ἀμφίεισ : n
εἷμα : n
ὄμνυμι : v
ὅρκος : n
καρτερός : a
ἀναφαίνω : v
Ὀδυσσεύς : n
Τρώς : n
ἀφικνέομαι : v
ναῦς : n
θοός : a
κλισία : n
καταλέγος : v
νόος : n
Ἀχαιός : a
Κτεῖνος : n
Τρώς : n
χαλκός : n
ταναήκης : a
ἔρχομαι : v
Ἀργεῖος : a
κατάγω : v
φρόνις : n
Τρωιός : a
κωκύω : v
λίγα : d
κῆρ : n
χαίρω : v
καρδία : d
τρέπω : v
νέομαι : v
μεταστένω : v
ἄτη : v
Ἀφροδίτη : n
δίδωμι : v
ἄγω : v
φίλος : a
αἶα : n
πατρίς : n
νοσφίζομαι : v
θάλαμος : n
πόσις : n
δεύω : v
φρήν : n
εἶδος : n
Ξανθός : n
Μενέλαος : n
ἀπαμείβομαι : v
πρόσφημι : v
Ναί : d
γυνή : n
μοῖρα : n
δάω : v
βουλή : n
νόος : n
ἀνήρ : n
ἥρως : n
ἐπέρχομαι : a
γαῖα : n
εἶδον : v
ὀφθαλμός : n
κῆρ : n
φίλος : a
Ὀδυσσεύς : n
ταλασίφρων : a
ἀνήρ : n
καρτερός : a
ῥέζω : v
τλάω : v
ἵππος : n
ξεσ

ἰχθυόεις : a
δύω : v
πόντος : n
κυμαίνω : v
ἤια : p
ναῦς : n
ἵστημι : v
ψάμαθος : n
καρδία : n
κίω : v
πορφύρω : v
κατέρυθος : v
ναῦς : n
θάλασσα : n
ὁπλίζω : v
δόρπον : n
ἀμβρόσιος : n
νύξ : n
ἐπέρχομαι : v
κοιμάω : v
ῥηγμίν : n
θάλασσα : n
φαίνω : n
ἠώς : n
ἠριγένεια : n
ῥοδοδάκτυλος : a
ἤια : n
θίς : n
θάλασσα : n
εὐρύπορος : a
γουνόομαι : v
θεός : n
ἄγω : v
τρεῖς : a
ἑταῖρος : n
πείθω : a
Τόφρα : n
ὅγε : v
ὑπόδυσος : v
εὐρύς : a
κόλπος : n
θάλασσα : n
φέρω : v
πόντος : n
τέσσαρες : n
δέρμα : n
φώκη : n
νεόδαρτος : n
ἐπιμήδομαι : v
δόλος : n
πατήρ : n
διαγλάφω : n
εὐνή : n
ψάμαθος : n
ἅλιος : v
ἧμαι : v
μένω : v
ἔρχομαι : v
εὐνάω : v
ἐπιβάλλω : v
δέρμα : n
Κεῖθις : n
λόχος : n
πέλω : v
αἰνός : a
ὀσμή : n
ὀλοός : a
φώκη : n
ἁλιοτρεφής : a
τείρω : v
αἰνός : d
κοιμάω : v
κῆτος : n
εἰνάλιος : a
Ἀλλὰ : d
σῴζω : v
φράζω : v
μέγας : a
ὄνειαρ : n
τίθημι : v
φέρω : v
ῥίς : n
ἀ

φρήν : n
ἐξέρχομαι : v
ὀδύρομαι : v
λαός : n
μέμαα : v
φθίω : v
γόνος : n
Ὀδυσσεύς : n
ἀντίθεος : a
Φίλος : n
τροφός : n
Εὐρύκλεια : n
προσεῖπον : v
Φίλος : n
νύμφη : n
κατακτένω : a
χαλκός : n
νηλής : a
ἐάω : -
μέγαρον : n
ἐπικεύθω : v
μῦθος : n
οἶδα : v
πόρος : n
κελεύω : v
σῖτος : n
μέθυ : n
ἡδύς : a
αἱρέω : v
μέγας : a
ὅρκος : v
δωδέκατος : a
ποθέω : v
ἀκούω : v
ἀφορμάω : v
ἄν1 : d
κλαίω : v
κατιάπτω : v
καλός : a
χρώς : n
Ἀλλὰ : c
ὑδραίνω : v
αἱρέω : v
χρώς : n
εἷμα : n
καθαρός : a
ἀναβαίνω : v
ὑπερῷον : n
γυνή : n
ἀμφίπολος : n
εὔχομαι : v
Ἀθήνη : n
κόρη : n
Ζεύς : n
αἰγίοχος : a
σώζω : v
θάνατος : n
Μηδέ : n
κακόω : v
γέρων : n
κακόω : v
· : v
οἴομαι : v
γονή : n
Ἀρκεισιάδης : n
ἔχθω : v
θεός : n
μάκαρ : n
ἔπειμι : v
δῶμα : n
ὑψερεφής : a
ἀγρός : n
πίων : a
ἀπόπροθι : d
φῆμος : d
εὐνάω : v
γόος : n
ὄσσε : n
γόος : n
ὑδραίνω : v
αἱρέω : v
χρώς : n
εἷμα : n
καθαρο

<h2>In case of already tagged Greek texts in XML, like in Perseus treebank</h2>

In [41]:
tree_grec=et.parse("./txts/odyssey_gk/odyssey_gk.xml")

In [42]:
gk_lemmatized_sentences = []
for p in tree_grec.findall(".//sentence"):
    sentence=[]
    for word in p.findall(".//word"):
        if "lemma" in word.attrib:
            if word.attrib["lemma"]!=" " and word.attrib["lemma"] not in stopwords_gk_combined and word.attrib["lemma"]!="" and word.attrib["form"] not in string.punctuation:
                sentence.append(word.attrib["lemma"])
    gk_lemmatized_sentences.append(sentence)

<h2>Checking sentences</h2>

In [None]:
print("lemmatized sentences in Greek : "+str(len(gk_lemmatized_sentences)))
print("lemmatized sentences in French : "+str(len(fr_lemmatized_sentences)))

<h2>Building French and Greek separate models with GloVe</h2>

glove_xx.model are glove basic models
<br>glove_xx_compat.model are w2v compatible models

In [43]:
with open('gk_lemma_sentences.txt', 'w') as tmp_file:
    for sent in gk_lemmatized_sentences:
        tmp_file.write(" ".join(sent))
        tmp_file.write("\n")
    tmp_file.close()

In [45]:
corpus_fr = Corpus()
corpus_gk = Corpus()

In [46]:
dimensions=300

In [47]:
corpus_fr.fit(fr_lemmatized_sentences, window=20)
corpus_gk.fit(gk_lemmatized_sentences, window=20)

In [48]:
glove_fr = Glove(no_components=dimensions, learning_rate=0.05)
glove_fr.fit(corpus_fr.matrix, epochs=100, no_threads=4, verbose=False)
glove_fr.add_dictionary(corpus_fr.dictionary)
glove_fr.save('glove_fr.model')

In [49]:
glove_gk = Glove(no_components=dimensions, learning_rate=0.05)
glove_gk.fit(corpus_gk.matrix, epochs=100, no_threads=4, verbose=False)
glove_gk.add_dictionary(corpus_gk.dictionary)
glove_gk.save('glove_gk.model')

In [50]:
with open("glove_fr_compat.model", "w") as f:
    f.write(str(len(glove_fr.dictionary))+" "+str(dimensions)+"\n")
    for word in glove_fr.dictionary:
        f.write(word)
        f.write(" ")
        for i in range(0, dimensions):
            f.write(str(glove_fr.word_vectors[glove_fr.dictionary[word]][i]))
            f.write(" ")
        f.write("\n")

In [51]:
with open("glove_gk_compat.model", "w") as f:
    f.write(str(len(glove_gk.dictionary))+" "+str(dimensions)+"\n")
    for word in glove_gk.dictionary:
        f.write(word)
        f.write(" ")
        for i in range(0, dimensions):
            f.write(str(glove_gk.word_vectors[glove_gk.dictionary[word]][i]))
            f.write(" ")
        f.write("\n")

<h2>Loading saved (KeyedVectors) models</h2>

In [52]:
fr_glove_w2v = KeyedVectors.load_word2vec_format("glove_fr_compat.model", binary=False)

2021-03-25 13:57:41,166 : loading projection weights from glove_fr_compat.model
2021-03-25 13:57:42,177 : loaded (3757, 300) matrix from glove_fr_compat.model


In [53]:
gk_glove_w2v = KeyedVectors.load_word2vec_format("glove_gk_compat.model", binary=False)

2021-03-25 13:57:45,936 : loading projection weights from glove_gk_compat.model
2021-03-25 13:57:47,533 : loaded (5465, 300) matrix from glove_gk_compat.model


<h2>Some basic testing</h2>

In [55]:
fr_glove_w2v.most_similar("mer")

2021-03-25 13:57:51,813 : precomputing L2-norms of word weight vectors


[('houleux', 0.8846842050552368),
 ('poissonneux', 0.814602255821228),
 ('bord', 0.7764552235603333),
 ('infécond', 0.7603996992111206),
 ('rivage', 0.6789284944534302),
 ('abîme', 0.6311653852462769),
 ('sable', 0.6259430646896362),
 ('niveau', 0.6209617853164673),
 ('ensevelir', 0.6135373711585999),
 ('emporter', 0.5914698243141174)]

In [58]:
gk_glove_w2v.most_similar("θάλασσα")

[('θίς', 0.9422957897186279),
 ('ῥηγμίν', 0.9198570847511292),
 ('κατέρχομαι', 0.9110517501831055),
 ('πολύφλοισβος', 0.8878035545349121),
 ('περάω', 0.7857462167739868),
 ('βένθος', 0.7740625143051147),
 ('νῶτον', 0.7571288347244263),
 ('κλύζω', 0.7432551980018616),
 ('ἐπελαύνω', 0.7122951745986938),
 ('Ἀϊδόσδε', 0.7113521695137024)]

<h2>Saving models for MUSE</h2>

In [59]:
with open("glove_gk_muse.model", "w") as f:
    f.write(str(len(glove_gk.dictionary))+" "+str(dimensions)+"\n")
    for word in glove_gk.dictionary:
        f.write(word)
        f.write(" ")
        for i in range(0, dimensions):
            f.write(str(glove_gk.word_vectors[glove_gk.dictionary[word]][i]))
            f.write(" ")
        f.write("\n")

In [60]:
with open("glove_fr_muse.model", "w") as f:
    f.write(str(len(glove_fr.dictionary))+" "+str(dimensions)+"\n")
    for word in glove_fr.dictionary:
        f.write(word)
        f.write(" ")
        for i in range(0, dimensions):
            f.write(str(glove_fr.word_vectors[glove_fr.dictionary[word]][i]))
            f.write(" ")
        f.write("\n")

<h2>Aligning vector spaces with MUSE and saving</h2>

In [61]:
align_models("el","fr", "glove_gk_muse.model","glove_fr_muse.model")

In [127]:
src_path = './results/25_03_1452/vectors-el.txt'
tgt_path = './results/25_03_1452/vectors-fr_for_merge.txt'

data = data2 = ""
with open(src_path) as fp:
    data = fp.read()

with open(tgt_path) as fp:
    data2 = fp.read()

data += "\n"
data += data2
  
with open ('./results/25_03_1452/merged.vec.txt', 'w') as fp:
    fp.write(data)

<h2>Load MUSE multilingual models</h2>

In [4]:
def load_vec(emb_path, nmax=50000):
    vectors = []
    word2id = {}
    with io.open(emb_path, 'r', encoding='utf-8', newline='\n', errors='ignore') as f:
        next(f)
        for i, line in enumerate(f):
            word, vect = line.rstrip().split(' ', 1)
            vect = np.fromstring(vect, sep=' ')
            assert word not in word2id, 'word found twice'
            vectors.append(vect)
            word2id[word] = len(word2id)
            if len(word2id) == nmax:
                break
    id2word = {v: k for k, v in word2id.items()}
    embeddings = np.vstack(vectors)
    return embeddings, id2word, word2id

In [5]:
src_path = './results/25_03_1452/vectors-el.txt'
tgt_path = './results/25_03_1452/vectors-fr.txt'
nmax = 100000  # maximum number of word embeddings to load

src_embeddings, src_id2word, src_word2id = load_vec(src_path, nmax)
tgt_embeddings, tgt_id2word, tgt_word2id = load_vec(tgt_path, nmax)

In [110]:
def get_nn(word, src_emb, src_id2word, tgt_emb, tgt_id2word, K=5):
    print("Nearest neighbors of \"%s\":" % word)
    word2id = {v: k for k, v in src_id2word.items()}
    word_emb = src_emb[word2id[word]]
    scores = (tgt_emb / np.linalg.norm(tgt_emb, 2, 1)[:, None]).dot(word_emb / np.linalg.norm(word_emb))
    k_best = scores.argsort()[-K:][::-1]
    for i, idx in enumerate(k_best):
        print('%.4f - %s' % (scores[idx], tgt_id2word[idx]))

<h2>Testing MUSE multilingual models</h2>

In [111]:
src_word = 'Ὀδυσσεύς'
get_nn(src_word, src_embeddings, src_id2word, src_embeddings, src_id2word, K=5)

Nearest neighbors of "Ὀδυσσεύς":
1.0000 - Ὀδυσσεύς
0.8923 - παραπείθω
0.8677 - ταλασίφρων
0.8657 - κλισία
0.8642 - πτολίπορθος


In [131]:
src_word = 'Καλυψώ'
get_nn(src_word, src_embeddings, src_id2word, tgt_embeddings, tgt_id2word, K=20)

Nearest neighbors of "Καλυψώ":
0.6896 - désirer
0.6839 - impétueusement
0.6756 - Sisyphe
0.6732 - peloton
0.6518 - prétendre
0.6485 - femelle
0.6416 - jamais
0.6339 - souvenir
0.6338 - heureux
0.6169 - admirer
0.6089 - infortuné
0.6001 - durcir
0.6001 - exceller
0.5923 - penser
0.5856 - déjà
0.5846 - frère
0.5834 - lavoir
0.5819 - absent
0.5807 - Éole
0.5778 - croire


<h2>Generating Tensorflow Projector files</h2>

<h2>Visualization (work in progress)</h2>

In [21]:
from sklearn.decomposition import PCA
pca = PCA(n_components=3, whiten=True)  # TSNE(n_components=2, n_iter=3000, verbose=2)
df=np.vstack([src_embeddings, tgt_embeddings])
pca.fit(df)

print('Variance explained: %.2f' % pca.explained_variance_ratio_.sum())

Variance explained: 0.32


In [90]:
tsne = TSNE(perplexity=30, n_components=3, init='pca', n_iter=3500, random_state=12, n_jobs=-1)
df=np.vstack([src_embeddings, tgt_embeddings])
df = tsne.fit(df)

In [137]:
import matplotlib.pyplot as plt
matplotlib.use('nbagg')
import matplotlib.font_manager as fm
fp1 = fm.FontProperties(fname='/usr/share/fonts/truetype/ubuntu/Ubuntu-B.ttf')
 

def plot_similar_word(src_words, src_word2id, src_emb, tgt_words, tgt_word2id, tgt_emb, pca):
    
    if matplotlib.get_backend() == 'nbAgg':          # Instructions for interactive plots
        print("Zoom by moving the mouse up & down while holding down the right mouse button.")

    Y = []
    word_labels = []
    associate_colors={}
    for sw in src_words:
        Y.append(src_emb[src_word2id[sw]])
        word_labels.append(sw)
    for tw in tgt_words:
        Y.append(tgt_emb[tgt_word2id[tw]])
        word_labels.append(tw)
    
    colors = cm.RdYlGn(np.linspace(0, 0.8, len(word_labels)))
    #colors = cm.rainbow(np.linspace(0, 1, len(word_labels)))
    
    for src,trg,color in zip(src_words,tgt_words, colors):
        associate_colors[src]=color
        associate_colors[trg]=color
    

    # find tsne coords for 3 dimensions
    Y = pca.transform(Y)
    x_coords = Y[:, 0]
    y_coords = Y[:, 1]
    z_coords = Y[:, 2]

    # display scatter plot

    fig = plt.figure(figsize=(10, 8), dpi=80)
    ax = Axes3D(fig)
    
    print("getting there")
    
    

    for k, (label, x, y, z) in enumerate(zip(word_labels, x_coords, y_coords,z_coords)):
        ax.scatter(x,y,z,color=associate_colors[label]) 
        ax.text(x,y,z,  '%s' % (label), size=20, zorder=1,  color=associate_colors[label], fontproperties=fp1, fontsize=15) 
        
    print("getting there too")

    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.set_zlabel('z')

    plt.xlim(x_coords.min() - 0.2, x_coords.max() + 0.2)
    plt.ylim(y_coords.min() - 0.2, y_coords.max() + 0.2)
    ax.set_title('Visualization of the multilingual word embedding space')

    plt.show()

In [138]:
# get random input words
src_words = ['Τροία','νημερτής', 'μήτηρ','κατακτείνω','κλέος',"ἅλς","τύμβος","Καλυψώ"]
tgt_words = ['Troie','dévaster', 'mère','arme','glorieux',"sable","pitoyable","désirer"]

plot_similar_word(src_words, src_word2id, src_embeddings, tgt_words, tgt_word2id, tgt_embeddings, pca)

Zoom by moving the mouse up & down while holding down the right mouse button.


<IPython.core.display.Javascript object>

getting there
getting there too
