In [2]:
%load_ext autoreload
%autoreload 2

In [3]:
import os

import pandas as pd
from tqdm import tqdm
tqdm.pandas()

import trglobals

### Initialize the alignment model and load the texts

In [4]:
alignment_path = "../Texts_Aligned/UDHR/"
output_path = "../Texts_Output/UDHR/"
if not os.path.isdir(output_path):
    os.mkdir(output_path)

In [5]:
trglobals.init_embedding_model()

No model available for am
de model initialized
el model initialized
en model initialized
it model initialized
No model available for kk
ru model initialized
vi model initialized
zh model initialized


In [6]:
trglobals.xlang_model

EmbeddingModel with 7 langs: de, el, en, it, ru, vi, zh

### German - English

In [7]:
en_df = pd.read_csv(os.path.join(alignment_path, 'de.en.csv'))
en_df

Unnamed: 0,de,en
0,Alle Menschen sind frei und gleich an Würde un...,All human beings are born free and equal in di...
1,Jeder hat Anspruch auf die in dieser Erklärung...,Everyone is entitled to all the rights and fre...
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Everyone has the right to life, liberty and th..."
3,Niemand darf in Sklaverei oder Leibeigenschaft...,No one shall be held in slavery or servitude; ...
4,"Niemand darf der Folter oder grausamer, unmens...",No one shall be subjected to torture or to cru...
5,"Jeder hat das Recht, überall als rechtsfähig a...",Everyone has the right to recognition everywhe...
6,Alle Menschen sind vor dem Gesetz gleich und h...,All are equal before the law and are entitled ...
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Everyone has the right to an effective remedy ...
8,"Niemand darf willkürlich festgenommen, in Haft...","No one shall be subjected to arbitrary arrest,..."
9,Jeder hat bei der Feststellung seiner Rechte u...,Everyone is entitled in full equality to a fai...


In [8]:
compute_tmd_partial = lambda cur_row: trglobals.compute_tmd(cur_row, 'de', 'en')
en_df['tmd'] = en_df.progress_apply(compute_tmd_partial, axis=1)
en_df

100%|██████████| 30/30 [00:00<00:00, 34.98it/s]


Unnamed: 0,de,en,tmd
0,Alle Menschen sind frei und gleich an Würde un...,All human beings are born free and equal in di...,0.678249
1,Jeder hat Anspruch auf die in dieser Erklärung...,Everyone is entitled to all the rights and fre...,0.799062
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Everyone has the right to life, liberty and th...",0.746018
3,Niemand darf in Sklaverei oder Leibeigenschaft...,No one shall be held in slavery or servitude; ...,0.712372
4,"Niemand darf der Folter oder grausamer, unmens...",No one shall be subjected to torture or to cru...,0.737463
5,"Jeder hat das Recht, überall als rechtsfähig a...",Everyone has the right to recognition everywhe...,0.93949
6,Alle Menschen sind vor dem Gesetz gleich und h...,All are equal before the law and are entitled ...,0.742359
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Everyone has the right to an effective remedy ...,0.908767
8,"Niemand darf willkürlich festgenommen, in Haft...","No one shall be subjected to arbitrary arrest,...",0.913836
9,Jeder hat bei der Feststellung seiner Rechte u...,Everyone is entitled in full equality to a fai...,0.736548


In [9]:
en_df['tmd'].mean()

0.8065102403435918

In [10]:
en_fpath = os.path.join(output_path, f"tmd_de_en.csv")
en_df.to_csv(en_fpath, encoding='utf8', index=False)

### German - Russian

In [11]:
ru_df = pd.read_csv(os.path.join(alignment_path, "de.ru.csv"))
ru_df

Unnamed: 0,de,ru
0,Alle Menschen sind frei und gleich an Würde un...,Все люди рождаются свободными и равными в свое...
1,Jeder hat Anspruch auf die in dieser Erklärung...,Каждый человек должен обладать всеми правами и...
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Каждый человек имеет право на жизнь, на свобод..."
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Никто не должен содержаться в рабстве или в по...
4,"Niemand darf der Folter oder grausamer, unmens...",Никто не должен подвергаться пыткам или жесток...
5,"Jeder hat das Recht, überall als rechtsfähig a...","Каждый человек, где бы он ни находился, имеет ..."
6,Alle Menschen sind vor dem Gesetz gleich und h...,"Все люди равны перед законом и имеют право, бе..."
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Каждый человек имеет право на эффективное восс...
8,"Niemand darf willkürlich festgenommen, in Haft...",Никто не может быть подвергнут произвольному а...
9,Jeder hat bei der Feststellung seiner Rechte u...,"Каждый человек, для определения его прав и обя..."


In [12]:
ru_df['tmd'] = trglobals.compute_tmd_df(ru_df)
ru_df

100%|██████████| 30/30 [00:00<00:00, 62.03it/s]


Unnamed: 0,de,ru,tmd
0,Alle Menschen sind frei und gleich an Würde un...,Все люди рождаются свободными и равными в свое...,0.758783
1,Jeder hat Anspruch auf die in dieser Erklärung...,Каждый человек должен обладать всеми правами и...,0.881891
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Каждый человек имеет право на жизнь, на свобод...",0.725877
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Никто не должен содержаться в рабстве или в по...,0.672518
4,"Niemand darf der Folter oder grausamer, unmens...",Никто не должен подвергаться пыткам или жесток...,0.852552
5,"Jeder hat das Recht, überall als rechtsfähig a...","Каждый человек, где бы он ни находился, имеет ...",0.946989
6,Alle Menschen sind vor dem Gesetz gleich und h...,"Все люди равны перед законом и имеют право, бе...",0.780482
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Каждый человек имеет право на эффективное восс...,0.99807
8,"Niemand darf willkürlich festgenommen, in Haft...",Никто не может быть подвергнут произвольному а...,1.005709
9,Jeder hat bei der Feststellung seiner Rechte u...,"Каждый человек, для определения его прав и обя...",0.842522


In [13]:
ru_df['tmd'].mean()

0.8396248295714802

In [14]:
ru_df.to_csv(os.path.join(output_path, "de.ru.csv"), index=False, encoding='utf8')

### German - Chinese

In [15]:
zh_df = pd.read_csv(os.path.join(alignment_path, "de.zh.csv"))
zh_df

Unnamed: 0,de,zh
0,Alle Menschen sind frei und gleich an Würde un...,"人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。第二"
1,Jeder hat Anspruch auf die in dieser Erklärung...,"人人有资格享有本宣言所载的一切权利和自由,不分种族、肤色、性别、语言、宗教、政治或其他见解、..."
2,"Jeder hat das Recht auf Leben, Freiheit und Si...",人人有权享有生命、自由和人身安全。第四
3,Niemand darf in Sklaverei oder Leibeigenschaft...,"任何人不得使为奴隶或奴役;一切形式的奴隶制度和奴隶买卖,均应予以禁止。第五"
4,"Niemand darf der Folter oder grausamer, unmens...","任何人不得加以酷刑,或施以残忍的、不人道的或侮辱性的待遇或刑罚。第六"
5,"Jeder hat das Recht, überall als rechtsfähig a...",人人在任何地方有权被承认在法律前的人格。第七
6,Alle Menschen sind vor dem Gesetz gleich und h...,"法律之前人人平等,并有权享受法律的平等保护,不受任何歧视。人人有权享受平等保护,以免受违反本..."
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,"任何人当宪法或法律所赋予他的基本权利遭受侵害时,有权由合格的国家法庭对这种侵害行为作有效的补..."
8,"Niemand darf willkürlich festgenommen, in Haft...",任何人不得加以任意逮捕、拘禁或放逐。第十
9,Jeder hat bei der Feststellung seiner Rechte u...,"人人完全平等地有权由一个独立而无偏倚的法庭进行公正的和公开的审讯,以确定他的权利和义务并判定..."


In [16]:
zh_df['tmd'] = trglobals.compute_tmd_df(zh_df)
zh_df

100%|██████████| 30/30 [00:02<00:00, 13.65it/s]


Unnamed: 0,de,zh,tmd
0,Alle Menschen sind frei und gleich an Würde un...,"人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。第二",0.877033
1,Jeder hat Anspruch auf die in dieser Erklärung...,"人人有资格享有本宣言所载的一切权利和自由,不分种族、肤色、性别、语言、宗教、政治或其他见解、...",0.937562
2,"Jeder hat das Recht auf Leben, Freiheit und Si...",人人有权享有生命、自由和人身安全。第四,0.939626
3,Niemand darf in Sklaverei oder Leibeigenschaft...,"任何人不得使为奴隶或奴役;一切形式的奴隶制度和奴隶买卖,均应予以禁止。第五",0.942018
4,"Niemand darf der Folter oder grausamer, unmens...","任何人不得加以酷刑,或施以残忍的、不人道的或侮辱性的待遇或刑罚。第六",0.920645
5,"Jeder hat das Recht, überall als rechtsfähig a...",人人在任何地方有权被承认在法律前的人格。第七,1.11375
6,Alle Menschen sind vor dem Gesetz gleich und h...,"法律之前人人平等,并有权享受法律的平等保护,不受任何歧视。人人有权享受平等保护,以免受违反本...",0.997979
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,"任何人当宪法或法律所赋予他的基本权利遭受侵害时,有权由合格的国家法庭对这种侵害行为作有效的补...",1.071808
8,"Niemand darf willkürlich festgenommen, in Haft...",任何人不得加以任意逮捕、拘禁或放逐。第十,1.007175
9,Jeder hat bei der Feststellung seiner Rechte u...,"人人完全平等地有权由一个独立而无偏倚的法庭进行公正的和公开的审讯,以确定他的权利和义务并判定...",0.902618


In [17]:
zh_df['tmd'].mean()

0.9516647601477576

In [18]:
zh_df.to_csv(os.path.join(output_path, "tmd_de_zh.csv"), encoding='utf8', index=False)

### German - Vietnamese

In [19]:
vi_df = pd.read_csv(os.path.join(alignment_path, "de.vi.csv"))
vi_df['tmd'] = trglobals.compute_tmd_df(vi_df)
vi_df

100%|██████████| 30/30 [00:00<00:00, 58.87it/s]


Unnamed: 0,de,vi,tmd
0,Alle Menschen sind frei und gleich an Würde un...,Tất cả mọi người sinh ra đều được tự do...,0.910982
1,Jeder hat Anspruch auf die in dieser Erklärung...,Mọi người đều được hưởng tất cả những ...,1.060845
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Mọi người đều có quyền sống, tự do và ...",0.951958
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Không ai phải làm nô lệ hay bị cưỡng bức...,1.10419
4,"Niemand darf der Folter oder grausamer, unmens...","Không ai bị tra tấn hay bị đối xử, xử ph...",1.156166
5,"Jeder hat das Recht, überall als rechtsfähig a...",Mọi người đều có quyền được thừa nhận ...,1.044049
6,Alle Menschen sind vor dem Gesetz gleich und h...,Tất cả mọi người đều bình đẳng trước p...,1.027727
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Mọi người đều có quyền được các toà á...,1.138398
8,"Niemand darf willkürlich festgenommen, in Haft...","Không ai bị bắt, giam giữ hay đày đi nơi k...",1.139145
9,Jeder hat bei der Feststellung seiner Rechte u...,"Mọi người, với tư cách bình đẳng về mọ...",1.008035


In [20]:
vi_df['tmd'].mean()

1.0404726515013059

In [21]:
vi_df.to_csv(os.path.join(output_path, "tmd_de_vi.csv"), encoding='utf8', index=False)

### German - Greek

In [22]:
el_df = pd.read_csv(os.path.join(alignment_path, "de.el.csv"))
el_df['tmd'] = trglobals.compute_tmd_df(el_df, verbose=False)

100%|██████████| 30/30 [00:00<00:00, 82.95it/s] 


In [23]:
el_df

Unnamed: 0,de,el,tmd
0,Alle Menschen sind frei und gleich an Würde un...,Όλοι οι άνθρωποι γεννιούνται ελεύθεροι και ίσο...,0.876573
1,Jeder hat Anspruch auf die in dieser Erklärung...,Κάθε άνθρωπος δικαιούται να επικαλείται όλα τα...,0.987443
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Κάθε άτομο έχει δικαίωμα στη ζωή, την ελευθερί...",0.741566
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Κανείς δεν επιτρέπεται να ζει υπό καθεστώς δου...,0.900964
4,"Niemand darf der Folter oder grausamer, unmens...",Κανείς δεν επιτρέπεται να υποβάλλεται σε βασαν...,0.960802
5,"Jeder hat das Recht, überall als rechtsfähig a...","Καθένας, όπου και αν βρίσκεται, έχει δικαίωμα ...",1.031562
6,Alle Menschen sind vor dem Gesetz gleich und h...,Όλοι είναι ίσοι απέναντι στον νόμο και έχουν δ...,0.926673
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Καθένας έχει δικαίωμα να ασκεί αποτελεσματικά ...,1.048221
8,"Niemand darf willkürlich festgenommen, in Haft...","Κανείς δεν μπορεί να συλλαμβάνεται, να κρατείτ...",1.153923
9,Jeder hat bei der Feststellung seiner Rechte u...,"Καθένας έχει δικαίωμα, με πλήρη ισότητα, να εκ...",0.870563


In [24]:
el_df['tmd'].mean()

0.9485621776205716

In [25]:
el_fpath = os.path.join(output_path, "tmd_de_el.csv")
el_df.to_csv(el_fpath, encoding='utf8', index=False)

In [26]:
el_fpath

'../Texts_Output/UDHR/tmd_de_el.csv'

### German - Kazakh

In [7]:
kk_df = pd.read_csv(os.path.join(alignment_path, 'de.kk.csv'))
kk_df

Unnamed: 0,de,kk
0,Alle Menschen sind frei und gleich an Würde un...,Барлық адамдар тумысынан азат және қадір‐қасие...
1,Jeder hat Anspruch auf die in dieser Erklärung...,"Әр адам, нәсіліне, түр‐түсіне, жынысына. тілін..."
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Әр адам өмір сүруге, бостандықта болуға және о..."
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Ешкім де құлдықта немесе кіріптарлықта ұсталуы...
4,"Niemand darf der Folter oder grausamer, unmens...",Ешкім де азапталуға немесе қадір‐қасиетін қорл...
5,"Jeder hat das Recht, überall als rechtsfähig a...","Әр адам қай жерде жүрсе де, құқықтық субъектіс..."
6,Alle Menschen sind vor dem Gesetz gleich und h...,Заң алдында жұрттың бәрі тең және де заң арқыл...
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,"Әр адам, конституциямен, немесе заңмен берілге..."
8,"Niemand darf willkürlich festgenommen, in Haft...","Ешкім де негізсіз тұтқындалуға, қамауда ұсталу..."
9,Jeder hat bei der Feststellung seiner Rechte u...,"Әр адам, өзінің құқықтары мен міндеттерін анық..."


In [8]:
# Special case: need to compute via Russian
kk_df.columns = ['de','ru']

In [9]:
kk_df['tmd'] = trglobals.compute_tmd_df(kk_df)

100%|██████████| 30/30 [00:00<00:00, 185.40it/s]


In [10]:
kk_df

Unnamed: 0,de,ru,tmd
0,Alle Menschen sind frei und gleich an Würde un...,Барлық адамдар тумысынан азат және қадір‐қасие...,1.331678
1,Jeder hat Anspruch auf die in dieser Erklärung...,"Әр адам, нәсіліне, түр‐түсіне, жынысына. тілін...",1.267198
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Әр адам өмір сүруге, бостандықта болуға және о...",1.395805
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Ешкім де құлдықта немесе кіріптарлықта ұсталуы...,1.326324
4,"Niemand darf der Folter oder grausamer, unmens...",Ешкім де азапталуға немесе қадір‐қасиетін қорл...,1.392727
5,"Jeder hat das Recht, überall als rechtsfähig a...","Әр адам қай жерде жүрсе де, құқықтық субъектіс...",1.36405
6,Alle Menschen sind vor dem Gesetz gleich und h...,Заң алдында жұрттың бәрі тең және де заң арқыл...,1.3815
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,"Әр адам, конституциямен, немесе заңмен берілге...",1.409725
8,"Niemand darf willkürlich festgenommen, in Haft...","Ешкім де негізсіз тұтқындалуға, қамауда ұсталу...",1.378004
9,Jeder hat bei der Feststellung seiner Rechte u...,"Әр адам, өзінің құқықтары мен міндеттерін анық...",1.385344


In [11]:
kk_df.to_csv(os.path.join(output_path, "tmd_de_kk.csv"), encoding='utf8', index=False)