In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import os
import re

import pandas as pd

import trglobals

### Load the texts for all langs

In [3]:
langs = ["am","de","el","en","kk","ru","vi","zh"]

In [4]:
udhr_path = "../Texts/UDHR/"

In [87]:
fpath_map = {lang: os.path.join(udhr_path, f"udhr_{lang}.txt") for lang in langs}

In [88]:
def load_udhr(lang):
    lang_fpath = fpath_map[lang]
    with open(lang_fpath, 'r', encoding='utf-8') as infile:
        lang_text = infile.read()
    return lang_text

In [89]:
lang_map = {lang: load_udhr(lang) for lang in langs}

Now align the german one with the other langs

### German - Amharic

In [8]:
de_text = lang_map['de']
other_text = lang_map['am']

In [9]:
alignment_path = "../Texts_Aligned/UDHR/"
if not os.path.isdir(alignment_path):
    os.mkdir(alignment_path)
alignment_fpath = os.path.join(alignment_path, f"de.am.txt")

In [10]:
# nvm... the structure is always just 30 articles, we can "align" manually
#lf_cmd = trglobals.get_lf_cmd('de', 'am', fpath_map['de'], fpath_map['am'], alignment_fpath)

In [11]:
de_reg = re.compile(r'Artikel ([0-9]+)')

In [12]:
de_parts = de_reg.split(de_text)

In [13]:
start_index = de_parts.index("1")
start_index

1

In [14]:
end_index = len(de_parts)

In [15]:
de_art_data = []

In [16]:
# And now it alternates
for cur_index in range(start_index, end_index, 2):
    #print(cur_index)
    text_at_index = de_parts[cur_index]
    art_num = int(text_at_index)
    text_after_index = de_parts[cur_index+1]
    art_text = text_after_index.replace("\n","").strip()
    de_art_data.append((art_num, art_text))

In [17]:
de_art_data

[(1,
  'Alle Menschen sind frei und gleich an Würde und Rechten geboren. Sie sind mit Vernunft und Gewissen begabt und sollen einander im Geist der Brüderlichkeit begegnen.'),
 (2,
  'Jeder hat Anspruch auf die in dieser Erklärung verkündeten Rechte und Freiheiten ohne irgendeinen Unterschied, etwa nach Rasse, Hautfarbe, Geschlecht, Sprache, Religion, politischer oder sonstiger Überzeugung, nationaler oder sozialer Herkunft, Vermögen, Geburt oder sonstigem Stand.Des weiteren darf kein Unterschied gemacht werden auf Grund der politischen, rechtlichen oder internationalen Stellung des Landes oder Gebiets, dem eine Person angehört, gleichgültig ob dieses unabhängig ist, unter Treuhandschaft steht, keine Selbstregierung besitzt oder sonst in seiner Souveränität eingeschränkt ist.'),
 (3, 'Jeder hat das Recht auf Leben, Freiheit und Sicherheit der Person.'),
 (4,
  'Niemand darf in Sklaverei oder Leibeigenschaft gehalten werden; Sklaverei und Sklavenhandel sind in allen ihren Formen verbote

In [18]:
de_arts = [data[1] for data in de_art_data]

Now the Amharic

In [19]:
am_reg = re.compile(r'አንቀጽ፡')

In [20]:
am_parts = am_reg.split(lang_map['am'])

In [21]:
len(am_parts)

31

In [22]:
am_arts = am_parts[1:]

In [23]:
am_arts = [" ".join(art.split("\n\n")[1:]) for art in am_arts]

In [24]:
am_arts = [art.replace("\n","").strip() for art in am_arts]

In [25]:
len(am_arts)

30

And now the aligned df

In [26]:
am_df = pd.DataFrame({'de': de_arts, 'am': am_arts})

In [27]:
am_df

Unnamed: 0,de,am
0,Alle Menschen sind frei und gleich an Würde un...,የሰው፡ልጅ፡ሁሉ፡ሲወለድ፡ነጻና፡በክብርና፡በመብትም፡እኩልነት፡ያለው፡ነው።፡የ...
1,Jeder hat Anspruch auf die in dieser Erklärung...,እያንዳንዱ፡ሰው፡የዘር፡የቀለም፡የጾታ፡የቋንቋ፡የሃይማኖት፡የፖለቲካ፡ወይም፡የ...
2,"Jeder hat das Recht auf Leben, Freiheit und Si...",እያንዳንዱ፡ሰው፡የመኖር፣፡በነጻነትና፡በሰላም፡የመኖሩ፡መጠበቅ፡መብት፡አለው።
3,Niemand darf in Sklaverei oder Leibeigenschaft...,ማንም፡ሰው፡ቢሆን፡በባርነት፡አይገዛም።፡ባርነትና፡የባሪያ፡ንግድም፡በማንኛውም...
4,"Niemand darf der Folter oder grausamer, unmens...",ማንም፡ሰው፡ቢሆን፡የጭካኔ፡ስቃይ፡እንዳይደርስበት፡ወይም፡ከሰብዓዊ፡አፈጻጸም፡...
5,"Jeder hat das Recht, überall als rechtsfähig a...",እያንዳንዱ፡ሰው፡በሕግ፡ፊት፡በሰው፡ዘርነቱ፡የመታወቅ፡መብት፡አለው።
6,Alle Menschen sind vor dem Gesetz gleich und h...,ሰው፡ሁሉ፡በሕግ፡ፊት፡እኩል፡ነው።፡ያለአንዳች፡ልዩነትም፡ሕጉ፡ደህንነቱን፡እን...
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,እያንዳንዱ፡ሰው፡በሕገ፡መንግስቱ፡ወይም፡በሕግ፡የተሰጡትን፡መሠረታዊ፡መብቶች፡...
8,"Niemand darf willkürlich festgenommen, in Haft...",ማንም፡ሰው፡ያለፍርድ፡ተይዞ፡እንዲታሰር፡ወይም፡በግዛት፡እንዲኖር፡አይደረግም።
9,Jeder hat bei der Feststellung seiner Rechte u...,እያንዳንዱ፡ሰው፡በመብቶቹና፡በግዴታዎቹ፡አፈጻጸም፡እንዲሁም፡በሚከሰስበት፡ማን...


In [28]:
am_df.to_csv("../Texts_Aligned/UDHR/de_am.csv", encoding='utf8', index=False)

### German - English

In [29]:
en_reg = re.compile(r'Article ([0-9]+)')

In [30]:
en_parts = en_reg.split(lang_map['en'])

In [31]:
en_parts[1:]

['1',
 '\n\nAll human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.\n',
 '2',
 '\n\nEveryone is entitled to all the rights and freedoms set forth in this Declaration, without distinction of any kind, such as race, colour, sex, language, religion, political or other opinion, national or social origin, property, birth or other status.\n\nFurthermore, no distinction shall be made on the basis of the political, jurisdictional or international status of the country or territory to which a person belongs, whether it be independent, trust, non-self-governing or under any other limitation of sovereignty.\n',
 '3',
 '\n\nEveryone has the right to life, liberty and the security of person.\n',
 '4',
 '\n\nNo one shall be held in slavery or servitude; slavery and the slave trade shall be prohibited in all their forms.\n',
 '5',
 '\n\nNo one shall be subjected to torture or to cruel, i

In [32]:
en_arts = []

In [33]:
for cur_index in range(1, len(en_parts), 2):
    art_text = en_parts[cur_index+1]
    en_arts.append(art_text.replace("\n","").strip())

In [34]:
en_df = pd.DataFrame({'de': de_arts, 'en': en_arts})

In [35]:
en_fpath = os.path.join(alignment_path, "de.en.csv")

In [36]:
en_df.to_csv(en_fpath, encoding='utf8', index=False)

### German - Russian

In [37]:
ru_reg = re.compile(r'Статья [0-9]+')

In [38]:
ru_parts = ru_reg.split(lang_map['ru'])

In [39]:
len(ru_parts[1:])

30

In [40]:
ru_arts = [art.replace("\n","").strip() for art in ru_parts[1:]]

In [41]:
ru_df = pd.DataFrame({'de': de_arts, 'ru': ru_arts})

In [42]:
ru_df

Unnamed: 0,de,ru
0,Alle Menschen sind frei und gleich an Würde un...,Все люди рождаются свободными и равными в свое...
1,Jeder hat Anspruch auf die in dieser Erklärung...,Каждый человек должен обладать всеми правами и...
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Каждый человек имеет право на жизнь, на свобод..."
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Никто не должен содержаться в рабстве или в по...
4,"Niemand darf der Folter oder grausamer, unmens...",Никто не должен подвергаться пыткам или жесток...
5,"Jeder hat das Recht, überall als rechtsfähig a...","Каждый человек, где бы он ни находился, имеет ..."
6,Alle Menschen sind vor dem Gesetz gleich und h...,"Все люди равны перед законом и имеют право, бе..."
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Каждый человек имеет право на эффективное восс...
8,"Niemand darf willkürlich festgenommen, in Haft...",Никто не может быть подвергнут произвольному а...
9,Jeder hat bei der Feststellung seiner Rechte u...,"Каждый человек, для определения его прав и обя..."


In [43]:
ru_fpath = os.path.join(alignment_path, "de.ru.csv")

In [44]:
ru_df.to_csv(ru_fpath, encoding='utf8', index=False)

### German - Chinese

In [45]:
zh_reg = re.compile(r'条\n')

In [46]:
zh_parts = zh_reg.split(lang_map['zh'])

In [47]:
len(zh_parts[1:])

30

In [48]:
zh_parts[1]

'\n人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。\n第二'

In [49]:
zh_arts = [part.replace("\n","").strip() for part in zh_parts[1:]]

In [50]:
len(zh_arts)

30

In [51]:
zh_df = pd.DataFrame({'de': de_arts, 'zh': zh_arts})

In [52]:
zh_df

Unnamed: 0,de,zh
0,Alle Menschen sind frei und gleich an Würde un...,"人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。第二"
1,Jeder hat Anspruch auf die in dieser Erklärung...,"人人有资格享有本宣言所载的一切权利和自由,不分种族、肤色、性别、语言、宗教、政治或其他见解、..."
2,"Jeder hat das Recht auf Leben, Freiheit und Si...",人人有权享有生命、自由和人身安全。第四
3,Niemand darf in Sklaverei oder Leibeigenschaft...,"任何人不得使为奴隶或奴役;一切形式的奴隶制度和奴隶买卖,均应予以禁止。第五"
4,"Niemand darf der Folter oder grausamer, unmens...","任何人不得加以酷刑,或施以残忍的、不人道的或侮辱性的待遇或刑罚。第六"
5,"Jeder hat das Recht, überall als rechtsfähig a...",人人在任何地方有权被承认在法律前的人格。第七
6,Alle Menschen sind vor dem Gesetz gleich und h...,"法律之前人人平等,并有权享受法律的平等保护,不受任何歧视。人人有权享受平等保护,以免受违反本..."
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,"任何人当宪法或法律所赋予他的基本权利遭受侵害时,有权由合格的国家法庭对这种侵害行为作有效的补..."
8,"Niemand darf willkürlich festgenommen, in Haft...",任何人不得加以任意逮捕、拘禁或放逐。第十
9,Jeder hat bei der Feststellung seiner Rechte u...,"人人完全平等地有权由一个独立而无偏倚的法庭进行公正的和公开的审讯,以确定他的权利和义务并判定..."


In [53]:
zh_fpath = os.path.join(alignment_path, "de.zh.csv")

In [54]:
zh_df.to_csv(zh_fpath, encoding='utf8', index=False)

### German - Vietnamese

In [55]:
vi_reg = re.compile(r'Điều [0-9]+:')

In [56]:
vi_parts = vi_reg.split(lang_map['vi'])

In [57]:
len(vi_parts)

31

In [58]:
vi_arts = [p.strip() for p in vi_parts[1:]]

In [59]:
vi_arts

['Tất cả mọi người sinh ra đều được tự do và bình đẳng về nhân phẩm và quyền. Mọi con người đều được tạo hoá ban cho lý trí và lương tâm và cần phải đối xử với nhau trong tình bằng hữu.',
 'Mọi người đều được hưởng tất cả những quyền và tự do nêu trong Bản tuyên ngôn này, không phân biệt chủng tộc, màu da, giới tính, ngôn ngữ, tôn giáo, quan điểm chính trị hay các quan điểm khác, nguồn gốc quốc gia hay xã hội, tài sản, thành phần xuất thân hay địa vị xã hội.\n\nNgoài ra, cũng không có bất cứ sự phân biệt nào về địa vị chính trị, pháp quyền hay quốc tế của quốc gia hay lãnh thổ mà một người xuất thân, cho dù quốc gia hay lãnh thổ đó được độc lập, được đặt dưới chế độ uỷ trị, chưa tự quản hay có chủ quyền hạn chế.',
 'Mọi người đều có quyền sống, tự do và an toàn cá nhân.',
 'Không ai phải làm nô lệ hay bị cưỡng bức làm việc như nô lệ; mọi hình thứ

In [60]:
vi_df = pd.DataFrame({'de': de_arts, 'vi': vi_arts})

In [61]:
vi_df

Unnamed: 0,de,vi
0,Alle Menschen sind frei und gleich an Würde un...,Tất cả mọi người sinh ra đều được tự do...
1,Jeder hat Anspruch auf die in dieser Erklärung...,Mọi người đều được hưởng tất cả những ...
2,"Jeder hat das Recht auf Leben, Freiheit und Si...","Mọi người đều có quyền sống, tự do và ..."
3,Niemand darf in Sklaverei oder Leibeigenschaft...,Không ai phải làm nô lệ hay bị cưỡng bức...
4,"Niemand darf der Folter oder grausamer, unmens...","Không ai bị tra tấn hay bị đối xử, xử ph..."
5,"Jeder hat das Recht, überall als rechtsfähig a...",Mọi người đều có quyền được thừa nhận ...
6,Alle Menschen sind vor dem Gesetz gleich und h...,Tất cả mọi người đều bình đẳng trước p...
7,Jeder hat Anspruch auf einen wirksamen Rechtsb...,Mọi người đều có quyền được các toà á...
8,"Niemand darf willkürlich festgenommen, in Haft...","Không ai bị bắt, giam giữ hay đày đi nơi k..."
9,Jeder hat bei der Feststellung seiner Rechte u...,"Mọi người, với tư cách bình đẳng về mọ..."


In [62]:
vi_fpath = os.path.join(alignment_path, "de.vi.csv")

In [63]:
vi_df.to_csv(vi_fpath, encoding='utf8', index=False)

### German - Greek

In [64]:
el_reg = re.compile(r'ΑΡΘΡΟ [0-9]+\n')

In [65]:
el_parts = el_reg.split(lang_map['el'])

In [66]:
len(el_parts)

31

In [67]:
el_arts = [p.strip() for p in el_parts[1:]]

In [68]:
el_arts

['Όλοι οι άνθρωποι γεννιούνται ελεύθεροι και ίσοι στην αξιοπρέπεια και τα δικαιώματα. Είναι προικισμένοι με λογική και συνείδηση, και οφείλουν να συμπεριφέρονται μεταξύ τους με πνεύμα αδελφοσύνης.',
 'Κάθε άνθρωπος δικαιούται να επικαλείται όλα τα δικαιώματα και όλες τις ελευθερίες που προκηρύσσει η παρούσα Διακήρυξη, χωρίς καμία απολύτως διάκριση, ειδικότερα ως προς τη φυλή, το χρώμα, το φύλο, τη γλώσσα, τις θρησκείες, τις πολιτικές ή οποιεσδήποτε άλλες πεποιθήσεις, την εθνική ή κοινωνική καταγωγή, την περιουσία, τη γέννηση ή οποιαδήποτε άλλη κατάσταση.\n\nΔεν θα μπορεί ακόμα να γίνεται καμία διάκριση εξαιτίας του πολιτικού, νομικού ή διεθνούς καθεστώτος της χώρας από την οποία προέρχεται κανείς, είτε πρόκειται για χώρα ή εδαφική περιοχή ανεξάρτητη, υπό κηδεμονία ή υπεξουσία, ή που βρίσκεται υπό οποιονδήποτε άλλον περιορισμό κυριαρχίας.',
 'Κάθε άτομο έχει δικαίωμα στη ζωή, την ελευθερία και την προσωπική του ασφάλεια.',
 'Κανείς δεν επιτρέπεται να ζει υπό καθεστώς δουλείας, ολικής ή 

In [69]:
el_df = pd.DataFrame({'de': de_arts, 'el': el_arts})

In [70]:
el_fpath = os.path.join(alignment_path, "de.el.csv")

In [71]:
el_df.to_csv(el_fpath, encoding='utf8', index=False)

### German - Italian

### German - Kazakh

In [90]:
kk_reg = re.compile(r'[0-9]+ бап\n')

In [91]:
kk_parts = kk_reg.split(lang_map['kk'])

In [92]:
len(kk_parts)

31

In [95]:
kk_arts = [p.strip() for p in kk_parts[1:]]

In [96]:
kk_arts[1]

'Әр адам, нәсіліне, түр‐түсіне, жынысына. тіліне, дініне, саяси немесе басқа да наным‐сенімдеріне, ұлттық, немесе әлеуметтік тегіне, мүліктік. тектік‐топтық, немесе басқа да жағдаяттарға қарамастан осы Декларацияда жарияланған барлық құқықтар мен бостандықтарға алаланбай, бірдей тең ие болуы тиіс.\n\nСонымен қатар, ешкім де өзі тұратын елінің, не болмаса территорияның саяси, құқықтық, немесе халықаралық мәртебесінің негізі бойынша, және де ол территория тәуелсіз, әлде біреудің қарамағында, әлде өзін‐өзі басқарушы емес, немесе оның егемендігі әртүрлі нысанда шектеулі болған күннің өзінде де, алаланбауы тиіс.'

In [97]:
kk_df = pd.DataFrame({'de': de_arts, 'kk': kk_arts})

In [98]:
kk_fpath = os.path.join(alignment_path, "de.kk.csv")

In [99]:
kk_df.to_csv(kk_fpath, encoding='utf8', index=False)