This dataset is used by deeplanguageclass/fairseq-transliteration.ipynb via fairseq-transliteration/blob/master/examples/translation/prepare-translit.sh.
The data are simply parallel corpora for transliteration.
For example, for Armenian in Latin script to Armenian in Armenian script:
tar zxvf la-hy.train.tar.gz
head train/*
The result will be:
==> train/translit.la-hy.hy <==
Վիքիպեդիա
Մեդիա
Սպասարկող
Քննարկում
Մասնակից
Մասնակցի քննարկում
Վիքիպեդիա
Վիքիպեդիայի քննարկում
Պատկեր
Պատկերի քննարկում
==> train/translit.la-hy.la <==
Viqipedia
Media
Spasarkox
Qnnarkum
Masnakic
Masnakci qnnarkum
Viqipedia
Viqipediayi qnnarkum
Patker
Patkeri qnnarkum
We can generate a parallel corpus from an unlabelled monolingual corpus in the target language.
Any text in the target language will work. It can contain noise - words or lines in the source language or third languages.
For example you can use a Wikipedia dump, cleaned and de-duped.
transliteration.json
is a mapping from target character sequences to source character sequence options.
node generate.js data.txt
This will yield data.txt.src
and data.txt.trg
, which will have the same length.
Note that it cuts long rows and removes invalid rows, so they may not have exactly same length as data.txt.