# Creating test and train datasets

In [1]:
!unzip Archive.zip

Archive:  Archive.zip
  inflating: original.txt            
  inflating: transliterated.txt      


In [15]:
import pandas as pd
import re

original = open("original.txt").read()
transliterated = open("transliterated.txt").read()

words = pd.DataFrame({
    'orig': re.split(r'\n', original),
    'trans': re.split(r'\n', transliterated)
})
words.head()

Unnamed: 0,orig,trans
0,ቀዝቃዛ ውኃ የዛለችን ነፍስ እንደሚያረካ ሁሉከሩቅ አገር የመጣ መልካም ወ...,kazeqaza weha yazalatchene nefsi inidamiyaraka...
1,በመልካም ሁኔታ የሚያስተዳድሩ በተለይ ደግሞ በመናገርና በማስተማር ተግተው...,bemalkam huneta jamiyasitadaderu batelaye dagi...
2,መጽሐፍ ቅዱስ በመጨረሻዎቹ ቀናት ክፋት በከፍተኛ ሁኔታ እንደሚባባስ ይነግ...,mashefe qduse bemeceraxawotchu qana'te kefat b...
3,የአክሱም ሐውልት ሁለተኛው ክፋይ አክሱም ገባ,ye'akesum hawlte huletanaw kfaye akisume geba
4,የሴም ወንዶች ልጆች ኤላም፣ አሹር፣ አርፋክስድ፣ ሉድ እና አራም ነበሩ።,"yasyeme wanidwoce lgoce 'elam, `ashure, `arifa..."


In [0]:
def encode_sentence(text):
  return ' '.join('~'.join(text.strip().split(' ')))

def decode_sentence(text):
  return text.strip().replace(' ', '').replace('~', ' ')

In [0]:
words.orig = words.orig.apply(encode_sentence)
words.trans = words.trans.apply(encode_sentence)

In [17]:
words.head(10)

Unnamed: 0,orig,trans
0,ቀ ዝ ቃ ዛ ~ ው ኃ ~ የ ዛ ለ ች ን ~ ነ ፍ ስ ~ እ ን ደ ሚ ያ ...,k a z e q a z a ~ w e h a ~ y a z a l a t c h ...
1,በ መ ል ካ ም ~ ሁ ኔ ታ ~ የ ሚ ያ ስ ተ ዳ ድ ሩ ~ በ ተ ለ ይ ...,b e m a l k a m ~ h u n e t a ~ j a m i y a s ...
2,መ ጽ ሐ ፍ ~ ቅ ዱ ስ ~ በ መ ጨ ረ ሻ ዎ ቹ ~ ቀ ና ት ~ ክ ፋ ...,m a s h e f e ~ q d u s e ~ b e m e c e r a x ...
3,የ አ ክ ሱ ም ~ ሐ ው ል ት ~ ሁ ለ ተ ኛ ው ~ ክ ፋ ይ ~ አ ክ ...,y e ' a k e s u m ~ h a w l t e ~ h u l e t a ...
4,የ ሴ ም ~ ወ ን ዶ ች ~ ል ጆ ች ~ ኤ ላ ም ፣ ~ አ ሹ ር ፣ ~ ...,y a s y e m e ~ w a n i d w o c e ~ l g o c e ...
5,ለ ሚ መ ረ ም ሩ ኝ ~ የ ማ ቀ ር በ ው ~ የ መ ከ ላ ከ ያ ~ መ ...,l a m i m a r e m e r u n ~ y a m a q e r e b ...
6,ያ ለ ነ ቀ ፋ ~ የ ሚ መ ላ ለ ስ ፣ ት ክ ክ ል ~ የ ሆ ነ ው ን ...,"y a l a n a q e f a ~ y a m i m a l a l e s , ..."
7,ገ ና ~ ሳ ይ ጣ ሩ ~ እ መ ል ስ ላ ቸ ዋ ለ ሁ ፤ እ የ ተ ና ገ ...,g e n a ~ s a y i t a r u ~ i m a l i s e l a ...
8,በ ዚ ህ ~ ጊ ዜ ~ ደ ቀ ~ መ ዛ ሙ ር ቱ ~ “ ጌ ታ ~ ሆ ይ ፣ ...,b a z i h ~ g i z e ~ d a q e ~ m e z a m u r ...
9,ል ብ ህ ~ በ አ ም ላ ክ ~ ፊ ት ~ ቀ ና ~ ስ ላ ል ሆ ነ ~ በ ...,l i b i h e ~ b e a m i l a k i ~ f i t e ~ k ...


In [18]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(words, test_size=5000)

print("Training on", train.shape)
print("Testing on", test.shape)

!mkdir -p data

# Save as training
# Can't use .to_csv because of quotins
with open('data/src-train.txt', 'w') as f:
    f.write('\n'.join(train.trans))
with open('data/tgt-train.txt', 'w') as f:
    f.write('\n'.join(train.orig))

with open('data/src-val.txt', 'w') as f:
    f.write('\n'.join(test.trans))
with open('data/tgt-val.txt', 'w') as f:
    f.write('\n'.join(test.orig))

Training on (92280, 2)
Testing on (5000, 2)


In [19]:
!head -n 5 data/tgt-val.txt

ካ ል ተ ገ ኘ ~ ግ ን ~ ኢ ት ዮ ጵ ያ ~ በ ና ይ ል ~ ዱ ር ~ ድ ን በ ሯ ን ~ በ ዚ ህ ~ በ አ ዲ ስ ~ አ መ ት ~ እ ን ደ ም ታ ስ ከ ብ ር ~ ቃ ል ~ ገ ብ ተ ው ~ ሠ ራ ዊ ቱ ~ ለ ዚ ህ ~ እ ን ዲ ዘ ጋ ጅ ~ ህ ዝ ቡ ም ~ እ ን ደ ተ ለ መ ደ ው ~ ድ ጋ ፉ ን ~ እ ን ዲ ቀ ጥ ል ~ ጥ ሪ ~ አ ቅ ር በ ዋ ል ።
የ ሮ ቤ ላ ው ያ ን ~ ቤ ተ ሰ ቦ ች ~ እ ነ ዚ ህ ~ ነ በ ሩ ፤ ~ ከ እ ነ ሱ ም ~ መ ካ ከ ል ~ የ ተ መ ዘ ገ ቡ ት ~ 4 3 , 7 3 0 ~ ነ በ ሩ ።
በ ማ ሳ ሰ ቢ ያ ዎ ች ህ ~ ላ ይ ~ ስ ለ ማ ሰ ላ ስ ል ፣ ከ አ ስ ተ ማ ሪ ዎ ቼ ~ ሁ ሉ ~ የ በ ለ ጠ ~ ጥ ል ቅ ~ ማ ስ ተ ዋ ል ~ አ ለ ኝ ።
አ ዶ ራ ይ ም ን ፣ ~ ለ ኪ ሶ ን ፣ ~ አ ዜ ቃ ን ፣
ይ ህ ~ ሁ ኔ ታ ~ በ ሙ ስ ና ~ ከ ሥ ል ጣ ን ~ ተ ወ ገ ዱ ~ የ ሚ ባ ሉ ት ~ አ ቶ ~ ታ ም ራ ት ~ የ ታ ሠ ሩ ት ~ በ ኤ ር ት ራ ~ ጉ ዳ ይ ~ ላ ይ ~ በ ወ ሰ ዱ ት ~ አ ቋ ም ~ ነ ው ~ የ ሚ ለ ው ን ~ ጥ ር ጣ ሬ ~ ያ ጐ ላ ዋ ል ~ ይ ባ ላ ል ።


In [20]:
train.head()

Unnamed: 0,orig,trans
75372,ብ ዙ ዎ ች ~ “ አ ም ላ ክ ~ አ ያ ድ ነ ው ም ” ~ እ ያ ሉ ~ ...,"b e z u w o c h i ~ "" a m l a k e ~ a y a d e ..."
52690,ሳ ኦ ል ም ~ ይ ሖ ዋ ~ ል ባ ቸ ው ን ~ ባ ነ ሳ ሳ ው ~ ተ ዋ ...,s a ' o l i m ~ y h o w a ~ l e b a c e w i n ...
84785,እ ን ደ ~ እ ህ ል ~ የ ተ ወ ቃ ኸ ው ~ ሕ ዝ ቤ ፣ የ አ ው ድ ...,` e n d a ~ i h l i ~ j a t a w e k a k h a w ...
35346,አ ቢ ያ ህ ~ ኢ ዮ ር ብ ዓ ም ን ~ አ ሳ ደ ደ ው ፤ ~ ከ ተ ሞ ...,` a b i y a h ~ i j o r b a m n e ~ a s a d e ...
57668,ም ክ ን ያ ቱ ም ~ እ ነ ዚ ህ ~ ቀ ና ት ~ አ ይ ሁ ዳ ው ያ ኑ ...,m k n i j a t u m ~ ' e n a z i h ~ k a n a ' ...


# Data setup

Following quickstart instructions from https://github.com/OpenNMT/OpenNMT-py#quickstart.

## Training

I'm just using the terminal commands because the Python bindings were just Too Much Work.

In [21]:
!pip install OpenNMT-py

Collecting OpenNMT-py
[?25l  Downloading https://files.pythonhosted.org/packages/7e/c7/b3d9bf9a6a681b10c00aa897650f79d4e7ad8a80317c5cddb6a3ef43540c/OpenNMT_py-1.1.1-py3-none-any.whl (189kB)
[K     |█▊                              | 10kB 26.6MB/s eta 0:00:01[K     |███▌                            | 20kB 6.1MB/s eta 0:00:01[K     |█████▏                          | 30kB 8.6MB/s eta 0:00:01[K     |███████                         | 40kB 10.9MB/s eta 0:00:01[K     |████████▊                       | 51kB 7.0MB/s eta 0:00:01[K     |██████████▍                     | 61kB 8.2MB/s eta 0:00:01[K     |████████████▏                   | 71kB 9.3MB/s eta 0:00:01[K     |█████████████▉                  | 81kB 10.3MB/s eta 0:00:01[K     |███████████████▋                | 92kB 8.2MB/s eta 0:00:01[K     |█████████████████▍              | 102kB 8.9MB/s eta 0:00:01[K     |███████████████████             | 112kB 8.9MB/s eta 0:00:01[K     |████████████████████▉           | 122kB 8.9MB/

## Preprocess

In [23]:
!onmt_preprocess \
    -train_src data/src-train.txt \
    -train_tgt data/tgt-train.txt \
    -valid_src data/src-val.txt \
    -valid_tgt data/tgt-val.txt \
    -save_data data/demo \
    -overwrite

[2020-05-08 10:41:56,058 INFO] Extracting features...
[2020-05-08 10:41:56,059 INFO]  * number of source features: 0.
[2020-05-08 10:41:56,059 INFO]  * number of target features: 0.
[2020-05-08 10:41:56,059 INFO] Building `Fields` object...
[2020-05-08 10:41:56,059 INFO] Building & saving training data...
[2020-05-08 10:41:56,450 INFO] Building shard 0.
[2020-05-08 10:41:59,724 INFO]  * saving 0th train data shard to data/demo.train.0.pt.
[2020-05-08 10:42:00,118 INFO]  * tgt vocab size: 327.
[2020-05-08 10:42:00,118 INFO]  * src vocab size: 59.
[2020-05-08 10:42:00,120 INFO] Building & saving validation data...
[2020-05-08 10:42:00,156 INFO] Building shard 0.
[2020-05-08 10:42:00,271 INFO]  * saving 0th valid data shard to data/demo.valid.0.pt.


## Train

In [24]:
# Change to false to get GPU power on Colab
if False:
    !onmt_train \
        -data data/demo \
        -save_model demo-model \
        --valid_steps 50 \
        --train_steps 2 \
        --early_stopping 5
else:
    !CUDA_VISIBLE_DEVICES=0 \
        onmt_train \
        -encoder_type brnn \
        -world_size 1 \
        -gpu_ranks 0 \
        -data data/demo \
        -save_model demo-model \
        --valid_steps 1000 \
        --train_steps 5000 \
        --early_stopping 3

[2020-05-08 10:42:33,615 INFO]  * src vocab size = 59
[2020-05-08 10:42:33,615 INFO]  * tgt vocab size = 327
[2020-05-08 10:42:33,615 INFO] Building model...
[2020-05-08 10:42:43,087 INFO] NMTModel(
  (encoder): RNNEncoder(
    (embeddings): Embeddings(
      (make_embedding): Sequential(
        (emb_luts): Elementwise(
          (0): Embedding(59, 500, padding_idx=1)
        )
      )
    )
    (rnn): LSTM(500, 250, num_layers=2, dropout=0.3, bidirectional=True)
  )
  (decoder): InputFeedRNNDecoder(
    (embeddings): Embeddings(
      (make_embedding): Sequential(
        (emb_luts): Elementwise(
          (0): Embedding(327, 500, padding_idx=1)
        )
      )
    )
    (dropout): Dropout(p=0.3, inplace=False)
    (rnn): StackedLSTM(
      (dropout): Dropout(p=0.3, inplace=False)
      (layers): ModuleList(
        (0): LSTMCell(1000, 500)
        (1): LSTMCell(500, 500)
      )
    )
    (attn): GlobalAttention(
      (linear_in): Linear(in_features=500, out_features=500, bias=Fa

In [0]:
import subprocess

# Pull the first 10 originals and transliterateds
originals = subprocess.run("head -n 500 original.txt",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()
transliterated = subprocess.run("head -n 500 transliterated.txt",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()

# You can also use other stuff
#originals = open("sera_am.txt").read()
#transliterated = open("sera_rom.txt").read()

In [0]:
#!pip install unidecode

In [0]:
import unidecode

def clean(lat_word):
  return unidecode.unidecode(lat_word).lower()

orig_test = [encode_sentence(sent).strip() for sent in originals.splitlines()]
trans_test = [encode_sentence(clean(sent)).strip() for sent in transliterated.splitlines()]
orig_test = [sent for sent in orig_test if sent]
trans_test = [sent for sent in trans_test if sent]
if(len(orig_test) != len(trans_test)):
  print("Unequal lines, won't be able to compare!!")

In [0]:
# import re

# orig_test = [' '.join(word) for word in re.split('\s+', originals)]
# trans_test = [' '.join(word) for word in re.split('\s+', transliterated)]
with open("data/test.txt", 'w') as f:
    f.write('\n'.join(trans_test))

In [44]:
!head -n 10 data/test.txt

k a z e q a z a ~ w e h a ~ y a z a l a t c h e n e ~ n e f s i ~ i n i d a m i y a r a k a ~ h u l u k e r u q e ~ a g a r ~ j a m e t a ~ m e l e k a m ~ w e r e m ~ i n e d i h u ~ n e w .
b e m a l k a m ~ h u n e t a ~ j a m i y a s i t a d a d e r u ~ b a t e l a y e ~ d a g i m o ~ b a m a n a ' g e r n a ~ b e m a s t e m a r i ~ t a g e t a w i ~ j a m i s a r u ~ x m a g e l e w o c e ~ i t f e ~ k e b i r e ~ l i s e t a c a w ~ y i g e b a l e .
m a s h e f e ~ q d u s e ~ b e m e c e r a x a w o t c h u ~ q a n a ' t e ~ k e f a t ~ b a k a f i t a g n a ~ h u n y e t a ~ ' e n e d e m i b a b a s ~ y n e g r a n a ' l e .
y e ' a k e s u m ~ h a w l t e ~ h u l e t a n a w ~ k f a y e ~ a k i s u m e ~ g e b a
y a s y e m e ~ w a n i d w o c e ~ l g o c e ~ ' e l a m , ~ ` a s h u r e , ~ ` a r i f a k s i d e , ~ l u d i ~ i n a ~ ' a r a m e ~ n e b a r u .
l a m i m a r e m e r u n ~ y a m a q e r e b e w i ~ y a m a k a l a k a y a ~ m a l s i ~ j e h ~ n a w :
y a l 

In [45]:
print(len(trans_test), trans_test[:5])
print(len(orig_test), orig_test[:5])

500 ['k a z e q a z a ~ w e h a ~ y a z a l a t c h e n e ~ n e f s i ~ i n i d a m i y a r a k a ~ h u l u k e r u q e ~ a g a r ~ j a m e t a ~ m e l e k a m ~ w e r e m ~ i n e d i h u ~ n e w .', "b e m a l k a m ~ h u n e t a ~ j a m i y a s i t a d a d e r u ~ b a t e l a y e ~ d a g i m o ~ b a m a n a ' g e r n a ~ b e m a s t e m a r i ~ t a g e t a w i ~ j a m i s a r u ~ x m a g e l e w o c e ~ i t f e ~ k e b i r e ~ l i s e t a c a w ~ y i g e b a l e .", "m a s h e f e ~ q d u s e ~ b e m e c e r a x a w o t c h u ~ q a n a ' t e ~ k e f a t ~ b a k a f i t a g n a ~ h u n y e t a ~ ' e n e d e m i b a b a s ~ y n e g r a n a ' l e .", "y e ' a k e s u m ~ h a w l t e ~ h u l e t a n a w ~ k f a y e ~ a k i s u m e ~ g e b a", "y a s y e m e ~ w a n i d w o c e ~ l g o c e ~ ' e l a m , ~ ` a s h u r e , ~ ` a r i f a k s i d e , ~ l u d i ~ i n a ~ ' a r a m e ~ n e b a r u ."]
500 ['ቀ ዝ ቃ ዛ ~ ው ኃ ~ የ ዛ ለ ች ን ~ ነ ፍ ስ ~ እ ን ደ ሚ ያ ረ ካ ~ ሁ ሉ ከ ሩ ቅ ~ አ ገ ር ~ የ መ ጣ ~ መ ል ካ ም 

**You'll need to change the model name in `onmt_translate` below.** It's probably the most recently changed model file, so at the top of this list: 

In [46]:
model_name = subprocess.run("ls -t *model* | head -n 1",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()
print("Using model", model_name)

Using model demo-model_step_5000.pt


In [47]:
!onmt_translate \
    -model {model_name} \
    -src data/test.txt \
    -output data/pred.txt -replace_unk


[2020-05-08 10:53:38,866 INFO] Translating shard 0.
PRED AVG SCORE: -0.0549, PRED PPL: 1.0565


In [0]:
def sentences_to_words(sentences):
  decoded = [decode_sentence(s) for s in sentences]
  return ' '.join(decoded).split(' ')

In [59]:
len(sentences_to_words(trans_test))

7650

In [60]:
results = open("data/pred.txt").read().splitlines()
test_results = pd.DataFrame({
    'result': results,
    'original': orig_test,
    'transliterated': trans_test
})

test_results.result = test_results.result.apply(decode_sentence)
test_results.original = test_results.original.apply(decode_sentence)
test_results.transliterated = test_results.transliterated.apply(decode_sentence)

test_results['is_correct'] = test_results.result == test_results.original
print(test_results.is_correct.value_counts(normalize=True))
test_results

False    0.92
True     0.08
Name: is_correct, dtype: float64


Unnamed: 0,result,original,transliterated,is_correct
0,ከዘቃዘ ውሃ የዛላችን ንፍስ እንደሚያረከ ሁሉክሩቅ አገር የመጣ መልካም ወ...,ቀዝቃዛ ውኃ የዛለችን ነፍስ እንደሚያረካ ሁሉከሩቅ አገር የመጣ መልካም ወ...,kazeqaza weha yazalatchene nefsi inidamiyaraka...,False
1,በማልካም ሁኔታ የሚያስተማር ተገጣው ይገባል።,በመልካም ሁኔታ የሚያስተዳድሩ በተለይ ደግሞ በመናገርና በማስተማር ተግተው...,bemalkam huneta jamiyasitadaderu batelaye dagi...,False
2,መጽሐፍ ቅዱስ በመጨረሻቹ ቀናቴ በካፍተኛ ሁኔታ እንደምበባስ ይነግራናል።,መጽሐፍ ቅዱስ በመጨረሻዎቹ ቀናት ክፋት በከፍተኛ ሁኔታ እንደሚባባስ ይነግ...,mashefe qduse bemeceraxawotchu qana'te kefat b...,False
3,የአክሱም ሐውልት ሁለተኛው ክፋይ አቅሱም ገባ,የአክሱም ሐውልት ሁለተኛው ክፋይ አክሱም ገባ,ye'akesum hawlte huletanaw kfaye akisume geba,False
4,ያሴም ወንዶች ልጆች ኤላም፣ አሱር፣,የሴም ወንዶች ልጆች ኤላም፣ አሹር፣ አርፋክስድ፣ ሉድ እና አራም ነበሩ።,"yasyeme wanidwoce lgoce 'elam, `ashure, `arifa...",False
...,...,...,...,...
495,በንዳድ የሚያለቀው፣ ቤተስቦና በሌላ ሌላው እንደ ወባ ባለላ ሌላው በሽታ ...,በንዳድ የሚያልቀው፣ በተስቦና በሌላ ሌላው እንደ ወባ ባለው በሽታ የሚሰቃ...,"bendadi yamiyaleqaw, betesibona' balela lyelaw...",False
496,እስራኤላውያንን ከሰጥኋቸው ምድር ላይ አጠፋቸዋለሁ፤ እስራኤላውያንም በሕዝ...,እስራኤላውያንን ከሰጠኋቸው ምድር ላይ አጠፋቸዋለሁ፤ ለስሜ የቀደስኩትንም ...,isira'elawyanin kasatehuatchaw mdri laye 'atef...,False
497,እኔም አየሁ፤ አንድ ንስር በሰማይ መከከል ድምፅ እንዲህ ሲል ሰማሁ፦,እኔም አየሁ፤ አንድ ንስር በሰማይ መካከል እየበረረ በታላቅ ድምፅ እንዲህ...,inyemi ajahu; `ande nsr besemaje makakale `eya...,False
498,ባለድርሻ አካላት፤,ባለድርሻ አካላት፤,balederisa akalati;,True
