# Creating test and train datasets

In [1]:
!unzip Archive.zip

Archive:  Archive.zip
  inflating: original.txt            
  inflating: transliterated.txt      


In [188]:
import pandas as pd
import re

original = open("original.txt").read()
transliterated = open("transliterated.txt").read()

words = pd.DataFrame({
    'orig': re.split(r'\n', original),
    'trans': re.split(r'\n', transliterated)
})
words.head()

Unnamed: 0,orig,trans
0,ቀዝቃዛ ውኃ የዛለችን ነፍስ እንደሚያረካ ሁሉከሩቅ አገር የመጣ መልካም ወ...,kazeqaza weha yazalatchene nefsi inidamiyaraka...
1,በመልካም ሁኔታ የሚያስተዳድሩ በተለይ ደግሞ በመናገርና በማስተማር ተግተው...,bemalkam huneta jamiyasitadaderu batelaye dagi...
2,መጽሐፍ ቅዱስ በመጨረሻዎቹ ቀናት ክፋት በከፍተኛ ሁኔታ እንደሚባባስ ይነግ...,mashefe qduse bemeceraxawotchu qana'te kefat b...
3,የአክሱም ሐውልት ሁለተኛው ክፋይ አክሱም ገባ,ye'akesum hawlte huletanaw kfaye akisume geba
4,የሴም ወንዶች ልጆች ኤላም፣ አሹር፣ አርፋክስድ፣ ሉድ እና አራም ነበሩ።,"yasyeme wanidwoce lgoce 'elam, `ashure, `arifa..."


In [0]:
words.orig = words.orig.str.join(' ')
words.trans = words.trans.str.join(' ')

In [190]:
words.head(10)

Unnamed: 0,orig,trans
0,ቀ ዝ ቃ ዛ ው ኃ የ ዛ ለ ች ን ነ ፍ ስ እ ን ደ ሚ ያ ...,k a z e q a z a w e h a y a z a l a t c h ...
1,በ መ ል ካ ም ሁ ኔ ታ የ ሚ ያ ስ ተ ዳ ድ ሩ በ ተ ለ ይ ...,b e m a l k a m h u n e t a j a m i y a s ...
2,መ ጽ ሐ ፍ ቅ ዱ ስ በ መ ጨ ረ ሻ ዎ ቹ ቀ ና ት ክ ፋ ...,m a s h e f e q d u s e b e m e c e r a x ...
3,የ አ ክ ሱ ም ሐ ው ል ት ሁ ለ ተ ኛ ው ክ ፋ ይ አ ክ ...,y e ' a k e s u m h a w l t e h u l e t a ...
4,የ ሴ ም ወ ን ዶ ች ል ጆ ች ኤ ላ ም ፣ አ ሹ ር ፣ ...,y a s y e m e w a n i d w o c e l g o c e ...
5,ለ ሚ መ ረ ም ሩ ኝ የ ማ ቀ ር በ ው የ መ ከ ላ ከ ያ መ ...,l a m i m a r e m e r u n y a m a q e r e b ...
6,ያ ለ ነ ቀ ፋ የ ሚ መ ላ ለ ስ ፣ ት ክ ክ ል የ ሆ ነ ው ን ...,"y a l a n a q e f a y a m i m a l a l e s , ..."
7,ገ ና ሳ ይ ጣ ሩ እ መ ል ስ ላ ቸ ዋ ለ ሁ ፤ እ የ ተ ና ገ ...,g e n a s a y i t a r u i m a l i s e l a ...
8,በ ዚ ህ ጊ ዜ ደ ቀ መ ዛ ሙ ር ቱ “ ጌ ታ ሆ ይ ፣ ...,b a z i h g i z e d a q e m e z a m u r ...
9,ል ብ ህ በ አ ም ላ ክ ፊ ት ቀ ና ስ ላ ል ሆ ነ በ ...,l i b i h e b e a m i l a k i f i t e k ...


In [191]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(words, test_size=5000)

print("Training on", train.shape)
print("Testing on", test.shape)

!mkdir -p data

# Save as training
# Can't use .to_csv because of quotins
with open('data/src-train.txt', 'w') as f:
    f.write('\n'.join(train.trans))
with open('data/tgt-train.txt', 'w') as f:
    f.write('\n'.join(train.orig))

with open('data/src-val.txt', 'w') as f:
    f.write('\n'.join(test.trans))
with open('data/tgt-val.txt', 'w') as f:
    f.write('\n'.join(test.orig))

Training on (92280, 2)
Testing on (5000, 2)


In [192]:
!head -n 5 data/tgt-val.txt

በ ተ ለ ያ ዩ   መ ን ገ ዶ ች   ሊ ሰ ጥ   ይ ች ላ ል ።
ሊ ተ ገ በ ሩ   የ ታ ቀ ዱ   ፕ ሮ ጀ ክ ቶ ች ን   አ ዋ ጭ ነ ት   ይ መ ረ ም ራ ል ፤ አ ስ ተ ያ የ ት   ያ ቀ ር ብ ባ ቸ ዋ ል ፤   ለ ቦ ር ዱ   እ ና   ለ ሚ ኒ ስ ቴ ሩ   የ ው ሳ ኔ   ሃ ሳ ብ   ያ ቀ ር ባ ል ፤
ሆ ኖ ም   ይ ሖ ዋ   ሳ ሙ ኤ ል ን   እ ን ዲ ህ   አ ለ ው ፦   “ እ ኔ   ስ ላ ል ተ ቀ በ ል ኩ ት   መ ል ኩ ን ና   የ ቁ መ ቱ ን   ር ዝ ማ ኔ   አ ት ይ ።   አ ም ላ ክ   የ ሚ ያ የ ው   ሰ ው   በ ሚ ያ ይ በ ት   መ ን ገ ድ   አ ይ ደ ለ ም ፤   ም ክ ን ያ ቱ ም   ሰ ው   የ ሚ ያ የ ው   ው ጫ ዊ   ገ ጽ ታ ን   ነ ው ፤   ይ ሖ ዋ   ግ ን   የ ሚ ያ የ ው   ል ብ ን   ነ ው ። ”
በ ላ ባ ዎ ቹ   ይ ከ ል ል ሃ ል ፤ በ ክ ን ፎ ቹ ም   ሥ ር   መ ጠ ጊ ያ   ታ ገ ኛ ለ ህ ።   ታ ማ ኝ ነ ቱ   ት ል ቅ   ጋ ሻ ና   መ ከ ላ ከ ያ   ቅ ጥ ር   ይ ሆ ን ል ሃ ል ።
ጥ ሩ   ስ ም   ከ ጥ ሩ   ዘ ይ ት ፣   የ ሞ ት ም   ቀ ን   ከ ል ደ ት   ቀ ን   ይ ሻ ላ ል ።


In [193]:
train.head()

Unnamed: 0,orig,trans
67722,ኢ የ ሱ ስ ፣ አ ም ላ ክ ን ስ ለ መ ው ደ ድ ሲ ና ገ ...,"` i y a s u s i , a m e l a k e n i s i l ..."
89263,ይ ሖ ዋ ሆ ይ ፣ ከ አ ማ ል ክ ት መ ካ ከ ል እ ን ደ ...,"j e h w o w a h o y , k a ` a m a l k t ..."
82307,ከ ዚ ያ ም የ ማ ረ ኳ ቸ ው ን ሰ ዎ ች ና የ ዘ ረ ፉ ት ...,k e z i y a m e y a m a r e k w a t c h a w ...
24079,ቃ ሉ ን በ ማ ወ ድ ሰ ው አ ም ላ ክ ፣ አ ዎ ፣ በ አ ም ...,q a l u n i b e m a w a d s a w ` a m l a ...
13791,ለ መ ግ ዛ ት በ ሚ ጐ ር ፈ ው ጥ ያ ቄ ና በ አ ጸ ፋ ዊ ...,l e m e g i z a t i b e m i g w e r e f e w ...


# Data setup

Following quickstart instructions from https://github.com/OpenNMT/OpenNMT-py#quickstart.

## Training

I'm just using the terminal commands because the Python bindings were just Too Much Work.

In [0]:
#!pip install OpenNMT-py

## Preprocess

In [195]:
!onmt_preprocess \
    -train_src data/src-train.txt \
    -train_tgt data/tgt-train.txt \
    -valid_src data/src-val.txt \
    -valid_tgt data/tgt-val.txt \
    -save_data data/demo \
    -overwrite

[2020-05-08 05:41:13,765 INFO] Extracting features...
[2020-05-08 05:41:13,766 INFO]  * number of source features: 0.
[2020-05-08 05:41:13,766 INFO]  * number of target features: 0.
[2020-05-08 05:41:13,766 INFO] Building `Fields` object...
[2020-05-08 05:41:13,766 INFO] Building & saving training data...
[2020-05-08 05:41:14,229 INFO] Building shard 0.
[2020-05-08 05:41:18,253 INFO]  * saving 0th train data shard to data/demo.train.0.pt.
[2020-05-08 05:41:18,737 INFO]  * tgt vocab size: 328.
[2020-05-08 05:41:18,737 INFO]  * src vocab size: 58.
[2020-05-08 05:41:18,740 INFO] Building & saving validation data...
[2020-05-08 05:41:18,787 INFO] Building shard 0.
[2020-05-08 05:41:18,946 INFO]  * saving 0th valid data shard to data/demo.valid.0.pt.


## Train

In [200]:
# Change to false to get GPU power on Colab
if False:
    !onmt_train \
        -data data/demo \
        -save_model demo-model \
        --valid_steps 50 \
        --train_steps 2 \
        --early_stopping 5
else:
    !CUDA_VISIBLE_DEVICES=0 \
        onmt_train \
        -encoder_type brnn \
        -world_size 1 \
        -gpu_ranks 0 \
        -data data/demo \
        -save_model demo-model \
        --valid_steps 1000 \
        --train_steps 10000 \
        --early_stopping 3

[2020-05-08 05:50:16,834 INFO]  * src vocab size = 58
[2020-05-08 05:50:16,834 INFO]  * tgt vocab size = 328
[2020-05-08 05:50:16,834 INFO] Building model...
[2020-05-08 05:50:20,047 INFO] NMTModel(
  (encoder): RNNEncoder(
    (embeddings): Embeddings(
      (make_embedding): Sequential(
        (emb_luts): Elementwise(
          (0): Embedding(58, 500, padding_idx=1)
        )
      )
    )
    (rnn): LSTM(500, 250, num_layers=2, dropout=0.3, bidirectional=True)
  )
  (decoder): InputFeedRNNDecoder(
    (embeddings): Embeddings(
      (make_embedding): Sequential(
        (emb_luts): Elementwise(
          (0): Embedding(328, 500, padding_idx=1)
        )
      )
    )
    (dropout): Dropout(p=0.3, inplace=False)
    (rnn): StackedLSTM(
      (dropout): Dropout(p=0.3, inplace=False)
      (layers): ModuleList(
        (0): LSTMCell(1000, 500)
        (1): LSTMCell(500, 500)
      )
    )
    (attn): GlobalAttention(
      (linear_in): Linear(in_features=500, out_features=500, bias=Fa

In [0]:
import subprocess

# Pull the first 10 originals and transliterateds
originals = subprocess.run("head -n 500 original.txt",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()
transliterated = subprocess.run("head -n 500 transliterated.txt",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()

# You can also use other stuff
originals = open("sera_am.txt").read()
transliterated = open("sera_rom.txt").read()

In [202]:
!pip install unidecode



In [0]:
import unidecode

def clean(lat_word):
  return unidecode.unidecode(lat_word).lower()

def add_spaces(word):
  return ' '.join(word)

orig_test = [add_spaces(sent).strip() for sent in originals.splitlines()]
trans_test = [add_spaces(clean(sent)).strip() for sent in transliterated.splitlines()]
orig_test = [sent for sent in orig_test if sent]
trans_test = [sent for sent in trans_test if sent]
if(len(orig_test) != len(trans_test)):
  print("Unequal lines, won't be able to compare!!")

In [0]:
# import re

# orig_test = [' '.join(word) for word in re.split('\s+', originals)]
# trans_test = [' '.join(word) for word in re.split('\s+', transliterated)]
with open("data/test.txt", 'w') as f:
    f.write('\n'.join(trans_test))

In [228]:
!head -n 10 data/test.txt

y e z e m e m e n i   l i t a k ' e n a
l i t i f a l e m i   k e d e m e n a
t e l i k o   a l e h i   y e m i y a b e r a
m e f i c h a w i   k ' u l i f u   h u l e m i   s i r a
s i r a   s i r a
l i f a   l i f a
t ' i r e h i   g i r e h i   b i l a   ( b i l a )
s i r a   s i r a
l i f a   l i f a
t ' i r e h i   g i r e h i   b i l a   ( b i l a )


In [229]:
print(len(trans_test), trans_test[:5])
print(len(orig_test), orig_test[:5])

116 ["y e z e m e m e n i   l i t a k ' e n a", 'l i t i f a l e m i   k e d e m e n a', 't e l i k o   a l e h i   y e m i y a b e r a', "m e f i c h a w i   k ' u l i f u   h u l e m i   s i r a", 's i r a   s i r a']
116 ['የ ዘ መ መ ን   ል ታ ቀ ና', 'ል ት ፋ ለ ም   ከ ደ መ ና', 'ተ ል ኮ   አ ለ ህ   የ ሚ ያ በ ራ', 'መ ፍ ቻ ው   ቁ ል ፉ   ሁ ሌ ም   ስ ራ', 'ስ ራ   ስ ራ']


**You'll need to change the model name in `onmt_translate` below.** It's probably the most recently changed model file, so at the top of this list: 

In [230]:
model_name = subprocess.run("ls -t *model* | head -n 1",
                            shell=True,
                            stdout=subprocess.PIPE).stdout.decode("utf-8").strip()
print("Using model", model_name)

Using model demo-model_step_8000.pt


In [231]:
!onmt_translate \
    -model {model_name} \
    -src data/test.txt \
    -output data/pred.txt -replace_unk


[2020-05-08 06:03:39,034 INFO] Translating shard 0.
PRED AVG SCORE: -0.2735, PRED PPL: 1.3146


In [232]:
results = open("data/pred.txt").read().splitlines()
test_results = pd.DataFrame({
    'result': results,
    'original': orig_test,
    'transliterated': trans_test
})
print((test_results.result == test_results.original).value_counts(normalize=True))
test_results

False    1.0
dtype: float64


Unnamed: 0,result,original,transliterated
0,የ ዝ መ ም ኒ ሊ ታ ክ ና,የ ዘ መ መ ን ል ታ ቀ ና,y e z e m e m e n i l i t a k ' e n a
1,ል ት ፈ ል ም ክ ም ና,ል ት ፋ ለ ም ከ ደ መ ና,l i t i f a l e m i k e d e m e n a
2,ት ሊ ያ ለ ሂ የ ሚ ያ በ ረ,ተ ል ኮ አ ለ ህ የ ሚ ያ በ ራ,t e l i k o a l e h i y e m i y a b e r a
3,ለ ም ፍ ቸ ው ) ዑ ል ም ሥ ራ,መ ፍ ቻ ው ቁ ል ፉ ሁ ሌ ም ስ ራ,m e f i c h a w i k ' u l i f u h u l e m ...
4,ሲ ራ ስ ራ,ስ ራ ስ ራ,s i r a s i r a
...,...,...,...
111,ት ዕ ር ኅ ብ ላ ),ጥ ረ ህ ግ ረ ህ ብ ላ ( ብ ላ ),t ' i r e h i g i r e h i b i l a ( b i ...
112,ሲ ራ ስ ራ,ስ ራ ስ ራ,s i r a s i r a
113,ሊ ፈ ል ፋ,ል ፋ ል ፋ,l i f a l i f a
114,ት ዕ ር ኅ ብ ላ ),ጥ ረ ህ ግ ረ ህ ብ ላ ( ብ ላ ),t ' i r e h i g i r e h i b i l a ( b i ...
