# Meta Data Generator

In [1]:
# importing essential modules
import os, sys
import librosa
import json
import pandas as pd 
from sklearn.model_selection import train_test_split

# importing scripts 
sys.path.insert(0, '../scripts/')
from create_desc_json import create_desc_json

# Test meta-data

In [2]:
js_trs = create_desc_json()

In [3]:
test_transcription = js_trs.translation_loader("../ALFFA_PUBLIC/ASR/AMHARIC/data/test/trsTest.txt")

In [6]:
# Python 3.x
from itertools import islice
dict(islice(test_transcription.items(), 0, 20))

{'01_d501022': ' በዚህ ም አነስተኛ መስኖ ዎችን በ ማስፋፋት አገሪቱ ን በ ተደጋጋሚ ከሚ ያጠቃ ት ድርቅ ና የ ምግብ እህል እጥረት ለ ማቃለል እንደሚ ቻል ጠቁ መዋል ',
 '01_d501023': ' ይህ እንዳይሆን በ ህይወታቸው መስዋእትነት ያስገኙ ትን የ ኢትዮጵያዊ ነት ክብር አንግ በ ን ለ ቅድስት ሀገራችን አንድነት ና ሉአላዊነት ሰላም ና ብልጽግና በ ህብረት እንቁ ም ',
 '01_d501024': ' የመጀመሪያ ው ነጥብ በ ተቃዋሚ ሀይሎች ሰፈር በ ጋራ አቋም ላይ በ ጋራ ለ ማቆም ያየነው ጽናት አነስተኛ መሆኑ ነው ',
 '01_d501025': ' አቅም በሚ ፈቅደው መሰረት አስቀድሞ መዘጋጀት ስለሚ ፈልጉ የሚ ያጠራጥር አይሆን ም ስትል የ አሜሪካ ድምጽ ዜና ዘጋቢ ገልጻ ለች ',
 '01_d501026': ' ከ ለ ቀስተኞቹ መካከል አብዛኛዎቹ ጸሀዩ ዛሬ ተገለጠ ሀይለስላሴ ማሩን አለማችን አባታችን የ አፍሪካ አባት የ አለም አባት በ ማለት ነበር ሀዘና ቸውን የሚገልጹ ',
 '01_d501027': ' ከዚህ ጋር ለ ሰብአዊ አገልግሎት መሰለ ፏ ም ውጤታማ መሆኗ ም አድናቆት ን አትርፎ ላታል ',
 '01_d501028': ' የ ኮሚሽኑ ውሳኔ ና የቤተ ክህነቱ ተቃውሞ ',
 '01_d501029': ' ይህንን ም ባድመን ና ሽራሮ ን በ መውረር እ ውን አ ርጓል ',
 '01_d501030': ' ጋዜጠኞች ን መለያየታቸው ብዙዎች ን አሳዝኗ ል ',
 '01_d501031': ' ባለፈው ሰኞ እ ለት ደግሞ በ ቴሌቭዥን ሌላ ሽልማት ሲ ሸለም ተ መልከት ኩ ',
 '01_d501032': ' አጠቃላይ ወጪው አስራ ስምንት ሺ ዶላር እንደሆነ ለማወቅ ተችሏል ',
 '01_d501033': ' ሌሎቹ በ ሙሉ ጤነ ኞች ናቸው ',
 '01_d501034': ' መለስ ና ኢሳያስ እርስ በ እ

In [7]:
filenames, target, duration_of_recordings = js_trs.meta_data(test_transcription, '../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/')

In [8]:
test_data = pd.DataFrame({'key':filenames, 'duration':duration_of_recordings, 'text':target})

In [9]:
test_data.head()

Unnamed: 0,key,duration,text
0,../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/01_d...,12.544,በዚህ ም አነስተኛ መስኖ ዎችን በ ማስፋፋት አገሪቱ ን በ ተደጋጋሚ ከሚ...
1,../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/01_d...,13.696,ይህ እንዳይሆን በ ህይወታቸው መስዋእትነት ያስገኙ ትን የ ኢትዮጵያዊ ነ...
2,../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/01_d...,10.752,የመጀመሪያ ው ነጥብ በ ተቃዋሚ ሀይሎች ሰፈር በ ጋራ አቋም ላይ በ ጋራ...
3,../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/01_d...,11.392,አቅም በሚ ፈቅደው መሰረት አስቀድሞ መዘጋጀት ስለሚ ፈልጉ የሚ ያጠራጥር...
4,../ALFFA_PUBLIC/ASR/AMHARIC/data/test/wav/01_d...,16.0,ከ ለ ቀስተኞቹ መካከል አብዛኛዎቹ ጸሀዩ ዛሬ ተገለጠ ሀይለስላሴ ማሩን ...


In [10]:
test_data.shape

(358, 3)

## Saving test data as *.json

In [11]:
js_trs.convert_to_json(test_data, '../data/test_corpus.json')

# Train & Valid meta-data

In [12]:
js_trs_train = create_desc_json()

In [14]:
train_transcription = js_trs_train.translation_loader("../ALFFA_PUBLIC/ASR/AMHARIC/data/train/trsTrain.txt")

In [15]:
# Python 3.x
from itertools import islice
dict(islice(train_transcription.items(), 0, 20))

{'tr_2_tr01002': ' የተ ለቀቁት ምርኮኞች በ አካባቢያቸው ሰላማዊ ኑሮ እንዲ ኖሩ የ ትራንስፖርት ና መጓጓዣ ገንዘብ ተሰጥቷ ቸው መሸኘታቸው ን አመልክቶ በ የ ዞ ናቸው እንደ ደረሱ መቃቋሚያ እንደሚ ሰጣቸው ም አስ ታውቋል ',
 'tr_3_tr01003': ' በ አዲስ አበባው ስታዲየም በ ተካሄዱ ት ሁለት ግጥሚያ ዎች በ መጀመሪያ የ ተገናኙ ት መድን ና ሙገር ሲሚንቶ ሲ ሆኑ በ ውጤቱ ም ሶስት ለ ሶስት ተለያይ ተዋል ',
 'tr_4_tr01004': ' ወሬው ን ወሬ ያደረጉ ምስጢረ ኞች ናቸው ',
 'tr_5_tr01005': ' ኢትዮጵያዊ ቷ በ ብሄራዊ ባህላዊ አለባበስ ከ አለም አንደኝነት ን ተቀዳጀ ች ',
 'tr_6_tr01006': ' ከ ትምክህት እንዳይ ቆጠር ብን እንጂ በ አለም ታሪክ ውስጥ በ ነጮች ያል ተረገጠ ች አገር ኢትዮጵያ ና ት ',
 'tr_7_tr01007': ' እህቶቹ የኤርትራ ዜጐች ና የ ሻእቢያ ደጋፊዎች ናቸው ',
 'tr_8_tr01008': ' እናንተ ም መቀበሪያ እንዳ ታጡ ተጠንቀቁ ',
 'tr_9_tr01009': ' አንቶኔሊ በ አጼ ምንሊክ ፊት የ ፈጸመው ድፍረት በ ኢጣሊያ ን ምክር ቤት አስተ ቸው ',
 'tr_10_tr01010': ' ግን ወደ ኋላው ላይ ኢሳያስ እንደ ልማ ዳቸው ሁሉን ም የ መልከ ፍ ዲፕሎማሲ ያቸው እስራኤል ንም ያስ ወር ፋቸው ጀመር ',
 'tr_11_tr01011': ' ከ የ አቅጣጫ ው እየ ደረሷቸው ያሉ መረጃዎች አሳሳቢ ችግሮች እየ ደረሱ መሆናቸው ን የሚ ጠቁሙ መሆናቸው ን ፕሬዝዳንቱ ተናግረ ዋል ',
 'tr_12_tr01012': ' ከ ማወቁ በፊት እንደ ተበጠበጠ ገበያ እንዳይ በታተን ይህ ነው አጀንዳ ችን ሌላ አጀንዳ የ ለ ንም ',
 'tr_13_tr01013': ' ኢትዮጵያ ም ሰራዊቷ በ ኤርትራ እንደሚ 

In [16]:
filenames, target, duration_of_recordings = js_trs_train.meta_data(train_transcription, '../ALFFA_PUBLIC/ASR/AMHARIC/data/train/wav/')

In [17]:
train_data = pd.DataFrame({'key':filenames[:8699], 'duration':duration_of_recordings[:8699], 'text':target[:8699]})

In [18]:
train_data.shape

(8699, 3)

In [19]:
from sklearn.model_selection import train_test_split
train, valid = train_test_split(train_data, test_size=0.2, random_state=42)

In [20]:
valid_data = pd.DataFrame({'key':filenames[8699:], 'duration':duration_of_recordings[8699:], 'text':target[8699:]})

In [21]:
valid_data.shape

(2175, 3)

## Saving train data as *.json

In [22]:
js_trs_train.convert_to_json(train_data, '../data/train_corpus.json')

## Saving valid data as *.json

In [23]:
js_trs_train.convert_to_json(valid_data, '../data/valid_corpus.json')