In [2]:
import re
import os
import pathlib
import numpy as np
import tensorflow as tf

In [3]:
dir_ = pathlib.Path('./data')

In [4]:
[i for i in dir_.iterdir()]

[WindowsPath('data/final'),
 WindowsPath('data/mal-eng'),
 WindowsPath('data/malayalam-visual-genome-dev.txt'),
 WindowsPath('data/malayalam-visual-genome-test.txt'),
 WindowsPath('data/malayalam-visual-genome-train.txt')]

### Dataset 1 

In [5]:
data_dir = dir_/'mal-eng/mal.txt'
dataset_1 = data_dir.read_text(encoding='utf-8')

dataset_1 = dataset_1.splitlines()
dataset_1[:5]

['Really?\tശരിക്കും?\tCC-BY 2.0 (France) Attribution: tatoeba.org #373216 (kotobaboke) & #7896041 (lonewolfie)',
 'Help me.\tഎന്നെ സഹായിക്കൂ.\tCC-BY 2.0 (France) Attribution: tatoeba.org #266065 (Zifre) & #780454 (jjrodz)',
 'Welcome.\tസ്വാഗതം.\tCC-BY 2.0 (France) Attribution: tatoeba.org #138919 (CM) & #7896035 (lonewolfie)',
 'I forgot.\tഞാന്\u200d മറന്നു.\tCC-BY 2.0 (France) Attribution: tatoeba.org #436603 (lukaszpp) & #651940 (jjrodz)',
 'I am sure.\tഎനിക്ക് ഉറപ്പാണ്.\tCC-BY 2.0 (France) Attribution: tatoeba.org #436433 (lukaszpp) & #800318 (jjrodz)']

In [6]:
# processing 
sample = 'Really?\tശരിക്കും?\tCC-BY 2.0 (France) Attribution: tatoeba.org #373216 (kotobaboke) & #7896041 (lonewolfie)'
re.sub(r'\tCC.*',"",sample)

'Really?\tശരിക്കും?'

In [7]:
dataset_1 = list(map(lambda txt:re.sub(r'\tCC.*',"",txt), dataset_1))
dataset_1[:5]

['Really?\tശരിക്കും?',
 'Help me.\tഎന്നെ സഹായിക്കൂ.',
 'Welcome.\tസ്വാഗതം.',
 'I forgot.\tഞാന്\u200d മറന്നു.',
 'I am sure.\tഎനിക്ക് ഉറപ്പാണ്.']

In [8]:
dataset_1 = [txt.split('\t') for txt in dataset_1]
dataset_1[:5]

[['Really?', 'ശരിക്കും?'],
 ['Help me.', 'എന്നെ സഹായിക്കൂ.'],
 ['Welcome.', 'സ്വാഗതം.'],
 ['I forgot.', 'ഞാന്\u200d മറന്നു.'],
 ['I am sure.', 'എനിക്ക് ഉറപ്പാണ്.']]

### Dataset_2

In [9]:
# data_dir = dir_/'data/malayalam-visual-genome-dev.txt/malayalam-visual-genome-dev.txt'

import glob
data_dir = glob.glob('./data/malayalam-visual-genome*/*.txt')

In [10]:
data_dir

['./data\\malayalam-visual-genome-dev.txt\\malayalam-visual-genome-dev.txt',
 './data\\malayalam-visual-genome-test.txt\\malayalam-visual-genome-test.txt',
 './data\\malayalam-visual-genome-train.txt\\malayalam-visual-genome-train.txt']

In [11]:
dataset_2 =  pathlib.Path(data_dir[0]).read_text('utf-8')
dataset_2 = dataset_2.splitlines()
dataset_2[:5]

['144\t36\t33\t73\t57\ta cloudy blue sky\tതെളിഞ്ഞ നീലാകാശം',
 '202\t486\t266\t41\t50\twindow of a building\tഒരു കെട്ടിടത്തിന്റെ വിൻഡോ',
 '388\t5\t219\t792\t377\tA dark grey computer desk with drawers.\tഡ്രോയറുകളുള്ള ഇരുണ്ട ചാരനിറത്തിലുള്ള കമ്പ്യൂട്ടർ ഡെസ്ക്.',
 '724\t364\t320\t152\t171\tfour legged steel chair on ground\tനിലത്ത് നാല് കാലുകളുള്ള ഉരുക്ക് കസേര',
 '728\t73\t402\t108\t156\tMan riding a bicycle down a street\tതെരുവിൽ സൈക്കിൾ ചവിട്ടുന്ന മനുഷ്യൻ']

In [12]:
# preprocessing
sample = '144\t36\t33\t73\t57\ta cloudy blue sky\tതെളിഞ്ഞ നീലാകാശം'
re.sub(r'(\d*\t){5}','',sample)

'a cloudy blue sky\tതെളിഞ്ഞ നീലാകാശം'

In [13]:
# lets test some more sample 
for sample in dataset_2[:5]:
    print(re.sub(r'(\d*\t){5}','',sample))

a cloudy blue sky	തെളിഞ്ഞ നീലാകാശം
window of a building	ഒരു കെട്ടിടത്തിന്റെ വിൻഡോ
A dark grey computer desk with drawers.	ഡ്രോയറുകളുള്ള ഇരുണ്ട ചാരനിറത്തിലുള്ള കമ്പ്യൂട്ടർ ഡെസ്ക്.
four legged steel chair on ground	നിലത്ത് നാല് കാലുകളുള്ള ഉരുക്ക് കസേര
Man riding a bicycle down a street	തെരുവിൽ സൈക്കിൾ ചവിട്ടുന്ന മനുഷ്യൻ


In [14]:
dataset_2 = list(map(lambda txt:re.sub(r'(\d*\t){5}','',txt), dataset_2))
dataset_2[:10]

['a cloudy blue sky\tതെളിഞ്ഞ നീലാകാശം',
 'window of a building\tഒരു കെട്ടിടത്തിന്റെ വിൻഡോ',
 'A dark grey computer desk with drawers.\tഡ്രോയറുകളുള്ള ഇരുണ്ട ചാരനിറത്തിലുള്ള കമ്പ്യൂട്ടർ ഡെസ്ക്.',
 'four legged steel chair on ground\tനിലത്ത് നാല് കാലുകളുള്ള ഉരുക്ക് കസേര',
 'Man riding a bicycle down a street\tതെരുവിൽ സൈക്കിൾ ചവിട്ടുന്ന മനുഷ്യൻ',
 'these cars are parked on the dirt\tഈ കാറുകൾ അഴുക്കിൽ പാർക്ക് ചെയ്തിരിക്കുന്നു',
 'white clouds in the sky\tആകാശത്ത് വെളുത്ത മേഘങ്ങൾ',
 'set of glass doors\tഗ്ലാസ് വാതിലുകളുടെ ഗണം',
 'the projector screen rolled up\tപ്രൊജക്ടർ സ്ക്രീൻ ചുരുട്ടി വെച്ചിരിക്കുന്നു',
 'man wearing a gray sweater\tചാരനിറത്തിലുള്ള സ്വെറ്റർ ധരിച്ച മനുഷ്യൻ']

In [15]:
dataset_2 = [txt.split('\t') for txt in dataset_2]
dataset_2[:10]

[['a cloudy blue sky', 'തെളിഞ്ഞ നീലാകാശം'],
 ['window of a building', 'ഒരു കെട്ടിടത്തിന്റെ വിൻഡോ'],
 ['A dark grey computer desk with drawers.',
  'ഡ്രോയറുകളുള്ള ഇരുണ്ട ചാരനിറത്തിലുള്ള കമ്പ്യൂട്ടർ ഡെസ്ക്.'],
 ['four legged steel chair on ground', 'നിലത്ത് നാല് കാലുകളുള്ള ഉരുക്ക് കസേര'],
 ['Man riding a bicycle down a street', 'തെരുവിൽ സൈക്കിൾ ചവിട്ടുന്ന മനുഷ്യൻ'],
 ['these cars are parked on the dirt',
  'ഈ കാറുകൾ അഴുക്കിൽ പാർക്ക് ചെയ്തിരിക്കുന്നു'],
 ['white clouds in the sky', 'ആകാശത്ത് വെളുത്ത മേഘങ്ങൾ'],
 ['set of glass doors', 'ഗ്ലാസ് വാതിലുകളുടെ ഗണം'],
 ['the projector screen rolled up',
  'പ്രൊജക്ടർ സ്ക്രീൻ ചുരുട്ടി വെച്ചിരിക്കുന്നു'],
 ['man wearing a gray sweater', 'ചാരനിറത്തിലുള്ള സ്വെറ്റർ ധരിച്ച മനുഷ്യൻ']]

### Dataset_3

In [16]:
dataset_3 = pathlib.Path(data_dir[1]).read_text('utf-8')
dataset_3 = dataset_3.splitlines()
dataset_3 = list(map(lambda txt:re.sub(r'(\d*\t){5}','',txt), dataset_3))
dataset_3 = [txt.split('\t') for txt in dataset_3]
dataset_3[:10]

[['A rectangular picture on a yellow wall.',
  'മഞ്ഞ ചുവരിൽ ചതുരാകൃതിയിലുള്ള ചിത്രം.'],
 ['silver car is parked', 'സിൽവർ കാർ പാർക്ക് ചെയ്തു'],
 ['coffee in a coffee pot', 'ഒരു കോഫി കലത്തിൽ കോഫി'],
 ['eye of the pumkin', 'മത്തങ്ങയുടെ കണ്ണ്'],
 ['woman wearing jean skirt', 'ജീൻസ് പാവാട ധരിച്ച സ്ത്രീ'],
 ['a clock', 'ഘടികാരം'],
 ['soap is in the dish', 'സോപ്പ് ഡിഷിലുണ്ട്'],
 ['Yellow taxi cab on the street.', 'തെരുവിൽ മഞ്ഞ ടാക്സി കാർ.'],
 ['the orange colored traffic cone', 'ഓറഞ്ച് നിറമുള്ള ട്രാഫിക് കോൺ'],
 ['the trash can is black', 'ചവറ്റുകുട്ട കറുത്തതാണ്']]

### Dataset_4

In [17]:
dataset_4 = pathlib.Path(data_dir[2]).read_text('utf-8')
dataset_4 = dataset_4.splitlines()
dataset_4 = list(map(lambda txt:re.sub(r'(\d*\t){5}','',txt), dataset_4))
dataset_4 = [txt.split('\t') for txt in dataset_4]
dataset_4[:10]

[['it is an indoor scene', 'ഇത് ഒരു ഇൻഡോർ രംഗമാണ്'],
 ['Computer screens turned on', 'കമ്പ്യൂട്ടർ സ്ക്രീനുകൾ ഓണാക്കി'],
 ['man has short hair', 'മനുഷ്യന് ചെറിയ മുടിയുണ്ട്'],
 ["photo album open on an adult's lap",
  'ഫോട്ടോ ആൽബം മുതിർന്നവരുടെ മടിയിൽ തുറക്കുന്നു'],
 ['there is a group of girls beside the black car',
  'കറുത്ത കാറിനടുത്ത് ഒരു കൂട്ടം പെൺകുട്ടികളുണ്ട്'],
 ['Child in a stroller', 'ഒരു ഉന്തുവണ്ടിയിലെ കുട്ടി'],
 ['Tall metal lightpost', 'ഉയരമുള്ള മെറ്റൽ ലൈറ്റ്പോസ്റ്റ്'],
 ['wall is painted white', 'മതിൽ വെളുത്ത ചായം പൂശി'],
 ['there are several pictures on the wall',
  'ചാരനിറത്തിലുള്ള റോഡിന്റെ വശങ്ങളിൽ പച്ച പുല്ലിന്റെ സ്ട്രിപ്പുകൾ'],
 ['woman facing the ocean', 'സമുദ്രം അഭിമുഖീകരിക്കുന്ന സ്ത്രീ']]

### Final dataset

In [47]:
example = tf.data.Dataset.from_tensor_slices(dataset_1)

In [48]:
for e, m in example.take(1):
    print(e.numpy())
    print((m.numpy()).decode('utf-8'))

b'Really?'
ശരിക്കും?


In [64]:
final_dataset = dataset_1+dataset_2+dataset_3+dataset_4
len(final_dataset)

32137

In [65]:
final_dataset = tf.data.Dataset.from_tensor_slices(final_dataset)
final_dataset

<TensorSliceDataset element_spec=TensorSpec(shape=(2,), dtype=tf.string, name=None)>

In [66]:
for e,m in final_dataset.take(1):
    print(e.numpy())
    print((m.numpy()).decode('utf-8'))   

b'Really?'
ശരിക്കും?


## tf.train.Example

In [67]:
def byte_feature(value):
    if isinstance(value, type(tf.constant(0))):
        value = value.numpy()
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def serialize(eng,mal):
    feature = {
        'english':byte_feature(eng),
        'malayalam':byte_feature(mal)
    }
    example = tf.train.Example(features=tf.train.Features(feature=feature))
    return example.SerializeToString()


In [50]:
# lets try this out


def gen():
    for e,m in example:
        yield serialize(e,m)

example_dataset = tf.data.Dataset.from_generator(gen,output_types=tf.string,output_shapes=())

example_dataset



<FlatMapDataset element_spec=TensorSpec(shape=(), dtype=tf.string, name=None)>

In [68]:
def generate():
    for e,m in final_dataset:
        yield serialize(e,m)

ds = tf.data.Dataset.from_generator(generate,output_types=tf.string,output_shapes=())

ds

<FlatMapDataset element_spec=TensorSpec(shape=(), dtype=tf.string, name=None)>

## Write as TFRecord

In [59]:
import os
test_path = os.path.join('.','data','final','example.tfrecord')
path = os.path.join('.','data','final','eng-mal.tfrecord')

In [60]:
# write example set
writer = tf.data.experimental.TFRecordWriter(test_path)
writer.write(example_dataset)

In [69]:
# write the final dataset
writer = tf.data.experimental.TFRecordWriter(path)
writer.write(ds)

## Reading a TFRecord

In [70]:
feature_desc = {
    'english':tf.io.FixedLenFeature([],tf.string,''),
    'malayalam':tf.io.FixedLenFeature([],tf.string,'')
}

def parser(protobuf):
    return tf.io.parse_single_example(protobuf, feature_desc)

In [71]:
example_loaded = tf.data.TFRecordDataset(test_path)
example_loaded

<TFRecordDatasetV2 element_spec=TensorSpec(shape=(), dtype=tf.string, name=None)>

In [72]:
# parsing
example_loaded = example_loaded.map(parser)

In [75]:
for ex in example_loaded.take(1):
    print(ex)


{'english': <tf.Tensor: shape=(), dtype=string, numpy=b'Really?'>, 'malayalam': <tf.Tensor: shape=(), dtype=string, numpy=b'\xe0\xb4\xb6\xe0\xb4\xb0\xe0\xb4\xbf\xe0\xb4\x95\xe0\xb5\x8d\xe0\xb4\x95\xe0\xb5\x81\xe0\xb4\x82?'>}


In [78]:
for ex in example_loaded.take(1):
    print(ex["english"].numpy())
    print((ex["malayalam"].numpy()).decode())


b'Really?'
ശരിക്കും?
