In [200]:
import pandas as pd
import os
import pickle
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import seaborn as sns
import string
import re 
import unidecode
import googletrans 

In [1]:
def load_data(path):
    """
    Load dataset
    """
    input_file = os.path.join(path)
    with open(input_file, "r", encoding="utf-8") as f:
        data = f.read()

    return data.split('\n')

In [209]:
eng_sen = load_data('data/train.en')

In [211]:
len(eng_sen)

128621

In [212]:
eng_sen[1745]

'I have one of my own secrets in every book '

In [213]:
 print(sum(len(i) for i in eng_sen[30600:30700]))

9399


In [217]:
from googletrans import Translator

translator = Translator()

def synthetize_dataset(list):
    native_scripts = []
    roman_scripts = []
    roman_scripts_cleaned = []
    for sentence in list:
        
        sentence_trans = translator.translate(sentence, dest='si')
        native_scripts.append(sentence_trans.text)
        roman_scripts.append(sentence_trans.pronunciation)
        roman_scripts_cleaned.append(unidecode.unidecode(sentence_trans.pronunciation))
    
    return native_scripts, roman_scripts_cleaned





In [2]:
native_scripts_1, roman_scripts_1 = synthetize_dataset(eng_sen[4200:4300])

In [None]:
native_scripts_1[4]

In [199]:
roman_scripts_1[4]

'baelu baelmata penena paridi oba akarsanaya vanne kavurunda yanna vaeni bahira ha drsyamana de gaena vuvada, oba karanne eya bava nodaena oba vata sitina minisunge visvasayan anuvartanaya vimata patan gani.'

In [175]:
len(native_scripts_1)

100

In [176]:
len(roman_scripts_1)

100

In [177]:
roman_sen_df = pd.DataFrame(roman_scripts_1, columns=["roman"])

In [178]:
native_sen_df = pd.DataFrame(native_scripts_1, columns=["native"])

In [179]:
roman_sen_df

Unnamed: 0,roman
0,apata amutu lesa eya amataka vimata patan gatt...
1,"ebaevin palukarayak naeta, helidarav kirimak n..."
2,samakalina mano vidyava pilibanda avabodhaya d...
3,ovunge adahas anukaranaya karamin sahajayenma ...
4,baelu baelmata penena paridi oba akarsanaya va...
...,...
95,"mama yauvanayek vu atara, 15 ho 16 di, mama si..."
96,"e nisa, mama hima valata lissa yama saha sulam..."
97,eva svitsarlantaye ayahapat kalagunayen gaelav...
98,"itin, mama me deke ekatuvak nirmanaya kalemi: ..."


In [180]:
native_sen_df

Unnamed: 0,native
0,අපට අමුතු ලෙස එය අමතක වීමට පටන් ගත්තේ මෑතකදී ය
1,"එබැවින් පාළුකරයක් නැත, හෙළිදරව් කිරීමක් නැත"
2,සමකාලීන මනෝ විද්‍යාව පිළිබඳ අවබෝධය දෙස බැලුවද ...
3,ඔවුන්ගේ අදහස් අනුකරණය කරමින් සහජයෙන්ම කැඩපතකින...
4,බැලූ බැල්මට පෙනෙන පරිදි ඔබ ආකර්ෂණය වන්නේ කවුරු...
...,...
95,"මම යෞවනයෙක් වූ අතර, 15 හෝ 16 දී, මම සිතන්නේ සෑ..."
96,"ඒ නිසා, මම හිම වලට ලිස්සා යාම සහ සුළං සැරිසැරී..."
97,ඒවා ස්විට්සර්ලන්තයේ අයහපත් කාලගුණයෙන් ගැලවීමකි
98,"ඉතින්, මම මේ දෙකේ එකතුවක් නිර්මාණය කළෙමි: මම ම..."


In [186]:
language_pairs_1 = pd.concat([native_sen_df, roman_sen_df], axis=1, join="inner")

In [187]:
language_pairs_1

Unnamed: 0,native,roman
0,අපට අමුතු ලෙස එය අමතක වීමට පටන් ගත්තේ මෑතකදී ය,apata amutu lesa eya amataka vimata patan gatt...
1,"එබැවින් පාළුකරයක් නැත, හෙළිදරව් කිරීමක් නැත","ebaevin palukarayak naeta, helidarav kirimak n..."
2,සමකාලීන මනෝ විද්‍යාව පිළිබඳ අවබෝධය දෙස බැලුවද ...,samakalina mano vidyava pilibanda avabodhaya d...
3,ඔවුන්ගේ අදහස් අනුකරණය කරමින් සහජයෙන්ම කැඩපතකින...,ovunge adahas anukaranaya karamin sahajayenma ...
4,බැලූ බැල්මට පෙනෙන පරිදි ඔබ ආකර්ෂණය වන්නේ කවුරු...,baelu baelmata penena paridi oba akarsanaya va...
...,...,...
95,"මම යෞවනයෙක් වූ අතර, 15 හෝ 16 දී, මම සිතන්නේ සෑ...","mama yauvanayek vu atara, 15 ho 16 di, mama si..."
96,"ඒ නිසා, මම හිම වලට ලිස්සා යාම සහ සුළං සැරිසැරී...","e nisa, mama hima valata lissa yama saha sulam..."
97,ඒවා ස්විට්සර්ලන්තයේ අයහපත් කාලගුණයෙන් ගැලවීමකි,eva svitsarlantaye ayahapat kalagunayen gaelav...
98,"ඉතින්, මම මේ දෙකේ එකතුවක් නිර්මාණය කළෙමි: මම ම...","itin, mama me deke ekatuvak nirmanaya kalemi: ..."


In [188]:
language_pairs_1.to_csv('bitext/bitext_43.csv')