Getting the File

In [1]:
import pandas as pd

# Opening the file
ilokano_raw = open("Data/Ilokano_Bible.txt").read()
tagalog_raw = open("Data/Tagalog_Bible.txt").read()

# Printing the Ilokano Raw Data
ilokano_raw[0:500]

'GENESIS 1\nTi Aramid ti Dios a Namarsua.\n1Idi punganay ti Dios pinarsuana dagiti langlangit ken ti daga.\n2Ket ti daga adda idi a gosogoso ken awan nagyan; ket dagiti sipnget addada idi iti rabao ti yuyeng: ket ti Espiritu ti Dios nagtignay iti rabao dagiti dandanum.\n3Ket ti Dios kinunana, Adda coma lawag: ket nagadda ti lawag.\n4Ket ti Dios nakitana a ti lawag naimbag: ket inlasin ti Dios ti lawag cadagiti sipnget.\n5Ket ti Dios ninaganna ti lawag aldaw, ket dagiti sipnget ninagananna ti rabii. Ket'

In [2]:
# Printing the Tagalog Raw Data
tagalog_raw[0:500]

'GENESIS 1\nNilalang ng Dios ang sanglibutan.\n1Nang pasimula ay nilikha ng Dios ang langit at ang lupa.\n2At ang lupa ay walang anyo at walang laman; at ang kadiliman ay sumasa ibabaw ng kalaliman; at ang Espiritu ng Dios ay sumasa ibabaw ng tubig.\n3At sinabi ng Dios Magkaroon ng liwanag; at nagkaroon ng liwanag.\n4At nakita ng Dios ang liwanag na mabuti, at inihiwalay ng Dios ang liwanag sa kadiliman.\n5At tinawag ng Dios ang liwanag na Araw, at tinawag niya ang kadiliman na Gabi. At nagkahapon at n'

In [3]:
# Parsing the data
parsedIlokano = ilokano_raw.split('\n')
parsedTagalog = tagalog_raw.split('\n')

# Printing the parsed data
parsedIlokano[0:3]

['GENESIS 1',
 'Ti Aramid ti Dios a Namarsua.',
 '1Idi punganay ti Dios pinarsuana dagiti langlangit ken ti daga.']

In [4]:
parsedTagalog[0:3]

['GENESIS 1',
 'Nilalang ng Dios ang sanglibutan.',
 '1Nang pasimula ay nilikha ng Dios ang langit at ang lupa.']

In [5]:
# Dictionary

dict_bible = pd.DataFrame({
    'ilokano' : parsedIlokano,
    'tagalog' : parsedTagalog
})

# Printing the first 5 elements of the dictionary
dict_bible.head()

Unnamed: 0,ilokano,tagalog
0,GENESIS 1,GENESIS 1
1,Ti Aramid ti Dios a Namarsua.,Nilalang ng Dios ang sanglibutan.
2,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...
3,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman; a...
4,"3Ket ti Dios kinunana, Adda coma lawag: ket na...",3At sinabi ng Dios Magkaroon ng liwanag; at na...


In [6]:
import string

def remove_punct(pText):
    text_nopumct = "".join([char for char in pText if char not in string.punctuation])
    return text_nopumct

dict_bible['ilokano_nopunc'] = dict_bible['ilokano'].apply(lambda x: remove_punct(x))
dict_bible['tagalog_nopunc'] = dict_bible['tagalog'].apply(lambda x: remove_punct(x))
dict_bible.head()


Unnamed: 0,ilokano,tagalog,ilokano_nopunc,tagalog_nopunc
0,GENESIS 1,GENESIS 1,GENESIS 1,GENESIS 1
1,Ti Aramid ti Dios a Namarsua.,Nilalang ng Dios ang sanglibutan.,Ti Aramid ti Dios a Namarsua,Nilalang ng Dios ang sanglibutan
2,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...
3,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman; a...,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman at...
4,"3Ket ti Dios kinunana, Adda coma lawag: ket na...",3At sinabi ng Dios Magkaroon ng liwanag; at na...,3Ket ti Dios kinunana Adda coma lawag ket naga...,3At sinabi ng Dios Magkaroon ng liwanag at nag...


In [7]:
import re

def tokenize(text):
    tokens = re.split('\W+', text)
    return tokens

dict_bible['ilokano_tokenized'] = dict_bible['ilokano_nopunc'].apply(lambda x: tokenize(x.lower()))
dict_bible['tagalog_tokenized'] = dict_bible['tagalog_nopunc'].apply(lambda x: tokenize(x.lower()))

dict_bible.head()

Unnamed: 0,ilokano,tagalog,ilokano_nopunc,tagalog_nopunc,ilokano_tokenized,tagalog_tokenized
0,GENESIS 1,GENESIS 1,GENESIS 1,GENESIS 1,"[genesis, 1]","[genesis, 1]"
1,Ti Aramid ti Dios a Namarsua.,Nilalang ng Dios ang sanglibutan.,Ti Aramid ti Dios a Namarsua,Nilalang ng Dios ang sanglibutan,"[ti, aramid, ti, dios, a, namarsua]","[nilalang, ng, dios, ang, sanglibutan]"
2,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...,"[1idi, punganay, ti, dios, pinarsuana, dagiti,...","[1nang, pasimula, ay, nilikha, ng, dios, ang, ..."
3,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman; a...,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman at...,"[2ket, ti, daga, adda, idi, a, gosogoso, ken, ...","[2at, ang, lupa, ay, walang, anyo, at, walang,..."
4,"3Ket ti Dios kinunana, Adda coma lawag: ket na...",3At sinabi ng Dios Magkaroon ng liwanag; at na...,3Ket ti Dios kinunana Adda coma lawag ket naga...,3At sinabi ng Dios Magkaroon ng liwanag at nag...,"[3ket, ti, dios, kinunana, adda, coma, lawag, ...","[3at, sinabi, ng, dios, magkaroon, ng, liwanag..."


In [8]:
tagalog_stopwords = open("Data/stopwords-tl.txt").read()

tagalog_stopwords[0:500]

'akin\naking\nako\nalin\nam\namin\naming\nang\nano\nanumang\napat\nat\natin\nating\nay\nbababa\nbago\nbakit\nbawat\nbilang\ndahil\ndalawa\ndapat\ndin\ndito\ndoon\ngagawin\ngayunman\nginagawa\nginawa\nginawang\ngumawa\ngusto\nhabang\nhanggang\nhindi\nhuwag\niba\nibaba\nibabaw\nibig\nikaw\nilagay\nilalim\nilan\ninyong\nisa\nisang\nitaas\nito\niyo\niyon\niyong\nka\nkahit\nkailangan\nkailanman\nkami\nkanila\nkanilang\nkanino\nkanya\nkanyang\nkapag\nkapwa\nkaramihan\nkatiyakan\nkatulad\nkaya\nkaysa\nko\nkong\nkulang\nkumuha\nkung\nlaban\nlahat\nlamang\nlikod\nlima\nmaaari\nmaaarin'

In [9]:
parsed_sw_tl = tagalog_stopwords.split('\n')

parsed_sw_tl

['akin',
 'aking',
 'ako',
 'alin',
 'am',
 'amin',
 'aming',
 'ang',
 'ano',
 'anumang',
 'apat',
 'at',
 'atin',
 'ating',
 'ay',
 'bababa',
 'bago',
 'bakit',
 'bawat',
 'bilang',
 'dahil',
 'dalawa',
 'dapat',
 'din',
 'dito',
 'doon',
 'gagawin',
 'gayunman',
 'ginagawa',
 'ginawa',
 'ginawang',
 'gumawa',
 'gusto',
 'habang',
 'hanggang',
 'hindi',
 'huwag',
 'iba',
 'ibaba',
 'ibabaw',
 'ibig',
 'ikaw',
 'ilagay',
 'ilalim',
 'ilan',
 'inyong',
 'isa',
 'isang',
 'itaas',
 'ito',
 'iyo',
 'iyon',
 'iyong',
 'ka',
 'kahit',
 'kailangan',
 'kailanman',
 'kami',
 'kanila',
 'kanilang',
 'kanino',
 'kanya',
 'kanyang',
 'kapag',
 'kapwa',
 'karamihan',
 'katiyakan',
 'katulad',
 'kaya',
 'kaysa',
 'ko',
 'kong',
 'kulang',
 'kumuha',
 'kung',
 'laban',
 'lahat',
 'lamang',
 'likod',
 'lima',
 'maaari',
 'maaaring',
 'maging',
 'mahusay',
 'makita',
 'marami',
 'marapat',
 'masyado',
 'may',
 'mayroon',
 'mga',
 'minsan',
 'mismo',
 'mula',
 'muli',
 'na',
 'nabanggit',
 'naging',
 '

In [10]:
def remove_stopwords(ptokenized_list):
    text = [word for word in ptokenized_list if word not in parsed_sw_tl]
    return text

dict_bible['tagalog_nostopwords'] = dict_bible['tagalog_tokenized'].apply(lambda x: remove_stopwords(x))

dict_bible.head()


Unnamed: 0,ilokano,tagalog,ilokano_nopunc,tagalog_nopunc,ilokano_tokenized,tagalog_tokenized,tagalog_nostopwords
0,GENESIS 1,GENESIS 1,GENESIS 1,GENESIS 1,"[genesis, 1]","[genesis, 1]","[genesis, 1]"
1,Ti Aramid ti Dios a Namarsua.,Nilalang ng Dios ang sanglibutan.,Ti Aramid ti Dios a Namarsua,Nilalang ng Dios ang sanglibutan,"[ti, aramid, ti, dios, a, namarsua]","[nilalang, ng, dios, ang, sanglibutan]","[nilalang, dios, sanglibutan]"
2,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...,1Idi punganay ti Dios pinarsuana dagiti langla...,1Nang pasimula ay nilikha ng Dios ang langit a...,"[1idi, punganay, ti, dios, pinarsuana, dagiti,...","[1nang, pasimula, ay, nilikha, ng, dios, ang, ...","[1nang, pasimula, nilikha, dios, langit, lupa]"
3,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman; a...,2Ket ti daga adda idi a gosogoso ken awan nagy...,2At ang lupa ay walang anyo at walang laman at...,"[2ket, ti, daga, adda, idi, a, gosogoso, ken, ...","[2at, ang, lupa, ay, walang, anyo, at, walang,...","[2at, lupa, anyo, laman, kadiliman, sumasa, ka..."
4,"3Ket ti Dios kinunana, Adda coma lawag: ket na...",3At sinabi ng Dios Magkaroon ng liwanag; at na...,3Ket ti Dios kinunana Adda coma lawag ket naga...,3At sinabi ng Dios Magkaroon ng liwanag at nag...,"[3ket, ti, dios, kinunana, adda, coma, lawag, ...","[3at, sinabi, ng, dios, magkaroon, ng, liwanag...","[3at, sinabi, dios, magkaroon, liwanag, liwanag]"
