### Quaran Form Analysis

In [None]:
#!pip install lang-trans

In [8]:
import pandas as pd
import numpy as np
import re
from camel_tools.utils.charmap import CharMapper
from lang_trans.arabic import buckwalter

In [9]:
with open("/media/kurubal/SSD/Data Scientist/Work/Modern Ways/Project/Arabic/Quaran/Data/Quranic Corpus Morphology.txt", "r", encoding="utf8") as file:
    text = file.read()

#### Form Tag

In [10]:
form_tag_list = re.findall("[\(\d*:\d*:\d*:\d*\)][\t](\D*)[\t][\D*]", text)

In [11]:
form_tag_num = re.findall("(\d*:\d*:\d*:\d*)", text)

In [12]:
df_word = pd.DataFrame(form_tag_num)
df_word.rename(columns={0:"loc_num"}, inplace=True)
df_word

Unnamed: 0,loc_num
0,1:1:1:1
1,1:1:1:2
2,1:1:2:1
3,1:1:3:1
4,1:1:3:2
...,...
128214,114:6:2:1
128215,114:6:2:2
128216,114:6:3:1
128217,114:6:3:2


In [13]:
df_word = df_word["loc_num"].str.split(":", n=-1, expand=True)
df_word.rename(columns={0:"num_1", 1:"num_2", 2:"num_3", 3:"num_4"}, inplace=True)
df_word

Unnamed: 0,num_1,num_2,num_3,num_4
0,1,1,1,1
1,1,1,1,2
2,1,1,2,1
3,1,1,3,1
4,1,1,3,2
...,...,...,...,...
128214,114,6,2,1
128215,114,6,2,2
128216,114,6,3,1
128217,114,6,3,2


In [14]:
df_word['num_1'] = df_word['num_1'].astype(int)
df_word['num_2'] = df_word['num_2'].astype(int)
df_word['num_3'] = df_word['num_3'].astype(int)
df_word['num_4'] = df_word['num_4'].astype(int)

In [15]:
df_word["form_tag"] = pd.DataFrame(form_tag_list)
df_word

Unnamed: 0,num_1,num_2,num_3,num_4,form_tag
0,1,1,1,1,bi\tP
1,1,1,1,2,somi\tN
2,1,1,2,1,{ll~ahi\tPN
3,1,1,3,1,{l\tDET
4,1,1,3,2,r~aHoma`ni\tADJ
...,...,...,...,...,...
128214,114,6,2,1,{lo\tDET
128215,114,6,2,2,jin~api\tN
128216,114,6,3,1,wa\tCONJ
128217,114,6,3,2,{l\tDET


In [16]:
df_word[["form","tag"]] = df_word["form_tag"].str.split("\t", n=-1, expand=True)
df_word.drop(["form_tag"], axis=1, inplace=True)
df_word

Unnamed: 0,num_1,num_2,num_3,num_4,form,tag
0,1,1,1,1,bi,P
1,1,1,1,2,somi,N
2,1,1,2,1,{ll~ahi,PN
3,1,1,3,1,{l,DET
4,1,1,3,2,r~aHoma`ni,ADJ
...,...,...,...,...,...,...
128214,114,6,2,1,{lo,DET
128215,114,6,2,2,jin~api,N
128216,114,6,3,1,wa,CONJ
128217,114,6,3,2,{l,DET


In [17]:
df_word.drop_duplicates(inplace=True)
df_word.reset_index(drop=True, inplace=True)
df_word

Unnamed: 0,num_1,num_2,num_3,num_4,form,tag
0,1,1,1,1,bi,P
1,1,1,1,2,somi,N
2,1,1,2,1,{ll~ahi,PN
3,1,1,3,1,{l,DET
4,1,1,3,2,r~aHoma`ni,ADJ
...,...,...,...,...,...,...
128214,114,6,2,1,{lo,DET
128215,114,6,2,2,jin~api,N
128216,114,6,3,1,wa,CONJ
128217,114,6,3,2,{l,DET


In [18]:
#df_word.to_excel("Buckwalter_Form_Tag.xlsx", sheet_name="Form_Tag", index=False)

In [19]:
df_word_concat = pd.DataFrame(df_word.groupby(["num_1","num_2","num_3"])["form"].sum())
df_word_concat.reset_index(inplace=True)
df_word_concat

Unnamed: 0,num_1,num_2,num_3,form
0,1,1,1,bisomi
1,1,1,2,{ll~ahi
2,1,1,3,{lr~aHoma`ni
3,1,1,4,{lr~aHiymi
4,1,2,1,{loHamodu
...,...,...,...,...
77424,114,5,4,Suduwri
77425,114,5,5,{ln~aAsi
77426,114,6,1,mina
77427,114,6,2,{lojin~api


In [20]:
#df_word_concat.to_excel("Buckwalter_Form_Concat.xlsx", sheet_name="Concat_Form", index=False)

#### Buckwalter Text

In [21]:
#df_word_concat = pd.read_excel("Buckwalter_Form_Concat.xlsx")

In [22]:
df_word_concat

Unnamed: 0,num_1,num_2,num_3,form
0,1,1,1,bisomi
1,1,1,2,{ll~ahi
2,1,1,3,{lr~aHoma`ni
3,1,1,4,{lr~aHiymi
4,1,2,1,{loHamodu
...,...,...,...,...
77424,114,5,4,Suduwri
77425,114,5,5,{ln~aAsi
77426,114,6,1,mina
77427,114,6,2,{lojin~api


In [23]:
concat_list = df_word_concat.iloc[:,3].to_list()
#concat_list = df_word_concat.iloc[:,3].head(500).to_list()

In [24]:
buckwalter_text = " ".join(concat_list)
#buckwalter_text

#### Arabic Text

##### Camel Tools

In [25]:
bw2ar = CharMapper.builtin_mapper('bw2ar')

In [26]:
arabic_text = bw2ar(buckwalter_text)
#arabic_text

In [74]:
with open("Arabic_With_Extended_Characters.txt", "w", encoding="utf8") as file:
    file.write(arabic_text)

In [75]:
arabic_text2 = re.sub(r"\[", "", arabic_text)

In [76]:
arabic_text3 = re.sub(r"\]", "", arabic_text2)
#arabic_text3

In [77]:
arabic_text4 = re.sub(r'''([@#:;,.!-+%"])''', "", arabic_text3)
#arabic_text4

In [78]:
arabic_text5 = re.sub(r"\^", " ", arabic_text4)
#arabic_text5

In [79]:
with open("Arabic_Without_Extended_Characters.txt", "w", encoding="utf8") as file:
    file.write(arabic_text5)

##### Def Func

In [27]:
# 2-Way Encoding Extended
# -*- coding: utf-8 -*-

# Arabic Transliteration based on Buckwalter
# dictionary source is buckwalter2unicode.py http://www.redhat.com/archives/fedora-extras-commits/2007-June/msg03617.html 

buck2uni = {"'": u"\u0621", # hamza-on-the-line
            "|": u"\u0622", # madda
            ">": u"\u0623", # hamza-on-'alif
            "&": u"\u0624", # hamza-on-waaw
            "<": u"\u0625", # hamza-under-'alif
            "}": u"\u0626", # hamza-on-yaa'
            "A": u"\u0627", # bare 'alif
            "b": u"\u0628", # baa'
            "p": u"\u0629", # taa' marbuuTa
            "t": u"\u062A", # taa'
            "v": u"\u062B", # thaa'
            "j": u"\u062C", # jiim
            "H": u"\u062D", # Haa'
            "x": u"\u062E", # khaa'
            "d": u"\u062F", # daal
            "*": u"\u0630", # dhaal
            "r": u"\u0631", # raa'
            "z": u"\u0632", # zaay
            "s": u"\u0633", # siin
            "$": u"\u0634", # shiin
            "S": u"\u0635", # Saad
            "D": u"\u0636", # Daad
            "T": u"\u0637", # Taa'
            "Z": u"\u0638", # Zaa' (DHaa')
            "E": u"\u0639", # cayn
            "g": u"\u063A", # ghayn
            "_": u"\u0640", # taTwiil
            "f": u"\u0641", # faa'
            "q": u"\u0642", # qaaf
            "k": u"\u0643", # kaaf
            "l": u"\u0644", # laam
            "m": u"\u0645", # miim
            "n": u"\u0646", # nuun
            "h": u"\u0647", # haa'
            "w": u"\u0648", # waaw
            "Y": u"\u0649", # 'alif maqSuura
            "y": u"\u064A", # yaa'
            "F": u"\u064B", # fatHatayn
            "N": u"\u064C", # Dammatayn
            "K": u"\u064D", # kasratayn
            "a": u"\u064E", # fatHa
            "u": u"\u064F", # Damma
            "i": u"\u0650", # kasra
            "~": u"\u0651", # shaddah
            "o": u"\u0652", # sukuun
            "^": u"\u0653", # maddah
            "#": u"\u0654", # hamzaabove            
            "`": u"\u0670", # dagger 'alif
            "{": u"\u0671", # waSla
            "P": u"\u067E", # arabicletterpeh
            "J": u"\u0686", 
            "V": u"\u06A4", # arabicletterveh
            "G": u"\u06AF", # arabiclettergaf
            ":": u"\u06DC", # smallhighseen
            "@": u"\u06DF", # smallhighroundedzero
            "\"": u"\u06E0", # smallhighuprightrectangularzero
            "[": u"\u06E2", # smallhighmeemisolatedform
            ";": u"\u06E3", # smalllowseen
            ",": u"\u06E5", # smallwaw
            ".": u"\u06E6", # smallya
            "!": u"\u06E8", # smallhighnoon
            "-": u"\u06EA", # emptycentrelowstop
            "+": u"\u06EB", # emptycentrehighstop
            "%": u"\u06EC", # roundedhighstopwithfilledcentre
            "]": u"\u06ED", # smalllowmeem           
}

def transString(string, reverse=0):
    '''Given a Unicode string, transliterate into Buckwalter. To go from
    Buckwalter back to Unicode, set reverse=1'''

    for k, v in buck2uni.items():
      if not reverse:
            string = string.replace(v, k)
      else:
            string = string.replace(k, v)

    return string

In [81]:
arabic_func_text = transString(buckwalter_text, 1)
#arabic_func_text

In [82]:
with open("Arabic_Converted_Extended_Characters.txt", "w", encoding="utf8") as file:
    file.write(arabic_func_text)

##### DF Word Concat Form Convert Arabic

In [None]:
#df_word_concat = pd.read_excel("Buckwalter_Form_Concat.xlsx")

In [28]:
df_word_concat

Unnamed: 0,num_1,num_2,num_3,form
0,1,1,1,bisomi
1,1,1,2,{ll~ahi
2,1,1,3,{lr~aHoma`ni
3,1,1,4,{lr~aHiymi
4,1,2,1,{loHamodu
...,...,...,...,...
77424,114,5,4,Suduwri
77425,114,5,5,{ln~aAsi
77426,114,6,1,mina
77427,114,6,2,{lojin~api


In [29]:
df_word_concat["arabic"] = df_word_concat.iloc[:,3].apply(lambda x: transString(x, 1))
df_word_concat

Unnamed: 0,num_1,num_2,num_3,form,arabic
0,1,1,1,bisomi,بِسْمِ
1,1,1,2,{ll~ahi,ٱللَّهِ
2,1,1,3,{lr~aHoma`ni,ٱلرَّحْمَٰنِ
3,1,1,4,{lr~aHiymi,ٱلرَّحِيمِ
4,1,2,1,{loHamodu,ٱلْحَمْدُ
...,...,...,...,...,...
77424,114,5,4,Suduwri,صُدُورِ
77425,114,5,5,{ln~aAsi,ٱلنَّاسِ
77426,114,6,1,mina,مِنَ
77427,114,6,2,{lojin~api,ٱلْجِنَّةِ


In [35]:
df_word_concat.to_excel("Arabic_Concat_Word.xlsx", sheet_name="Form_Arabic", index=False)

##### Camal Tools Word Tokenize 

In [30]:
import camel_tools.tokenizers.word

In [36]:
with open("/media/kurubal/SSD/Data Scientist/Work/Modern Ways/Project/Arabic/Quaran/Data/Quran Simple Clean.txt", "r", encoding="utf8") as file:
    arabic_text_simple =file.read()

In [55]:
#arabic_text_simple

In [75]:
#re.findall("(\d*\|\d*\|\D*)", arabic_text_simple)
re.findall("[\d*\d*][\|](\D*)[\n]", arabic_text_simple)

['بسم الله الرحمن الرحيم',
 'الحمد لله رب العالمين',
 'الرحمن الرحيم',
 'مالك يوم الدين',
 'إياك نعبد وإياك نستعين',
 'اهدنا الصراط المستقيم',
 'صراط الذين أنعمت عليهم غير المغضوب عليهم ولا الضالين',
 'بسم الله الرحمن الرحيم الم',
 'ذلك الكتاب لا ريب فيه هدى للمتقين',
 'الذين يؤمنون بالغيب ويقيمون الصلاة ومما رزقناهم ينفقون',
 'والذين يؤمنون بما أنزل إليك وما أنزل من قبلك وبالآخرة هم يوقنون',
 'أولئك على هدى من ربهم وأولئك هم المفلحون',
 'إن الذين كفروا سواء عليهم أأنذرتهم أم لم تنذرهم لا يؤمنون',
 'ختم الله على قلوبهم وعلى سمعهم وعلى أبصارهم غشاوة ولهم عذاب عظيم',
 'ومن الناس من يقول آمنا بالله وباليوم الآخر وما هم بمؤمنين',
 'يخادعون الله والذين آمنوا وما يخدعون إلا أنفسهم وما يشعرون',
 'في قلوبهم مرض فزادهم الله مرضا ولهم عذاب أليم بما كانوا يكذبون',
 'وإذا قيل لهم لا تفسدوا في الأرض قالوا إنما نحن مصلحون',
 'ألا إنهم هم المفسدون ولكن لا يشعرون',
 'وإذا قيل لهم آمنوا كما آمن الناس قالوا أنؤمن كما آمن السفهاء ألا إنهم هم السفهاء ولكن لا يعلمون',
 'وإذا لقوا الذين آمنوا قالوا آمنا وإذ

In [2]:
test = "صراط الذين أنعمت عليهم غير المغضوب عليهم ولا الضالين اهدنا الصراط المستقيم إياك نعبد وإياك نستعين مالك يوم الدين الرحمن الرحيم الحمد لله رب العالمين بسم الله الرحمن الرحيم"

In [33]:
word_token = camel_tools.tokenizers.word.simple_word_tokenize(test)
word_token

['صراط',
 'الذين',
 'أنعمت',
 'عليهم',
 'غير',
 'المغضوب',
 'عليهم',
 'ولا',
 'الضالين',
 'اهدنا',
 'الصراط',
 'المستقيم',
 'إياك',
 'نعبد',
 'وإياك',
 'نستعين',
 'مالك',
 'يوم',
 'الدين',
 'الرحمن',
 'الرحيم',
 'الحمد',
 'لله',
 'رب',
 'العالمين',
 'بسم',
 'الله',
 'الرحمن',
 'الرحيم']

In [34]:
len(word_token)

29