# Data Cleaning 

In [319]:
import pandas as pd
import re


In [320]:
pd.set_option('max_colwidth',150)

## Arabic Quran

In [321]:
# reading the Arabic Quran version.
quran_A = pd.read_csv("../data/quran-simple.txt", names=["chapter_num", "verse_num", "verse"], sep="|" )
quran_A.head(10)

Unnamed: 0,chapter_num,verse_num,verse
0,1,1.0,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ
1,1,2.0,الْحَمْدُ لِلَّهِ رَبِّ الْعَالَمِينَ
2,1,3.0,الرَّحْمَٰنِ الرَّحِيمِ
3,1,4.0,مَالِكِ يَوْمِ الدِّينِ
4,1,5.0,إِيَّاكَ نَعْبُدُ وَإِيَّاكَ نَسْتَعِينُ
5,1,6.0,اهْدِنَا الصِّرَاطَ الْمُسْتَقِيمَ
6,1,7.0,صِرَاطَ الَّذِينَ أَنْعَمْتَ عَلَيْهِمْ غَيْرِ الْمَغْضُوبِ عَلَيْهِمْ وَلَا الضَّالِّينَ
7,2,1.0,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ الم
8,2,2.0,ذَٰلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِّلْمُتَّقِينَ
9,2,3.0,الَّذِينَ يُؤْمِنُونَ بِالْغَيْبِ وَيُقِيمُونَ الصَّلَاةَ وَمِمَّا رَزَقْنَاهُمْ يُنفِقُونَ


In [322]:
# taking a look at our data
quran_A.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6264 entries, 0 to 6263
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   chapter_num  6264 non-null   object 
 1   verse_num    6236 non-null   float64
 2   verse        6236 non-null   object 
dtypes: float64(1), object(2)
memory usage: 146.9+ KB


- there are around 30 missing values in both verse_num and verse columns.
- verse_num Dtype is float but it should be integer.

In [323]:
# looking at the missing data
quran_A[quran_A.verse.isnull()]

Unnamed: 0,chapter_num,verse_num,verse
6236,# PLEASE DO NOT REMOVE OR CHANGE THIS COPYRIGHT BLOCK,,
6237,#====================================================================,,
6238,#,,
6239,"# Tanzil Quran Text (Simple, Version 1.1)",,
6240,# Copyright (C) 2007-2022 Tanzil Project,,
6241,# License: Creative Commons Attribution 3.0,,
6242,#,,
6243,"# This copy of the Quran text is carefully produced, highly",,
6244,# verified and continuously monitored by a group of specialists,,
6245,# at Tanzil Project.,,


In [324]:
# droping these inequivalent rows.
quran_A.dropna(inplace=True)

In [325]:
# adjusting the types.
quran_A["chapter_num"]=quran_A.chapter_num.astype(int)
quran_A["verse_num"]=quran_A.verse_num.astype(int)
quran_A.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6236 entries, 0 to 6235
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   chapter_num  6236 non-null   int64 
 1   verse_num    6236 non-null   int64 
 2   verse        6236 non-null   object
dtypes: int64(2), object(1)
memory usage: 194.9+ KB


In [326]:
# checking the 1st verse of each chapter.
quran_A[quran_A.verse_num == 1]

Unnamed: 0,chapter_num,verse_num,verse
0,1,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ
7,2,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ الم
293,3,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ الم
493,4,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ يَا أَيُّهَا النَّاسُ اتَّقُوا رَبَّكُمُ الَّذِي خَلَقَكُم مِّن نَّفْسٍ وَاحِدَةٍ وَخَلَقَ مِنْهَا زَوْجَهَ...
669,5,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ يَا أَيُّهَا الَّذِينَ آمَنُوا أَوْفُوا بِالْعُقُودِ أُحِلَّتْ لَكُم بَهِيمَةُ الْأَنْعَامِ إِلَّا مَا يُتْ...
...,...,...,...
6213,110,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ إِذَا جَاءَ نَصْرُ اللَّهِ وَالْفَتْحُ
6216,111,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ تَبَّتْ يَدَا أَبِي لَهَبٍ وَتَبَّ
6221,112,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ قُلْ هُوَ اللَّهُ أَحَدٌ
6225,113,1,بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ قُلْ أَعُوذُ بِرَبِّ الْفَلَقِ


- some scholars say that "بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ" is a part of each chapter, so it shoul be numbered.
- other scholars say that it is not a part of each chapter, so it should not be counted.(this is why this verse is not at the first of each chapter in the translated version)
- all scholars agree that it is a part of the first chapter (الفاتحة) and it is not a part of the 9th chapter (التوبة).



## English quran

In [327]:
# reading an English translation version.
quran_E = pd.read_csv("../data/english_saheeh_v1.1.0-csv.1.csv")
quran_E.head()

Unnamed: 0,id,sura,aya,translation,footnotes
0,1,1,1,"(1) In the name of Allāh,[2] the Entirely Merciful, the Especially Merciful.[3]","[2]- Allāh is a proper name belonging only to the one Almighty God, Creator and Sustainer of the heavens and the earth and all that is within them..."
1,2,1,2,"(2) [All] praise is [due] to Allāh, Lord[4] of the worlds -","[4]- When referring to Allāh (subḥānahu wa taʿālā) , the Arabic term ""rabb"" (translated as ""Lord"") includes all of the following meanings: ""owner,..."
2,3,1,3,"(3) The Entirely Merciful, the Especially Merciful,",
3,4,1,4,(4) Sovereign of the Day of Recompense.[5],"[5]- i.e., repayment and compensation for whatever was earned of good or evil during life on this earth."
4,5,1,5,(5) It is You we worship and You we ask for help.,


In [328]:
# taking a look at our data.
quran_E.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6236 entries, 0 to 6235
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           6236 non-null   int64 
 1   sura         6236 non-null   int64 
 2   aya          6236 non-null   int64 
 3   translation  6236 non-null   object
 4   footnotes    1612 non-null   object
dtypes: int64(3), object(2)
memory usage: 243.7+ KB


In [329]:
# we are not intersted in the footnotes and id is just an index.
quran_E.drop(columns=["footnotes", "id"], inplace=True)

In [330]:
# matching the names of the columns.
quran_E.columns=["chapter_num", "verse_num", "verse"]
quran_E

Unnamed: 0,chapter_num,verse_num,verse
0,1,1,"(1) In the name of Allāh,[2] the Entirely Merciful, the Especially Merciful.[3]"
1,1,2,"(2) [All] praise is [due] to Allāh, Lord[4] of the worlds -"
2,1,3,"(3) The Entirely Merciful, the Especially Merciful,"
3,1,4,(4) Sovereign of the Day of Recompense.[5]
4,1,5,(5) It is You we worship and You we ask for help.
...,...,...,...
6231,114,2,"(2) The Sovereign of mankind,"
6232,114,3,"(3) The God of mankind,"
6233,114,4,(4) From the evil of the retreating whisperer[2016] -
6234,114,5,(5) Who whispers [evil] into the breasts of mankind -


## creating functions to clean our data.

In [331]:
def word_count(text):
    return len(text.split())
    

In [293]:
def cleaning(verse):
    # for the Arabic version
    verse = re.sub("[ًًٌٌٍٍَُِّّْٰٓٓ]","",verse)
    verse = re.sub("[آ]","ا",verse)

    # for the English transelation
    verse = verse.lower()
    verse = re.sub("\[.*?\]","",verse)
    verse = re.sub("[(0-9)]","",verse)
    verse = re.sub("[-.,;:]","",verse)
    verse = re.sub("  "," ",verse)
    verse = verse.strip()

    return verse

cleaning(quran_A.verse[1265])


'اتخذوا أحبارهم ورهبانهم أربابا من دون الله والمسيح ابن مريم وما أمروا إلا ليعبدوا إلها واحدا لا إله إلا هو سبحانه عما يشركون'

In [332]:
# removing the basmelah of the first verse in each chapter.
def remove_basmalah(first_aya):
    first_aya = re.sub("بسم الله الرحمن الرحيم ", "", first_aya)
    
    return first_aya

remove_basmalah(cleaning(quran_A.verse[493]))


'يا أيها الناس اتقوا ربكم الذي خلقكم من نفس واحدة وخلق منها زوجها وبث منهما رجالا كثيرا ونساء واتقوا الله الذي تساءلون به والأرحام إن الله كان عليكم رقيبا'

In [333]:
# creating a function to add a basmalah at the begining of each chapter with verse_num = 0
def add_basmalah(quran, language):
    
    """This function will insert a 'basmalah' at the start of each chapter with verse_num = 0"""

    if language == "A":
        b = "بسم الله الرحمن الرحيم"
    elif language == "E":
        b = "in the name of allāh the entirely merciful the especially merciful"
    else:
        print("invalide value or language; 'A' for Arabic or 'E' for English")
    
    a = list(quran[quran.verse_num == 1].index)
    a.remove(0)
    
    for chapter, i in enumerate(a):
        quran.loc[i-0.5] = {"chapter_num":chapter + 2,"verse_num":0,"verse":b}
    
    quran.iloc[0].verse = b

    quran = quran.drop(index= quran[(quran.chapter_num == 9) & (quran.verse_num == 0)].index)
    quran = quran.sort_index().reset_index(drop= True)
    return quran


In [334]:
# applying our functions on the English translation

quran_E["verse"] = quran_E.verse.apply(cleaning)
quran_E = add_basmalah(quran_E, "E")
quran_E["length"] = quran_E.verse.apply(word_count)
quran_E.head(10)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  quran.iloc[0].verse = b


Unnamed: 0,chapter_num,verse_num,verse,length
0,1,1,in the name of allāh the entirely merciful the especially merciful,11
1,1,2,praise is to allāh lord of the worlds,8
2,1,3,the entirely merciful the especially merciful,6
3,1,4,sovereign of the day of recompense,6
4,1,5,it is you we worship and you we ask for help,11
5,1,6,guide us to the straight path,6
6,1,7,the path of those upon whom you have bestowed favor not of those who have earned anger or of those who are astray,23
7,2,0,in the name of allāh the entirely merciful the especially merciful,11
8,2,1,alif lām meem,3
9,2,2,this is the book about which there is no doubt a guidance for those conscious of allāh,17


In [335]:
quran_A["verse"] = quran_A.verse.apply(cleaning)
quran_A["verse"] = quran_A.verse.apply(remove_basmalah)
quran_A = add_basmalah(quran_A, "A")
quran_A["length"] = quran_A.verse.apply(word_count)
quran_A.head(15)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  quran.iloc[0].verse = b


Unnamed: 0,chapter_num,verse_num,verse,length
0,1,1,بسم الله الرحمن الرحيم,4
1,1,2,الحمد لله رب العالمين,4
2,1,3,الرحمن الرحيم,2
3,1,4,مالك يوم الدين,3
4,1,5,إياك نعبد وإياك نستعين,4
5,1,6,اهدنا الصراط المستقيم,3
6,1,7,صراط الذين أنعمت عليهم غير المغضوب عليهم ولا الضالين,9
7,2,0,بسم الله الرحمن الرحيم,4
8,2,1,الم,1
9,2,2,ذلك الكتاب لا ريب فيه هدى للمتقين,7


- still we need to creat a data fram that combine the verses of each chapter.

# EDA

In [358]:
by_chapter =quran_A.groupby("chapter_num").length.agg(["mean","sum","count"])

In [359]:
def combine(list_of_text):

    '''Takes a list of text and combines them into one large chunk of text.'''
    combined_text = ' '.join(list_of_text)
    return combined_text

by_chapter["chapter_verses"]=quran_A.groupby("chapter_num").verse.apply(combine)
by_chapter


Unnamed: 0_level_0,mean,sum,count,chapter_verses
chapter_num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,4.142857,29,7,بسم الله الرحمن الرحيم الحمد لله رب العالمين الرحمن الرحيم مالك يوم الدين إياك نعبد وإياك نستعين اهدنا الصراط المستقيم صراط الذين أنعمت عليهم غير ...
2,21.411150,6145,287,بسم الله الرحمن الرحيم الم ذلك الكتاب لا ريب فيه هدى للمتقين الذين يؤمنون بالغيب ويقيمون الصلاة ومما رزقناهم ينفقون والذين يؤمنون بما أنزل إليك وم...
3,17.437811,3505,201,بسم الله الرحمن الرحيم الم الله لا إله إلا هو الحي القيوم نزل عليك الكتاب بالحق مصدقا لما بين يديه وأنزل التوراة والإنجيل من قبل هدى للناس وأنزل ا...
4,21.282486,3767,177,بسم الله الرحمن الرحيم يا أيها الناس اتقوا ربكم الذي خلقكم من نفس واحدة وخلق منها زوجها وبث منهما رجالا كثيرا ونساء واتقوا الله الذي تساءلون به وا...
5,23.479339,2841,121,بسم الله الرحمن الرحيم يا أيها الذين امنوا أوفوا بالعقود أحلت لكم بهيمة الأنعام إلا ما يتلى عليكم غير محلي الصيد وأنتم حرم إن الله يحكم ما يريد يا...
...,...,...,...,...
110,5.750000,23,4,بسم الله الرحمن الرحيم إذا جاء نصر الله والفتح ورأيت الناس يدخلون في دين الله أفواجا فسبح بحمد ربك واستغفره إنه كان توابا
111,4.500000,27,6,بسم الله الرحمن الرحيم تبت يدا أبي لهب وتب ما أغنى عنه ماله وما كسب سيصلى نارا ذات لهب وامرأته حمالة الحطب في جيدها حبل من مسد
112,3.800000,19,5,بسم الله الرحمن الرحيم قل هو الله أحد الله الصمد لم يلد ولم يولد ولم يكن له كفوا أحد
113,4.500000,27,6,بسم الله الرحمن الرحيم قل أعوذ برب الفلق من شر ما خلق ومن شر غاسق إذا وقب ومن شر النفاثات في العقد ومن شر حاسد إذا حسد


In [401]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/vscode/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [405]:
from nltk import word_tokenize
from nltk.stem.isri import ISRIStemmer
st = ISRIStemmer()

w= "بسم الله الرحمن الرحيم يا أيها الناس اتقوا ربكم الذي خلقكم من نفس واحدة وخلق منها زوجها وبث منهما"

" ".join([ st.stem(a) for a in word_tokenize(w)])

'بسم الل رحم رحم يا ايه ناس اتق ربكم الذي خلق من نفس وحد خلق منها زوج وبث منه'

In [406]:
from farasa.stemmer import FarasaStemmer
stemmer = FarasaStemmer()




100%|██████████| 241M/241M [06:15<00:00, 642kiB/s] 


In [411]:
sample =\
''' 
يُشار إلى أن اللغة العربية يتحدثها أكثر من 422 مليون نسمة ويتوزع متحدثوها
 في المنطقة المعروفة باسم الوطن العربي بالإضافة إلى العديد من المناطق ال
أخرى المجاورة مثل الأهواز وتركيا وتشاد والسنغال وإريتريا وغيرها.وهي اللغ
ة الرابعة من لغات منظمة الأمم المتحدة الرسمية الست. 
'''
stemmed_text = stemmer.stem(w)                                     
print(stemmed_text)


بسم الله رحمن رحيم يا أي ناس اتقى رب الذي خلق من نفس واحد خلق من زوج بث من


In [373]:
from nltk.corpus import stopwords
stopwords_list = stopwords.words('arabic')

# We are going to create a document-term matrix using CountVectorizer, and exclude common English stop words
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(stop_words=stopwords_list)
data_cv = cv.fit_transform(by_chapter.chapter_verses)
data_dtm = pd.DataFrame(data_cv.toarray(), columns=cv.get_feature_names())
data_dtm.index = by_chapter.index
data_dtm



Unnamed: 0_level_0,أأتخذ,أأرباب,أأسجد,أأسلمتم,أأشفقتم,أأشكر,أأعجمي,أأقررتم,أألد,أألقي,...,يولوكم,يولون,يوم,يومئذ,يوما,يومكم,يومهم,يومين,يونس,ييأس
chapter_num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,5,0,4,0,0,1,0,0
3,0,0,0,1,0,0,0,1,0,0,...,1,0,10,1,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,3,1,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,5,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
110,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
111,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
112,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
113,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [376]:
# Find the top 30 words said by each comedian
top_dict = {}
for c in data_dtm.T.columns:
    top = data_dtm.T[c].sort_values(ascending=False).head(10)
    top_dict[c]= list(zip(top.index, top.values))

top_dict

{1: [('عليهم', 2),
  ('الرحيم', 2),
  ('الرحمن', 2),
  ('أنعمت', 1),
  ('رب', 1),
  ('الحمد', 1),
  ('بسم', 1),
  ('المستقيم', 1),
  ('لله', 1),
  ('الضالين', 1)],
 2: [('الله', 217),
  ('والله', 40),
  ('قال', 37),
  ('عليكم', 33),
  ('امنوا', 30),
  ('الناس', 26),
  ('قالوا', 25),
  ('الكتاب', 24),
  ('خير', 21),
  ('كنتم', 20)],
 3: [('الله', 154),
  ('والله', 38),
  ('الكتاب', 27),
  ('قل', 20),
  ('كفروا', 16),
  ('كنتم', 16),
  ('امنوا', 14),
  ('قال', 14),
  ('أهل', 12),
  ('عذاب', 11)],
 4: [('الله', 184),
  ('وكان', 25),
  ('بالله', 23),
  ('امنوا', 22),
  ('عليكم', 17),
  ('الناس', 15),
  ('عليهم', 14),
  ('عظيما', 14),
  ('منهم', 14),
  ('سبيل', 14)],
 5: [('الله', 120),
  ('امنوا', 26),
  ('منهم', 18),
  ('أنزل', 18),
  ('والله', 16),
  ('قال', 15),
  ('قالوا', 15),
  ('الكتاب', 13),
  ('عليكم', 12),
  ('الأرض', 12)],
 6: [('الله', 74),
  ('قل', 42),
  ('كانوا', 21),
  ('شيء', 20),
  ('ربك', 16),
  ('قال', 13),
  ('كنتم', 11),
  ('يؤمنون', 11),
  ('عليهم', 11),
  ('الأرض', 

In [377]:
# Print the top 10 words in each chapter
for comedian, top_words in top_dict.items():
    print(comedian)
    print(', '.join([word for word, count in top_words]))
    print('---')

1
عليهم, الرحيم, الرحمن, أنعمت, رب, الحمد, بسم, المستقيم, لله, الضالين
---
2
الله, والله, قال, عليكم, امنوا, الناس, قالوا, الكتاب, خير, كنتم
---
3
الله, والله, الكتاب, قل, كفروا, كنتم, امنوا, قال, أهل, عذاب
---
4
الله, وكان, بالله, امنوا, عليكم, الناس, عليهم, عظيما, منهم, سبيل
---
5
الله, امنوا, منهم, أنزل, والله, قال, قالوا, الكتاب, عليكم, الأرض
---
6
الله, قل, كانوا, شيء, ربك, قال, كنتم, يؤمنون, عليهم, الأرض
---
7
الله, قال, قالوا, موسى, كانوا, قوم, ربكم, عليهم, باياتنا, الأرض
---
8
الله, كفروا, والله, امنوا, منكم, وهم, عليم, وأن, المؤمنين, سبيل
---
9
الله, والله, ورسوله, بالله, وهم, امنوا, عليهم, قلوبهم, سبيل, عليم
---
10
الله, قل, الناس, الأرض, الحق, كانوا, كنتم, قال, السماوات, ربك
---
11
الله, قوم, ربك, قال, إني, ربي, عذاب, قالوا, جاء, يوم
---
12
قال, الله, قالوا, يوسف, فلما, وقال, إني, وهم, ربي, الناس
---
13
الله, قل, الأرض, كفروا, أنزل, يشاء, الدار, عقبى, الحق, الحساب
---
14
الله, الأرض, ربنا, يوم, لله, السماوات, عذاب, ألم, الناس, وسخر
---
15
قال, ولقد, كانوا, قالوا, ربك, عليهم,