# Collecting and Pre-processing Quran data : 

In [1]:
try:
    import json
    import csv
    import pandas as pd
    import codecs
    import pyodbc 
    from tqdm.notebook import tqdm
    print("Librairies Loaded")
    
except Exception as e:
    print("Error, missing librairies : {} ".format(e))

Librairies Loaded


In [12]:
# instead of using the json here, you can build your own json file or at least use an offline file 
!curl https://raw.githubusercontent.com/risan/quran-json/master/json/quran/text.pretty.json > data/verses.json
!curl https://raw.githubusercontent.com/risan/quran-json/master/json/surahs.pretty.json > data/surahs.json

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 1751k  100 1751k    0     0   988k      0  0:00:01  0:00:01 --:--:--  987k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 22365  100 22365    0     0  79590      0 --:--:-- --:--:-- --:--:-- 79590


In [13]:
# reading documents with the utf-8-sig paramter to decode arabic characters 
surahs = codecs.open('data/surahs.json', 'r', 'utf-8-sig')
verses = codecs.open('data/verses.json', 'r', 'utf-8-sig')

json_surat = json.load(surahs)
json_ayat = json.load(verses)

# testing loaded data
json_surat[1], json_ayat[4]

({'number': 2,
  'name': 'سورة البقرة',
  'transliteration_en': 'Al-Baqara',
  'translation_en': 'The Cow',
  'total_verses': 286,
  'revelation_type': 'Medinan'},
 {'surah_number': 1,
  'verse_number': 5,
  'content': 'إِيَّاكَ نَعْبُدُ وَإِيَّاكَ نَسْتَعِينُ'})

In [14]:
no_chakl = codecs.open('data/quran_no_chakl.json', 'r', 'utf-8-sig')
json_no_chakl = json.load(no_chakl)
json_no_chakl[1]

{'index': '2', 'sura': '1', 'aya': '2', 'text': 'الحمد لله رب العالمين'}

## - Connecting to SQL Server in order to collect tafsir data (optional, because the data will be saved in a JSON file that will be available for further processing) :

In [15]:
server = 'localhost'
database = 'quran'
username = 'sa'
password = 'Qwerty_123'
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+database+';UID='+username+';PWD='+ password)
cursor = cnxn.cursor()

In [16]:
# retrieving tafsir to see if it needs some cleaning
cursor.execute('SELECT * FROM dbo.tafsir1')
c = 7               #set it to the index of aya to get the tafsir associated
for row in cursor:
    print(" aya_index_quran: ", row[0], "\n sura_index: ", row[1], "\n aya_index_sura: ", row[2], "\n tafsir:\n ", row[3])
    break
           


 aya_index_quran:  1 
 sura_index:  1 
 aya_index_sura:  1 
 tafsir:
  ( بسم الله الرحمن الرحيم ) بسم الله الباء أداة تخفض ما بعدها مثل من وعن والمتعلق به الباء محذوف لدلالة الكلام عليه تقديره أبدأ بسم الله أو قل بسم الله . وأسقطت الألف من الاسم طلبا للخفة وكثرة استعمالها وطولت الباء قال القتيبي ليكون افتتاح كلام كتاب الله بحرف معظم كان عمر بن عبد العزيز رحمه الله يقول لكتابه طولوا الباء وأظهروا السين وفرجوا بينهما ودوروا الميم . تعظيما لكتاب الله تعالى وقيل لما أسقطوا الألف ردوا طول الألف على الباء ليكون دالا على سقوط الألف ألا ترى أنه لما كتبت الألف في " اقرأ باسم ربك " ( 1 - العلق ) ردت الباء إلى صيغتها ولا تحذف الألف إذا أضيف الاسم إلى غير الله ولا مع غير الباء .والاسم هو المسمى وعينه وذاته قال الله تعالى : " إنا نبشرك بغلام اسمه يحيى " ( 7 - مريم ) أخبر أن اسمه يحيى ثم نادى الاسم فقال : يا يحيى " وقال : ما تعبدون من دونه إلا أسماء سميتموها " ( 40 - يوسف ) وأراد الأشخاص المعبودة لأنهم كانوا يعبدون المسميات وقال : سبح اسم ربك " ( 1 - الأعلى ) ، وتبارك اسم ربك " ثم يقال للتسمية أيضا 

In [17]:
# you can improve your mapping to add a fields related to new taffsirs. assuming each aya has tafssir row
quran = []

cursor.execute('SELECT * FROM dbo.tafsir1')
for row in cursor:
    quran.append({
        "aya_index_quran": row[0],
        "aya_index_sura": row[2],
        "sura_name": json_surat[row[1]-1]['name'],
        "sura_index": row[1],
        "total_verses": json_surat[row[1]-1]['total_verses'],
        "aya_chakl": json_ayat[row[0]-1]['content'],
        "aya_no_chakl": json_no_chakl[row[0]-1]['text'],
        "tafsir_aya": row[3],
    })
print(quran[0])

{'aya_index_quran': 1, 'aya_index_sura': 1, 'sura_name': 'سورة الفاتحة', 'sura_index': 1, 'total_verses': 7, 'aya_chakl': 'بِسْمِ ٱللَّهِ ٱلرَّحْمَٰنِ ٱلرَّحِيمِ', 'aya_no_chakl': 'بسم الله الرحمن الرحيم', 'tafsir_aya': '( بسم الله الرحمن الرحيم ) بسم الله الباء أداة تخفض ما بعدها مثل من وعن والمتعلق به الباء محذوف لدلالة الكلام عليه تقديره أبدأ بسم الله أو قل بسم الله . وأسقطت الألف من الاسم طلبا للخفة وكثرة استعمالها وطولت الباء قال القتيبي ليكون افتتاح كلام كتاب الله بحرف معظم كان عمر بن عبد العزيز رحمه الله يقول لكتابه طولوا الباء وأظهروا السين وفرجوا بينهما ودوروا الميم . تعظيما لكتاب الله تعالى وقيل لما أسقطوا الألف ردوا طول الألف على الباء ليكون دالا على سقوط الألف ألا ترى أنه لما كتبت الألف في " اقرأ باسم ربك " ( 1 - العلق ) ردت الباء إلى صيغتها ولا تحذف الألف إذا أضيف الاسم إلى غير الله ولا مع غير الباء .والاسم هو المسمى وعينه وذاته قال الله تعالى : " إنا نبشرك بغلام اسمه يحيى " ( 7 - مريم ) أخبر أن اسمه يحيى ثم نادى الاسم فقال : يا يحيى " وقال : ما تعبدون من دونه إلا أسماء سم

In [19]:
# saving the resulting list of documents into a JSON file so it can be easily available and you don't need to execute the script from the begining
with open('data/quran.json', 'w') as f:
    json.dump(quran, f, indent=4)

In [70]:
quran = codecs.open('quran.json', 'r', 'utf-8-sig')
json_quran = json.load(quran)

# -Pre-processing & normalizing the retrieved Hadith data : 

In [50]:
#Reading the raw unprocessed Hadith data 

data = pd.read_csv('data\hadiths.csv', encoding='utf-8-sig')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34441 entries, 0 to 34440
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          34441 non-null  int64 
 1   hadith_id   34441 non-null  int64 
 2   source      34441 non-null  object
 3   chapter_no  34441 non-null  int64 
 4   hadith_no   34441 non-null  object
 5   chapter     34441 non-null  object
 6   chain_indx  34318 non-null  object
 7   text_ar     34433 non-null  object
 8   text_en     33588 non-null  object
dtypes: int64(3), object(6)
memory usage: 2.4+ MB


In [51]:
data.shape

(34441, 9)

In [52]:
data[:10]

Unnamed: 0,id,hadith_id,source,chapter_no,hadith_no,chapter,chain_indx,text_ar,text_en
0,0,1,Sahih Bukhari,1,1,Revelation - كتاب بدء الوحى,"30418, 20005, 11062, 11213, 11042, 3",حدثنا الحميدي عبد الله بن الزبير، قال حدثنا سف...,Narrated 'Umar bin Al-Khattab: ...
1,1,2,Sahih Bukhari,1,2,Revelation - كتاب بدء الوحى,"30355, 20001, 11065, 10511, 53",حدثنا عبد الله بن يوسف، قال أخبرنا مالك، عن هش...,Narrated 'Aisha: ...
2,2,3,Sahih Bukhari,1,3,Revelation - كتاب بدء الوحى,"30399, 20023, 11207, 11013, 10511, 53",حدثنا يحيى بن بكير، قال حدثنا الليث، عن عقيل، ...,Narrated 'Aisha: (the m...
3,3,4,Sahih Bukhari,1,4,Revelation - كتاب بدء الوحى,"11013, 10567, 34",قال ابن شهاب وأخبرني أبو سلمة بن عبد الرحمن، أ...,Narrated Jabir bin 'Abdullah Al-Ansari while ...
4,4,5,Sahih Bukhari,1,5,Revelation - كتاب بدء الوحى,"20040, 20469, 11399, 11050, 17",حدثنا موسى بن إسماعيل، قال حدثنا أبو عوانة، قا...,Narrated Said bin Jubair: ...
5,5,6,Sahih Bukhari,1,6,Revelation - كتاب بدء الوحى,"30349, 20025, 20475, 11013, 30318, 20025, 2047...",حدثنا عبدان، قال أخبرنا عبد الله، قال أخبرنا ي...,Narrated Ibn 'Abbas: ...
6,6,7,Sahih Bukhari,1,7,Revelation - كتاب بدء الوحى,"30330, 20428, 11013, 11004, 17",حدثنا أبو اليمان الحكم بن نافع، قال أخبرنا شعي...,Narrated 'Abdullah bin 'Abbas: ...
7,0,8,Sahih Bukhari,2,8,Belief - كتاب الإيمان,"20340, 11243, 11709, 18",حدثنا عبيد الله بن موسى، قال أخبرنا حنظلة بن أ...,Narrated Ibn 'Umar: ...
8,1,9,Sahih Bukhari,2,9,Belief - كتاب الإيمان,"30351, 20443, 20160, 11183, 11161, 13",حدثنا عبد الله بن محمد، قال حدثنا أبو عامر الع...,Narrated Abu Huraira: ...
9,2,10,Sahih Bukhari,2,10,Belief - كتاب الإيمان,"20404, 20020, 11636, 20208, 11052, 29",حدثنا آدم بن أبي إياس، قال حدثنا شعبة، عن عبد ...,Narrated 'Abdullah bin 'Amr: ...


In [53]:
data['text_ar'][26]

'حدثنا أبو اليمان، قال أخبرنا شعيب، عن الزهري، قال أخبرني عامر بن سعد بن أبي وقاص، عن سعد، رضى الله عنه أن رسول الله صلى الله عليه وسلم أعطى رهطا وسعد جالس، فترك رسول الله صلى الله عليه وسلم رجلا هو أعجبهم إلى فقلت يا رسول الله ما لك عن فلان فوالله إني لأراه مؤمنا\u200f.\u200f فقال \u200f"\u200f أو مسلما \u200f"\u200f\u200f.\u200f فسكت قليلا، ثم غلبني ما أعلم منه فعدت لمقالتي فقلت ما لك عن فلان فوالله إني لأراه مؤمنا فقال \u200f"\u200f أو مسلما \u200f"\u200f\u200f.\u200f ثم غلبني ما أعلم منه فعدت لمقالتي وعاد رسول الله صلى الله عليه وسلم ثم قال \u200f"\u200f يا سعد، إني لأعطي الرجل وغيره أحب إلى منه، خشية أن يكبه الله في النار \u200f"\u200f\u200f.\u200f ورواه يونس وصالح ومعمر وابن أخي الزهري عن الزهري\u200f.\u200f'

In [54]:
data.drop('id',inplace=True,axis=1)
data.drop('hadith_id',inplace=True,axis=1)
data.drop('chain_indx',inplace=True,axis=1)


In [55]:
data.info()
pd.unique(data['source'])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34441 entries, 0 to 34440
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   source      34441 non-null  object
 1   chapter_no  34441 non-null  int64 
 2   hadith_no   34441 non-null  object
 3   chapter     34441 non-null  object
 4   text_ar     34433 non-null  object
 5   text_en     33588 non-null  object
dtypes: int64(1), object(5)
memory usage: 1.6+ MB


array([' Sahih Bukhari ', ' Sahih Muslim ', " Sunan Abi Da'ud ",
       " Jami' al-Tirmidhi ", " Sunan an-Nasa'i ", ' Sunan Ibn Majah '],
      dtype=object)

In [56]:

data['source_english'] = data['source'].copy()
data['source'].replace(to_replace =' Sahih Bukhari ',
                 value ="صحيح البخاري", regex=True, inplace=True)
data['source'].replace(to_replace =' Sahih Muslim ',
                 value ="صحيح مسلم", regex=True, inplace=True)
data['source'].replace(to_replace =" Sunan Abi Da'ud ",
                 value ="سنن أبي داود", regex=True, inplace=True)
data['source'].replace(to_replace =" Jami' al-Tirmidhi ",
                 value ="سنن الترمذي", regex=True, inplace=True)
data['source'].replace(to_replace =" Sunan an-Nasa'i ",
                 value ="سنن النسائي", regex=True, inplace=True)
data['source'].replace(to_replace =' Sunan Ibn Majah ',
                 value ="سنن ابن ماجه", regex=True, inplace=True)


In [57]:
pd.unique(data['source_english'])


array([' Sahih Bukhari ', ' Sahih Muslim ', " Sunan Abi Da'ud ",
       " Jami' al-Tirmidhi ", " Sunan an-Nasa'i ", ' Sunan Ibn Majah '],
      dtype=object)

In [58]:
pd.unique(data['source'])


array(['صحيح البخاري', 'صحيح مسلم', 'سنن أبي داود', 'سنن الترمذي',
       'سنن النسائي', 'سنن ابن ماجه'], dtype=object)

In [59]:
data.drop('hadith_no',inplace=True,axis=1)

In [60]:
#getting rid of html source characters: \u200f.\u200f \u200f{\u200f \u200f"\u200f\u200f.\u200f 

data['text_ar'].replace(to_replace ='\u200f"\u200f ',
                 value ="", regex=True, inplace=True)
data['text_ar'].replace(to_replace ='\u200f.\u200f',
                 value ="", regex=True, inplace=True)
data['text_ar'].replace(to_replace ='\u200f{\u200f',
                 value ="", regex=True, inplace=True)
data['text_ar'].replace(to_replace ='\u200f"\u200f\u200f.\u200f ',
                 value ="", regex=True, inplace=True)
data['text_en'].replace(to_replace ='\'',
                 value ="", regex=True, inplace=True)

In [61]:
data['text_ar'][5908]

'حدثنا محمد بن المثنى، حدثنا يحيى، عن هشام، قال أخبرني أبي، عن زينب بنت أم سلمة، عن أم سلمة، أن أم سليم، قالت يا رسول الله إن الله لا يستحي من الحق، هل على المرأة غسل إذا احتلمت قال نعم إذا رأت الماء  فضحكت أم سلمة فقالت أتحتلم المرأة فقال النبي صلى الله عليه وسلم فبم شبه الولد '

In [62]:
data['text_en'][5908]

' Narrated Zainab bint Um Salama:                     Um Sulaim said, "O Allahs Apostle! Verily Allah is not shy of (telling you) the truth. Is it essential for a woman to take a bath after she had a wet dream (nocturnal sexual discharge)?" He said, "Yes, if she notices discharge. On that Um Salama laughed and said, "Does a woman get a (nocturnal sexual) discharge?" He said, "How then does (her) son resemble her (his mother)?"'

In [63]:
cols = data.columns.tolist()
cols

['source', 'chapter_no', 'chapter', 'text_ar', 'text_en', 'source_english']

In [64]:
data = data[['source', 'source_english', 'chapter_no', 'chapter', 'text_ar', 'text_en']]

In [65]:
data[:10]

Unnamed: 0,source,source_english,chapter_no,chapter,text_ar,text_en
0,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا الحميدي عبد الله بن الزبير، قال حدثنا سف...,Narrated Umar bin Al-Khattab: ...
1,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا عبد الله بن يوسف، قال أخبرنا مالك، عن هش...,Narrated Aisha: ...
2,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا يحيى بن بكير، قال حدثنا الليث، عن عقيل، ...,Narrated Aisha: (the mo...
3,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,قال ابن شهاب وأخبرني أبو سلمة بن عبد الرحمن، أ...,Narrated Jabir bin Abdullah Al-Ansari while t...
4,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا موسى بن إسماعيل، قال حدثنا أبو عوانة، قا...,Narrated Said bin Jubair: ...
5,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا عبدان، قال أخبرنا عبد الله، قال أخبرنا ي...,Narrated Ibn Abbas: ...
6,صحيح البخاري,Sahih Bukhari,1,Revelation - كتاب بدء الوحى,حدثنا أبو اليمان الحكم بن نافع، قال أخبرنا شعي...,Narrated Abdullah bin Abbas: ...
7,صحيح البخاري,Sahih Bukhari,2,Belief - كتاب الإيمان,حدثنا عبيد الله بن موسى، قال أخبرنا حنظلة بن أ...,Narrated Ibn Umar: ...
8,صحيح البخاري,Sahih Bukhari,2,Belief - كتاب الإيمان,حدثنا عبد الله بن محمد، قال حدثنا أبو عامر الع...,Narrated Abu Huraira: ...
9,صحيح البخاري,Sahih Bukhari,2,Belief - كتاب الإيمان,حدثنا آدم بن أبي إياس، قال حدثنا شعبة، عن عبد ...,Narrated Abdullah bin Amr: ...


In [70]:
# Create a DataFrame object
dfObj = pd.DataFrame(data, columns=['text_ar','text_en'])

# Find duplicate rows
duplicateDFRow = dfObj[dfObj.duplicated(['text_en'])]
print('number of duplicates:',len(duplicateDFRow))

number of duplicates: 1090


In [71]:
#we found out there's duplicates in our data so let's drop them
data = data.drop_duplicates(subset='text_en', keep="first")


In [73]:
data.to_csv('data/hadith_processed.csv')

In [74]:
 
def csv_to_json(csvFilePath, jsonFilePath):
    jsonArray = []
      
    #read csv file
    with open(csvFilePath, encoding='utf-8') as csvf: 
        #load csv file data using csv library's dictreader
        csvReader = csv.DictReader(csvf) 

        #convert each csv row into python dict
        for row in csvReader: 
            #add this python dict to json array
            jsonArray.append(row)
  
    #convert python jsonArray to JSON String and write to file
    with open(jsonFilePath, 'w', encoding='utf-8') as jsonf: 
        jsonString = json.dumps(jsonArray, indent=4)
        jsonf.write(jsonString)
          
csvFilePath = r'data/hadith_processed.csv'
jsonFilePath = r'data/json_hadith.json'
csv_to_json(csvFilePath, jsonFilePath)