In [1]:
import numpy as np
import pandas as pd
import re

In [2]:
#Function to remove all unnecessary charachters
def extract_arabic_and_english_numerics(text):
    arabic_pattern = r'[^a-zA-Z\s0-9]+'
    numeric_pattern = r'\d+'
    combined_pattern = f'({arabic_pattern}|{numeric_pattern})'
    
    matches = re.findall(combined_pattern, text)
    
    extracted_text = ' '.join(matches)
    
    return extracted_text

In [3]:
def Data_Cleaning(data):
    
    #Drop the ID column
    data = data.drop('ID', axis=1)
    
    
    #Drop NULL values
    data = data.dropna()
    
    
    #Drop Answers that includes external unaccessible references
    answers = []
    answers+=list(data[data['ans'].str.contains('انظر إلى الفتوى')].index)
    answers+=list(data[data['ans'].str.contains('انظر إلى الفتاوى')].index)
    answers+=list(data[data['ans'].str.contains('رقم:')].index)
    answers+=list(data[data['ans'].str.contains('فتوى رقم')].index)
    answers+=list(data[data['ans'].str.contains('فتاوى رقم')].index)
    answers+=list(data[data['ans'].str.contains('الفتاوى التالية')].index)
    answers+=list(data[data['ans'].str.contains('الفتوى التالية')].index)
    answers+=list(data[data['ans'].str.contains('راجع الفتاوى')].index)
    answers+=list(data[data['ans'].str.contains('راجع الفتوى')].index)
    data = data.drop(index=answers, axis=0)
    
    
    #Drop column contain ambigious charachters
    data = data.drop(index=84488, axis=0)
    
    
    #Clean Text from unnecessary charachters eg. (\x0, u210)
    data['ans'] = data['ans'].apply(extract_arabic_and_english_numerics)
    data['ques'] = data['ques'].apply(extract_arabic_and_english_numerics)
    data['title'] = data['title'].apply(extract_arabic_and_english_numerics)
    
    
    #Drop every answer that is less than 118 charachters (incomplete answer)
    incomplete = []
    for i in range(len(data)):
        if len(data['ans'].iloc[i]) < 118:
            incomplete.append(i)
            
    incomplete = list(data.iloc[incomplete].index)
    data = data.drop(index=incomplete, axis=0)
    
    
    #Make sure that the data is as 'str' type and drop duplicate records
    data = data.astype(str)
    data.drop_duplicates(inplace=True)
    
    
    
    return data 

In [4]:
df = pd.read_csv("C:\\Users\\joead\\OneDrive\\Desktop\\Project مَرجِعنا\\88kData (1).csv")

In [5]:
cleaned_data = Data_Cleaning(df)

In [6]:
cleaned_data

Unnamed: 0,title,ques,ans
0,الشراء عن طريق البنوك الربوية حرام,ما حكم شراء السيارة بالأقساط المريحة من بنك رب...,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
1,لابد من حصر الورثة لتتم قسمة التركة بصورة شرعية,امرأة توفيت ولها مبلغ من المال ، ولها زوج طاعن...,الحمد لله والصلاة والسلام على رسول الله وآله و...
2,لا ينبغي للموظف أن يخالف الشرع ليحصل على إجازة,ما حكم الإجازات المرضية فى حالة مرض أولادي ؟,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
3,أحكام سجود السهو,ما هو سجود السهو ، كيفيته، ووقته؟ وما حكم من ش...,الحمد لله والصلاة والسلام على رسول الله وآله و...
4,إذا أرضعت الأخت أخاها صار ابناً لها,هل يمكن للأخت أن ترضع أخاها، في حال مرض الأم؟ ...,الحمد لله والصلاة والسلام على رسول الله وآله و...
...,...,...,...
88547,ضعف الإيمان والتفريط في العبادة.. عقوبة أم ابتلاء,عندما كنت فتاة غير متزوجة كنت كثيرة الدعاء بأن...,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
88553,أقسام المياه التي لا يصح التطهر بها,الماء الذي لايصح التطهر به مطلقا هل هو الماء ا...,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
88557,تخطي الرقاب حال الخطبة لأجل السماع والكلام لمن...,المكان الذي جلسنا فيه ونحن نستمع لخطبة الجمعة ...,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
88558,سفر المرأة بدون محرم لزيارة أهلها.. رؤية شرعية,هل يجوز السفر بدون محرم للضرورة كسفر مقيمة في ...,الحمد لله والصلاة والسلام على رسول الله وعلى آ...
