In [None]:
#-- Needed imports
import pandas as pd
import numpy as np

#-- set the dataframe width to infinity
pd.set_option('display.max_colwidth', None)
#-- set dataframes gloat numbers to 5 decimal points
pd.set_option('display.float_format', lambda x: '%.5f' % x)

# kldha Dataset

In [None]:
#-- Read scraped kldha sayings into a datafram
with open('scraping data/kldha.com/kldha.com_sayings.txt') as file:
    lines = [line.rstrip() for line in file]

df1 = pd.DataFrame(lines)
df1.columns = ['col']

In [None]:
df1.shape

(10613, 1)

In [None]:
df1.head()

Unnamed: 0,col
0,
1,الصادق لا يَحلف، و الوَاثِق لا يُبرر، والمُخلص لا يندم، والكريم لا يمنُن، والمُحِب لا يَمل. - كاتب غير معروف
2,الحقيقة نادراً ماتكون نقية ويستحيل أن تكون بسيطة. - كاتب غير معروف
3,لا شيء يظهر شخصية المرء أكثر من الأشياء التي تضحكه. - يوهان غوته
4,لا يضل من يسير على طريق مستقيم. - يوهان غوته


In [None]:
#-- skip first empty row
df1 = df1.iloc[1:, :]

In [None]:
#-- drop null rows
df1 = df1.dropna()
df1.shape

(10612, 1)

In [None]:
#-- drop duplicated rows
df1 = df1.drop_duplicates()
df1.shape

(10067, 1)

In [None]:
#-- to remove the author names, we first split the df col column by `-`
df1 = df1['col'].str.split('-').to_frame()
#-- if the splited list length is less than 3 pick the first element of the list. 
#-- Otherwise, pick everything in the list except the first element
df1 = df1['col'].apply(lambda x: x[0] if len(x) < 3 else x[:-2]).to_frame()

In [None]:
df1['col'][1]

'الصادق لا يَحلف، و الوَاثِق لا يُبرر، والمُخلص لا يندم، والكريم لا يمنُن، والمُحِب لا يَمل. '

In [None]:
#-- create a source column to help track which saying came from what dataset after combining everything into a single dataframe
df1['source'] = 'df1'

In [None]:
df1.sample(10)

Unnamed: 0,col,source
3263,لا ترفع صورة سياسي حي .. ارفع صورة من استشهد، لأن الشهداء ليس لديهم وقت للتراجع عن مواقفهم ووعودهم. مريد البرغوثي في ذمة الله,df1
6598,يختلف المتعلم عن الجاهل بقدر اختلاف الحي عن الميت.,df1
5635,السمكة القوية وحدها هي التي تقدر على السباحة عكس التيار، بينما أي سمكة ميتة يمكنها أن تطفو على الوجه.,df1
6018,يجب أن تثق بنفسك .. و اذا لم تثق بنفسك، فمن ذا الذي سيثق بك ؟.,df1
5837,الأعمال السيئة تضاعفها كلمة شريرة.,df1
3227,أنتم إلى إمام فعّال أحوج منكم إلى إمام قوّال.,df1
1365,لقد أخذت من الخمر أكثر مما أخذت مني.,df1
955,تقاس ثروة الإنسان بعدد الأشياء التي يستطيع الاستغناء عنها.,df1
2017,الأشياء الصغيرة تسلي العقول الصغيرة.,df1
728,عواطفنا كالماء والنار: خدم جيدون، وأسياد سيئون.,df1


# hekm.net Dataset

In [None]:
#-- Read scraped hekm sayings into a datafram
with open('scraping data/hekm.net/hekm.net_sayings.txt') as file:
    lines = [line.rstrip() for line in file]

df2 = pd.DataFrame(lines)
df2.columns = ['col']

In [None]:
df2.sample(10)

Unnamed: 0,col
70489,دقيقة في التفكير اكثر قيمة من ساعة من الحديث.
49116,كل يوم يمر عليك هو نقص في وقودك لرحلة الآخرة
72230,البحث عن السعادة يفضي دائما إلى الحزم والشقاء
14403,الحرب لا تؤذي احدا سوى اولئك الذين قضوا فيها.
74944,يتوق الشعب البحريني إلى الحصول على حقائق تمكنه من تشكيل رأي وطني شامل دون تقسيم بين شعبه. نؤكد لجميع الصحفيين والإعلاميين في مملكة البحرين أن حريتهم محفوظة وتتم حماية حقوقهم.
17245,إن مصير القدس يعطي المسلمين اكبر ثقة و أمل في أن ينتصر الحق على الباطل و الطغيان
97949,"صارت المجازر الجماعية وإبادة الأمم جهاداً , ونهب الشعوب زكاةً , وطواغيت الأرض أصفياء الله , وأعداء الإنسانية أحباء الله المخلصين."
2757,ما نسميه تعليم وثقافة هو لا شئ إلا استبدال التجربة بالقراءة، والحياة بالأدب، والواقع المعاصر بالخيال المحض.
86968,كلما زادت نسبة غباء الفرد زادت رغبته في التكاثر.
84839,أولئك الذين عانوا أكثر ، عانوا الكثير لدرجة أنهم لم يعودوا يكرهون. الكراهية أكثر بالنسبة إلى أولئك الذين لديهم ضمير مذنب قليلاً ، والذين يرغبون في مضغ الكراهية القديمة في أوقات السلم في إثبات كم كانوا عظماء أثناء الحرب.


In [None]:
#-- remove peotry
df2 = df2[~df2['col'].str.contains('\*\*\*')]

In [None]:
df2.shape

(96378, 1)

In [None]:
df2.head()

Unnamed: 0,col
0,
1,لا تطلب سرعة العمل بل تجويده لأن الناس لا يسألونك في كم فرغت منه بل ينظرون إلى إتقانع و جودة صنعه
2,إن تعليم الناس وتثقيفهم في حدّ ذاته ثروة كبيرة نعتز بها، فالعلم ثروة ونحن نبني المستقبل على أساس علمي.
3,من وطن قلبه عند ربه سكن واستراح، ومن أرسله في الناس اضطرب واشتد به القلق.
4,«يأتي على الناس زمان لا يبالي المرء ما اخذ، امن الحلال أم من الحرام»


In [None]:
#-- skip first empty row
df2 = df2.iloc[1:, :]

In [None]:
#-- drop null rows
df2 = df2.dropna()
df2.shape

(96377, 1)

In [None]:
#-- drop duplicated rows
df2 = df2.drop_duplicates()
df2.shape

(40767, 1)

In [None]:
#-- create a source column to help track which saying came from what dataset after combining everything into a single dataframe
df2['source'] = 'df2'

# arabic-quotes.com Dataset

In [None]:
#-- Read scraped arabic-quotes sayings into a datafram
with open('scraping data/arabic-quotes.com/arabic-quotes.com_sayings.txt') as file:
    lines = [line.rstrip() for line in file]

df3 = pd.DataFrame(lines)
df3.columns = ['col']

In [None]:
df3

Unnamed: 0,col
0,
1,اذا لم يكن لديك هدف ، فاجعل هدفك الاول ايجاد واحد .
2,عندما يصبح البحر ساكناً ، يصبح الجميع بحارة ماهرين .
3,لا تكن ممن يلعن ابليس علانية و يطيعه سرا .
4,ما دمت مؤمناً بهدفك و متوكلا على الله ، فانك ستتحول الى مغناطيس جبار ، يجتذب اليه كل ما هو ضروري من الاشياء و الاحداث و الاشخاص و المعلومات لتحقيق هذا الهـدف .
...,...
3658,ليس المستقبل الا الماضي في حالة تحضير و تهيئة .
3659,الناس لايختارون مهنهم، بل مهنهم تجذبهم إليها.
3660,يمكن للأعمال المنزلية أن تقتلك إذا حاولت القيام بها على أكمل وجه.
3661,المفارقة التي تتميز بها القراءة تكمن بمقدرتها على إبعادنا عن العالم حتى نتمكن من فهم معنى ما يدور من حولنا.


In [None]:
df3.shape

(3663, 1)

In [None]:
df3.head()

Unnamed: 0,col
0,
1,اذا لم يكن لديك هدف ، فاجعل هدفك الاول ايجاد واحد .
2,عندما يصبح البحر ساكناً ، يصبح الجميع بحارة ماهرين .
3,لا تكن ممن يلعن ابليس علانية و يطيعه سرا .
4,ما دمت مؤمناً بهدفك و متوكلا على الله ، فانك ستتحول الى مغناطيس جبار ، يجتذب اليه كل ما هو ضروري من الاشياء و الاحداث و الاشخاص و المعلومات لتحقيق هذا الهـدف .


In [None]:
#-- skip first empty row
df3 = df3.iloc[1:, :]

In [None]:
#-- drop null rows
df3 = df3.dropna()
df3.shape

(3662, 1)

In [None]:
#-- drop duplicated rows
df3 = df3.drop_duplicates()
df3.shape

(3382, 1)

In [None]:
df3.head()

Unnamed: 0,col
1,اذا لم يكن لديك هدف ، فاجعل هدفك الاول ايجاد واحد .
2,عندما يصبح البحر ساكناً ، يصبح الجميع بحارة ماهرين .
3,لا تكن ممن يلعن ابليس علانية و يطيعه سرا .
4,ما دمت مؤمناً بهدفك و متوكلا على الله ، فانك ستتحول الى مغناطيس جبار ، يجتذب اليه كل ما هو ضروري من الاشياء و الاحداث و الاشخاص و المعلومات لتحقيق هذا الهـدف .
5,المهزوم اذا ابتسم ، افقد المنتصر لذة الفوز .


In [None]:
#-- create a source column to help track which saying came from what dataset after combining everything into a single dataframe
df3['source'] = 'df3'

# Hada'aeq Alhekma book

In [None]:
#-- Read  hadaeq alhekma sayings into a datafram
with open("hadaeq alhekma.txt") as file:
    lines = [line.rstrip() for line in file]

df4 = pd.DataFrame(lines)
df4.columns = ['col']

In [None]:
df4.shape

(6124, 1)

In [None]:
df4.head()

Unnamed: 0,col
0,١ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
1,... ... ... ...
2,ـ فـي الارادة ...
3,٢ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
4,المهاتما غاندي


## Replacments

In [None]:
df4 = df4[df4['col']!= '... ... ... ...'] #-- remove any row that has only dots sayings
df4 = df4[df4['col']!= '.......................................'] #-- remove any row that has only dots sayings
df4 = df4[~(df4['col'].str.endswith('...')) | ~(df4['col'].str.startswith('ـ'))] #-- remove chapters' names
df4['col'] = df4['col'].replace('...', ' ') #-- replace any ... with a space
df4['col'] = df4['col'].str.strip() #-- strip any spaces in the sayings
df4['col'] = df4['col'].replace(['١','٢','٣','٤','٥','٦','٧','٨','٩','٠'],
                                ['1','2','3','4','5','6','7','8','9', '0'], regex=True) #-- convert arabic number to english number

## Remove pages number

In [None]:
#-- find dayings that contain book's pages numbers and set the page number to a new column called `pages`
df4['pages'] = df4['col'].str.findall('\d+$')
df4['pages'] = df4['pages'].apply(lambda x: np.nan if len(x)==0 else np.int(x[0]) )

#-- Remove pages numbers from the sayings using regex
df4['col'] = df4['col'].replace('\d+$', '', regex=True)

In [None]:
df4.head(30)

Unnamed: 0,col,pages
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .,
3,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .,
4,المهاتما غاندي,
5,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ،,
6,و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .,
7,جون تشارلز سالاك,
8,4ـ الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في,
9,داخلهم ، هي الارادة و الحلم و الرؤية .,
10,محمد علي كلاي,
11,5ـ لا أملك الارادة .. عبارة يتوارى خلفها العاجزون .,


In [None]:
df4 = df4[['col']]

In [None]:
df4.head()

Unnamed: 0,col
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
3,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
4,المهاتما غاندي
5,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ،
6,و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .


## Remove authors names

In [None]:
#-- Finding all repeated rows in the `col` column
authors = df4[df4.duplicated(keep=False)]['col'].unique().tolist()
authors

['المهاتما غاندي',
 'جون تشارلز سالاك',
 'محمد علي كلاي',
 'نابليون بونابرت',
 'ناصر العمر',
 'طاغور',
 'مايكل جوردن',
 'دوايت ايز\ue815اور',
 'ضاً',
 'آرثر شوبنهاور',
 'لم',
 'أبو الطيب المتنبي',
 'روبرت شولر',
 'توماس اديسون',
 'ديل كارنيجي',
 'صموئيل جونسون',
 'جورج باتون',
 'عمر المختار',
 'ابراهام لنكولن',
 'اندرو كارنيجي',
 'قول عربي مأثور',
 'مية',
 'ابن تي',
 'ابراهيم الفقي',
 'جان جاك روسو',
 'ابن سينا',
 'بول سويني',
 'ارسطو',
 'رالف والدو امرسون',
 'روجر فريتس',
 'اغسطس هير',
 'فرجيل',
 'مصطفى السباعي',
 'جوهان ولفجانج فون جوته',
 'توماس كارليل',
 'هنري فورد',
 'فينس لومباردي',
 'يمان السباعي',
 'كونفوشيوس',
 'جبران خليل جبران',
 'جيروم',
 'نورمان فنسنت بيل',
 'فكتور هوجو',
 'ساً',
 'ستيفن كوفي',
 'مارك توين',
 'ونستون تشرشل',
 'هيلين كيلر',
 'ابن القيم',
 'االله .',
 'صلاح الدين الايوبي',
 'فريدريك شيلر',
 'سي اس لويس',
 'راجي الراعي',
 'جورج برناردشو',
 'وليام شكسبير',
 'ما',
 'اندريه موروا',
 'ايمانويل كانت',
 'هنري كيسنجر',
 'ادولف هتلر',
 'عن رواية اخرج منها يا ملعون ـ 

In [None]:
#-- Manually identy the non-authors ones
not_authors = ['ضاً', 'لم', 'مية', 'ابن تي', 'ساً', 'االله .', 'ما',
              'بنفسك .', 'نية', 'ية', 'مة', 'نسية', 'مقولة فر',
              'ها', 'لها', 'با', 'منه .', 'يا', 'الحياة .', 'هم']

In [None]:
#-- remove the non-authors names from the authors list
authors = [a for a in authors if a not in not_authors ]
df4 = df4[~df4['col'].isin(authors)]df4.shape

(4856, 1)

In [None]:
df4.head()

Unnamed: 0,col
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
3,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
5,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ،
6,و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .
8,4ـ الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في


## Remove sayings number

In [None]:
#-- create a `q_num` to know the sayings that have numbers at the begining using regex
df4['q_num'] = df4['col'].str.extract(r'(^\d+)')[0]
#-- Apply forward-fill pandas fucntion on the `q_num` column to set a number for each saying
df4['q_num'] = df4['q_num'].ffill()

In [None]:
#-- Find all duplicated rows in `q_num` column
duplicated_rows_num = df4[df4['q_num'].duplicated()]['q_num'].tolist()

In [None]:
#-- Loop over each unique saying number 
for dup_num in duplicated_rows_num:
    dup_rows = df4[df4['q_num']==str(dup_num)] #-- pick all saying with that number
    combined_text = ' '.join(dup_rows['col'].tolist()) #-- remove the number and concate the rest of the sayings
    df4.loc[df4['q_num']==str(dup_num),'col'] = combined_text 
df4 = df4.drop_duplicates()

In [None]:
df4.head()

Unnamed: 0,col,q_num
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .,1
3,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .,2
5,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ، و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .,3
8,4ـ الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في داخلهم ، هي الارادة و الحلم و الرؤية .,4
11,5ـ لا أملك الارادة .. عبارة يتوارى خلفها العاجزون .,5


In [None]:
df4.shape

(2825, 2)

In [None]:
df4 = df4[['col']]

In [None]:
df4.head()

Unnamed: 0,col
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
3,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
5,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ، و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .
8,4ـ الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في داخلهم ، هي الارادة و الحلم و الرؤية .
11,5ـ لا أملك الارادة .. عبارة يتوارى خلفها العاجزون .


In [None]:
#-- export all df4 dataset as text for manual revision and fixes
np.savetxt(r"hada'aeq alhekma to preprocess.txt", df4.values, fmt='%s')

In [None]:
# Read the hada'aeq alhekma again after the revision applied
with open("hada'aeq alhekma to preprocess manually__reviewed.txt") as file:
    lines = [line.rstrip() for line in file]

df4 = pd.DataFrame(lines)
df4.columns = ['col']

In [None]:
df4.head()

Unnamed: 0,col
0,1ـ في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
1,2ـ القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
2,3ـ لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ، و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .
3,4ـ الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في داخلهم ، هي الارادة و الحلم و الرؤية .
4,5ـ لا أملك الارادة .. عبارة يتوارى خلفها العاجزون .


In [None]:
# remove any sayings that starts with a number and under score sign
df4['col'] = df4['col'].str.replace(r'\d+\ـ', '' ,regex=True)

In [None]:
df4.head()

Unnamed: 0,col
0,في داخل كل منا أسد رابض ، المسألة فقط أن نقوم باستفزازه و اخراجه .
1,القوة لا تأتي من مقدرة جسمانية ، بل تأتي بها ارادة لا تقهر .
2,لا يصل الناس الى حديقة النجاح ، دون ان يمروا بمحطات التعب و الفشل و اليأس ، و صاحب الارادة القوية لا يطيل الوقوف في هذه المحطات .
3,الابطال لا يصنعون فى صالات التدريب .. الابطال يصنعون من اشياء عميقة في داخلهم ، هي الارادة و الحلم و الرؤية .
4,لا أملك الارادة .. عبارة يتوارى خلفها العاجزون .


In [None]:
#-- create a source column to help track which saying came from what dataset after combining everything into a single dataframe
df4['source'] = 'df4'

# Combine all datasets

In [None]:
#-- combine all dataframes 
df = pd.concat([df1, df2, df3, df4], ignore_index=False)

In [None]:
df.shape

(57021, 2)

In [None]:
#-- strip al sayings
df['col'] = df['col'].str.strip()

In [None]:
#-- remove any duplicated saying
df = df.astype(str).drop_duplicates()
df.astype(str).drop_duplicates().shape

(56737, 2)

# investigating characters

## unique_chars

In [None]:
#-- finding all unique characters in the sayings
print('Running cell will take about 40 secs to complete')
unique_chars = df.astype(str).applymap(list)['col'].apply(pd.Series).stack().unique()
unique_chars = sorted(unique_chars)
unique_chars 

## english_chars

In [None]:
#-- English charcters list
english_chars = ['A','B','C','D','E','G','H', 'I','K','L','M','N','O','P','Q', 'R','S','T','U', 'V', 'W','X','Y', 'Z',
                'a','b','c','d','e','f','g','h','i','k','l','m','n','o','p','r','s','t','u','v','x','y','z',]

#-- previewing what sayings have english charcters in them
df_eng_chars = df[df['col'].str.contains('|'.join(english_chars))].copy()
df_eng_chars

In [None]:
#-- Keep only sayings with Araabic charcters 
df = df[~df.index.isin(df_eng_chars.index)]

## emojis

In [None]:
#-- emojis found in the unique charcters list
emojis = ['♥', '✨', '❤', '🌚', '🌹', '🍂', '🎙', '💐', '💔', '📚', '🖤', '😂', '😔', '🙂']
#-- previewing what sayings have emojis charcters in them
df_emojis = df[df['col'].str.contains('|'.join(emojis))].copy()
df_emojis

Unnamed: 0,col,source
4988,"""جرب أن تصلي الوتر قبل الفجر، واجلس على سجادتك واذكُر ربّك، ثم يدخل عليك الفجر وأنت تستغفر وتسبح؛ فتُردّد مع الأذان ثم تقوم فتصلِّ الفجر، تمسك مصحفك تقرأ وردك حتى ما إن تشرق الشمس إلا وقد أشرق نور وجهك وانشرح صدرك، وسكن النور قلبك، وليتكرر المشهد يوميًا ثم هنيئًا لك ولعيشك""❤️❤️❤️",df1
5201,أين التي هيَ مِثلُ الظبيِ إن بَرَزَتْ مِن دُميةٍ ذاتِ أَصباغٍ وأَعلاقِ ما مَسّها مُوسُ جرّاحٍ ولا سَلَختْ أنْفاً ولا نَفَختْ خَدّاً كـ «إيرْباقِ» نفسي الفداءُ لأعرابيةٍ رُزِقَتْ كلَّ الجَمالِ وصانتْهُ بأخلاقِ هذي الحضارةُ لا ما تدّعي أُممٌ ممسوخةُ الرُّوحِ لم تَركعْ لخلّاقِ 💐,df1
5787,هل تعلم ماهو سبب حزنك ياصديقي انك تقارن علمك باشخاص يفوقوك سنًا و يفوقوك تجارب وخبرة .. لا تقارن نفسك بشخص اخر قارن نفسك بنفسك في السابق فقط هل انا طورت من نفسي هل حصيلتي العلمية اصبحت افضل (لا تكن قاسي على نفسك)♥️✨,df1
7676,الردود التي ترفع ضغطك وتثير غضبك، أجّل الرد عليها إلى وقت لاحق، وستلاحظ فيما بعد أنها لا تستحق الاهتمام وأنك قد سلمت من النزول إلى مستوىً لا يليق بك حين سكت عنها. التحكم في الانفعال دليل نضج. 🌹,df1
8111,﴿لا يعلمون الكتاب إلا أمانيّ.. ﴾ ﴿تلك أمانيِّهم..﴾ ﴿ ليس بأمانيِّكم ولا أمانيِّ أهل الكتاب..﴾ كل يتمنّى على الله الأماني، والله ينظر في قلوب العباد، فيصطفي بحكمته من يشاء، ويخذل من يشاء. نعوذ بالله من الخذلان..🍂,df1
8199,وإن سألوك عن الحب فقل أهناك أصدق ممن أوكل الله لها الحمل و الإرضاع لطفلٍ ينهش لحمها وينخر عظمها ويهلك جمالها وتبقى تحبه إلى الأبد .! ❤️,df1
8278,ثم ينادي منادٍ يا أهلَ الجنَّة : خلود بلا موت اللهم هذه المنزلة، وهذا النّداء ♥️,df1
8283,"الأمنية الأولى والأخيرة : "" اللهم لا تأخذني عصياً وخذني تواباً نقياً آينما مت وكيفما مت ""🖤〰️",df1
8433,في قاموس الهدايا والحظ والحب لقيت اسمي مشخبطين عليه🌚💔,df1
9579,"التوكل في أعمق معانيه : ""هو أن يكون لديك إيمان كامل بأن الله سيهتمُ بك حتى عندما تبدو الأمورُ مستحيلة ♥️",df1


In [None]:
#-- Keep only sayings that don't have emojis in them
df = df[~df.index.isin(df_emojis.index)]

In [None]:
df

Unnamed: 0,col,source
1,الصادق لا يَحلف، و الوَاثِق لا يُبرر، والمُخلص لا يندم، والكريم لا يمنُن، والمُحِب لا يَمل.,df1
2,الحقيقة نادراً ماتكون نقية ويستحيل أن تكون بسيطة.,df1
3,لا شيء يظهر شخصية المرء أكثر من الأشياء التي تضحكه.,df1
4,لا يضل من يسير على طريق مستقيم.,df1
5,انظر إلى الرجل حين يتكلم، فإن لسانه يغترف لك مما في قلبه: حلو أو حامض أو عذب أو أجاج وغير ذلك، ويبين لك طعم قلبه اغتراف لسانه.,df1
...,...,...
2800,الحق يحتاج إلى رجلين .. رجل ينطق به و رجل يفهمه .,df4
2801,لا تترك الحق ، لانك متى تركت الحق فانك لا تتركه إلا الى الباطل . ـ و لا تنس أخيراً ...,df4
2802,أن قراءتك للحكم و المقولات المأثورة ، تعني ان تنـمي ثقافـتك و آفـاقك و مدارات تفكيرك .. لا أن تأخذها بنصوصها معك الى ميدان الحياة و العمل .,df4
2803,عليك بالمران العقلي .. لكي تتمكن من اكتساب )بديهة( تتيح لك استخدام المبدأ المناسب او الحكمة المناسبة في الظرف الملائم .,df4


## unicode_chars

In [None]:
#-- list of unicode found in the unique characters list
unicode_chars = ['\xa0', '\u200b', '\u200c', '\u200e', '\u200f','\u202b', '\u202c', '\ufeff', '\ue812'
                        
                'ً', 'ٌ', 'ٍ', 'َ', 'ُ','ِ', 'ّ', 'ْ','','', '']

#-- previewing what sayings have emojis charcters in them   
df_unicode = df[df['col'].str.contains('|'.join(unicode_chars))].copy()
df_unicode

Unnamed: 0,col,source
1,الصادق لا يَحلف، و الوَاثِق لا يُبرر، والمُخلص لا يندم، والكريم لا يمنُن، والمُحِب لا يَمل.,df1
16,إن الآثام التي يأتي بها الإنسان في حياته غالباً ما تُذكر بعد وفاته، ولكن أعماله الحميدة تدفن كما يدفن جسده وتنسى.,df1
17,لا تطلب الفتاة من الدنيا إلا زوجاً، فإذا جاء طلبت منهُ كل شيء.,df1
25,يولد الأصدقاء ولا يُصنعون.,df1
38,ليست الألقاب هي التي تشرّف الرجال، بل الرجال هم الذين يشرّفون الألقاب.,df1
...,...,...
2499,من لا يعرفون الشر لا يشكـّون في أحد .,df4
2575,في يوم ما ، إذا خـ ُلق فنان في بلادنا و عرف معنى القهر و الغيظ معا ً ، و لحظة التحدي ، فسوف يجسد لحظات لا يمكن أن تتاح لأي فنان آخر في العالم .,df4
2587,إذا ذهب الحياة .. حلّ البلاء .,df4
2592,الخطُالحسن يزيد الحق وضوحاً .,df4


In [None]:
#-- Replacing the unicode with empty space
df = df.replace(unicode_chars, ['']*len(unicode_chars), regex=True)

In [None]:
df.shape

(56616, 2)

## compact_ara

In [None]:
#-- list of compact charcters found in the unique characters list
compact_ara = ['ﷲ', 'ﷺ','ﷻ']

#-- previewing what sayings have emojis charcters in them   
df_compact_ara = df[df['col'].str.contains('|'.join(compact_ara))].copy()
df_compact_ara

Unnamed: 0,col,source
4540,قد لاتجد الفرج في قارعة الأمل فيجمعك ﷲ به في نهاية طريق اليأس، وقد يأتيك العطاء من الباب الذي تجرعت منه مرارة الحرمان، وربما وجدت النجاة كامنةً بين أسباب الهلاك، وقد تعبر على جسر البلاء لتدرك نعمة العافية .. رب يخرج الحي من الميت؛ لايعجزه أن يبدل حالك من حيث لاتحتسب.,df1
8103,عن عبدالله بن مسعود رضي الله عنه قال : قال النبي ﷺ : من قرأ حرفًا من كتاب الله فله به حسنة، و الحسنة بعشر أمثالها، لا أقول الم حرف و لكن : ألف حرف، و لام حرف، و ميم حرف صحيح الجامع,df1
8104,عن أبي أمامة الباهلي قال سمعت رسول الله ﷺ يقول: ( اقرءوا سورة البقرة فإن أخذها بركة وتركها حسرة ولا تستطيعها البطلة ). رواه مسلم,df1
10586,رضيت بالله ربًا وبالإسلام دينًا وبمحمد ﷺ نبيًا ورسولا.. (3 مرات),df1
6222,استقامتك سبب في صلاح ذريتك… قال ﷻ : ( وأصلح لي في ذريتي إني تبت إليك و إني من المسلمين ) تب إلى الله من ذنوبك و استعن بالله في صلاح ذريتك,df2


In [None]:
#-- Replace the comapct charcters into their actual letters
df = df.replace(compact_ara, ["الله", "صلى الله عليه وسلم", "جل جلاله"], regex=True)

In [None]:
df.shape

(56616, 2)

## Arabic numbers

In [None]:
#-- list of arabic charcters found in the unique characters list
ara_numbers = ['٠','١','٢','٣','٤','٥','٦','٧','٨','٩', '٪']
ara_numbers

['٠', '١', '٢', '٣', '٤', '٥', '٦', '٧', '٨', '٩', '٪']

In [None]:
#-- list of arabic charcters with english ones
df = df.replace(ara_numbers, ['0','1','2','3','4','5','6','7','8','9', '%'], regex=True)

## Other chars

In [None]:
#-- list of other charcters found in the unique characters list
others = ['#','&','+','-','/','=','>','@', '«', '»','•', '…', '《', '》', '〰','ۖ', 'ۚ', 
          "!", '"', "'", "(", ")",  "{", "}", "~",
          '[', ']', ',', '؛','٭', '“', '”',  '﴾', '﴿', 'ـ', '–', '—',"-", '_', 
        # '|', #-- DO NOT REMOVE THIS CHARACTER AS IT WILL MESS UP THE WHOLE TEXT
         # '%',
         ]


In [None]:
#-- keep all sayings that have ** in them
df_others = df[df['col'].str.contains('\*\*')].copy()
df_others

Unnamed: 0,col,source
7596,صنت نفسي عما يدنس نفسي**وترفعت عن جدا كل جبس,df2
26583,و ما خير عيش لا يزال مفجعا**يموت نديم أو فراق حبيب؟,df2
29809,إذا ما العز أصبح في مكان**سموت له وإن بعد المزار,df2
31279,نعيب زمانناوالعيب فينا ** ومال زماننا عيب سواناونهجو ذا الزمان بغير ذنب ** ولو نطقالزمان لنا هجاناوليس الذئب يأكل لحم ذئب ** ويأكل بعضنا بعض عيانا,df2
33167,طاقوا على الدين تركوه**و تعاونوا على شريب القهاوي الثوب من فوق نقوه ** و الجبح من تحت خاوي,df2
35557,إذا لم تتعظ بالشيب نفسي**فما تغني عظات الواعظينا,df2
38232,يقولون: في الصبح الدعاء مؤثر**فقلت نهم لو كان ليلي له صبح,df2
46499,تمر بك الابطال كلمى هزيمة ** ووجهك وضاح وثغرك باسم,df2
53358,صمتنا فلن نترك مقاما لصامت**وقلنا فلم نترك مقالا لقائل,df2
53359,وقد وجدت مجال القول ذا سعة**فإن وجدت لسانا قائلا فقل,df2


In [None]:
df_others.shape

(13, 2)

In [None]:
#-- remove any sayings that have ** in them
df = df[~df.index.isin(df_others.index)]

In [None]:
df.shape

(56602, 2)

In [None]:
df['col'] = df['col'].replace(r'#\w+$', '', regex=True) #-- remove hashtags at the end on the document

In [None]:
#-- strip any saying of having spaces or _ at the begining or at the end
df['col'] = df['col'].str.strip('_')
df['col'] = df['col'].str.strip()

#-- set of replacments
df = df.replace('«', ' ', regex=True)
df = df.replace('»', ' ', regex=True)
df = df.replace('》', ' ', regex=True)
df = df.replace('《', ' ', regex=True)
df = df.replace('•', '.', regex=True)
df = df.replace('>', 'ذ', regex=True) #-- incorrect arabic letter
df = df.replace('>', 'ذ', regex=True) #-- incorrect arabic letter
df = df.replace('·', '\.', regex=True)
df = df.replace('’', ' .', regex=True)
df = df.replace('‘', ' .', regex=True)
df = df.replace('，', '،', regex=True)
df = df.replace('\*', ' ', regex=True)
df = df.replace(['ۖ', 'ۚ'], [' ', ' '], regex=True)
df = df.replace("\s\s+" , " ", regex=True) #-- remove multiple spaces into a single space

In [None]:
#-- replace set of charcters with space
for char in others:
    try:
        df = df.replace(char,' ', regex=True)
    except:
        df = df.replace('\{}'.format(char),' ', regex=True)

df = df.replace("\s\s+" , " ", regex=True) #-- remove multiple spaces into a single space
df['col'] = df['col'].str.strip() #-- strip sayings again

In [None]:
df.head()

Unnamed: 0,col,source
1,الصادق لا يحلف، و الواثق لا يبرر، والمخلص لا يندم، والكريم لا يمنن، والمحب لا يمل.,df1
2,الحقيقة نادراً ماتكون نقية ويستحيل أن تكون بسيطة.,df1
3,لا شيء يظهر شخصية المرء أكثر من الأشياء التي تضحكه.,df1
4,لا يضل من يسير على طريق مستقيم.,df1
5,انظر إلى الرجل حين يتكلم، فإن لسانه يغترف لك مما في قلبه: حلو أو حامض أو عذب أو أجاج وغير ذلك، ويبين لك طعم قلبه اغتراف لسانه.,df1


In [None]:
df.shape

(56602, 2)

## unifying some characters

In [None]:
#-- Keep only one unicode version of the characters
df = df.replace(['ء','ﺀ'],  ['ء'] * 2, regex=True)
df = df.replace(['ؤ' ,'ﺅ'], ['ؤ'] * 2, regex=True)
df = df.replace(['ت' ,'ﺕ'], ['ت'] * 2, regex=True)
df = df.replace(['ث' ,'ﺙ'], ['ث'] * 2, regex=True)
df = df.replace(['ج' ,'ﺝ'], ['ج'] * 2, regex=True)
df = df.replace(['د' ,'ﺩ'], ['د'] * 2, regex=True)
df = df.replace(['ذ' ,'ﺫ'], ['ذ'] * 2, regex=True)
df = df.replace(['ر' ,'ﺭ'], ['ر'] * 2, regex=True)
df = df.replace(['س' ,'ﺱ'], ['س'] * 2, regex=True)
df = df.replace(['ص' ,'ﺹ'], ['ص'] * 2, regex=True)
df = df.replace(['ط' ,'ﻃ'], ['ط'] * 2, regex=True)
df = df.replace(['ع' ,'ﻉ'], ['ع'] * 2, regex=True)
df = df.replace(['ق' ,'ﻕ'], ['ق'] * 2, regex=True)
df = df.replace(['ك','ﻙ'],  ['ك'] * 2, regex=True)
df = df.replace(['ل' ,'ﻝ'], ['ل'] * 2, regex=True)
df = df.replace(['ن' ,'ﻥ'], ['ن'] * 2, regex=True)
df = df.replace(['ه' ,'ہ'], ['ه'] * 2, regex=True)
df = df.replace(['و' ,'ﻭ'], ['و'] * 2, regex=True)
df = df.replace(['ى' ,'ی'], ['ى'] * 2, regex=True)
df = df.replace(['م' ,'ﻡ' ,'ﻢ'], ['م'] * 3, regex=True)
df = df.replace(['أ','إ','ٱ','ٲ','ﺃ','ﺇ','ﺍ','آ'], ['ا']*8, regex=True)
df = df.replace('ﺄ','ﺎ', regex=True)
df = df.replace(['ﻵ','ﻷ','ﻹ',], ['ﻻ']* 3, regex=True)

df = df.replace(['ً', #-- تنوين فتح
                'ٙ', #-- فتحه
                'ٰ' #-- مد صغيرة                 
                ],[''] * 3, regex=True)

df = df.replace('گ','ك', regex= True)
df = df.replace('ڪ','ك', regex= True)
df = df.replace('ﻫ','ھ', regex= True)
df = df.replace('ﻄ','ﻂ', regex= True)

df = df.replace(['ﺓ'], ['ه'], regex=True)

# exporting dataframe

In [None]:
df = df[['col']]

In [None]:
np.savetxt(r'all_sayings_data.txt', df.col.values, fmt='%s')