## Introduction

In this notebook, I am working with a classic Islamic text, *Al-Tadmuriyah* by Sheikh al-Islam Ibn Taymiyyah, which I have obtained from the Al-Shamila library in HTML format. The purpose of this notebook is to extract relevant text and information from this HTML file and then clean the data for further use. The extraction process will involve using Beautiful Soup to parse the HTML code, allowing me to retrieve important elements such as the text of the book, page numbers, and the book title.

The data extracted from this text contains some inconsistencies and issues that must be addressed through data cleaning techniques. Once the data is cleaned and properly formatted, it will be saved as a CSV file. This cleaned data will later be uploaded to the Hugging Face datasets for further use in another notebook, where it will be fed into a large language model for analysis and exploration.

This process is part of a broader project aimed at preserving and making accessible the writings of influential scholars in the digital age, particularly through the use of advanced natural language processing techniques.

In [1]:
import pandas as pd
from bs4 import BeautifulSoup # to sparse the html code  
import re # clean data

# Task 1: Extracting Data

In [128]:
# simple function for reading a book from the paths list and sparse the content using the html sparser 
def read_file(book_path):
    with open(book_path, 'r', encoding='utf-8') as file:
        html_content = file.read()
    
    soup = BeautifulSoup(html_content, 'html.parser')
    return soup


### 1.1: Removing Introductory Information Pages

In this task, I focused on cleaning the initial sections of *Al-Tadmuriyah* by removing the introductory information pages. These pages typically contain metadata about the book, such as details about its publication or background information about the author. Since these pages are not part of the original text written by Sheikh al-Islam Ibn Taymiyyah, and are often added by editors or publishers, they do not contribute to the core content of the book. Therefore, they have been excluded from the dataset to ensure that the extracted text is purely from the author.

To illustrate the type of pages that were removed, I have included an image below, which shows examples of these introductory pages. The removal of these pages is a crucial step in ensuring the integrity and accuracy of the dataset before it undergoes further processing.


![title](https://g.top4top.io/p_3164812le1.png)

In [130]:
# delete the info pages
def remove_info_page(soup):
    '''
    This function is designed to remove pages from an HTML file that do not contain any page numbers.
    These pages without numbers are typically introductions or metadata added by the Shamela library.
    The function ensures that only the main content with valid page numbers is retained
    '''
    class_name = 'PageNumber'
    for parent in soup.find_all('div', attrs={'class':'PageText'}):
        if not parent.find(class_=class_name):
            parent.decompose()
    return soup

In [132]:
# remove the title
# which is titles that has been added by the editors or publishers  
def remove_title(soup):
    for result in soup.find_all('span', class_='title'):
        result.decompose()
    return soup

In [120]:
# # anything befour/out of this class is not a part of the book  
# # Dont run this cell now, cus its gonna rize an error: NameError: name 'soup' is not defined
# # We will run it later down..
# soup = soup.find('div', attrs={'class':'Main'})  


###  1.2: Extracting Text, Title, and Page Numbers

The focus of this task was to systematically extract the core content from each page of *Al-Tadmuriyah*, along with the associated titles and page numbers. For each page in the book, I have carefully extracted the main text written by Sheikh al-Islam Ibn Taymiyyah, as well as the title and page number specific to that page. 

To ensure clarity in this process, I have included an image where I have highlighted the title and page number with brackets, indicating what was identified and extracted. The remaining text on each page, which is not part of the title or page number, was extracted as the main body text authored by Sheikh al-Islam Ibn Taymiyyah. 

By separating the titles and page numbers from the main text, this task lays the groundwork for a well-structured and organized dataset, where each element—text, title, and page number—can be accessed independently for further analysis.


![title](https://e.top4top.io/p_3164snw5a1.jpg)

In [140]:
def extract_info(soup, dict):
    """
    Extracts page numbers, book titles, and text from an HTML page represented by a BeautifulSoup object.

    Parameters:
        soup (BeautifulSoup): A BeautifulSoup object parsed from an HTML page.
        dict (Python Dictionary): Python Dict that has three keys 'page', 'title', and 'text'.
    Returns:
        dict A dictionary with keys 'pages', 'title', and 'text', each containing lists of the extracted data.
    """
    # Use regular expression to extract the number
    for pagenumber in soup.find_all('div', attrs={'class', 'PageHead'}): 
        number = re.search(r"\(ص:\s*(\d+)\)", pagenumber.text)
        
        if number:
            arabic_number = number.group(1)  # Extract the Arabic number part
            
            # Convert the Arabic number to English number
            english_number = arabic_number.translate(str.maketrans("٠١٢٣٤٥٦٧٨٩", "0123456789"))
            dict['page'].append(english_number)
        title = re.match(r"(.*?)(\(ص:\s*\d+\))", pagenumber.text)
        if title:
            
            name = title.group(1)
            dict['title'].append(name)
        pagenumber.decompose()

    for pagetext in soup.find_all('div', attrs={'class': 'PageText'}):
        text = pagetext.text
        dict['text'].append(text)
    return dict

In [136]:
# the book path
path = r"D:\f_device_files\language_model_project\py_projects\shamilah\data\raw\from_shamilah\التدمرية.htm"

# intionlize the dict to store the data inti
dict = {'page': [], 
       'title': [],
       'text': []}


In [142]:
soup = read_file(path)

soup = remove_info_page(soup)

soup = soup.find('div', attrs={'class':'Main'})  

soup = remove_title(soup)
dict = extract_info(soup = soup, dict = dict)

In [144]:
dict

{'page': ['1',
  '2',
  '3',
  '4',
  '5',
  '6',
  '7',
  '8',
  '9',
  '10',
  '11',
  '12',
  '13',
  '14',
  '15',
  '16',
  '17',
  '18',
  '19',
  '20',
  '21',
  '22',
  '23',
  '24',
  '25',
  '26',
  '27',
  '28',
  '29',
  '30',
  '31',
  '32',
  '33',
  '34',
  '35',
  '36',
  '37',
  '38',
  '39',
  '40',
  '41',
  '42',
  '43',
  '44',
  '45',
  '46',
  '47',
  '48',
  '49',
  '50',
  '51',
  '52',
  '53',
  '54',
  '55',
  '56',
  '57',
  '58',
  '59',
  '60',
  '61',
  '62',
  '63',
  '64',
  '65',
  '66',
  '67',
  '68',
  '69',
  '70',
  '71',
  '72',
  '73',
  '74',
  '75',
  '76',
  '77',
  '78',
  '79',
  '80',
  '81',
  '82',
  '83',
  '84',
  '85',
  '86',
  '87',
  '88',
  '89',
  '90',
  '91',
  '92',
  '93',
  '94',
  '95',
  '96',
  '97',
  '98',
  '99',
  '100',
  '101',
  '102',
  '103',
  '104',
  '105',
  '106',
  '107',
  '108',
  '109',
  '110',
  '111',
  '112',
  '113',
  '114',
  '115',
  '116',
  '117',
  '118',
  '119',
  '120',
  '121',
  '122',
  

In [146]:
al_tadmoruyah = pd.DataFrame(dict)
al_tadmoruyah

Unnamed: 0,page,title,text
0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...
1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...
2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...
3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...
4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...
...,...,...,...
236,237,التدمرية,وكان عبد الله بن مسعود ﵁ يقول: من كان منكم مُس...
237,238,التدمرية,كانوا على الهدى المستقيم. وقال حذيفة بن اليمان...
238,239,التدمرية,وقد أمرنا ﷾ أن نقول في صلاتنا: ﴿اهدِنَا الصِّر...
239,240,التدمرية,عرفوا الحق ولم يتبعوه، والنصارى عبدوا الله بغي...


In [160]:
# saving the raw data:
al_tadmoruyah.to_csv('altadmoryhay.csv')

In [163]:
df = pd.read_csv('altadmoryhay.csv')
df

Unnamed: 0.1,Unnamed: 0,page,title,text
0,0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...
1,1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...
2,2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...
3,3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...
4,4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...
...,...,...,...,...
236,236,237,التدمرية,وكان عبد الله بن مسعود ﵁ يقول: من كان منكم مُس...
237,237,238,التدمرية,كانوا على الهدى المستقيم. وقال حذيفة بن اليمان...
238,238,239,التدمرية,وقد أمرنا ﷾ أن نقول في صلاتنا: ﴿اهدِنَا الصِّر...
239,239,240,التدمرية,عرفوا الحق ولم يتبعوه، والنصارى عبدوا الله بغي...


# Task 2: Data Cleaning and Normalization

After successfully extracting the text, title, and page numbers from *Al-Tadmuriyah*, the next crucial step was to clean and normalize the data to prepare it for further analysis and natural language processing tasks. 

The data cleaning process involved the use of regular expressions (RegEx) to remove all harakat (diacritical marks) from the Arabic text. These marks, while helpful for pronunciation, can introduce variability that may complicate analysis. Additionally, I removed most of the punctuation to create a more uniform dataset, though I allowed certain characters like parentheses to remain as they are often integral to the structure of the text.

This step also included text normalization, which is essential for ensuring consistency across the dataset. Normalized text is particularly important when working with natural language processing (NLP) tasks, as it makes it easier for tokenizers to process and understand the text. By cleaning and normalizing the text in this way, I’ve laid the foundation for more accurate and efficient analysis in subsequent s
Note: you could see the difference between the original data and the cleaned oneteps.


In [165]:
import re

def clean_text(text):
    # Define a pattern to match Arabic diacritics and other unwanted characters
    harakat = r'[\u064B-\u0652\u0670-\u0671\u06C0-\u06CE\u06EE]'
    
    # Remove harakat (Arabic diacritics)
    text_without_harakat = re.sub(harakat, '', text)
    
    # Define a pattern to match punctuation marks
    punctuation = r'[.,!?;:،؟؛…«»"\'{}[\]<>/\-]'
    
    # Remove punctuation marks
    text_without_punctuation = re.sub(punctuation, ' ', text_without_harakat)
    
    # Define a pattern for keeping Arabic letters, numbers, parentheses, square brackets, and Quranic parentheses
    allowed_chars = r'[^\u0621-\u064A\u0660-\u0669\s\(\)\[\]\uFD3E\uFD3F]'
    
    # Remove unwanted characters, excluding the specific parentheses
    cleaned_text = re.sub(allowed_chars, ' ', text_without_punctuation)
    
    # Replace multiple spaces with a single space
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
    
    return cleaned_text

df['cleaned_text'] = df['text'].apply(clean_text)
df.tail(20)

Unnamed: 0.1,Unnamed: 0,page,title,text,cleaned_text
221,221,222,التدمرية,وبمذكوره عن ذكره، وبمعروفه عن معرفته، بحيث قد ...,وبمذكوره عن ذكره وبمعروفه عن معرفته بحيث قد يغ...
222,222,223,التدمرية,‌وأما مخالفتهم لضرورة العقل والقياس، فإن الواح...,وأما مخالفتهم لضرورة العقل والقياس فإن الواحد ...
223,223,224,التدمرية,به، وترك ما نهى الله عنه، ولهذا قال تعالى: ﴿فَ...,به وترك ما نهى الله عنه ولهذا قال تعالى ﴿فاصبر...
224,224,225,التدمرية,وكان يقول: (اللهم اغفر لي خطيئتي وجهلي، وإسراف...,وكان يقول (اللهم اغفر لي خطيئتي وجهلي وإسرافي ...
225,225,226,التدمرية,أشبه أباه فما ظلم، قال تعالى: ﴿وَحَمَلَهَا الإ...,أشبه أباه فما ظلم قال تعالى ﴿وحملها الإنسان إن...
226,226,227,التدمرية,رأيت ذلك بثثت فيهم الأهواء، فهم يذنبون ولا يتو...,رأيت ذلك بثثت فيهم الأهواء فهم يذنبون ولا يتوب...
227,227,228,التدمرية,وجماع ذلك أنه لا بدّ له في الأمر من أصلين، ولا...,وجماع ذلك أنه لا بد له في الأمر من أصلين ولا ب...
228,228,229,التدمرية,تعالى: ﴿إِذَا جَاءَ نَصْرُ اللَّهِ وَالْفَتْحُ...,تعالى ﴿إذا جاء نصر الله والفتح ورأيت الناس يدخ...
229,229,230,التدمرية,‌ومن هذا الباب احتجاج آدم وموسى، لما قال: يا آ...,ومن هذا الباب احتجاج آدم وموسى لما قال يا آدم ...
230,230,231,التدمرية,الذنب، فإن آدم كان قد تاب منه، والتائب من الذن...,الذنب فإن آدم كان قد تاب منه والتائب من الذنب ...


In [167]:
df.drop(columns=['Unnamed: 0'], inplace=True)
df['len_cleand'] = df['cleaned_text'].apply(lambda x: len(x.split()))
df

Unnamed: 0,page,title,text,cleaned_text,len_cleand
0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,54
1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...,من شرور أنفسنا ومن سيئات أعمالنا من يهده الله ...,34
2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,127
3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...,والإنسان يجد في نفسه الفرق بين النفي والإثبات ...,127
4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...,وهذا يتضمن التوحيد في عبادته وحده لا شريك له و...,53
...,...,...,...,...,...
236,237,التدمرية,وكان عبد الله بن مسعود ﵁ يقول: من كان منكم مُس...,وكان عبد الله بن مسعود يقول من كان منكم مستنا ...,44
237,238,التدمرية,كانوا على الهدى المستقيم. وقال حذيفة بن اليمان...,كانوا على الهدى المستقيم وقال حذيفة بن اليمان ...,77
238,239,التدمرية,وقد أمرنا ﷾ أن نقول في صلاتنا: ﴿اهدِنَا الصِّر...,وقد أمرنا أن نقول في صلاتنا ﴿اهدنا الصراط المس...,28
239,240,التدمرية,عرفوا الحق ولم يتبعوه، والنصارى عبدوا الله بغي...,عرفوا الحق ولم يتبعوه والنصارى عبدوا الله بغير...,97


In [169]:
# checking the stat for the length
df.describe()

Unnamed: 0,page,len_cleand
count,241.0,241.0
mean,121.0,103.020747
std,69.714896,37.844247
min,1.0,8.0
25%,61.0,78.0
50%,121.0,108.0
75%,181.0,129.0
max,241.0,197.0


In [65]:
df[df['len_cleand']<10]

Unnamed: 0,page,title,text,cleaned_text,len_cleand
5,6,التدمرية,‌‌فأما الأول، وهو التوحيد في الصفات، فالأصل في...,فأما الأول وهو التوحيد في الصفات فالأصل في هذا,9
12,13,التدمرية,أوتوا الكتاب، ومن دخل في هؤلاء من الصابئة والم...,أوتوا الكتاب ومن دخل في هؤلاء من الصابئة والمت...,9
13,14,التدمرية,والجهمية، والقرامطة الباطنية، ونحوهم فإنهم على...,والجهمية والقرامطة الباطنية ونحوهم فإنهم على ض...,8



### Text Concatenation with Overlapping Segments

In this step, I focused on preparing the text for language model training by combining shorter text segments into larger, more context-rich sequences. The extracted and cleaned text often consisted of very short sections, with some as brief as two hundred words or less. To ensure that the language model could learn the correlations and context between different sentences and across text batches, I employed a technique of overlapping concatenation.

Specifically, I combined every three consecutive rows of text into a single, larger segment, but with an overlapping structure. For example, I merged the first, second, and third rows together, and then created the next segment by combining the third, fourth, and fifth rows, and so on. This overlapping approach ensures that the last row of each combined segment is included as the first row of the next segment. 

The purpose of this method is to help the language model understand the relationships between sentences across different parts of the text, rather than just within isolated batches. By overlapping the segments, the model can better capture the flow and continuity of ideas, leading to more coherent and contextually aware predictions during training.


In [172]:
def combine_text(original, column:str, target, to_str:bool):
    """
    Combines text from the specified column in the original DataFrame into overlapping batches 
    and stores the result in the target DataFrame.

    Args:
        original (pd.DataFrame): The original DataFrame from which to extract text.
        target (pd.DataFrame): The DataFrame where the combined text will be stored.
        column (str): The name of the column in the original DataFrame containing the text to combine.
        to_str (bool): If True, the combined lists of text will be joined into a single string. 
                       If False, the combined text will remain as a list of strings.

    Returns:
        pd.DataFrame: The target DataFrame with an added 'combined' column containing lists or strings of text batches.
        int: The number of rows in the resulting DataFrame.

    Notes:
        - The 'combined' column in the target DataFrame will contain lists of text where each list 
          includes the current, previous, and next rows of text from the specified column in the original DataFrame.
        - The function processes rows in batches of 3, and overlaps them, so the nth row will contain 
          text from rows n-1, n, and n+1 in the original DataFrame.
        - If the number of rows left in the original DataFrame is less than a full batch (3 rows), 
          the function stops processing.
        - The `to_str` parameter controls whether the combined lists are converted into a single string. 
          Set `to_str=True` to combine the text into a single string, or `to_str=False` to keep them as a list of strings.
    """
    
    rows_drop = [] # rows to drop
    
    
    length = len(original)
    for i in range(len(original)):
        # the row number i in df_combined['combined'] = i + the next one + the previuse one for overlapping batching..  
        
        if i >0:
            target['combined'].iloc[i] = original[column].iloc[i*3-1: i*3+2].copy()
            x = i* 3
            if length / x < 1:
                break
        else:
            target['combined'].iloc[i] = original[column].iloc[(i)*3: i*3+3].copy()
            x = i* 3
        
    
    for num in range(i, df_combined.shape[0]):
        rows_drop.append(i)
    # df_combined = df_combined.iloc[:i]
    df_combined['combined'] = df_combined['combined'].iloc[:i].apply(lambda x: x.tolist()) 
    df_combined.drop(axis=0, index=rows_drop)
    
    
    if to_str:
        df_combined['combined'] = df_combined['combined'].iloc[:i].apply(lambda x: ' '.join(x))
    return df_combined.iloc[:i], i

In [92]:
df_combined = df.copy()
df_combined['combined'] = 0


df_combined, i = combine_text(original= df, column='cleaned_text', to_str=True, target=df_combined)
df_combined

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  target['combined'].iloc[i] = original[column].iloc[(i)*3: i*3+3].copy()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-

Unnamed: 0,page,title,text,cleaned_text,len_cleand,combined
0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,54,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...
1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...,من شرور أنفسنا ومن سيئات أعمالنا من يهده الله ...,34,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...
2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,127,فأما الأول وهو التوحيد في الصفات فالأصل في هذا...
3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...,والإنسان يجد في نفسه الفرق بين النفي والإثبات ...,127,تعلمون﴾ وقال تعالى ﴿ومن الناس من يتخذ من دون ا...
4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...,وهذا يتضمن التوحيد في عبادته وحده لا شريك له و...,53,وقوله ﴿إنما أمره إذا أراد شيئا أن يقول له كن ف...
...,...,...,...,...,...,...
76,77,التدمرية,﴿رَضِيَ اللَّهُ عَنْهُمْ وَرَضُوا عَنْهُ﴾ ، وق...,﴿رضي الله عنهم ورضوا عنه﴾ وقوله ﴿ثم استوى على ...,147,وجماع ذلك أنه لا بد له في الأمر من أصلين ولا ب...
77,78,التدمرية,حقه مثل مفهومه في حقنا؛ فكذلك لما وصف نفسه بأن...,حقه مثل مفهومه في حقنا فكذلك لما وصف نفسه بأنه...,78,الذنب فإن آدم كان قد تاب منه والتائب من الذنب ...
78,79,التدمرية,‌وهذا يتبين بالقاعدة الرابعة - وهي أن كثيرًا م...,وهذا يتبين بالقاعدة الرابعة وهي أن كثيرا من ال...,53,يحرمه الله والدين الحق أنه لا حرام إلا ما حرمه...
79,80,التدمرية,الثاني - أنه إذا جعل ذلك هو مفهومها وعطّله بقي...,الثاني أنه إذا جعل ذلك هو مفهومها وعطله بقيت ا...,103,وكان عبد الله بن مسعود يقول من كان منكم مستنا ...


In [27]:
print(f'First Row: {df_combined["combined"].iloc[0]}\n\nSecond Row -with overlapping-: {df_combined["combined"].iloc[1]}')

First Row: ['وبه نستعينقال الشيخ الإمام العالم العلامة شيخ الإسلام مفتي الأنام أوحد عصره وفريد دهره ناصر السنة وقامع البدعة تقي الدين أبو العباس أحمد بن الشيخ الإمام العلامة شهاب الدين عبد الحليم بن الشيخ الإمام العلامة شيخ الإسلام مجد الدين أبي البركات عبد السلام ابن تيمية الحراني وأرضاه الحمد لله نحمده ونستعينه ونستغفره ونعوذ بالله', 'من شرور أنفسنا ومن سيئات أعمالنا من يهده الله فلا مضل له ومن يضلل فلا هادي له وأشهد أن لا إله إلا الله وحده لا شريك له وأشهد أن محمدا عبده ورسوله صلى الله', 'عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد فقد سألني من تعينت إجابتهم أن أكتب لهم مضمون ما سمعوه مني في بعض المجالس من الكلام في التوحيد والصفات وفي الشرع والقدر لمسيس الحاجة إلى تحقيق هذين الأصلين وكثرة الاضطراب فيهما فإنهما مع حاجة كل أحد إليهما ومع أن أهل النظر والعلم والإرادة والعبادة لا بد أن يخطر لهم في ذلك من الخواطر والأقوال ما يحتاجون معه إلى بيان الهدى من الضلال لا سيما مع كثرة من خاض في ذلك بالحق تارة وبالباطل تارات وما يعتري القلوب في ذلك من الشبه التي توقعها في أنواع الضلالات فالكلا

In [98]:
# adding len column for the combined text
df_combined['len_combined'] = df_combined['combined'].apply(lambda x: len(x.split())) 
df_combined.head()

Unnamed: 0,page,title,text,cleaned_text,len_cleand,combined,len_combined
0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,54,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,215
1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...,من شرور أنفسنا ومن سيئات أعمالنا من يهده الله ...,34,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,307
2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,127,فأما الأول وهو التوحيد في الصفات فالأصل في هذا...,248
3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...,والإنسان يجد في نفسه الفرق بين النفي والإثبات ...,127,تعلمون﴾ وقال تعالى ﴿ومن الناس من يتخذ من دون ا...,399
4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...,وهذا يتضمن التوحيد في عبادته وحده لا شريك له و...,53,وقوله ﴿إنما أمره إذا أراد شيئا أن يقول له كن ف...,131


In [100]:
df_combined.describe()

Unnamed: 0,page,len_cleand,len_combined
count,81.0,81.0,81.0
mean,41.0,101.691358,308.08642
std,23.526581,39.175452,86.08124
min,1.0,8.0,86.0
25%,21.0,79.0,248.0
50%,41.0,109.0,312.0
75%,61.0,129.0,370.0
max,81.0,178.0,551.0


In [102]:
# how many word does I have ?
df_combined['len_combined'].sum()

24955

In [104]:
# saving the data
df_combined.to_csv('altadmoryhay_combined.csv')

In [3]:
df = pd.read_csv('altadmoryhay_combined.csv')
df

Unnamed: 0.1,Unnamed: 0,page,title,text,cleaned_text,len_cleand,combined,len_combined
0,0,1,التدمرية,﷽وبه نستعينقال الشيخ الإمام، العالم، العلَاّمة...,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,54,وبه نستعينقال الشيخ الإمام العالم العلامة شيخ ...,215
1,1,2,التدمرية,من شرور أنفسنا، ومن سيئات أعمالنا، من يهده الل...,من شرور أنفسنا ومن سيئات أعمالنا من يهده الله ...,34,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,307
2,2,3,التدمرية,عليه وعلى آله وصحبه وسلم تسليما كثيرا.‌أما بعد...,عليه وعلى آله وصحبه وسلم تسليما كثيرا أما بعد ...,127,فأما الأول وهو التوحيد في الصفات فالأصل في هذا...,248
3,3,4,التدمرية,والإنسان يجد في نفسه الفرق بين النفي والإثبات،...,والإنسان يجد في نفسه الفرق بين النفي والإثبات ...,127,تعلمون﴾ وقال تعالى ﴿ومن الناس من يتخذ من دون ا...,399
4,4,5,التدمرية,وهذا يتضمن التوحيد في عبادته وحده لا شريك له، ...,وهذا يتضمن التوحيد في عبادته وحده لا شريك له و...,53,وقوله ﴿إنما أمره إذا أراد شيئا أن يقول له كن ف...,131
...,...,...,...,...,...,...,...,...
76,76,77,التدمرية,﴿رَضِيَ اللَّهُ عَنْهُمْ وَرَضُوا عَنْهُ﴾ ، وق...,﴿رضي الله عنهم ورضوا عنه﴾ وقوله ﴿ثم استوى على ...,147,وجماع ذلك أنه لا بد له في الأمر من أصلين ولا ب...,234
77,77,78,التدمرية,حقه مثل مفهومه في حقنا؛ فكذلك لما وصف نفسه بأن...,حقه مثل مفهومه في حقنا فكذلك لما وصف نفسه بأنه...,78,الذنب فإن آدم كان قد تاب منه والتائب من الذنب ...,297
78,78,79,التدمرية,‌وهذا يتبين بالقاعدة الرابعة - وهي أن كثيرًا م...,وهذا يتبين بالقاعدة الرابعة وهي أن كثيرا من ال...,53,يحرمه الله والدين الحق أنه لا حرام إلا ما حرمه...,304
79,79,80,التدمرية,الثاني - أنه إذا جعل ذلك هو مفهومها وعطّله بقي...,الثاني أنه إذا جعل ذلك هو مفهومها وعطله بقيت ا...,103,وكان عبد الله بن مسعود يقول من كان منكم مستنا ...,149


In [5]:
# uploading the data to hugging face hub ..
from huggingface_hub import notebook_login
from datasets import load_dataset, Dataset


notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [7]:
dataset = Dataset.from_pandas(df)
dataset.push_to_hub("al_tadmoreyyah")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/ahmadAlrabghi/al_tadmoreyyah/commit/7a295c83c22d7ce96678af1b35bfea88baccde0c', commit_message='Upload dataset', commit_description='', oid='7a295c83c22d7ce96678af1b35bfea88baccde0c', pr_url=None, pr_revision=None, pr_num=None)