# load the data

In [1]:
import os

In [2]:
file_path = os.path.join("..", "data", "Sahih_al-Bukhari.txt")

with open(file_path, "r", encoding="utf-8") as file:
    text = file.read()

In [3]:
len(text)

7249853

In [4]:
print(text[:10000])

التزات النبوي
صحيح البخارية
للإماراتي عبد الله محمد بن اسماعيل البخاري الجيفي
رحمه الله تعالى
ضبطه ، ورقمه ، وذكر تكرار مواضعه ، وشرح الفاظه وحمله وخرج أحاديثه في صحيح مسلم، ووضع فهارسة
الدكتور مصطفى ديب البغا
دكتوراه في الشربية الإسلامية من جامعة الأزهر
مدرس في كلية الشريعة - جامعة وشر
دمشق - بيروت
للطباعة والنشر والتوزيع
PAGE_SEPARATOR
صحيح البخاري
الجزء الأول
PAGE_SEPARATOR
1
بدء الوحي
قَالَ الشَّيْخُ الْإِمَامُ الْحَافِظُ أَبُو عَبْدِ اللَّهِ مُحَمَّدُ بْنُ إِسْمَعِيلَ بْنِ إِبْرَاهِيمَ بْنِ الْمُغِيرَةِ الْبُخَارِيُّ رَحِمَهُ اللهُ تَعَالَى آمِينَ :
١ - باب : كَيْفَ كَانَ بَدْءُ الْوَحْيِ إِلَى رَسُولِ اللَّهِ الله -
وَقَوْلِ اللَّهِ جَلَّ ذِكْرُهُ: «إِنَّا أَوْحَيْنَا إِلَيْكَ كَما أَوْحَيْنَا إِلَى نُوحٍ وَالنَّبِيِّينَ مِنْ بَعْدِهِ» /النساء :
. /١٦٢
۱ : حدثنا الحُمَيْدِيُّ عَبْدُ اللهِ بْنُ الزُّبَيْرِ قَالَ : حدثنا سُفْيانُ قَالَ : حدثنا يَحْى بْنُ سَعِيدٍ الْأَنْصَارِيُّ قَالَ : أَخْبَرَنِي مُحَمَّدُ بْنُ إِبْرَاهِيمَ التَّيْمِيُّ : أَنَّهُ سَمِعَ عَلْقَمَةَ بْنَ وَقَاصِ الل

# text cleaning

In [16]:
import re

def clean_arabic_text(text):
    # 1. Remove diacritics (tashkeel)
    tashkeel = re.compile(r'[\u0617-\u061A\u064B-\u0652]')
    text = re.sub(tashkeel, '', text)

    # 2. Remove numbers or text inside square [] or curly {} brackets
    text = re.sub(r'\[[^\]]*\]', '', text)   # remove [ ... ]
    text = re.sub(r'\{[^\}]*\}', '', text)   # remove { ... }

    # 3. Remove PAGE_SEPARATOR
    text = text.replace("PAGE_SEPARATOR", " ")

    # 4. Remove standalone numbers (Arabic and Hindi digits)
    text = re.sub(r'[0-9٠-٩]+', '', text)

    # 5. Remove punctuation marks (but keep parentheses ())
    text = re.sub(r'[«»"“”،؛:….,?!؟\-]', ' ', text)

    # 6. Remove extra spaces
    text = re.sub(r'\s+', ' ', text).strip()
    # Split by "حديث" or by dots to create multiple lines
    lines = re.split(" . ", text)
    lines = [l.strip() for l in lines if len(l.strip()) > 0]

    return lines




In [17]:
# مثال
raw_text = """بدء الوحي
قَالَ الشَّيْخُ الْإِمَامُ الْحَافِظُ أَبُو عَبْدِ اللَّهِ مُحَمَّدُ بْنُ إِسْمَعِيلَ بْنِ إِبْرَاهِيمَ بْنِ الْمُغِيرَةِ الْبُخَارِيُّ رَحِمَهُ اللهُ تَعَالَى آمِينَ :
١ - باب : كَيْفَ كَانَ بَدْءُ الْوَحْيِ إِلَى رَسُولِ اللَّهِ الله -
وَقَوْلِ اللَّهِ جَلَّ ذِكْرُهُ: «إِنَّا أَوْحَيْنَا إِلَيْكَ كَما أَوْحَيْنَا إِلَى نُوحٍ وَالنَّبِيِّينَ مِنْ بَعْدِهِ» /النساء :
. /١٦٢
۱ : حدثنا الحُمَيْدِيُّ عَبْدُ اللهِ بْنُ الزُّبَيْرِ قَالَ : حدثنا سُفْيانُ قَالَ : حدثنا يَحْى بْنُ سَعِيدٍ الْأَنْصَارِيُّ قَالَ : أَخْبَرَنِي مُحَمَّدُ بْنُ إِبْرَاهِيمَ التَّيْمِيُّ : أَنَّهُ سَمِعَ عَلْقَمَةَ بْنَ وَقَاصِ اللَّيْتِي يَقُولُ : سَمِعْتُ عُمَرَ بْنَ الْخَطَّابِ رَضِيَ اللَّهُ عَنْهُ عَلَى الْمِنْبَرِ قَالَ : سَمِعْتُ رَسُولَ اللَّهِ صلى الله عليه وسلم يَقُولُ : (إِنَّمَا الْأَعْمَالُ بِالنِّيَّاتِ ، وَإِنَّمَا لِكُلِّ امْرِئٍ مَا نَوَى ، فَمَنْ كَانَتْ هِجْرَتُهُ إِلَى دُنْيا يُصِيبها ، أَوْ إِلَى أمْرَأَةٍ يَنْكِحُهَا ، فَهِجْرَتُهُ إِلَى مَا هَاجَرَ إِلَيْهِ) .
[٤، ٦٣١١ ، ٦٥٥٣۷۸۳ ، ۳٢ ، ٦٨٥۳۹۲ ، ۰۹
(1) (أوحينا) أنزلنا عليك الرسالة ، من الوحي ، وهو في الأصل الإعلام الخفي ، ويطلق على : تبليغ الله تعالى من يصطفيه من عباده الرسالة ، على لسان بعض ملائكته ، وهو جبريل عليه السلام ، كما يطلق – أحيانًا – على الشيء الموحى به ، وعلى الإلهام والقذف في القلب يقظة أو مناما
: أخرجه مسلم في كتاب الإمارة ، باب : قوله عل الله : إنما الأعمال بالنية ، رقم : ١٩٠٧ (إنما الأعمال بالنيات) أي صحة ما يقع من المكلف من قول أو فعل ، أو كماله وترتب الثواب عليه ، لا يكون إلا حسب ما ينويه . و (النيات) جمع نية ، وهي القصد وعزم القلب على أمر من الأمور . (هجرته) الهجرة في اللغة : الخروج من أرض إلى أرض ، ومفارقة الوطن والأهل ، مشتقة من الهَجْرِ وهو ضد الوصل . وشرعا : هي مفارقة دار الكفر إلى دار الإسلام ، خوف الفتنة وقصدًا لإقامة شعائر الدين. والمراد بها هنا : الخروج من مكة وغيرها إلى مدينة رسول الله الله . (يصيبها) يحصلها . ( ينكحها) يتزوجها . فهجرته إلى ما هاجر إليه) أي جزاء عمله الغرض الدنيوي الذي قصده إن حصله ، وإلا فلا شيء له
والظاهر : أن الحكمة من البدء بهذا الحديث التنبيه على الإخلاص وتصحيح النية ، من كل طالب علم ومعلم أو متعلم ، وأن طالب العلم عامة ، والحديث خاصة ، بمنزلة المهاجر إلى الله تعالى ورسوله الله
"""

cleaned = clean_arabic_text(raw_text)
print(cleaned)

['بدء الوحي قال الشيخ الإمام الحافظ أبو عبد الله محمد بن إسمعيل بن إبراهيم بن المغيرة البخاري رحمه الله تعالى آمين باب كيف كان بدء الوحي إلى رسول الله الله وقول الله جل ذكره إنا أوحينا إليك كما أوحينا إلى نوح والنبيين من بعده /النساء', '۱ حدثنا الحميدي عبد الله بن الزبير قال حدثنا سفيان قال حدثنا يحى بن سعيد الأنصاري قال أخبرني محمد بن إبراهيم التيمي أنه سمع علقمة بن وقاص الليتي يقول سمعت عمر بن الخطاب رضي الله عنه على المنبر قال سمعت رسول الله صلى الله عليه وسلم يقول (إنما الأعمال بالنيات وإنما لكل امرئ ما نوى فمن كانت هجرته إلى دنيا يصيبها أو إلى أمرأة ينكحها فهجرته إلى ما هاجر إليه)', '۷۸۳', '۳۹۲ ۰۹ () (أوحينا) أنزلنا عليك الرسالة من الوحي وهو في الأصل الإعلام الخفي ويطلق على تبليغ الله تعالى من يصطفيه من عباده الرسالة على لسان بعض ملائكته وهو جبريل عليه السلام كما يطلق', 'أحيانا', 'على الشيء الموحى به وعلى الإلهام والقذف في القلب يقظة أو مناما أخرجه مسلم في كتاب الإمارة باب قوله عل الله إنما الأعمال بالنية رقم (إنما الأعمال بالنيات) أي صحة ما يقع من المكلف من قول أو فعل أو كماله وت

In [18]:
cleaned_text = clean_arabic_text(text)
# Save the cleaned text to a new file
with open("../data/cleaned_text.txt", "w", encoding="utf-8") as f:
    for l in cleaned_text:
        f.write(l + "\n")
print("✅ Cleaned text saved to cleaned_text.txt")

✅ Cleaned text saved to cleaned_text.txt
