# Import Libraries

In [1]:
from bs4 import BeautifulSoup
import re
import json

# extract metadata
# Save the metadata file as a JSON 
##dictionary containing text and its metadata as a dictionary for each element (text)

In [2]:
def extract_metadata(html_file):
    with open(html_file, 'r') as file:
        soup = BeautifulSoup(file, 'html.parser')

    #metadata = {}
    metadata = {'text': {}}

    # Extract metadata from the <meta> tags
    meta_tags = soup.find_all('meta')
    for tag in meta_tags:
        if tag.get('name'):
            key = tag.get('name')
            value = tag.get('content')
            #metadata[key] = value
            #metadata[key] = {'text': value}
            metadata['text'][key] = value

    # Extract metadata from other elements, such as <title>
    title_tag = soup.find('title')
    if title_tag:
        #metadata['title'] = title_tag.text.strip()
        #metadata['title'] = {'text': title_tag.text.strip()}
        metadata['text']['title'] = title_tag.text.strip()

    return metadata


In [3]:
# Usage example
html_file = '/content/مكوك الصين.html'
metadata = extract_metadata(html_file)
print(metadata)

{'text': {'ResourceLoaderDynamicStyles': '', 'generator': 'MediaWiki 1.39.2', 'format-detection': 'telephone=no', 'twitter:card': 'summary', 'twitter:site': '@Marefa', 'viewport': 'width=1000', 'description': 'بعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض. في 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعل', 'title': 'أخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة'}}


In [4]:
## Write the metadata to a separate metadata file
with open('metadata.json', 'w', encoding='utf-8') as f:
    json.dump(metadata, f, ensure_ascii=False, indent=4)

# Clean the HTML

In [5]:
## Define the list of words to delete
#words_to_delete = ["الصفحة الرئيسية","أحدث التغييرات","الصفحات الخاصّة","رفع ملف"
#,"تصفح","المواضيع","أبجدي","دليل الأسلوب","صفحة عشوائية",
#"مشاريع شقيقة","معرفة_المصادر","معرفة_الأخبار",
#"المشاركة والمساعدة","بوابة المجتمع","مساعدة","الميدان"]

In [6]:
# Read the HTML file
with open('/content/مكوك الصين.html', 'r') as file:
    html = file.read()

In [7]:
# Create BeautifulSoup object
soup = BeautifulSoup(html, 'html.parser')

In [8]:
## Find and remove the sidebar elements
#sidebar = soup.find('div', class_='sidebar')
#sidebar = soup.find('aside', class_='sidebar')
#sidebar = soup.find('container', class_='noprint')
#sidebar = soup.find('side-bar', class_='noprint')
sidebar = soup.find(id='side-bar')

if sidebar:
    sidebar.decompose()

In [9]:
# Save the modified HTML
with open('cleaned_html_file.html', 'w') as file:
    file.write(str(soup))

# Clean the Text

In [11]:
with open('/content/cleaned_html_file.html', 'r', encoding='utf-8') as f:
    html_data = f.read()
    soup = BeautifulSoup(html_data, 'html.parser')

soup

<!DOCTYPE html>

<!-- saved from url=(0215)https://www.marefa.org/%D8%A3%D8%AE%D8%A8%D8%A7%D8%B1:%D9%85%D9%83%D9%88%D9%83_%D8%B5%D9%8A%D9%86%D9%8A_%D9%8A%D9%83%D9%85%D9%84_%D9%A2%D9%A7%D9%A6_%D9%8A%D9%88%D9%85%D8%A7_%D8%A8%D8%A7%D9%84%D9%81%D8%B6%D8%A7%D8%A1 -->
<html class="client-js ve-available" dir="rtl" lang="ar"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>أخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة</title>
<script src="./أخبار_مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة_files/f(9).txt"></script><script src="./أخبار_مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة_files/f(10).txt"></script><script id="google_shimpl" src="./أخبار_مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة_files/f(11).txt"></script><script async="" src="./أخبار_مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة_files/analytics.js"></script><script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[".\t,","٫\t٬"],"wgDigitTransformTable"

In [12]:
# Remove all script and style tags
for script in soup(["script", "style"]):
    script.decompose()

In [13]:
# Remove all HTML tags
text = soup.get_text()
text

'\n\n\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nإنشاء حسابدخول\n\n\n\n\n\n\n\n\n\n\n\n\nأخبارناقش هذه الصفحة\nاقرأعرض المصدرتاريخ\n\nالمزيد\n\n\nأدوات\nماذا يرتبط هنا؟تغييرات ذات علاقةالصفحات الخاصّةنسخة للطباعةوصلة دائمةمعلومات عن هذه الصفحة\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء\n\n\n\n يُقال أنه مكان هبوط المكوك الصيني الغامض العائد إلى الأرض بعد 276 يوماً (8 مايو 2023)\nبعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض.\nفي 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعلام الرسمي الصيني.[1]\nوترتبط أهمية المكوك بندرة المعلومات المعلنة عنه، ورغم شك الخبراء بأنه يمكن استخدامه للتدخل في السواتل الموجودة بالمدار.\nولم تصدر السلطات الصينية الكثير من التفاصيل علناً حول المكوك أو المهمة الثانية، باستثناء مدة البقاء في المدار، وأنه تم إطلاقه من مركز إطلاق السواتل في جيوتشوان في صحراء غو

In [14]:
# Remove menus and ads by replacing them with an empty string using regular expressions
text = re.sub(r"<nav.*?</nav>", "", text, flags=re.DOTALL)
text = re.sub(r"<div.*?class=['\"](?:menu|navbar)['\"].*?>.*?</div>", "", text, flags=re.DOTALL)
text = re.sub(r"<(?:div|span|section).*?class=['\"](?:ads|advertisement)['\"].*?>.*?</(?:div|span|section)>", "", text, flags=re.DOTALL)
text

'\n\n\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nإنشاء حسابدخول\n\n\n\n\n\n\n\n\n\n\n\n\nأخبارناقش هذه الصفحة\nاقرأعرض المصدرتاريخ\n\nالمزيد\n\n\nأدوات\nماذا يرتبط هنا؟تغييرات ذات علاقةالصفحات الخاصّةنسخة للطباعةوصلة دائمةمعلومات عن هذه الصفحة\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء\n\n\n\n يُقال أنه مكان هبوط المكوك الصيني الغامض العائد إلى الأرض بعد 276 يوماً (8 مايو 2023)\nبعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض.\nفي 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعلام الرسمي الصيني.[1]\nوترتبط أهمية المكوك بندرة المعلومات المعلنة عنه، ورغم شك الخبراء بأنه يمكن استخدامه للتدخل في السواتل الموجودة بالمدار.\nولم تصدر السلطات الصينية الكثير من التفاصيل علناً حول المكوك أو المهمة الثانية، باستثناء مدة البقاء في المدار، وأنه تم إطلاقه من مركز إطلاق السواتل في جيوتشوان في صحراء غو

In [15]:
# Remove duplicate lines
text = "\n".join(sorted(set(text.splitlines()), key=text.splitlines().index))
text

'\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة\nإنشاء حسابدخول\nأخبارناقش هذه الصفحة\nاقرأعرض المصدرتاريخ\nالمزيد\nأدوات\nماذا يرتبط هنا؟تغييرات ذات علاقةالصفحات الخاصّةنسخة للطباعةوصلة دائمةمعلومات عن هذه الصفحة\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء\n يُقال أنه مكان هبوط المكوك الصيني الغامض العائد إلى الأرض بعد 276 يوماً (8 مايو 2023)\nبعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض.\nفي 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعلام الرسمي الصيني.[1]\nوترتبط أهمية المكوك بندرة المعلومات المعلنة عنه، ورغم شك الخبراء بأنه يمكن استخدامه للتدخل في السواتل الموجودة بالمدار.\nولم تصدر السلطات الصينية الكثير من التفاصيل علناً حول المكوك أو المهمة الثانية، باستثناء مدة البقاء في المدار، وأنه تم إطلاقه من مركز إطلاق السواتل في جيوتشوان في صحراء غوبي على متن صاروخ "لونغ مارش-2 إف" في أغسطس 2022.\nكنا ذكرت وسائل الإعلام الرسمية أن الاختبار يشكل اختراقاً في بحث الصين عن تقنية المركبات ال

In [16]:
# Remove extra whitespace
#text = re.sub(r'\s+',' ', text).strip()
#text

In [17]:
# Remove any remaining HTML entities
text = re.sub(r'&\w+;', '', text)
text

'\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة\nإنشاء حسابدخول\nأخبارناقش هذه الصفحة\nاقرأعرض المصدرتاريخ\nالمزيد\nأدوات\nماذا يرتبط هنا؟تغييرات ذات علاقةالصفحات الخاصّةنسخة للطباعةوصلة دائمةمعلومات عن هذه الصفحة\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء\n يُقال أنه مكان هبوط المكوك الصيني الغامض العائد إلى الأرض بعد 276 يوماً (8 مايو 2023)\nبعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض.\nفي 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعلام الرسمي الصيني.[1]\nوترتبط أهمية المكوك بندرة المعلومات المعلنة عنه، ورغم شك الخبراء بأنه يمكن استخدامه للتدخل في السواتل الموجودة بالمدار.\nولم تصدر السلطات الصينية الكثير من التفاصيل علناً حول المكوك أو المهمة الثانية، باستثناء مدة البقاء في المدار، وأنه تم إطلاقه من مركز إطلاق السواتل في جيوتشوان في صحراء غوبي على متن صاروخ "لونغ مارش-2 إف" في أغسطس 2022.\nكنا ذكرت وسائل الإعلام الرسمية أن الاختبار يشكل اختراقاً في بحث الصين عن تقنية المركبات ال

In [18]:
# Remove any remaining HTML entities and English characters
#text = re.sub(r'[^\u0600-\u06FF\s]', '', re.sub(r'&\w+;', '', text))
#text

In [19]:
# Remove any remaining HTML entities, English characters, and numbers
#text = re.sub(r'[^\u0600-\u06FF\s]', '', re.sub(r'&\w+;', '', text))
#text = re.sub(r'\d+', '', text)
#text

In [20]:
# Remove newlines
#text = [re.sub('\n' , ' ' , text) for doc in soup]
#text

In [21]:
# Convert list to string
text = ''.join(text)
text

'\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء - المعرفة\nإنشاء حسابدخول\nأخبارناقش هذه الصفحة\nاقرأعرض المصدرتاريخ\nالمزيد\nأدوات\nماذا يرتبط هنا؟تغييرات ذات علاقةالصفحات الخاصّةنسخة للطباعةوصلة دائمةمعلومات عن هذه الصفحة\nأخبار:مكوك صيني يكمل ٢٧٦ يوما بالفضاء\n يُقال أنه مكان هبوط المكوك الصيني الغامض العائد إلى الأرض بعد 276 يوماً (8 مايو 2023)\nبعد 276 يوماً من إتمام مهمته ..مكوك صيني غامض يعود إلى الأرض.\nفي 8 مايو 2023، أكمل مكوك صيني تجريبي غامض، غير مأهول وقابل لإعادة الاستخدام مهمته الثانية بعد بقائه في المدار لمدة 276 يوماً، وفقاً للإعلام الرسمي الصيني.[1]\nوترتبط أهمية المكوك بندرة المعلومات المعلنة عنه، ورغم شك الخبراء بأنه يمكن استخدامه للتدخل في السواتل الموجودة بالمدار.\nولم تصدر السلطات الصينية الكثير من التفاصيل علناً حول المكوك أو المهمة الثانية، باستثناء مدة البقاء في المدار، وأنه تم إطلاقه من مركز إطلاق السواتل في جيوتشوان في صحراء غوبي على متن صاروخ "لونغ مارش-2 إف" في أغسطس 2022.\nكنا ذكرت وسائل الإعلام الرسمية أن الاختبار يشكل اختراقاً في بحث الصين عن تقنية المركبات ال

# Save the final output as a JSON 

In [22]:
# Write cleaned text to file
with open('output.json', 'w', encoding='utf-8') as f:
    f.write(text)