# Imports

In [17]:
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import requests
import re
from nltk.tokenize import word_tokenize
from nltk.stem.isri import ISRIStemmer
from nltk.corpus import stopwords
from collections import Counter

# Data

In [18]:
def scrape_wikipedia_text(url):
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    content_div = soup.find('div', class_='mw-content-rtl mw-parser-output')
    paragraphs = content_div.find_all('p')
    text = '\n'.join([p.get_text() for p in paragraphs])
    return text

# Example usage
url = "https://ar.wikipedia.org/wiki/%D9%81%D9%84%D8%B3%D8%B7%D9%8A%D9%86"
text = scrape_wikipedia_text(url)
print(text)




فِلَسْطِين (بالعبرية: פלשתינה أو פלסטין حسب السياق، باليونانية: Παλαιστίνη) هي المنطقة الجغرافية الواقعة جنوب شرق البحر المتوسط حتى وادي الأردن، وفي بعض التعاريف، يمتد التعريف ليشمل مناطق شرق نهر الأردن، تقع في غرب آسيا وتصل بشمالي أفريقيا بوقوعها وشبه جزيرة سيناء عند نقطة التقاء القارتين، مكونة الجزء الجنوبي الغربي من بلاد الشام المتصل بمصر؛ فكانت نقطة عبور وتقاطع للثقافات والتجارة والسياسة بالإضافة إلى مركزيتها في تاريخ الأديان، ولذلك لكثير من مدنها أهمية تاريخية أو دينية، وعلى رأسها القدس. تقوم على حدود المنطقة التاريخية اليوم عدّة كيانات سياسية متراكبة: دولة إسرائيل (التي اُقيمت في حرب 1948 بعد تهجير مئات الآف الفلسطينيين من وطنهم) والضفة الغربية وقطاع غزة التي احتلتها إسرائيل في حرب عام 1967. إلى جانب السيطرة العسكرية الإسرائيلية على عموم الضفة يخضع سكان مدن المناطق المحتلة لسلطة حكم ذاتي فلسطينية تدير الشؤون المدنية للسكان منذ عام 1994 بناء على اتفاقيات أوسلو، بالإضافة إلى خضوع قطاع غزة بالكامل للسلطة الوطنية الفلسطينية منذ انسحاب إسرائيل من قطاع غزة عام 2005. في عام 2007، أدى 

In [33]:
def normalize_arabic(text):
    text = re.sub(r'[^\u0621-\u064A\s]', '', text)
    text = text.replace('\n', ' ')
    return text

def tokenize_arabic(text):
    tokens = word_tokenize(text)
    return tokens
    
def stem_arabic(tokens):
    stemmer = ISRIStemmer()
    stems = [stemmer.stem(token) for token in tokens]
    return stems

def remove_stopwords(tokens):
    arabic_stopwords = set(stopwords.words('arabic'))
    filtered_tokens = [token for token in tokens if token not in arabic_stopwords]
    return filtered_tokens

def process_text(text):

    cleaned_text = normalize_arabic(text)

    tokens = tokenize_arabic(cleaned_text)

    stemmed_tokens = stem_arabic(tokens)

    filtered_tokens = set(remove_stopwords(stemmed_tokens))

    print("Cleaned and Normalized Text:", cleaned_text)
    print()
    print("Tokenized Text:", tokens)
    print()
    print("Stemmed Text:", stemmed_tokens)
    print()
    print("Tokens with stopwords removed:", filtered_tokens)
    
    return list(filtered_tokens)
    
filtered_tokens = process_text(text)

Cleaned and Normalized Text:   فلسطين بالعبرية  أو  حسب السياق باليونانية  هي المنطقة الجغرافية الواقعة جنوب شرق البحر المتوسط حتى وادي الأردن وفي بعض التعاريف يمتد التعريف ليشمل مناطق شرق نهر الأردن تقع في غرب آسيا وتصل بشمالي أفريقيا بوقوعها وشبه جزيرة سيناء عند نقطة التقاء القارتين مكونة الجزء الجنوبي الغربي من بلاد الشام المتصل بمصر فكانت نقطة عبور وتقاطع للثقافات والتجارة والسياسة بالإضافة إلى مركزيتها في تاريخ الأديان ولذلك لكثير من مدنها أهمية تاريخية أو دينية وعلى رأسها القدس تقوم على حدود المنطقة التاريخية اليوم عدة كيانات سياسية متراكبة دولة إسرائيل التي اقيمت في حرب  بعد تهجير مئات الآف الفلسطينيين من وطنهم والضفة الغربية وقطاع غزة التي احتلتها إسرائيل في حرب عام  إلى جانب السيطرة العسكرية الإسرائيلية على عموم الضفة يخضع سكان مدن المناطق المحتلة لسلطة حكم ذاتي فلسطينية تدير الشؤون المدنية للسكان منذ عام  بناء على اتفاقيات أوسلو بالإضافة إلى خضوع قطاع غزة بالكامل للسلطة الوطنية الفلسطينية منذ انسحاب إسرائيل من قطاع غزة عام  في عام  أدى انقسام السلطة السياسية في مناطق الحكم ال

In [42]:
print(f"No. of words: {len(text)}\nNo. of unique words: {len(filtered_tokens)}")

No. of words: 89477
No. of unique words: 2088


In [44]:
lst = [i for i in filtered_tokens if len(i)<3]

In [45]:
len(lst)

30

In [46]:
lst

['ان',
 'نص',
 'ظل',
 'اس',
 'فن',
 'اب',
 'اذ',
 'خط',
 'ام',
 'حل',
 'ضخ',
 'سم',
 'رد',
 'ضد',
 'يد',
 'شن',
 'بـ',
 'حد',
 'تم',
 'اي',
 'حي',
 'سن',
 'ال',
 'مر',
 'هب',
 'تل',
 'بن',
 'شح',
 'او',
 'قم']