# wrote by : **Idriss Khattabi**, framed by : Pr . **ELAACHAk LOTFI**

----------------
# **Lab 1 of NLP** : Scraping and NLP Pipeline for Arabic Web Sources

##### The objective of this project is to gain familiarity with scraping and NLP pipeline techniques. Specifically, we aim to scrape data from Arabic web sources related to a specific domain, store the raw data in a NoSQL database (MongoDB), and then establish an NLP pipeline including text cleaning, tokenization, stop words removal, discretization, normalization, stemming, lemmatization, parts of speech tagging using rule-based and machine learning approaches, and named entity recognition (NER) methods.

Work to do :
1. Use libraries like Scrapy and Beautiful Soup to do scraping from server Arabic web sources
concerning a specific domaine.
2. Store the raw data on a NoSql database “MongoDB”.
3. Establishment of NLP Pipeline (Text Cleaning, Tokenization, Stop words, Discretization,
Normalization).
4. Do the Stemming and Lemmatization, then compare the tow mechanisms.
5. Apply Parts of Speech technics based on both Rule based and Machine learning approaches.
5. Apply NER Methods

---------------
## 1. Use Beautiful Soup library for Data Scraping from **hespress.com** : (Data Acquisition)

In [1]:
# Import libraries for Data Scraping
import requests
from bs4 import BeautifulSoup
import csv
from pandas import DataFrame

In [2]:
# Scrap the Data and store it in a dict
articles_info = []

url = f"https://www.hespress.com/societe"

result = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})

soup = BeautifulSoup(result.content, "lxml")

articles_container = soup.find("div", {"id": "main-page-content"})

all_articles = articles_container.find_all("div", {"class": "cover"})

print("len(all_articles) : " ,len(all_articles))


len(all_articles) :  12


In [3]:
for article in all_articles :
    link_title = article.find("div", {"class" : "card-img-top"})
    link_title = link_title.find("a")
    article_title = link_title.attrs["title"]
    article_link = link_title.attrs["href"]

    result2 = requests.get(article_link, headers={'User-Agent': 'Mozilla/5.0'})
    soup2 = BeautifulSoup(result2.content, "lxml")
    article_content = soup2.find("div", {"class" : "article-content"}).text.strip()

    articles_info.append({
        "post_title": article_title,
        "post_content": article_content,
        "post_link": article_link
    })

In [4]:
DataFrame(articles_info).head()

Unnamed: 0,post_title,post_content,post_link
0,المغرب يفتح 110 متابعات في جرائم الاتجار بالبش...,علمت جريدة هسبريس الإلكترونية أن اللجنة الوطني...,https://www.hespress.com/%d8%a7%d9%84%d9%85%d8...
1,"رحلات ""طريق مكة"" تنطلق بالمغرب",غادرت أولى رحلات المستفيدين من مبادرة “طريق مك...,https://www.hespress.com/%d8%b1%d8%ad%d9%84%d8...
2,"""توجيهات شفهية"" تعفي إدارات الفنادق المغربية م...",كشفت معطيات جديدة تلقي أرباب وحدات فندقية في م...,https://www.hespress.com/%d8%aa%d9%88%d8%ac%d9...
3,أطباء يدعمون إعادة النظر في قوانين استبدال الد...,تفاعلاً مع النقاش حول انقطاع بعض الأدوية في ال...,https://www.hespress.com/%d8%a3%d8%b7%d8%a8%d8...
4,أسر طلبة الطب تلتمس تدخل أخنوش,توجهت عائلات طلبة كلية الطب والصيدلة بمراكش إل...,https://www.hespress.com/%d8%a3%d8%b3%d8%b1-%d...


In [5]:
# I can store the scraped data in a CSV file
columns = articles_info[0].keys()

with open("hespress-posts.csv", "w", encoding="utf-8-sig", newline="") as csv_file:
    dict_writer = csv.DictWriter(csv_file, columns)
    dict_writer.writeheader()
    dict_writer.writerows(articles_info)

    print("*"*50, "\n file created \n", "*"*50)

************************************************** 
 file created 
 **************************************************


##### **Synthesis**: In this question, I have learnt how to use Beautiful Soup to extract data from Arabic web sources efficiently.

---------------
## 2. Store the raw data on a NoSql database “MongoDB” :

In [6]:
# Import libraries
from pymongo import MongoClient

In [7]:
# Connect to MongoDB server
client = MongoClient("mongodb://localhost:27017/")

# Access database
db = client["NLP_DB1"]

# Access collection
collection = db["hespress_posts"]

# Insert multiple rows
collection.insert_many(articles_info)

print("DONE !")

DONE !


##### **Synthesis**: In this question, I have Gained experience in storing and loading scraped data in MongoDB, a NoSQL database.

------------------
## 3. Establishment of NLP Pipeline (Text Cleaning, Tokenization, Stop words, Discretization, Normalization) :


In [8]:
# First, load the data from MongoDB

# Connect to MongoDB server
client = MongoClient('mongodb://localhost:27017/')

# Select the database
db = client['NLP_DB1']

# Select the collection
collection = db['hespress_posts']

projection = {'_id': 0, 'post_content': 1}

# Query the collection to retrieve documents
all_posts = collection.find({}, projection)

# Convert the data to pandas´s DataFrame
all_posts = DataFrame(list(all_posts))

all_posts.head()

Unnamed: 0,post_content
0,ضمن التقرير الذي تسلمه عزيز أخنوش، رئيس الحكوم...
1,يتجدد النقاش في أوساط المهتمين بشؤون المرأة وح...
2,أعلن شكيب بنموسى، وزير التربية الوطنية والتعلي...
3,تتجه أنظار شبكات الهجرة السرية بالمغرب إلى موع...
4,توصلت جريدة هسبريس الإلكترونية برد جمعية الأعم...


In [9]:
# Import libraries for Establishment of NLP Pipeline 
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import arabic_reshaper # for text normalization

##### This is an example of the process of Establishment of NLP Pipeline in the 3rd question :

In [10]:
all_posts["post_content"][0]

'ضمن التقرير الذي تسلمه عزيز أخنوش، رئيس الحكومة، نهاية شهر مارس الماضي، من الهيئة المكلفة بمراجعة مدونة الأسرة، المقرر رفعه إلى الملك محمد السادس، كان لافتا وجود مقترح تطرق إلى تقسيم التركة من خلال “تخويل صاحب المال والأصول سلطة اختيار النظام المُطبق، إما الميراث أو الوصية، مع توسيع نطاق الأخيرة لتشمل الأحفاد ورفع القيود المفروضة عليها”. وعلى الرغم من أن هذا المقترح، الذي عدّه كثيرون “تسريبا”، ورد عموما في وثيقة رائجة ولا يتصل بتوصيات رسمية مرفوعة إلى الملك محمد السادس؛ فإن جهات كثيرة التقطته، خصوصا الأقليات الدينية بالمغرب، ونظرت إليه بـ”تقدير” كـ”حل براغماتي” يساعد “في تقسيم التركات وفق منطق الوصية”، وتمكين المغاربة من “اختيار الذي يناسب شكل عيشهم”. الدين والقانون سعيد ناشيد، حقوقي وباحث في الفكر الديني، اعتبر أن “مقترح تضمين الوصية ضمن الاختيارات أمام توزيع التركة يكشف فعلا عن حل براغماتي يساهم في التخلص من مأزق فرض تقسيم التركة وفق المنظور الإسلامي على أملاك غير المسلمين، سواء كانوا مسيحيين أو بهائيين أو ملاحدة”، مؤكدا أن “الاشتغال بالوصية سيكون مبدأ قانونيا صرفا، حتى لو كانت وارد

In [11]:
# Remove HTML tags 
cleaned_text = re.sub('<[^<]+?>', '', all_posts["post_content"][0])
# Remove non-Arabic characters, digits, and punctuation
cleaned_text = re.sub(r'[^\u0600-\u06FF\s]', '', cleaned_text)
# Remove extra spaces
cleaned_text = re.sub(r'\s+', ' ', cleaned_text)
cleaned_text

'ضمن التقرير الذي تسلمه عزيز أخنوش، رئيس الحكومة، نهاية شهر مارس الماضي، من الهيئة المكلفة بمراجعة مدونة الأسرة، المقرر رفعه إلى الملك محمد السادس، كان لافتا وجود مقترح تطرق إلى تقسيم التركة من خلال تخويل صاحب المال والأصول سلطة اختيار النظام المُطبق، إما الميراث أو الوصية، مع توسيع نطاق الأخيرة لتشمل الأحفاد ورفع القيود المفروضة عليها وعلى الرغم من أن هذا المقترح، الذي عدّه كثيرون تسريبا، ورد عموما في وثيقة رائجة ولا يتصل بتوصيات رسمية مرفوعة إلى الملك محمد السادس؛ فإن جهات كثيرة التقطته، خصوصا الأقليات الدينية بالمغرب، ونظرت إليه بـتقدير كـحل براغماتي يساعد في تقسيم التركات وفق منطق الوصية، وتمكين المغاربة من اختيار الذي يناسب شكل عيشهم الدين والقانون سعيد ناشيد، حقوقي وباحث في الفكر الديني، اعتبر أن مقترح تضمين الوصية ضمن الاختيارات أمام توزيع التركة يكشف فعلا عن حل براغماتي يساهم في التخلص من مأزق فرض تقسيم التركة وفق المنظور الإسلامي على أملاك غير المسلمين، سواء كانوا مسيحيين أو بهائيين أو ملاحدة، مؤكدا أن الاشتغال بالوصية سيكون مبدأ قانونيا صرفا، حتى لو كانت واردة صراحة في النص ا

In [12]:
tokens = word_tokenize(cleaned_text)
print(tokens)
len(tokens)

['ضمن', 'التقرير', 'الذي', 'تسلمه', 'عزيز', 'أخنوش،', 'رئيس', 'الحكومة،', 'نهاية', 'شهر', 'مارس', 'الماضي،', 'من', 'الهيئة', 'المكلفة', 'بمراجعة', 'مدونة', 'الأسرة،', 'المقرر', 'رفعه', 'إلى', 'الملك', 'محمد', 'السادس،', 'كان', 'لافتا', 'وجود', 'مقترح', 'تطرق', 'إلى', 'تقسيم', 'التركة', 'من', 'خلال', 'تخويل', 'صاحب', 'المال', 'والأصول', 'سلطة', 'اختيار', 'النظام', 'المُطبق،', 'إما', 'الميراث', 'أو', 'الوصية،', 'مع', 'توسيع', 'نطاق', 'الأخيرة', 'لتشمل', 'الأحفاد', 'ورفع', 'القيود', 'المفروضة', 'عليها', 'وعلى', 'الرغم', 'من', 'أن', 'هذا', 'المقترح،', 'الذي', 'عدّه', 'كثيرون', 'تسريبا،', 'ورد', 'عموما', 'في', 'وثيقة', 'رائجة', 'ولا', 'يتصل', 'بتوصيات', 'رسمية', 'مرفوعة', 'إلى', 'الملك', 'محمد', 'السادس؛', 'فإن', 'جهات', 'كثيرة', 'التقطته،', 'خصوصا', 'الأقليات', 'الدينية', 'بالمغرب،', 'ونظرت', 'إليه', 'بـتقدير', 'كـحل', 'براغماتي', 'يساعد', 'في', 'تقسيم', 'التركات', 'وفق', 'منطق', 'الوصية،', 'وتمكين', 'المغاربة', 'من', 'اختيار', 'الذي', 'يناسب', 'شكل', 'عيشهم', 'الدين', 'والقانون', 'سعيد', 

662

In [189]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\driss\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [184]:
print("Arabic stop-words : ", set(stopwords.words('arabic')))

Arabic stop-words :  {'حدَث', 'سبحان', 'استحال', 'لما', 'دون', 'فلان', 'بسّ', 'ولكن', 'تين', 'ثمة', 'ضحوة', 'مايو', 'كليهما', 'هاء', 'اللتان', 'إياكم', 'أينما', 'إذ', 'ذان', 'كن', 'الألى', 'خال', 'أم', 'مليم', 'لهن', 'هل', 'ما', 'ذِه', 'ثلاثين', 'حمٌ', 'ذلك', 'ح', 'لهما', 'خاء', 'ءَ', 'صباح', 'أيّان', 'بي', 'ذَيْنِ', 'حمو', 'بس', 'وما', 'سبتمبر', 'هيا', 'سرعان', 'تسعين', 'إياكما', 'هَجْ', 'جعل', 'لي', 'سبت', 'كذا', 'لن', 'أخبر', 'ليسوا', 'ستون', 'انبرى', 'هاكَ', 'هَذِي', 'حادي', 'زود', 'ل', 'إذا', 'هَيْهات', 'حقا', 'ذاك', 'يوليو', 'تَيْنِ', 'غين', 'أيضا', 'خلا', 'إيه', 'بطآن', 'حرى', 'هؤلاء', 'كيفما', 'ذو', 'اللتيا', 'بما', 'كأن', 'إياها', 'ما برح', 'إنا', 'ثمانمئة', 'أنبأ', 'ط', 'حيث', 'لنا', 'ماذا', 'هو', 'ذانِ', 'وَيْ', 'تلكم', 'غ', 'د', 'خميس', 'لاسيما', 'أكتوبر', 'باء', 'شَتَّانَ', 'أنتم', 'تجاه', 'لعل', 'أوشك', 'ق', 'إلَيْكَ', 'غدا', 'اثنان', 'ه', 'نبَّا', 'ز', 'تفعلين', 'ولا', 'على', 'إلا', 'غداة', 'أربعمائة', 'بيد', 'ثمانون', 'أين', 'خبَّر', 'لبيك', 'ثلاثمئة', 'بنا', 'رزق', 'سن

In [147]:
# Remove stop words
filtered_tokens = [token for token in tokens if token not in set(stopwords.words('arabic'))]
print(filtered_tokens)
len(filtered_tokens)

['ضمن', 'التقرير', 'تسلمه', 'عزيز', 'أخنوش،', 'رئيس', 'الحكومة،', 'نهاية', 'شهر', 'الماضي،', 'الهيئة', 'المكلفة', 'بمراجعة', 'مدونة', 'الأسرة،', 'المقرر', 'رفعه', 'الملك', 'محمد', 'السادس،', 'لافتا', 'وجود', 'مقترح', 'تطرق', 'تقسيم', 'التركة', 'خلال', 'تخويل', 'صاحب', 'المال', 'والأصول', 'سلطة', 'اختيار', 'النظام', 'المُطبق،', 'الميراث', 'الوصية،', 'توسيع', 'نطاق', 'الأخيرة', 'لتشمل', 'الأحفاد', 'ورفع', 'القيود', 'المفروضة', 'عليها', 'وعلى', 'الرغم', 'المقترح،', 'عدّه', 'كثيرون', 'تسريبا،', 'عموما', 'وثيقة', 'رائجة', 'يتصل', 'بتوصيات', 'رسمية', 'مرفوعة', 'الملك', 'محمد', 'السادس؛', 'جهات', 'كثيرة', 'التقطته،', 'خصوصا', 'الأقليات', 'الدينية', 'بالمغرب،', 'ونظرت', 'إليه', 'بـتقدير', 'كـحل', 'براغماتي', 'يساعد', 'تقسيم', 'التركات', 'وفق', 'منطق', 'الوصية،', 'وتمكين', 'المغاربة', 'اختيار', 'يناسب', 'شكل', 'عيشهم', 'الدين', 'والقانون', 'سعيد', 'ناشيد،', 'حقوقي', 'وباحث', 'الفكر', 'الديني،', 'اعتبر', 'مقترح', 'تضمين', 'الوصية', 'ضمن', 'الاختيارات', 'توزيع', 'التركة', 'يكشف', 'فعلا', 'حل', 'ب

503

In [152]:
# Normalize the text
normalized_text = arabic_reshaper.reshape(' '.join(filtered_tokens))
normalized_text

'ﺿﻤﻦ ﺍﻟﺘﻘﺮﻳﺮ ﺗﺴﻠﻤﻪ ﻋﺰﻳﺰ ﺃﺧﻨﻮﺵ، ﺭﺋﻴﺲ ﺍﻟﺤﻜﻮﻣﺔ، ﻧﻬﺎﻳﺔ ﺷﻬﺮ ﺍﻟﻤﺎﺿﻲ، ﺍﻟﻬﻴﺌﺔ ﺍﻟﻤﻜﻠﻔﺔ ﺑﻤﺮﺍﺟﻌﺔ ﻣﺪﻭﻧﺔ ﺍﻷﺳﺮﺓ، ﺍﻟﻤﻘﺮﺭ ﺭﻓﻌﻪ ﺍﻟﻤﻠﻚ ﻣﺤﻤﺪ ﺍﻟﺴﺎﺩﺱ، ﻻﻓﺘﺎ ﻭﺟﻮﺩ ﻣﻘﺘﺮﺡ ﺗﻄﺮﻕ ﺗﻘﺴﻴﻢ ﺍﻟﺘﺮﻛﺔ ﺧﻼﻝ ﺗﺨﻮﻳﻞ ﺻﺎﺣﺐ ﺍﻟﻤﺎﻝ ﻭﺍﻷﺻﻮﻝ ﺳﻠﻄﺔ ﺍﺧﺘﻴﺎﺭ ﺍﻟﻨﻈﺎﻡ ﺍﻟﻤﻄﺒﻖ، ﺍﻟﻤﻴﺮﺍﺙ ﺍﻟﻮﺻﻴﺔ، ﺗﻮﺳﻴﻊ ﻧﻄﺎﻕ ﺍﻷﺧﻴﺮﺓ ﻟﺘﺸﻤﻞ ﺍﻷﺣﻔﺎﺩ ﻭﺭﻓﻊ ﺍﻟﻘﻴﻮﺩ ﺍﻟﻤﻔﺮﻭﺿﺔ ﻋﻠﻴﻬﺎ ﻭﻋﻠﻰ ﺍﻟﺮﻏﻢ ﺍﻟﻤﻘﺘﺮﺡ، ﻋﺪﻩ ﻛﺜﻴﺮﻭﻥ ﺗﺴﺮﻳﺒﺎ، ﻋﻤﻮﻣﺎ ﻭﺛﻴﻘﺔ ﺭﺍﺋﺠﺔ ﻳﺘﺼﻞ ﺑﺘﻮﺻﻴﺎﺕ ﺭﺳﻤﻴﺔ ﻣﺮﻓﻮﻋﺔ ﺍﻟﻤﻠﻚ ﻣﺤﻤﺪ ﺍﻟﺴﺎﺩﺱ؛ ﺟﻬﺎﺕ ﻛﺜﻴﺮﺓ ﺍﻟﺘﻘﻄﺘﻪ، ﺧﺼﻮﺻﺎ ﺍﻷﻗﻠﻴﺎﺕ ﺍﻟﺪﻳﻨﻴﺔ ﺑﺎﻟﻤﻐﺮﺏ، ﻭﻧﻈﺮﺕ ﺇﻟﻴﻪ ﺑـﺘﻘﺪﻳﺮ ﻛـﺤﻞ ﺑﺮﺍﻏﻤﺎﺗﻲ ﻳﺴﺎﻋﺪ ﺗﻘﺴﻴﻢ ﺍﻟﺘﺮﻛﺎﺕ ﻭﻓﻖ ﻣﻨﻄﻖ ﺍﻟﻮﺻﻴﺔ، ﻭﺗﻤﻜﻴﻦ ﺍﻟﻤﻐﺎﺭﺑﺔ ﺍﺧﺘﻴﺎﺭ ﻳﻨﺎﺳﺐ ﺷﻜﻞ ﻋﻴﺸﻬﻢ ﺍﻟﺪﻳﻦ ﻭﺍﻟﻘﺎﻧﻮﻥ ﺳﻌﻴﺪ ﻧﺎﺷﻴﺪ، ﺣﻘﻮﻗﻲ ﻭﺑﺎﺣﺚ ﺍﻟﻔﻜﺮ ﺍﻟﺪﻳﻨﻲ، ﺍﻋﺘﺒﺮ ﻣﻘﺘﺮﺡ ﺗﻀﻤﻴﻦ ﺍﻟﻮﺻﻴﺔ ﺿﻤﻦ ﺍﻻﺧﺘﻴﺎﺭﺍﺕ ﺗﻮﺯﻳﻊ ﺍﻟﺘﺮﻛﺔ ﻳﻜﺸﻒ ﻓﻌﻼ ﺣﻞ ﺑﺮﺍﻏﻤﺎﺗﻲ ﻳﺴﺎﻫﻢ ﺍﻟﺘﺨﻠﺺ ﻣﺄﺯﻕ ﻓﺮﺽ ﺗﻘﺴﻴﻢ ﺍﻟﺘﺮﻛﺔ ﻭﻓﻖ ﺍﻟﻤﻨﻈﻮﺭ ﺍﻹﺳﻼﻣﻲ ﺃﻣﻼﻙ ﺍﻟﻤﺴﻠﻤﻴﻦ، ﺳﻮﺍﺀ ﻛﺎﻧﻮﺍ ﻣﺴﻴﺤﻴﻴﻦ ﺑﻬﺎﺋﻴﻴﻦ ﻣﻼﺣﺪﺓ، ﻣﺆﻛﺪﺍ ﺍﻻﺷﺘﻐﺎﻝ ﺑﺎﻟﻮﺻﻴﺔ ﺳﻴﻜﻮﻥ ﻣﺒﺪﺃ ﻗﺎﻧﻮﻧﻴﺎ ﺻﺮﻓﺎ، ﻛﺎﻧﺖ ﻭﺍﺭﺩﺓ ﺍﻟﻨﺺ ﺍﻟﺪﻳﻨﻲ ﺍﻟﻘﺮﺁﻧﻲ ﻭﻭﺿﺢ ﻧﺎﺷﻴﺪ، ﺗﺼﺮﻳﺢ ﻟﻬﺴﺒﺮﻳﺲ، ﺍﻟﻮﺻﻴﺔ ﺗﻤﺜﻞ ﻣﺨﺮﺟﺎ ﻭﺣﻼ ﻟﻤﺸﻜﻞ ﺍﻹﺭﺙ ﺩﺍﺧﻞ ﺑﻨﻴﺔ ﺍﻟﺪﻳﻦ ﻧﻔﺴﻪ، ﻭﻫﻲ ﺩﻟﻴﻞ ﺍﻟﺪﻳﻦ ﻭﺍﺳﻊ ﻭﺭﺣﺐ ﻳﻜﻔﻲ ﻟﻨﺠﺪ ﻣﺨﺎﺭﺝ ﻟﻜﻞ ﺍﻟﻤﺸﺎﻛﻞ ﺍﻟﻤ

##### Now, we are going to apply the process on the all data

In [13]:
# Load Arabic stop words
stop_words = set(stopwords.words('arabic'))

# text cleaning function
def clean_text(text):
    # Remove HTML tags 
    cleaned_text = re.sub('<[^<]+?>', '', text)
    # Remove non-Arabic characters, digits, and punctuation
    cleaned_text = re.sub(r'[^\u0600-\u06FF\s]', '', cleaned_text)
    # Remove extra spaces
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text)
    return cleaned_text

# text normalization function
def normalize_text(text):
    # Normalize Arabic characters
    normalized_text = arabic_reshaper.reshape(text)
    return normalized_text


In [14]:
post_content2 = []

# Process each text
for i in range(len(all_posts)):
    # Get Arabic text from MongoDB document
    arabic_text = all_posts["post_content"][i]
    # print("before : ", arabic_text)
    
    # Clean the text
    cleaned_text = clean_text(arabic_text)
    
    # Tokenize the cleaned text
    tokens = word_tokenize(cleaned_text)
    
    # Remove stop words
    filtered_tokens = [token for token in tokens if token not in stop_words]
    
    # Normalize the text
    normalized_text = normalize_text(' '.join(filtered_tokens))
    
    # Print or store the processed text
    post_content2.append(normalized_text)
    # print("after : ", normalized_text)
    # print("*"*50)

all_posts["post_content2"] = post_content2

In [10]:
all_posts.head()

Unnamed: 0,post_content,post_content2
0,ضمن التقرير الذي تسلمه عزيز أخنوش، رئيس الحكوم...,ﺿﻤﻦ ﺍﻟﺘﻘﺮﻳﺮ ﺗﺴﻠﻤﻪ ﻋﺰﻳﺰ ﺃﺧﻨﻮﺵ، ﺭﺋﻴﺲ ﺍﻟﺤﻜﻮﻣﺔ، ﻧﻬ...
1,يتجدد النقاش في أوساط المهتمين بشؤون المرأة وح...,ﻳﺘﺠﺪﺩ ﺍﻟﻨﻘﺎﺵ ﺃﻭﺳﺎﻁ ﺍﻟﻤﻬﺘﻤﻴﻦ ﺑﺸﺆﻭﻥ ﺍﻟﻤﺮﺃﺓ ﻭﺣﻘﻮﻗ...
2,أعلن شكيب بنموسى، وزير التربية الوطنية والتعلي...,ﺃﻋﻠﻦ ﺷﻜﻴﺐ ﺑﻨﻤﻮﺳﻰ، ﻭﺯﻳﺮ ﺍﻟﺘﺮﺑﻴﺔ ﺍﻟﻮﻃﻨﻴﺔ ﻭﺍﻟﺘﻌﻠﻴ...
3,تتجه أنظار شبكات الهجرة السرية بالمغرب إلى موع...,ﺗﺘﺠﻪ ﺃﻧﻈﺎﺭ ﺷﺒﻜﺎﺕ ﺍﻟﻬﺠﺮﺓ ﺍﻟﺴﺮﻳﺔ ﺑﺎﻟﻤﻐﺮﺏ ﻣﻮﻋﺪ ﻋﻴ...
4,توصلت جريدة هسبريس الإلكترونية برد جمعية الأعم...,ﺗﻮﺻﻠﺖ ﺟﺮﻳﺪﺓ ﻫﺴﺒﺮﻳﺲ ﺍﻹﻟﻜﺘﺮﻭﻧﻴﺔ ﺑﺮﺩ ﺟﻤﻌﻴﺔ ﺍﻷﻋﻤﺎﻝ...


##### **Synthesis**: In this question, I have Established an NLP pipeline involving text cleaning, tokenization, stop words removal and normalization for Arabic text.

-------------------
## 4. Do the Stemming and Lemmatization, then compare the tow mechanisms : 

**Comparison** : The main difference between lemmatization and stemming is the level of abstraction they provide when reducing words to their base forms:

1. Lemmatization:
   - Lemmatization aims to return the base or dictionary form of a word, known as the lemma, by considering the context and part of speech of the word.
   - It typically involves dictionary lookup and morphological analysis to accurately determine the lemma.
   - Lemmatization results in more accurate base forms compared to stemming.
   - It requires more computational resources and time compared to stemming.
   - Lemmatization produces real words or lemmas that have meaning in the language.

2. Stemming:
   - Stemming is a simpler and faster process that chops off affixes from words to get to the root or stem.
   - It does not consider the context or part of speech of the word, leading to potential inaccuracies.
   - Stemming may produce non-real words or stems that may not have meaning in the language.
   - Stemming is less computationally intensive compared to lemmatization.

In [15]:
from nltk.stem import WordNetLemmatizer
from farasa.stemmer import FarasaStemmer
from nltk.tokenize import word_tokenize
import nltk

In [17]:
# Arabic stemmer
stemmer = FarasaStemmer()

# WordNet Lemmatizer
lemmatizer = WordNetLemmatizer()

post_content3 = []

for i in range(len(all_posts)):

    arabic_text = all_posts["post_content2"][i]

    # Tokenize the sentence
    tokens = word_tokenize(arabic_text)

    # Lemmatization
    lemmatized_words = [lemmatizer.lemmatize(token) for token in tokens]

    # Stemming
    stemmed_words = stemmer.stem(" ".join(tokens))

    # store the Stemmed words because Stemming return the base or dictionary form of a word,
    # known as the lemma, by considering the context and part of speech of the word.
    post_content3.append(stemmed_words)

    if i == 1 :
        print("arabic_text : ", arabic_text)
        print("-"*50)
        print("Lemmatized words:", lemmatized_words)
        print("-"*50)
        print("Stemmed words:", word_tokenize(stemmed_words))


all_posts["post_content3"] = post_content3


arabic_text :  ﻳﺘﺠﺪﺩ ﺍﻟﻨﻘﺎﺵ ﺃﻭﺳﺎﻁ ﺍﻟﻤﻬﺘﻤﻴﻦ ﺑﺸﺆﻭﻥ ﺍﻟﻤﺮﺃﺓ ﻭﺣﻘﻮﻗﻬﺎ ﺍﻟﻤﻐﺮﺏ، ﻇﻞ ﺍﻟﺤﺪﻳﺚ ﺍﻟﺤﺎﻟﻲ ﺗﻌﺪﻳﻞ ﻣﺪﻭﻧﺔ ﺍﻷﺳﺮﺓ، ﺃﻳﻀﺎ، ﺣﻮﻝ ﺗﻘﻨﻴﻦ ﺍﻹﺟﻬﺎﺽ ﻭﻓﻲ ﺍﻹﻃﺎﺭ، ﻃﺎﻟﺐ ﺷﻔﻴﻖ ﺍﻟﺸﺮﺍﻳﺒﻲ، ﺭﺋﻴﺲ ﺍﻟﺠﻤﻌﻴﺔ ﺍﻟﻤﻐﺮﺑﻴﺔ ﻟﻤﺤﺎﺭﺑﺔ ﺍﻹﺟﻬﺎﺽ ﺍﻟﺴﺮﻱ، ﺍﻟﺤﻜﻮﻣﺔ ﺍﻟﺤﺎﻟﻴﺔ ﺑﻀﺮﻭﺭﺓ ﺗﻘﻨﻴﻨﻪ، ﻣﻌﺘﺒﺮﺍ ﺃﻧﻪ ﻳﺰﺍﻝ ﺇﺷﻜﺎﻻ ﻳﻌﺘﺮﺽ ﺍﻟﻤﺠﺘﻤﻊ ﺍﻟﻤﻐﺮﺑﻲ ﻇﻞ ﺗﺴﺠﻴﻞ ﺣﻮﺍﻟﻲ ﺣﺎﻟﺔ ﺇﺟﻬﺎﺽ ﻳﻮﻣﻴﺎ ﻭﻗﺎﻝ ﺭﺋﻴﺲ ﺍﻟﺠﻤﻌﻴﺔ ﺍﻟﻤﻐﺮﺑﻴﺔ ﻟﻤﺤﺎﺭﺑﺔ ﺍﻹﺟﻬﺎﺽ ﺍﻟﺴﺮﻱ، ﺿﻤﻦ ﺗﺼﺮﻳﺢ ﻟﻬﺴﺒﺮﻳﺲ، ﺗﻄﺎﻟﺐ ﺟﻤﻌﻴﺘﻪ ﺍﻟﺘﻮﻗﻒ ﺍﻵﻣﻦ ﻟﻠﺤﻤﻞ، ﻭﺃﻧﻬﺎ ﺗﺸﺠﻊ ﺍﻹﺟﻬﺎﺽ، ﻣﺸﻴﺮﺍ ﺃﻧﻪ ﻟﻐﺔ ﺍﻷﺭﻗﺎﻡ ﺍﻹﺟﻬﺎﺽ ﺃﻣﺮ ﺳﺮﻱ؛ ﺳﺒﻖ ﻗﻤﻨﺎ ﺑﺒﺤﺚ ﺳﺮﻱ ﻭﺗﻮﺻﻠﻨﺎ ﺃﻧﻪ ﺍﻟﺮﺑﺎﻁ ﻭﺳﻼ ﺣﺎﻟﺔ ﺇﺟﻬﺎﺽ ﻳﻮﻣﻴﺎ، ﻭﺍﻟﺪﺍﺭ ﺍﻟﺒﻴﻀﺎﺀ ﻷﻧﻬﺎ ﺃﻛﺒﺮ ﺣﻮﺍﻟﻲ ﺣﺎﻟﺔ ﺇﺟﻬﺎﺽ، ﺑﺎﻗﻲ ﺍﻟﻤﺪﻥ ﺍﻷﺧﺮﻯ، ﻟﻴﺼﻞ ﺍﻟﺮﻗﻢ ﺣﻮﺍﻟﻲ ﺣﺎﻟﺔ ﻳﻮﻣﻴﺎ ﻭﺃﺿﺎﻑ ﺍﻟﺸﺮﺍﻳﺒﻲ ﺍﻟﻨﺎﺣﻴﺔ ﺩﻳﻨﻴﺔ، ﻭﺟﻮﺩ ﻷﻱ ﺁﻳﺔ ﻗﺮﺁﻧﻴﺔ ﺣﺪﻳﺚ ﺷﺮﻳﻒ ﺗﺘﺤﺪﺙ ﺍﻹﺟﻬﺎﺽ، ﻣﺘﺎﺑﻌﺎ ﺍﻹﺟﻬﺎﺽ ﻣﻘﺒﻮﻝ ﻃﺮﻑ ﺍﻟﻘﺎﻧﻮﻥ ﺍﻟﻨﺴﺎﺀ ﻳﻠﺠﺄﻥ ﺍﻹﺟﻬﺎﺽ ﺍﻟﺴﺮﻱ؛ ﺃﻣﺮ ﺧﻄﻴﺮ ﺟﺪﺍ ﻭﻣﻤﺎ ﻳﺠﻌﻞ ﺧﻄﻴﺮﺍ، ﻗﺎﻝ ﺭﺋﻴﺲ ﺍﻟﺠﻤﻌﻴﺔ ﺍﻟﻤﻐﺮﺑﻴﺔ ﻟﻤﺤﺎﺭﺑﺔ ﺍﻹﺟﻬﺎﺽ ﺍﻟﺴﺮﻱ، ﻷﻧﻪ ﺗﻠﺠﺄ ﺍﻟﻨﺴﺎﺀ ﺍﻷﻃﺒﺎﺀ ﻳﻘﻮﻣﻮﻥ ﺑﺴﺮﻳﺔ ﺑﺜﻤﻦ ﻣﺮﺗﻔﻊ، ﺇﺟﻬﺎﺽ ﺁﻣﻦ ﺍﻟﻤﺎﺋﺔ ﺍﻹﺟﻬﺎﺽ ﺍﻟﺘﻘﻠﻴﺪﻱ، ﺧﻄﻮﺭﺓ ﻷﻥ ﺗﻘﻮﻡ ﺗﺤﺎﻭﻝ ﺗﺠﻬﺾ ﻧﻔﺴﻬﺎ ﺑﻨﻔﺴﻬﺎ، ﺗﺘﺮﺗﺐ ﻋﻨﻪ ﻣﻀﺎﻋﻔﺎﺕ ﻛﺜﻴﺮﺓ؛ ﻣﺜﻼ ﻧﺰﻳﻒ، ﺗﻤﺰﻗﺎﺕ ﺍﻟﺮﺣﻢ، ﺗﻌﻔ

In [18]:
all_posts.head()

Unnamed: 0,post_content,post_content2,post_content3
0,ضمن التقرير الذي تسلمه عزيز أخنوش، رئيس الحكوم...,ﺿﻤﻦ ﺍﻟﺘﻘﺮﻳﺮ ﺗﺴﻠﻤﻪ ﻋﺰﻳﺰ ﺃﺧﻨﻮﺵ، ﺭﺋﻴﺲ ﺍﻟﺤﻜﻮﻣﺔ، ﻧﻬ...,ضمن تقرير تسلم عزيز اخنوش ، رييس حكومه ، نهاي ...
1,يتجدد النقاش في أوساط المهتمين بشؤون المرأة وح...,ﻳﺘﺠﺪﺩ ﺍﻟﻨﻘﺎﺵ ﺃﻭﺳﺎﻁ ﺍﻟﻤﻬﺘﻤﻴﻦ ﺑﺸﺆﻭﻥ ﺍﻟﻤﺮﺃﺓ ﻭﺣﻘﻮﻗ...,تجدد نقاش أوساط مهتم شوون مراه حق مغرب ، ظل حد...
2,أعلن شكيب بنموسى، وزير التربية الوطنية والتعلي...,ﺃﻋﻠﻦ ﺷﻜﻴﺐ ﺑﻨﻤﻮﺳﻰ، ﻭﺯﻳﺮ ﺍﻟﺘﺮﺑﻴﺔ ﺍﻟﻮﻃﻨﻴﺔ ﻭﺍﻟﺘﻌﻠﻴ...,اعلن شكيب نموس ، وزير تربيه وطنيه تعليم أول ري...
3,تتجه أنظار شبكات الهجرة السرية بالمغرب إلى موع...,ﺗﺘﺠﻪ ﺃﻧﻈﺎﺭ ﺷﺒﻜﺎﺕ ﺍﻟﻬﺠﺮﺓ ﺍﻟﺴﺮﻳﺔ ﺑﺎﻟﻤﻐﺮﺏ ﻣﻮﻋﺪ ﻋﻴ...,اتجه أنظار شبكة هجر سريه مغرب موعد عيد فطر قصد...
4,توصلت جريدة هسبريس الإلكترونية برد جمعية الأعم...,ﺗﻮﺻﻠﺖ ﺟﺮﻳﺪﺓ ﻫﺴﺒﺮﻳﺲ ﺍﻹﻟﻜﺘﺮﻭﻧﻴﺔ ﺑﺮﺩ ﺟﻤﻌﻴﺔ ﺍﻷﻋﻤﺎﻝ...,توصل جريد هسبريس إلكترونيه رد جمعي عمل اجتماعي...


In [19]:
my_dict = []

for i in range(len(post_content3)) :
    my_dict.append({"cleaned_data" : post_content3[i]})


In [20]:
# I can store the scraped data in a CSV file
columns = my_dict[0].keys()

with open("cleaned_hespress-posts.csv", "w", encoding="utf-8-sig", newline="") as csv_file:
    dict_writer = csv.DictWriter(csv_file, columns)
    dict_writer.writeheader()
    dict_writer.writerows(my_dict)

    print("*"*50, "\n file created \n", "*"*50)

************************************************** 
 file created 
 **************************************************


    In summary, the choice between stemming and lemmatization depends on the specific requirements of the NLP task. While stemming is suitable for general text processing tasks that prioritize speed and simplicity, lemmatization is preferred for applications where accuracy and semantic fidelity are paramount.

##### **Synthesis**: In this question, I have Implemented stemming and lemmatization techniques and compared their effectiveness for Arabic text processing.

--------------
## 5. Apply Parts of Speech technics based on both Rule based and Machine learning approaches.

##### **Rule-based Approach**: In the rule-based approach, we define patterns or rules to tag each word based on its context.
##### **ML Approach**: For the machine learning approach, we can use pre-trained models or train our own model on annotated data.

##### For Rule-based Approach :

In [21]:
# Define rules for part-of-speech tagging using regular expressions
patterns = [
    (r'^ال.*$', 'اسم'),            # Nouns starting with ال
    (r'^و.*$', 'اسم'),              # Nouns starting with و
    (r'^ب.*$', 'اسم'),              # Nouns starting with ب
    (r'^ف.*$', 'اسم'),              # Nouns starting with ف
    (r'^ك.*$', 'اسم'),              # Nouns starting with ك
    (r'^ل.*$', 'اسم'),              # Nouns starting with ل
    (r'^م.*$', 'اسم'),              # Nouns starting with م
    (r'^ن.*$', 'اسم'),              # Nouns starting with ن
    (r'^ت.*$', 'اسم'),              # Nouns starting with ت
    (r'^ه.*$', 'اسم'),              # Nouns starting with ه
    (r'^ي.*$', 'اسم'),              # Nouns starting with ي
    (r'^ع.*$', 'اسم'),              # Nouns starting with ع
    (r'^ص.*$', 'اسم'),              # Nouns starting with ص
    (r'^ح.*$', 'اسم'),              # Nouns starting with ح
    (r'^ق.*$', 'اسم'),              # Nouns starting with ق
    (r'^ر.*$', 'اسم'),              # Nouns starting with ر
    (r'^س.*$', 'اسم'),              # Nouns starting with س
    (r'^ش.*$', 'اسم'),              # Nouns starting with ش
    (r'^ض.*$', 'اسم'),              # Nouns starting with ض
    (r'^ظ.*$', 'اسم'),              # Nouns starting with ظ
    (r'^غ.*$', 'اسم'),              # Nouns starting with غ
    (r'^هذا$', 'اسم'),             # Specific words like هذا
    (r'^هذه$', 'اسم'),             # Specific words like هذه
    (r'^هو$', 'ضمير'),              # Specific pronouns like هو
    (r'^هي$', 'ضمير'),              # Specific pronouns like هي
    (r'.*ُ$', 'اسم'),               # Nouns ending with ُ
    (r'.*َة$', 'اسم'),              # Nouns ending with َة
    (r'.*ِ$', 'فعل'),               # Verbs ending with ِ
    (r'.*َ$', 'صفة'),               # Adjectives ending with َ
    (r'.*َةُ$', 'اسم'),            # Nouns ending with َةُ
    (r'.*َةِ$', 'اسم'),            # Nouns ending with َةِ
    (r'.*ُون$', 'اسم'),            # Nouns ending with ُون
    (r'.*ِين$', 'اسم'),            # Nouns ending with ِين
    (r'.*ْ$', 'اسم'),              # Nouns ending with ْ
    (r'.*ى$', 'ضمير'),              # Pronouns ending with ى
    (r'.*َه$', 'ضمير'),             # Pronouns ending with ه
    (r'.*ت$', 'فعل'),              # Verbs ending with ت
    (r'.*نا$', 'ضمير'),             # Pronouns ending with نا
    (r'.*ك$', 'ضمير'),              # Pronouns ending with ك
    (r'.*ي$', 'ضمير'),              # Pronouns ending with ي
    (r'.*ُو$', 'ضمير'),             # Pronouns ending with ُو
    (r'.*ها$', 'ضمير'),             # Pronouns ending with ها
    (r'.*كما$', 'ضمير'),            # Pronouns ending with كما
    (r'.*كن$', 'ضمير'),             # Pronouns ending with كن
    (r'.*كم$', 'ضمير'),             # Pronouns ending with كم
    (r'.*ني$', 'ضمير'),             # Pronouns ending with ني
    (r'.*هما$', 'ضمير'),            # Pronouns ending with هما
    (r'.*هم$', 'ضمير'),             # Pronouns ending with هم
    (r'.*هن$', 'ضمير'),             # Pronouns ending with هن
    (r'.*ه$', 'ضمير'),              # Pronouns ending with ه
    (r'.*تا$', 'فعل'),              # Verbs ending with تا
    (r'.*تما$', 'فعل'),             # Verbs ending with تما
    (r'.*وا$', 'فعل'),              # Verbs ending with وا
    (r'.*ن$', 'فعل'),               # Verbs ending with ن
    (r'.*ه$', 'فعل'),               # Verbs ending with ه
    (r'.*و$', 'فعل'),               # Verbs ending with و
    (r'.*ي$', 'فعل'),               # Verbs ending with ي
    (r'^\w+$', 'اسم')               # Default to NOUN if no pattern matches
]

# Compile the patterns into a tagger
regexp_tagger = nltk.RegexpTagger(patterns)

post_content4 = []
for i in range(len(all_posts)):

    arabic_text = all_posts["post_content3"][i]

    # Tokenize the sentence
    tokens = word_tokenize(arabic_text)

    # Tag the words using the rule-based tagger
    tagged_words = regexp_tagger.tag(tokens)

    post_content4.append(tagged_words)


    if i == 1:
        # print("arabic_text : ", tokens)
        print("NLTK-based POS tagging: ", tagged_words)

NLTK-based POS tagging:  [('تجدد', 'اسم'), ('نقاش', 'اسم'), ('أوساط', 'اسم'), ('مهتم', 'اسم'), ('شوون', 'اسم'), ('مراه', 'اسم'), ('حق', 'اسم'), ('مغرب', 'اسم'), ('،', None), ('ظل', 'اسم'), ('حديث', 'اسم'), ('حالي', 'اسم'), ('تعديل', 'اسم'), ('مدونة', 'اسم'), ('أسر', 'اسم'), ('،', None), ('ايض', 'اسم'), ('،', None), ('حول', 'اسم'), ('تقنين', 'اسم'), ('إجهاض', 'اسم'), ('في', 'اسم'), ('إطار', 'اسم'), ('،', None), ('طالب', 'اسم'), ('شفيق', 'اسم'), ('شرايبي', 'اسم'), ('،', None), ('رييس', 'اسم'), ('جمعيه', 'ضمير'), ('مغربي', 'اسم'), ('محارب', 'اسم'), ('إجهاض', 'اسم'), ('سري', 'اسم'), ('،', None), ('حكومه', 'اسم'), ('حاليه', 'اسم'), ('ضرور', 'اسم'), ('تقنين', 'اسم'), ('،', None), ('معتبر', 'اسم'), ('ان', 'فعل'), ('زال', 'اسم'), ('شكل', 'اسم'), ('اعترض', 'اسم'), ('مجتمع', 'اسم'), ('مغربي', 'اسم'), ('ظل', 'اسم'), ('تسجيل', 'اسم'), ('حوالي', 'اسم'), ('حال', 'اسم'), ('إجهاض', 'اسم'), ('يومي', 'اسم'), ('قال', 'اسم'), ('رييس', 'اسم'), ('جمعيه', 'ضمير'), ('مغربي', 'اسم'), ('محارب', 'اسم'), ('إجهاض'

##### For the machine learning approach : 

1 - using Farasa library :

In [22]:
from farasa.pos import FarasaPOSTagger
pos_tagger = FarasaPOSTagger()

In [23]:
post_content4 = []
for i in range(len(all_posts)):

    arabic_text = all_posts["post_content3"][i]

    pos_tags = pos_tagger.tag(arabic_text)

    post_content4.append(pos_tags)

    if i == 1:
        # print("arabic_text : ", tokens)
        print("FarasaPOSTagger: ", pos_tags)

FarasaPOSTagger:  S/S تجدد/NOUN-MS نقاش/NOUN-MS أوساط/NOUN-FP مهتم/ADJ-MS شو +ون/NOUN+NSUFF-FD مرا/NOUN-MS +ه/PRON حق/NOUN-MS مغرب/NOUN-MS ،/PUNC ظل/V حديث/NOUN-MS حالي/ADJ-MS تعديل/NOUN-MS مدون +ة/NOUN+NSUFF-FS أسر/NOUN-MS ،/PUNC ايض/NOUN-MS ،/PUNC حول/NOUN-MS تقنين/NOUN-MS إجهاض/NOUN-MS في/PREP إطار/NOUN-MS ،/PUNC طالب/V شفيق/NOUN-MS شرايبي/NOUN-MS ،/PUNC رييس/NOUN-MS جمعي/NOUN-MS +ه/PRON مغربي/ADJ-MS محارب/NOUN-MS إجهاض/NOUN-MS سري/ADJ-MS ،/PUNC حكوم/NOUN-FP +ه/PRON حالي/ADJ-MS +ه/PRON ضرور/V تقنين/NOUN-MS ،/PUNC معتبر/ADJ-MS ان/NOUN-MS زال/V شكل/NOUN-MS اعترض/V مجتمع/NOUN-MS مغربي/ADJ-MS ظل/NOUN-MS تسجيل/NOUN-MS حوالي/NOUN-MS حال/NOUN-MS إجهاض/NOUN-MS يوم/NOUN-MS +ي/NSUFF قال/V رييس/NOUN-MS جمعي/NOUN-MS +ه/PRON مغربي/ADJ-MS محارب/NOUN-MS إجهاض/NOUN-MS سري/ADJ-MS ،/PUNC ضمن/NOUN-MS تصريح/NOUN-MS لهسبريس/NOUN-MS ،/PUNC طالب/V جمعي +ة/NOUN+NSUFF-FS توقف/NOUN-MS آمن/ADJ-MS حمل/NOUN-MS ،/PUNC وان/NOUN-MS شجع/V إجهاض/NOUN-MS ،/PUNC مشير/ADJ-MS ان/NOUN-MS لغ/NOUN-MS رقم/NOUN-MS إجهاض/NOUN

##### **Synthesis**: In this question, I have Applied both rule-based and machine learning-based parts of speech tagging approaches for Arabic text.

-----------------
## 6. Apply NER Methods.

**Named Entity Recognition (NER)** : is a natural language processing task that aims to identify and classify named entities within a text into predefined categories such as persons, organizations, locations, dates, etc. There are various methods and tools available for performing NER on Arabic text. 

##### Using farasa :

In [24]:
from farasa.ner import FarasaNamedEntityRecognizer

named_entity_recognizer = FarasaNamedEntityRecognizer()

In [25]:
named_entity_recognized = named_entity_recognizer.recognize(post_content4[0])
print(named_entity_recognized)

S/O //O S/O ضمن/O //O NOUN/O -/O MS/O تقرير/O //O NOUN/O -/O MS/O تسلم/O //O V/B-PERS عزيز/I-PERS //O NOUN/O -/O MS/B-PERS اخنوش/I-PERS //O NOUN/O -/O MS/O ،/O //O PUNC/O رييس/B-PERS //O NOUN/O -/O MS/O حكوم/O //O NOUN/O -/O FP/O PLUS/O ه/O //O PRON/O ،/O //O PUNC/O نهاي/O //O V/O شهر/O //O NOUN/O -/O MS/B-PERS ماضي/I-PERS //O NOUN/O -/O MS/O ،/O //O PUNC/O هي/O //O PRON/O PLUS/O ي/O //O NSUFF/O PLUS/O ه/O //O PRON/O مكلف/O //O ADJ/O -/O MS/O PLUS/O ه/O //O PRON/O مرجع/O //O NOUN/O -/O MS/O مدون/O PLUS/O ة/O //O NOUN/O PLUS/O NSUFF/O -/O FS/O أسر/O //O NOUN/O -/O MS/O ،/O //O PUNC/O مقرر/O //O ADJ/O -/O MS/O رفع/O //O V/O ملك/O //O NOUN/O -/O MS/O محمد/B-PERS //O NOUN/O -/O MS/O سادس/O //O ADJ/O -/O MS/O ،/O //O PUNC/O لافت/O //O ADJ/O -/O MS/O وجود/O //O NOUN/O -/O MS/O مقترح/O //O NOUN/O -/O MS/O تطرق/O //O V/O تقسيم/O //O NOUN/O -/O MS/O ترك/O //O NOUN/O -/O MS/O خلال/O //O NOUN/O -/O MS/O تخويل/O //O NOUN/O -/O MS/O صاحب/O //O NOUN/O -/O MS/O مال/O //O NOUN/O -/O MS/O أصل/O //O NOU

##### **Synthesis**: In this question, I have Explored named entity recognition methods to identify entities in Arabic text.

-------------------
### Conclusion
This project provided valuable insights into scraping and NLP pipeline techniques for Arabic text. By utilizing libraries like Scrapy and Beautiful Soup for scraping, and employing various NLP techniques including stemming, lemmatization, parts of speech tagging, and named entity recognition, we were able to process and analyze Arabic text from web sources effectively. The comparison between stemming and lemmatization highlighted the importance of considering linguistic context for accurate text processing. Additionally, the application of NER methods demonstrated the capability to extract valuable information from unstructured text data. Overall, this project serves as a foundational step towards building more advanced NLP applications for Arabic language processing.