## Imports

In [26]:
import requests
from bs4 import BeautifulSoup
from pprint import pprint
import json
from pymongo import MongoClient
import re
import pyarabic.trans
from nltk.tokenize import wordpunct_tokenize

# WebScraping

### import link

In [27]:

url = 'https://www.bbc.com/arabic/'

data = requests.get(url)

In [28]:
my_data=[]
html = BeautifulSoup(data.text, 'html.parser')
articles = html.select('.promo-text')
for article in articles:
    title_element = article.select_one('.focusIndicatorDisplayBlock')
    timestamp_element = article.select_one('.promo-timestamp')
    
    title = title_element.text.strip() if title_element else None
    link = title_element.get('href') if title_element else None
    timestamp = timestamp_element.get('datetime') if timestamp_element else None
    
    my_data.append({"title": title, "link": link, "timestamp": timestamp})


In [29]:
pprint(my_data)

[{'link': 'https://www.bbc.com/arabic/articles/c876zz8rpp8o',
  'timestamp': '2024-04-07',
  'title': 'حرب غزة بالأرقام بعد ستة أشهر من اندلاعها'},
 {'link': 'https://www.bbc.com/arabic/articles/cd191zxrx5zo',
  'timestamp': '2024-04-07',
  'title': 'ماذا نعرف عن الفلسطيني الذي قُتل ضمن فريق المطبخ المركزي العالمي '
           'في غزة؟'},
 {'link': 'https://www.bbc.com/arabic/articles/cg3q3q3zjd0o',
  'timestamp': '2024-04-07',
  'title': 'يجب على قطر أن تستخدم كل مواردها لمعاقبة حماس ونزع سلاحها – مقال '
           'في جيروزالم بوست'},
 {'link': 'https://www.bbc.com/arabic/articles/cxwzw9nrey0o',
  'timestamp': '2024-04-07',
  'title': 'هل تستطيع ماكدونالدز إنهاء جدل المقاطعة، بعد استعادة فروعها في '
           'إسرائيل؟'},
 {'link': 'https://www.bbc.com/arabic/articles/c51wn42gjn4o',
  'timestamp': '2024-04-06',
  'title': '"عندما تنتهي الحرب في غزة سأعيش في خيمة بجوار منزلي المُهدم"'},
 {'link': 'https://www.bbc.com/arabic/articles/c7202x49n23o',
  'timestamp': '2024-04-06',
  'titl

In [35]:


def extract_info(soup):
    script_tag = soup.find('script', {'type': 'application/ld+json'})
    # Extract the JSON-LD text
    if script_tag:
        json_ld_text = script_tag.string
        # Load the JSON-LD data
        try:
            json_ld = json.loads(json_ld_text)
            json_ld_data = json_ld.get('@graph', [None])[0]  # Extract data or set to None if not found
            if json_ld_data:
                # Access the relevant information from the JSON-LD data
                headline = json_ld_data.get('headline', None)
                date_published = json_ld_data.get('datePublished', None)
                date_modified = json_ld_data.get('dateModified', None)
                author = json_ld_data['author'].get('name', None)
                url = json_ld_data.get('url', None)
                article_info = {
                    "headline": headline,
                    "date_published": date_published,
                    "date_modified": date_modified,
                    "author": author,
                    "url": url
                }
                return article_info
            else:
                return None  # No @graph data found
        except Exception as e:
            print("Error while extracting info:", e)
            return None  # Return None in case of any exception
    else:
        return None  # No script tag found


In [39]:
def extract_article(soup):
    element = soup.find(id="end-of-recommendations")
    paragraphs = soup.find_all('span', recursive=True)

    # Remove each paragraph found
    for paragraph in paragraphs:
        paragraph.decompose()
    # Remove the element if found
    if element:
        element.extract()
    article = soup.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6','p','b'],recursive=True)
    # Extract text from each tag
    #article_text = ""
    #for tag in article:
     #   article_text += tag.get_text(separator='\n') + '\n'
    #return article_text
    # Extract text from each tag
    article_text=[]
    for tag in article:
        article_text.append(tag.get_text(separator='\n')) 
    return article_text

In [40]:
for e in my_data:
    new_data = requests.get(e['link']) 
    soup = BeautifulSoup(new_data.text, 'html.parser')
    e["article_info"]= extract_info(soup)
    e["article_text"]=  extract_article(soup)

In [41]:
pprint(my_data)

[{'article_info': {'author': 'BBC News عربي',
                   'date_modified': '2024-04-07T06:51:03.076Z',
                   'date_published': '2024-04-07T06:51:03.076Z',
                   'headline': 'حرب غزة بالأرقام بعد ستة أشهر من اندلاعها ',
                   'url': 'https://www.bbc.com/arabic/articles/c876zz8rpp8o'},
  'article_text': ['حرب غزة بالأرقام بعد ستة أشهر من اندلاعها ',
                   '',
                   'رغم قرار مجلس الأمن الذي دعا لوقف فوري لإطلاق النار '
                   'والإفراج غير المشروط عن جميع الرهائن في قطاع غزة، لم تهدأ '
                   'وتيرة القصف الإسرائيلي المتواصل منذ ستة أشهر، والذي حول '
                   'مباني القطاع إلى ركام، وأرغم سكانه على النزوح جنوبا إضافة '
                   'إلى تفاقم المخاوف بشأن التهديد الوشيك بحدوث مجاعة محتملة، '
                   'كما حذر تقرير مدعوم من الأمم المتحدة الشهر الماضي.',
                   'وكانت الحرب قد اندلعت إثر هجوم غير مسبوق نفذته حركة حماس '
                   'في 7 أكتوبر تشرين

## Connect to dataBase

In [42]:
# Connect to MongoDB (assuming it's running on localhost)#
client = MongoClient('mongodb://localhost:27017/')

# Select database
db = client['NLP']

# Select collection
collection = db['TP1']
collection.delete_many({})



DeleteResult({'n': 0, 'ok': 1.0}, acknowledged=True)

## Insert to DataBase

In [43]:

# Insert a single document
insert_result = collection.insert_many(my_data)

In [44]:
print("Inserted document ID:", insert_result)

Inserted document ID: InsertManyResult([ObjectId('661291ca00b8895d70a2db67'), ObjectId('661291ca00b8895d70a2db68'), ObjectId('661291ca00b8895d70a2db69'), ObjectId('661291ca00b8895d70a2db6a'), ObjectId('661291ca00b8895d70a2db6b'), ObjectId('661291ca00b8895d70a2db6c'), ObjectId('661291ca00b8895d70a2db6d'), ObjectId('661291ca00b8895d70a2db6e'), ObjectId('661291ca00b8895d70a2db6f'), ObjectId('661291ca00b8895d70a2db70'), ObjectId('661291ca00b8895d70a2db71'), ObjectId('661291ca00b8895d70a2db72'), ObjectId('661291ca00b8895d70a2db73'), ObjectId('661291ca00b8895d70a2db74'), ObjectId('661291ca00b8895d70a2db75'), ObjectId('661291ca00b8895d70a2db76'), ObjectId('661291ca00b8895d70a2db77'), ObjectId('661291ca00b8895d70a2db78'), ObjectId('661291ca00b8895d70a2db79'), ObjectId('661291ca00b8895d70a2db7a'), ObjectId('661291ca00b8895d70a2db7b'), ObjectId('661291ca00b8895d70a2db7c'), ObjectId('661291ca00b8895d70a2db7d'), ObjectId('661291ca00b8895d70a2db7e'), ObjectId('661291ca00b8895d70a2db7f'), ObjectId('

# NLP

## Establishment of NLP Pipeline

#### Get Data from database

In [47]:
# Retrieve all documents from the collection
all_documents = collection.find()
i=0
array=[]
for doc in all_documents:
    array.append(doc)

### Data Normalisation

In [48]:
array

[{'_id': ObjectId('661291ca00b8895d70a2db67'),
  'title': 'حرب غزة بالأرقام بعد ستة أشهر من اندلاعها',
  'link': 'https://www.bbc.com/arabic/articles/c876zz8rpp8o',
  'timestamp': '2024-04-07',
  'article_info': {'headline': 'حرب غزة بالأرقام بعد ستة أشهر من اندلاعها ',
   'date_published': '2024-04-07T06:51:03.076Z',
   'date_modified': '2024-04-07T06:51:03.076Z',
   'author': 'BBC News عربي',
   'url': 'https://www.bbc.com/arabic/articles/c876zz8rpp8o'},
  'article_text': ['حرب غزة بالأرقام بعد ستة أشهر من اندلاعها ',
   '',
   'رغم قرار مجلس الأمن الذي دعا لوقف فوري لإطلاق النار والإفراج غير المشروط عن جميع الرهائن في قطاع غزة، لم تهدأ وتيرة القصف الإسرائيلي المتواصل منذ ستة أشهر، والذي حول مباني القطاع إلى ركام، وأرغم سكانه على النزوح جنوبا إضافة إلى تفاقم المخاوف بشأن التهديد الوشيك بحدوث مجاعة محتملة، كما حذر تقرير مدعوم من الأمم المتحدة الشهر الماضي.',
   'وكانت الحرب قد اندلعت إثر هجوم غير مسبوق نفذته حركة حماس في 7 أكتوبر تشرين الأول، أوقع 1200قتيل، وفق الأرقام الإسرائيلية، مع

In [16]:
def normalize_text(doc):
    # Check if 'title' key exists and encode it to utf-8
    if 'title' in doc:
        doc['title'] = doc['title'].encode('utf-8')

    # Check if 'link' key exists and encode it to utf-8
    if 'link' in doc:
        doc['link'] = doc['link'].encode('utf-8')

    # Check if 'timestamp' key exists and encode it to utf-8
    if 'timestamp' in doc:
        doc['timestamp'] = doc['timestamp'].encode('utf-8')

    # Check if 'article_info' key exists and encode it to utf-8
    if 'article_info' in doc:
        article_info = doc['article_info']
        # Check if each field inside 'article_info' exists and encode it to utf-8
        if 'headline' in article_info:
            article_info['headline'] = article_info['headline'].encode('utf-8')
        if 'date_published' in article_info:
            article_info['date_published'] = article_info['date_published'].encode('utf-8')
        if 'date_modified' in article_info:
            article_info['date_modified'] = article_info['date_modified'].encode('utf-8')
        if 'author' in article_info:
            article_info['author'] = article_info['author'].encode('utf-8')
        if 'url' in article_info:
            article_info['url'] = article_info['url'].encode('utf-8')

    # Check if 'article_text' key exists and encode it to utf-8
    if 'article_text' in doc:
        for text in doc['article_text']:
            text.encode('utf-8')

    

### Text Cleaning : Removing all non arabic and emails phone numbers ... etc.

In [50]:
def clean_arabic_text(text):
    #Remove \n
    text=re.sub(r'\n', '', text)
    # Remove links
    text = re.sub(r'http\S+', '', text)
    # Remove emails
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '', text)
    
    # Remove phone numbers
    text = re.sub(r'\b(?:0|\+?44)[\d\s-]{9,13}\b', '', text)
    
    # Remove any remaining non-word characters
    text = re.sub(r'[^\w\s]', '', text)
    # Segment the text into Arabic and non-Arabic parts
    segmented_text = pyarabic.trans.segment_language(text)
    
    # Concatenate only the Arabic parts
    arabic_text = ''.join([segment[1] for segment in segmented_text if segment[0] == 'arabic'])
    
    # Remove extra spaces
    arabic_text = re.sub(r'\s+', ' ', arabic_text)
    
    return arabic_text.strip()

In [53]:
def tokenize(text):
    print(wordpunct_tokenize(text))
tokenize(array[0]['article_text'][0])

NameError: name 'wordpunct_tokenize' is not defined