In [46]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import random

# Define the topic and the list of Arabic websites to scrape
topic = "الاقتصاد"
websites = [
    "https://www.aljazeera.net",
    "https://www.aawsat.com",
    "https://www.alhayat.com",
    "https://www.skynewsarabia.com",
]

# Headers to mimic a real browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}

# Function to get all links from a website's main page
def get_article_links(website):
    try:
        response = requests.get(website, headers=headers)
        response.raise_for_status()
        soup = BeautifulSoup(response.content, 'html.parser')
        links = [a['href'] for a in soup.find_all('a', href=True) if topic in a.text]
        return links
    except requests.RequestException as e:
        print(f"Failed to retrieve links from {website}: {e}")
        return []

# Function to scrape content from article links
def scrape_articles(links):
    data = []
    for link in links:
        if not link.startswith('http'):
            link = websites[0] + link
        try:
            response = requests.get(link, headers=headers)
            response.raise_for_status()
            soup = BeautifulSoup(response.content, 'html.parser')
            paragraphs = soup.find_all('p')
            for paragraph in paragraphs:
                text = paragraph.get_text(strip=True)
                if topic in text:
                    score = round(random.uniform(0, 10), 1)  # Assign a random score between 0 and 10 with one decimal place
                    text_data = {"Text": text, "Score": score}
                    data.append(text_data)
        except requests.RequestException as e:
            print(f"Failed to retrieve article from {link}: {e}")
    return data

# Collect all article links from the main pages
all_links = []
for website in websites:
    all_links.extend(get_article_links(website))

# Scrape content from the collected article links
scraped_data = scrape_articles(all_links)

# Convert the data to a Pandas DataFrame
df = pd.DataFrame(scraped_data, columns=["Text", "Score"])

# Set Pandas display options to show more text
pd.set_option('display.max_colwidth', None)
pd.set_option('display.expand_frame_repr', False)

# Print the dataset
df


Failed to retrieve article from https://www.aljazeera.net/business/1716689-نجح-الاقتصاد-الأميركي-الصمود-بوجه-توقعات-الركود؟: 404 Client Error: Not Found for url: https://www.aljazeera.net/business/1716689-%D9%86%D8%AC%D8%AD-%D8%A7%D9%84%D8%A7%D9%82%D8%AA%D8%B5%D8%A7%D8%AF-%D8%A7%D9%84%D8%A7%D9%94%D9%85%D9%8A%D8%B1%D9%83%D9%8A-%D8%A7%D9%84%D8%B5%D9%85%D9%88%D8%AF-%D8%A8%D9%88%D8%AC%D9%87
Failed to retrieve article from https://www.aljazeera.net/business/1716689-نجح-الاقتصاد-الأميركي-الصمود-بوجه-توقعات-الركود؟: 404 Client Error: Not Found for url: https://www.aljazeera.net/business/1716689-%D9%86%D8%AC%D8%AD-%D8%A7%D9%84%D8%A7%D9%82%D8%AA%D8%B5%D8%A7%D8%AF-%D8%A7%D9%84%D8%A7%D9%94%D9%85%D9%8A%D8%B1%D9%83%D9%8A-%D8%A7%D9%84%D8%B5%D9%85%D9%88%D8%AF-%D8%A8%D9%88%D8%AC%D9%87


Unnamed: 0,Text,Score
0,سجل الاقتصاد الإسرائيلي انكماشا للربع الثاني على التوالي، حسب بيانات مكتب الإحصاء الحكومي، ويفاقم ذلك أعباء الحكومة التي تسعى لدعم الاقتصاد المحلي بشتى الطرق في مواجهة تداعيات الحرب المستمرة علىقطاع غزةللشهر الثامن.,7.8
1,وانكمش الاقتصاد الإسرائيلي -وفقا للبيانات- في الربع الأول من العام الجاري بنسبة 1.4% على أساس سنوي. وكان الاقتصاد قد انكمش في الربع الأخير من العام الماضي بنسبة 21.7%.,7.9
2,كل ذلك يدل على أن تداعيات الحرب المباشرة وغير المباشرة ما زالت تحد من نمو الاقتصاد وتلقي بأعبائه على سكانإسرائيل، حيث انخفض نصيب الفرد منالناتج المحلي‭‭ ‬‬الإجماليبنسبة تتجاوز 3% على أساس سنوي.,6.9
3,لذلك، قدرت وكالةستاندرد آند بورزأن ينمو إجمالي الناتج المحلي لإسرائيل خلال العام الجاري بنحو 0.5% فقط هذا العام، وهي تقديرات تقل كثيرا عن تقديرات بنك إسرائيل البنك المركزي وصندوق النقد الدولي التي تصل إلى نحو 2%. لكن الجميع يتفق على أن استمرار الحرب على غزة يأخذ الاقتصاد إلى مصير مجهول.,6.7
4,وتعليقا على ذلك، قال الخبير والباحث الفلسطيني بمعهد أبحاث السياسات الاقتصادية مسيف جميل إنه لا يوجد أي اقتصاد محصن من الانهيار أو التراجع في ظل أي حرب كانت، وهذا ينطبق على الاقتصاد الإسرائيلي المدعوم من أميركا وأوروبا بشكل كبير.,5.5
...,...,...
60,تراجعت مبيعات التجزئة في بريطانيا الشهر الماضي بأسرع وتيرة لها خلال العام الجاري، في ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر.,1.4
61,انخفض عدد الأميركيين الذين تقدموا بطلبات جديدة للحصول على إعانات البطالة الأسبوع الماضي؛ مما يشير إلى قوة كامنة في سوق العمل من شأنها أن تستمر في دعم الاقتصاد.,1.6
62,إثر صدمة الحرب، وجد الاقتصاد الإسرائيلي نفسه على مفترق طرق، حيث شهد تباطؤاً واضحاً في النشاط التجاري والاستثماري والخدماتي.,1.0
63,تراجعت مبيعات التجزئة في بريطانيا الشهر الماضي بأسرع وتيرة لها خلال العام الجاري، في ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر.,7.2


In [47]:
import pandas as pd
import re
import string
from pyarabic.araby import tokenize, is_arabicrange, strip_tashkeel
from nltk.corpus import stopwords

# Function to remove punctuation from Arabic text
def ponctuation(phrase):
    phrase2 = " "
    arabic_punctuations = '''`.‏،÷×؛<>_()*&^%][ـ،/:"؟.,'{}~¦+|!”…“–ـ'''
    english_punctuations = string.punctuation
    punctuations_list = arabic_punctuations + english_punctuations
    newPhrase = phrase.translate(str.maketrans(punctuations_list, ' ' * len(punctuations_list)))
    newPhrase = re.sub('[0-9]', ' ', newPhrase)
    newPhrase = re.sub('[\n,\t,\r,\n\n,\u200f]', ' ', newPhrase)
    liste = newPhrase.split()
    return phrase2.join(liste)

# Function to remove specific Arabic punctuation marks
def ponc_noarabic(text):
    p = " "
    COMMA = u'\u060C'
    SEMICOLON = u'\u061B'
    QUESTION = u'\u061F'
    HAMZA = u'\u0621'
    ALEF_MADDA = u'\u0622'
    ALEF_HAMZA_ABOVE = u'\u0623'
    list1 = tokenize(text, conditions=is_arabicrange, morphs=strip_tashkeel)
    unwanted_num = {COMMA, SEMICOLON, QUESTION, HAMZA, ALEF_MADDA, ALEF_HAMZA_ABOVE}
    list1 = [ele for ele in list1 if ele not in unwanted_num]
    return p.join(list1)

# Function to clean text data
def clean_data(phrase):
    phrase2 = " "
    newPhrase = phrase.translate(str.maketrans(string.punctuation, ' ' * len(string.punctuation)))
    newPhrase = re.sub('[0-9]', ' ', newPhrase)
    liste = newPhrase.split()
    stops = set(stopwords.words('arabic'))
    stops = {i.translate(str.maketrans("'", " ", string.punctuation)) for i in stops}
    p = ["لكن", "لا", "لم"]
    stop = stops.difference(p)
    a = []
    for i in liste:
        if i not in stop and i not in a:
            a.append(i)
    return phrase2.join(a)

# Function to clean Arabic text comprehensively
def arabic_clean(text):
    text = ponctuation(text)
    text = ponc_noarabic(text)
    text = clean_data(text)
    return text

# Assuming you have 'df' DataFrame containing 'Text' and 'Score' columns
# Create a DataFrame with only preprocessed column and score
preprocessed_df = df[['Text', 'Score']].copy()
preprocessed_df['preprocessed'] = df['Text'].apply(lambda x: arabic_clean(x))

# Print the preprocessed DataFrame
preprocessed_df

Unnamed: 0,Text,Score,preprocessed
0,سجل الاقتصاد الإسرائيلي انكماشا للربع الثاني على التوالي، حسب بيانات مكتب الإحصاء الحكومي، ويفاقم ذلك أعباء الحكومة التي تسعى لدعم الاقتصاد المحلي بشتى الطرق في مواجهة تداعيات الحرب المستمرة علىقطاع غزةللشهر الثامن.,7.8,سجل الاقتصاد الإسرائيلي انكماشا للربع الثاني التوالي بيانات مكتب الإحصاء الحكومي ويفاقم أعباء الحكومة تسعى لدعم المحلي بشتى الطرق مواجهة تداعيات الحرب المستمرة علىقطاع غزةللشهر الثامن
1,وانكمش الاقتصاد الإسرائيلي -وفقا للبيانات- في الربع الأول من العام الجاري بنسبة 1.4% على أساس سنوي. وكان الاقتصاد قد انكمش في الربع الأخير من العام الماضي بنسبة 21.7%.,7.9,وانكمش الاقتصاد الإسرائيلي وفقا للبيانات الربع الأول العام الجاري بنسبة أساس سنوي وكان انكمش الأخير الماضي
2,كل ذلك يدل على أن تداعيات الحرب المباشرة وغير المباشرة ما زالت تحد من نمو الاقتصاد وتلقي بأعبائه على سكانإسرائيل، حيث انخفض نصيب الفرد منالناتج المحلي‭‭ ‬‬الإجماليبنسبة تتجاوز 3% على أساس سنوي.,6.9,يدل تداعيات الحرب المباشرة وغير زالت تحد نمو الاقتصاد وتلقي بأعبائه سكانإسرائيل انخفض نصيب الفرد منالناتج المحلي الإجماليبنسبة تتجاوز أساس سنوي
3,لذلك، قدرت وكالةستاندرد آند بورزأن ينمو إجمالي الناتج المحلي لإسرائيل خلال العام الجاري بنحو 0.5% فقط هذا العام، وهي تقديرات تقل كثيرا عن تقديرات بنك إسرائيل البنك المركزي وصندوق النقد الدولي التي تصل إلى نحو 2%. لكن الجميع يتفق على أن استمرار الحرب على غزة يأخذ الاقتصاد إلى مصير مجهول.,6.7,لذلك قدرت وكالةستاندرد آند بورزأن ينمو إجمالي الناتج المحلي لإسرائيل خلال العام الجاري بنحو فقط وهي تقديرات تقل بنك إسرائيل البنك المركزي وصندوق النقد الدولي تصل لكن الجميع يتفق استمرار الحرب غزة يأخذ الاقتصاد مصير مجهول
4,وتعليقا على ذلك، قال الخبير والباحث الفلسطيني بمعهد أبحاث السياسات الاقتصادية مسيف جميل إنه لا يوجد أي اقتصاد محصن من الانهيار أو التراجع في ظل أي حرب كانت، وهذا ينطبق على الاقتصاد الإسرائيلي المدعوم من أميركا وأوروبا بشكل كبير.,5.5,وتعليقا قال الخبير والباحث الفلسطيني بمعهد أبحاث السياسات الاقتصادية مسيف جميل لا يوجد اقتصاد محصن الانهيار التراجع ظل حرب كانت وهذا ينطبق الاقتصاد الإسرائيلي المدعوم أميركا وأوروبا بشكل كبير
...,...,...,...
60,تراجعت مبيعات التجزئة في بريطانيا الشهر الماضي بأسرع وتيرة لها خلال العام الجاري، في ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر.,1.4,تراجعت مبيعات التجزئة بريطانيا الشهر الماضي بأسرع وتيرة خلال العام الجاري ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر
61,انخفض عدد الأميركيين الذين تقدموا بطلبات جديدة للحصول على إعانات البطالة الأسبوع الماضي؛ مما يشير إلى قوة كامنة في سوق العمل من شأنها أن تستمر في دعم الاقتصاد.,1.6,انخفض عدد الأميركيين تقدموا بطلبات جديدة للحصول إعانات البطالة الأسبوع الماضي يشير قوة كامنة سوق العمل شأنها تستمر دعم الاقتصاد
62,إثر صدمة الحرب، وجد الاقتصاد الإسرائيلي نفسه على مفترق طرق، حيث شهد تباطؤاً واضحاً في النشاط التجاري والاستثماري والخدماتي.,1.0,إثر صدمة الحرب الاقتصاد الإسرائيلي نفسه مفترق طرق شهد تباطؤا واضحا النشاط التجاري والاستثماري والخدماتي
63,تراجعت مبيعات التجزئة في بريطانيا الشهر الماضي بأسرع وتيرة لها خلال العام الجاري، في ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر.,7.2,تراجعت مبيعات التجزئة بريطانيا الشهر الماضي بأسرع وتيرة خلال العام الجاري ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر


In [48]:
dataset = preprocessed_df.loc[:, ['preprocessed', 'Score']]


In [49]:
dataset

Unnamed: 0,preprocessed,Score
0,سجل الاقتصاد الإسرائيلي انكماشا للربع الثاني التوالي بيانات مكتب الإحصاء الحكومي ويفاقم أعباء الحكومة تسعى لدعم المحلي بشتى الطرق مواجهة تداعيات الحرب المستمرة علىقطاع غزةللشهر الثامن,7.8
1,وانكمش الاقتصاد الإسرائيلي وفقا للبيانات الربع الأول العام الجاري بنسبة أساس سنوي وكان انكمش الأخير الماضي,7.9
2,يدل تداعيات الحرب المباشرة وغير زالت تحد نمو الاقتصاد وتلقي بأعبائه سكانإسرائيل انخفض نصيب الفرد منالناتج المحلي الإجماليبنسبة تتجاوز أساس سنوي,6.9
3,لذلك قدرت وكالةستاندرد آند بورزأن ينمو إجمالي الناتج المحلي لإسرائيل خلال العام الجاري بنحو فقط وهي تقديرات تقل بنك إسرائيل البنك المركزي وصندوق النقد الدولي تصل لكن الجميع يتفق استمرار الحرب غزة يأخذ الاقتصاد مصير مجهول,6.7
4,وتعليقا قال الخبير والباحث الفلسطيني بمعهد أبحاث السياسات الاقتصادية مسيف جميل لا يوجد اقتصاد محصن الانهيار التراجع ظل حرب كانت وهذا ينطبق الاقتصاد الإسرائيلي المدعوم أميركا وأوروبا بشكل كبير,5.5
...,...,...
60,تراجعت مبيعات التجزئة بريطانيا الشهر الماضي بأسرع وتيرة خلال العام الجاري ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر,1.4
61,انخفض عدد الأميركيين تقدموا بطلبات جديدة للحصول إعانات البطالة الأسبوع الماضي يشير قوة كامنة سوق العمل شأنها تستمر دعم الاقتصاد,1.6
62,إثر صدمة الحرب الاقتصاد الإسرائيلي نفسه مفترق طرق شهد تباطؤا واضحا النشاط التجاري والاستثماري والخدماتي,1.0
63,تراجعت مبيعات التجزئة بريطانيا الشهر الماضي بأسرع وتيرة خلال العام الجاري ظل غموض الأوضاع الاقتصادية وتأجيل المستهلكين الشراء بسبب الطقس الممطر,7.2


In [50]:
texts = dataset['preprocessed'].tolist()
scores = dataset['Score'].tolist()


In [51]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, GRU, Bidirectional, Dense

tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
vocab_size = len(tokenizer.word_index) + 1
sequences = tokenizer.texts_to_sequences(texts)


In [52]:
from keras.preprocessing.sequence import pad_sequences

max_length = max(len(seq) for seq in sequences)
padded_sequences = pad_sequences(sequences, maxlen=max_length, padding='post')


In [53]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(padded_sequences, scores, test_size=0.2, random_state=42)


In [54]:
def create_model(architecture, vocab_size, max_length):
    model = Sequential()
    if architecture == 'RNN':
        model.add(Embedding(vocab_size, 100))  # Supprimez input_length=max_length
        model.add(LSTM(64, dropout=0.2))
    elif architecture == 'Bidirectional_RNN':
        model.add(Embedding(vocab_size, 100))  # Supprimez input_length=max_length
        model.add(Bidirectional(LSTM(64, dropout=0.2)))
    elif architecture == 'GRU':
        model.add(Embedding(vocab_size, 100))  # Supprimez input_length=max_length
        model.add(GRU(64, dropout=0.2))
    elif architecture == 'LSTM':
        model.add(Embedding(vocab_size, 100))  # Supprimez input_length=max_length
        model.add(LSTM(64, dropout=0.2))
    model.add(Dense(1, activation='linear'))
    return model


In [55]:
print(X_train.shape)

X_test.shape


(52, 36)


(13, 36)

In [56]:
architectures = ['RNN', 'Bidirectional_RNN', 'GRU', 'LSTM']
for architecture in architectures:
    model = create_model(architecture, vocab_size, max_length)
    model.compile(optimizer='adam', loss='mse', metrics=['mae'])
    print(f"Training {architecture} model...")
    model.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_test, y_test), verbose=1)
    loss, mae = model.evaluate(X_test, y_test, verbose=0)
    print(f"{architecture} model - Test Loss: {loss}, Test MAE: {mae}")

Training RNN model...


ValueError: Unrecognized data type: x=[[ 9 38 39 ...  0  0  0]
 [ 9 38 39 ...  0  0  0]
 [ 9 38 39 ...  0  0  0]
 ...
 [11 12  4 ...  0  0  0]
 [ 9 38 39 ...  0  0  0]
 [23 24 25 ...  0  0  0]] (of type <class 'numpy.ndarray'>)