In [1]:
import requests
from bs4 import BeautifulSoup

# Function to scrape text from a website
def scrape_text(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    # Modify this based on the structure of the webpage to extract relevant text
    text = ' '.join([p.text for p in soup.find_all('p')])
    return text

# Define URLs of Arabic websites related to your topic
urls = [
    'https://alkhalilarabic.com/',
    'https://guidetoarabic.net/ar'
]

# Define a function to calculate text score based on some criteria
def calculate_text_score(text):
    return len(text) / 1000  # Just a simple scaling factor for demonstration

# Create a dictionary to store text and corresponding scores
data = {}
texts =[]
scores =[]

# Scrape text from each URL and calculate the score
for url in urls:
    text = scrape_text(url)
    texts.append(text)
    score = calculate_text_score(text)
    scores.append(score)
    data[url] = {'text': text, 'score': score}

# Print the data
for url, info in data.items():
    print(f"URL: {url}")
    print(f"Text:\n{info['text']}")
    print(f"Score: {info['score']}\n")
    
print(texts)
print(scores)

URL: https://alkhalilarabic.com/
Text:
الخليل لتعليم اللغة العربية اكتسب المهارات اللغوية وتعرف على الثقافة العربية لتفتح عالمك مع منصة الخليل. تعلم العربية في دورات عن بعد على أيدي خبراء انطلق في تعلم العربية وصقل مهاراتك اللغوية في القراءة والكتابة والمحادثة والاستماع من خلال الدورات الأساسية على منصة الخليل تعلم اللغة العربية من الخبراء في اللغة الناطقين بالعربية، وانغمس في ثقافتها، وتعرف على قيمها وحضارتها. تعلم اللغة العربية باحترافية وطوّر مهاراتك اللغوية عبر منصتنا التعليمية المتطورة وأنت في أي موقع من العالم. بإمكانك ممارسة وتطوير مهارة المحادثة لساعات إضافية مع أفضل المدرسين العرب، وفي الأوقات التي تناسبك. اكتسب مهارات لغوية جديدة ترتبط بمجال عملك أو دراستك أو اهتمامك اللغوي في المجالات الدبلوماسية أو الإعلامية أو الأكاديمية أو غيرها أحد مشاريع شركة مؤتلف (إبانة)
Score: 0.743

URL: https://guidetoarabic.net/ar
Text:
اللغة العربية هي لغة القرآن الكريم، وهي وسيلة لفهم النصوص الشرعية، والاستنباط الصحيح من النصوص، وتعلم اللغة العربية واجب على المسلمين لفهم القرآن الكريم والسنة الن

In [6]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
from nltk.stem import ISRIStemmer
from nltk.corpus import stopwords
from sklearn.preprocessing import KBinsDiscretizer
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

# Download stopwords for Arabic
nltk.download('stopwords')

# Define a function for Arabic text preprocessing
def preprocess_arabic_text(text):
    # Tokenization
    tokenizer = TreebankWordTokenizer()
    tokens = tokenizer.tokenize(text)
    
    # Stemming (Arabic)
    stemmer = ISRIStemmer()
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    
    # Stop words removal (Arabic)
    stop_words = set(stopwords.words('arabic'))
    filtered_tokens = [token for token in stemmed_tokens if token not in stop_words]
    
    return filtered_tokens

# Preprocess the Arabic texts
preprocessed_texts = [preprocess_arabic_text(text) for text in texts]

# Print preprocessed texts
for idx, text in enumerate(preprocessed_texts):
    print(f"Preprocessed Text {idx + 1}:", text)

# Convert preprocessed texts back to strings
preprocessed_texts = [' '.join(tokens) for tokens in preprocessed_texts]

# Tokenization
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_texts)
sequences = tokenizer.texts_to_sequences(preprocessed_texts)

# Padding sequences to ensure uniform length
max_len = max([len(seq) for seq in sequences])
padded_sequences = pad_sequences(sequences, maxlen=max_len)

# Converting scores to numpy array
labels = np.array(scores)

# Discretization (if needed)
# Assuming you want to convert scores to three discrete categories
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
discretized_labels = discretizer.fit_transform(labels.reshape(-1, 1)).flatten()


Preprocessed Text 1: ['خلل', 'لغة', 'عرب', 'كسب', 'هار', 'لغي', 'عرف', 'ثقف', 'عرب', 'فتح', 'نصة', 'خليل.', 'عرب', 'دور', 'ايد', 'خبراء', 'طلق', 'عرب', 'صقل', 'هرا', 'لغي', 'قرء', 'كتب', 'حدث', 'ماع', 'خلل', 'دور', 'سسي', 'نصة', 'خلل', 'لغة', 'عرب', 'خبراء', 'لغة', 'نطق', 'عربية،', 'غمس', 'ثقافتها،', 'عرف', 'قيم', 'وحضارتها.', 'لغة', 'عرب', 'باحترافية', 'وطر', 'هرا', 'لغي', 'عبر', 'نصت', 'تطر', 'وأن', 'اي', 'وقع', 'عالم.', 'بإم', 'مرس', 'طور', 'هار', 'حدث', 'لسع', 'ضفي', 'فضل', 'درس', 'عرب،', 'وفي', 'اوق', 'بك.', 'كسب', 'هار', 'لغي', 'جدد', 'ربط', 'جال', 'عمل', 'او', 'درس', 'او', 'همم', 'لغي', 'جال', 'دبلوماسية', 'او', 'او', 'اكاديمية', 'او', 'احد', 'مشاريع', 'شرك', 'ؤلف', '(', 'بنة', ')']
Preprocessed Text 2: ['لغة', 'عرب', 'لغة', 'قرآ', 'كريم،', 'وهي', 'وسل', 'فهم', 'نصص', 'شرعية،', 'نبط', 'صحح', 'صوص،', 'لغة', 'عرب', 'وجب', 'سلم', 'فهم', 'قرآ', 'كرم', 'سنة', 'ية،', 'بد', 'درس', 'ربط', 'لغة', 'عرب', ':', 'غة،', 'قعد', 'عرب،', 'دب.', 'حدث', 'فضل', 'عرب', 'ومك', 'لغت', 'دلل', 'عجز،', '

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mabrchaouen\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [7]:
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, Bidirectional, GRU
from sklearn.model_selection import train_test_split


# Splitting the dataset into train and test sets
X_train, X_test, y_train, y_test = train_test_split(padded_sequences, labels, test_size=0.2, random_state=42)

# RNN Model
rnn_model = Sequential()
rnn_model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100, input_length=max_len))
rnn_model.add(LSTM(64))
rnn_model.add(Dense(1, activation='sigmoid'))
rnn_model.compile(optimizer='adam', loss='mse', metrics=['mae'])
rnn_model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# Bidirectional RNN Model
bidirectional_rnn_model = Sequential()
bidirectional_rnn_model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100, input_length=max_len))
bidirectional_rnn_model.add(Bidirectional(LSTM(64)))
bidirectional_rnn_model.add(Dense(1, activation='sigmoid'))
bidirectional_rnn_model.compile(optimizer='adam', loss='mse', metrics=['mae'])
bidirectional_rnn_model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# GRU Model
gru_model = Sequential()
gru_model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100, input_length=max_len))
gru_model.add(GRU(64))
gru_model.add(Dense(1, activation='sigmoid'))
gru_model.compile(optimizer='adam', loss='mse', metrics=['mae'])
gru_model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x291d107d290>

In [8]:
# Evaluate the models
rnn_scores = rnn_model.evaluate(X_test, y_test)
bidirectional_rnn_scores = bidirectional_rnn_model.evaluate(X_test, y_test)
gru_scores = gru_model.evaluate(X_test, y_test)

print("RNN Model Evaluation:")
print("Mean Squared Error:", rnn_scores[0])
print("Mean Absolute Error:", rnn_scores[1])

print("\nBidirectional RNN Model Evaluation:")
print("Mean Squared Error:", bidirectional_rnn_scores[0])
print("Mean Absolute Error:", bidirectional_rnn_scores[1])

print("\nGRU Model Evaluation:")
print("Mean Squared Error:", gru_scores[0])
print("Mean Absolute Error:", gru_scores[1])


RNN Model Evaluation:
Mean Squared Error: 1.0556286573410034
Mean Absolute Error: 1.0274379253387451

Bidirectional RNN Model Evaluation:
Mean Squared Error: 0.9969407916069031
Mean Absolute Error: 0.9984692335128784

GRU Model Evaluation:
Mean Squared Error: 1.0117295980453491
Mean Absolute Error: 1.005847692489624
