In [1]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer, WordNetLemmatizer

# Charger les données à partir du fichier CSV
df = pd.read_csv('data.csv')

# Initialiser les outils de prétraitement NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Tokenisation
df['tokens'] = df['text'].apply(lambda x: word_tokenize(x))

# Lemmatisation
lemmatizer = WordNetLemmatizer()
df['lemmatized_tokens'] = df['tokens'].apply(lambda x: [lemmatizer.lemmatize(word) for word in x])

# Suppression des mots vides
stop_words = set(stopwords.words('arabic'))
df['filtered_tokens'] = df['lemmatized_tokens'].apply(lambda x: [word for word in x if word.lower() not in stop_words])

# Optionnel : Discrétisation si nécessaire

# Afficher un échantillon des données prétraitées
print(df[['text', 'filtered_tokens']].head())


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


                                                text  \
0  إسرائيل تصف قرار المدعي العام بـ "الفضيحة" وحم...   
1  إسرائيل تعتزم توسيع الاجتياح العسكري لرفح، وال...   
2  انقسام في إسرائيل على خطة إدارة غزة بعد الحرب،...   
3  تيك توك و"الإنسان الأخير": لماذا أصبح التطبيق ...   
4  اليوم العالمي للشاي: أكثر المشروبات استهلاكاً ...   

                                     filtered_tokens  
0  [إسرائيل, تصف, قرار, المدعي, العام, بـ, ``, ال...  
1  [إسرائيل, تعتزم, توسيع, الاجتياح, العسكري, لرف...  
2  [انقسام, إسرائيل, خطة, إدارة, غزة, الحرب،, ونت...  
3  [تيك, توك, '', الإنسان, الأخير, '', :, لماذا, ...  
4  [اليوم, العالمي, للشاي, :, المشروبات, استهلاكا...  


In [12]:
df

Unnamed: 0,text,score,tokens,lemmatized_tokens,filtered_tokens
0,"إسرائيل تصف قرار المدعي العام بـ ""الفضيحة"" وحم...",7,"[إسرائيل, تصف, قرار, المدعي, العام, بـ, ``, ال...","[إسرائيل, تصف, قرار, المدعي, العام, بـ, ``, ال...","[إسرائيل, تصف, قرار, المدعي, العام, بـ, ``, ال..."
1,إسرائيل تعتزم توسيع الاجتياح العسكري لرفح، وال...,6,"[إسرائيل, تعتزم, توسيع, الاجتياح, العسكري, لرف...","[إسرائيل, تعتزم, توسيع, الاجتياح, العسكري, لرف...","[إسرائيل, تعتزم, توسيع, الاجتياح, العسكري, لرف..."
2,انقسام في إسرائيل على خطة إدارة غزة بعد الحرب،...,10,"[انقسام, في, إسرائيل, على, خطة, إدارة, غزة, بع...","[انقسام, في, إسرائيل, على, خطة, إدارة, غزة, بع...","[انقسام, إسرائيل, خطة, إدارة, غزة, الحرب،, ونت..."
3,"تيك توك و""الإنسان الأخير"": لماذا أصبح التطبيق ...",2,"[تيك, توك, و, '', الإنسان, الأخير, '', :, لماذ...","[تيك, توك, و, '', الإنسان, الأخير, '', :, لماذ...","[تيك, توك, '', الإنسان, الأخير, '', :, لماذا, ..."
4,اليوم العالمي للشاي: أكثر المشروبات استهلاكاً ...,1,"[اليوم, العالمي, للشاي, :, أكثر, المشروبات, اس...","[اليوم, العالمي, للشاي, :, أكثر, المشروبات, اس...","[اليوم, العالمي, للشاي, :, المشروبات, استهلاكا..."
5,ناريندرا مودي: عقد من الشعبية والاستقطاب السيا...,0,"[ناريندرا, مودي, :, عقد, من, الشعبية, والاستقط...","[ناريندرا, مودي, :, عقد, من, الشعبية, والاستقط...","[ناريندرا, مودي, :, عقد, الشعبية, والاستقطاب, ..."
6,علاج جديد مبتكر قد يعالج الشلل الناتج عن كسر ف...,2,"[علاج, جديد, مبتكر, قد, يعالج, الشلل, الناتج, ...","[علاج, جديد, مبتكر, قد, يعالج, الشلل, الناتج, ...","[علاج, جديد, مبتكر, يعالج, الشلل, الناتج, كسر,..."
7,لماذا النسيان مفيد؟صدر الصورة،Getty ImagesArti...,2,"[لماذا, النسيان, مفيد؟صدر, الصورة،Getty, Image...","[لماذا, النسيان, مفيد؟صدر, الصورة،Getty, Image...","[لماذا, النسيان, مفيد؟صدر, الصورة،Getty, Image..."
8,"لماذا يتمسك الفلسطينيون بالاعتراف الأممي بـ ""د...",9,"[لماذا, يتمسك, الفلسطينيون, بالاعتراف, الأممي,...","[لماذا, يتمسك, الفلسطينيون, بالاعتراف, الأممي,...","[لماذا, يتمسك, الفلسطينيون, بالاعتراف, الأممي,..."
9,من تبريز إلى مشهد: ما خصوصية المدن التي تمرّ ب...,0,"[من, تبريز, إلى, مشهد, :, ما, خصوصية, المدن, ا...","[من, تبريز, إلى, مشهد, :, ما, خصوصية, المدن, ا...","[تبريز, مشهد, :, خصوصية, المدن, تمرّ, مراسم, ت..."


In [3]:
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(df['filtered_tokens'], df['score'], test_size=0.2, random_state=42)

# Tokenisation des textes
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Padding des séquences
max_len = max(len(seq) for seq in X_train_seq)
X_train_pad = pad_sequences(X_train_seq, maxlen=max_len, padding='post')
X_test_pad = pad_sequences(X_test_seq, maxlen=max_len, padding='post')

# Modèle LSTM
model = Sequential([
    Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=100, input_length=max_len),
    LSTM(units=128),
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train_pad, y_train, epochs=10, batch_size=32, validation_split=0.1)

# Évaluation du modèle
loss, accuracy = model.evaluate(X_test_pad, y_test)
print(f'Test Accuracy: {accuracy}')




Epoch 1/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 462ms/step - accuracy: 0.1921 - loss: 0.6880 - val_accuracy: 0.0000e+00 - val_loss: -0.2885
Epoch 2/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 109ms/step - accuracy: 0.1343 - loss: -0.1510 - val_accuracy: 0.0000e+00 - val_loss: -1.5422
Epoch 3/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 101ms/step - accuracy: 0.1447 - loss: -1.2023 - val_accuracy: 0.0000e+00 - val_loss: -3.8318
Epoch 4/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 106ms/step - accuracy: 0.1447 - loss: -3.0670 - val_accuracy: 0.0000e+00 - val_loss: -8.8270
Epoch 5/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step - accuracy: 0.1447 - loss: -7.0885 - val_accuracy: 0.0000e+00 - val_loss: -19.4654
Epoch 6/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 90ms/step - accuracy: 0.1343 - loss: -16.5614 - val_accuracy: 0.0000e+00 - val_loss: -25.5747
Epoc

In [9]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.metrics import MeanSquaredError, MeanAbsoluteError
from tensorflow.keras.optimizers import Adam

# Modèle LSTM pour la régression
model_regression = Sequential([
    Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=100, input_length=max_len),
    LSTM(units=128),
    Dense(1)  # Pas de fonction d'activation pour la régression
])

# Utiliser une fonction de perte appropriée pour la régression (par exemple, mean squared error)
model_regression.compile(optimizer=Adam(), loss='mean_squared_error', metrics=[MeanSquaredError(), MeanAbsoluteError()])

# Entraînement du modèle pour la régression
model_regression.fit(X_train_pad, y_train, epochs=10, batch_size=32, validation_split=0.1)

# Évaluation du modèle de régression
results = model_regression.evaluate(X_test_pad, y_test)
loss, mse, mae = results[0], results[1], results[2]

print(f'Test Loss: {loss}')
print(f'Test Mean Squared Error: {mse}')
print(f'Test Mean Absolute Error: {mae}')


Epoch 1/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 371ms/step - loss: 25.7051 - mean_absolute_error: 3.8986 - mean_squared_error: 25.7051 - val_loss: 21.1681 - val_mean_absolute_error: 4.2845 - val_mean_squared_error: 21.1681
Epoch 2/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 99ms/step - loss: 25.3516 - mean_absolute_error: 3.8748 - mean_squared_error: 25.3516 - val_loss: 18.8566 - val_mean_absolute_error: 3.9904 - val_mean_squared_error: 18.8566
Epoch 3/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 102ms/step - loss: 21.9686 - mean_absolute_error: 3.5342 - mean_squared_error: 21.9686 - val_loss: 15.0449 - val_mean_absolute_error: 3.4248 - val_mean_squared_error: 15.0449
Epoch 4/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 95ms/step - loss: 19.0670 - mean_absolute_error: 3.2990 - mean_squared_error: 19.0670 - val_loss: 9.2410 - val_mean_absolute_error: 2.5586 - val_mean_squared_error: 9.2410
Epoch 5/10


In [10]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.metrics import MeanSquaredError, MeanAbsoluteError
from tensorflow.keras.optimizers import Adam

# Modèle RNN pour la régression
model_rnn = Sequential([
    Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=100, input_length=max_len),
    SimpleRNN(units=128),  # Utilisation d'un RNN simple
    Dense(1)  # Pas de fonction d'activation pour la régression
])

# Utiliser une fonction de perte appropriée pour la régression (par exemple, mean squared error)
model_rnn.compile(optimizer=Adam(), loss='mean_squared_error', metrics=[MeanSquaredError(), MeanAbsoluteError()])

# Entraînement du modèle RNN pour la régression
model_rnn.fit(X_train_pad, y_train, epochs=10, batch_size=32, validation_split=0.1)

# Évaluation du modèle RNN de régression
results_rnn = model_rnn.evaluate(X_test_pad, y_test)
loss_rnn, mse_rnn, mae_rnn = results_rnn[0], results_rnn[1], results_rnn[2]

print(f'Test Loss (RNN): {loss_rnn}')
print(f'Test Mean Squared Error (RNN): {mse_rnn}')
print(f'Test Mean Absolute Error (RNN): {mae_rnn}')


Epoch 1/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 298ms/step - loss: 25.7555 - mean_absolute_error: 3.9305 - mean_squared_error: 25.7555 - val_loss: 17.3340 - val_mean_absolute_error: 3.8054 - val_mean_squared_error: 17.3340
Epoch 2/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 55ms/step - loss: 19.9604 - mean_absolute_error: 3.3353 - mean_squared_error: 19.9604 - val_loss: 16.4268 - val_mean_absolute_error: 3.5482 - val_mean_squared_error: 16.4268
Epoch 3/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step - loss: 16.3880 - mean_absolute_error: 3.0010 - mean_squared_error: 16.3880 - val_loss: 9.4266 - val_mean_absolute_error: 2.5587 - val_mean_squared_error: 9.4266
Epoch 4/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step - loss: 14.2270 - mean_absolute_error: 2.9314 - mean_squared_error: 14.2270 - val_loss: 7.4003 - val_mean_absolute_error: 2.3405 - val_mean_squared_error: 7.4003
Epoch 5/10
[1m

In [11]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Bidirectional, GRU, Dense
from tensorflow.keras.metrics import MeanSquaredError, MeanAbsoluteError
from tensorflow.keras.optimizers import Adam

# Modèle Bidirectional RNN avec GRU pour la régression
model_bidirectional_gru = Sequential([
    Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=100, input_length=max_len),
    Bidirectional(GRU(units=128)),  # Utilisation d'une couche Bidirectional GRU
    Dense(1)  # Pas de fonction d'activation pour la régression
])

# Utiliser une fonction de perte appropriée pour la régression (par exemple, mean squared error)
model_bidirectional_gru.compile(optimizer=Adam(), loss='mean_squared_error', metrics=[MeanSquaredError(), MeanAbsoluteError()])

# Entraînement du modèle Bidirectional RNN avec GRU pour la régression
model_bidirectional_gru.fit(X_train_pad, y_train, epochs=10, batch_size=32, validation_split=0.1)

# Évaluation du modèle Bidirectional RNN avec GRU de régression
results_bidirectional_gru = model_bidirectional_gru.evaluate(X_test_pad, y_test)
loss_bidirectional_gru, mse_bidirectional_gru, mae_bidirectional_gru = results_bidirectional_gru[0], results_bidirectional_gru[1], results_bidirectional_gru[2]

print(f'Test Loss (Bidirectional RNN with GRU): {loss_bidirectional_gru}')
print(f'Test Mean Squared Error (Bidirectional RNN with GRU): {mse_bidirectional_gru}')
print(f'Test Mean Absolute Error (Bidirectional RNN with GRU): {mae_bidirectional_gru}')


Epoch 1/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 591ms/step - loss: 26.5230 - mean_absolute_error: 3.9531 - mean_squared_error: 26.5230 - val_loss: 21.2764 - val_mean_absolute_error: 4.3022 - val_mean_squared_error: 21.2764
Epoch 2/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 96ms/step - loss: 25.1625 - mean_absolute_error: 3.8315 - mean_squared_error: 25.1625 - val_loss: 19.4729 - val_mean_absolute_error: 4.0868 - val_mean_squared_error: 19.4729
Epoch 3/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 96ms/step - loss: 22.8842 - mean_absolute_error: 3.6242 - mean_squared_error: 22.8842 - val_loss: 17.1179 - val_mean_absolute_error: 3.7856 - val_mean_squared_error: 17.1179
Epoch 4/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 99ms/step - loss: 21.6228 - mean_absolute_error: 3.5061 - mean_squared_error: 21.6228 - val_loss: 13.9927 - val_mean_absolute_error: 3.3402 - val_mean_squared_error: 13.9927
Epoch 5/10


## Performance Evaluation of Models
#### In summary, the LSTM and Bidirectional RNN models with GRU showed better performance in predicting continuous values compared to the simpler RNN model. The slight differences in performance metrics between these models highlight the importance of model architecture and complexity in regression tasks.