# Import Libraries

In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import re
from pyarabic.araby import strip_tashkeel

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

import tensorflow as tf 
from tensorflow import keras
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense, Dropout
from keras.callbacks import Callback
from gensim.models import Word2Vec

from nltk.corpus import stopwords
import nltk
from nltk.util import ngrams
nltk.download('punkt')

[nltk_data] Downloading package punkt to C:\Users\Abdalrhman
[nltk_data]     Morsi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
len(tf.config.experimental.list_physical_devices("GPU"))

1

In [3]:
tf.test.is_built_with_cuda()

True

In [4]:
tf.version.VERSION

'2.6.0'

# Read The Data

In [5]:
dfs = pd.read_excel('Data/All_Stories.xlsx', sheet_name=None)

In [6]:
# concatenate the data

df = pd.DataFrame()
for sheet_name, dataframe in dfs.items():
    df = pd.concat([df , dfs[f"{sheet_name}"]], ignore_index=True)

In [7]:
df

Unnamed: 0,id,title,date,author,story,topic
0,f06aa998054e11eba66e646e69d991ea,"""بيت الشعر"" يسائل وزير الثقافة عن كوابيس سوداء",الجمعة 02 أكتوبر 2020 - 23:19,هسبريس من الرباط,"وجه ""بيت الشعر في المغرب"" إلى وزير الثقافة وال...",art-et-culture
1,f1cf1b9c054e11ebb718646e69d991ea,"مهرجان ""سينما المؤلّف"" يستحضر روح ثريا جبران",الجمعة 02 أكتوبر 2020 - 07:26,هسبريس من الرباط,في ظلّ استمرار حالة الطوارئ الصحية المرتبطة بج...,art-et-culture
2,f2d282a4054e11eb800f646e69d991ea,"فيلم ""بدون عنف"" لهشام العسري ..""كعب الحذاء ووا...",الجمعة 02 أكتوبر 2020 - 04:00,عفيفة الحسينات*,تشير مشاهدة فيلم قصير ضمن الثلاثية الأخيرة للم...,art-et-culture
3,f3f46cac054e11eba403646e69d991ea,"""تنين ووهان"" .. مريم أيت أحمد توقِّع أولى ""روا...",الجمعة 02 أكتوبر 2020 - 02:00,حاورَها: وائل بورشاشن,"مِن قَلب أيّام ""الحَجْر""، رأتِ النّورَ الفصول ...",art-et-culture
4,f50f0476054e11eba31b646e69d991ea,"مسكر يتخلّى عن دعم ""الوزارة"" بسبب ""الجمهور""",الخميس 01 أكتوبر 2020 - 19:40,هسبريس من الرباط,أعلن الفنان المغربيّ سعيد مسكر تخليه عن مبلغ ا...,art-et-culture
...,...,...,...,...,...,...
10995,a74f908a055c11eb8ce2646e69d991ea,"تكريم ""تُحفة مَناقب شرفاء وزان"" في جامعة فرنسية",الثلاثاء 24 دجنبر 2019 - 20:05,هسبريس - مصطفى شاكري,أطروحة جديدة تُعنى بدراسة الأبعاد السيميائية ل...,orbites
10996,a8579f76055c11eb9627646e69d991ea,"إسبانيا تردّ على المغرب بنشر طائرات ""إف 18"" فو...",الثلاثاء 24 دجنبر 2019 - 18:00,هسبريس - عبد السلام الشامخ,تزامناً مع توجّه المغرب لترسيم حدوده في المياه...,orbites
10997,a9362062055c11ebaf97646e69d991ea,"لجنة النموذج التنموي تضع ""ميثاق قواعد الاشتغال""",الثلاثاء 24 دجنبر 2019 - 13:15,هسبريس - و.م.ع,قامت اللجنة الخاصة بالنموذج التنموي، خلال اجتم...,orbites
10998,aa1cef2e055c11eb8ef8646e69d991ea,ضعف القدرات البشرية والبنيات المؤسساتية يبطئ ا...,الثلاثاء 24 دجنبر 2019 - 13:00,هسبريس - يوسف لخضر,اختُتمت، السبت الماضي بمدينة أكادير، أشغال الم...,orbites


# Data Preprocessing

## Convert The Date Type

In [8]:
def convert_arabic_to_english(arabic_date_str):
    mapping = {
        'السبت': 'Saturday', 'الأحد': 'Sunday', 'الاثنين': 'Monday', 'الثلاثاء': 'Tuesday',
        'الأربعاء': 'Wednesday', 'الخميس': 'Thursday', 'الجمعة': 'Friday',
        'يناير': 'January', 'فبراير': 'February', 'مارس': 'March', 'أبريل': 'April',
        'ماي': 'May', 'يونيو': 'June', 'يوليوز': 'July', 'غشت': 'August',
        'شتنبر': 'September', 'أكتوبر': 'October', 'نونبر': 'November', 'دجنبر': 'December'
    }
    
    for key, value in mapping.items():
        arabic_date_str = arabic_date_str.replace(key, value)
    
    return arabic_date_str

df["date"] = df["date"].apply(convert_arabic_to_english)

# Convert the 'date' column to datetime format

df["date"]  = pd.to_datetime(df["date"] )

In [9]:
df

Unnamed: 0,id,title,date,author,story,topic
0,f06aa998054e11eba66e646e69d991ea,"""بيت الشعر"" يسائل وزير الثقافة عن كوابيس سوداء",2020-10-02 23:19:00,هسبريس من الرباط,"وجه ""بيت الشعر في المغرب"" إلى وزير الثقافة وال...",art-et-culture
1,f1cf1b9c054e11ebb718646e69d991ea,"مهرجان ""سينما المؤلّف"" يستحضر روح ثريا جبران",2020-10-02 07:26:00,هسبريس من الرباط,في ظلّ استمرار حالة الطوارئ الصحية المرتبطة بج...,art-et-culture
2,f2d282a4054e11eb800f646e69d991ea,"فيلم ""بدون عنف"" لهشام العسري ..""كعب الحذاء ووا...",2020-10-02 04:00:00,عفيفة الحسينات*,تشير مشاهدة فيلم قصير ضمن الثلاثية الأخيرة للم...,art-et-culture
3,f3f46cac054e11eba403646e69d991ea,"""تنين ووهان"" .. مريم أيت أحمد توقِّع أولى ""روا...",2020-10-02 02:00:00,حاورَها: وائل بورشاشن,"مِن قَلب أيّام ""الحَجْر""، رأتِ النّورَ الفصول ...",art-et-culture
4,f50f0476054e11eba31b646e69d991ea,"مسكر يتخلّى عن دعم ""الوزارة"" بسبب ""الجمهور""",2020-10-01 19:40:00,هسبريس من الرباط,أعلن الفنان المغربيّ سعيد مسكر تخليه عن مبلغ ا...,art-et-culture
...,...,...,...,...,...,...
10995,a74f908a055c11eb8ce2646e69d991ea,"تكريم ""تُحفة مَناقب شرفاء وزان"" في جامعة فرنسية",2019-12-24 20:05:00,هسبريس - مصطفى شاكري,أطروحة جديدة تُعنى بدراسة الأبعاد السيميائية ل...,orbites
10996,a8579f76055c11eb9627646e69d991ea,"إسبانيا تردّ على المغرب بنشر طائرات ""إف 18"" فو...",2019-12-24 18:00:00,هسبريس - عبد السلام الشامخ,تزامناً مع توجّه المغرب لترسيم حدوده في المياه...,orbites
10997,a9362062055c11ebaf97646e69d991ea,"لجنة النموذج التنموي تضع ""ميثاق قواعد الاشتغال""",2019-12-24 13:15:00,هسبريس - و.م.ع,قامت اللجنة الخاصة بالنموذج التنموي، خلال اجتم...,orbites
10998,aa1cef2e055c11eb8ef8646e69d991ea,ضعف القدرات البشرية والبنيات المؤسساتية يبطئ ا...,2019-12-24 13:00:00,هسبريس - يوسف لخضر,اختُتمت، السبت الماضي بمدينة أكادير، أشغال الم...,orbites


## Drop ID column

In [10]:
df.drop(["id"], axis=1, inplace = True)


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11000 entries, 0 to 10999
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   title   11000 non-null  object        
 1   date    11000 non-null  datetime64[ns]
 2   author  11000 non-null  object        
 3   story   11000 non-null  object        
 4   topic   11000 non-null  object        
dtypes: datetime64[ns](1), object(4)
memory usage: 429.8+ KB


## Remove Very Long Stories

In [12]:
# column contain number of words in the story 

df['word_count'] = df['story'].apply(lambda x: len(x.split()))

In [13]:
# drop the stories with more than 1500 words (Outliers)

df_drop = df[df['word_count']>1500]

In [14]:
df = df.drop(df_drop.index)

In [15]:
df.drop(["word_count"], axis=1, inplace = True)

## Arabic Stopwords Removal

In [16]:
def remove_arabic_stopwords(text):
    
    # tokenize the text into words
    
    words = nltk.word_tokenize(text)
    
    # Load the Arabic stopwords from NLTK
    
    arabic_stopwords = set(stopwords.words('arabic'))
    words_without_stopwords = [word for word in words if word not in arabic_stopwords]
    preprocessed_text = ' '.join(words_without_stopwords)
    
    return preprocessed_text

In [17]:
df['preprocessed_story'] = df['story'].apply(remove_arabic_stopwords)

## Tashkel Removal

In [18]:
def remove_arabic_tashkel(text):
    
   # Remove non-Arabic characters

    text = re.sub(r'[^\u0600-\u06FF\s]', '', text)
    
    # Remove tashkel
    
    text_without_diacritics = strip_tashkeel(text)
    return text_without_diacritics


In [19]:
df['preprocessed_story'] = df['preprocessed_story'].apply(remove_arabic_tashkel)

In [20]:
df

Unnamed: 0,title,date,author,story,topic,preprocessed_story
0,"""بيت الشعر"" يسائل وزير الثقافة عن كوابيس سوداء",2020-10-02 23:19:00,هسبريس من الرباط,"وجه ""بيت الشعر في المغرب"" إلى وزير الثقافة وال...",art-et-culture,وجه بيت الشعر المغرب وزير الثقافة والشباب وا...
1,"مهرجان ""سينما المؤلّف"" يستحضر روح ثريا جبران",2020-10-02 07:26:00,هسبريس من الرباط,في ظلّ استمرار حالة الطوارئ الصحية المرتبطة بج...,art-et-culture,استمرار حالة الطوارئ الصحية المرتبطة بجائحة ك...
2,"فيلم ""بدون عنف"" لهشام العسري ..""كعب الحذاء ووا...",2020-10-02 04:00:00,عفيفة الحسينات*,تشير مشاهدة فيلم قصير ضمن الثلاثية الأخيرة للم...,art-et-culture,تشير مشاهدة فيلم قصير ضمن الثلاثية الأخيرة للم...
3,"""تنين ووهان"" .. مريم أيت أحمد توقِّع أولى ""روا...",2020-10-02 02:00:00,حاورَها: وائل بورشاشن,"مِن قَلب أيّام ""الحَجْر""، رأتِ النّورَ الفصول ...",art-et-culture,من قلب أيام الحجر ، رأت النور الفصول الأولى ...
4,"مسكر يتخلّى عن دعم ""الوزارة"" بسبب ""الجمهور""",2020-10-01 19:40:00,هسبريس من الرباط,أعلن الفنان المغربيّ سعيد مسكر تخليه عن مبلغ ا...,art-et-culture,أعلن الفنان المغربي سعيد مسكر تخليه مبلغ الدعم...
...,...,...,...,...,...,...
10995,"تكريم ""تُحفة مَناقب شرفاء وزان"" في جامعة فرنسية",2019-12-24 20:05:00,هسبريس - مصطفى شاكري,أطروحة جديدة تُعنى بدراسة الأبعاد السيميائية ل...,orbites,أطروحة جديدة تعنى بدراسة الأبعاد السيميائية لل...
10996,"إسبانيا تردّ على المغرب بنشر طائرات ""إف 18"" فو...",2019-12-24 18:00:00,هسبريس - عبد السلام الشامخ,تزامناً مع توجّه المغرب لترسيم حدوده في المياه...,orbites,تزامنا توجه المغرب لترسيم حدوده المياه الإقليم...
10997,"لجنة النموذج التنموي تضع ""ميثاق قواعد الاشتغال""",2019-12-24 13:15:00,هسبريس - و.م.ع,قامت اللجنة الخاصة بالنموذج التنموي، خلال اجتم...,orbites,قامت اللجنة الخاصة بالنموذج التنموي، خلال اجتم...
10998,ضعف القدرات البشرية والبنيات المؤسساتية يبطئ ا...,2019-12-24 13:00:00,هسبريس - يوسف لخضر,اختُتمت، السبت الماضي بمدينة أكادير، أشغال الم...,orbites,اختتمت، السبت الماضي بمدينة أكادير، أشغال المن...


## Bi-Gram Tokenization

In [21]:
def bi_gram_tokenization(text):
    
    # Tokenize the text into words
    
    words = nltk.word_tokenize(text)
    
    # Create bi-grams from the words
    
    bi_grams = list(ngrams(words, 2))
    bi_gram_text = ' '.join([' '.join(bi_gram) for bi_gram in bi_grams])
    
    return bi_gram_text

In [22]:
df['preprocessed_story'] = df['preprocessed_story'].apply(bi_gram_tokenization)

## Word Embedding


In [23]:
# Train Word2Vec word embeddings

sentences = [nltk.word_tokenize(story) for story in df['preprocessed_story']]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

In [24]:
# Function to get the vector representation of a sentence

def get_sentence_vector(text):
    words = nltk.word_tokenize(text)
    vector_sum = sum(model.wv[word] for word in words if word in model.wv)
    return vector_sum

In [25]:
# Create vectors for the preprocessed stories

df['story_vector'] = df['preprocessed_story'].apply(get_sentence_vector)

In [26]:
df

Unnamed: 0,title,date,author,story,topic,preprocessed_story,story_vector
0,"""بيت الشعر"" يسائل وزير الثقافة عن كوابيس سوداء",2020-10-02 23:19:00,هسبريس من الرباط,"وجه ""بيت الشعر في المغرب"" إلى وزير الثقافة وال...",art-et-culture,وجه بيت بيت الشعر الشعر المغرب المغرب وزير وزي...,"[-72.74186, 348.1042, -338.5879, 791.9453, 300..."
1,"مهرجان ""سينما المؤلّف"" يستحضر روح ثريا جبران",2020-10-02 07:26:00,هسبريس من الرباط,في ظلّ استمرار حالة الطوارئ الصحية المرتبطة بج...,art-et-culture,استمرار حالة حالة الطوارئ الطوارئ الصحية الصحي...,"[32.7332, 127.126755, -190.36511, 423.89313, 4..."
2,"فيلم ""بدون عنف"" لهشام العسري ..""كعب الحذاء ووا...",2020-10-02 04:00:00,عفيفة الحسينات*,تشير مشاهدة فيلم قصير ضمن الثلاثية الأخيرة للم...,art-et-culture,تشير مشاهدة مشاهدة فيلم فيلم قصير قصير ضمن ضمن...,"[93.74494, 102.065796, -218.77057, 423.1378, 1..."
3,"""تنين ووهان"" .. مريم أيت أحمد توقِّع أولى ""روا...",2020-10-02 02:00:00,حاورَها: وائل بورشاشن,"مِن قَلب أيّام ""الحَجْر""، رأتِ النّورَ الفصول ...",art-et-culture,من قلب قلب أيام أيام الحجر الحجر ، ، رأت رأت ا...,"[131.1908, 44.807434, -240.14757, 540.2877, 21..."
4,"مسكر يتخلّى عن دعم ""الوزارة"" بسبب ""الجمهور""",2020-10-01 19:40:00,هسبريس من الرباط,أعلن الفنان المغربيّ سعيد مسكر تخليه عن مبلغ ا...,art-et-culture,أعلن الفنان الفنان المغربي المغربي سعيد سعيد م...,"[26.834738, 4.3731627, -117.5887, 180.85771, 1..."
...,...,...,...,...,...,...,...
10995,"تكريم ""تُحفة مَناقب شرفاء وزان"" في جامعة فرنسية",2019-12-24 20:05:00,هسبريس - مصطفى شاكري,أطروحة جديدة تُعنى بدراسة الأبعاد السيميائية ل...,orbites,أطروحة جديدة جديدة تعنى تعنى بدراسة بدراسة الأ...,"[51.17661, 178.2686, -246.8917, 441.59705, 49...."
10996,"إسبانيا تردّ على المغرب بنشر طائرات ""إف 18"" فو...",2019-12-24 18:00:00,هسبريس - عبد السلام الشامخ,تزامناً مع توجّه المغرب لترسيم حدوده في المياه...,orbites,تزامنا توجه توجه المغرب المغرب لترسيم لترسيم ح...,"[-54.778965, 269.9183, -70.60175, 307.7276, 14..."
10997,"لجنة النموذج التنموي تضع ""ميثاق قواعد الاشتغال""",2019-12-24 13:15:00,هسبريس - و.م.ع,قامت اللجنة الخاصة بالنموذج التنموي، خلال اجتم...,orbites,قامت اللجنة اللجنة الخاصة الخاصة بالنموذج بالن...,"[36.508644, -38.15644, -28.715273, 199.49873, ..."
10998,ضعف القدرات البشرية والبنيات المؤسساتية يبطئ ا...,2019-12-24 13:00:00,هسبريس - يوسف لخضر,اختُتمت، السبت الماضي بمدينة أكادير، أشغال الم...,orbites,اختتمت، السبت السبت الماضي الماضي بمدينة بمدين...,"[65.237686, -19.095953, -218.21838, 413.7935, ..."


## Label Encoding

In [27]:
label_encoder = LabelEncoder()

label_encoder.fit(df['topic'])

df['topic_encoded'] = label_encoder.transform(df['topic'])

In [28]:
label_mapping = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))
print(label_mapping)

{'art-et-culture': 0, 'economie': 1, 'faits-divers': 2, 'marocains-du-monde': 3, 'medias': 4, 'orbites': 5, 'politique': 6, 'regions': 7, 'societe': 8, 'sport': 9, 'tamazight': 10}


## Data Splitting

In [29]:
# lists to store the train and test indices

train_indices = []
test_indices = []

groups = df.groupby('topic_encoded')
for _, group in groups:
    num_samples = len(group)
    train_size = int(num_samples * 0.8)
    indices = group.index.tolist()
    train_indices.extend(indices[:train_size])
    test_indices.extend(indices[train_size:])

In [30]:
# get the train and test sets by the indices

training_data = df.loc[train_indices]
testing_data = df.loc[test_indices]


# Classification

## Deep Learning Method RNN

In [31]:
X_train = training_data['story_vector']
y_train = training_data['topic_encoded']

X_test = testing_data['story_vector']
y_test = testing_data['topic_encoded']

In [32]:
# Convert word embeddings to numpy arrays 

X_train = np.array(X_train.tolist())
X_test = np.array(X_test.tolist())

In [33]:
# Length of the input sequences

max_sequence_length = X_train.shape[1]  

# Number of unique topics

num_classes = len(np.unique(y_train))  

In [34]:
# RNN(LSTM) model

model = Sequential()
model.add(Embedding(input_dim=X_train.shape[0], output_dim=max_sequence_length, input_length=max_sequence_length))
model.add(LSTM(units=128, return_sequences=True))
model.add(LSTM(units=64, return_sequences=True))
model.add(LSTM(units=32))
model.add(Dropout(0.2))
model.add(Dense(units=num_classes, activation='softmax'))

model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [35]:
class LossHistory(Callback):
    def on_epoch_end(self, epoch, logs=None):
        print(f"Epoch {epoch+1}/{epochs} - loss: {logs['loss']:.4f} - accuracy: {logs['accuracy']:.4f}")

epochs = 100 

In [36]:
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=epochs, batch_size=64, verbose=0, callbacks=[LossHistory()])

Epoch 1/100 - loss: 2.3418 - accuracy: 0.1332
Epoch 2/100 - loss: 2.2487 - accuracy: 0.1873
Epoch 3/100 - loss: 2.1713 - accuracy: 0.2248
Epoch 4/100 - loss: 2.1124 - accuracy: 0.2473
Epoch 5/100 - loss: 2.0422 - accuracy: 0.2774
Epoch 6/100 - loss: 1.9628 - accuracy: 0.3089
Epoch 7/100 - loss: 1.9035 - accuracy: 0.3383
Epoch 8/100 - loss: 1.8244 - accuracy: 0.3713
Epoch 9/100 - loss: 1.7416 - accuracy: 0.4042
Epoch 10/100 - loss: 1.6743 - accuracy: 0.4294
Epoch 11/100 - loss: 1.5974 - accuracy: 0.4649
Epoch 12/100 - loss: 1.5252 - accuracy: 0.4885
Epoch 13/100 - loss: 1.4445 - accuracy: 0.5245
Epoch 14/100 - loss: 1.3686 - accuracy: 0.5514
Epoch 15/100 - loss: 1.3063 - accuracy: 0.5758
Epoch 16/100 - loss: 1.2234 - accuracy: 0.6016
Epoch 17/100 - loss: 1.1805 - accuracy: 0.6170
Epoch 18/100 - loss: 1.1178 - accuracy: 0.6361
Epoch 19/100 - loss: 1.0424 - accuracy: 0.6658
Epoch 20/100 - loss: 1.0233 - accuracy: 0.6695
Epoch 21/100 - loss: 0.9434 - accuracy: 0.6954
Epoch 22/100 - loss: 0

In [37]:
# predict the test set

y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)  

In [38]:

# classification report

target_names = ['art-et-culture', 'economie', 'faits-divers', 'marocains-du-monde', 'medias', 'orbites', 'politique', 'regions', 'societe', 'sport', 'tamazight']

report = classification_report(y_test, y_pred_classes, target_names=target_names)

print(report)

                    precision    recall  f1-score   support

    art-et-culture       0.36      0.40      0.38       196
          economie       0.38      0.29      0.33       200
      faits-divers       0.70      0.72      0.71       200
marocains-du-monde       0.24      0.25      0.24       200
            medias       0.24      0.27      0.25       199
           orbites       0.15      0.19      0.17       183
         politique       0.34      0.32      0.33       200
           regions       0.41      0.38      0.39       200
           societe       0.23      0.24      0.24       200
             sport       0.62      0.47      0.53       200
         tamazight       0.32      0.33      0.32       193

          accuracy                           0.35      2171
         macro avg       0.36      0.35      0.36      2171
      weighted avg       0.37      0.35      0.36      2171



## Transformer-based Method 

In [40]:
from transformers import GPT2Tokenizer, TFGPT2ForSequenceClassification
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import SparseCategoricalCrossentropy
from tensorflow.keras.metrics import SparseCategoricalAccuracy

  from .autonotebook import tqdm as notebook_tqdm


In [42]:
X_train = training_data['story']
y_train = training_data['topic_encoded']

X_test = testing_data['story']
y_test = testing_data['topic_encoded']

In [44]:
# Initialize the GPT-2 tokenizer and encode the text data

tokenizer = GPT2Tokenizer.from_pretrained('gpt2', do_lower_case=True)
tokenizer.pad_token = tokenizer.eos_token

X_train_encodings = tokenizer(list(X_train), truncation=True, padding=True, return_tensors='tf')
X_test_encodings = tokenizer(list(X_test), truncation=True, padding=True, return_tensors='tf')



In [48]:
# Initialize the GPT-2 model for sequence classification

model = TFGPT2ForSequenceClassification.from_pretrained('gpt2', num_labels=len(np.unique(y_train)), from_pt= True)

# Compile the model

model.compile(optimizer=Adam(learning_rate=2e-5), loss=SparseCategoricalCrossentropy(from_logits=True), metrics=[SparseCategoricalAccuracy()])



Downloading pytorch_model.bin: 100%|██████████| 548M/548M [02:31<00:00, 3.62MB/s] 
Loading a PyTorch model in TensorFlow, requires both PyTorch and TensorFlow to be installed. Please see https://pytorch.org/ and https://www.tensorflow.org/install/ for installation instructions.


ModuleNotFoundError: No module named 'torch'

In [47]:
# Train the model

epochs = 3  
history = model.fit(x=X_train_encodings, y=y_train, validation_data=(X_test_encodings, y_test), epochs=epochs, batch_size=16)



Epoch 1/3


ValueError: Unsupported value type BatchEncoding returned by IteratorSpec._serialize

In [None]:
# Evaluate the model

loss, accuracy = model.evaluate(X_test_encodings, y_test)
print("Loss:", loss)
print("Accuracy:", accuracy)

In [69]:
from keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

from transformers import BertTokenizer, TFBertForSequenceClassification
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import SparseCategoricalCrossentropy
from tensorflow.keras.metrics import SparseCategoricalAccuracy

In [71]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

X_train_encodings = tokenizer(list(X_train), truncation=True, padding=True, return_tensors='tf')
X_test_encodings = tokenizer(list(X_test), truncation=True, padding=True, return_tensors='tf')

In [72]:
model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=len(np.unique(y_train)))

model.compile(optimizer=Adam(learning_rate=2e-5), loss=SparseCategoricalCrossentropy(from_logits=True), metrics=[SparseCategoricalAccuracy()])


Downloading model.safetensors: 100%|██████████| 440M/440M [02:07<00:00, 3.45MB/s] 
All PyTorch model weights were used when initializing TFBertForSequenceClassification.

Some weights or buffers of the TF 2.0 model TFBertForSequenceClassification were not initialized from the PyTorch model and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [73]:
epochs = 3  
history = model.fit(x=X_train_encodings, y=y_train, validation_data=(X_test_encodings, y_test), epochs=epochs, batch_size=16)

Epoch 1/3


ValueError: Unsupported value type BatchEncoding returned by IteratorSpec._serialize

In [None]:
loss, accuracy = model.evaluate(X_test_encodings, y_test)
print("Loss:", loss)
print("Accuracy:", accuracy)

In [None]:
y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)  

In [None]:
target_names = ['art-et-culture', 'economie', 'faits-divers', 'marocains-du-monde', 'medias', 'orbites', 'politique', 'regions', 'societe', 'sport', 'tamazight']
report = classification_report(y_test, y_pred_classes, target_names=target_names)
print(report)