In [3]:
import pandas as pd
import numpy as np


In [9]:
data_1 = pd.read_parquet('../dataset/train-00000-of-00002.parquet')
data_2 = pd.read_parquet('../dataset/train-00001-of-00002.parquet')

data = pd.concat([data_1, data_2], axis=0)

data.head()

Unnamed: 0,clean,dotless
0,التشكيلات الحضارية المشرقية الفارسية التركية ا...,التشكيلات الحصارىه المسرفىه الفارسىه التركية ا...
1,بومبيو ووزير الدفاع جيمس ماتيس يوم الثلاثا إلى,بومبيو ووزير الدفاع حىمس ماتيس يوم البلابا إلى
2,السما والأرض إلا عليهماوفي جلا العيون عن ابي,السما والأرض الا عليهماوفي جلا العيون عن ابى
3,إن الحكومة الائتلافية لا تزال مستقرة وستستمر في,إن الحكومة الاىبلافىه لا تزال مستقرة وسبسبمر فى
4,تكتمل الاجرائات قبل اجازه العيد قدمت للتقاعد من,تكتمل الاجرائات قبل اجازه العىد قدمت للبفاعد من


In [10]:
# rename columns
data = data.rename(columns={'clean': 'text'})

# drop the dotless column
data = data.drop(columns=['dotless'])

print(f"size of data: {data.shape}")

size of data: (4446330, 1)


In [11]:
from cleaner import clean_text, to_dotless_text

data['text'] = data['text'].apply(clean_text)

data['dotless'] = data['text'].apply(to_dotless_text)

In [14]:
data.head(20)

Unnamed: 0,text,dotless
0,التشكيلات الحضارية المشرقية الفارسية التركية ا...,الٮسكٮلاٮ الحصارٮه المسرڡٮه الڡارسٮه الٮركٮه ا...
1,بومبيو ووزير الدفاع جيمس ماتيس يوم الثلاثا الى,ٮومٮٮو وورٮر الدڡاع حٮمس ماٮٮس ٮوم الٮلاٮا الى
2,السما والارض الا عليهماوفي جلا العيون عن ابي,السما والارص الا علٮهماوڡى حلا العٮوں عں اٮى
3,ان الحكومة الائتلافية لا تزال مستقرة وستستمر في,اں الحكومه الائٮلاڡٮه لا ٮرال مسٮڡره وسٮسٮمر ڡى
4,تكتمل الاجرائات قبل اجازه العيد قدمت للتقاعد من,ٮكٮمل الاحرائاٮ ڡٮل احاره العٮد ڡدمٮ للٮڡاعد مں
5,الواقع من برامج خدمية وبنى تحتية وتطويريةالعمل...,الواڡع مں ٮرامح حدمٮه وٮٮى ٮحٮٮه وٮطوٮرٮهالعمل...
6,منطقة بالاضافة الى كون ترتيبه من اصل لبيوت,مٮطڡه ٮالاصاڡه الى كوں ٮرٮٮٮه مں اصل لٮٮوٮ
7,مع ابن عباس بعد المحاججة والبقية المتبقية منهم,مع اٮں عٮاس ٮعد المحاححه والٮڡٮه المٮٮڡٮه مٮهم
8,المجلس المذكور او لا يسجل في سجل الشركة,المحلس المدكور او لا ٮسحل ڡى سحل السركه
9,من الماخذ ما شاع بسبب انتشار المحسوبيات بين,مں الماحد ما ساع ٮسٮٮ اٮٮسار المحسوٮٮاٮ ٮٮں


In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences


tokenizer = Tokenizer(num_words=10000, oov_token='<OOV>')
tokenizer.fit_on_texts(data['dotless'])

word_index = tokenizer.word_index
print(f"word index: {len(word_index)}")

dotless_sequences = tokenizer.texts_to_sequences(data['dotless'])
padded = pad_sequences(dotless_sequences, maxlen=100, padding='post', truncating='post')

print(f"padded shape: {padded.shape}")


word index: 1075755
padded shape: (4446330, 100)


In [19]:
tokenizer = Tokenizer(num_words=10000, oov_token='<OOV>')
tokenizer.fit_on_texts(data['text'])

word_index = tokenizer.word_index
print(f"word index: {len(word_index)}")

text_sequences = tokenizer.texts_to_sequences(data['text'])
padded_text = pad_sequences(text_sequences, maxlen=100, padding='post', truncating='post')

print(f"padded shape: {padded_text.shape}")

word index: 1302990
padded shape: (4446330, 100)


In [20]:
from sklearn.model_selection import train_test_split

X = padded
y = padded_text

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [25]:
# train an RNN model with architecture: Embedding 256 -> Bigru 256 -> BIGRU 256 -> Dense 1024 -> Dropout 0.5 -> Dense 

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Bidirectional, LSTM, Dense, Dropout

model = Sequential([
    Embedding(10000, 256, input_length=100),
    Bidirectional(LSTM(256, return_sequences=True)),
    Bidirectional(LSTM(256, return_sequences=True)),
    Bidirectional(LSTM(256, return_sequences=True)),
    Dense(1024, activation='relu'),
    Dropout(0.5),
    Dense(10000, activation='softmax')
])

model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.build(input_shape=(None, 100))  # Assuming input sequence length is 100
model.summary()


In [23]:
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

model.save('rnn_model.h5')

# test the model
from tensorflow.keras.models import load_model

model = load_model('rnn_model.h5')

def predict_text(text):
    text = clean_text(text)
    dotless = to_dotless_text(text)
    sequence = tokenizer.texts_to_sequences([dotless])
    padded_sequence = pad_sequences(sequence, maxlen=100, padding='post', truncating='post')
    prediction = model.predict(padded_sequence)
    return prediction

text_arabic ="ويكيبيديا مشروع تعاوني متعدد اللغات يضم ويكيات بأكثر من"
dotless_text_arabic = to_dotless_text(text_arabic)
prediction = predict_text(dotless_text_arabic)
print(f"prediction: {prediction}")

Epoch 1/10
[1m   205/111159[0m [37m━━━━━━━━━━━━━━━━━━━━[0m [1m100:01:01[0m 3s/step - accuracy: 0.9363 - loss: 0.6454

KeyboardInterrupt: 