# Arabic

In [2]:
import pandas as pd 

df = pd.read_csv("/content/drive/MyDrive/arabic.csv")
df.head()

Unnamed: 0,lang,text,title
0,ar,['اللُّغَة العَرَبِيّة هي أكثر اللغات السامية ...,اللغة العربية
1,ar,['إثيوبيا ( رسمياً، جمهورية إثيوبيا الفيدرالية...,إثيوبيا
2,ar,['اللغات الساميّة هي أحد فروع اللغات الأفروآسي...,لغات سامية
3,ar,['السنغال (بالفرنسية: le Sénégal)\u200f، رسميً...,السنغال
4,ar,['تشاد (بالفرنسية: Tchad)\u200f رسمياً جمهورية...,تشاد


In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Split articles into sentences

In [4]:
from nltk.tokenize import sent_tokenize 

sentences = df['text'].apply(sent_tokenize)
print(sentences[0][1])

وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشاراً في العالم،[6][7][8] واللغة الرابعة من حيث عدد المستخدمين على الإنترنت.


## Preprocess sentences 

In [5]:
tokenized_sent = []

for par in sentences:
  for sent in par:
    tokenized_sent.append(nltk.word_tokenize(sent))


In [6]:
tokenized_sent[0][1]

"'اللُّغَة"

In [7]:
# REMOVES STOPWORDS
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('arabic'))
for sent in tokenized_sent:
    for w in sent:
        if w in stop_words:
            sent.remove(w)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
# REMOVE NON ALPHA CHARS
import string
punct = string.punctuation
for sent in tokenized_sent:
    for w in sent:
         if not(w.isalpha()) :
            sent.remove(w)
print(sentences[5:25])

5     [['الأهواز أو الأحواز هي عاصمة ومركز محافظة خو...
6     [['إريتريا، أو رسمياً دولة إريتريا هي بلد في ا...
7     [['مالي أو جمهورية مالي وهي دولة غير ساحلية في...
8     [['السواحلية كما تُعرف باسم اللسان السواحلي هي...
9     [['تُرْكِيَا (بالتركية: Türkiye)\u200f الاِسم ...
10    [['الهَوْسية (بالهوسية: هَرْشَن هَوْسَ) لغة ال...
11    [['اللغة الألبانية (بالألبانية: Gjuha shqipe)....
12    [['اللغة الإندونيسية هي اللغة الرسمية لإندونيس...
13    [['اللغة الماليزية (الملايو: bahasa Malaysia؛ ...
14    [['اللغة الأردية أو لغة لاشكاري[3] لغة هندية آ...
15                     [['تشير كلمة كردية إلى\xa0:\n']]
16    [['الوطن العربي (ويُعرف كذلك باسم الوطن العربي...
17    [['القرن الأفريقي أو شبه الجزيرة الصومالية[1][...
18    [['نَسَمة هي وحدة تعداد الأشخاص., تستعمل على س...
19    [['تعدد الآلهة هو مصطلح يشير إلى الإيمان بآلهة...
20    [['نجد هي أحد أقاليم شبه الجزيرة العربية التار...
21    [['التوراة (بالعبرية: תּוֹרָה؛ تعني الشريعة أو...
22    [['عدنان بن أدد هو جد العرب العدنانيين الم

In [9]:
import re 
for sent in tokenized_sent:
    for w in sent:
         if re.search('[a-zA-Z]', w) or re.search("[._@z'+#-?&!/,]", w):
            sent.remove(w)
print(tokenized_sent[5])


['وللغة', 'العربية', 'تأثير', 'مباشر', 'وغير', 'مباشر', 'كثير', 'اللغات', 'الأخرى', 'العالم', 'كالتركية', 'والفارسية', 'والأمازيغية', 'والكردية', 'والأردية', 'والماليزية', 'والإندونيسية', 'والألبانية', 'وبعض', 'اللغات', 'الإفريقية', 'الأخرى', 'مثل', 'الهاوسا', 'والسواحيلية', 'والتجرية', 'والأمهرية', 'وبعض', 'اللغات', 'الأوروبية', 'المتوسطية', 'كالإسبانية', 'والبرتغالية', 'والمالطية', 'ودخلت', 'الكثير', 'مصطلحاتها', 'اللغة', 'الإنجليزية', 'واللغات', 'مثل', 'أدميرال', 'والتعريفة', 'والكحول', 'والجبر', 'وأسماء', 'النجوم']


In [10]:
len(tokenized_sent)

215321

In [11]:
import random
random.seed(3)
random.shuffle(tokenized_sent)

# Urdu

In [12]:
dfu = pd.read_csv("/content/drive/MyDrive/urdu.csv")
sentencesu = dfu['text'].apply(sent_tokenize)
urtokenized_sent = []

for par in sentencesu:
  for sent in par:
    urtokenized_sent.append(nltk.word_tokenize(sent))

In [13]:
len(urtokenized_sent)

14475

In [14]:
# REMOVE NON ALPHA CHARS
for sent in urtokenized_sent:
    for w in sent:
         if not(w.isalpha()) :
            sent.remove(w)

In [15]:
for sent in urtokenized_sent:
    for w in sent:
         if re.search('[a-zA-Z]', w) or re.search("[._@z'+#-?&!/,]", w):
            sent.remove(w)
print(urtokenized_sent[7])

['الاقوامی', 'زیادہ', 'تر', 'کا', 'مطلب', 'کوئی', 'زبان', 'یا', 'تنظیم', 'جس', 'میں', 'ایک', 'سے', 'زیادہ', 'ملک', 'شامل', 'لفظ', 'بین', 'الاقوامی', 'ایک', 'اصطلاح', 'کے', 'طور', 'پر', 'استعمال', 'ہوتا', 'جس', 'میں', 'ایک', 'سے', 'زیادہ', 'اقوام', 'یا', 'ممالک', 'یا', 'عام', 'طور', 'پر', 'قومی', 'حدود', 'سے', 'باہر', 'کے', 'کوئی', 'دیگر', 'ادارے', 'یا', 'تنظیمیں', 'ملوث', 'مثال', 'کے', 'طور', 'پر', 'بین', 'الاقوامی', 'قانون', 'ایک', 'سے', 'زیادہ', 'ممالک', 'بلکہ', 'زمین', 'پر', 'ہر', 'جگہ', 'لاگو', 'کیا', 'جاتا']


In [16]:
urlabel = [1]*14475

# Pashto

In [17]:
dfp = pd.read_csv("/content/drive/MyDrive/pashto.csv")
sentencesp = dfp['text'].apply(sent_tokenize)
pstokenized_sent = []

for par in sentencesp:
  for sent in par:
    pstokenized_sent.append(nltk.word_tokenize(sent))

In [18]:
# REMOVE NON ALPHA CHARS
for sent in pstokenized_sent:
    for w in sent:
         if not(w.isalpha()) :
            sent.remove(w)

In [19]:
for sent in pstokenized_sent:
    for w in sent:
         if re.search('[a-zA-Z]', w) or re.search("[._@z'+#-?&!/,]", w):
            sent.remove(w)
print(pstokenized_sent[6])

['چې', 'د', 'همدغې', 'سيمې', 'د', 'اوسيدونکو', 'لخوا', 'د', 'هغوی', 'په', 'ژبه', 'منصوبه', 'شوه', 'او', 'دغې', 'پوهنې', 'ته', 'د', 'الکېمي', 'نوم', 'ورکړ', 'شو']


In [20]:
len(pstokenized_sent)

130651

In [21]:
random.seed(3)
random.shuffle(pstokenized_sent)

# Farsi

In [22]:
dff = pd.read_csv("/content/drive/MyDrive/farsi.csv")
sentencesf = dff['text'].apply(sent_tokenize)
frtokenized_sent = []

for par in sentencesf:
  for sent in par:
    frtokenized_sent.append(nltk.word_tokenize(sent))

In [23]:
# REMOVE NON ALPHA CHARS
for sent in frtokenized_sent:
    for w in sent:
         if not(w.isalpha()) :
            sent.remove(w)

In [24]:
for sent in frtokenized_sent:
    for w in sent:
         if re.search('[a-zA-Z]', w) or re.search("[._@z'+#-?&!/,]", w):
            sent.remove(w)
print(frtokenized_sent[6])

['در', 'زبان', 'شیمی', 'یک', 'ترانویسی', 'از', 'برابر', 'فرانسوی', 'است', 'و', 'نخستین', 'بار', 'در', 'سال', 'توسط', 'میرزا', 'صالح', 'شیرازی', 'در', 'یک', 'علوم', 'طبیعی', 'که', 'خود', 'وی', 'مرقوم', 'داشته', 'بود', 'برده', 'شد', 'که', 'بعدها', 'در', 'دارالفنون', 'با', 'عنوان', 'رسالهٔ', 'طبیعیات', 'تدریس', 'کیهان\\u200cشناسی\\nاخترشناسی', 'کهکشانی', 'اخترشناسی', 'اخترزیست\\u200cشناسی', 'زیستی', 'رفتاری', 'زیست\\u200cشناسی', 'سلولی', 'تکاملی', 'مقدمه', 'مقدمه', 'ایمنی\\u200cشناسی', 'دریایی', 'مولکولی', 'انگل\\u200cشناسی', 'زیست\\u200cشناسی', 'نظری', 'جانورشناسی\\n', 'محیط', 'معدنی\\nدانش', 'آلی\\nفوتوشیمی\\nشیمی\\u200cفیزیک\\nشیمی', 'حالت', 'سطح\\nشیمی', 'جوی', 'محیط', 'زیست', 'ژئومورفولوژی\\nژئوفیزیک', 'آب', 'فیزیکی', 'کاربردی', 'فیزیک', 'ماده', 'تجربی', 'ذرات', 'فیزیک', 'کوانتومی', 'مقدمه', 'جامدات', 'فیزیک', 'عام', 'باستان\\u200cشناسی\\nجرم\\u200cشناسی', 'جغرافیا\\nتاریخ', 'سیاسی', 'حقوق\\n', 'کشاورزی', 'مهندسی', 'هوافضا', 'مهندسی', 'پزشکی', 'مهندسی', 'شیمی', 'مهندسی', 'کامپیوتر', 

In [25]:
len(frtokenized_sent)

139655

In [26]:
random.seed(3)
random.shuffle(frtokenized_sent)

# Form dataset 

In [27]:
# For each 20k language sentence => 20k label ranging from 0 to 3
arlabel = [0]*20000
pslabel = [2]*20000
frlabel = [3]*20000
labels = arlabel+urlabel+pslabel+frlabel
tokenized_sent = tokenized_sent[:20000] + urtokenized_sent + pstokenized_sent[20000] + frtokenized_sent[:20000]

In [28]:
s = " "
t = []
for sent in tokenized_sent:
  t.append(s.join(sent))

In [29]:
t[1]

'وحسب صندوق النقد الدولي سنة تصدرّت ستة دول أوروبية قائمة الدول الأكثر العالم حسب الناتج المحلي'

# Tokenize and Padd 

In [30]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(num_words=40000, oov_token= '<oov>')
tokenizer.fit_on_texts(t)

word_index = tokenizer.word_index
vocab_size=len(word_index)
print(vocab_size)

222670


In [35]:
sequences = tokenizer.texts_to_sequences(t)
padded = pad_sequences(sequences, maxlen= 1500, padding= 'post', truncating='post')

# Build Neural Network

In [32]:
tf.keras.backend.clear_session()
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(50000, 32 , input_length=None),
    tf.keras.layers.GRU(16, dropout= 0.1),
    tf.keras.layers.Dense(16, activation='relu',kernel_regularizer=tf.keras.regularizers.l2(0.01)),
    tf.keras.layers.Dense(8, activation='relu',kernel_regularizer=tf.keras.regularizers.l2(0.01)),
    tf.keras.layers.Dense(4, activation='softmax')
])
model.compile(loss='categorical_crossentropy',optimizer='Nadam',metrics=['accuracy'])
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 32)          1600000   
_________________________________________________________________
gru (GRU)                    (None, 16)                2400      
_________________________________________________________________
dense (Dense)                (None, 16)                272       
_________________________________________________________________
dense_1 (Dense)              (None, 8)                 136       
_________________________________________________________________
dense_2 (Dense)              (None, 4)                 36        
Total params: 1,602,844
Trainable params: 1,602,844
Non-trainable params: 0
_________________________________________________________________


# Train model 

In [33]:
catg = tf.keras.utils.to_categorical(
    labels, num_classes=4, dtype='float32'
)

In [None]:
num_epochs = 20
history = model.fit(padded, catg, batch_size = 512,  epochs=num_epochs, validation_split=0.15 )

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
 8/91 [=>............................] - ETA: 2:38 - loss: 0.1261 - accuracy: 0.9915

# As the training approaches the tenth epoch the training accuracy is about 99% and the validation accuracy is 97%!