In [1]:
# import libraries 
import pandas as pd
import random
import numpy
import fasttext

# Importing Datasets
Here we import two datasets - one for MSA and one for CA, the dataset is preprocessed (clean from non-arabic words). 

In [2]:
root = ''

file_pathCA = root + "main datasets/CA.txt"
file_pathMSA = root + "main datasets/MSA.txt"

In [3]:
# display CA
pd.read_csv(file_pathCA, header=None, nrows=10, encoding ='UTF-8')

Unnamed: 0,0
0,هذا الملف آليا بواسطة المكتبة الشاملة الكتاب أ...
1,الكتاب مشكول ومرقم آليا غير موافق للمطبوع مقدم...
2,ونثر فيه ألباب الألباب
3,وفتح فيه لكل من جاء بعده إلى معارفه الباب
4,فكل أحد غرف منه على قدر إنائه
5,وما نقصت قطرة من مائه
6,وأعظم من انتقى منه الأحكام بصيرة القاضي أبو إسحاق
7,فاستخرج دررها
8,واستحلب دررها
9,وإن كان قد غير أسانيدها لقد ربط معاقدها


In [4]:
# display MSA
pd.read_csv(file_pathMSA, header=None, nrows=10, encoding ='UTF-8')

Unnamed: 0,0
0,رئيس وزراء المجر
1,عنصرية جماهير أوجبيست جلبت العار للبلاد
2,قال متحدث باسم الحكومة المجرية
3,إن رئيس الوزراء فيرنك جيوركساني رحب بقرار اتحا...
4,وعاقب الاتحاد المجري فريق أوجبيست بعد أن سخرت ...
5,يذكر أن الاتحاد فرض أيضا غرامة مالية قدرها ألف...
6,وأوضح جيوركساني في خطاب إلي إيستفان كيستليكي ر...
7,أن هذا السلوك العنصري من الجماهير
8,جلب العار لكرة القدم وللمجر
9,يذكر أن المجر بها مجموعة من مشجعي كرة القدم ال...


# FastText Preprocessing Format
We declare a method that allows us to convert a textual data, to FastText required format. We set a variable "min", "min" is the minimum accepted length of a sentence, because we noted that there are some lines contain only one word. 
FastTextmaker is a method input a path of a txt file, and output a FastText array format called DATA. MSAorCA variable spesify wethere the type of the input file is MSA or CA. the number of simple will return by the variable counter.

In [5]:
def FastTextmaker(file_path, fasttextoutput, MSAorCA=0, MSA=0, CA=0, __min=5):
    file1 = open(file_path, 'r', encoding="UTF-8", newline="")
    lines = file1.readlines()
    print("lines ::: ", len(lines))
    file1.close()
    DATA = []
    counter = 0
    for line in lines:
        splt = line.split(' ')
        fasttextline = ""
        if(len(splt) > __min):
            if(MSAorCA == 0):
                fasttextline = "__label__MSA " + line.strip();
                counter += 1
            elif(MSAorCA == 1):
                fasttextline = "__label__CA " + line.strip();
                counter += 1

            DATA.append(fasttextline)

    return DATA, counter

In [6]:
fasttextoutputCA = root + "fasttextCA.txt"
fasttextoutputMSA = root + "fasttextMSA.txt"

CA_DATA, CA_counter = FastTextmaker(
    file_path=file_pathCA,
    fasttextoutput=fasttextoutputCA,
    MSAorCA=1,
    __min=5
)

MSA_DATA, MSA_counter = FastTextmaker(
    file_path=file_pathMSA,
    fasttextoutput=fasttextoutputMSA,
    MSAorCA=0,
    __min=10
)

print("CA_counter : ", CA_counter, "; MSA_counter : ", MSA_counter)

lines :::  4413048
lines :::  12628599
CA_counter :  2973342 ; MSA_counter :  3033641


In [8]:
pd.DataFrame(CA_DATA[:10])

Unnamed: 0,0
0,__label__CA هذا الملف آليا بواسطة المكتبة الشا...
1,__label__CA الكتاب مشكول ومرقم آليا غير موافق ...
2,__label__CA وفتح فيه لكل من جاء بعده إلى معارف...
3,__label__CA فكل أحد غرف منه على قدر إنائه
4,__label__CA وأعظم من انتقى منه الأحكام بصيرة ا...
5,__label__CA وإن كان قد غير أسانيدها لقد ربط مع...
6,__label__CA ولم يأت بعدهما من يلحق بهما
7,__label__CA ولما من الله سبحانه بالاستبصار في ...
8,__label__CA ثم عرضناها على ما جلبه العلماء
9,__label__CA وشحذناه حتى خلص نضاره وورق عراره


In [9]:
pd.DataFrame(MSA_DATA[:10])

Unnamed: 0,0
0,__label__MSA إن رئيس الوزراء فيرنك جيوركساني ر...
1,__label__MSA وعاقب الاتحاد المجري فريق أوجبيست...
2,__label__MSA يذكر أن الاتحاد فرض أيضا غرامة ما...
3,__label__MSA وأوضح جيوركساني في خطاب إلي إيستف...
4,__label__MSA وشارك الكثير منهم في أعمال شغب مع...
5,__label__MSA إذا اعتبرنا جوجول وتشيكوف هما رئد...
6,__label__MSA كان ذلك بين أواخر الخمسينيات وطوا...
7,__label__MSA إلا أن قصصه كانت لصيقة بالحياة وم...
8,__label__MSA وكانت أعماله القصصية قد ترجمت للك...
9,__label__MSA وكان يوسف إدريس قد كتب للأهرام سل...


In [10]:
ALLDATA = CA_DATA + MSA_DATA
pd.DataFrame(ALLDATA)

Unnamed: 0,0
0,__label__CA هذا الملف آليا بواسطة المكتبة الشا...
1,__label__CA الكتاب مشكول ومرقم آليا غير موافق ...
2,__label__CA وفتح فيه لكل من جاء بعده إلى معارف...
3,__label__CA فكل أحد غرف منه على قدر إنائه
4,__label__CA وأعظم من انتقى منه الأحكام بصيرة ا...
...,...
6006978,__label__MSA ولم يكن الموقف جديدا بالنسبة لجم...
6006979,__label__MSA ففي ذلك العام فجر خافيير كليمنتي ...
6006980,__label__MSA وفي مباراة الذهاب بنهائي كأس الات...
6006981,__label__MSA وسافر ألفا من مشجعي الفريق الإسب...


In [11]:
#data statistics :
print('CA simples : ' , len(CA_DATA))
print('MSA simples : ' , len(MSA_DATA))
print('Total simples : ' , len(ALLDATA))

CA simples :  2973342
MSA simples :  3033641
Total simples :  6006983


# Data Shuffeling
we need to shuffle ALLDATA array, then save to a final FastText data file.

In [18]:
fasttextoutputMSA_CA = root + "fasttextMSA_CA.txt"

random.shuffle(ALLDATA)

dd_f = open(fasttextoutputMSA_CA, "w", encoding="UTF-8", newline="")

for d in ALLDATA:
    dd_f.write(d + "\n")

dd_f.close()

# Train & Test datasets Creation
In this section we want to split the data (fasttextoutputMSA_CA file) to 70% train and 30% test.

In [19]:
percent__70__ = int((70*6006983) / 100)
print('70% = ', percent__70__)

ftest = root + "test.txt"
ftrain = root + "train.txt"

file1 = open(fasttextoutputMSA_CA, 'r', encoding="UTF-8", newline="")
lines = file1.readlines()
print("lines ::: ", len(lines))
file1.close()

dd_ftest = open(ftest, "w", encoding="UTF-8", newline="")
dd_ftrain = open(ftrain, "w", encoding="UTF-8", newline="")

counter = 0
for line in lines:
    if(counter <= percent__70__):
        dd_ftrain.write(line)
    else:
        dd_ftest.write(line)

    counter += 1

dd_ftest.close()
dd_ftrain.close()

70% =  4204888
lines :::  6006983


# Is data balanced ?
we want to cehck the number of the positive and negative labels are balanced or not.
as it is shown, for each data the labels are balanced.

In [22]:
def is_balanced(file_path):
    file1 = open(file_path, 'r', encoding="UTF-8", newline="")
    lines = file1.readlines()
    print("lines ::: ", len(lines))
    file1.close()
    
    counter_msa = 0
    counter_ca = 0
    
    for line in lines:
        if(line.startswith("__label__MSA")):
            counter_msa += 1
        elif(line.startswith("__label__CA")):
            counter_ca += 1
    
    total = counter_msa + counter_ca
    p_msa = round((counter_msa*100)/total, 2)
    p_ca = round((counter_ca*100)/total, 2)

    return total, counter_msa, p_msa, counter_ca, p_ca

In [23]:
ftest = root + "test.txt"
ftrain = root + "train.txt"

total, counter_msa, p_msa, counter_ca, p_ca = is_balanced(ftest)

print('total : ', total, 'MSA simples : ', counter_msa, ' with ', p_msa , '%' , '; CA simples : ' , counter_ca, ' with ' , p_ca , '%')

total, counter_msa, p_msa, counter_ca, p_ca = is_balanced(ftrain)

print('total : ', total, 'MSA simples : ', counter_msa, ' with ', p_msa , '%' , '; CA simples : ' , counter_ca, ' with ' , p_ca , '%')

lines :::  1802094
total :  1802094 MSA simples :  910445  with  50.52 % ; CA simples :  891649  with  49.48 %
lines :::  4204889
total :  4204889 MSA simples :  2123196  with  50.49 % ; CA simples :  2081693  with  49.51 %


# Traing FastText Model
In this section we will declare a method allows us to train a FastText classifier and output a model *.bin file.

In [24]:
def classifier(trainset, output_model):
    model = fasttext.train_supervised(
        input=trainset,
        dim=25,
        epoch=15,
        minn=0,
        maxn=0,
        wordNgrams=1,
        minCount=1,
        ws=5,
        thread=10,
        bucket=200000,
        loss='ova',
        verbose=1,
    )
    model.save_model(output_model)
    return model

In [25]:
ftrain = root + "train.txt"
model_MSA_CA_train = root + "model_MSA_CA_train.bin"

classifier(
    trainset=ftrain,
    output_model=model_MSA_CA_train
)

<fasttext.FastText._FastText at 0x221f067a648>

# Model Evaluation
In this section we evaluate our FastText model by Precision, Recall and Accuracy metrics. we declare a method input a test file, and predict results, then calculate each of the require metric. 

In [30]:
def getPRA(model, test_file):
    file1 = open(test_file, 'r', encoding="UTF-8")
    lines = file1.readlines()
    file1.close()
    P = 0
    N = 0
    TP = 0
    TN = 0
    FP = 0
    FN = 0

    for line in lines:
        target_label = line.split(" ")[0]
        label = target_label.replace(" ", "")
        text = line.replace(target_label, "").strip()

        p = model.predict(text)
        predicted = list(p[0])[0]

        if(label == "__label__CA"):
            P += 1
        else:
            N += 1

        if (predicted == label):
            if (label == "__label__CA"):
                TP += 1
            else:
                TN += 1

        else:
            if (label == "__label__CA"):
                FP += 1
            else:
                FN += 1

    Precision = (TP / (TP + FP))
    Recall = (TP / (TP + FN))
    Accuracy = (TP + TN) / (P + N)

    return P, N, TP, FP, TN, FN, Precision, Recall, Accuracy

In [31]:
model_MSA_CA_train = root + "model_MSA_CA_train.bin"
ftest = root + "test.txt"

model = fasttext.load_model(model_MSA_CA_train)
P, N, TP, FP, TN, FN, Precision, Recall, Accuracy = getPRA(model, ftest)
    
print('positive : ', P)
print('negative : ', N)
print('true positive : ', TP)
print('false positive : ', FP)
print('true negative : ', TN)
print('false negative : ', FN)
print('Precision : ', Precision)
print('Recall : ', Recall)
print('Accuracy : ', Accuracy)



positive :  891649
negative :  910445
true positive :  887480
false positive :  4169
true negative :  903537
false negative :  6908
Precision :  0.9953243933431204
Recall :  0.9922762827766025
Accuracy :  0.9938532618165312


# Final Model
In this section we want to create a model with combaining all the data (train + test)

In [None]:
def classifier(trainset, output_model):
    model = fasttext.train_supervised(
        input=trainset,
        dim=25,
        epoch=15,
        minn=0,
        maxn=0,
        wordNgrams=1,
        minCount=1,
        ws=5,
        thread=10,
        bucket=200000,
        loss='ova',
        verbose=1,
    )
    model.save_model(output_model)
    return model

In [32]:
fasttextoutputMSA_CA = root + "fasttextMSA_CA.txt"
model_MSA_CA= root + "model_MSA_CA.bin"

classifier(
    trainset=fasttextoutputMSA_CA,
    output_model=model_MSA_CA
)

<fasttext.FastText._FastText at 0x222182a1888>

# Get statistics for our MSA and CA corpora
In this section, finally we are able to calculate each corpus's MSA and CA persentege.
We create a method allows us to loop a text line by line, from a input file, and output some important statics related with MSA and CA persentege.

In [41]:
def getMSA_CA_pers(file_path, model):
    file1 = open(file_path, 'r', encoding="UTF-8", newline="")
    lines = file1.readlines()
    print("lines ::: ", len(lines))
    file1.close()
    counter_CA = 0
    counter_MSA = 0

    for line in lines:
        label = model.predict(line.replace("\n" , ""))[0][0]

        if(label == '__label__CA'):
            counter_CA += 1
        elif(label == '__label__MSA'):
            counter_MSA += 1

    return counter_MSA, counter_CA

def statPercent(file_path):
    print('__________________', file_path, '_____________')
    model = fasttext.load_model(model_MSA_CA)
    counter_MSA, counter_CA = getMSA_CA_pers(
        file_path=file_path,
        model=model
    )

    total = counter_MSA + counter_CA
    MSA_pers = counter_MSA*100/total
    CA_pers = counter_CA*100/total

    print('total = ', total, '  , counter_MSA = ' , counter_MSA,'  counter_CA = ', counter_CA)
    print('MSA_pers = ', MSA_pers, '  , CA_pers = ' , CA_pers)

In [42]:
statPercent("datasets/TASHKEELA_ONLY_ND.txt")
statPercent("datasets/quran_ND.txt")
statPercent("datasets/OTHERS_ONLY_ND.txt")
statPercent("datasets/Tashkeela_PLUS_ND.txt")

__________________ datasets/TASHKEELA_ONLY_ND.txt _____________




lines :::  4519919
total =  4519919   , counter_MSA =  39834   counter_CA =  4480085
MSA_pers =  0.8812989790303765   , CA_pers =  99.11870102096962
__________________ datasets/quran_ND.txt _____________




lines :::  6347
total =  6347   , counter_MSA =  534   counter_CA =  5813
MSA_pers =  8.413423664723492   , CA_pers =  91.5865763352765
__________________ datasets/OTHERS_ONLY_ND.txt _____________
lines :::  1029569
total =  1029569   , counter_MSA =  36039   counter_CA =  993530
MSA_pers =  3.5003967679679557   , CA_pers =  96.49960323203204
__________________ datasets/Tashkeela_PLUS_ND.txt _____________




lines :::  7587361
total =  7587361   , counter_MSA =  56191   counter_CA =  7531170
MSA_pers =  0.7405868786261784   , CA_pers =  99.25941312137383
