## Import Libraries

In [1]:
import pandas as pd
from tqdm import tqdm
import numpy as np

## convert m2 to dataframe and merging files

In [2]:
def m2_to_df(m2_file_path,id=0):
    '''This function takes m2 file path as input and converts it to pandas dataframe'''

    m2 = open(m2_file_path).read().strip().split("\n\n")
    # Do not apply edits with these error types
    skip = {"noop", "UNK", "Um"}

    correct_sent_array = []
    incorrect_sent_array = []

    for sent in tqdm(m2):
        sent = sent.split("\n")
        incor_sent = sent[0].split()[1:] # Ignore "S "
        incorrect_sent_array.append(str(' '.join(incor_sent))) 
        cor_sent = incor_sent.copy()

        edits = sent[1:]
        offset = 0
        for edit in edits:
            edit = edit.split("|||")
            if edit[1] in skip: continue # Ignore certain edits
            coder = int(edit[-1])
            if coder != id: continue # Ignore other coders
            span = edit[0].split()[1:] # Ignore "A or S "
            start = int(span[0])
            end = int(span[1])
            cor = edit[2].split()
            cor_sent[start+offset:end+offset] = cor
            offset = offset-(end-start)+len(cor)
        correct_sent_array.append(str(' '.join(cor_sent)))

    df = pd.DataFrame()
    df["correct"] = correct_sent_array
    df["incorrect"] = incorrect_sent_array
    return df

In [10]:
m2_file_path = "2014\\test\\QALB-2014-L1-Test.m2"
df_test_2014 = m2_to_df(m2_file_path)

m2_file_path = "2014\\dev\\QALB-2014-L1-Dev.m2"
df_dev_2014 = m2_to_df(m2_file_path)

m2_file_path = "2014\\train\\QALB-2014-L1-Train (1).m2"
df_train_2014 = m2_to_df(m2_file_path)

m2_file_path = "2015\\test\\QALB-2015-L1-Test.m2"
df_test_2015_l1 = m2_to_df(m2_file_path)

m2_file_path = "2015\\test\\QALB-2015-L2-Test.m2"
df_test_2015_l2 = m2_to_df(m2_file_path)

m2_file_path = "2015\\dev\\QALB-2015-L2-Dev.m2"
df_dev_2015 = m2_to_df(m2_file_path)

m2_file_path = "2015\\train\\QALB-2015-L2-Train.m2"
df_train_2015 = m2_to_df(m2_file_path)


100%|██████████| 968/968 [00:00<00:00, 17276.08it/s]


100%|██████████| 1017/1017 [00:00<00:00, 21172.73it/s]
100%|██████████| 19411/19411 [00:00<00:00, 23059.82it/s]
100%|██████████| 920/920 [00:00<00:00, 22971.54it/s]
100%|██████████| 158/158 [00:00<00:00, 6581.52it/s]
100%|██████████| 154/154 [00:00<00:00, 9620.97it/s]
100%|██████████| 310/310 [00:00<00:00, 9826.66it/s]


In [19]:
dataframes = [df_dev_2014, df_dev_2015, df_test_2014, df_test_2015_l1, df_test_2015_l2, df_train_2014, df_train_2015]
final_df = pd.concat(dataframes)

                                               correct  \
0    سبحان الله ، الحكام العرب سيموت على الكرسي ليظ...   
1    النصر آت لا محال إن شاء الله . من يؤمن بالله و...   
2    إلى كل شخص يعتقد أن بشار الأسد سوف يخرج من سور...   
3    الأسد وعصابته - لحد الآن - غير مستوعبين أنه رح...   
4    النظام الأسدي تجاوز حتى ما فعله معمر القذافي ف...   
..                                                 ...   
305  حوار عن " الشرعية الدولية " . في البرنامج " ال...   
306  استمر دكتور جمال قريب إلى نهاية محاضرته أن يصف...   
307  أصبحت اللغة العربية في هذا العصر موضوع اهتمام ...   
308  الأقلية الفلسطينية في إسرائيل . حضرت محاضرة لل...   
309  محاضرة : دكتور جمال . في يوم الجمعة 17 أكتوبر ...   

                                             incorrect  
0    سبحان الله الحكام العرب سيموت على الكرسي ليضهر...  
1    النصر آت لا محال انشاء الله من يؤمن بالله والي...  
2    الى كل شخص يعتقد ان بشار الاسد سوف يخرج من سور...  
3    الأسد وعصابته لحد الآن غير مستوعبين إن و رح ين...  
4    النظام الأسدي

## Check data

In [21]:
final_df.sample(5)

Unnamed: 0,correct,incorrect
12943,مقال يخلع القلب وأكثر ما فيها أنك وأمثالك رحلت...,مقال يخلع القلب واكثر مافيها أنك وامثالك رحلتم...
15778,رحماك ربي قد غدا أمر البلد . . . في كف من كناه...,ر حماك رب ي قد غدا أمر البلد . . . في كف من كن...
3546,يبنون مستوطنات ، الاسم ظاهر من عنوانه ، أي أنه...,يبنون مستوطنات الاسم ظاهر من عنوانه اي انهم يس...
15353,سوف أعلق ، وأظل أعلق ، وسأكون هذه المرة ضد مرت...,سوف اعلق وأضل اعلق وساااكون هذيه المره ضد مرتز...
12986,الهدف واحد والتخطيط مدروس . لن تضرب إيران ولو ...,الهدف واحد والتخطيط مدروس لن تضرب ايران ولوضرب...


In [28]:
def show_random_datapoints(n_samples,df):
    for i in range(n_samples):
        id = int(np.random.uniform(0,len(df)))

        if len(df['correct'].iloc[id].split())>5 and df['correct'].iloc[id] != df['incorrect'].iloc[id]:
            print(f"correct: {df['correct'].iloc[id]}")
            print(f"incorrect: {df['incorrect'].iloc[id]}")
            print('__'*100)

In [29]:
show_random_datapoints(10,final_df)

correct: الكاتب فهمي هويدي مثله مثل جميع من اتهموهم بالتسبب في هذه الفاجعة ، عندما تغافل عن عدم توجيه الاتهام لبابا الأقباط ومعاونيه ببذر الفتنة بين المصريين ، وتهيئة الفرصة لأعداء الوطن عندما تهكموا ، وصالوا ، وجالوا على الدين الإسلامي دون رقيب ولا حسيب .
incorrect: الكاتب فهمي هويدي مثله مثل جميع من إتهمهم بالتسبب في هذه الفاجعه عندما تغافل عن عمد توجيه الإتهام لبابا الأقباط ومعاونيه ببذر الفتنه بين المصريين وتهيئة الفرصه لأعداء الوطن عندما تهكموا وصالوا وجالوا علي الدين الإسلامي دون رقيب ولا حسيب .
________________________________________________________________________________________________________________________________________________________________________________________________________
correct: الله ينصر كل من وقف أمام الحكومة وكل من عاداها ؛ لأنها حكومة فاشلة وخائنة للشعب والدين ، وحكومة رشوة ، وسرقة ، وفساد ، ولا تعبر أي شيء عن الدين أو الحكم الإسلامي . فأنا مع كل من يعاديها بأي وسيلة من الوسائل سواء كان سنيا أو شيعيا أو حتى يهوديا ! !
incorrect: الله ينصر كل من وقف أمام

In [26]:
final_df.to_csv('MergedDataset.csv',index=False)