In [1]:
import pandas as pd
import re

In [2]:
from arabic_nlp_utils import remove_tatweel, remove_diacritics, normalize_arabic_letters

## Read Raw Data

In [19]:
import pickle

with open('../metadata/articles_meta_data.pickle', 'rb') as f:
    meta_data_df = pickle.load(f)

meta_data_df.shape

(7484, 5)

In [20]:
meta_data_df.head()

Unnamed: 0,title,hyperlink,date,date_dt,filename
0,في كافّة الولايات : عصابة تورط حزبا كبيرا في ع...,https://www.assarih.com/a161414-في-كافّة-الولا...,24 فيفري 2020,2020-02-24,www.assarih.com__في_كاف_ة_الولايات___عصابة_تور...
1,تجار ومواطنون يغلقون الطريق المؤدية الى معبر ح...,https://www.assarih.com/a161411-تجار-ومواطنون-...,24 فيفري 2020,2020-02-24,www.assarih.com__تجار_ومواطنون_يغلقون_الطريق_ا...
2,بنزرت : الإطاحة بعصابة نفذت عملية سطو على منزل,https://www.assarih.com/a161399-بنزرت---الإطاح...,24 فيفري 2020,2020-02-24,www.assarih.com__بنزرت___الإطاحة_بعصابة_نفذت_ع...
3,في الوردية : يهدد العاملات بسكين ثم يسلبهن,https://www.assarih.com/a161396-في-الوردية---ي...,24 فيفري 2020,2020-02-24,www.assarih.com__في_الوردية___يهدد_العاملات_بس...
4,الإعدام شنقا في حق مغتصب وقاتل طفلة الـ7 سنوات...,https://www.assarih.com/a161395-الإعدام-شنقا-ف...,24 فيفري 2020,2020-02-24,www.assarih.com__الإعدام_شنقا_في_حق_مغتصب_وقات...


In [21]:
meta_data_df.tail()

Unnamed: 0,title,hyperlink,date,date_dt,filename
7480,أليم في صفاقس: ارتفاع عدد التلاميذ ضحايا اغتص...,https://www.assarih.com/a129258--أليم-في-صفاقس...,09 مارس 2019,2019-03-09,www.assarih.com___أليم_في_صفاقس__ارتفاع_عدد_ال...
7481,عوسجة (بنزرت): إيقاف «جزّار» تعمد ذبح بقرة مر...,https://www.assarih.com/a129256--عوسجة--بنزرت-...,09 مارس 2019,2019-03-09,www.assarih.com___عوسجة__بنزرت___إيقاف__جز_ار_...
7482,داهمت السلطات الالمانية منزله بكولونيا: التو...,https://www.assarih.com/a129255---داهمت-السلطا...,09 مارس 2019,2019-03-09,www.assarih.com____داهمت_السلطات_الالمانية_منز...
7483,خاص/ في قفصة: غرس سكينا في رأس غريمه اثر جلسة...,https://www.assarih.com/a129254-خاص---في-قفصة-...,09 مارس 2019,2019-03-09,www.assarih.com__خاص___في_قفصة__غرس_سكينا_في_ر...
7484,فجر اليوم بالقيروان : طلق ناري استهدف فلاحا من...,https://www.assarih.com/a129250-فجر-اليوم-بالق...,09 مارس 2019,2019-03-09,www.assarih.com__فجر_اليوم_بالقيروان___طلق_نار...


In [22]:
data_folder_path = '../data/'

In [40]:
import os.path

raw_corpus = []
for i,filename in enumerate(meta_data_df.filename):
    filename = data_folder_path + filename
    u = ''
    if os.path.exists(filename):
        with open(filename, 'r', encoding='utf8') as f:
            u = f.read()
    raw_corpus.append(u)
    if (i%100)==0:
        print(i)

assert meta_data_df.shape[0]==len(raw_corpus)

0
100
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800
1900
2000
2100
2200
2300
2400
2500
2600
2700
2800
2900
3000
3100
3200
3300
3400
3500
3600
3700
3800
3900
4000
4100
4200
4300
4400
4500
4600
4700
4800
4900
5000
5100
5200
5300
5400
5500
5600
5700
5800
5900
6000
6100
6200
6300
6400
6500
6600
6700
6800
6900
7000
7100
7200
7300
7400


*****

## Cleanup Text

In [41]:
def cleanup_text(text):
    if text == '':
        return ''
    # orthographic normalization of certain arabic characters
    text = remove_diacritics(text)
    text = remove_tatweel(text)
    text = normalize_arabic_letters(text)
    
    ## remove urls
    text = re.sub('((www\.[^\s]+)|(https?://[^\s]+))', '', text)

    ## TO DO: light stemming based on common prefixes

    # Replace special markup text between {}
    text = re.sub('[a-zA-Z]+[a-zA-Z\-\s\d{}();\.\']+', ' ', text)

    # Remove redundant white spaces
    text = re.sub('\s+', ' ', text)
    text = text.strip()

    return text

In [25]:
L = ["بِسْمِ اللهِ الرَّحْمٰنِ الرَّحِيمِ" ,  " ؤ ئ إ أ ٱ آ واسى في" , 'جـــمـــيـــل' , "مواڞفات وسعر هاتف أيفون 8  ڞ الجديد"]
for x in L:
    print(x)
    print(cleanup_text(x))

بِسْمِ اللهِ الرَّحْمٰنِ الرَّحِيمِ
بسم الله الرحمٰن الرحيم
 ؤ ئ إ أ ٱ آ واسى في
ء ء ا ا ا ا واسي في
جـــمـــيـــل
جميل
مواڞفات وسعر هاتف أيفون 8  ڞ الجديد
مواڞفات وسعر هاتف ايفون 8 ڞ الجديد


In [26]:
text = "googletag.cmd.push(function() { googletag.display('div-gpt-ad-1546942376253-0'); });   "
cleanup_text(text)

''

In [27]:
meta_data_df.columns

Index(['title', 'hyperlink', 'date', 'date_dt', 'filename'], dtype='object')

In [45]:
corpus_df = meta_data_df[['title', 'date_dt']].copy()
corpus_df.head()

Unnamed: 0,title,date_dt
0,في كافّة الولايات : عصابة تورط حزبا كبيرا في ع...,2020-02-24
1,تجار ومواطنون يغلقون الطريق المؤدية الى معبر ح...,2020-02-24
2,بنزرت : الإطاحة بعصابة نفذت عملية سطو على منزل,2020-02-24
3,في الوردية : يهدد العاملات بسكين ثم يسلبهن,2020-02-24
4,الإعدام شنقا في حق مغتصب وقاتل طفلة الـ7 سنوات...,2020-02-24


In [56]:
corpus_df['raw_doc'] = pd.Series(raw_corpus, index=corpus_df.index)
corpus_df.head(20)

Unnamed: 0,title,date_dt,raw_doc
0,في كافّة الولايات : عصابة تورط حزبا كبيرا في ع...,2020-02-24,
1,تجار ومواطنون يغلقون الطريق المؤدية الى معبر ح...,2020-02-24,
2,بنزرت : الإطاحة بعصابة نفذت عملية سطو على منزل,2020-02-24,
3,في الوردية : يهدد العاملات بسكين ثم يسلبهن,2020-02-24,
4,الإعدام شنقا في حق مغتصب وقاتل طفلة الـ7 سنوات...,2020-02-24,
5,أحكام بين عام و36 سنة سجنا في حق شبكة لتسفير ا...,2020-02-24,
6,في باب بحر : القبض على منحرف محلّ 13 منشور تف...,2020-02-24,
7,"بنزرت : حريق ""يلتهم"" منزلا",2020-02-24,
8,وفاة المدير الجهوي للديوانة بالقصرين في حادث ...,2020-02-24,https://www.assarih.com/a161371--وفاة-المدير-ا...
9,منزل بورقيبة: وفاة عون أمن في حادث مرور,2020-02-23,https://www.assarih.com/a161365-منزل-بورقيبة--...


In [57]:
%time corpus_df['clean_doc'] = corpus_df.raw_doc.map(cleanup_text)
corpus_df.head()

Wall time: 1.1 s


Unnamed: 0,title,date_dt,raw_doc,clean_doc
0,في كافّة الولايات : عصابة تورط حزبا كبيرا في ع...,2020-02-24,,
1,تجار ومواطنون يغلقون الطريق المؤدية الى معبر ح...,2020-02-24,,
2,بنزرت : الإطاحة بعصابة نفذت عملية سطو على منزل,2020-02-24,,
3,في الوردية : يهدد العاملات بسكين ثم يسلبهن,2020-02-24,,
4,الإعدام شنقا في حق مغتصب وقاتل طفلة الـ7 سنوات...,2020-02-24,,


In [58]:
corpus_df.raw_doc[0]

''

In [59]:
corpus_df.clean_doc[0]

''

In [63]:
corpus_df.raw_doc[100]

"https://www.assarih.com/a160989-فلاّح-يستدرج-تلاميذ-بمقابل-مادي-للعمل-في-شبكات-دعارة-..وصور-للابتزاز\ngoogletag.cmd.push(function() { googletag.display('div-gpt-ad-1546942376253-0'); });        علمت الصريح اون لاين ان الوحدات الامنية بتاجروين من ولاية الكاف اطاحت بفلاح ميسور الحال تورط في استدراج اكثر من 5 تلاميذ قصر للعمل معه كوسطاء في شبكات دعارة مقابل مبالغ تتراوح بين 100 دينار و150 دينارا  وقد كلف هذا الفلاح التلاميذ باستقطاب فتيات تلميذات والتوسط معهن للعمل في الشبكة  هذا وقد تعرضت تلميذتان لعمليات ابتزاز من التلاميذ بسبب صور فاضحة تمت قرصنتها من صفحات فايسبوكية.  م.م                    googletag.cmd.push(function() { googletag.display('div-gpt-ad-1546942685971-0'); });"

In [62]:
corpus_df.clean_doc[100]

'علمت الصريح اون لاين ان الوحدات الامنية بتاجروين من ولاية الكاف اطاحت بفلاح ميسور الحال تورط في استدراج اكثر من 5 تلاميذ قصر للعمل معه كوسطاء في شبكات دعارة مقابل مبالغ تتراوح بين 100 دينار و150 دينارا وقد كلف هذا الفلاح التلاميذ باستقطاب فتيات تلميذات والتوسط معهن للعمل في الشبكة هذا وقد تعرضت تلميذتان لعمليات ابتزاز من التلاميذ بسبب صور فاضحة تمت قرصنتها من صفحات فايسبوكية. م.م'

****

In [64]:
corpus_df_filepath = '../metadata/articles_raw_and_clean.pickle'

with open(corpus_df_filepath, 'wb') as f:
    pickle.dump(corpus_df, f)