# Explore corpora

In [1]:
jsc_file = '../corpus/aljazeera.net_20190419_titles.txt'
cnn_file = '../corpus/arabic.cnn.com_20190419_titles.txt'
euro_file  = '../corpus/arabic.euronews.com_20190409_titles.txt'
rt_file = '../corpus/arabic.rt.com_20190419_titles.txt'
bbc_file = '../corpus/bbc.com_20190409_titles.txt'

In [5]:
def load_corpus(file_name):
    text = open(file_name, encoding='utf-8').read().split()
    return text

In [6]:
jsc = load_corpus(jsc_file)

In [7]:
jsc[:10]

['قطر',
 'تشتري',
 'حصة',
 'بشركة',
 'شل',
 'مجلس',
 'الأمن',
 'يبحث',
 'طلب',
 'فلسطين']

In [8]:
word_dict = {}
for word in jsc:
    if word in word_dict:
        word_dict[word] += 1 # update 
    else:
        word_dict[word] = 1 # add 

In [10]:
list(word_dict.items())[:10]

[('قطر', 1618),
 ('تشتري', 141),
 ('حصة', 69),
 ('بشركة', 21),
 ('شل', 63),
 ('مجلس', 417),
 ('الأمن', 693),
 ('يبحث', 249),
 ('طلب', 153),
 ('فلسطين', 264)]

In [11]:
word_dict = {}
for word in jsc:
    word_dict[word] = word_dict.get(word, 0) + 1 

In [12]:
list(word_dict.items())[:10]

[('قطر', 1618),
 ('تشتري', 141),
 ('حصة', 69),
 ('بشركة', 21),
 ('شل', 63),
 ('مجلس', 417),
 ('الأمن', 693),
 ('يبحث', 249),
 ('طلب', 153),
 ('فلسطين', 264)]

In [14]:
def count_words(word_list):
    word_dict = {}
    for word in word_list:
        word_dict[word] = word_dict.get(word, 0) + 1 
    return word_dict

In [15]:
jsc_count = count_words(jsc)

In [16]:
list(word_dict.items())[:10]

[('قطر', 1618),
 ('تشتري', 141),
 ('حصة', 69),
 ('بشركة', 21),
 ('شل', 63),
 ('مجلس', 417),
 ('الأمن', 693),
 ('يبحث', 249),
 ('طلب', 153),
 ('فلسطين', 264)]

In [17]:
cnn_count = count_words(load_corpus(cnn_file))
bbc_count = count_words(load_corpus(bbc_file))
rt_count = count_words(load_corpus(rt_file))
euronews_count = count_words(load_corpus(euro_file))

In [18]:
jsc_count.get('فلسطين')

264

In [19]:
bbc_count.get('فلسطين')

58

In [20]:
rt_count.get('فلسطين')

637

In [21]:
euronews_count.get('فلسطين')

36

In [24]:
sorted(jsc_count.items())[:10]

[('"', 12),
 ('"#آخر_أغنية"..', 3),
 ('"#إسراء_الطويل"..', 3),
 ('"#بنقردان"..', 3),
 ('"#ريهام_ماتت"', 3),
 ('"1', 3),
 ('"122"', 3),
 ('"1948"', 3),
 ('"20', 3),
 ('"23andMe"', 3)]

In [30]:
for key, value in list(jsc_count.items())[:10]:
    print('key: {}\t value: {}'.format(key, value))
    print('value: {}\t key: {}'.format(value, key))
    print('------------------------')

key: قطر	 value: 1618
value: 1618	 key: قطر
------------------------
key: تشتري	 value: 141
value: 141	 key: تشتري
------------------------
key: حصة	 value: 69
value: 69	 key: حصة
------------------------
key: بشركة	 value: 21
value: 21	 key: بشركة
------------------------
key: شل	 value: 63
value: 63	 key: شل
------------------------
key: مجلس	 value: 417
value: 417	 key: مجلس
------------------------
key: الأمن	 value: 693
value: 693	 key: الأمن
------------------------
key: يبحث	 value: 249
value: 249	 key: يبحث
------------------------
key: طلب	 value: 153
value: 153	 key: طلب
------------------------
key: فلسطين	 value: 264
value: 264	 key: فلسطين
------------------------


In [34]:
sorted( [ (v, k) for k,v in jsc_count.items()  ] , reverse=True )[:10]

[(21042, 'في'),
 (10199, 'من'),
 (6902, 'على'),
 (4616, 'مصر'),
 (3732, 'عن'),
 (3335, 'مقتل'),
 (2711, 'قتلى'),
 (2597, 'غزة'),
 (2359, 'مع'),
 (2349, 'إلى')]

In [35]:
def get_most_freq_words(dictionary):
    return sorted( [ (v, k) for k,v in dictionary.items()  ] , reverse=True )

In [36]:
get_most_freq_words(jsc_count)[:10]

[(21042, 'في'),
 (10199, 'من'),
 (6902, 'على'),
 (4616, 'مصر'),
 (3732, 'عن'),
 (3335, 'مقتل'),
 (2711, 'قتلى'),
 (2597, 'غزة'),
 (2359, 'مع'),
 (2349, 'إلى')]

In [37]:
get_most_freq_words(bbc_count)[:10]

[(43957, 'في'),
 (14610, 'على'),
 (14051, 'من'),
 (5865, 'عن'),
 (4184, 'مقتل'),
 (4111, 'إلى'),
 (3648, 'مع'),
 (3423, 'بعد'),
 (2635, 'بين'),
 (2236, 'سوريا')]

In [38]:
get_most_freq_words(rt_count)[:10]

[(119313, 'في'),
 (49560, 'من'),
 (48777, 'على'),
 (20839, 'عن'),
 (20554, 'إلى'),
 (16939, 'روسيا'),
 (16372, 'مع'),
 (9323, 'بعد'),
 (9322, 'الروسية'),
 (8982, 'سوريا')]

In [40]:
get_most_freq_words(cnn_count)[:10]

[(8905, 'في'),
 (6401, 'من'),
 (5167, 'على'),
 (2318, 'عن'),
 (2276, 'بعد'),
 (1937, 'إلى'),
 (1476, 'داعش'),
 (1470, 'لـCNN:'),
 (1433, 'مع'),
 (1172, 'هل')]

In [41]:
get_most_freq_words(euronews_count)[:10]

[(21101, 'في'),
 (8009, 'من'),
 (7730, 'على'),
 (3033, 'مع'),
 (2753, 'إلى'),
 (2701, 'شاهد:'),
 (2663, 'بعد'),
 (2550, 'عن'),
 (1725, 'ترامب'),
 (1321, 'السعودية')]

In [43]:
# Hepax words 
get_most_freq_words(euronews_count)[-20:]

[(1, '"full'),
 (1, '"Rio"'),
 (1, '"Galaxy'),
 (1, '"GRU"...أقوى'),
 (1, '"G5"؟'),
 (1, '"FBI"'),
 (1, '"Becoming"'),
 (1, '"Airpods"'),
 (1, '"95٪'),
 (1, '"798"'),
 (1, '"777"'),
 (1, '"50'),
 (1, '"5'),
 (1, '"400'),
 (1, '"24'),
 (1, '"20'),
 (1, '"173'),
 (1, '"120'),
 (1, '"105'),
 (1, '!!')]

In [44]:
get_most_freq_words(jsc_count)[-20:]

[(2, 'الطمث'),
 (2, 'الصرع؟\u202c'),
 (2, 'السري'),
 (2, 'الدباغ:'),
 (2, 'الخراف'),
 (2, 'الجولة'),
 (2, 'الإقبال'),
 (2, 'الأولى:'),
 (2, 'إنهاك'),
 (2, 'إنسانية"'),
 (2, 'إن8"'),
 (2, 'أيدوا'),
 (2, 'ألاسكا'),
 (2, 'أفنيري'),
 (2, 'أحمر"'),
 (2, '57%'),
 (2, '22950'),
 (2, '"لول"..'),
 (2, '"بتموجي"'),
 (1, 'المقابلات')]

In [45]:
get_most_freq_words(rt_count)[-20:]

[(1, '"67'),
 (1, '"4D"'),
 (1, '"4000"'),
 (1, '"40'),
 (1, '"3D'),
 (1, '"30'),
 (1, '"25"'),
 (1, '"243'),
 (1, '"23'),
 (1, '"2050"'),
 (1, '"201"'),
 (1, '"15"'),
 (1, '"138"'),
 (1, '"100"'),
 (1, '"..اللقطات'),
 (1, '"-\u202dAA\u202c"'),
 (1, '"#votrejob"'),
 (1, '"#MeToo"'),
 (1, '""ترانس'),
 (1, '!؟')]

In [47]:
get_most_freq_words(cnn_count)[-30:]

[(1, '"31'),
 (1, '"25"'),
 (1, '"22'),
 (1, '"209"'),
 (1, '"15"'),
 (1, '"123456"'),
 (1, '"12'),
 (1, '"1174’"'),
 (1, '"11'),
 (1, '"(أنا'),
 (1, '"#هوشه_مستشفى_المملكة"'),
 (1, '"#نفرتيتي"'),
 (1, '"#ليش_قتلوه"'),
 (1, '"#قول_كلمه_لقطر"..'),
 (1, '"#ضرب_مصاب_بمتلازمه_داون"..'),
 (1, '"#شيرين_عبدالوهاب"'),
 (1, '"#ريهام_ماتت"'),
 (1, '"#حوار_المستقبل"'),
 (1, '"#الانتفاضة_انطلقت"..'),
 (1, '"#اكتشاف_اكبر_حقل_غاز_بمصر"'),
 (1, '"#اقعدي_يا_هند"'),
 (1, '"#اقعدي_يا_احلام"'),
 (1, '"#اطردو_الشيعه_من_الخليج"'),
 (1, '"#استقالة_حكومة_محلب"'),
 (1, '"#احنا_متراقبين"..'),
 (1, '"#إيران_تشتعل"..'),
 (1, '"#BoycottBeyonce"؟'),
 (1, '""يا'),
 (1, '""آير'),
 (1, '!!"')]

In [48]:
get_most_freq_words(bbc_count)[-30:]

[(1, '"#عاوز_أهاجر_علشان"'),
 (1, '"#عادل_الجبير_يهدد_أوباما"'),
 (1, '"#طمبق_مستغل_الاطفال_جنسيا"'),
 (1, '"#طحن_مو"'),
 (1, '"#طالبي_بحقك"...'),
 (1, '"#ضابط_سعودي_يترك_الاسلامِ"'),
 (1, '"#شهيدات_القفة'),
 (1, '"#ذي_فويس_كيدز"'),
 (1, '"#دواعش_يقتلون_والدهم"'),
 (1, '"#داعش_البحرين"'),
 (1, '"#حلب_تناديكم"..'),
 (1, '"#حلب_تحترق"'),
 (1, '"#حراك_15سبتمبر"'),
 (1, '"#تهجير_الأقباط"'),
 (1, '"#تطاول_الوافدين_علي_صفاء_الهاشم":'),
 (1, '"#تسريب_شفيق"'),
 (1, '"#تحت_الضغط"'),
 (1, '"#المعده_القطريه"'),
 (1, '"#القبض_علي_خلايا_استخباراتيه"'),
 (1, '"#السعودية_دولة_جمال_وخيم"'),
 (1, '"#الخامس_جويليه_كن_جزايريا"'),
 (1, '"#الحريه_لنهى_البلوي"'),
 (1, '"#الأمم_المتحدة'),
 (1, '"#ارتفاع_الاسعار_المتصاعد'),
 (1, '"#إغلاق_مسجد_الأقصى"'),
 (1, '"#أول_رخصة_قيادة_نسائية'),
 (1, '"#أوامر_الملكية"'),
 (1, '"#أنا'),
 (1, '"#أمير_يعتدي_على_مواطنين"'),
 (1, '!!')]

In [None]:
# normalization 
#  رخصة ؟ ====  رخصة؟
# رخصة

In [49]:
import re 

In [55]:
line = 'رخصة قيادة رخصة؟ رخصة. رخصة!'

In [58]:
line.split()

['رخصة', 'قيادة', 'رخصة؟', 'رخصة.', 'رخصة!']

In [57]:
line.split().count('رخصة')

1

In [59]:
line = re.sub(r"([?.!,؟])", r" \1 ", line)

In [60]:
line

'رخصة قيادة رخصة ؟  رخصة .  رخصة ! '

In [61]:
line.split().count('رخصة')

4