In [1]:
# importing libraries
import pandas as pd
import numpy as np
import re
from farasa.segmenter import FarasaSegmenter
from camel_tools.tokenizers.word import simple_word_tokenize

In [2]:
%%time
# import dataset as local pandas dataframe
df_unique = pd.read_csv('/Users/richard/Desktop/data_cap3/interim/df_unique_tweets_hashtags_reset_index.csv',
                        index_col=0)

  mask |= (ar1 == a)


CPU times: user 28.4 s, sys: 23.5 s, total: 51.9 s
Wall time: 1min 34s


In [3]:
df_unique.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6153341 entries, 0 to 6153340
Data columns (total 2 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   tweet_text  object
 1   hashtags    object
dtypes: object(2)
memory usage: 140.8+ MB


In [4]:
df_unique.shape

(6153341, 2)

In [5]:
df_unique.head()

Unnamed: 0,tweet_text,hashtags
0,السلام عليكم ورحمة الله وبركاته مرحبا عملاء م...,
1,للتأجير لبيع النطيطات زحاليق مائيه صابونية مل...,"[' للتأجير', ' لبيع النطيطات', ' زحاليق مائيه ..."
2,مظلات وسواتر آفاق الرياض مظلات استراحات مظلات...,"[' مظلات', ' آفاق الرياض', ' مظلات استراحات', ..."
3,فيديو شاهد مواطن يوثق بالفيديو كميات كبيرة من...,
4,أستغفر الله العظيم وأتوب إليه,


# Trying out CAMeL

## 2. Morphological Tokenizer

In [6]:
# get subset to work with
df_sample = df_unique.iloc[5579924:5580924].copy()
df_sample.head()

Unnamed: 0,tweet_text,hashtags
5579924,يياااااااارب ســوره بالتـــوفيــــــق يــــار...,[' اوقاف القران']
5579925,اي منهجيه ايها المرتشين المشبوهيين رد الخارجي...,
5579926,تم يااااااارب ســوره بالتـــوفيــــــق يــــا...,[' اوقاف القران']
5579927,تابعو الصحفة الإنجليزية لوزارة الخارجية على ا...,
5579928,بالصور صحراء كبياض الثلج وجبال غريبة الشكل في...,[' العربية']


In [7]:
df_sample.shape

(1000, 2)

TO DO

0. Remove repeated characters
1. Orthographic Normalization: account for spelling inconsistencies
2. Dediacritization
3. Morphological Analysis
4. Morphological Disambiguation
5. Tokenization
6. Dialiect Identification
7. Sentiment Analysis

### 0. Remove Repeating Characters

In [8]:
def remove_repeating_char(text):
    return re.sub(r'(.)\1+', r'\1', text)

In [9]:
remove_repeating_char(df_sample.iloc[0].tweet_text)

' يارب سـوره بالتـوفيـق يـارب اوقاف القران'

In [10]:
df_sample.tweet_text = df_sample.tweet_text.apply(remove_repeating_char)

In [11]:
df_sample.head()

Unnamed: 0,tweet_text,hashtags
5579924,يارب سـوره بالتـوفيـق يـارب اوقاف القران,[' اوقاف القران']
5579925,اي منهجيه ايها المرتشين المشبوهين رد الخارجيه...,
5579926,تم يارب سـوره بالتـوفيـق يـارب اوقاف القران,[' اوقاف القران']
5579927,تابعو الصحفة الإنجليزية لوزارة الخارجية على ا...,
5579928,بالصور صحراء كبياض الثلج وجبال غريبة الشكل في...,[' العربية']


### 1. Orthographic Normalization
Normalizing spellings to account for inconsistencies across dialects and common spelling 'mistakes'. This will reduce data sparsity.

In [12]:
from camel_tools.utils.normalize import normalize_alef_maksura_ar
from camel_tools.utils.normalize import normalize_alef_ar
from camel_tools.utils.normalize import normalize_teh_marbuta_ar

In [13]:
def ortho_normalize(text):
    text = normalize_alef_maksura_ar(text)
    text = normalize_alef_ar(text)
    text = normalize_teh_marbuta_ar(text)
    return text

In [14]:
df_sample.tweet_text = df_sample.tweet_text.apply(ortho_normalize)

In [15]:
df_sample.tweet_text.head()

5579924             يارب سـوره بالتـوفيـق يـارب اوقاف القران
5579925     اي منهجيه ايها المرتشين المشبوهين رد الخارجيه...
5579926          تم يارب سـوره بالتـوفيـق يـارب اوقاف القران
5579927     تابعو الصحفه الانجليزيه لوزاره الخارجيه علي ا...
5579928     بالصور صحراء كبياض الثلج وجبال غريبه الشكل في...
Name: tweet_text, dtype: object

### 2. Dediacritization
Removing diacritics, again to reduce data sparsity.

In [16]:
from camel_tools.utils.dediac import dediac_ar

In [17]:
df_sample.tweet_text = df_sample.tweet_text.apply(dediac_ar)

In [18]:
df_sample.tweet_text.head()

5579924                 يارب سوره بالتوفيق يارب اوقاف القران
5579925     اي منهجيه ايها المرتشين المشبوهين رد الخارجيه...
5579926              تم يارب سوره بالتوفيق يارب اوقاف القران
5579927     تابعو الصحفه الانجليزيه لوزاره الخارجيه علي ا...
5579928     بالصور صحراء كبياض الثلج وجبال غريبه الشكل في...
Name: tweet_text, dtype: object

### 3. Morphological Analysis
Arabic has a very rich inflectional system. A verb could have up to 5400 inflections (compared to 6 in English and 1 in Chinese). So...what does a word mean? Especially when stripped of its diacritics?

Perform analysis against morphological database to get all possible meanings. And then select one.

In [19]:
from camel_tools.morphology.database import MorphologyDB
from camel_tools.morphology.analyzer import Analyzer

In [None]:
# First, we need to load a morphological database.
# Here, we load the default database which is used for analyzing
# Modern Standard Arabic. 
db = MorphologyDB.builtin_db()

analyzer = Analyzer(db)

analyses = analyzer.analyze('سيحاسب')

for analysis in analyses:
    print(analysis, '\n')

This only works per single word. For our purposes, better to just select the first analysis (analyses are sorted from most likely to least likely) and perform Morphological Disambiguation.

### 4a. Simple Word Tokenize

In [20]:
from camel_tools.tokenizers.word import simple_word_tokenize

First, let's split the instances of يارب and insert a whitespace in between them so that it's tokenized properly.

In [21]:
sentence = ' يارب سوره بالتوفيق يارب اوقاف القران'
sentence

' يارب سوره بالتوفيق يارب اوقاف القران'

In [22]:
yarab = 'يارب'
ya_rab = 'يا رب'

In [23]:
sentence.replace(yarab, ya_rab)

' يا رب سوره بالتوفيق يا رب اوقاف القران'

In [24]:
def split_yarab(text):
    text = text.replace(yarab, ya_rab)
    return text

In [25]:
df_sample.tweet_text = df_sample.tweet_text.apply(split_yarab)

In [26]:
simple_word_tokenize(split_yarab(df_sample.tweet_text.iloc[0]))

['يا', 'رب', 'سوره', 'بالتوفيق', 'يا', 'رب', 'اوقاف', 'القران']

In [27]:
df_sample.tweet_text.iloc[0]

' يا رب سوره بالتوفيق يا رب اوقاف القران'

In [28]:
df_sample.tweet_text = df_sample.tweet_text.apply(simple_word_tokenize)

In [29]:
df_sample.head()

Unnamed: 0,tweet_text,hashtags
5579924,"[يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, القران]",[' اوقاف القران']
5579925,"[اي, منهجيه, ايها, المرتشين, المشبوهين, رد, ال...",
5579926,"[تم, يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, ال...",[' اوقاف القران']
5579927,"[تابعو, الصحفه, الانجليزيه, لوزاره, الخارجيه, ...",
5579928,"[بالصور, صحراء, كبياض, الثلج, وجبال, غريبه, ال...",[' العربية']


Something is going wrong here with the tokenization of "ya rab". That should tokenize to two tokens but isn't because there is no whitespace. This is causing trouble further down the line where "yarab" is then incorrectly disambiguated. 

I can resolve this by finding instances of "yarab" and inserting a whitespace in between. 

SOLVED.

### 4. Morphological Disambiguation

In [30]:
from camel_tools.disambig.mle import MLEDisambiguator

In [31]:
# instantiate the Maximum Likelihood Disambiguator
mle = MLEDisambiguator.pretrained()

In [32]:
# The disambiguator expects pre-tokenized text
sentence = simple_word_tokenize('نجح بايدن في الانتخابات')

disambig = mle.disambiguate(sentence)

# For each disambiguated word d in disambig, d.analyses is a list of analyses
# sorted from most likely to least likely. Therefore, d.analyses[0] would
# be the most likely analysis for a given word. Below we extract different
# features from the top analysis of each disambiguated word into seperate lists.
diacritized = [d.analyses[0].analysis['diac'] for d in disambig]
pos_tags = [d.analyses[0].analysis['pos'] for d in disambig]
lemmas = [d.analyses[0].analysis['lex'] for d in disambig]

# Print the combined feature values extracted above
for triplet in zip(diacritized, pos_tags, lemmas):
    print(triplet)

('نَجَحَ', 'verb', 'نَجَح-a_1')
('بايدن', 'noun_prop', 'بايدن_0')
('فِي', 'prep', 'فِي_1')
('الاِنْتِخاباتِ', 'noun', 'ٱِنْتِخاب_1')


The above example from the CAMeL documentation works perfectly.

Let's now adapt so that we can get just the lemmas.

In [33]:
def get_lemmas(tokenized_text):
    disambig = mle.disambiguate(tokenized_text)
    lemmas = [d.analyses[0].analysis['lex'] for d in disambig]
    return lemmas

In [34]:
df_sample['lemmas'] = df_sample.tweet_text.apply(get_lemmas)

In [35]:
df_sample.head()

Unnamed: 0,tweet_text,hashtags,lemmas
5579924,"[يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, القران]",[' اوقاف القران'],"[يا_1, رَبّ_1, سُور_1, تَوْفِيق_1, يا_1, رَبّ_..."
5579925,"[اي, منهجيه, ايها, المرتشين, المشبوهين, رد, ال...",,"[أَيّ_1, مَنْهَج_1, أَيُّها_1, المرتشين_0, مَش..."
5579926,"[تم, يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, ال...",[' اوقاف القران'],"[تَمّ-i_1, يا_1, رَبّ_1, سُور_1, تَوْفِيق_1, ي..."
5579927,"[تابعو, الصحفه, الانجليزيه, لوزاره, الخارجيه, ...",,"[تابِع_1, صَحْفَة_1, إِنْجلِيزِيّ_1, وِزارَة_1..."
5579928,"[بالصور, صحراء, كبياض, الثلج, وجبال, غريبه, ال...",[' العربية'],"[صُورَة_1, صَحْراء_2, بَياض_1, ثَلْج_1, جَبَل_..."


In [36]:
df_sample[['tweet_text', 'lemmas']].head()

Unnamed: 0,tweet_text,lemmas
5579924,"[يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, القران]","[يا_1, رَبّ_1, سُور_1, تَوْفِيق_1, يا_1, رَبّ_..."
5579925,"[اي, منهجيه, ايها, المرتشين, المشبوهين, رد, ال...","[أَيّ_1, مَنْهَج_1, أَيُّها_1, المرتشين_0, مَش..."
5579926,"[تم, يا, رب, سوره, بالتوفيق, يا, رب, اوقاف, ال...","[تَمّ-i_1, يا_1, رَبّ_1, سُور_1, تَوْفِيق_1, ي..."
5579927,"[تابعو, الصحفه, الانجليزيه, لوزاره, الخارجيه, ...","[تابِع_1, صَحْفَة_1, إِنْجلِيزِيّ_1, وِزارَة_1..."
5579928,"[بالصور, صحراء, كبياض, الثلج, وجبال, غريبه, ال...","[صُورَة_1, صَحْراء_2, بَياض_1, ثَلْج_1, جَبَل_..."


In [37]:
df_sample.lemmas.iloc[0]

['يا_1',
 'رَبّ_1',
 'سُور_1',
 'تَوْفِيق_1',
 'يا_1',
 'رَبّ_1',
 'وَقْف_2',
 'قُرْآن_1']

In [38]:
df_sample.lemmas.iloc[0][2]

'سُور_1'

Great. We now have tokenized lemmas.

### 4b. Alternative Tokenization

In [39]:
from camel_tools.tokenizers.morphological import MorphologicalTokenizer

Below, we will instantiate and define the tokenizer. There are many different schemes we can use to tokenize the text: e.g. separate tokens for prefixes and suffixes for example.

Below is a list of accepted tokenization schemes.

In [40]:
MorphologicalTokenizer.scheme_set()

frozenset({'atbseg',
           'atbtok',
           'bwtok',
           'd1seg',
           'd1tok',
           'd2seg',
           'd2tok',
           'd3seg',
           'd3tok'})

In [41]:
print('يارب سوره بالتوفيق يارب اوقاف القران')

يارب سوره بالتوفيق يارب اوقاف القران


In [42]:
df_sample.tweet_text.iloc[0]

['يا', 'رب', 'سوره', 'بالتوفيق', 'يا', 'رب', 'اوقاف', 'القران']

In [43]:
# atbseg scheme
tokenizer = MorphologicalTokenizer(mle, scheme='atbseg')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سور_+ه', 'ب+_التوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [44]:
# atbtok scheme
tokenizer = MorphologicalTokenizer(mle, scheme='atbtok')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سور_+ه', 'ب+_التوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [45]:
# bwtok scheme
tokenizer = MorphologicalTokenizer(mle, scheme='bwtok')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سور_+ه', 'ب+_ال+_توفيق', 'يا', 'رب', 'أوقاف', 'ال+_قرآن']


In [46]:
# d1seg scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d1seg')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سوره', 'بالتوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [47]:
# d1tok scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d1tok')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سوره', 'بالتوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [48]:
# d2seg scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d2seg')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سوره', 'ب+_التوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [49]:
# d2tok scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d2tok')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سوره', 'ب+_التوفيق', 'يا', 'رب', 'أوقاف', 'القرآن']


In [50]:
# d3seg scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d3seg')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سور_+ه', 'ب+_ال+_توفيق', 'يا', 'رب', 'أوقاف', 'ال+_قرآن']


In [51]:
# d3tok scheme
tokenizer = MorphologicalTokenizer(mle, scheme='d3tok')
tokens = tokenizer.tokenize(df_sample.tweet_text.iloc[0])
print(tokens)

['يا', 'رب', 'سور_+ه', 'ب+_ال+_توفيق', 'يا', 'رب', 'أوقاف', 'ال+_قرآن']


In [52]:
get_lemmas(df_sample.tweet_text.iloc[0])

['يا_1',
 'رَبّ_1',
 'سُور_1',
 'تَوْفِيق_1',
 'يا_1',
 'رَبّ_1',
 'وَقْف_2',
 'قُرْآن_1']

I think lemma's might be the preferred way to go here because we are doing Topic Modelling and the roots/lemma's give us the highest-level grouping of similar words.

Alternatively, we could save df_unique with different tokenizations and do some trial/error testing to see which tokenization gives the best result. That's the advice of Dr. Habash (Director of CAMeL Lab)

# Preprocessing function

In [None]:
import unicodedata as ud
from nltk.stem.isri import ISRIStemmer
from ar_wordcloud import ArabicWordCloud

In [56]:
# define stopwords
with open('/Users/richard/Desktop/springboard_repo/capstones/three/supporting_files/arabic-stopwords.txt', 'r') as file:
    stopwords = file.read()
    
print(stopwords)

،
ء
ءَ
آ
آب
آذار
آض
آل
آمينَ
آناء
آنفا
آه
آهاً
آهٍ
آهِ
أ
أبدا
أبريل
أبو
أبٌ
أجل
أجمع
أحد
أخبر
أخذ
أخو
أخٌ
أربع
أربعاء
أربعة
أربعمئة
أربعمائة
أرى
أسكن
أصبح
أصلا
أضحى
أطعم
أعطى
أعلم
أغسطس
أفريل
أفعل به
أفٍّ
أقبل
أكتوبر
أل
ألا
ألف
ألفى
أم
أما
أمام
أمامك
أمامكَ
أمد
أمس
أمسى
أمّا
أن
أنا
أنبأ
أنت
أنتم
أنتما
أنتن
أنتِ
أنشأ
أنه
أنًّ
أنّى
أهلا
أو
أوت
أوشك
أول
أولئك
أولاء
أولالك
أوّهْ
أى
أي
أيا
أيار
أيضا
أيلول
أين
أيّ
أيّان
أُفٍّ
ؤ
إحدى
إذ
إذا
إذاً
إذما
إذن
إزاء
إلى
إلي
إليكم
إليكما
إليكنّ
إليكَ
إلَيْكَ
إلّا
إمّا
إن
إنَّ
إى
إياك
إياكم
إياكما
إياكن
إيانا
إياه
إياها
إياهم
إياهما
إياهن
إياي
إيهٍ
ئ
ا
ا?
ا?ى
االا
االتى
ابتدأ
ابين
اتخذ
اثر
اثنا
اثنان
اثني
اثنين
اجل
احد
اخرى
اخلولق
اذا
اربعة
اربعون
اربعين
ارتدّ
استحال
اصبح
اضحى
اطار
اعادة
اعلنت
اف
اكثر
اكد
الآن
الألاء
الألى
الا
الاخيرة
الان
الاول
الاولى
التى
التي
الثاني
الثانية
الحالي
الذاتي
الذى
الذي
الذين
السابق
الف
اللاتي
اللتان
اللتيا
اللتين
اللذان
اللذين
اللواتي
الماضي
المقبل
الوقت
الى
الي
اليه
اليها
اليوم
اما
امام
امس
امسى
ان
انبرى
انقلب
انه
انها

In [None]:
# remove stopwords and all characters that are not arabic letters or # numbers and lemmatize the words
# source: https://hajar-iba.medium.com/camel-tools-a-python-toolkit-for-arabic-nlp-ba9f1d2e8cb7
def preprocess_ar(text):
    processedText = []
    
    # Create Lemmatizer and Stemmer.
    st = ISRIStemmer()
    
    for t in text:
        t = ''.join(c for c in t if ud.category(c) == 'Lo' or ud.category(c) == 'Nd' or c == ' ')
commentwords = ''
        for word in t.split():
            # Checking if the word is a stopword.
            if word not in stopwords :
                if len(word)>1:
                    # Lemmatizing the word.
                    word = st.suf32(word)
                    commentwords += (word+' ')
    processedText.append(commentwords)
    
    return processedText