### Import necessary packages

In [1]:
import os
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
import nlp_helpers as nh

### Load Data

In [2]:
root_path = '../input/ar-dialect-data'
data_path = os.path.join(root_path, 'data_with_text.csv')

In [3]:
data = pd.read_csv(data_path, lineterminator='\n')
data.head()

Unnamed: 0,id,text,dialect
0,1175358310087892992,@Nw8ieJUwaCAAreT لكن بالنهاية .. ينتفض .. يغير .,IQ
1,1175416117793349632,@7zNqXP0yrODdRjK يعني هذا محسوب على البشر .. ح...,IQ
2,1175450108898565888,@KanaanRema مبين من كلامه خليجي,IQ
3,1175471073770573824,@HAIDER76128900 يسلملي مرورك وروحك الحلوه💐,IQ
4,1175496913145217024,@hmo2406 وين هل الغيبه اخ محمد 🌸🌺,IQ


### Steps:

1- **Clean hshtages**

2- **Stemming**

3- **Normalize text**

4- **Keep arabic characters only**

5- **Remove repeated letters**

6- **Tokenization**

7- **Remove stop words**  



### Clean hashtags

In [4]:
# example before cleaning
data['text'][420]

'قالوا قادمون .. چان أحنا نروحلهم\nاذا مو گد السالفة ليش تحچون؟\n #كلمه_لشهداء_العراق https://t.co/33s1ta2JmD'

In [5]:
data['text'] = data['text'].apply(nh.clean_hashtags)

In [6]:
# example after cleaning
data['text'][420]

'قالوا قادمون .. چان أحنا نروحلهم\nاذا مو گد السالفة ليش تحچون؟\n كلمه لشهداء العراق https://t.co/33s1ta2JmD'

### Stemmming
Before stemming, we need to tokenize the data

In [7]:
# tokenization
data['text'] = data['text'].apply(nh.tokenize)

In [8]:
data['text'].head()

0    [@Nw8ieJUwaCAAreT, لكن, بالنهاية, .., ينتفض, ....
1    [@7zNqXP0yrODdRjK, يعني, هذا, محسوب, على, البش...
2                [@KanaanRema, مبين, من, كلامه, خليجي]
3     [@HAIDER76128900, يسلملي, مرورك, وروحك, الحلوه💐]
4            [@hmo2406, وين, هل, الغيبه, اخ, محمد, 🌸🌺]
Name: text, dtype: object

In [9]:
# now, we can stem our data
# it will stem only arabic words
data['text'] = data['text'].apply(nh.stem)

In [10]:
data['text'].head()

0    [@Nw8ieJUwaCAAreT, لكن, نهي, .., نفض, .., يغر, .]
1    [@7zNqXP0yrODdRjK, يعن, هذا, حسب, على, بشر, .....
2                     [@KanaanRema, بين, من, كلم, خلج]
3              [@HAIDER76128900, لمل, رور, ورح, حلوه💐]
4                [@hmo2406, وين, هل, غيب, اخ, حمد, 🌸🌺]
Name: text, dtype: object

### Normalize text
Now, to normalize the text, it is better for text ot bes string instead of list of strings

In [11]:
data['text'] = data['text'].apply(nh.get_one_string)

In [12]:
data['text'][0]

'@Nw8ieJUwaCAAreT لكن نهي .. نفض .. يغر .'

In [13]:
# examples before normalization
print(data['text'][18]) # alef example
print(data['text'][458045]) # hamzah example
print(data['text'][31]) # taa marbotah example
print(data['text'][24]) # alef layennah example

@sfer661 أكل بخر ويه وظف ..
@mimi1562 هنا سؤل اي وحد اقى لكف لو طرق 🙄
@SaleemAldulimi تهل سوت اير مكة ..
@ha m ed كل جمع على قدر عقولها😂


In [14]:
data['text'] = data['text'].apply(nh.normalize_text)

In [15]:
# examples after normalization
print(data['text'][18]) # alef example
print(data['text'][458045]) # hamzah example
print(data['text'][31]) # taa marbotah example
print(data['text'][24]) # alef layennah example

@sfer661 اكل بخر ويه وظف ..
@mimi1562 هنا سءل اي وحد اقي لكف لو طرق 🙄
@SaleemAldulimi تهل سوت اير مكه ..
@ha m ed كل جمع علي قدر عقولها😂


### Remove any non arabic alphabet character

In [16]:
# data before removing, contains english words, emojis, etc.
data['text'].head()

0             @Nw8ieJUwaCAAreT لكن نهي .. نفض .. يغر .
1    @7zNqXP0yrODdRjK يعن هذا حسب علي بشر .. حين وح...
2                           @KanaanRema بين من كلم خلج
3                    @HAIDER76128900 لمل رور ورح حلوه💐
4                        @hmo2406 وين هل غيب اخ حمد 🌸🌺
Name: text, dtype: object

In [17]:
data['text'] = data['text'].apply(nh.clean_doc_arabic)

In [18]:
# data after removing, contains english words, emojis, etc.
data['text'].head()

0                                   لكن نهي  نفض  يغر 
1     يعن هذا حسب علي بشر  حين وحش  طلب من غرب حرم ...
2                                       بين من كلم خلج
3                                     لمل رور ورح حلوه
4                                   وين هل غيب اخ حمد 
Name: text, dtype: object

### Remove repaeated letters

In [19]:
# example before removing
data['text'][443704]

'ااااااءءءءءء  تخر شكل عند قرقاع نطق ثانيه  '

In [20]:
# remove any letter repeated 3 or more times
n = 3
data['text'] = data['text'].apply(nh.remove_repeated, args=(n,))

In [21]:
# example after removing
data['text'][443704]

'اء  تخر شكل عند قرقاع نطق ثانيه  '

### Tokenization

In [22]:
data['text'] = data['text'].apply(nh.tokenize)

In [23]:
data['text'].head()

0                                 [لكن, نهي, نفض, يغر]
1    [يعن, هذا, حسب, علي, بشر, حين, وحش, طلب, من, غ...
2                                  [بين, من, كلم, خلج]
3                                [لمل, رور, ورح, حلوه]
4                              [وين, هل, غيب, اخ, حمد]
Name: text, dtype: object

### Remove stop words

In [24]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [25]:
arabic_stopwords = stopwords.words('arabic')
arabic_stopwords[:10]

['إذ', 'إذا', 'إذما', 'إذن', 'أف', 'أقل', 'أكثر', 'ألا', 'إلا', 'التي']

In [26]:
# before removing stop words we need to remove tashkeel and normalize them
# I converted the result to "set" to remove duplicates after normalization
# also sets are faster than lists in "checking membership"
print('Stop words length before processing:', len(arabic_stopwords))
arabic_stopwords = set(map(nh.remove_tashkeel, arabic_stopwords))
arabic_stopwords = set(map(nh.normalize_text, arabic_stopwords))
print('Stop words length after processing:', len(arabic_stopwords))

Stop words length before processing: 754
Stop words length after processing: 622


In [27]:
# example before removing stopwords
data['text'][0]

['لكن', 'نهي', 'نفض', 'يغر']

In [28]:
data['text'] = data['text'].apply(nh.remove_stopwords, args=(arabic_stopwords,))

In [29]:
# example after removing stopwords
data['text'][0]

['نهي', 'نفض', 'يغر']

In [30]:
nh.save_pickle_file(data, 'preprocessed_data_with_stem.obj')