In [1]:
import pandas as pd
import numpy as np
import re
import regex 

In [2]:
arabic_dialect = pd.read_csv('arabic_dialect.csv')

In [3]:
arabic_dialect.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458197 entries, 0 to 458196
Data columns (total 3 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   id       458197 non-null  int64 
 1   dialect  458197 non-null  object
 2   tweets   458197 non-null  object
dtypes: int64(1), object(2)
memory usage: 10.5+ MB


In [4]:
arabic_dialect.head()

Unnamed: 0,id,dialect,tweets
0,1175358310087892992,IQ,@Nw8ieJUwaCAAreT لكن بالنهاية .. ينتفض .. يغير .
1,1175416117793349632,IQ,@7zNqXP0yrODdRjK يعني هذا محسوب على البشر .. ح...
2,1175450108898565888,IQ,@KanaanRema مبين من كلامه خليجي
3,1175471073770573824,IQ,@HAIDER76128900 يسلملي مرورك وروحك الحلوه💐
4,1175496913145217024,IQ,@hmo2406 وين هل الغيبه اخ محمد 🌸🌺


**Map the values of dialect column to be numbers for the model training stage** 

In [5]:
arabic_dialect.dialect.value_counts()

EG    57636
PL    43742
KW    42109
LY    36499
QA    31069
JO    27921
LB    27617
SA    26832
AE    26296
BH    26292
OM    19116
SY    16242
DZ    16183
IQ    15497
SD    14434
MA    11539
YE     9927
TN     9246
Name: dialect, dtype: int64

In [6]:
arabic_dialect.dialect.unique()

array(['IQ', 'LY', 'QA', 'PL', 'SY', 'TN', 'JO', 'MA', 'SA', 'YE', 'DZ',
       'EG', 'LB', 'KW', 'OM', 'SD', 'AE', 'BH'], dtype=object)

In [7]:
dialects = {'IQ':1, 'LY':2, 'QA':3, 'PL':4, 'SY':5, 'TN':6, 'JO':7,
            'MA':8, 'SA':9, 'YE':10, 'DZ':11,'EG':12, 'LB':13, 'KW':14,
            'OM':15, 'SD':16, 'AE':17, 'BH':18}
arabic_dialect.dialect = arabic_dialect.dialect.map(dialects)

In [8]:
arabic_dialect.head()

Unnamed: 0,id,dialect,tweets
0,1175358310087892992,1,@Nw8ieJUwaCAAreT لكن بالنهاية .. ينتفض .. يغير .
1,1175416117793349632,1,@7zNqXP0yrODdRjK يعني هذا محسوب على البشر .. ح...
2,1175450108898565888,1,@KanaanRema مبين من كلامه خليجي
3,1175471073770573824,1,@HAIDER76128900 يسلملي مرورك وروحك الحلوه💐
4,1175496913145217024,1,@hmo2406 وين هل الغيبه اخ محمد 🌸🌺


**Removing user names in the tweets** 

In [9]:
def remove_usernames_links(tweet):
    tweet = re.sub('@[^\s]+','',tweet)
    tweet = re.sub('http[^\s]+','',tweet)
    return tweet
arabic_dialect.tweets = arabic_dialect.tweets.apply(remove_usernames_links)

In [10]:
arabic_dialect.tweets

0                           لكن بالنهاية .. ينتفض .. يغير .
1          يعني هذا محسوب على البشر .. حيونه ووحشيه .. و...
2                                       مبين من كلامه خليجي
3                                يسلملي مرورك وروحك الحلوه💐
4                                 وين هل الغيبه  اخ محمد 🌸🌺
                                ...                        
458192                            مبسوطين منك اللي باسطانا😅
458193                                والله ماينده ابش يختي
458194     شو عملنا لك حنا تهربي مننا احنا مساكين ليش بت...
458195                        الله يبارك فيها وبالعافيه 😋😋😋
458196                       السحله ضيفي ي بتطلع لك سحليه😅😅
Name: tweets, Length: 458197, dtype: object

**Removing emojis in the tweets** 

In [11]:
def removeEmoji(text):
    regrex_pattern = re.compile(pattern =  "["
    "\U0001F1E0-\U0001F1FF"  # flags (iOS)
    "\U0001F300-\U0001F5FF"  # symbols & pictographs
    "\U0001F600-\U0001F64F"  # emoticons
    "\U0001F680-\U0001F6FF"  # transport & map symbols
    "\U0001F700-\U0001F77F"  # alchemical symbols
    "\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
    "\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
    "\U0001FA00-\U0001FA6F"  # Chess Symbols
    "\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
    "\U00002702-\U000027B0"  # Dingbats
    "\U000024C2-\U0001F251" 
    "]+", flags = re.UNICODE)
    return regrex_pattern.sub(r'',text)

arabic_dialect.tweets = arabic_dialect.tweets.apply(removeEmoji)

In [12]:
arabic_dialect.tweets

0                           لكن بالنهاية .. ينتفض .. يغير .
1          يعني هذا محسوب على البشر .. حيونه ووحشيه .. و...
2                                       مبين من كلامه خليجي
3                                 يسلملي مرورك وروحك الحلوه
4                                   وين هل الغيبه  اخ محمد 
                                ...                        
458192                             مبسوطين منك اللي باسطانا
458193                                والله ماينده ابش يختي
458194     شو عملنا لك حنا تهربي مننا احنا مساكين ليش بت...
458195                           الله يبارك فيها وبالعافيه 
458196                         السحله ضيفي ي بتطلع لك سحليه
Name: tweets, Length: 458197, dtype: object

**Tokenize the tweets**

In [13]:
#tokenization
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\laptop\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [14]:
def tokenize_tweet (text):
    text = text.replace(',','').replace('.','')
    return  word_tokenize(text) 
    
arabic_dialect.tweets = arabic_dialect.tweets.apply(tokenize_tweet)

In [15]:
arabic_dialect.head()

Unnamed: 0,id,dialect,tweets
0,1175358310087892992,1,"[لكن, بالنهاية, ينتفض, يغير]"
1,1175416117793349632,1,"[يعني, هذا, محسوب, على, البشر, حيونه, ووحشيه, ..."
2,1175450108898565888,1,"[مبين, من, كلامه, خليجي]"
3,1175471073770573824,1,"[يسلملي, مرورك, وروحك, الحلوه]"
4,1175496913145217024,1,"[وين, هل, الغيبه, اخ, محمد]"


**Shuffle the dataset to use it in the modeling step**

In [16]:
final_dataset = arabic_dialect.sample(frac=1, random_state=1).reset_index()
final_dataset.head()

Unnamed: 0,index,id,dialect,tweets
0,297423,934055133171912832,12,"[سؤال, بس, لمن, يفهم, بتوتر, هما, الناس, الي, ..."
1,106161,1171407436814721024,4,"[هادا, الصحن, تخصصه, حمص, و, فول, كيف, حاطين, ..."
2,170315,1054942138985791616,7,"[رايحه, اداوم, بدون, نوم, صباح, الخير]"
3,34373,863396710063722496,2,"[انا, من, السبعة, الصبح, للواحد, الظهر]"
4,443855,721682683580039168,18,"[الخبر, الصحيح, وعلى, وجه, الدقة, شوهد, حامل, ..."


In [18]:
final_dataset.to_csv('final_dataset.csv', header=True, index=False)