In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import re

In [None]:
df = pd.read_csv('/content/drive/MyDrive/dialects_data.csv', sep='\t', encoding='utf-8-sig', engine='python')

In [None]:
pd.options.display.max_colwidth = 1000

In [None]:
df.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,@toha_Altomy @gy_yah قليلين ادب ومنافقين. لو اختهم او قريبتهم تتعاكس تقولي عليهم من نشاط حقوق المرأة من ردة فعلهم.,LY
1,1009794751548313600,@AlmFaisal 😂😂 الليبيين متقلبين!!!\nبس بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,@smsm071990 @ALMOGRBE كل 20 تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها غير كل البنات وبيحس كأنه يعرفها من زمان. بعدين يتزوج وحدة منهن وممكن اثنين ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب\nand they live happily ever after\nذي اند,LY
3,1035479791758135168,@AboryPro @lyranoo85 رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم هو انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ولا ام ولا خوت ولا خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت هي بس لازم ادير الف حساب للراجل؟ هي متستحقش يندارلها الف حساب ولا هي عبدة؟,LY
4,1035481122921164800,@lyranoo85 شكلك متعقدة علشان الراجل لي تحبيه ازوج بنت يتيمة ولا بنت معندهش خوت. هدي اعصابك وفكينا من التخلف امتاعك,LY
5,877881537122979840,@alibobkr63 او حتى من اي دين او طائفة. اسف ممكن الغلط غلطتي بس مكنش قصدي,LY
6,882940840888471552,@muhamed01111 باهي نستنوه. بلكي مشغول ولا حاجة,LY
7,882941769444466688,@muhamed01111 مهما اختلفنا راه نحنا خوت. والله ما عندي عدا على واحد. انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخرى الفرحانة. ربي يفرجها عليك وعلينا كلنا,LY
8,882943694906818560,@muhamed01111 بالنسبة ليا انا والله شبعت هم ونكد وقتل ودم والحقد. الله يهدينا جميعا,LY
9,884736569118261248,@Ajo32asLibya @Jed_ly مو نحنا الحياة عندنا مية في مية ومعندش شي اندكوا راسنا فيه الا لبس الشورتات.\nتخلف,LY


# Data preprocessing

## We can see here that we need to remove the user names,punctuations, emojis , Numbers and \n

In [None]:
df_copy = df.copy()

In [None]:
def first_preprocessing(text):

    text = re.sub(r'@\w+', '', text)            # usernames
    text = re.sub(r'\d+', '', text)             # numbers
    text = text.replace('\n', ' ')              # \n
    return text

In [None]:
df_copy['text'] = df_copy['text'].apply(first_preprocessing)

In [None]:
df_copy.tail(10)

Unnamed: 0,id,text,dialect
147715,989099154038317056,دا ضرب ام عضم الشيطان الكبير زاتو في مكه تقول لي شنو 😂😂 تقول لي منو 😂😂 https://t.co/jevvRrNP,SD
147716,972044323792416768,انت المستوي تبعك قونة تعلمك من الألف الي الياء 😂😂😂😂😂,SD
147717,999104021620297600,رابطة شنو نعملها منظمه عديل ياعمك وموضوع منتهي ✌️,SD
147718,980217644858126336,ينفخو الجن شاحد ربي,SD
147719,975084495350255616,مالقيت صراف اعمل شنو 😂😂😂 #لقيت_صراف,SD
147720,982775354405376000,الناس دي بتنفخ في قربة مقدودة بالدارجي كده البلد دي لو ما الكيزان ديل راحو مافي حياه شريفه في البلد دي لان سبب الفساد والمصائب الموجودة #التطلع_لسودان_افضل,SD
147721,980728852224860160,انت عايش وين بره السودان ولا شنو ماشايف البحصل دا,SD
147722,975502734668500992,مااحرم نفسي ميسي حريف ولعاب برضو .. مدريدي وافتخر 🇪🇸,SD
147723,980207908641263616,ياخي ديل ماخلو للشيطان وإبليس شي لكن يروحو وين من ربنا ونحن وراك وراك ياكوز ياعفن الأيام معدوده خلاص #تعرف_علي_الكيزان,SD
147724,981080482380238848,النبي فيك صدمتني ياخي عاوز تعويض,SD


# removing emojis

In [None]:
emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  
        u"\U0001F300-\U0001F5FF"  
        u"\U0001F680-\U0001F6FF"  
        u"\U0001F1E0-\U0001F1FF"  
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)

In [None]:
def removing_emojis(text):
  text = emoji_pattern.sub(r'', text)
  return text

In [None]:
df_copy['text'] = df_copy['text'].apply(removing_emojis)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين. لو اختهم او قريبتهم تتعاكس تقولي عليهم من نشاط حقوق المرأة من ردة فعلهم.,LY
1,1009794751548313600,الليبيين متقلبين!!! بس بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,كل تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها غير كل البنات وبيحس كأنه يعرفها من زمان. بعدين يتزوج وحدة منهن وممكن اثنين ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب and they live happily ever after ذي اند,LY
3,1035479791758135168,رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم هو انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ولا ام ولا خوت ولا خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت هي بس لازم ادير الف حساب للراجل؟ هي متستحقش يندارلها الف حساب ولا هي عبدة؟,LY
4,1035481122921164800,شكلك متعقدة علشان الراجل لي تحبيه ازوج بنت يتيمة ولا بنت معندهش خوت. هدي اعصابك وفكينا من التخلف امتاعك,LY
5,877881537122979840,او حتى من اي دين او طائفة. اسف ممكن الغلط غلطتي بس مكنش قصدي,LY
6,882940840888471552,باهي نستنوه. بلكي مشغول ولا حاجة,LY
7,882941769444466688,مهما اختلفنا راه نحنا خوت. والله ما عندي عدا على واحد. انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخرى الفرحانة. ربي يفرجها عليك وعلينا كلنا,LY
8,882943694906818560,بالنسبة ليا انا والله شبعت هم ونكد وقتل ودم والحقد. الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياة عندنا مية في مية ومعندش شي اندكوا راسنا فيه الا لبس الشورتات. تخلف,LY


# remove url

In [None]:
def remove_urls(text):
    url_pattern = re.compile(r'https?://\S+')
    return url_pattern.sub(r'', text)

In [None]:
df_copy['text'] = df_copy['text'].apply(remove_urls)

In [None]:
df_copy.head()

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين. لو اختهم او قريبتهم تتعاكس تقولي عليهم من نشاط حقوق المرأة من ردة فعلهم.,LY
1,1009794751548313600,الليبيين متقلبين!!! بس بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,كل تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها غير كل البنات وبيحس كأنه يعرفها من زمان. بعدين يتزوج وحدة منهن وممكن اثنين ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب and they live happily ever after ذي اند,LY
3,1035479791758135168,رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم هو انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ولا ام ولا خوت ولا خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت هي بس لازم ادير الف حساب للراجل؟ هي متستحقش يندارلها الف حساب ولا هي عبدة؟,LY
4,1035481122921164800,شكلك متعقدة علشان الراجل لي تحبيه ازوج بنت يتيمة ولا بنت معندهش خوت. هدي اعصابك وفكينا من التخلف امتاعك,LY


# removing stopwords

In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

# define the Arabic stop words list
ar_stopwords = set(stopwords.words('arabic'))


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
def removing_stopwords(text):
    words = text.split()

    filtered_words = [word for word in words if word not in ar_stopwords]

    text = ' '.join(filtered_words)

    return text

In [None]:
df_copy['text'] = df_copy['text'].apply(removing_stopwords)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين. اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المرأة ردة فعلهم.,LY
1,1009794751548313600,الليبيين متقلبين!!! بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها البنات وبيحس كأنه يعرفها زمان. بعدين يتزوج وحدة منهن وممكن ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب and they live happily ever after اند,LY
3,1035479791758135168,رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ام خوت خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت لازم ادير الف حساب للراجل؟ متستحقش يندارلها الف حساب عبدة؟,LY
4,1035481122921164800,شكلك متعقدة علشان الراجل تحبيه ازوج بنت يتيمة بنت معندهش خوت. هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طائفة. اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه. بلكي مشغول حاجة,LY
7,882941769444466688,اختلفنا راه نحنا خوت. والله عندي واحد. انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخرى الفرحانة. ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبة ليا انا والله شبعت ونكد وقتل ودم والحقد. الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياة عندنا مية مية ومعندش شي اندكوا راسنا الا لبس الشورتات. تخلف,LY


# remove elongation and extra whitspace

In [None]:
def remove_elongation(text):
    text = re.sub(r'(\w)\1{2,}', r'\1\1', text)    # remove text elongation
    text = re.sub(r'\s+', ' ', text)          # remove extra whitespaces
    return text.strip()

In [None]:
df_copy['text'] = df_copy['text'].apply(remove_elongation)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين. اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المرأة ردة فعلهم.,LY
1,1009794751548313600,الليبيين متقلبين!!! بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها البنات وبيحس كأنه يعرفها زمان. بعدين يتزوج وحدة منهن وممكن ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب and they live happily ever after اند,LY
3,1035479791758135168,رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ام خوت خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت لازم ادير الف حساب للراجل؟ متستحقش يندارلها الف حساب عبدة؟,LY
4,1035481122921164800,شكلك متعقدة علشان الراجل تحبيه ازوج بنت يتيمة بنت معندهش خوت. هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طائفة. اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه. بلكي مشغول حاجة,LY
7,882941769444466688,اختلفنا راه نحنا خوت. والله عندي واحد. انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخرى الفرحانة. ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبة ليا انا والله شبعت ونكد وقتل ودم والحقد. الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياة عندنا مية مية ومعندش شي اندكوا راسنا الا لبس الشورتات. تخلف,LY


# remove punctuation

In [None]:
import string
def remove_punctuation(text):
  text = ''.join([c for c in text if c not in string.punctuation])
  text = re.sub(r'؟', ' ', text) 
  return text.strip()

In [None]:
df_copy['text'] = df_copy['text'].apply(remove_punctuation)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المرأة ردة فعلهم,LY
1,1009794751548313600,الليبيين متقلبين بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها البنات وبيحس كأنه يعرفها زمان بعدين يتزوج وحدة منهن وممكن ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب and they live happily ever after اند,LY
3,1035479791758135168,رانيا عقليتك متخلفة اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلاً ثانياً شن ذنب يلي معندهش اب ام خوت خوات يعني اليتيمة متستحقش تتزوج وثالثاً ليش البنت لازم ادير الف حساب للراجل متستحقش يندارلها الف حساب عبدة,LY
4,1035481122921164800,شكلك متعقدة علشان الراجل تحبيه ازوج بنت يتيمة بنت معندهش خوت هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طائفة اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه بلكي مشغول حاجة,LY
7,882941769444466688,اختلفنا راه نحنا خوت والله عندي واحد انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخرى الفرحانة ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبة ليا انا والله شبعت ونكد وقتل ودم والحقد الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياة عندنا مية مية ومعندش شي اندكوا راسنا الا لبس الشورتات تخلف,LY


# character normalization

In [None]:
def character_normalization(text):
  preprocessed_text = re.sub("[إأآا]", "ا", text)
  preprocessed_text = re.sub("ى", "ي", preprocessed_text)
  preprocessed_text = re.sub("ؤ", "ء", preprocessed_text)
  preprocessed_text = re.sub("ئ", "ء", preprocessed_text)
  preprocessed_text = re.sub("ة", "ه", preprocessed_text)
  preprocessed_text = re.sub("گ", "ك", preprocessed_text)
  preprocessed_text = re.sub("ڤ", "ف", preprocessed_text)
  preprocessed_text = re.sub("چ", "ج", preprocessed_text)
  preprocessed_text = re.sub("ژ", "ز", preprocessed_text)
  preprocessed_text = re.sub("پ", "ب", preprocessed_text)
  return preprocessed_text

In [None]:
df_copy['text'] = df_copy['text'].apply(character_normalization)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المراه رده فعلهم,LY
1,1009794751548313600,الليبيين متقلبين بالنسبه ليا انا ميليشياوي زمان وتوه,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفه ويلاحظ انها البنات وبيحس كانه يعرفها زمان بعدين يتزوج وحده منهن وممكن ولاثلاثه وتنقلب الرومانسيه لعياط وشياط وتهزيب and they live happily ever after اند,LY
3,1035479791758135168,رانيا عقليتك متخلفه اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلاً ثانياً شن ذنب يلي معندهش اب ام خوت خوات يعني اليتيمه متستحقش تتزوج وثالثاً ليش البنت لازم ادير الف حساب للراجل متستحقش يندارلها الف حساب عبده,LY
4,1035481122921164800,شكلك متعقده علشان الراجل تحبيه ازوج بنت يتيمه بنت معندهش خوت هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طاءفه اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه بلكي مشغول حاجه,LY
7,882941769444466688,اختلفنا راه نحنا خوت والله عندي واحد انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخري الفرحانه ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبه ليا انا والله شبعت ونكد وقتل ودم والحقد الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياه عندنا ميه ميه ومعندش شي اندكوا راسنا الا لبس الشورتات تخلف,LY


# remove diacritics

In [None]:
arabic_diacritics = re.compile("""
                             ّ    | # Tashdid
                             َ    | # Fatha
                             ً    | # Tanwin Fath
                             ُ    | # Damma
                             ٌ    | # Tanwin Damm
                             ِ    | # Kasra
                             ٍ    | # Tanwin Kasr
                             ْ    | # Sukun
                            ـ    | # Tatwil/Kashida
                         """, re.VERBOSE)

In [None]:
def remove_diacritics(text):
  preprocessed_text = re.sub(arabic_diacritics, '', text)
  return preprocessed_text

In [None]:
df_copy['text'] = df_copy['text'].apply(remove_diacritics)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المراه رده فعلهم,LY
1,1009794751548313600,الليبيين متقلبين بالنسبه ليا انا ميليشياوي زمان وتوه,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفه ويلاحظ انها البنات وبيحس كانه يعرفها زمان بعدين يتزوج وحده منهن وممكن ولاثلاثه وتنقلب الرومانسيه لعياط وشياط وتهزيب and they live happily ever after اند,LY
3,1035479791758135168,رانيا عقليتك متخلفه اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلا ثانيا شن ذنب يلي معندهش اب ام خوت خوات يعني اليتيمه متستحقش تتزوج وثالثا ليش البنت لازم ادير الف حساب للراجل متستحقش يندارلها الف حساب عبده,LY
4,1035481122921164800,شكلك متعقده علشان الراجل تحبيه ازوج بنت يتيمه بنت معندهش خوت هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طاءفه اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه بلكي مشغول حاجه,LY
7,882941769444466688,اختلفنا راه نحنا خوت والله عندي واحد انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخري الفرحانه ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبه ليا انا والله شبعت ونكد وقتل ودم والحقد الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياه عندنا ميه ميه ومعندش شي اندكوا راسنا الا لبس الشورتات تخلف,LY


# remove english

In [None]:
def remove_english(text):
    english_pattern = re.compile("[a-zA-Z]+")
    return english_pattern.sub(r'', text)


In [None]:
df_copy['text'] = df_copy['text'].apply(remove_english)

In [None]:
df_copy.head(10)

Unnamed: 0,id,text,dialect
0,1009754958479151232,قليلين ادب ومنافقين اختهم او قريبتهم تتعاكس تقولي عليهم نشاط حقوق المراه رده فعلهم,LY
1,1009794751548313600,الليبيين متقلبين بالنسبه ليا انا ميليشياوي زمان وتوه,LY
2,1019989115490787200,تانيه شاب ليبي بيرتاح لبنت مختلفه ويلاحظ انها البنات وبيحس كانه يعرفها زمان بعدين يتزوج وحده منهن وممكن ولاثلاثه وتنقلب الرومانسيه لعياط وشياط وتهزيب اند,LY
3,1035479791758135168,رانيا عقليتك متخلفه اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم انسان قليل الادب اصلا ثانيا شن ذنب يلي معندهش اب ام خوت خوات يعني اليتيمه متستحقش تتزوج وثالثا ليش البنت لازم ادير الف حساب للراجل متستحقش يندارلها الف حساب عبده,LY
4,1035481122921164800,شكلك متعقده علشان الراجل تحبيه ازوج بنت يتيمه بنت معندهش خوت هدي اعصابك وفكينا التخلف امتاعك,LY
5,877881537122979840,او اي دين او طاءفه اسف ممكن الغلط غلطتي مكنش قصدي,LY
6,882940840888471552,باهي نستنوه بلكي مشغول حاجه,LY
7,882941769444466688,اختلفنا راه نحنا خوت والله عندي واحد انا فرحان نقدر انروح لحوشنا وفرحان للناس الاخري الفرحانه ربي يفرجها وعلينا كلنا,LY
8,882943694906818560,بالنسبه ليا انا والله شبعت ونكد وقتل ودم والحقد الله يهدينا جميعا,LY
9,884736569118261248,مو نحنا الحياه عندنا ميه ميه ومعندش شي اندكوا راسنا الا لبس الشورتات تخلف,LY


In [None]:
df_copy.to_csv('/content/dialects_data_preprocessed.csv', index=False,sep='\t', encoding='utf-8-sig', lineterminator='\r\n')