In [13]:
# Importing the important libraries
import pandas as pd 
import numpy as np
import re
from pyarabic.araby import strip_tashkeel

In [14]:
# Reading the data
data= pd.read_csv("sampleData.csv")
data=data.drop(['Unnamed: 0'], axis=1)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,مثل ما داعش فجر تاريخ اجدادنا قبل سنه واحنه ...
1,869345568534941696,IQ,0,احنا سنه وحق الله منفرق بس حسبى الله ونعم الو...
2,936739253412917248,IQ,0,الكاوليه هنود مو عرب خلك غلابه عايشين بدون مش...
3,995964915583156224,IQ,0,عليمن انطلع حركتنه بس ريد اذكر الزواج الى صدك...
4,633976940433510400,IQ,0,شيلوو اشتهر حسونى مع نور الزين والردح الزين
...,...,...,...,...
17995,1153015108106444800,BH,17,اى حتى الطير صايدتنه عدل
17996,1015716046085468160,BH,17,اشتكت لزوجها احس انى متضايقه فرد عليها الحنون ...
17997,1016457209851580416,BH,17,انت القمر بوسط ليلى انت مرى وحلمى انت النور لع...
17998,1153244931269566464,BH,17,عجيبه الصراحه ويامنظر الطبيعه تنسى كلشى الله ...


In [15]:
# Data type of each column
data.dtypes

id              int64
dialect        object
transformed     int64
fineText       object
dtype: object

In [16]:
# Missing values in the data
nullData= data.isnull().sum()
nullData

id             0
dialect        0
transformed    0
fineText       0
dtype: int64

In [17]:
# Dropping the null values in the data
data= data.dropna(axis=0)
# Ensuring that there are no missing values
data.isnull().sum() / data.shape[0] * 100

id             0.0
dialect        0.0
transformed    0.0
fineText       0.0
dtype: float64

In [18]:
# Putting each word in an array, so the sentence would be array of array of words
data['fineText'] = data['fineText'].apply(lambda x: [str(word.split()) for word in x.split()]) 
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,"[['مثل'], ['ما'], ['داعش'], ['فجر'], ['تاريخ']..."
1,869345568534941696,IQ,0,"[['احنا'], ['سنه'], ['وحق'], ['الله'], ['منفرق..."
2,936739253412917248,IQ,0,"[['الكاوليه'], ['هنود'], ['مو'], ['عرب'], ['خل..."
3,995964915583156224,IQ,0,"[['عليمن'], ['انطلع'], ['حركتنه'], ['بس'], ['ر..."
4,633976940433510400,IQ,0,"[['شيلوو'], ['اشتهر'], ['حسونى'], ['مع'], ['نو..."
...,...,...,...,...
17995,1153015108106444800,BH,17,"[['اى'], ['حتى'], ['الطير'], ['صايدتنه'], ['عد..."
17996,1015716046085468160,BH,17,"[['اشتكت'], ['لزوجها'], ['احس'], ['انى'], ['مت..."
17997,1016457209851580416,BH,17,"[['انت'], ['القمر'], ['بوسط'], ['ليلى'], ['انت..."
17998,1153244931269566464,BH,17,"[['عجيبه'], ['الصراحه'], ['ويامنظر'], ['الطبيع..."


In [19]:
# Removing Tashkeel
strip_lambda = lambda x: [strip_tashkeel(word) for word in x]
# Apply the lambda function to the fineText2 column
data['fineText'] = data['fineText'].apply(strip_lambda)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,"[['مثل'], ['ما'], ['داعش'], ['فجر'], ['تاريخ']..."
1,869345568534941696,IQ,0,"[['احنا'], ['سنه'], ['وحق'], ['الله'], ['منفرق..."
2,936739253412917248,IQ,0,"[['الكاوليه'], ['هنود'], ['مو'], ['عرب'], ['خل..."
3,995964915583156224,IQ,0,"[['عليمن'], ['انطلع'], ['حركتنه'], ['بس'], ['ر..."
4,633976940433510400,IQ,0,"[['شيلوو'], ['اشتهر'], ['حسونى'], ['مع'], ['نو..."
...,...,...,...,...
17995,1153015108106444800,BH,17,"[['اى'], ['حتى'], ['الطير'], ['صايدتنه'], ['عد..."
17996,1015716046085468160,BH,17,"[['اشتكت'], ['لزوجها'], ['احس'], ['انى'], ['مت..."
17997,1016457209851580416,BH,17,"[['انت'], ['القمر'], ['بوسط'], ['ليلى'], ['انت..."
17998,1153244931269566464,BH,17,"[['عجيبه'], ['الصراحه'], ['ويامنظر'], ['الطبيع..."


In [20]:
# Removing URLs
url_lambda = lambda x: [re.sub(r'http\S+', '', word, flags=re.MULTILINE) for word in x if re.sub(r'http\S+', '', word, flags=re.MULTILINE) != "['"]

# Apply the lambda function to the fineText2 column
data['fineText'] = data['fineText'].apply(url_lambda)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,"[['مثل'], ['ما'], ['داعش'], ['فجر'], ['تاريخ']..."
1,869345568534941696,IQ,0,"[['احنا'], ['سنه'], ['وحق'], ['الله'], ['منفرق..."
2,936739253412917248,IQ,0,"[['الكاوليه'], ['هنود'], ['مو'], ['عرب'], ['خل..."
3,995964915583156224,IQ,0,"[['عليمن'], ['انطلع'], ['حركتنه'], ['بس'], ['ر..."
4,633976940433510400,IQ,0,"[['شيلوو'], ['اشتهر'], ['حسونى'], ['مع'], ['نو..."
...,...,...,...,...
17995,1153015108106444800,BH,17,"[['اى'], ['حتى'], ['الطير'], ['صايدتنه'], ['عد..."
17996,1015716046085468160,BH,17,"[['اشتكت'], ['لزوجها'], ['احس'], ['انى'], ['مت..."
17997,1016457209851580416,BH,17,"[['انت'], ['القمر'], ['بوسط'], ['ليلى'], ['انت..."
17998,1153244931269566464,BH,17,"[['عجيبه'], ['الصراحه'], ['ويامنظر'], ['الطبيع..."


In [21]:
# Removing username“@handle“ from text
username_lambda = lambda x: [re.sub(r'@\w+', '', word) for word in x]
# Apply the lambda function to the fineText2 column
data['fineText'] = data['fineText'].apply(username_lambda)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,"[['مثل'], ['ما'], ['داعش'], ['فجر'], ['تاريخ']..."
1,869345568534941696,IQ,0,"[['احنا'], ['سنه'], ['وحق'], ['الله'], ['منفرق..."
2,936739253412917248,IQ,0,"[['الكاوليه'], ['هنود'], ['مو'], ['عرب'], ['خل..."
3,995964915583156224,IQ,0,"[['عليمن'], ['انطلع'], ['حركتنه'], ['بس'], ['ر..."
4,633976940433510400,IQ,0,"[['شيلوو'], ['اشتهر'], ['حسونى'], ['مع'], ['نو..."
...,...,...,...,...
17995,1153015108106444800,BH,17,"[['اى'], ['حتى'], ['الطير'], ['صايدتنه'], ['عد..."
17996,1015716046085468160,BH,17,"[['اشتكت'], ['لزوجها'], ['احس'], ['انى'], ['مت..."
17997,1016457209851580416,BH,17,"[['انت'], ['القمر'], ['بوسط'], ['ليلى'], ['انت..."
17998,1153244931269566464,BH,17,"[['عجيبه'], ['الصراحه'], ['ويامنظر'], ['الطبيع..."


In [22]:
# Remove non-Arabic unicode
arabic_lambda = lambda x: [re.sub(r'[^\u0600-\u06FF\u0750-\u077F\uFB50-\uFDFF\uFE70-\uFEFF\s]+', '', word) for word in x if re.sub(r'[^\u0600-\u06FF\u0750-\u077F\uFB50-\uFDFF\uFE70-\uFEFF\s]+', '', word) != ""]
# Apply the lambda function to the fineText2 column
data['fineText'] = data['fineText'].apply(arabic_lambda)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,"[مثل, ما, داعش, فجر, تاريخ, اجدادنا, قبل, سنه,..."
1,869345568534941696,IQ,0,"[احنا, سنه, وحق, الله, منفرق, بس, حسبى, الله, ..."
2,936739253412917248,IQ,0,"[الكاوليه, هنود, مو, عرب, خلك, غلابه, عايشين, ..."
3,995964915583156224,IQ,0,"[عليمن, انطلع, حركتنه, بس, ريد, اذكر, الزواج, ..."
4,633976940433510400,IQ,0,"[شيلوو, اشتهر, حسونى, مع, نور, الزين, والردح, ..."
...,...,...,...,...
17995,1153015108106444800,BH,17,"[اى, حتى, الطير, صايدتنه, عدل]"
17996,1015716046085468160,BH,17,"[اشتكت, لزوجها, احس, انى, متضايقه, فرد, عليها,..."
17997,1016457209851580416,BH,17,"[انت, القمر, بوسط, ليلى, انت, مرى, وحلمى, انت,..."
17998,1153244931269566464,BH,17,"[عجيبه, الصراحه, ويامنظر, الطبيعه, تنسى, كلشى,..."


In [23]:
# Returning back the fineText to string to use it in another file 
join_lambda = lambda x: ' '.join(x)
# Apply the lambda function to the column
data['fineText'] = data['fineText'].apply(join_lambda)
data

Unnamed: 0,id,dialect,transformed,fineText
0,939598542259277824,IQ,0,مثل ما داعش فجر تاريخ اجدادنا قبل سنه واحنه مع...
1,869345568534941696,IQ,0,احنا سنه وحق الله منفرق بس حسبى الله ونعم الوك...
2,936739253412917248,IQ,0,الكاوليه هنود مو عرب خلك غلابه عايشين بدون مشا...
3,995964915583156224,IQ,0,عليمن انطلع حركتنه بس ريد اذكر الزواج الى صدكو بى
4,633976940433510400,IQ,0,شيلوو اشتهر حسونى مع نور الزين والردح الزين
...,...,...,...,...
17995,1153015108106444800,BH,17,اى حتى الطير صايدتنه عدل
17996,1015716046085468160,BH,17,اشتكت لزوجها احس انى متضايقه فرد عليها الحنون ...
17997,1016457209851580416,BH,17,انت القمر بوسط ليلى انت مرى وحلمى انت النور لع...
17998,1153244931269566464,BH,17,عجيبه الصراحه ويامنظر الطبيعه تنسى كلشى الله ي...


In [24]:
# Saving the processed data as csv
data.to_csv('preprocessedData.csv')