## Data Cleaning

In [1]:
# import needed libraries
import pandas as pd 

# Local imports
# from source.constants import PUNCT_TO_REMOVE
import sys
import os
target = os.path.abspath(os.path.abspath(''))
while(target.split("\\")[-1]!="Road"):
    target = os.path.dirname(target)
sys.path.append(target)
from source.features import data_cleaning as DC

In [3]:
# read data
data = pd.read_csv("../data/interim/feature_selected.csv")

In [4]:
data.shape

(17306, 10)

In [5]:
data.head()

Unnamed: 0,id,message,from_id,reply_to,year,month,day,hour,minute,second
0,409414,.,5774169366,-1,2023,3,7,13,48,25
1,409427,حواره للخارج من نابلس ؟,325418964,-1,2023,3,7,13,50,2
2,409428,سالك سالك,1827882971,409427,2023,3,7,13,50,9
3,409429,حوارة في عليها مستوطنين,5633332941,-1,2023,3,7,13,50,18
4,409430,وين,1332172310,409429,2023,3,7,13,50,26


### Remove Arabic diacritics

In [24]:
DC.remove_diacritics("✌️!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل")

'✌️!فليمسي وطني حرا، فليرحل محتلي فلريحل'

### Convert Emojis and Emoticons

In [25]:
DC.convert_emojis("✌️!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل")

':victory_hand:!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل'

In [30]:
DC.convert_emoticons(" ^_^ ✌️!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل")

' Joyful ✌️!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل'

### Remove links

In [23]:
DC.remove_urls("تابعنا على الرابط التالي:  https://freePalestine.com")

'تابعنا على الرابط التالي:  '

### Remove Phone Numbers

In [17]:
DC.remove_phone_numbers("أهلا, رقمي +971-551234567. ارقام اخرى: 00971551234567 أو 0551234567.")

'أهلا, رقمي . ارقام اخرى:  أو .'

### Remove Punctuations

In [27]:
DC.remove_punctuations("✌️!فليمسي وطني حُراً، فليرحل مُحتلي فلريحل")

'✌️فليمسي وطني حُراً فليرحل مُحتلي فلريحل'

### Remove MultiMedia

In [31]:
DC.remove_multimedia("https://thisshouldbeapic") 

''

### Apply the cleaning process to the messages. and delete empty messages from the df

In [13]:
for i, row in data.iterrows():
    if isinstance(row["message"], float):  # check if value is float
        data.at[i, "message"] = ""  # convert float to empty string
    else:
        text = row["message"]
        # apply cleaning functions to the text
        text = DC.remove_diacritics(text)
        text = DC.convert_emojis(text)
        text = DC.convert_emoticons(text)
        text = DC.remove_urls(text)
        text = DC.remove_phone_numbers(text)
        text = DC.remove_punctuations(text)
        text = DC.remove_multimedia(text)
        if text == "":  # check if cleaned text is empty
            data = data.drop(i)  # delete row if cleaned text is empty
        else:
            data.at[i, "message"] = text  # store the cleaned text back in the dataframe

In [14]:
data["message"]

1             حواره للخارج من نابلس 
2                          سالك سالك
3            حوارة في عليها مستوطنين
4                                وين
5        كيف طريق من طوباس لرام الله
                    ...             
17301                   كيف طريق صرة
17302                  و دوار كدوميم
17303                     شو وضع dso
17304                  جيت صرة سالكة
17305                 واد قانا سالك 
Name: message, Length: 16880, dtype: object

In [15]:
data.shape

(16880, 10)