## Data Preprocessing

## In the provided code for the dataset, data preprocessing steps are performed to clean and prepare the text data for further analysis or modeling. The code includes the following data preprocessing steps:

    Punctuation Removal: Punctuation marks (e.g., periods, commas, question marks) are removed from the text data. This step helps in eliminating unnecessary symbols that do not contribute to the meaning of the text.

    Stopword Removal: Commonly used stopwords (e.g., "the," "and," "is") are removed from the text data. These words typically occur frequently in the language but do not carry significant meaning and can be safely removed to reduce noise in the data.

    Special Character and Emoji Removal: Special characters and emojis are removed from the text data. Emojis, in particular, are non-textual symbols that can affect the analysis or modeling process if left in the data.

    Digit Removal: Digits (numerical characters) are removed from the text data. In many cases, digits do not provide meaningful information in the context of text analysis.

After performing these data preprocessing steps, the text data is cleaned and ready for further analysis or machine learning tasks. The clean data is then exported for use in subsequent stages of the data analysis pipeline. This ensures that the text data is in a suitable format and free from unnecessary noise.

References for code: 
Text pre-processing using NLTK and python | datahour by dr. Nitin Shelke (2022) YouTube. Available at: https://www.youtube.com/watch?v=aF7NvdjSqfo&amp;t=1362s (Accessed: 17 September 2023). 

Text preprocessing in NLP | Python (2022) YouTube. Available at: https://www.youtube.com/watch?v=Br5dmsa49wo (Accessed: 17 September 2023). 


In [7]:
import pandas as pd
import string
df = pd.read_csv('FinalData.csv')
df['clean_text'] = df['Comment']
df['Class']
df.dropna(subset=['clean_text'], inplace=True)
df.head()

Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Remove Punctuations 

In [8]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('','', punctuations))

In [9]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Removal of Stopwords 

In [11]:
!pip3 install nltk
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords 
", ".join(stopwords.words('arabic'))

Defaulting to user installation because normal site-packages is not writeable
Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com
Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m0:00:01[0m
Installing collected packages: nltk
[0mSuccessfully installed nltk-3.8.1


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/ec2-user/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


'إذ, إذا, إذما, إذن, أف, أقل, أكثر, ألا, إلا, التي, الذي, الذين, اللاتي, اللائي, اللتان, اللتيا, اللتين, اللذان, اللذين, اللواتي, إلى, إليك, إليكم, إليكما, إليكن, أم, أما, أما, إما, أن, إن, إنا, أنا, أنت, أنتم, أنتما, أنتن, إنما, إنه, أنى, أنى, آه, آها, أو, أولاء, أولئك, أوه, آي, أي, أيها, إي, أين, أين, أينما, إيه, بخ, بس, بعد, بعض, بك, بكم, بكم, بكما, بكن, بل, بلى, بما, بماذا, بمن, بنا, به, بها, بهم, بهما, بهن, بي, بين, بيد, تلك, تلكم, تلكما, ته, تي, تين, تينك, ثم, ثمة, حاشا, حبذا, حتى, حيث, حيثما, حين, خلا, دون, ذا, ذات, ذاك, ذان, ذانك, ذلك, ذلكم, ذلكما, ذلكن, ذه, ذو, ذوا, ذواتا, ذواتي, ذي, ذين, ذينك, ريث, سوف, سوى, شتان, عدا, عسى, عل, على, عليك, عليه, عما, عن, عند, غير, فإذا, فإن, فلا, فمن, في, فيم, فيما, فيه, فيها, قد, كأن, كأنما, كأي, كأين, كذا, كذلك, كل, كلا, كلاهما, كلتا, كلما, كليكما, كليهما, كم, كم, كما, كي, كيت, كيف, كيفما, لا, لاسيما, لدى, لست, لستم, لستما, لستن, لسن, لسنا, لعل, لك, لكم, لكما, لكن, لكنما, لكي, لكيلا, لم, لما, لن, لنا, له, لها, لهم, لهما, لهن, لو, لولا, لوما,

In [12]:
STOPWORDS = set(stopwords.words('arabic'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [13]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,دار الحبب لاتشتم اخوان امام العرب افهم اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Removal of Special Characters + Emojis


In [14]:
import re
def remove_special_characters(text):
# Remove emojis
    text = re.sub(r"\s+|\\n", " ", text)  # Remove extra spaces and newlines
    text = re.sub(r":[a-z]+:", "", text)  # Remove emojis represented by :emoji_name:
    text = re.sub(r"[\U0001F600-\U0001F64F]|[\U0001F300-\U0001F5FF]|[\U0001F680-\U0001F6FF]|[\U0001F1E0-\U0001F1FF]|[\U00002702-\U000027B0]|[\U000024C2-\U0001F251]", "", text)  # Remove emojis represented by Unicode characters
    text = re.sub(r"[^\u0621-\u064A\s]", "", text)  # Remove non-alphanumeric Arabic characters except spaces
    return text 

In [15]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_special_characters(x))
df.head()


Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,دار الحبب لاتشتم اخوان امام العرب افهم اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Removal of Digits 


In [16]:
import re

def remove_numbers(text):
    # Remove all numbers using regular expression
    text_without_numbers = re.sub(r'\d+', '', text)
    
    return text_without_numbers

In [17]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_numbers(x))
df.head()

Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,دار الحبب لاتشتم اخوان امام العرب افهم اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Removal of Spaces 


In [18]:
# To remove leading and trailing spaces
df['clean_text'] = df['clean_text'].str.strip()

# To replace multiple spaces with a single space
df['clean_text'] = df['clean_text'].apply(lambda x: ' '.join(x.split()))

# Show the first few rows to confirm
df.head()


Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0.0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0.0,اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0.0,دار الحبب لاتشتم اخوان امام العرب افهم اخ
3,االسيد الملاح,0.0,االسيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0.0,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه


# Removal of repeating chars


In [19]:
import re
import pandas as pd

def remove_repeating_chars(text):
    return re.sub(r'(.)\1+', r'\1', text)

# Apply the function
df['clean_text'] = df['clean_text'].apply(remove_repeating_chars)

# Show the DataFrame
print(df)


                                                 Comment  Class  \
0      خيبة الأمل تشاؤما تقولا  عزم لكفالة اليتيم بال...    0.0   
1           ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار    0.0   
2          ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ    0.0   
3                                          االسيد الملاح    0.0   
4                ابتسمة جزائرية بنكهةةة فلسطنية هههههههه    0.0   
...                                                  ...    ...   
11715  أخطر على الجميعاء الفكر الوهابي التخلوفي العنص...    2.0   
11716  شهوة محمد رسول الله لممارسة الجنس مع مارية الق...    2.0   
11717  اقتلونا او اقتلوا الزنوج لا امكانية للتعايش بيننا    2.0   
11718  فخر الإرهابيين , اللاعب السنغالي المسلم إدريسا...    2.0   
11719  يقول الأمير عبدالقادر ينبث الشعر في الرأس والي...    2.0   

                                              clean_text  
0      خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...  
1               اسفا لجزره لماذا تنشر راهذا طرقه الاحرار  
2               دا

# Floating point numbers to Integer for Class Column


In [20]:
import pandas as pd
import string

# Convert Class to integer
df['Class'] = df['Class'].astype(int)

# Show the first few records
df.head()


Unnamed: 0,Comment,Class,clean_text
0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بال...,0,خيبة الأمل تشاؤما تقولا عزم لكفالة اليتيم بالع...
1,ا اسفا للجزره لماذا تنشر رااهذا طرقه الاحرار,0,اسفا لجزره لماذا تنشر راهذا طرقه الاحرار
2,ا دار الحبب لاتشتم اخوان امام العرب افهم ا اخ,0,دار الحب لاتشتم اخوان امام العرب افهم اخ
3,االسيد الملاح,0,السيد الملاح
4,ابتسمة جزائرية بنكهةةة فلسطنية هههههههه,0,ابتسمة جزائرية بنكهة فلسطنية ه


# Exporting Clean Data 

In [22]:
del df['Comment']

In [23]:
df.to_csv('UseThisClean.csv', index=False)