# Phase 1: Text Preprocessing

### 1. Stopword Removal

In [2]:
import pandas as pd

# Load the dataset
file_path = 'urdu_sarcastic_dataset.csv'
df = pd.read_csv(file_path)

# Display the dataset
df.head()

Unnamed: 0,urdu_text,is_sarcastic,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,1.0,,,,,,
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,1.0,,,,,,
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,0.0,,,,,,
3,نہیں پائین 😎,0.0,,,,,,
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,1.0,,,,,,


In [4]:
# Load the stopwords from the text file
with open('stopwords-ur.txt', 'r', encoding='utf-8') as file:
    urdu_stopwords = file.read().splitlines()

# Check the first few stopwords
print(urdu_stopwords[:10])

['آئی', 'آئے', 'آج', 'آخر', 'آخرکبر', 'آدهی', 'آًب', 'آٹھ', 'آیب', 'اة']


In [5]:
# Function to remove stopwords, handling non-string values
def remove_stopwords(text):
    if isinstance(text, str):  # Check if the text is a string
        words = text.split()  # Split text into words
        cleaned_text = ' '.join([word for word in words if word not in urdu_stopwords])
        return cleaned_text
    else:
        return text  # Return the text unchanged if it's not a string

# Apply the stopword removal to the 'urdu_text' column
df['cleaned_text'] = df['urdu_text'].apply(remove_stopwords)

# Display the cleaned text
df[['urdu_text', 'cleaned_text']].head()

Unnamed: 0,urdu_text,cleaned_text
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,🤣😂😂 لینے میری شادی فسادن کوجی نہیں چاہیے 😐😐😐🤣
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی اپوزیش...
3,نہیں پائین 😎,نہیں پائین 😎
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,`` مراد علی شاہ بھیس میں ڈی جی ایس '' حامد میر😁


### 2. Punctuation, Emojis, and Hashtags:

In [6]:
import re
import string

# Function to clean the text
def clean_text(text):
    if isinstance(text, str):
        # 1. Remove URLs
        text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
        
        # 2. Remove Hashtags
        text = re.sub(r'#\w+', '', text)
        
        # 3. Remove Punctuation
        text = text.translate(str.maketrans('', '', string.punctuation))

        # 4. Remove all emojis
        text = re.sub(r'[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F700-\U0001F77F\U0001F900-\U0001F9FF\U0001FA00-\U0001FAFF]', '', text)

        return text.strip()
    else:
        return text  # Return unchanged if not a string

# Apply the clean_text function to the 'urdu_text' column
df['cleaned_text'] = df['urdu_text'].apply(clean_text)

# Display the cleaned text
df[['urdu_text', 'cleaned_text']].head()



Unnamed: 0,urdu_text,cleaned_text
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3,نہیں پائین 😎,نہیں پائین
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...


### 3. Short Conversations:

In [7]:
# Function to filter short conversations
def filter_short_conversations(text):
    if isinstance(text, str):
        # Count the number of words
        word_count = len(text.split())
        # Return the text if it has 3 or more words, otherwise return an empty string
        return text if word_count >= 3 else ''
    return text  # Return unchanged if not a string

# Apply the filter_short_conversations function to the 'cleaned_text' column
df['cleaned_text'] = df['cleaned_text'].apply(filter_short_conversations)

# Save the cleaned text to a separate CSV file
df[['cleaned_text']].to_csv('cleaned_urdu_text.csv', index=False, encoding='utf-8')
# Display the results
df[['urdu_text', 'cleaned_text']].head()

Unnamed: 0,urdu_text,cleaned_text
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3,نہیں پائین 😎,
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...


### 4. Some additional preprocessing techniques (normalization)

In [10]:
# Given text str, replace one or more spacings with a single space, 
# and one or more linebreaks with a single newline. 

from urduhack.preprocessing import normalize_whitespace

# Apply normalization to the 'cleaned_text' column
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: normalize_whitespace(x) if pd.notnull(x) else x)


# Save the updated data to a new CSV file
df[['cleaned_text']].to_csv('normalized_dataset.csv', index=False, encoding='utf-8')

# Display the normalized text
df[['cleaned_text']].head()

Unnamed: 0,cleaned_text
0,ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3,
4,مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...


In [19]:
# Removing some of the additional urdu punctuations from the text

from urduhack.preprocessing import remove_punctuation

# Ensure all entries in 'cleaned_text' are strings. Replace non-string entries with an empty string.
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: str(x) if isinstance(x, str) else '')

# Apply remove_punctuation function
df['cleaned_text'] = df['cleaned_text'].apply(remove_punctuation)


# Save the updated data to a new CSV file
df[['cleaned_text']].to_csv('normalized_dataset.csv', index=False, encoding='utf-8')

# Display the first 20 rows of 'cleaned_text'
print(df['cleaned_text'].head())

0    ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1    چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2    کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3                                                     
4    مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...
Name: cleaned_text, dtype: object


In [21]:
# Remove accents from any accented unicode characters in text str, either by transforming them 
# into ascii equivalents or removing them entirely.

from urduhack.preprocessing import remove_accents

# Ensure all entries in 'cleaned_text' are strings. Replace non-string entries with an empty string.
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: str(x) if isinstance(x, str) else '')

# Apply remove_punctuation function
df['cleaned_text'] = df['cleaned_text'].apply(remove_accents)


# Save the updated data to a new CSV file
df[['cleaned_text']].to_csv('normalized_dataset.csv', index=False, encoding='utf-8')

# Display the first 20 rows of 'cleaned_text'
print(df['cleaned_text'].head())

0    ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1    چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2    کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3                                                     
4    مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...
Name: cleaned_text, dtype: object


In [32]:
# This function replaces English digits with Urdu digits.
from LughaatNLP import LughaatNLP

# Initialize the LughaatNLP object
urdu_text_processing = LughaatNLP()

# Apply the replace_digits function to each row in the 'cleaned_text' column
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: urdu_text_processing.replace_digits(x) if isinstance(x, str) else x)

# Save the updated data to a new CSV file
df[['cleaned_text']].to_csv('normalized_dataset.csv', index=False, encoding='utf-8')

# Display the result 'cleaned_text'
print(df['cleaned_text'].head())


0    ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1    چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2    کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3                                                     
4    مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی تھے...
Name: cleaned_text, dtype: object


In [33]:
# This function removes all non-Urdu characters, numbers, and special characters, just leaving only pure 
# Urdu text even not special character used in urdu.
from LughaatNLP import LughaatNLP

# Initialize the LughaatNLP object
urdu_text_processing = LughaatNLP()

# Apply the just_urdu function to each row in the 'cleaned_text' column
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: urdu_text_processing.just_urdu(x) if isinstance(x, str) else x)

# Save the updated data to a new CSV file
df[['cleaned_text']].to_csv('normalized_dataset.csv', index=False, encoding='utf-8')

# Display the result 'cleaned_text'
print(df['cleaned_text'].head())


0    ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں چ...
1    چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...
2    کامران خان اپکی دن بھریہ زمہ داری لگائی گئی اپ...
3                                                     
4    مراد علی شاہ کے بھیس میں ڈی جی ائی ایس ائی تھے...
Name: cleaned_text, dtype: object


# Phase 2: Stemming and Lemmatization

### 1. Stemming:

In [34]:
# Import LughaatNLP for stemming and lemmatization
from LughaatNLP import LughaatNLP
urdu_text_processing = LughaatNLP()

# Function to apply stemming only
def apply_stemming(text):
    if isinstance(text, str):
        # Apply stemming
        stemmed_text = urdu_text_processing.urdu_stemmer(text)
        return stemmed_text
    else:
        return text

# Apply stemming to the 'cleaned_text' column
df['stemmed_text'] = df['cleaned_text'].apply(apply_stemming)

# Save the stemmed output to a new CSV file
df[['stemmed_text']].to_csv('stemmed_dataset.csv', index=False, encoding='utf-8')

# Display the first 20 rows of 'stemmed_text'
print(df['stemmed_text'].head(20))

0     ہو لینہ دہ میری شادی فسادن ٹھیک ہہ کوجی نہا چاہیہ
1     چل مہمانا ما کھانا سرو کر چڑیل چاچی نا دسدی اں ما
2     کامران خان اپکی دن بھریہ زمہ داری لگائی گئی اپ...
3                                                      
4     مراد علی شاہ کہ بھیس ما ڈی جی ائی ایس ائی تھہ ...
5                 قابل اعتبر ہی اکثر قاتل اعتبر ہوتہ ہا
6                  انساں کو تھکا دیت ہہ سوچا کا سفر بھی
7                                   حامد میر صاحب ویلڈن
8     یار وچارہ ویلا ہوندا ہہ اس ارہ لگا ہویا ہہ تسی...
9                    یہ سمجھتہ ہا سارا پاکستن بیوقوف ھہ
10                             تسی لڑاںی کروانی ساڈی کی
11                                پائن دوبرہ فالو کرئیہ
12       کتنی مہنگائی ہہ الو دوسو روپہ درجن کدو روپہ گز
13         عشق جب تم کو راس اۓ گا زخم کھاٶ گہ مسکراٶ گہ
14                                     چونا ایسا ہی ہوت
15    خاتمالنبیینمحمد سوره المزمل حصہ ترجمہ اور کچھ ...
16    اب بس بھی کرو بیچارہ کی پہلہ ہی دو بیوی ہیہ کی...
17    پتہ نہا کیا ہورہا ہہ سی سی کی بورڈ کو زنگ 

### 2. Lemmatization:

In [35]:
# Function to apply lemmatization only
def apply_lemmatization(text):
    if isinstance(text, str):
        # Apply lemmatization
        lemmatized_text = urdu_text_processing.lemmatize_sentence(text)
        return lemmatized_text
    else:
        return text

# Apply lemmatization to the 'cleaned_text' column
df['lemmatized_text'] = df['cleaned_text'].apply(apply_lemmatization)

# Save the lemmatized output to a new CSV file
df[['lemmatized_text']].to_csv('lemmatized_dataset.csv', index=False, encoding='utf-8')

# Display the first 20 rows of 'lemmatized_text'
print(df['lemmatized_text'].head(20))

0     ہونا لینا دینا میرا شادی فسادن ٹھیک ہونا کوجی ...
1     چلنا مہمان میں کھا سرا کرنا چڑیل چاچی نوں دسدی...
2     کامران خان اپکی دن بھریہ زمہ داری لگنا جانا اپ...
3                                                      
4     مراد علی شاہ کم بھیس میں ڈی جینا ائی ایس ائی ت...
5             قابل اعتبار ہی اکثر قاتل اعتبار ہونا ہونا
6                 انساں کو تھکنا دے ہونا سوچ کا سفر بھی
7                                   حامد میر صاحب ویلڈن
8     یار وچارہ ویلا ہوندا ہونا میں ارے لگنا ہویا ہو...
9                  میں سمجھ ہونا سارا پاکستان بیوقوف ھے
10                             تسی لڑاںی کروانی ساڈی کم
11                               پائن دوبارہ فالو کرئیے
12     کتنا مہنگائی ہونا الہ دوسو روپے درجن کدہ روپے گز
13      عشق جب میں کو راس اۓ گانا زخم کھاٶ گے مسکراٶ گے
14                                    چونا ایسا ہی ہونا
15    خاتمالنبیینمحمد سورة المزمل حصہ ترجمہ اور کچھن...
16    اب بس بھی کرہ بیچارا کم پہلا ہی دو بیوی ہیے کی...
17    پتہ نہیں کیا ہورہا ہونا سینا سینا کم بورڈ 