**Loading dataset**


In [None]:
import pandas as pd
import re


# Load dataset
df = pd.read_csv('urdu_sarcastic_dataset.csv')

# Dropping null values in the 'urdu_text' column
df.dropna(subset=['urdu_text'], inplace=True)



Removing stopwords and extra spacing

In [None]:
# Stop words
stopwords = [
    'اور', 'کی', 'ہے', 'میں', 'کو', 'کے', 'تھا', 'تھے', 'تھی', 'پر',
    'ہو', 'کا', 'نہیں', 'بھی', 'جو', 'وہ', 'یہ', 'ایک', 'اگر',
    'تک', 'لیکن', 'ہم', 'تم', 'اس', 'ان', 'اپنے', 'ہمیں', 'میرے',
    'پاس', 'سب', 'وہاں', 'جس', 'صرف', 'تجھے', 'چونکہ', 'تاکہ',
    'کچھ', 'تھا', 'تو', 'دو', 'ساتھ', 'کیوں', 'پھر', 'اگر',
    'جب', 'جہاں', 'ایسا', 'کسی', 'کس', 'انکا', 'اپنا', 'انکے',
    'یہاں', 'کیا', 'نہ', 'پہلے', 'بعد', 'کامیابی', 'ہوا',
    'دور', 'جہاں', 'کم', 'زیادہ', 'دوسرے', 'جیسے', 'چاہیے',
    'بغیر', 'سوال', 'جواب', 'تاکہ', 'خود', 'اپنے', 'کیا'
]


# Function to remove stop words
def removing_stopwords(text):
    if isinstance(text, str):  # Checking for exceptions
        words = text.split()
        clean_words = [word for word in words if word not in stopwords]
        return ' '.join(clean_words)
    return text

# Applying stopword removal
df['cleaned_text'] = df['urdu_text'].apply(removing_stopwords)



# Display the cleaned text
print(df[['urdu_text', 'cleaned_text']].head())


                                           urdu_text  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                       نہیں پائین 😎   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...   

                                        cleaned_text  
0         🤣😂😂 لینے دے میری شادی فسادن ٹھیک کوجی 😐😐😐🤣  
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں ...  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                            پائین 😎  
4  `` مراد علی شاہ بھیس ڈی جی آئی ایس آئی '' حامد...  


Removing emojis, Hashtag and URLS


In [None]:
import re

# Function to clean social media data
def clean_social_media_text(text):
    # Remove URLs
    text = re.sub(r'http\S+', '', text)
    # Remove hashtags and mentions
    text = re.sub(r'#\S+|@\S+', '', text)
    # Define a dictionary for common emojis and their sentiment
    emoji_dict = {'😊': 'positive', '😢': 'negative'}

    # Remove all emojis except the ones in emoji_dict
    text = re.sub(r'[^\w\s,]', '', text)  # This removes all punctuation and emojis

    # Replace specified emojis with their sentiments
    for emoji, sentiment in emoji_dict.items():
        text = text.replace(emoji, sentiment)

    return text

# Apply cleaning to the text
df['cleaned_text'] = df['cleaned_text'].apply(clean_social_media_text)



# Display cleaned text
print(df[['urdu_text', 'cleaned_text']].head())


                                           urdu_text  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                       نہیں پائین 😎   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...   

                                        cleaned_text  
0                 لینے دے میری شادی فسادن ٹھیک کوجی   
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں میں  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                             پائین   
4      مراد علی شاہ بھیس ڈی جی آئی ایس آئی  حامد میر  


# **Applying  and stemming and lemmatization**

In [None]:
# Function to perform basic stemming
def simple_stem(word):
    # List of common Urdu suffixes
    suffixes = ['یں', 'وں', 'ے', 'نے', 'ا', 'ی', 'ت', 'نا', 'گا', 'گی', 'تے', 'ل', 'وں', 'تا', 'تے', 'اس', 'کا']

    # Remove suffixes from the word
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]

    return word  #return word if no suffix

# Function for stemming the entire text
def stem_text(text):
    stemmed_words = [simple_stem(word) for word in text.split()]
    return ' '.join(stemmed_words)

# Apply stemming to the cleaned text
df['stemmed_text'] = df['cleaned_text'].apply(stem_text)

# Display the cleaned and stemmed text
print(df[['cleaned_text', 'stemmed_text']].head())


                                        cleaned_text  \
0                 لینے دے میری شادی فسادن ٹھیک کوجی    
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں میں   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                             پائین    
4      مراد علی شاہ بھیس ڈی جی آئی ایس آئی  حامد میر   

                                        stemmed_text  
0                       لین د میر شاد فسادن ٹھیک کوج  
1             چ مہمان کھان سرو کر چڑی چاچ ن دسد آں م  
2  کامران خان آپک دن بھریہ زمہ دار لگائ گئ اپوزیش...  
3                                              پائین  
4            مراد عل شاہ بھیس ڈ ج آئ ایس آئ حامد میر  


In [None]:
# Simple lemmatization dictionary
lemmatization_dict = {
    'کر': 'کرنا',
    'جاتی': 'جاناہ',
    'گیا': 'جاناہ',
    'کیا': 'کرنا',
    'تھا': 'ہونا',
    'ہوں': 'ہونا',
    'ہیں': 'ہونا',
    'تھی': 'ہونا',
    'چلے': 'چلنا',
    'چلی': 'چلنا',
    'دے': 'دینا',
    'لکھا': 'لکھنا',
    'دیکھا': 'دیکھنا',

}

# Function for basic lemmatization
def lemmatize_word(word):
    return lemmatization_dict.get(word, word)  # Return the lemma or the original word

# Function for lemmatizing the entire text
def lemmatize_text(text):
    lemmatized_words = [lemmatize_word(word) for word in text.split()]
    return ' '.join(lemmatized_words)

# Applying lemmatization to the cleaned text
df['lemmatized_text'] = df['cleaned_text'].apply(lemmatize_text)

# Display the cleaned and lemmatized text
print(df[['cleaned_text', 'lemmatized_text']].head())


                                        cleaned_text  \
0                 لینے دے میری شادی فسادن ٹھیک کوجی    
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں میں   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                             پائین    
4      مراد علی شاہ بھیس ڈی جی آئی ایس آئی  حامد میر   

                                     lemmatized_text  
0                لینے دینا میری شادی فسادن ٹھیک کوجی  
1  چل مہمانوں کھانا سرو کرنا چڑیل چاچی نوں دسدی آ...  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                              پائین  
4       مراد علی شاہ بھیس ڈی جی آئی ایس آئی حامد میر  


In [None]:
"""import re

# Function for manual tokenization
def manual_tokenizer(text):
    # Use regular expressions to split by spaces and keep punctuation separate
    tokens = re.findall(r'\S+', text)  # Split by whitespace, preserving words
    return tokens

# Tokenize the cleaned and lemmatized text
df['tokens'] = df['lemmatized_text'].apply(manual_tokenizer)

# Display lemmatized text and tokens
print(df[['lemmatized_text', 'tokens']].head())


                                     lemmatized_text  \
0                لینے دینا میری شادی فسادن ٹھیک کوجی   
1  چل مہمانوں کھانا سرو کرنا چڑیل چاچی نوں دسدی آ...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                              پائین   
4       مراد علی شاہ بھیس ڈی جی آئی ایس آئی حامد میر   

                                              tokens  
0        [لینے, دینا, میری, شادی, فسادن, ٹھیک, کوجی]  
1  [چل, مہمانوں, کھانا, سرو, کرنا, چڑیل, چاچی, نو...  
2  [کامران, خان, آپکی, دن, بھریہ, زمہ, داری, لگائ...  
3                                            [پائین]  
4  [مراد, علی, شاہ, بھیس, ڈی, جی, آئی, ایس, آئی, ...  


In [None]:
"""from sklearn.feature_extraction.text import TfidfVectorizer

# Initialize the TF-IDF vectorizer
tfidf = TfidfVectorizer(max_features=1000, min_df=1, max_df=0.95)  # limit to top 1000 features

# Apply TF-IDF to lemmatized text
tfidf_matrix = tfidf.fit_transform(df['tokens'])

# Convert the TF-IDF matrix to a DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())

# Display the TF-IDF DataFrame
print(tfidf_df.head())
"""

# Function for manual tokenization
def manual_tokenizer(text):
    # Use regular expressions to split by spaces and keep punctuation separate
    tokens = re.findall(r'\S+', text)  # Split by whitespace, preserving words
    return tokens

# Tokenize the cleaned and lemmatized text
df['tokens'] = df['lemmatized_text'].apply(manual_tokenizer)

# Join tokens back into a string for each row
df['tokens_joined'] = df['tokens'].apply(lambda x: ' '.join(x))

# Initialize the TF-IDF vectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(max_features=1000, min_df=1, max_df=0.95)  # limit to top 1000 features

# Apply TF-IDF to the joined tokens
tfidf_matrix = tfidf.fit_transform(df['tokens_joined'])

# Convert the TF-IDF matrix to a DataFrame
import pandas as pd
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())

# Display the TF-IDF DataFrame
print(tfidf_df.head())


   100   11  200   22  300  pdm  pti  stateabovestaterejected  \
0  0.0  0.0  0.0  0.0  0.0  0.0  0.0                      0.0   
1  0.0  0.0  0.0  0.0  0.0  0.0  0.0                      0.0   
2  0.0  0.0  0.0  0.0  0.0  0.0  0.0                      0.0   
3  0.0  0.0  0.0  0.0  0.0  0.0  0.0                      0.0   
4  0.0  0.0  0.0  0.0  0.0  0.0  0.0                      0.0   

   westandwithsindhpolice   آئ  ...  یاد  یار  یعنی  یقین   یو  یوتھیا  \
0                     0.0  0.0  ...  0.0  0.0   0.0   0.0  0.0     0.0   
1                     0.0  0.0  ...  0.0  0.0   0.0   0.0  0.0     0.0   
2                     0.0  0.0  ...  0.0  0.0   0.0   0.0  0.0     0.0   
3                     0.0  0.0  ...  0.0  0.0   0.0   0.0  0.0     0.0   
4                     0.0  0.0  ...  0.0  0.0   0.0   0.0  0.0     0.0   

   یوتھیوں  یوتھیے  یوں  یہی  
0      0.0     0.0  0.0  0.0  
1      0.0     0.0  0.0  0.0  
2      0.0     0.0  0.0  0.0  
3      0.0     0.0  0.0  0.0  
4      0.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = train_test_split(tfidf_matrix, df['is_sarcastic'], test_size=0.2, random_state=42)

# Initialize a Logistic Regression model
model = LogisticRegression(class_weight='balanced')

# Training the model
model.fit(X_train, y_train)

# Predicting sentiment on the test set
y_pred = model.predict(X_test)

# Calculate and print only the accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.7770
