**Loading dataset**


In [21]:
import pandas as pd
import re


# Load dataset
df = pd.read_csv('urdu_sarcastic_dataset.csv')

# Dropping null values in the 'urdu_text' column
df.dropna(subset=['urdu_text'], inplace=True)
df.head()



Unnamed: 0,urdu_text,is_sarcastic,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,1.0,,,,,,
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,1.0,,,,,,
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,0.0,,,,,,
3,نہیں پائین 😎,0.0,,,,,,
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,1.0,,,,,,


Removing stopwords and extra spacing

In [3]:
# Stop words
stopwords = [
    'اور', 'کی', 'ہے', 'میں', 'کو', 'کے', 'تھا', 'تھے', 'تھی', 'پر',
    'ہو', 'کا', 'نہیں', 'بھی', 'جو', 'وہ', 'یہ', 'ایک', 'اگر',
    'تک', 'لیکن', 'ہم', 'تم', 'اس', 'ان', 'اپنے', 'ہمیں', 'میرے',
    'پاس', 'سب', 'وہاں', 'جس', 'صرف', 'تجھے', 'چونکہ', 'تاکہ',
    'کچھ', 'تھا', 'تو', 'دو', 'ساتھ', 'کیوں', 'پھر', 'اگر',
    'جب', 'جہاں', 'ایسا', 'کسی', 'کس', 'انکا', 'اپنا', 'انکے',
    'یہاں', 'کیا', 'نہ', 'پہلے', 'بعد', 'کامیابی', 'ہوا',
    'دور', 'جہاں', 'کم', 'زیادہ', 'دوسرے', 'جیسے', 'چاہیے',
    'بغیر', 'سوال', 'جواب', 'تاکہ', 'خود', 'اپنے', 'کیا'
]


# Function to remove stop words
def removing_stopwords(text):
    if isinstance(text, str):  # Checking for exceptions
        words = text.split()
        clean_words = [word for word in words if word not in stopwords]
        return ' '.join(clean_words)
    return text

# Applying stopword removal
df['cleaned_text'] = df['urdu_text'].apply(removing_stopwords)



# Display the cleaned text
print(df[['urdu_text', 'cleaned_text']].head())


                                           urdu_text  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                       نہیں پائین 😎   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...   

                                        cleaned_text  
0         🤣😂😂 لینے دے میری شادی فسادن ٹھیک کوجی 😐😐😐🤣  
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں ...  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                            پائین 😎  
4  `` مراد علی شاہ بھیس ڈی جی آئی ایس آئی '' حامد...  


Removing emojis, Hashtag and URLS


In [22]:


# Emoji dictionary for sentiment mapping
emoji_sentiment_dict = {
    "😊": "positive",
    "😍": "positive",
    "😂": "positive",
    "😢": "negative",
    "😡": "negative",
    "😎": "positive",
    "😔": "negative"
}

# Function to clean the text
def clean_text(text):
    # Remove URLs
    text = re.sub(r'http\S+|www\S+', '', text)
    # Remove hashtags
    text = re.sub(r'#\w+', '', text)
    # Remove punctuation
    text = re.sub(r'[^\w\s]', '', text)
    # Translate emojis using the emoji sentiment dictionary
    for emoji, sentiment in emoji_sentiment_dict.items():
        text = text.replace(emoji, sentiment)
    return text

# Apply cleaning to the text
df['cleaned_text'] = df['urdu_text'].apply(clean_text)

# Display cleaned text
print(df[['urdu_text', 'cleaned_text']].head())


                                           urdu_text  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                       نہیں پائین 😎   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...   

                                        cleaned_text  
0   ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں ...  
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                        نہیں پائین   
4    مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی ت...  


# **Filtering Short Conversations**

In [20]:
# Function to filter out posts with fewer than three words
def filter_short_posts(text):
    # Split the text into words and count the words
    word_count = len(text.split())
    # Keep the post only if it has 3 or more words
    if word_count >= 3:
        return True
    else:
        return False

# Filter out short posts
df = df[df['cleaned_text'].apply(filter_short_posts)]




# **Applying  and stemming**

In [5]:
# Function to perform basic stemming
def simple_stem(word):
    # List of common Urdu suffixes
    suffixes = ['یں', 'وں', 'ے', 'نے', 'ا', 'ی', 'ت', 'نا', 'گا', 'گی', 'تے', 'ل', 'وں', 'تا', 'تے', 'اس', 'کا']

    # Remove suffixes from the word
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]

    return word  #return word if no suffix

# Function for stemming the entire text
def stem_text(text):
    stemmed_words = [simple_stem(word) for word in text.split()]
    return ' '.join(stemmed_words)

# Apply stemming to the cleaned text
df['stemmed_text'] = df['cleaned_text'].apply(stem_text)

# Display the cleaned and stemmed text
print(df[['cleaned_text', 'stemmed_text']].head())


                                        cleaned_text  \
0                 لینے دے میری شادی فسادن ٹھیک کوجی    
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں میں   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                             پائین    
4      مراد علی شاہ بھیس ڈی جی آئی ایس آئی  حامد میر   

                                        stemmed_text  
0                       لین د میر شاد فسادن ٹھیک کوج  
1             چ مہمان کھان سرو کر چڑی چاچ ن دسد آں م  
2  کامران خان آپک دن بھریہ زمہ دار لگائ گئ اپوزیش...  
3                                              پائین  
4            مراد عل شاہ بھیس ڈ ج آئ ایس آئ حامد میر  


# **Applying lematization**

In [6]:
# Simple lemmatization dictionary
lemmatization_dict = {
    'کر': 'کرنا',
    'جاتی': 'جاناہ',
    'گیا': 'جاناہ',
    'کیا': 'کرنا',
    'تھا': 'ہونا',
    'ہوں': 'ہونا',
    'ہیں': 'ہونا',
    'تھی': 'ہونا',
    'چلے': 'چلنا',
    'چلی': 'چلنا',
    'دے': 'دینا',
    'لکھا': 'لکھنا',
    'دیکھا': 'دیکھنا',

}

# Function for basic lemmatization
def lemmatize_word(word):
    return lemmatization_dict.get(word, word)  # Return the lemma or the original word

# Function for lemmatizing the entire text
def lemmatize_text(text):
    lemmatized_words = [lemmatize_word(word) for word in text.split()]
    return ' '.join(lemmatized_words)

# Applying lemmatization to the cleaned text
df['lemmatized_text'] = df['cleaned_text'].apply(lemmatize_text)

# Display the cleaned and lemmatized text
print(df[['cleaned_text', 'lemmatized_text']].head())


                                        cleaned_text  \
0                 لینے دے میری شادی فسادن ٹھیک کوجی    
1  چل مہمانوں کھانا سرو کر چڑیل چاچی نوں دسدی آں میں   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                             پائین    
4      مراد علی شاہ بھیس ڈی جی آئی ایس آئی  حامد میر   

                                     lemmatized_text  
0                لینے دینا میری شادی فسادن ٹھیک کوجی  
1  چل مہمانوں کھانا سرو کرنا چڑیل چاچی نوں دسدی آ...  
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...  
3                                              پائین  
4       مراد علی شاہ بھیس ڈی جی آئی ایس آئی حامد میر  


# **Tokenization**

In [7]:
# Function for manual tokenization (as before)
def manual_tokenizer(text):
    tokens = re.findall(r'\S+', text)  # Split by whitespace, preserving words
    return tokens

# Tokenize the lemmatized text
df['tokens'] = df['lemmatized_text'].apply(manual_tokenizer)

# Display the tokenized version of several Urdu social media posts
print(df[['urdu_text', 'tokens']].head())


                                           urdu_text  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...   
3                                       نہیں پائین 😎   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...   

                                              tokens  
0        [لینے, دینا, میری, شادی, فسادن, ٹھیک, کوجی]  
1  [چل, مہمانوں, کھانا, سرو, کرنا, چڑیل, چاچی, نو...  
2  [کامران, خان, آپکی, دن, بھریہ, زمہ, داری, لگائ...  
3                                            [پائین]  
4  [مراد, علی, شاہ, بھیس, ڈی, جی, آئی, ایس, آئی, ...  


# **TF-IDF**

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Join tokens back into strings for each row to prepare for TF-IDF
df['tokens_joined'] = df['tokens'].apply(lambda x: ' '.join(x))

# Initialize the TF-IDF vectorizer
tfidf = TfidfVectorizer(max_features=1000, min_df=1, max_df=0.95)

# Apply TF-IDF to the joined tokens
tfidf_matrix = tfidf.fit_transform(df['tokens_joined'])

# Convert the TF-IDF matrix to a DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())

# Get the top 10 words with the highest TF-IDF scores
top_tfidf_words = tfidf_df.sum().sort_values(ascending=False).head(10)

# Display the top 10 words
print("Top 10 words with the highest TF-IDF scores:")
print(top_tfidf_words)


Top 10 words with the highest TF-IDF scores:
ہونا     886.323177
سے       786.088821
کرنا     608.484694
نے       582.377779
ہی       457.097862
آپ       432.586687
ہے       420.659056
کہ       409.497448
اللہ     328.875276
جاناہ    282.683598
dtype: float64


# **Word2vec**

In [10]:
from gensim.models import Word2Vec

# Prepare the tokenized data as input for Word2Vec
tokenized_texts = df['tokens'].tolist()

# Train a Word2Vec model (adjust parameters as necessary)
model = Word2Vec(sentences=tokenized_texts, vector_size=100, window=5, min_count=1, workers=4)

# Get the top 5 most similar words to 'اچھا'
similar_words = model.wv.most_similar('اچھا', topn=5)

# Display the top 5 similar words
print("Top 5 words most similar to 'اچھا':")
for word, similarity in similar_words:
    print(f"{word}: {similarity}")


Top 5 words most similar to 'اچھا':
مزاق: 0.989402711391449
بڑی: 0.9893449544906616
آسان: 0.9883087873458862
صحیح: 0.987295389175415
چاہتا: 0.9872193336486816


# **NGRAMS**

In [11]:
import nltk
from collections import Counter
from nltk.util import ngrams

# Function to generate unigrams, bigrams, and trigrams
def generate_ngrams(tokens_list, n):
    n_grams = [ngrams(tokens, n) for tokens in tokens_list]
    return [gram for grams in n_grams for gram in grams]  # Flatten the list

# Generate unigrams, bigrams, and trigrams
unigrams = generate_ngrams(df['tokens'].tolist(), 1)
bigrams = generate_ngrams(df['tokens'].tolist(), 2)
trigrams = generate_ngrams(df['tokens'].tolist(), 3)

# Count frequencies of bigrams and trigrams
bigram_freq = Counter(bigrams)
trigram_freq = Counter(trigrams)

# Get the top 10 most common bigrams and trigrams
top_10_bigrams = bigram_freq.most_common(10)
top_10_trigrams = trigram_freq.most_common(10)

# Display top 10 bigrams
print("Top 10 most common bigrams:")
for bigram, freq in top_10_bigrams:
    print(f"{bigram}: {freq}")

# Display top 10 trigrams
print("\nTop 10 most common trigrams:")
for trigram, freq in top_10_trigrams:
    print(f"{trigram}: {freq}")


Top 10 most common bigrams:
('عمران', 'خان'): 500
('نواز', 'شریف'): 446
('رہے', 'ہونا'): 435
('آئی', 'جی'): 312
('سندھ', 'پولیس'): 297
('کہتے', 'ہونا'): 250
('کرتے', 'ہونا'): 246
('آرمی', 'چیف'): 223
('آپ', 'نے'): 221
('جزاک', 'اللہ'): 209

Top 10 most common trigrams:
('آئی', 'جی', 'سندھ'): 118
('پی', 'ٹی', 'آئی'): 114
('کرنا', 'رہے', 'ہونا'): 111
('صلی', 'اللہ', 'علیہ'): 108
('اللہ', 'علیہ', 'وآلہ'): 87
('علیہ', 'وآلہ', 'وسلم'): 87
('پی', 'ڈی', 'ایم'): 86
('جزاک', 'اللہ', 'خیر'): 78
('فالو', 'کریں', 'فالو'): 73
('کریں', 'فالو', 'بیک'): 71


# **Classification Model**

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report

# Assuming 'sentiment' column exists in your dataset (1 for positive, 0 for negative)
# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = train_test_split(tfidf_matrix, df['is_sarcastic'], test_size=0.2, random_state=42)

# Initialize the Logistic Regression model (you can switch to SVM, Naive Bayes, etc.)
model = LogisticRegression()

# Train the model
model.fit(X_train, y_train)

# Predict sentiment on the test set
y_pred = model.predict(X_test)

# Calculate accuracy, precision, recall, and F1-score
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Print the results
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-score: {f1:.4f}")

# Print detailed classification report
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Accuracy: 0.7685
Precision: 0.7643
Recall: 0.7572
F1-score: 0.7607

Classification Report:
              precision    recall  f1-score   support

         0.0       0.77      0.78      0.78      2051
         1.0       0.76      0.76      0.76      1940

    accuracy                           0.77      3991
   macro avg       0.77      0.77      0.77      3991
weighted avg       0.77      0.77      0.77      3991



# **Evaluation and Optimization**

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

# Splitting data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(tfidf_matrix, df['is_sarcastic'], test_size=0.2, random_state=42)

# Train the model on the training set
model.fit(X_train, y_train)

# Predict on validation set
y_val_pred = model.predict(X_val)

# Generate classification report
print("Classification Report:")
print(classification_report(y_val, y_val_pred))

# Generate confusion matrix
print("Confusion Matrix:")
print(confusion_matrix(y_val, y_val_pred))


Classification Report:
              precision    recall  f1-score   support

         0.0       0.77      0.78      0.78      2051
         1.0       0.76      0.76      0.76      1940

    accuracy                           0.77      3991
   macro avg       0.77      0.77      0.77      3991
weighted avg       0.77      0.77      0.77      3991

Confusion Matrix:
[[1598  453]
 [ 471 1469]]
