### Imports

In [5]:
#!pip install pandas


In [6]:
import pandas as pd

#### load datset from uploaded file

In [7]:
file_path = 'urdu_sarcastic_dataset.csv'
df = pd.read_csv(file_path)

df.head()

Unnamed: 0,urdu_text,is_sarcastic,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,1.0,,,,,,
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,1.0,,,,,,
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,0.0,,,,,,
3,نہیں پائین 😎,0.0,,,,,,
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,1.0,,,,,,


## Cleaning the Dataset

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20060 entries, 0 to 20059
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   urdu_text     19955 non-null  object 
 1   is_sarcastic  20004 non-null  float64
 2   Unnamed: 2    0 non-null      float64
 3   Unnamed: 3    0 non-null      float64
 4   Unnamed: 4    0 non-null      float64
 5   Unnamed: 5    0 non-null      float64
 6   Unnamed: 6    17 non-null     object 
 7   Unnamed: 7    38 non-null     float64
dtypes: float64(6), object(2)
memory usage: 1.2+ MB


#### removing the unamed: 2,3,4,5,6,7

In [9]:
df_cleansed = df[['urdu_text', 'is_sarcastic']]
df_cleansed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20060 entries, 0 to 20059
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   urdu_text     19955 non-null  object 
 1   is_sarcastic  20004 non-null  float64
dtypes: float64(1), object(1)
memory usage: 313.6+ KB


In [10]:
df_cleansed.head()

Unnamed: 0,urdu_text,is_sarcastic
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,1.0
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,1.0
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,0.0
3,نہیں پائین 😎,0.0
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,1.0


In [11]:
df_cleansed.describe()

Unnamed: 0,is_sarcastic
count,20004.0
mean,0.50005
std,0.500012
min,0.0
25%,0.0
50%,1.0
75%,1.0
max,1.0


#### here you can see total rows are 20060
#### urdu_text has 19955 out of 20060, they should be taken care of 
#### same for the is_sarcastic

In [12]:
df_cleansed.isnull().sum()

urdu_text       105
is_sarcastic     56
dtype: int64

In [13]:
# now we have the count we will remove them
def_cleansed = df_cleansed.dropna(subset=['urdu_text', 'is_sarcastic'])
df_cleansed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20060 entries, 0 to 20059
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   urdu_text     19955 non-null  object 
 1   is_sarcastic  20004 non-null  float64
dtypes: float64(1), object(1)
memory usage: 313.6+ KB


## Step: 1 Text Processing For Urdu
### Removal of Stop Words

#### imports

In [14]:
import re

In [15]:
urdu_stopwords = [
    "کے", "کا", "کی", "ہے", "ہیں", "کو", "میں", "سے", "اور", "پر", "تھا", "تھی", 
    "تھے", "یہ", "وہ", "ایک", "کچھ", "لیے", "جس", "جن", "جو", "کہ", "نے", "بھی",
    "کر","اگر", "تو", "جب", "تک", "تاکہ", "جیسا", "جیسے", "جس", "بغیر", "ہے", "نہیں",
    "ھے","بھی","کر","آپ","اس","وہ","نہ","اب","جو","جی",
]
urdu_stopwords[:20]

['کے',
 'کا',
 'کی',
 'ہے',
 'ہیں',
 'کو',
 'میں',
 'سے',
 'اور',
 'پر',
 'تھا',
 'تھی',
 'تھے',
 'یہ',
 'وہ',
 'ایک',
 'کچھ',
 'لیے',
 'جس',
 'جن']

#### implementing the function

In [16]:
import warnings
warnings.filterwarnings("ignore", category=pd.errors.SettingWithCopyWarning)

def remove_stopwords(text, stopwords):
    # Check if text is a string; if not, return an empty string
    if not isinstance(text, str):
        return ''
    
    # Tokenize the text by splitting on spaces
    words = text.split()
    # Initialize an empty list to store the filtered words
    filtered_words = []
    # Simple loop to remove words that are in the stopwords list
    for word in words:
        if word not in stopwords:
            filtered_words.append(word)
    # Rejoin the filtered words back into a string
    return ' '.join(filtered_words)

# Applying the stopword removal function to 'urdu_text' column
df_cleansed.loc[:, 'urdu_text_no_stopwords'] = df_cleansed['urdu_text'].apply(lambda x: remove_stopwords(x, urdu_stopwords))

# Displaying both before and after stopword removal
df_cleansed[['urdu_text', 'urdu_text_no_stopwords']].head()

Unnamed: 0,urdu_text,urdu_text_no_stopwords
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک کوجی چاہیے...
1,چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں😂😂
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3,نہیں پائین 😎,پائین 😎
4,`` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر😁


## Removal of emoji, hashtag, URL, Punctuation

In [17]:
pip install emoji

Collecting emojiNote: you may need to restart the kernel to use updated packages.

  Using cached emoji-2.13.2-py3-none-any.whl.metadata (5.8 kB)
Using cached emoji-2.13.2-py3-none-any.whl (553 kB)
Installing collected packages: emoji
Successfully installed emoji-2.13.2



[notice] A new release of pip is available: 24.1.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [18]:
import emoji

In [19]:
# Dictionary to map some common emojis to their sentiment words in Urdu

emoji_sentiment_dict = {
    "😂": "مثبت",  # positive
    "🤣": "مثبت",  # positive
    "😊": "خوشی",  # happiness
    "😎": "مثبت",  # positive
    "😡": "منفی",  # negative
    "😢": "منفی",  # negative
    "😭": "منفی",  # negative
    "👍": "مثبت",  # positive
    "👎": "منفی"   # negative
}

"""
# Dictionary to map some common emojis to their sentiment words in Urdu
emoji_sentiment_dict = {
    ":face_with_tears_of_joy:": "مثبت",  # 😂
    ":rolling_on_the_floor_laughing:": "مثبت",  # 🤣
    ":smiling_face_with_smiling_eyes:": "خوشی",  # 😊
    ":smiling_face_with_sunglasses:": "مثبت",  # 😎
    ":angry_face:": "منفی",  # 😡
    ":crying_face:": "منفی",  # 😢
    ":loudly_crying_face:": "منفی",  # 😭
    ":thumbs_up:": "مثبت",  # 👍
    ":thumbs_down:": "منفی"   # 👎
}
"""
def clean_text(text):
    # Remove URLs
    text = re.sub(r"http\S+|www\S+|https\S+", '', text, flags=re.MULTILINE)
    # Remove hashtags and mentions
    text = re.sub(r'\@\w+|\#\w+', '', text)
    # Remove punctuation (except for Urdu-specific punctuation)
    text = re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]', '', text)
    # Replace emojis with sentiment words using the emoji library
    #text = emoji.demojize(text)  # Convert emojis to text like :smiling_face_with_smiling_eyes:
    for emoji_code, sentiment in emoji_sentiment_dict.items():
        text = text.replace(emoji_code, sentiment)  # Replace emoji descriptions with sentiment words
    text = emoji.replace_emoji(text, replace='')
    return text

# Apply the clean_text function to the 'urdu_text_no_stopwords' column
df_cleansed['urdu_text_cleaned'] = df_cleansed['urdu_text_no_stopwords'].apply(clean_text)

# Display before and after examples of text cleaning
df_cleansed[['urdu_text_no_stopwords', 'urdu_text_cleaned']].head()

Unnamed: 0,urdu_text_no_stopwords,urdu_text_cleaned
0,🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک کوجی چاہیے...,مثبتمثبتمثبت ہو لینے دے میری شادی فسادن ٹھیک ک...
1,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں😂😂,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
3,پائین 😎,پائین مثبت
4,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر😁,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر


## Removal of Short Posts less than 3 words

In [20]:
def filtered_short_posts(text):
    word_count = len(text.split())
    return word_count >= 3

df_filtered = df_cleansed[df_cleansed['urdu_text_cleaned'].apply(filtered_short_posts)]
df_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19102 entries, 0 to 20003
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   urdu_text               19102 non-null  object 
 1   is_sarcastic            19102 non-null  float64
 2   urdu_text_no_stopwords  19102 non-null  object 
 3   urdu_text_cleaned       19102 non-null  object 
dtypes: float64(1), object(3)
memory usage: 746.2+ KB


In [21]:
df_filtered[['urdu_text_cleaned']].head()

Unnamed: 0,urdu_text_cleaned
0,مثبتمثبتمثبت ہو لینے دے میری شادی فسادن ٹھیک ک...
1,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
4,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر
5,قابل اعتبار ہی اکثر قاتل اعتبار ہوتے


## Step: 2 Stemming And Lemmitization for Urdu Text

### Stemming

In [22]:
# Dictionary for stemming
stemming_dict = {
    'ہے': 'ہ',
    'ہیں': 'ہ',
    'تھا': 'ہ',
    'ہوں': 'ہ',
    'ہو': 'ہ',
    'کر': 'کر',
    'کیا': 'کر',
    'کریں': 'کر',
    'گا': 'گ',
    'گیا': 'گ',
    'رہے': 'رہ',
    'رہا': 'رہ',
    'پر': 'پر',
    'سے': 'سے',
    'میں': 'میں',
    'کو': 'کو',
    'کہ': 'کہ',
    'بھی': 'بھی',
    'تو': 'تو',
    'ہی': 'ہ',
    'نہ': 'نہ',
    'یا': 'یا',
    # Add more mappings as needed
}

# A function for simple rule-based stemming using the stemming dictionary
def urdu_stemmer(word):
    return stemming_dict.get(word, word)  # Return the stemmed word if it exists, else return the word itself

# Apply the stemmer to each word in the cleaned text
def stem_text(text):
    words = text.split()
    stemmed_words = [urdu_stemmer(word) for word in words]
    return ' '.join(stemmed_words)

# Apply the stemming function to the 'urdu_text_cleaned' column
df_filtered['urdu_text_stemmed'] = df_filtered['urdu_text_cleaned'].apply(stem_text)

# Display before and after examples of stemming
df_filtered[['urdu_text_cleaned', 'urdu_text_stemmed']].tail()

Unnamed: 0,urdu_text_cleaned,urdu_text_stemmed
19999,راجہ صاحب توڑ سنگ تکر چھڈیا۔۔۔ ہن آواز نئی نکل...,راجہ صاحب توڑ سنگ تکر چھڈیا۔۔۔ ہن آواز نئی نکل...
20000,بعد بےبی پرائم منسٹر بن گئی۔۔مثبتمثبتمثبتمثبت,بعد بےبی پرائم منسٹر بن گئی۔۔مثبتمثبتمثبتمثبت
20001,اتنا بونگا وزیر اعظم ڈھونڈنے ملے گا,اتنا بونگا وزیر اعظم ڈھونڈنے ملے گ
20002,کاکا تم عِدت پوری ہونے دی عوام کیسے تیری مدت ...,کاکا تم عِدت پوری ہونے دی عوام کیسے تیری مدت پ...
20003,جتنا مرضی بلیک میل لیں این آر او دوں گا،جتنے م...,جتنا مرضی بلیک میل لیں این آر او دوں گا،جتنے م...


In [23]:
df_filtered[['urdu_text_cleaned', 'urdu_text_stemmed']].head()

Unnamed: 0,urdu_text_cleaned,urdu_text_stemmed
0,مثبتمثبتمثبت ہو لینے دے میری شادی فسادن ٹھیک ک...,مثبتمثبتمثبت ہ لینے دے میری شادی فسادن ٹھیک کو...
1,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...
4,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر
5,قابل اعتبار ہی اکثر قاتل اعتبار ہوتے,قابل اعتبار ہ اکثر قاتل اعتبار ہوتے


### Lemmitization

In [24]:
# Function to apply lemmatization based on the dictionary
def lemmatize_text(text, lemmatization_dict):
    words = text.split()
    # Replace words based on lemmatization dictionary
    lemmatized_words = [lemmatization_dict.get(word, word) for word in words]
    return ' '.join(lemmatized_words)

# Dictionary for lemmatization
lemmatization_dict = {
    'یہ': 'یہ',
    'آپ': 'آپ',
    'وہ': 'وہ',
    'ہم': 'ہم',
    'تم': 'تو',
    'ان': 'ان',
    'کسی': 'کس',
    'اللہ': 'اللہ',
    'خان': 'خان',
    'بات': 'بات',
    'صاحب': 'صاحب',
    'پاکستان': 'پاکستان',
    'سندھ': 'سندھ',
    'اب': 'اب',
    'بہت': 'بہ',
    'سب': 'سب',
    'کوئی': 'کوئی',
    'اور': 'اور',
    'کا': 'ک',
    'کی': 'ک',
    'کے': 'ک',
    # New additions
    'گئی': 'جانا',
    'لگائی': 'لگا',
    'ہوتے': 'ہونا',
    'کرنا': 'کر',
    'کہا': 'کہنا',
    'پائین': 'پانا',
    'جاتی': 'جانا',
    'بنائی': 'بننا'
}

# Apply the lemmatization function to the 'urdu_text_stemmed' column
df_filtered['urdu_text_lemmatized'] = df_filtered['urdu_text_stemmed'].apply(lambda x: lemmatize_text(x, lemmatization_dict))

# Display before and after examples of lemmatization
df_filtered[['urdu_text_stemmed', 'urdu_text_lemmatized']].head()

Unnamed: 0,urdu_text_stemmed,urdu_text_lemmatized
0,مثبتمثبتمثبت ہ لینے دے میری شادی فسادن ٹھیک کو...,مثبتمثبتمثبت ہ لینے دے میری شادی فسادن ٹھیک کو...
1,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...
2,کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...,کامران خان آپکی دن بھریہ زمہ داری لگا جانا اپو...
4,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر
5,قابل اعتبار ہ اکثر قاتل اعتبار ہوتے,قابل اعتبار ہ اکثر قاتل اعتبار ہونا


In [25]:
df_filtered[['urdu_text_stemmed', 'urdu_text_lemmatized']].tail()

Unnamed: 0,urdu_text_stemmed,urdu_text_lemmatized
19999,راجہ صاحب توڑ سنگ تکر چھڈیا۔۔۔ ہن آواز نئی نکل...,راجہ صاحب توڑ سنگ تکر چھڈیا۔۔۔ ہن آواز نئی نکل...
20000,بعد بےبی پرائم منسٹر بن گئی۔۔مثبتمثبتمثبتمثبت,بعد بےبی پرائم منسٹر بن گئی۔۔مثبتمثبتمثبتمثبت
20001,اتنا بونگا وزیر اعظم ڈھونڈنے ملے گ,اتنا بونگا وزیر اعظم ڈھونڈنے ملے گ
20002,کاکا تم عِدت پوری ہونے دی عوام کیسے تیری مدت پ...,کاکا تو عِدت پوری ہونے دی عوام کیسے تیری مدت پ...
20003,جتنا مرضی بلیک میل لیں این آر او دوں گا،جتنے م...,جتنا مرضی بلیک میل لیں این آر او دوں گا،جتنے م...


## Feature Extraction from Text 

## Tokenization

In [26]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hatee\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [27]:
# Tokenization function using NLTK
def tokenize_text(text):
    tokens = word_tokenize(text)
    return tokens

# Apply tokenization to the 'urdu_text_lemmatized' column
df_filtered['urdu_text_tokens'] = df_filtered['urdu_text_lemmatized'].apply(tokenize_text)

# Display tokenized examples
df_filtered[['urdu_text_lemmatized', 'urdu_text_tokens']].head()

Unnamed: 0,urdu_text_lemmatized,urdu_text_tokens
0,مثبتمثبتمثبت ہ لینے دے میری شادی فسادن ٹھیک کو...,"[مثبتمثبتمثبت, ہ, لینے, دے, میری, شادی, فسادن,..."
1,چل مہمانوں کھانا سرو چڑیل چاچی نوں دسدی آں میں...,"[چل, مہمانوں, کھانا, سرو, چڑیل, چاچی, نوں, دسد..."
2,کامران خان آپکی دن بھریہ زمہ داری لگا جانا اپو...,"[کامران, خان, آپکی, دن, بھریہ, زمہ, داری, لگا,..."
4,`` مراد علی شاہ بھیس ڈی آئی ایس آئی '' حامد میر,"[``, مراد, علی, شاہ, بھیس, ڈی, آئی, ایس, آئی, ..."
5,قابل اعتبار ہ اکثر قاتل اعتبار ہونا,"[قابل, اعتبار, ہ, اکثر, قاتل, اعتبار, ہونا]"


## TF-IDF

In [28]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [29]:
# Initialize the TfidfVectorizer with a reduced feature set
tfidf_vectorizer_reduced = TfidfVectorizer()

# Combine the tokenized words back into sentences for the TF-IDF vectorizer
df_filtered['urdu_text_for_tfidf'] = df_filtered['urdu_text_tokens'].apply(lambda x: ' '.join(x))

# Fit and transform the text data to compute TF-IDF scores with reduced features
tfidf_matrix_reduced = tfidf_vectorizer_reduced.fit_transform(df_filtered['urdu_text_for_tfidf'])

# Get feature names (words) and their respective TF-IDF scores
tfidf_feature_names_reduced = tfidf_vectorizer_reduced.get_feature_names_out()
tfidf_scores_reduced = tfidf_matrix_reduced.toarray()

# Sum TF-IDF scores across all documents for each feature (word)
word_scores_reduced = tfidf_scores_reduced.sum(axis=0)

# Create a DataFrame to sort and display top terms by their TF-IDF scores
tfidf_df_reduced = pd.DataFrame({'word': tfidf_feature_names_reduced, 'score': word_scores_reduced})
tfidf_top_words_reduced = tfidf_df_reduced.sort_values(by='score', ascending=False).head(10)

# Display the top 10 words with highest TF-IDF scores
tfidf_top_words_reduced


Unnamed: 0,word,score
13209,مثبت,375.688422
19010,کر,365.657218
8797,رہ,244.68634
21746,ہے,208.660022
13229,مثبتمثبت,196.12739
2538,اللہ,175.969492
19583,کوئی,173.319169
19322,کس,171.9797
7141,خان,168.910178
13240,مثبتمثبتمثبت,165.91917


## Word2Vec

In [30]:
pip install gensim

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.1.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
#pip install --upgrade scipy 

In [32]:

from gensim.models import Word2Vec 

# Apply the lemmatization function to the 'urdu_text_stemmed' column
df_filtered['urdu_text_lemmatized'] = df_filtered['urdu_text_stemmed'].apply(lambda x: lemmatize_text(x, lemmatization_dict))

# Tokenization function using NLTK
def tokenize_text(text):
    tokens = word_tokenize(text)
    return tokens

# Apply tokenization to the 'urdu_text_lemmatized' column
df_filtered['urdu_text_tokens'] = df_filtered['urdu_text_lemmatized'].apply(tokenize_text)

# Prepare the tokenized text data for Word2Vec
tokenized_sentences = df_filtered['urdu_text_tokens'].tolist()

# Train the Word2Vec model
w2v_model = Word2Vec(sentences=tokenized_sentences, vector_size=100, window=5, min_count=2, workers=4, sg=0)

# Find the top 5 words most similar to "اچھا" (good)
try:
    similar_words = w2v_model.wv.most_similar("اچھا", topn=5)
except KeyError:
    similar_words = "The word 'اچھا' was not found in the vocabulary."

similar_words

[('بلاک', 0.9905962347984314),
 ('سوار', 0.9902935028076172),
 ('درد', 0.9901655912399292),
 ('بہتر', 0.9896510243415833),
 ('مثبتمثبتمثبتمثبتمثبتمثبتمثبت', 0.9896172881126404)]

### N-GRAM

In [38]:
from nltk.util import ngrams
from collections import Counter

# Function to generate n-grams and calculate their frequencies
def generate_ngrams(tokens, n):
    return list(ngrams(tokens, n))

# Collect all tokens for n-grams analysis
all_tokens = df_filtered['urdu_text_tokens'].tolist()

# Flatten the list of token lists into a single list of tokens
flattened_tokens = [token for tokens in all_tokens for token in tokens]

# Generate bigrams and trigrams
bigrams = generate_ngrams(flattened_tokens, 2)
trigrams = generate_ngrams(flattened_tokens, 3)

# Calculate frequencies of bigrams and trigrams
bigram_freq = Counter(bigrams)
trigram_freq = Counter(trigrams)

# Get the top 10 most common bigrams and trigrams
top_10_bigrams = bigram_freq.most_common(10)
top_10_trigrams = trigram_freq.most_common(10)

# Display the top 10 bigrams and trigrams along with their counts
top_10_bigrams, top_10_trigrams


([(('عمران', 'خان'), 494),
  (('نواز', 'شریف'), 442),
  (('سندھ', 'پولیس'), 299),
  (('ہ', 'گ'), 260),
  (('آرمی', 'چیف'), 223),
  (('خان', 'صاحب'), 179),
  (('کیپٹن', 'صفدر'), 177),
  (('مثبت', 'مثبت'), 166),
  (('مریم', 'نواز'), 157),
  (('جزاک', 'اللہ'), 156)],
 [(('پی', 'ٹی', 'آئی'), 114),
  (('صلی', 'اللہ', 'علیہ'), 87),
  (('پی', 'ڈی', 'ایم'), 86),
  (('مثبت', 'مثبت', 'مثبت'), 85),
  (('جزاک', 'اللہ', 'خیر'), 70),
  (('فالو', 'کر', 'فالو'), 69),
  (('کر', 'فالو', 'بیک'), 63),
  (('والوں', 'فالو', 'کر'), 60),
  (('ایس', 'ایچ', 'او'), 55),
  (('فالورز', 'اضافہ', 'کر'), 53)])

In [44]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# Step 1: Prepare Data for Modeling
# Use TF-IDF features
tfidf_vectorizer = TfidfVectorizer(max_features=1000)
X_tfidf = tfidf_vectorizer.fit_transform(df_filtered['urdu_text_lemmatized'])

# Target variable
y = df_filtered['is_sarcastic']

# Step 2: Split Data into Training and Test Sets
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Step 3: Train the Model
# Use Logistic Regression as the classifier
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Step 4: Evaluate the Model
# Predict on the test set
y_pred = model.predict(X_test)

# Calculate accuracy, precision, recall, and F1-score
classification_report_result = classification_report(y_test, y_pred)
confusion_matrix_result = confusion_matrix(y_test, y_pred)

print(classification_report_result)


              precision    recall  f1-score   support

         0.0       0.75      0.75      0.75      1848
         1.0       0.76      0.76      0.76      1973

    accuracy                           0.76      3821
   macro avg       0.76      0.76      0.76      3821
weighted avg       0.76      0.76      0.76      3821

