In [13]:
import pandas as pd

# Load the dataset (replace 'urdu_dataset.csv' with your actual dataset file)
# The dataset contains two columns: 'text' for the posts and 'sentiment' for the sentiment labels.
df = pd.read_csv('urdu_sarcastic_dataset.csv')

# Display the first few rows of the dataset
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
3                                       نہیں پائین 😎           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  
0         NaN         NaN         NaN         NaN        NaN         NaN  
1         NaN         NaN         NaN         NaN        NaN         NaN  
2         NaN         NaN         NaN         NaN        NaN         NaN  
3         NaN         NaN         NaN         NaN        NaN         NaN  
4         NaN         NaN         NaN         NaN        NaN         NaN  


In [14]:
df.columns

Index(['urdu_text', 'is_sarcastic', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7'],
      dtype='object')

In [15]:
#Sopword removal
# Custom list of Urdu stopwords
stopwords = ["اور", "یہ", "کہ", "ہیں", "تھا", "تھی", "میں", "سے", "کا", "کو"]  # Add more stopwords as needed
sentiment_carrying_stopwords = ["نہیں", "برا"]  # Stopwords with sentiment

# Function to remove stopwords
def remove_stopwords(text, stopwords, sentiment_carrying_stopwords):
    words = text.split()
    filtered_words = [word for word in words if word not in stopwords or word in sentiment_carrying_stopwords]
    return ' '.join(filtered_words)

# Apply the function to the dataset
df['cleaned_text'] = df['urdu_text'].apply(lambda x: remove_stopwords(str(x), stopwords, sentiment_carrying_stopwords))

# Display the dataset after stopword removal
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
3                                       نہیں پائین 😎           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  \
0         NaN         NaN         NaN         NaN        NaN         NaN   
1         NaN         NaN         NaN         NaN        NaN         NaN   
2         NaN         NaN         NaN         NaN        NaN         NaN   
3         NaN         NaN         NaN         NaN        NaN         NaN   
4         NaN         NaN         NaN         NaN        NaN         NaN   

                                        cleaned_text  
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...  
1  چل مہمانو

In [16]:
#Remove Punctuation, Emojis, URLs, and Hashtags
import re
import emoji

# Emoji to sentiment dictionary
emoji_sentiment = {
    "😊": "positive",
    "😢": "negative",
    "❤": "positive",
    "😠": "negative",
    "😂": "positive",    
    "😎": "positive",  
}

# Function to clean text: remove URLs, hashtags, mentions, and punctuation
def clean_text(text):
    # Remove URLs
    text = re.sub(r'http\S+', '', text)
    
    # Remove hashtags and mentions
    text = re.sub(r'#\S+|@\S+', '', text)
    
    # Remove punctuation
    text = re.sub(r'[^\w\s]', '', text)
    
    return text

# Function to replace emojis with sentiment
def replace_emojis_with_sentiment(text):
    return emoji.replace_emoji(text, replace=lambda e: emoji_sentiment.get(e, ''))

# Combine cleaning functions
def preprocess_text(text):
    text = clean_text(text)
    text = replace_emojis_with_sentiment(text)
    return text

# Apply preprocessing to the dataset
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: preprocess_text(x))

# Display the dataset after text cleaning
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
3                                       نہیں پائین 😎           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  \
0         NaN         NaN         NaN         NaN        NaN         NaN   
1         NaN         NaN         NaN         NaN        NaN         NaN   
2         NaN         NaN         NaN         NaN        NaN         NaN   
3         NaN         NaN         NaN         NaN        NaN         NaN   
4         NaN         NaN         NaN         NaN        NaN         NaN   

                                        cleaned_text  
0   ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں ...  
1  چل مہمانو

In [17]:
# Filter Short Conversations
# Function to filter out short posts
def filter_short_posts(text, min_word_count=3):
    word_count = len(text.split())
    if word_count < min_word_count:
        return None
    return text

# Apply the function to the dataset
df['cleaned_text'] = df['cleaned_text'].apply(lambda x: filter_short_posts(x))

# Drop rows where posts were too short (None values)
df = df.dropna(subset=['cleaned_text'])

# Display the dataset after filtering short posts
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   
5        قابل اعتبار ہی اکثر قاتل اعتبار ہوتے ہیں 💔🔥           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  \
0         NaN         NaN         NaN         NaN        NaN         NaN   
1         NaN         NaN         NaN         NaN        NaN         NaN   
2         NaN         NaN         NaN         NaN        NaN         NaN   
4         NaN         NaN         NaN         NaN        NaN         NaN   
5         NaN         NaN         NaN         NaN        NaN         NaN   

                                        cleaned_text  
0   ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں ...  
1  چل مہمانو

In [18]:
#stemming
# A simple list of common Urdu suffixes for gender and plurality
suffixes = ['ی', 'ے', 'وں', 'یں', 'ا', 'ہ']

# Function for stemming in Urdu
def urdu_stemmer(word):
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]
    return word  # Return the word if no suffix matches

# Stem all words in a sentence
def stem_sentence(sentence):
    words = sentence.split()
    stemmed_words = [urdu_stemmer(word) for word in words]
    return ' '.join(stemmed_words)

# Apply stemming to the dataset
df['stemmed_text'] = df['cleaned_text'].apply(lambda x: stem_sentence(str(x)))

# Display the dataset after stemming
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   
5        قابل اعتبار ہی اکثر قاتل اعتبار ہوتے ہیں 💔🔥           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  \
0         NaN         NaN         NaN         NaN        NaN         NaN   
1         NaN         NaN         NaN         NaN        NaN         NaN   
2         NaN         NaN         NaN         NaN        NaN         NaN   
4         NaN         NaN         NaN         NaN        NaN         NaN   
5         NaN         NaN         NaN         NaN        NaN         NaN   

                                        cleaned_text  \
0   ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں ...   
1  چل مہما

In [19]:
#try lemmatization
# Simple dictionary for lemmatization (expand as needed)
lemma_dict = {
    "چل رہی": "چل",  # is moving -> move
    "کھیلا": "کھیل",  # played -> play
    "لڑکوں": "لڑکا",  # boys -> boy
    "اچھی": "اچھا",  # good (feminine) -> good
}

# Function for lemmatization in Urdu
def urdu_lemmatizer(word):
    # Check if the word exists in the lemma dictionary
    if word in lemma_dict:
        return lemma_dict[word]
    
    # Fallback to stemming if not found in the dictionary
    return urdu_stemmer(word)

# Lemmatize all words in a sentence
def lemmatize_sentence(sentence):
    words = sentence.split()
    lemmatized_words = [urdu_lemmatizer(word) for word in words]
    return ' '.join(lemmatized_words)

# Apply lemmatization to the dataset
df['lemmatized_text'] = df['stemmed_text'].apply(lambda x: lemmatize_sentence(str(x)))

# Display the final dataset with lemmatized text
print(df.head())


                                           urdu_text  is_sarcastic  \
0  🤣😂😂 ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہ...           1.0   
1  چل مہمانوں میں کھانا سرو کر چڑیل چاچی نوں دسدی...           1.0   
2  کامران خان آپکی دن بھریہ زمہ داری لگائی گئی اپ...           0.0   
4   `` مراد علی شاہ کے بھیس میں ڈی جی آئی ایس آئی...           1.0   
5        قابل اعتبار ہی اکثر قاتل اعتبار ہوتے ہیں 💔🔥           1.0   

   Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5 Unnamed: 6  Unnamed: 7  \
0         NaN         NaN         NaN         NaN        NaN         NaN   
1         NaN         NaN         NaN         NaN        NaN         NaN   
2         NaN         NaN         NaN         NaN        NaN         NaN   
4         NaN         NaN         NaN         NaN        NaN         NaN   
5         NaN         NaN         NaN         NaN        NaN         NaN   

                                        cleaned_text  \
0   ہو لینے دے میری شادی فسادن ٹھیک ہے کوجی نہیں ...   
1  چل مہما

In [20]:
#-----------------------Phase3- FEATURE EXTRACTION----------------------------------------

In [31]:
import nltk
import os

# Set the NLTK data path to your custom directory
nltk.data.path.append(os.path.join(os.getcwd(), 'nltk_data'))

# Download the Punkt tokenizer model
nltk.download('punkt', download_dir=os.path.join(os.getcwd(), 'nltk_data'))


[nltk_data] Downloading package punkt to c:\Users\haiqa\OneDrive\Deskt
[nltk_data]     op\NLP\assignment_1\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [40]:
import re

# Simple regex-based tokenizer
def simple_tokenize_urdu(text):
    tokens = re.findall(r'\S+', text)  # Match any non-whitespace character sequences
    return tokens

# Apply simple tokenization on the lemmatized text
df['tokenized_lemmatized_text'] = df['lemmatized_text'].apply(simple_tokenize_urdu)

# Display tokenized versions of several lemmatized texts
print(df[['lemmatized_text', 'tokenized_lemmatized_text']].head())


                                     lemmatized_text  \
0             ہو لین د میر شاد فسادن ٹھیک  کوج ن چاہ   
1           چل مہمان کھان سرو کر چڑیل چاچ ن دسد آں م   
2  کامران خان آپک دن بھر زم دار لگائ گئ اپوزیشن ک...   
4         مراد عل ش ک بھیس ڈ ج آئ ایس آئ تھ حامد میر   
5                  قابل اعتبار  اکثر قاتل اعتبار ہوت   

                           tokenized_lemmatized_text  
0   [ہو, لین, د, میر, شاد, فسادن, ٹھیک, کوج, ن, چاہ]  
1  [چل, مہمان, کھان, سرو, کر, چڑیل, چاچ, ن, دسد, ...  
2  [کامران, خان, آپک, دن, بھر, زم, دار, لگائ, گئ,...  
4  [مراد, عل, ش, ک, بھیس, ڈ, ج, آئ, ایس, آئ, تھ, ...  
5            [قابل, اعتبار, اکثر, قاتل, اعتبار, ہوت]  


In [42]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Load your dataset (assuming df is already defined with 'tokenized_lemmatized_text')
# df = pd.read_csv('path_to_your_dataset.csv')

# Join the tokenized text back into a single string for vectorization
df['joined_lemmatized_text'] = df['tokenized_lemmatized_text'].apply(lambda x: ' '.join(x))

# Create the TF-IDF vectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(df['joined_lemmatized_text'])

# Get feature names (words)
feature_names = tfidf_vectorizer.get_feature_names_out()

# Sum the TF-IDF scores for each word and convert to a 1D array
tfidf_scores = tfidf_matrix.sum(axis=0).A1

# Create a DataFrame to display the scores
tfidf_df = pd.DataFrame(tfidf_scores, index=feature_names, columns=['tfidf_score']).sort_values(by='tfidf_score', ascending=False)

# Get the top 10 words
top_10_words_tfidf = tfidf_df.head(10)
print("Top 10 words with highest TF-IDF scores:")
print(top_10_words_tfidf)


Top 10 words with highest TF-IDF scores:
     tfidf_score
تو    528.682963
کر    512.696197
بھ    465.945567
ہو    411.590584
اس    345.438345
پر    317.888692
آپ    314.388385
میر   252.560996
وال   250.086957
ایک   242.124841


In [50]:
#Train Word2Vec
from gensim.models import Word2Vec

# Ensure that your tokenized lemmatized text is in the correct format for Word2Vec
sentences = df['tokenized_lemmatized_text'].tolist()

# Train the Word2Vec model
word2vec_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# Find top 5 words most similar to "اچھا"
similar_words = word2vec_model.wv.most_similar("اچھا", topn=5)
print("Top 5 words most similar to 'اچھا':")
for word, score in similar_words:
    print(f"{word}: {score:.4f}")


Top 5 words most similar to 'اچھا':
تھااچھ: 0.5756
68: 0.5720
بتر: 0.5509
برسائ: 0.5484
دئي: 0.5479


In [52]:
#-------------------PHASE 4------------------

# If you have a column with lemmatized text, use that; otherwise, ensure your text is tokenized correctly.
df['joined_lemmatized_text'] = df['tokenized_lemmatized_text'].apply(lambda x: ' '.join(x))


In [70]:
import pandas as pd
from nltk.util import ngrams
from nltk import word_tokenize
from collections import Counter


# Load your dataset
# df = pd.read_csv('path_to_your_dataset.csv')

# If you have a column with lemmatized text, use that; otherwise, ensure your text is tokenized correctly.
df['joined_lemmatized_text'] = df['tokenized_lemmatized_text'].apply(lambda x: ' '.join(x))

# Tokenization function using NLTK
def tokenize_urdu(text):
    return word_tokenize(text)  # Use NLTK's word_tokenize

# Function to generate n-grams
def generate_ngrams(text, n):
    tokens = tokenize_urdu(text)
    return list(ngrams(tokens, n))

# Create empty counters for unigrams, bigrams, and trigrams
unigram_counter = Counter()
bigram_counter = Counter()
trigram_counter = Counter()


In [71]:

# Iterate through each text entry in the DataFrame
for text in df['joined_lemmatized_text']:
    unigrams = generate_ngrams(text, 1)
    bigrams = generate_ngrams(text, 2)
    trigrams = generate_ngrams(text, 3)
    
    unigram_counter.update(unigrams)
    bigram_counter.update(bigrams)
    trigram_counter.update(trigrams)

# Get the most common unigrams, bigrams, and trigrams
top_10_unigrams = unigram_counter.most_common(10)
top_10_bigrams = bigram_counter.most_common(10)
top_10_trigrams = trigram_counter.most_common(10)

# Display the results
print("Top 10 Unigrams:")
print(top_10_unigrams)
print("\nTop 10 Bigrams:")
print(top_10_bigrams)
print("\nTop 10 Trigrams:")
print(top_10_trigrams)

LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\haiqa/nltk_data'
    - 'c:\\Users\\haiqa\\AppData\\Local\\Programs\\Python\\Python312\\nltk_data'
    - 'c:\\Users\\haiqa\\AppData\\Local\\Programs\\Python\\Python312\\share\\nltk_data'
    - 'c:\\Users\\haiqa\\AppData\\Local\\Programs\\Python\\Python312\\lib\\nltk_data'
    - 'C:\\Users\\haiqa\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'c:\\Users\\haiqa\\OneDrive\\Desktop\\NLP\\assignment_1\\nltk_data'
**********************************************************************
