# Phase 1 - Data Collection and Data Preprocessing

In [1]:
from idlelib.editor import darwin
!pip install pandas




[notice] A new release of pip is available: 23.2.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


# Data Loading

In [2]:
import pandas as pd
file_path = 'urdu-sentiment-corpus-v1.tsv'
data = pd.read_csv(file_path, sep='\t')
data.head()


Unnamed: 0,Tweet,Class
0,میں نے ایٹم بم بنایا ھے ۔۔۔۔او بھائی ایٹم بمب ...,P
1,چندے سے انقلاب اور عمران خان وزیر اعظم نہیں بن...,N
2,ٹویٹر کا خیال کیسے آیا ؟,O
3,"سرچ انجن گوگل کے نائب صدر نے فضا میں ، 130,000...",P
4,ابھی تک اسکی لہریں کبھی کبھی آ جاتی ہیں یار :أْ,P


# Loading Stop Words

In [3]:
stopWords=[]
with open('urdu_stopwords.txt', 'r', encoding='utf-8') as f:
    for line in f:
        stopWords.append(line.strip()) # used strip to remove leading and trailing white spaces
stopWords


['آئی',
 'آئے',
 'آج',
 'آخر',
 'آخرکبر',
 'آدهی',
 'آًب',
 'آٹھ',
 'آیب',
 'اة',
 'اخبزت',
 'اختتبم',
 'ادھر',
 'ارد',
 'اردگرد',
 'ارکبى',
 'اش',
 'اضتعوبل',
 'اضتعوبلات',
 'اضطرذ',
 'اضکب',
 'اضکی',
 'اضکے',
 'اطراف',
 'اغیب',
 'افراد',
 'الگ',
 'اور',
 'اوًچب',
 'اوًچبئی',
 'اوًچی',
 'اوًچے',
 'اى',
 'اً',
 'اًذر',
 'اًہیں',
 'اٹھبًب',
 'اپٌب',
 'اپٌے',
 'اچھب',
 'اچھی',
 'اچھے',
 'اکثر',
 'اکٹھب',
 'اکٹھی',
 'اکٹھے',
 'اکیلا',
 'اکیلی',
 'اکیلے',
 'اگرچہ',
 'اہن',
 'ایطے',
 'ایک',
 'ب',
 'ت',
 'تبزٍ',
 'تت',
 'تر',
 'ترتیت',
 'تریي',
 'تعذاد',
 'تن',
 'تو',
 'توبم',
 'توہی',
 'توہیں',
 'تٌہب',
 'تک',
 'تھب',
 'تھوڑا',
 'تھوڑی',
 'تھوڑے',
 'تھی',
 'تھے',
 'تیي',
 'ثب',
 'ثبئیں',
 'ثبترتیت',
 'ثبری',
 'ثبرے',
 'ثبعث',
 'ثبلا',
 'ثبلترتیت',
 'ثبہر',
 'ثدبئے',
 'ثرآں',
 'ثراں',
 'ثرش',
 'ثعذ',
 'ثغیر',
 'ثلٌذ',
 'ثلٌذوثبلا',
 'ثلکہ',
 'ثي',
 'ثٌب',
 'ثٌبرہب',
 'ثٌبرہی',
 'ثٌبرہے',
 'ثٌبًب',
 'ثٌذ',
 'ثٌذکرو',
 'ثٌذکرًب',
 'ثٌذی',
 'ثڑا',
 'ثڑوں',
 'ثڑی',
 'ثڑے',
 'ثھر',
 'ثھرا',
 'ثھر

# Removing Stop Words

In [4]:
def remove_stop_words(text):
    text = text.split()
    filtered_text = []
    for word in text:
        if word not in stopWords:
            filtered_text.append(word)
    return ' '.join(filtered_text)
after_stop_wors=remove_stop_words('میں نے ایک  کتاب پڑھی ہے')  # Demo removing stop words
print(after_stop_wors)

میں کتاب پڑھی


In [5]:
data['Tweet']=data['Tweet'].apply(remove_stop_words)
data.head()

Unnamed: 0,Tweet,Class
0,میں ایٹم بم بنایا ۔۔۔۔او بھائی ایٹم بمب کوٹ لک...,P
1,چندے سے انقلاب عمران خان وزیر اعظم نہیں بن سکتے,N
2,ٹویٹر کا خیال کیسے آیا ؟,O
3,"سرچ انجن گوگل نائب صدر فضا میں ، 130,000 فٹ بل...",P
4,ابھی اسکی لہریں کبھی کبھی آ جاتی یار :أْ,P


# Removing URL

In [6]:
import re
def remove_url(text):
    pattern=re.compile(r'https?://\S+|www\.\S+')   
    return pattern.sub(r'', text)

after_url=remove_url('میں نے ایک  کتاب پڑھی ہے https://www.google.com')  # Demo removing URL
after_url
    

'میں نے ایک  کتاب پڑھی ہے '

In [7]:
data["Tweet"]=data["Tweet"].apply(remove_url)
data.head()

Unnamed: 0,Tweet,Class
0,میں ایٹم بم بنایا ۔۔۔۔او بھائی ایٹم بمب کوٹ لک...,P
1,چندے سے انقلاب عمران خان وزیر اعظم نہیں بن سکتے,N
2,ٹویٹر کا خیال کیسے آیا ؟,O
3,"سرچ انجن گوگل نائب صدر فضا میں ، 130,000 فٹ بل...",P
4,ابھی اسکی لہریں کبھی کبھی آ جاتی یار :أْ,P


# Removing Punctuations

In [8]:
import string
# got these punctuations from Chatgpt and appended english one's also as some people use those as punc
urdu_punctuation = {
    "۔",  # Full stop (وقفہ)
    "،",  # Comma (وقفہ)
    "؛",  # Semicolon (نیم وقفہ)
    ":",  # Colon (دو نقطے)
    "؟",  # Question mark (سوالیہ نشان)
    "?",  # Question mark (سوالیہ نشان)
    "!",  # Exclamation mark (ندائیہ نشان)
    "\"\"",  # Quotation marks (اقتباس)
    "''",  # Single quotes (ایک قوسین)
    "()",  # Parentheses (قوسین)
    "-",  # Hyphen (ربط نشان)
    "…",  # Ellipsis (تین نقطے)
    "/",  # Slash (سلیش)
    "@",  # At symbol (ایٹ)
    "#",  # Hash (ہیش)
    "%",  # Percentage sign (فیصد)
}

# Add unique English punctuations
urdu_punctuation.update(string.punctuation)

new_urdu_punc = ''.join(urdu_punctuation)
print(new_urdu_punc)


"_،\^[-)$+:…<&'`%,*=};.۔(?~؟#{!""|@()>''؛]/


In [9]:
def remove_punc(text):
    for word in text:
        if word in new_urdu_punc:
            text = text.replace(word, "")
    return text

after_punc=remove_punc('میں نے- ایک  کتاب? پڑھی>< ہے!')  # Demo removing Punctuation
print(after_punc)

میں نے ایک  کتاب پڑھی ہے


In [10]:
data["Tweet"]=data["Tweet"].apply(remove_punc)
data.head()

Unnamed: 0,Tweet,Class
0,میں ایٹم بم بنایا او بھائی ایٹم بمب کوٹ لکھپت ...,P
1,چندے سے انقلاب عمران خان وزیر اعظم نہیں بن سکتے,N
2,ٹویٹر کا خیال کیسے آیا,O
3,سرچ انجن گوگل نائب صدر فضا میں 130000 فٹ بلند...,P
4,ابھی اسکی لہریں کبھی کبھی آ جاتی یار أْ,P


# Removing Emojis


# Removing short Convo

In [11]:
def remove_short_convo(text):
    # Drop rows where the 'Tweet' column has less than 3 words
    return text[text['Tweet'].apply(lambda x: len(x.split()) >= 3)]


# text['Tweet'].apply(lambda x: len(x.split()) >= 3) applies a lambda function to each element in the 'Tweet' column.
# The lambda function returns True if the tweet contains 3 or more words, and False otherwise.
# This results in a Series of boolean values.
# Apply the Boolean Mask:  
# text[text['Tweet'].apply(lambda x: len(x.split()) >= 3)] uses the boolean mask to filter the DataFrame.
# Only the rows where the mask is True are selected


test_list = pd.DataFrame({
    'Tweet': [
        'کتاب ہے',  # This is a book
        'آج موسم خوشگوار ہے',  # The weather is pleasant today
        'مجھے چائے پسند ہے'  # I like tea
    ],
    'Class': ['P', 'N', 'O']
})

test_list=remove_short_convo(test_list)
print(test_list)

                Tweet Class
1  آج موسم خوشگوار ہے     N
2   مجھے چائے پسند ہے     O


In [12]:
data=remove_short_convo(data)
data.head()

Unnamed: 0,Tweet,Class
0,میں ایٹم بم بنایا او بھائی ایٹم بمب کوٹ لکھپت ...,P
1,چندے سے انقلاب عمران خان وزیر اعظم نہیں بن سکتے,N
2,ٹویٹر کا خیال کیسے آیا,O
3,سرچ انجن گوگل نائب صدر فضا میں 130000 فٹ بلند...,P
4,ابھی اسکی لہریں کبھی کبھی آ جاتی یار أْ,P
