##### Segmentation using UrduHack

In [None]:
import urduhack
from urduhack.tokenization import sentence_tokenizer

sentences = sentence_tokenizer(text)
sentences

In [5]:
len(sentences) 

2

===========================================================================================================

In [34]:
import pandas as pd
import re
from collections import defaultdict, Counter
from tqdm import tqdm

#### Reading the txt file

In [2]:
def load_urdu_corpus(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            data = file.readlines()  # Reading line by line
        print("Data loaded successfully.")
        print("First few lines of the data:")
        for line in data[:10]:
            print(line.strip())  # Strip to remove any leading/trailing whitespace
        return data
    except Exception as e:
        print(f"An error occurred while loading the data: {e}")

In [3]:
urdu_corpus = load_urdu_corpus(r"C:\Users\LOQ\Downloads\urdu-corpus.txt")

Data loaded successfully.
First few lines of the data:
گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پید ا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ،صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھاہے کی رپورٹ پیش کیں ساتھ ہی اورنگزیب کی طرح جواب دیا، حقائق کی ’’قبر ذرا گہری کھودنا!‘‘ تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے غریبوں میں شربت، پان اور کھانا تقسیم کیا جا رہا ہے، فقیروں، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13ویں تاجدار محمد شاہ بیٹھے ہیں، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے، کیوں نادر شاہ ن

#### STAGE1: PREPROCESSING (NORMALIZATION/CLEANING)

In [4]:
# Step1: Load and Combine Text
text = ' '.join([line.strip() for line in urdu_corpus])

In [5]:
#text[0:1000]
text[0:2100]

'گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پید ا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ،صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھاہے کی رپورٹ پیش کیں ساتھ ہی اورنگزیب کی طرح جواب دیا، حقائق کی ’’قبر ذرا گہری کھودنا!‘‘ تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے غریبوں میں شربت، پان اور کھانا تقسیم کیا جا رہا ہے، فقیروں، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13ویں تاجدار محمد شاہ بیٹھے ہیں، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے، کیوں نادر شاہ نے ڈھائی ماہ قبل ان سے سلطنت چھین لی تھی 56 دن دہلی میں

In [6]:
#Step2 Remove quotation marks
quotation_marks = [
    '‘', '’', '“', '”', '«', '»', '``', "''", '"', '‟', '„', '❝', '❞',
    '〝', '〞', '〃', '‹', '›', '„', '‚', '❛', '❜', '❟', '＂',
    '＇', '`', '´', '˝', '¨', '＾', '˘', 'ˇ', '˙', '˚', '˛', '˜', 'ˉ'
]
for mark in quotation_marks:
    text = text.replace(mark, '')

In [7]:
#text[0:1000]
text[1010:2010]

' نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں، لیکن اسے دہلی کی ایک طوائف نور بائی نے، جس کا ذکر آگے چل کر آئے گا، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں، آج سے ہم بھائی بھائی بن گئے ہیں، تو کیوں نہ اسی رسم کا اعادہ کیا جائے؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی، اور اس کی پگڑی اپنے سر، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ)اس ہیرے کے مالک محمد شاہ اپنے پڑدادا اورنگزیب عالمگیر کے دورِ حکومت میں 1702 میں پ

In [8]:
# Step3: remove extra spaces
text = re.sub(r'\s+', ' ', text).strip()

In [9]:
# text[0:1000]
text[1010:2010]

' نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں، لیکن اسے دہلی کی ایک طوائف نور بائی نے، جس کا ذکر آگے چل کر آئے گا، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں، آج سے ہم بھائی بھائی بن گئے ہیں، تو کیوں نہ اسی رسم کا اعادہ کیا جائے؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی، اور اس کی پگڑی اپنے سر، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ)اس ہیرے کے مالک محمد شاہ اپنے پڑدادا اورنگزیب عالمگیر کے دورِ حکومت میں 1702 میں پ

In [10]:
# Step4: Separate punctuation marks
punctuation_marks = [
    '!', '؟', '۔', ',', '،', ';', '؛', ':', '-', '_', '—', '(', ')', '[', ']', '{', '}',
    '/', '|', '*', '&', '^', '%', '$', '#', '@', '~', '+', '=', '<', '>', '.', '?'
]

# Escape all punctuation marks using re.escape
escaped_punctuation_marks = ''.join([re.escape(char) for char in punctuation_marks])

# regex pattern
punctuation_pattern = r'([{}])'.format(escaped_punctuation_marks)

# Apply the regex to separate punctuation marks
text = re.sub(punctuation_pattern, r' \1 ', text)

In [11]:
#text[0:1000]
text[1010:2010]

'دن دہلی میں رہنے کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ،  لیکن اسے دہلی کی ایک طوائف نور بائی نے ،  جس کا ذکر آگے چل کر آئے گا ،  خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ،  وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ،  ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ،  آج سے ہم بھائی بھائی بن گئے ہیں ،  تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟  محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ،  اور اس کی پگڑی اپنے سر ،  اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ ) اس ہیرے کے مالک محمد شاہ اپنے پڑدا

In [12]:
# Step5: Separate Numeric Digits
text = re.sub(r'(\d+)', r' \1 ', text)

In [13]:
#text[0:1000]
text[1010:2010]

'ھی  56  دن دہلی میں رہنے کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ،  لیکن اسے دہلی کی ایک طوائف نور بائی نے ،  جس کا ذکر آگے چل کر آئے گا ،  خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ،  وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ،  ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ،  آج سے ہم بھائی بھائی بن گئے ہیں ،  تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟  محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ،  اور اس کی پگڑی اپنے سر ،  اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ ) اس ہیرے کے مالک محمد شاہ ا

In [14]:
# Step6: Remove Extra Spaces
text = re.sub(r'\s+', ' ', text).strip()

In [15]:
#text[0:1000]
text[1010:2010]

' کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ، لیکن اسے دہلی کی ایک طوائف نور بائی نے ، جس کا ذکر آگے چل کر آئے گا ، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ، آج سے ہم بھائی بھائی بن گئے ہیں ، تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ، اور اس کی پگڑی اپنے سر ، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ ) اس ہیرے کے مالک محمد شاہ اپنے پڑدادا اورنگزیب عالمگیر کے دور

In [16]:
# Step7: Remove Non-Urdu Characters
def is_allowed_char(char):
    """
    Function to check if a character is in the allowed Unicode ranges for Urdu,
    is a digit, a space, or an allowed punctuation mark.
    """
    cp = ord(char)
    # Urdu and Arabic script ranges
    if (0x0600 <= cp <= 0x06FF) or (0x0750 <= cp <= 0x077F) or \
       (0x08A0 <= cp <= 0x08FF) or (0xFB50 <= cp <= 0xFDFF) or \
       (0xFE70 <= cp <= 0xFEFF) or (0x0660 <= cp <= 0x0669):
        return True
    # ASCII digits
    if 0x0030 <= cp <= 0x0039:
        return True
    # Allowed punctuation marks
    if char in punctuation_marks:
        return True
    # Space
    if char == ' ':
        return True
    return False

# Remove non-Urdu characters from the text
text = ''.join([char for char in text if is_allowed_char(char)])

In [17]:
#text[0:1000]
text[1010:2010]

' کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ، لیکن اسے دہلی کی ایک طوائف نور بائی نے ، جس کا ذکر آگے چل کر آئے گا ، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ، آج سے ہم بھائی بھائی بن گئے ہیں ، تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ، اور اس کی پگڑی اپنے سر ، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگیلا بادشاہ ) اس ہیرے کے مالک محمد شاہ اپنے پڑدادا اورنگزیب عالمگیر کے دور

In [18]:
# Step8: correcting Specific Words

split_word_corrections = {
    'پید ا': 'پیدا',
    # Add more 
}

for incorrect, correct in split_word_corrections.items():
    # Use regex to ensure exact matches
    pattern = r'\b' + re.escape(incorrect) + r'\b'
    text = re.sub(pattern, correct, text)


combined_word_corrections = {
    'اچھاہے': 'اچھا ہے',
}

for incorrect, correct in combined_word_corrections.items():
    # Use regex to ensure exact matches
    pattern = r'\b' + re.escape(incorrect) + r'\b'
    text = re.sub(pattern, correct, text)


In [19]:
# preprocessed text
print("Preprocessed Text:")
# print(text[0:1010:])
print(text[0:4010])

Preprocessed Text:
گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پیدا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ، صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھا ہے کی رپورٹ پیش کیں ساتھ ہی اورنگزیب کی طرح جواب دیا ، حقائق کی قبر ذرا گہری کھودنا ! تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل ، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے غریبوں میں شربت ، پان اور کھانا تقسیم کیا جا رہا ہے ، فقیروں ، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13 ویں تاجدار محمد شاہ بیٹھے ہیں ، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے ، کیوں نادر شاہ نے ڈھائی ماہ قبل ان سے سلطنت چھ

In [20]:
data = text

In [21]:
# step9: Split text into words based on spaces
words = text.split(' ')

In [22]:
print("\nFirst 225 Words:")
print(words[:240])


First 225 Words:
['گزشتہ', 'کئی', 'سالوں', 'سے', 'مختلف', 'بحران', 'آتے', 'جاتے', 'رہے', 'لیکن', 'حالیہ', 'آٹا', '،', 'چینی', 'سمیت', 'دیگر', 'بحران', 'اچانک', 'پیدا', 'ہوئے', 'اور', 'ان', 'پر', 'جے', 'آئی', 'ٹی', 'تشکیل', 'دے', 'دیں', 'گئیں', 'تاکہ', 'عوام', 'کو', 'ریلیف', 'دیا', 'جاسکے', 'دوسری', 'جانب', 'بجلی', '،', 'گیس', '،', 'پانی', 'سمیت', 'دیگر', 'بلوں', 'میں', 'کئی', 'سو', 'گنا', 'اضافہ', 'کردیا', 'گیا', '،', 'صوبائی', 'و', 'وفاقی', 'وزراء', 'نے', 'اپنے', 'اپنے', 'ایوانوں', 'بحران', 'کے', 'ذمہ', 'دار', 'عناصر', 'کو', 'بے', 'نقاب', 'کرنے', 'کے', 'بجائے', 'سب', 'اچھا', 'ہے', 'کی', 'رپورٹ', 'پیش', 'کیں', 'ساتھ', 'ہی', 'اورنگزیب', 'کی', 'طرح', 'جواب', 'دیا', '،', 'حقائق', 'کی', 'قبر', 'ذرا', 'گہری', 'کھودنا', '!', 'تاریخی', 'گواہ', 'ہے', 'بقول', 'ماہرین', '،', 'مبصرین', 'اور', 'صحافیوں', 'کا', 'کہنا', 'اور', 'لکھنا', 'ہے', 'کہ', 'پگڑی', 'بدل', 'بھائی', 'کی', 'رسم', 'کی', 'آڑ', 'میں', 'نادر', 'شاہ', 'نے', 'محمد', 'شاہ', 'رنگیلا', 'سے', 'کوہِ', 'نور', 'ہیرا', 'حاصل', 'کیا', 'تھا', 

=========================================================================================================

#### STAGE2: Sentence Segmentation

In [23]:
conjunctions = [
    'اسے', 'اور', 'اگر', 'اگرچہ', 'بقول', 'بلکہ', 'بھی', 'تاکہ', 'تاہم', 
    'تو', 'جاتا', 'جب', 'جبکہ', 'جس', 'جسے', 'جن', 'جنہیں', 'جو', 'جہاں', 'جیسے',
    'حالانکہ', 'لہذا', 'لیکن', 'مثلاً', 'مگر', 'پر', 'پس', 'چونکہ', 'کہ', 'کیونکہ', 'یا',
    'یعنی', 'اور پھر', 'اگرچہ کہ', 'چاہے', 'اسی لیے', 'اس کے باوجود', 'جیسا کہ', 'اسی وقت', 'بشرطیکہ'
]

eos_words = [
    'بنیں', 'تھا', 'تھی', 'تھیں', 'تھے', 'جائیں', 'جائے', 'جاسکے', 'خریدا', 'دیا', 'رکھتے',
    'رہا', 'رہی', 'رہے', 'رہیں', 'سکیں', 'لگا', 'لگی', 'لگے', 'چاہئے', 'چاہیے', 'کرسکے',
    'کھایا', 'کہا', 'کیجئے', 'کیجیے', 'کیں', 'گئی', 'گئیں', 'گا', 'گی', 'گیا', 'گے', 'ہوئیں', 'ہونگے',
    'ہوتا', 'ہوگا', 'ہوں', 'ہیں', 'ہے', 'کھڑا', 'چلیں', 'بتایا', 'سنا', 'پہنچا', 'چاہتا', 'چلایا',
    'سکھایا', 'دیکھا', 'سنائی', 'دیا جا سکتا', 'لائے', 'کھڑے', 'پکڑا', 'کرتا',
    'معلوم ہوا', 'سمجھا'
]

In [24]:
# Question words list for Question Words Preceding Question Marks
question_words = [
    'کیا', 'کون', 'کہاں', 'کیوں', 'کب', 'کس نے', 'کسے', 'کسی نے', 'کون سا', 'کیا ہے'
]

postpositions = ['کا', 'کے', 'کی', 'کو', 'سے', 'میں', 'پر', 'تک', 'نے', 'اور', 'یا', 'تو', 'اگر', 'لیکن', 'کہ']

# Sentence-ending punctuation marks
sentence_end_punctuations = ['؟', '!', '۔']  # Question mark, exclamation mark, full stop
punctuation_marks = ['،', '؛', '!', '؟', '-', '۔']  # Includes Arabic comma and semicolon

### Sentence Segmentation Function

In [25]:
def urdu_sentence_segmentation(text, conjunctions, eos_words):
    import re
    words = text.split()  # Split text into words
    sentences = []
    current_sentence = []
    
    # Define punctuation marks
    sentence_end_punctuations = ['؟', '!', '۔']  # Question mark, exclamation mark, full stop
    punctuation_marks = ['،', '؛', '!', '؟', '-', '۔']  # Includes Arabic comma and semicolon
    postpositions = ['کا', 'کے', 'کی', 'کو', 'سے', 'میں', 'پر', 'تک', 'نے', 'اور', 'یا', 'تو', 'اگر', 'لیکن', 'کہ']

    i = 0
    while i < len(words):
        word = words[i]
        current_sentence.append(word)
        segment = False  # Flag to decide whether to segment the sentence

        # Rule 1: If the word ends with sentence-ending punctuation, possibly preceded by a hyphen, segment the sentence
        if re.search(r'(-)?[؟!۔]$', word):
            segment = True

        # Rule 5: Do not split if an Arabic comma is encountered
        elif word == '،':
            segment = False

        # Rule 7: Do not segment if the word is a conjunction
        elif word in conjunctions:
            segment = False

        # Rule 6: If a hyphen is encountered, segment sentence (except when hyphen is between numbers and not at the end)
        elif '-' in word:
            parts = word.split('-')
            # Check if hyphen is between numbers
            if not (len(parts) == 2 and parts[0].isdigit() and parts[1].isdigit()):
                # Also check if hyphen is not at the end of the word (already handled in Rule 1)
                if not re.search(r'-$', word):
                    segment = True

        # Rule 2, 3, and 4: If an EOS word appears
        elif word in eos_words:
            # Look ahead to see if there are consecutive EOS words
            eos_sequence_end = i
            for j in range(i + 1, len(words)):
                if words[j] in eos_words:
                    eos_sequence_end = j
                    current_sentence.append(words[j])  # Include consecutive EOS words
                else:
                    break
            # Now check the word after the last EOS word
            if eos_sequence_end + 1 < len(words):
                next_word = words[eos_sequence_end + 1]
                if (next_word in conjunctions or next_word in punctuation_marks or next_word == '،' or next_word in postpositions):
                    segment = False
                    i = eos_sequence_end  # Move i to the last EOS word
                else:
                    segment = True
                    i = eos_sequence_end  # Move i to the last EOS word
            else:
                # End of text after EOS words
                segment = True
                i = eos_sequence_end  # Move i to the last EOS word

        if segment:
            # Before adding the sentence, adjust the ending if necessary
            sentence = ' '.join(current_sentence).strip()
            # Replace '-!' with '!', '-?' with '?', and '-۔' with '۔' at the end of the sentence
            sentence = re.sub(r'-(?=[؟!۔]$)', '', sentence)
            sentences.append(sentence)
            current_sentence = []
            i += 1  # Move to next word after segmentation
            continue

        i += 1

    # Add the last sentence if there's any remaining words
    if current_sentence:
        sentence = ' '.join(current_sentence).strip()
        
    # Loop through words to handle '-!' and '-؟'
    for idx, word in enumerate(words):
        if word.endswith('-!'):
            words[idx] = word[:-2] + '!'  # Replace '-!' with '!'
        elif word.endswith('-؟'):
            words[idx] = word[:-2] + '؟'  # Replace '-؟' with '؟'

    # Return sentences separated by '- '
    return '- '.join(sentences)

In [26]:
text = """
گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پیدا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ، صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھا ہے کی رپورٹ پیش کیں ساتھ ہی اورنگزیب کی طرح جواب دیا ، حقائق کی قبر ذرا گہری کھودنا ! تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل ، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے غریبوں میں شربت ، پان اور کھانا تقسیم کیا جا رہا ہے ، فقیروں ، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13 ویں تاجدار محمد شاہ بیٹھے ہیں ، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے ، کیوں نادر شاہ نے ڈھائی ماہ قبل ان سے سلطنت چھین لی تھی 56 دن دہلی میں رہنے کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ، لیکن اسے دہلی کی ایک طوائف نور بائی نے ، جس کا ذکر آگے چل کر آئے گا ، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ، آج سے ہم بھائی بھائی بن گئے ہیں ، تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ، اور اس کی پگڑی اپنے سر ، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگی"""

In [27]:
output = urdu_sentence_segmentation(data, conjunctions, eos_words)

# Print the segmented sentences
print(output[0:3000])

گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پیدا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے- دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ، صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھا ہے کی رپورٹ پیش کیں- ساتھ ہی اورنگزیب کی طرح جواب دیا ، حقائق کی قبر ذرا گہری کھودنا !- تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا- 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل ، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے- غریبوں میں شربت ، پان اور کھانا تقسیم کیا جا رہا ہے ، فقیروں ، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں- آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13 ویں تاجدار محمد شاہ بیٹھے ہیں ، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے ، کیوں نادر شاہ نے ڈھائی ماہ قبل ان سے سلطنت چھین لی تھی- 56

In [28]:
text2 = """بے چاری عوام چونکہ ہمیشہ سے دھوکہ کھانے کی عادی رہی ہے اس لئے ‘‘تبدیلی سرکار’’ کی چکنی چپڑی باتوں میں آگئی اور اپنے بہتر مستقبل
کے لئے نئی حکومت کو اقتدار کے ایوانوں تک پہنچا دیا"""

In [29]:
output2 = urdu_sentence_segmentation(text2, conjunctions, eos_words)
print(output2)

بے چاری عوام چونکہ ہمیشہ سے دھوکہ کھانے کی عادی رہی ہے- اس لئے ‘‘تبدیلی سرکار’’ کی چکنی چپڑی باتوں میں آگئی اور اپنے بہتر مستقبل کے لئے نئی حکومت کو اقتدار کے ایوانوں تک پہنچا دیا


In [30]:
data = re.sub(r'\s+', ' ', data).strip()

In [31]:
tokens=list(output)
print(len(tokens))
print(len(set(tokens)))

6463030
116


-----------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------

In [1]:
import urduhack

# Downloading models
urduhack.download()


TensorFlow Addons (TFA) has ended development and introduction of new features.
TFA has entered a minimal maintenance and release mode until a planned end of life in May 2024.
Please modify downstream libraries to take dependencies from other repositories in our TensorFlow community (e.g. Keras, Keras-CV, and Keras-NLP). 

For more information see: https://github.com/tensorflow/addons/issues/2807 



In [52]:
from urduhack.tokenization import sentence_tokenizer
nlp = urduhack.Pipeline()

In [None]:

text = """
گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا ، چینی سمیت دیگر بحران اچانک پیدا ہوئے اور ان پر جے آئی ٹی تشکیل دے دیں گئیں تاکہ عوام کو ریلیف دیا جاسکے دوسری جانب بجلی ، گیس ، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا ، صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھا ہے کی رپورٹ پیش کیں ساتھ ہی اورنگزیب کی طرح جواب دیا ، حقائق کی قبر ذرا گہری کھودنا ! تاریخی گواہ ہے بقول ماہرین ، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل ، شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے غریبوں میں شربت ، پان اور کھانا تقسیم کیا جا رہا ہے ، فقیروں ، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں آج دربار میں ایرانی بادشاہ نادر شاہ کے سامنے مغلیہ سلطنت کے 13 ویں تاجدار محمد شاہ بیٹھے ہیں ، لیکن اس وقت ان کے سر پر شاہی تاج نہیں ہے ، کیوں نادر شاہ نے ڈھائی ماہ قبل ان سے سلطنت چھین لی تھی 56 دن دہلی میں رہنے کے بعد اب نادر شاہ کے واپس ایران لوٹنے کا وقت آ گیا ہے اور وہ ہندوستان کی باگ ڈور دوبارہ سے محمد شاہ کے حوالے کرنا چاہتا ہے نادر شاہ نے صدیوں سے جمع کردہ مغل خزانے میں جھاڑو پھیر دی ہے اور شہر کے تمام امرا و روسا کی جیبیں الٹا لی ہیں ، لیکن اسے دہلی کی ایک طوائف نور بائی نے ، جس کا ذکر آگے چل کر آئے گا ، خفیہ طور پر بتا دیا ہے کہ یہ سب کچھ جو تم نے حاصل کیا ہے ، وہ ایسی چیز کے آگے ہیچ ہے جسے محمد شاہ نے اپنی پگڑی میں چھپا رکھا ہے نادر شاہ گھاگ سیاستدان اور گھاٹ گھاٹ کا پانی پیے ہوئے تھا اس موقعے پر وہ چال چلی جسے نہلے پہ دہلا کہا جاتا ہے اس نے محمد شاہ سے کہا ، ایران میں رسم چلی آتی ہے کہ بھائی خوشی کے موقعے پر آپس میں پگڑیاں بدل دیتے ہیں ، آج سے ہم بھائی بھائی بن گئے ہیں ، تو کیوں نہ اسی رسم کا اعادہ کیا جائے ؟ محمد شاہ کے پاس سر جھکانے کے علاوہ کوئی چارہ نہیں تھا نادر شاہ نے اپنی پگڑی اتار کر اس کے سر رکھی ، اور اس کی پگڑی اپنے سر ، اور یوں دنیا کا مشہور ترین ہیرا کوہِ نور ہندوستان سے نکل کر ایران پہنچ گیا رنگی"""
doc = nlp(text)
sentences = sentence_tokenizer(text)
sentences

Segmented Sentences:
1. گزشتہ کئی سالوں سے مختلف بحران آتے جاتے رہے لیکن حالیہ آٹا، چینی سمیت دیگر بحران اچانک پیدا ہوئے۔
2. ان پر جے آئی ٹی تشکیل دی گئیں تاکہ عوام کو ریلیف دیا جاسکے۔
3. دوسری جانب بجلی، گیس، پانی سمیت دیگر بلوں میں کئی سو گنا اضافہ کردیا گیا۔
4. صوبائی و وفاقی وزراء نے اپنے اپنے ایوانوں بحران کے ذمہ دار عناصر کو بے نقاب کرنے کے بجائے سب اچھاہے کی رپورٹ پیش کیں۔
5. ساتھ ہی اورنگزیب کی طرح جواب دیا، حقائق کی قبر ذرا گہری کھودنا!
6. تاریخی گواہ ہے بقول ماہرین، مبصرین اور صحافیوں کا کہنا اور لکھنا ہے کہ پگڑی بدل بھائی کی رسم کی آڑ میں نادر شاہ نے محمد شاہ رنگیلا سے کوہِ نور ہیرا حاصل کیا تھا۔
7. 12 مئی 1739 کی شام دہلی میں زبردست چہل پہل ہے۔
8. شاہجہان آباد میں چراغاں اور لال قلعے میں جشن کا سماں ہے۔
9. غریبوں میں شربت، پان اور کھانا تقسیم کیا جا رہا ہے۔
10. فقیروں، گداؤں کو جھولی بھر بھر کر روپے عطا ہو رہے ہیں۔

-----------------------------------------------------------------------------------------------------------

##### RULES

- End-of-Sentence Words List (2.1): After punctuation, check if the word belongs to the EOS list.
- Postposition Handling (2.11): Apply postposition handling to refine segmentation further.
- Conjunctions Handling (2.2): Ensure conjunctions do not split the sentence.
- Repeated Punctuation Marks (2.7): Handle cases with multiple punctuation marks indicating stronger boundaries.
- Hyphen Handling (2.4): Apply this rule only in specific contexts, if necessary.
- Multiple Spaces as Sentence Boundaries (2.5): Apply as a last resort for messy or poorly formatted texts.

=========================================================================================================

#### STAGE3: Encoding & Decoding

In [63]:
# split into words
words = data.strip().split(' ')
word_freqs = Counter(words)

In [64]:
vocab = {}
for word in word_freqs:
    chars = list(word)
    # append end-of-word token
    chars.append('</w>')
    vocab[word] = chars

In [65]:
def get_pair_counts(vocab):
    pair_counts = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pair = (symbols[i], symbols[i + 1])
            pair_counts[pair] += freq
    return pair_counts


In [66]:
def merge_vocab(pair, v_in):
    v_out = {}
    bigram = ''.join(pair)
    pattern = re.escape(' '.join(pair))
    pattern = re.compile(r'(?<!\S)' + pattern + r'(?!\S)')

    for word in v_in:
        w_out = pattern.sub(bigram, word)
        v_out[w_out] = v_in[word]
    return v_out

In [67]:
num_merges = 15884

In [68]:
bpe_codes = {}
bpe_codes_reverse = {}

for i in tqdm(range(num_merges)):
    pair_counts = get_pair_counts(vocab, word_freqs)
    if not pair_counts:
        break
    best_pair = max(pair_counts, key=pair_counts.get)
    vocab = merge_vocab(best_pair, vocab)
    bpe_codes[best_pair] = i
    bpe_codes_reverse[''.join(best_pair)] = best_pair

  0%|                                                                                        | 0/15884 [00:00<?, ?it/s]


TypeError: get_pair_counts() takes 1 positional argument but 2 were given

In [None]:
def get_pairs(word):
    """Return set of symbol pairs in a word."""
    pairs = set()
    prev_char = word[0]
    for char in word[1:]:
        pairs.add((prev_char, char))
        prev_char = char
    return pairs

def encode(orig, bpe_codes):
    """Encode word based on BPE codes."""
    word = list(orig) + ['</w>']
    word = tuple(word)
    pairs = get_pairs(word)

    if not pairs:
        return word

    while True:
        bigrams = {pair: bpe_codes.get(pair, float('inf')) for pair in pairs}
        # Get the bigram with the smallest rank
        bigram = min(bigrams, key=bigrams.get)
        if bigram not in bpe_codes:
            break
        first, second = bigram
        new_word = []
        i = 0
        while i < len(word):
            try:
                j = word.index(first, i)
                new_word.extend(word[i:j])
                i = j
            except ValueError:
                new_word.extend(word[i:])
                break

            if word[i] == first and i < len(word)-1 and word[i+1] == second:
                new_word.append(first+second)
                i += 2
            else:
                new_word.append(word[i])
                i += 1
        word = tuple(new_word)
        if len(word) == 1:
            break
        else:
            pairs = get_pairs(word)
    # Remove end-of-word symbol before returning
    if word[-1] == '</w>':
        word = word[:-1]
    return word

In [69]:
def decode(tokens):
    """Decode tokens back to the original word."""
    word = ''.join(tokens)
    return word

In [70]:
# Encoding the entire corpus
encoded_corpus = []
print("\nEncoding Corpus:")
for word in tqdm(words):
    encoded_word = encode(word, bpe_codes)
    encoded_corpus.append(encoded_word)


Encoding Corpus:


100%|████████████████████████████████████████████████████████████████████| 1376839/1376839 [00:12<00:00, 114203.21it/s]


In [71]:
encoded_corpus[0:10]

[('گ', 'ز', 'ش', 'ت', 'ہ'),
 ('ک', 'ئ', 'ی'),
 ('س', 'ا', 'ل', 'و', 'ں'),
 ('س', 'ے'),
 ('م', 'خ', 'ت', 'ل', 'ف'),
 ('ب', 'ح', 'ر', 'ا', 'ن'),
 ('آ', 'ت', 'ے'),
 ('ج', 'ا', 'ت', 'ے'),
 ('ر', 'ہ', 'ے'),
 ('ل', 'ی', 'ک', 'ن')]

In [72]:
# Decoding the corpus
decoded_corpus = []
print("\nDecoding Corpus:")
for tokens in tqdm(encoded_corpus):
    decoded_word = decode(tokens)
    decoded_corpus.append(decoded_word)


Decoding Corpus:


100%|████████████████████████████████████████████████████████████████████| 1376839/1376839 [00:01<00:00, 999859.29it/s]


In [73]:
decoded_corpus[0:10]

['گزشتہ', 'کئی', 'سالوں', 'سے', 'مختلف', 'بحران', 'آتے', 'جاتے', 'رہے', 'لیکن']

In [74]:
print("\nVerifying Decoded Words:")
mismatches = 0
for original_word, decoded_word in zip(words, decoded_corpus):
    if original_word != decoded_word:
        mismatches += 1


Verifying Decoded Words:


In [75]:
if mismatches == 0:
    print("All words decoded correctly!")
else:
    print(f"{mismatches} words did not decode correctly.")

All words decoded correctly!


=========================================================================================================

=========================================================================================================