In [23]:

import random
from nltk import ngrams

# Load the Poetry Corpus from iqbal.txt and ghalib.txt
corpus = []

with open('iqbal.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

with open('ghalib.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

# Tokenize the corpus into words
words = [word for line in corpus for word in line.split()]

# Generate Trigram Model (considering last 3 words)
trigrams = list(ngrams(words, 3))
trigram_model = {(w1, w2): [w3 for (word1, word2, w3) in trigrams if w1 == word1 and w2 == word2] for (w1, w2, w3) in trigrams}

# Function to generate a ghazal verse using a model
def generate_ghazal_verse(model, length_range, first_word=None):
    verse = []
    length = random.randint(length_range[0], length_range[1])
    
    if first_word:
        verse.extend(first_word)
        length -= len(first_word)
    
    while length > 0:
        prev_words = (verse[-2], verse[-1]) if len(verse) > 1 else (None, None)
        possible_next_words = model.get(prev_words, None)
        current_word = random.choice(possible_next_words) if possible_next_words else random.choice(words)
        verse.append(current_word)
        length -= 1
    
    return verse

# Function to check if the last words of the verses rhyme (last 3 letters)
def last_words_rhyme(verses):
    last_word = verses[0][-1]
    return all(last_word[-3:] == verse[-1][-3:] for verse in verses[1:])

def generate_complete_ghazal(stanza_count, verses_per_stanza):
    for _ in range(stanza_count):
        while True:
            rhyming_verses = []
            first_word = None
            for i in range(verses_per_stanza):
                verse = generate_ghazal_verse(trigram_model, (8, 11), first_word=first_word)
                rhyming_verses.append(verse)
                first_word = rhyming_verses[i - 1][-1][-3:] if i > 0 else None
            if last_words_rhyme(rhyming_verses[1:]):
                break

        for verse in rhyming_verses:
            print(" ".join(verse))

        print()

generate_complete_ghazal(3, 4)


KeyboardInterrupt: 

In [20]:
import random
from nltk import ngrams
from collections import defaultdict

# Load the Poetry Corpus from iqbal.txt and ghalib.txt
corpus = []

with open('iqbal.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

with open('ghalib.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

# Tokenize the corpus into words
words = [word for line in corpus for word in line.split()]

# Generate Trigram Model (considering last 3 words)
trigram_model = defaultdict(list)
for word1, word2, word3 in ngrams(words, 3):
    trigram_model[(word1, word2)].append(word3)

# Function to generate a ghazal verse using a model
def generate_ghazal_verse(model, length_range, first_word=None):
    verse = []
    length = random.randint(length_range[0], length_range[1])
    
    if first_word:
        verse.extend(first_word)
        length -= len(first_word)
    
    while length > 0:
        if len(verse) < 2:
            # First two words must not rhyme with the first line
            current_word = random.choice(words)
        else:
            # Choose the next word based on the trigram model
            possible_next_words = model.get((verse[-2], verse[-1]), None)
            if possible_next_words:
                current_word = random.choice(possible_next_words)
            else:
                current_word = random.choice(words)  # Fallback to a random word
        verse.append(current_word)
        length -= 1
    
    return verse

# Function to check if the last words of the verses rhyme (last 3 letters)
def last_words_rhyme(verses):
    last_word = verses[0][-1]
    for verse in verses[1:]:
        if last_word[-3:] != verse[-1][-3:]:
            return False
    return True

# Function to generate a complete ghazal
def generate_complete_ghazal(stanza_count, verses_per_stanza):
    counter = 0
    for _ in range(stanza_count):
        print(f'                                    :بند{ counter + 1} ')
        counter +=1
        while True:
            rhyming_verses = []
            first_word = None
            for i in range(verses_per_stanza):
                verse = generate_ghazal_verse(trigram_model, (8, 11), first_word=first_word)
                rhyming_verses.append(verse)
                if i == 0:
                    first_word = None
                else:
                    first_word = rhyming_verses[i - 1][-1][-3:]  # Use the last three letters of the last word as the first word
            if last_words_rhyme(rhyming_verses[1:]):  # Check rhyming for lines 2, 3, and 4
                break

        for i, verse in enumerate(rhyming_verses):
            print(f'شعر {i + 1}: {" ".join(verse)}')
        
        
        print()  # Empty line between stanzas

# Generate a complete ghazal with four stanzas and four verses per stanza
generate_complete_ghazal(4, 4)


                                    :بند1 
شعر 1: میں پرستش رحمت صحرا وہ اب زر کم
شعر 2: جسے سوچیں کش چراغاں کسی لیے کسی ہے
شعر 3: ک م تو شوق یہ خانہ دلستاں میں ہے
شعر 4: ہ ے نہیں صاحب جز و کیجیے پیتے شگفتگی ہے

                                    :بند2 
شعر 1: دل یہ و شیر مرگیا تک کچھ دل
شعر 2: تو کش آپ طعنوں رحم سے بن عنقا اس
شعر 3: د ل کیا سید نہیں آیا اسبابِ شرم دوسرا ہے اس
شعر 4: ا س ستارے گل سر گسل اوجِ آیا ہیں ہوں اس

                                    :بند3 
شعر 1: لا اب دل سولی حجاب یہ کیوں میں‘
شعر 2: ہو ہے مجھ پر کہ جانتا ہوں مآل سکندری کیا ہے
شعر 3: ی ں ‘ کوئی نیرنگِ ہوگا کے کیوں؟ سے ہے
شعر 4: ہ ے منزلِ میں رہ اسے یہ جلتا ہے

                                    :بند4 
شعر 1: اسدِ بلاؤں دیکھ یا گزر میں ہے فریادِ بے دلاں تجھ
شعر 2: چمن وہ قبول سے جوڑ تو کشافؔ تپش جمشید نہیں
شعر 3: ت ج ھ اظہار نمک سے آدم کا سنتے آئے ہیں
شعر 4: ہ ی ں دل کو حق نے کیا ہے کسے نہیں



In [22]:
import random
from nltk import ngrams

# Load the Poetry Corpus from iqbal.txt and ghalib.txt
corpus = []

with open('iqbal.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

with open('ghalib.txt', 'r', encoding='utf-8') as file:
    corpus += file.read().splitlines()

# Tokenize the corpus into words
words = [word for line in corpus for word in line.split()]

# Generate Trigram Model (considering last 3 words)
trigrams = list(ngrams(words, 3))
trigram_model = {(w1, w2): [w3 for (word1, word2, w3) in trigrams if w1 == word1 and w2 == word2] for (w1, w2, w3) in trigrams}

# Function to generate a ghazal verse using a model
def generate_ghazal_verse(model, length_range, first_word=None):
    verse = []
    length = random.randint(length_range[0], length_range[1])
    
    if first_word:
        verse.extend(first_word)
        length -= len(first_word)
    
    while length > 0:
        prev_words = (verse[-2], verse[-1]) if len(verse) > 1 else (None, None)
        possible_next_words = model.get(prev_words, None)
        current_word = random.choice(possible_next_words) if possible_next_words else random.choice(words)
        verse.append(current_word)
        length -= 1
    
    return verse

# Function to check if the last words of the verses rhyme (last 3 letters)
def last_words_rhyme(verses):
    last_word = verses[0][-1]
    return all(last_word[-3:] == verse[-1][-3:] for verse in verses[1:])

def generate_complete_ghazal(stanza_count, verses_per_stanza):
    for _ in range(stanza_count):
        while True:
            rhyming_verses = []
            first_word = None
            for i in range(verses_per_stanza):
                verse = generate_ghazal_verse(trigram_model, (8, 11), first_word=first_word)
                rhyming_verses.append(verse)
                first_word = rhyming_verses[i - 1][-1][-3:] if i > 0 else None
            if last_words_rhyme(rhyming_verses[1:]):
                break

        for verse in rhyming_verses:
            print(" ".join(verse))

        print()

generate_complete_ghazal(3, 4)


KeyboardInterrupt: 

In [5]:
import nltk
from nltk import word_tokenize
from nltk.util import ngrams

# Load the Urdu dictionary (list of words)
with open('words.txt', 'r', encoding='utf-8') as file:
    urdu_dictionary = set(file.read().split())

# Function to segment an Urdu sentence using unigrams, bigrams, or trigrams
def segment_urdu_sentence(sentence, n=1):
    words = []
    
    if n not in [1, 2, 3]:
        print("Invalid 'n' value. Use 1 for unigrams, 2 for bigrams, or 3 for trigrams.")
        return
    
    if n == 1:
        tokens = word_tokenize(sentence)
    else:
        tokens = list(ngrams(sentence, n))
    
    i = 0
    while i < len(tokens):
        if n == 1:
            token = tokens[i]
        else:
            token = ' '.join(tokens[i])
        
        if token in urdu_dictionary:
            words.append(token)
            i += 1
        else:
            # Try combining the current token with the next token
            if i + 1 < len(tokens):
                next_token = tokens[i + 1]
                combined_token = ' '.join([token, next_token])
                if combined_token in urdu_dictionary:
                    words.append(combined_token)
                    i += 2
                else:
                    words.append(token)
                    i += 1
            else:
                words.append(token)
                i += 1
    
    return ' '.join(words)

# Read input file with joined sentences
input_file = 'word_test.txt'  # Replace with your file name
output_file = 'segmented_sentences.txt'  # Replace with your desired output file name

with open(input_file, 'r', encoding='utf-8') as infile:
    sentences = infile.read().splitlines()

# Choose the value of n (1 for unigrams, 2 for bigrams, 3 for trigrams)
n_value = 1

# Perform word segmentation and write to output file
with open(output_file, 'w', encoding='utf-8') as outfile:
    for sentence in sentences:
        segmented_sentence = segment_urdu_sentence(sentence, n=n_value)
        outfile.write(segmented_sentence + '\n')

print("Segmentation completed. Segmented sentences written to", output_file)


Segmentation completed. Segmented sentences written to segmented_sentences.txt


In [13]:
#Given below is lumber 1 code that works fine 

In [8]:
import nltk
from nltk.util import ngrams

# Step 1: Read the file containing correct sentences and extract all the words.
with open('words_dictionary.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()
    words = []
    for sentence in sentences:
        words.extend(sentence.split())

# Step 2: Generate unigrams, bigrams, and trigrams from the words.
unigrams = words
bigrams = list(ngrams(words, 2))
trigrams = list(ngrams(words, 3))

# Step 3: Read the file containing words that don't have spaces.
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Compare generated unigrams, bigrams, and trigrams with the words from the file.
fixed_sentences = []
for sentence in sentences:
    for trigram in trigrams:
        joined_trigram = "_".join(trigram)
        if joined_trigram in joined_words:
            sentence = sentence.replace(joined_trigram, " ".join(trigram))
    for bigram in bigrams:
        joined_bigram = "_".join(bigram)
        if joined_bigram in joined_words:
            sentence = sentence.replace(joined_bigram, " ".join(bigram))
    for unigram in unigrams:
        if unigram in joined_words:
            sentence = sentence.replace(unigram, unigram + " ")

    fixed_sentences.append(sentence)

# Step 5: Replace the joined words in the text file with properly spaced words.
with open('output_file.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        output_file.write(sentence + '\n')
        print(sentence)

print("Fixing and spacing completed. Result saved in segmented_sentences.txt.")


تجربہ کار ہندوستانی آف سپنر روی چندرن ایشون نے آئندہ ایشیاء کپ 2023ء کی غیر یقینی قسمت پر اپنی رائے کا اظہار کیا ہے، جو پاکستان میں ہونے جا رہا ہے۔ اپنے یوٹیوب چینل پر بات کرتے ہوئے روی چندرن ایشون نے کہا کہ اگر پڑوسی ملک بھارت ایشیا کپ 2023ء میں شرکت کرنا چاہتا ہے تو مقام تبدیل کر دینا چاہیے۔
آف سپنر نے کہا کہ انٹرنیشنل کرکٹ کونسل (آئی سی سی) نے پاکستان کو ٹورنامنٹ کی میزبانی کا حق دے دیا ہے لیکن بھارت پاکستان کا دورہ کرنے کو تیار نہیں۔ روی چندرن ایشون نے بھی 2023ء میں 50 اوور کے ورلڈ کپ کے حوالے سے پاکستان کرکٹ بورڈ (پی سی بی) کے حالیہ بیان کا جواب دیتے ہوئے کہا، "میرے خیال میں یہ ممکن نہیں ہے۔" آف سپنر نے مزید کہا کہ پاکستان نے پہلے بھارت کا دورہ کرنے سے انکار کر دیا تھا لیکن آخر کار وہ میگا ایونٹس میں شرکت کے لیے بھارت گئے تھے۔

غور طلب ہے کہ ایشیا کپ کے معاملے پر حال ہی میں بحرین میں ہونے والی ایک ہنگامی میٹنگ میں غور کیا گیا، جہاں وینیو کے بارے میں حتمی فیصلہ مارچ تک موخر کر دیا گیا۔ بحرین میں ایشین کرکٹ کونسل (اے سی سی) کے اجلاس کے بعد، بی سی سی آئی کے حکام نے اعلان کیا کہ بورڈ 

In [24]:
import nltk
from nltk.util import ngrams

# Step 1: Read the file containing correct sentences and extract all the words.
with open('words_dictionary.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()
    words = []
    for sentence in sentences:
        words.extend(sentence.split())
# Step 2: Generate unigrams, bigrams, and trigrams from the words.
unigrams = words
bigrams = list(ngrams(words, 2))
trigrams = list(ngrams(words, 3))

# Step 3: Read the file containing words that don't have spaces.
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Compare generated unigrams, bigrams, and trigrams with the words from the file.
fixed_sentences = []
for sentence in sentences:
    for trigram in trigrams:
        joined_trigram = " ".join(trigram)
        if joined_trigram in joined_words:
            sentence = sentence.replace(joined_trigram, " ".join(trigram))
    for bigram in bigrams:
        joined_bigram = " ".join(bigram)
        if joined_bigram in joined_words:
            sentence = sentence.replace(joined_bigram, " ".join(bigram))
            print(f"sentence {counter}: {sentence}")
            counter+=1            
    for unigram in unigrams:
        counter = 0
        if unigram in joined_words:
            sentence = sentence.replace(unigram, unigram + " ")
            print(f"sentence {counter}: {sentence}")
            counter+=1
        

    fixed_sentences.append(sentence)

# Step 5: Replace the joined words in the text file with properly spaced words.
with open('output_file.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        output_file.write(sentence + '\n')
        print(sentence)

print("Fixing and spacing completed. Result saved in segmented_sentences.txt.")


تجربہ کار ہندوستانی آف سپنر روی چندرن ایشون نے آئندہ ایشیاء کپ 2023ء کی غیر یقینی قسمت پر اپنی رائے کا اظہار کیا ہے، جو پاکستان میں ہونے جا رہا ہے۔ اپنے یوٹیوب چینل پر بات کرتے ہوئے روی چندرن ایشون نے کہا کہ اگر پڑوسی ملک بھارت ایشیا کپ 2023ء میں شرکت کرنا چاہتا ہے تو مقام تبدیل کر دینا چاہیے۔
آف سپنر نے کہا کہ انٹرنیشنل کرکٹ کونسل (آئی سی سی) نے پاکستان کو ٹورنامنٹ کی میزبانی کا حق دے دیا ہے لیکن بھارت پاکستان کا دورہ کرنے کو تیار نہیں۔ روی چندرن ایشون نے بھی 2023ء میں 50 اوور کے ورلڈ کپ کے حوالے سے پاکستان کرکٹ بورڈ (پی سی بی) کے حالیہ بیان کا جواب دیتے ہوئے کہا، "میرے خیال میں یہ ممکن نہیں ہے۔" آف سپنر نے مزید کہا کہ پاکستان نے پہلے بھارت کا دورہ کرنے سے انکار کر دیا تھا لیکن آخر کار وہ میگا ایونٹس میں شرکت کے لیے بھارت گئے تھے۔

غور طلب ہے کہ ایشیا کپ کے معاملے پر حال ہی میں بحرین میں ہونے والی ایک ہنگامی میٹنگ میں غور کیا گیا، جہاں وینیو کے بارے میں حتمی فیصلہ مارچ تک موخر کر دیا گیا۔ بحرین میں ایشین کرکٹ کونسل (اے سی سی) کے اجلاس کے بعد، بی سی سی آئی کے حکام نے اعلان کیا کہ بورڈ 

تجرب کار ندوستان آفسپنررو چندرنا شونن آئند ا ش ا کپ     ک غ ر ق ن قسمتپراپن رائ کااظ ارک ا  جوپاکستانم   ون جار ا  اپن  وٹ وبچ نلپرباتکرت  وئ رو چندرنا شونن ک اک اگرپڑوس ملکب ارتا ش اکپ     م  شرکتکرناچا تا  تومقامتبد لکرد ناچا   آفسپنرن ک اک انٹرن شنلکرکٹکونسل آئ س س  ن پاکستانکوٹورنامنٹک م زبان کا قد د ا  ل کنب ارتپاکستانکادور کرن کوت ارن   رو چندرنا شونن ب       م    اوورک ورلڈکپک  وال س پاکستانکرکٹبورڈ پ س ب  ک  ال  ب انکاجوابد ت  وئ ک ام ر خ الم    ممکنن     آفسپنرن مز دک اک پاکستانن پ ل ب ارتکادور کرن س انکارکرد ات ال کنآخرکارو م گاا ونٹسم  شرکتک ل  ب ارتگئ ت  غورطلب  ک ا ش اکپک معامل پر ال  م  ب ر نم   ون وال ا ک نگام م ٹنگم  غورک اگ اج ا و ن وک بار م   تم ف صل مارچتکموخرکرد اگ اب ر نم  ا ش نکرکٹکونسل ا س س  ک اجلاسک بعدب س س آئ ک  کامن اعلانک اک بورڈن ا ونٹک ل  اپن ٹ مپاکستانن ب  جن کاف صل ک ا  تا مپ س ب ک  کامن ب  سختردعملکااظ ارکرت  وئ ک ا  ک و اکتوبرم  ب ارتم   ون وال ورلڈکپ     م  شرکتن   کر  گ توش خان ک سم  عمرانخانپرفردجرمعائدن  وسک س شنعدالتن ال کشنکم شنک چ ئرم نپ ٹ آئ ک

In [7]:
import nltk
from nltk.util import ngrams

# Step 1: Read the file containing correct sentences and extract all the words.
with open('words_dictionary.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()
    words = []
    for sentence in sentences:
        words.extend(sentence.split())

# Step 2: Generate unigrams, bigrams, and trigrams from the words.
unigrams = words
bigrams = list(ngrams(words, 2))
trigrams = list(ngrams(words, 3))

# Step 3: Read the file containing words that don't have spaces.
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Compare generated unigrams, bigrams, and trigrams with the words from the file.
fixed_sentences = []
for sentence in sentences:
    for trigram in trigrams:
        joined_trigram = "_".join(trigram)
        if joined_trigram in joined_words:
            print("Replaced:", joined_trigram)
            sentence = sentence.replace(joined_trigram, " ".join(trigram))
    for bigram in bigrams:
        joined_bigram = "_".join(bigram)
        if joined_bigram in joined_words:
            print("Replaced:", joined_bigram)
            sentence = sentence.replace(joined_bigram, " ".join(bigram))
    for unigram in unigrams:
        if unigram in joined_words:
            print("Replaced:", unigram)
            sentence = sentence.replace(unigram, unigram + " ")

    fixed_sentences.append(sentence)

# Step 5: Replace the joined words in the text file with properly spaced words and add space for missing words.
with open('segmented_sentences.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        # Add spaces for words that were not found in the dictionary
        sentence = ' '.join(word if word in words else word + ' ' for word in sentence.split('_'))
        output_file.write(sentence + '\n')

print("Fixing and spacing completed. Result saved in segmented_sentences.txt.") 


Fixing and spacing completed. Result saved in segmented_sentences.txt.


In [5]:
import nltk
from nltk.util import ngrams

# Step 1: Read the file containing correct sentences and extract all the words.
with open('words.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()

# Step 2: Generate unigrams, bigrams, and trigrams from the words.
words = set()
unigrams = []
bigrams = []
trigrams = []

for sentence in sentences:
    words.update(sentence.split())
    unigram_tokens = sentence.split()
    bigram_tokens = list(ngrams(unigram_tokens, 2))
    trigram_tokens = list(ngrams(unigram_tokens, 3))
    unigrams.extend(unigram_tokens)
    bigrams.extend([" ".join(bigram) for bigram in bigram_tokens])
    trigrams.extend([" ".join(trigram) for trigram in trigram_tokens])

# Step 3: Read the file containing words that don't have spaces.
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Fix the sentences efficiently.
fixed_sentences = []
for sentence in sentences:
    tokens = sentence.split()
    fixed_tokens = []
    i = 0
    while i < len(tokens):
        token = tokens[i]
        for ngram in [trigrams, bigrams, unigrams]:
            if " ".join(tokens[i:i+len(ngram)]) in ngram:
                fixed_tokens.extend(tokens[i:i+len(ngram)])
                i += len(ngram)
                break
        else:
            fixed_tokens.append(token)
            i += 1
    fixed_sentences.append(" ".join(fixed_tokens))

# Step 5: Replace the joined words in the text file with properly spaced words.
with open('output_file.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        output_file.write(sentence + '\n')

print("Fixing and spacing completed. Result saved in output_file.txt.")


KeyboardInterrupt: 

In [3]:
import nltk
from nltk.util import ngrams

# Step 1: Read the file containing correct sentences and extract all the words.
with open('words_dictionary.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()
    words = []
    for sentence in sentences:
        words.extend(sentence.split())

# Step 2: Generate unigrams, bigrams, and trigrams from the words.
unigrams = words
bigrams = list(ngrams(words, 2))
trigrams = list(ngrams(words, 3))

# Step 3: Read the file containing words that don't have spaces.
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Compare generated unigrams, bigrams, and trigrams with the words from the file.
fixed_sentences = []
for sentence in sentences:
    for trigram in trigrams:
        joined_trigram = "_".join(trigram)
        if joined_trigram in joined_words:
            print("Replaced:", joined_trigram)
            sentence = sentence.replace(joined_trigram, " ".join(trigram))
    for bigram in bigrams:
        joined_bigram = "_".join(bigram)
        if joined_bigram in joined_words:
            print("Replaced:", joined_bigram)
            sentence = sentence.replace(joined_bigram, " ".join(bigram))
    for unigram in unigrams:
        if unigram in joined_words:
            print("Replaced:", unigram)
            sentence = sentence.replace(unigram, unigram + " ")

    fixed_sentences.append(sentence)

# Step 5: Replace the joined words in the text file with properly spaced words and add space for missing words.
with open('segmented_sentences.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        # Add spaces for words that were not found in the dictionary
        sentence = ' '.join(word if word in words else word + ' ' for word in sentence.split('_'))
        output_file.write(sentence + '\n')

print("Fixing and spacing completed. Result saved in segmented_sentences.txt.")

# Step 6: Print the correct sentences
for sentence in sentences:
    print("Correct Sentence:", sentence)


Fixing and spacing completed. Result saved in segmented_sentences.txt.
Correct Sentence: تجربہ کار ہندوستانی آف سپنر روی چندرن ایشون نے آئندہ ایشیاء کپ 2023ء کی غیر یقینی قسمت پر اپنی رائے کا اظہار کیا ہے، جو پاکستان میں ہونے جا رہا ہے۔ اپنے یوٹیوب چینل پر بات کرتے ہوئے روی چندرن ایشون نے کہا کہ اگر پڑوسی ملک بھارت ایشیا کپ 2023ء میں شرکت کرنا چاہتا ہے تو مقام تبدیل کر دینا چاہیے۔
Correct Sentence: آف سپنر نے کہا کہ انٹرنیشنل کرکٹ کونسل (آئی سی سی) نے پاکستان کو ٹورنامنٹ کی میزبانی کا حق دے دیا ہے لیکن بھارت پاکستان کا دورہ کرنے کو تیار نہیں۔ روی چندرن ایشون نے بھی 2023ء میں 50 اوور کے ورلڈ کپ کے حوالے سے پاکستان کرکٹ بورڈ (پی سی بی) کے حالیہ بیان کا جواب دیتے ہوئے کہا، "میرے خیال میں یہ ممکن نہیں ہے۔" آف سپنر نے مزید کہا کہ پاکستان نے پہلے بھارت کا دورہ کرنے سے انکار کر دیا تھا لیکن آخر کار وہ میگا ایونٹس میں شرکت کے لیے بھارت گئے تھے۔
Correct Sentence: 
Correct Sentence: غور طلب ہے کہ ایشیا کپ کے معاملے پر حال ہی میں بحرین میں ہونے والی ایک ہنگامی میٹنگ میں غور کیا گیا، جہاں وینیو کے

In [18]:
import nltk
from nltk.util import ngrams

# Read the file containing correct sentences 
with open('words_dictionary.txt', 'r', encoding='utf-8') as file:
    sentences = file.read().splitlines()
    words = set()
    for sentence in sentences:
        words.update(sentence.split())

#   unigrams, bigrams, trigrams 
unigrams = words
bigrams = set(ngrams(words, 2))
trigrams = set(ngrams(words, 3))

# Read the file with joined words
with open('word_test.txt', 'r', encoding='utf-8') as file:
    joined_words = set(file.read().split())

# Step 4: Compare all sentences at once
fixed_sentences = []
for sentence in sentences:
    for trigram in trigrams:
        joined_trigram = " ".join(trigram)
        if joined_trigram in joined_words:
            sentence = sentence.replace(joined_trigram, " ".join(trigram))
    for bigram in bigrams:
        joined_bigram = " ".join(bigram)
        if joined_bigram in joined_words:
            sentence = sentence.replace(joined_bigram, " ".join(bigram))
    
    for unigram in unigrams:
        if unigram in joined_words:
            sentence = sentence.replace(unigram, unigram + " ")
    
        #fixed_sentences.append(sentence)

#  Replace the joined words in the text file with properly spaced words.
with open('output_file.txt', 'w', encoding='utf-8') as output_file:
    for sentence in fixed_sentences:
        output_file.write(sentence + '\n')
for sentence in sentences:
    print( sentence)


print("Fixing and spacing completed. Result saved in segmented_sentences.txt.")


تجربہ کار ہندوستانی آف سپنر روی چندرن ایشون نے آئندہ ایشیاء کپ 2023ء کی غیر یقینی قسمت پر اپنی رائے کا اظہار کیا ہے، جو پاکستان میں ہونے جا رہا ہے۔ اپنے یوٹیوب چینل پر بات کرتے ہوئے روی چندرن ایشون نے کہا کہ اگر پڑوسی ملک بھارت ایشیا کپ 2023ء میں شرکت کرنا چاہتا ہے تو مقام تبدیل کر دینا چاہیے۔
آف سپنر نے کہا کہ انٹرنیشنل کرکٹ کونسل (آئی سی سی) نے پاکستان کو ٹورنامنٹ کی میزبانی کا حق دے دیا ہے لیکن بھارت پاکستان کا دورہ کرنے کو تیار نہیں۔ روی چندرن ایشون نے بھی 2023ء میں 50 اوور کے ورلڈ کپ کے حوالے سے پاکستان کرکٹ بورڈ (پی سی بی) کے حالیہ بیان کا جواب دیتے ہوئے کہا، "میرے خیال میں یہ ممکن نہیں ہے۔" آف سپنر نے مزید کہا کہ پاکستان نے پہلے بھارت کا دورہ کرنے سے انکار کر دیا تھا لیکن آخر کار وہ میگا ایونٹس میں شرکت کے لیے بھارت گئے تھے۔

غور طلب ہے کہ ایشیا کپ کے معاملے پر حال ہی میں بحرین میں ہونے والی ایک ہنگامی میٹنگ میں غور کیا گیا، جہاں وینیو کے بارے میں حتمی فیصلہ مارچ تک موخر کر دیا گیا۔ بحرین میں ایشین کرکٹ کونسل (اے سی سی) کے اجلاس کے بعد، بی سی سی آئی کے حکام نے اعلان کیا کہ بورڈ 