In [9]:
## Waleed Akram 
## 20P-0640

In [1]:
import spacy
import random
import os.path

# Loading the Urdu language model for spaCy
nlp = spacy.blank("ur")


In [2]:
def read_corpus(filename):
    with open(filename, "r", encoding="utf-8") as file:
        corpus = file.readlines()
    return corpus


In [3]:
def tokenize_corpus(corpus):
    # Striping whitespaces and adding " " at the start and end of each line
    return ['"{}"'.format(line.strip()) for line in corpus]


In [4]:
def generate_unigram_model(corpus):
    unigram_model = {}
    for doc in corpus:
        for token in doc:
            unigram_model[token.text] = unigram_model.get(token.text, 0) + 1
    return unigram_model


In [5]:
def generate_bigram_model(corpus):
    bigram_model = {}
    for doc in corpus:
        for i in range(len(doc) - 1):
            current_token = doc[i].text
            next_token = doc[i + 1].text
            if current_token in bigram_model:
                bigram_model[current_token].append(next_token)
            else:
                bigram_model[current_token] = [next_token]
    return bigram_model


In [6]:
def generate_verse_unigram(unigram_model):
    verse_length = random.randint(7, 10)
    verse = []
    for _ in range(verse_length):
        verse.append(random.choice(list(unigram_model.keys())))
    return ' '.join(verse)


In [7]:
def generate_verse_bigram(bigram_model, starting_word):
    verse_length = random.randint(7, 10)
    verse = [starting_word]
    for _ in range(verse_length - 1):
        if verse[-1] in bigram_model:
            next_word = random.choice(bigram_model[verse[-1]])
            verse.append(next_word)
        else:
            break
    return ' '.join(verse)


In [8]:
# Ask user for the filename
while True:
    filename = input("Enter the filename you want to read (e.g., 'sample_corpus.txt', 'iqbal.txt', 'faiz.txt', 'ghalib.txt'): ")
    if os.path.isfile(filename):
        corpus = read_corpus(filename)
        tokenized_corpus = [nlp(text) for text in tokenize_corpus(corpus)]

        unigram_model = generate_unigram_model(tokenized_corpus)
        bigram_model = generate_bigram_model(tokenized_corpus)

        break
    else:
        print("File does not exist. Please enter a valid filename.")

# Generate three stanzas
for _ in range(3):
    # Generating first verse
    starting_word = random.choice(list(tokenized_corpus[0]))
    verse1_unigram = generate_verse_unigram(unigram_model)
    verse1_bigram = generate_verse_bigram(bigram_model, starting_word.text)

    # Generating second verse
    starting_word = random.choice(list(tokenized_corpus[0]))
    verse2_unigram = generate_verse_unigram(unigram_model)
    verse2_bigram = generate_verse_bigram(bigram_model, starting_word.text)

    # Generating third verse
    starting_word = random.choice(list(tokenized_corpus[0]))
    verse3_unigram = generate_verse_unigram(unigram_model)
    verse3_bigram = generate_verse_bigram(bigram_model, starting_word.text)

    # Printing the stanza
    print(verse1_unigram)
    print(verse2_unigram)
    print(verse3_unigram)
    print()
    print(verse1_bigram)
    print(verse2_bigram)
    print(verse3_bigram)
    print("\n---\n")


Enter the filename you want to read (e.g., 'corpus.txt', 'iqbal.txt', 'faiz.txt', 'ghalib.txt'): sample_corpus.txt
سب ہے لوٹیں شاخ مجھے کچھ آ
رہتی میں دن مایوسیوں کو زندہ پیاس ہی بہار دل
جاؤ لوٹیں کر خود ہوں مایوسیوں ، محبت تو

کہ زندہ ہوں میں ابھی ، " "
میں ابھی " , " , " , "
" مایوسیوں کی قید سے نکال کر

---

سیراب جاؤ کر ابھی ہیں خلوص کے کہ مرتی
کر , نکال دن لوٹیں دل , ہے
تو تو ہی سچ ، وفا پھر

, " , " آ جاؤ میرے پاس کہ زندہ
نکال کر کبھی تو دید سے نکال کر کبھی تو
کہ زندہ ہوں میں آس کہ زندہ ہوں میں ابھی

---

وفا شاخ چشم آ شاخ گے رہتی , دید ہیں
یاس تو خلوص ہوتا کیوں کی اداس کیوں آس ,
کچھ سب پیاس خلوص آ زندہ دن

دل سے خود کو نکال یاس کہ زندہ
" لوٹیں گے تیرے آتے ہی پھر دن بہار کے
سے سیراب کر کبھی تو دید سے

---

