### POETRY Generation using N-grams



used n-gram language modeling to generate some poetry using the ngrams. For the purpose of this assignment a poem will consist of three stanzas each containing four verses where each verse consists of 7—10 words. For example, following is a manually generated stanza.

دل سے نکال یاس کہ زندہ ہوں میں ابھی،

ہوتا ہے کیوں اداس کہ زندہ ہوں میں ابھی،

مایوسیوں کی قید سے خود کو نکال کر،

آ جاؤ میرے پاس کہ زندہ ہوں میں ابھی،



آ کر کبھی تو دید سے سیراب کر مجھے،

مرتی نہیں ہے پیاس کہ زندہ ہوں میں ابھی،

مہر و وفا خلوص و محبت گداز دل،

سب کچھ ہے میرے پاس کہ زندہ ہوں میں ابھی،




لوٹیں گے تیرے آتے ہی پھر دن بہار کے،

رہتی ہے دل میں آس کہ زندہ ہوں میں،

نایا ب شاخ چشم میں کھلتے ہیں اب بھی خواب، سچ ہے ترا

قیاس کہ زندہ ہوں میں ابھی

The task is to print three such stanzas with an empty line in between. The generation model can be trained on the provided Poetry Corpus containing poems from Faiz, Ghalib and Iqbal.You can scrape other urdu poetry too from internet. You will train unigram and bigram models using this corpus. These models will be used to generate poetry.

2nd Task:

The task is to generate a poem using different models. We will generate a poem verse by verse until all stanzas have been generated. The poetry generation problem can be solved using the following algorithm:
1. Load the Poetry Corpus
2. Tokenize the corpus in order to split it into a list of words
3. Generate n-gram models
4. For each of the stanzas
– For each verse
* Generate a random number in the range [7...10]
* Select first word
* Select subsequent words until end of verse
* [bonus] If not the first verse, try to rhyme the last word with the last word of the previous verse
* Print verse
– Print empty line after stanza
2.1 Implementation Challenges:

Among the challenges of solving this assignment will be selecting subsequent words once we have chosen the first word of the verse. To predict the next word, what we aim to compute is the most probable next word from all the possible next words. In other words, we need to find the set of words that occur most frequently after the already selected word and choose the next word from that set. We can use a Conditional Frequency Distribution (CFD) to figure that out! A CFD tells us: given a condition, what is likelihood of each possible outcome. [bonus] Rhyming the generated verses is also a challenge. You can build your dictionary for rhyming. The Urdu sentence is written from right to left, so makes your n-gram models according to this style.

2.2 Standard n-gram Models
We can develop our model using the Conditional Frequency Distribution method. First develop a unigram model (Unigram Model), then the bigram model (Bigram Model) and then trigram model. Select the first word of each line randomly from starting words in the vocabulary and then use the bigram model to generate the next word until the verse is complete. Generate the next three lines similarly.
 Follow the same steps for the trigram model and compare the results of the two n-gram models.

In [11]:
import os

corpus = ""
directory_path = 'C:\\Users\\Osama\\OneDrive\\Desktop\\DSTT\\Assignments\\A4\\Corpus'

for filename in os.listdir(directory_path):
    if filename.endswith('.txt'):  # ensures it only reads text files
        with open(os.path.join(directory_path, filename), 'r', encoding='utf-8') as file:
            corpus += file.read() + "\n"  # adds a newline after each file's contents


In [4]:
import nltk
from nltk.tokenize import word_tokenize
from nltk import bigrams, trigrams, ConditionalFreqDist
import random

tokens = word_tokenize(corpus)
tokens = corpus.split()
reverse_tokens = list(reversed(tokens))  # To assist in generating Urdu text

# Generate bigram and trigram models
bigrams_list = list(bigrams(reverse_tokens))
trigrams_list = [((w1, w2), w3) for w1, w2, w3 in trigrams(reverse_tokens)]

def generate_verse(cfd):
    verse_length = random.randint(7, 10)
    starting_word = random.choice(reverse_tokens)
    verse = [starting_word]
    for i in range(verse_length-1):
        if verse[-1] in cfd.conditions():
            next_word = cfd[verse[-1]].max()  # gets most frequent next word
            verse.append(next_word)
        else:
            verse.append(random.choice(reverse_tokens))
    return ' '.join(verse)

def generate_stanza(cfd):
    stanza = []
    for i in range(4):
        verse = generate_verse(cfd)
        stanza.append(verse)
    return '\n'.join(stanza)

# Generate poetry for bigram model
cfd_bigrams = ConditionalFreqDist(bigrams(reverse_tokens))
print("Generated using Bigram Model:\n")
for i in range(3):  # 3 stanzas
    print(generate_stanza(cfd_bigrams))
    print()  # empty line after stanza

# Generate poetry for trigram model
cfd_trigrams = ConditionalFreqDist(trigrams_list)
print("Generated using Trigram Model:\n")
for i in range(3):  # 3 stanzas
    print(generate_stanza(cfd_trigrams))
    print()  # empty line after stanza


Generated using Bigram Model:

شوق مقام کا دل و عشق و
تو ہے کیا تو ہے کیا تو
میخانہ کوچۂ گدائے مجھے ہے کیا تو ہے کیا
ہے کیا تو ہے کیا تو ہے کیا تو ہے

ہے کیا تو ہے کیا تو ہے کیا تو ہے
کیوں ہی آپ سے مجھ ہے کیا
بھی میں ہوں میں ہوں میں ہوں میں ہوں میں
یہاں تو ہے کیا تو ہے کیا تو ہے کیا

یک کہ ہے کیا تو ہے کیا تو ہے کیا
گی رہے سمجھ تم ہو نہ کیوں ہی
نے میں ہوں میں ہوں میں ہوں میں ہوں میں
آغاز رقص محوِِِ طاؤس آئیں؟ نہ کیوں

Generated using Trigram Model:

ہے تسلی شاہین جی دشنہ میں ہیں
خاک اور ذکر تشنۂ ورقِ درد وا
وہ پایا اک بازو بہ کے عداوت ہیں
نوا انتظار پایا تو کیا صبح جلوہ پھر ہوتا

نے ہے اٹھایا کر بہ سامنے ہر کے می ہوائے
اپنے چارہ دفینہ نجف رخشِ ریشہ آگے پیرہن ہمارے چمن
غیّور ہیں فرنگی میں ہے گرانِ سکونِ آ
سکتا نیمروز وعدہ آشیانہ تجھ سارا صف اتفاق خاک

کیا ہوتا نازک جب ایجاد نغمۂ سوتا!
جس کاسۂ نہیں بہت و نہ مجھ میں وہی تھے
رخسارِ میں ہوں سزا چھوڑا سکتی کے رخ اگر نواز
نہ سہی‘ کہ جسے و بہار کون یک کس

