<a href="https://colab.research.google.com/github/danial-amin/AI-Shyr/blob/main/Urdu%20Shyr/Urdu-AI-Shyr-LSTM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Urdu AI-Shyr
### A comparative study of Uni-gram/Bi-gram/Tri-gram models for poetry generation in Urdu.
#### Created by: Danial Amin
##### <a href="https://danial-amin.github.io/#home" target="_blank">Reach me

In [None]:
#Reading From Text Files
file1 = open('iqbal.txt', 'r')
LinesIqbal = file1.readlines()

file2 = open('ghalib.txt', 'r')
LinesGhalib = file2.readlines()

file3 = open('faiz.txt', 'r')
LinesFaiz = file3.readlines()

corpus = []
startingWords = []
endingWords = []
 
# Save the text in List
for line in LinesIqbal:
    if(line != '\n'):
        corpus.append(line.strip())
        #Get Starting and Ending Words
        word_list = line.split()
        if(word_list):
            startingWords.append(word_list[0])
            endingWords.append(word_list[-1])
        
for line in LinesGhalib:
    if(line != '\n'):
        corpus.append(line.strip())
        #Get Starting and Ending Words
        word_list = line.split()
        if(word_list):
            startingWords.append(word_list[0])
            endingWords.append(word_list[-1])
        
for line in LinesFaiz:
    if(line != '\n'):
        corpus.append(line.strip())
        #Get Starting and Ending Words
        word_list = line.split()
        if(word_list):
            startingWords.append(word_list[0])
            endingWords.append(word_list[-1])

# Testing
print("Length of Corpus Sentences: ", len(corpus))
print("Sample: ", corpus[532])

Length of Corpus Sentences:  2932
Sample:  اقبال تیری عظمت کی داستاں کیا سناؤں


In [None]:
#Importing Spacy library

import spacy
unlp = spacy.blank('ur')

In [None]:
# Adding special case in spacy for sentence start and end tags
#from spacy.attrs import ORTH, NORM
#case1 = [{ORTH: "<s>"}]
#case2 = [{ORTH: "<\s>"}]
#unlp.tokenizer.add_special_case("<s>", case1)
#unlp.tokenizer.add_special_case("<\s>", case2)

# Adding start and end tags in sentences
#for index in range(len(corpus)):
    #corpus[index] = "<s> " + corpus[index] + " <\s>"

# Testing
#print("Length of Corpus Sentences: ", len(corpus))
#print("Sample: ", corpus[532])

In [None]:
#Tokenizing corpus into words

corpusTokens = []
corpusWords = []

#Word Tokenization
for sentence in corpus:
    words = unlp(sentence)
    
    for word in words:
        corpusTokens.append(word)
        
for index in range(len(corpusTokens)):
    corpusWords.append(corpusTokens[index].text)

# Some Cleaning
"""
for index, element in enumerate(corpusWords):
    if(element == '’'):
        corpusWords[index] = -1
        
    if(element == '،'):
        corpusWords[index] = -1
    
    if(element == '!'):
        corpusWords[index] = -1
        
    if(element == '؟'):
        corpusWords[index] = -1

for index, element in enumerate(startingWords):
    if(element == '’'):
        startingWords[index] = -1
        
    if(element == '،'):
        startingWords[index] = -1
    
    if(element == '!'):
        startingWords[index] = -1
        
    if(element == '؟'):
        startingWords[index] = -1

"""
    
# Testing
print("Length of Corpus Words: ", len(corpusWords))
print("Sample: ", corpusWords[532])

Length of Corpus Words:  24841
Sample:  آشیانہ


# Language Models

### UNI-GRAM MODEL

In [None]:
unigrams = []

# Formula of UNIGRAM: P(wi) = count(wi) / count(total number of words)

totalNumberOfWords = len(corpusWords)

for word in corpusWords:
    
    if(word != -1):
        probabilityOfWord = corpusWords.count(word) / totalNumberOfWords
        unigrams.append((word,probabilityOfWord))
    
# Testing
print("Length of UNIGRAM: ", len(unigrams))
print("Sample: ", unigrams[532])

Length of UNIGRAM:  24841
Sample:  ('آشیانہ', 0.00020128014170121977)


### BI-GRAM MODEL

In [None]:
bigrams = []

# Formula of BIGRAM: P(wi|wi-1) = count(wi-1 wi) / count(wi-1)

for index in range(len(corpusWords)-1):
    
    word1 = corpusWords[index] #wi-1
    word2 = corpusWords[index+1] #wi
    
    combinedWordCount = 0
    
    if(word1 != -1 and word2 != -1):
    
        for index in range(len(corpusWords)-1):
            if(corpusWords[index] == word1 and corpusWords[index+1] == word2):
                combinedWordCount += 1

        probabilityOfWord = combinedWordCount / corpusWords.count(word1)
        #Appending Tuple in form: (Probability of wi, given wi-1, CalculatedProb)
        bigrams.append((word2,word1,probabilityOfWord))

# Testing
print("Length of BIGRAM: ", len(bigrams))
print("Sample: ", bigrams[0])

Length of BIGRAM:  24840
Sample:  ('اے', 'کبھی', 0.044444444444444446)


### Backward BI-GRAM MODEL

In [None]:
backwardBigrams = []

# Formula of backwardBIGRAM: P(wi-1|wi) = count(wi wi-1) / count(wi)

for index in range(len(corpusWords)-1):
    
    word1 = corpusWords[index] #wi-1
    word2 = corpusWords[index+1] #wi
    
    combinedWordCount = 0
    
    if(word1 != -1 and word2 != -1):
    
        for index in reversed(range(1,len(corpusWords))):
            if(corpusWords[index] == word2 and corpusWords[index-1] == word1):
                combinedWordCount += 1

        probabilityOfWord = combinedWordCount / corpusWords.count(word2)
        #Appending Tuple in form: (Probability of wi-1, given wi, CalculatedProb)
        backwardBigrams.append((word1,word2,probabilityOfWord))

# Testing
print("Length of Backward BIGRAM: ", len(backwardBigrams))
print("Sample: ", backwardBigrams[0])

Length of Backward BIGRAM:  24840
Sample:  ('کبھی', 'اے', 0.029411764705882353)


### TRI-GRAM MODEL

In [None]:
trigrams = []

# Formula of TRIGRAM: P(wi|wi-2 wi-1) = count(wi-2 wi-1 wi) / count(wi-2 wi-1)

for index in range(len(corpusWords)-2):
    
    word1 = corpusWords[index] #wi-2
    word2 = corpusWords[index+1] #wi-1
    word3 = corpusWords[index+2] #wi
    
    if(word1 != -1 and word2 != -1 and word3 != -1):
    
        combinedWordCount = 0
        PrevWordsCount = 0

        for index in range(len(corpusWords)-2):
            if(corpusWords[index] == word1 and corpusWords[index+1] == word2 and corpusWords[index+2] == word3):
                combinedWordCount += 1

        for index in range(len(corpusWords)-1):
            if(corpusWords[index] == word1 and corpusWords[index+1] == word2):
                PrevWordsCount += 1

        probabilityOfWord = combinedWordCount / PrevWordsCount
        #Appending Tuple in form: (Probability of wi, given wi-2 wi-1, CalculatedProb)
        trigrams.append((word3,word1,word2,probabilityOfWord))

# Testing
print("Length of TRIGRAM: ", len(trigrams))
print("Sample: ", trigrams[0])

Length of TRIGRAM:  24839
Sample:  ('حقیقت', 'کبھی', 'اے', 0.5)


### Saving and Loading Models (Optional)

In [None]:
# Saving models as json to avoid computation for later use.

import json

with open('UnigramModel.json', 'w') as f:
    json.dump(unigrams,f)
    
with open('BigramModel.json', 'w') as f:
    json.dump(bigrams,f)
    
with open('BackwardBigramModel.json', 'w') as f:
    json.dump(backwardBigrams,f)
    
with open('TrigramModel.json', 'w') as f:
    json.dump(trigrams,f)

In [None]:
# Loading models for use.

with open('UnigramModel.json') as f:
    unigrams = [tuple(x) for x in json.load(f)]

with open('BigramModel.json') as f:
    bigrams = [tuple(x) for x in json.load(f)]
    
with open('BackwardBigramModel.json') as f:
    backwardBigrams = [tuple(x) for x in json.load(f)]
    
with open('TrigramModel.json') as f:
    trigrams = [tuple(x) for x in json.load(f)]

## Poetry Generation with Bi-gram Model

In [None]:
import random
    
#poem = []
inputsForOtherModels = []

#For each of 3 stanzas
for stanza in range(0,3):
    #stanza = []
    
    #For each of 4 verses
    for verse in range(0,4):
        verse = []
        
        #Adding a starting Word
        verse.append(random.choice(startingWords))
        inputsForOtherModels.append(verse[0])
        while verse[0] not in corpusWords:
            verse[0] = random.choice(startingWords)
            inputsForOtherModels.append(verse[0])
        
        print(verse[0], end = " ")
        
        noOfWords = random.randint(7,10)
        #For each for words in verse
        for index in range(noOfWords):
            candidateWords = []
            candidateWordsProb = []
    
            for word in bigrams:
                if(word[1] == verse[index]):
                    candidateWords.append(word[0])
                    candidateWordsProb.append(word[2])
            
            if candidateWordsProb:
                maxProb = max(candidateWordsProb)
                maxProbIndex = candidateWordsProb.index(maxProb)
                
                verse.append(candidateWords[maxProbIndex])
                print(candidateWords[maxProbIndex], end = " ")
            else:
                #wordTemp = random.choice(corpusWords)
                #verse.append(wordTemp)
                print(wordTemp, end = " ")
        
        #stanza.append(verse)
        print("\n")
    
    #poem.append(stanza)
    #poem.append("\n")
    print("\n\n")
            

دل کا نہ ہوا ہے کہ ‘ تو کیا ہے کہ 

آہ و دل کا نہ ہوا ہے کہ ‘ تو کیا 

روانی ہاۓ موج ‘ تو کیا ہے کہ ‘ تو کیا 

لیکن اب اس کی ہے کہ ‘ تو کیا ہے کہ 




نہ ہوا ہے کہ ‘ تو کیا ہے کہ ‘ تو 

دل کا نہ ہوا ہے کہ ‘ تو کیا ہے کہ 

تم نے کیا ہے کہ ‘ تو کیا ہے کہ ‘ 

پندار کا نہ ہوا ہے کہ ‘ تو کیا ہے کہ 




کہ ‘ تو کیا ہے کہ ‘ تو کیا ہے کہ 

کاش اس کی ہے کہ ‘ تو کیا ہے کہ ‘ 

پیماں سے ‘ تو کیا ہے کہ ‘ تو کیا ہے 

توڑا جو تو کیا ہے کہ ‘ تو کیا ہے کہ 






## Poetry Generation with Backward Bi-gram Model

In [None]:
import random
    
#poem = []
inputsIndex = 0

#For each of 3 stanzas
for stanza in range(0,3):
    #stanza = []
    
    #For each of 4 verses
    for verse in range(0,4):
        verse = []
        
        #Adding a starting Word
        verse.append(inputsForOtherModels[inputsIndex])
        while verse[0] not in corpusWords:
            verse[0] = random.choice(startingWords)
        inputsIndex += 1
            
        print(verse[0], end = " ")
        
        noOfWords = random.randint(7,10)
        #For each for words in verse
        for index in range(noOfWords):
            candidateWords = []
            candidateWordsProb = []
    
            for word in backwardBigrams:
                if(word[0] == verse[index]):
                    candidateWords.append(word[1])
                    candidateWordsProb.append(word[2])
            
            if candidateWordsProb:
                maxProb = max(candidateWordsProb)
                maxProbIndex = candidateWordsProb.index(maxProb)
                
                verse.append(candidateWords[maxProbIndex])
                print(candidateWords[maxProbIndex], end = " ")
            else:
                #wordTemp = random.choice(corpusWords)
                #verse.append(wordTemp)
                #print(wordTemp, end = " ")
                print("Word not Found!")
        
        #stanza.append(verse)
        print("\n")
    
    #poem.append(stanza)
    #poem.append("\n")
    print("\n\n")
            

دل جلوں میں الجھ گیا کیونکر میسر میر سپاہ ناسزا لشکریاں 

آہ سحرگہی مجھ کو،کہ جہاں جادہ غیر از نمود کچھ کھٹکتا 

روانی ہاۓ صحبت مخالف ہے کھرا ہے کھرا ہے کھرا ہے 

لیکن عبث کہ چھپ کے پیتے تھے پیوست گلو بنا سکتے 




نہ بیدار وہ سرود کیا دبدبۂ نادر کیا دبدبۂ نادر کیا 

دل جلوں میں الجھ گیا کیونکر میسر میر سپاہ ناسزا لشکریاں 

تم سبھی دوست ہونہیں سکتا غریب الدیار ہوں بجھا چاہتا ہوں 

پندار کا پيغام ہے کھرا ہے کھرا ہے کھرا ہے کھرا 




کہ چھپ کے پیتے تھے پیوست گلو بنا سکتے غلاموں کی 

کاش رِضواں ہی خودکشی کرے اخذِ فیضِ جاں ستاں ناوک خیز 

پیماں سے باندھا گیا کیونکر میسر میر سپاہ ناسزا لشکریاں شکستہ 

توڑا جوشِ قدح پہ معشوق فریبی عنواں اٹھایئے گر لکھنے بیٹھوں 






## Poetry Generation with Bidirectional Bi-gram Model

In [None]:
import random
    
#poem = []
inputsIndex = 0

#For each of 3 stanzas
for stanza in range(0,3):
    #stanza = []
    
    #For each of 4 verses
    for verse in range(0,4):
        verse = []
        
        #Adding a starting Word
        verse.append(inputsForOtherModels[inputsIndex])
        while verse[0] not in corpusWords:
            verse[0] = random.choice(startingWords)
        inputsIndex += 1
            
        print(verse[0], end = " ")
        
        noOfWords = random.randint(7,10)
        #For each for words in verse
        for index in range(noOfWords):
            candidateWords = []
            candidateWordsProb = []
            
            for word in bigrams:
                if(word[1] == verse[index]):
                    candidateWords.append(word[0])
                    candidateWordsProb.append(word[2])
    
            for word in backwardBigrams:
                if(word[0] == verse[index]):
                    candidateWords.append(word[1])
                    candidateWordsProb.append(word[2])
            
            if candidateWordsProb:
                maxProb = max(candidateWordsProb)
                maxProbIndex = candidateWordsProb.index(maxProb)
                
                verse.append(candidateWords[maxProbIndex])
                print(candidateWords[maxProbIndex], end = " ")
            else:
                #wordTemp = random.choice(corpusWords)
                #verse.append(wordTemp)
                #print(wordTemp, end = " ")
                print("Word not Found!")
        
        #stanza.append(verse)
        print("\n")
    
    #poem.append(stanza)
    #poem.append("\n")
    print("\n\n")
            

دل جلوں میں الجھ کر تلف کھول کے پیتے تھے پیوست 

آہ سحرگہی مجھ کو،کہ جہاں جادہ غیر از نمود کچھ کھٹکتا 

روانی ہاۓ موج لرزاں ہے کھرا ہے کھرا ہے کھرا ہے 

لیکن عبث کہ چھپ کے پیتے تھے پیوست گلو بنا ہے 




نہ بیدار وہ سرود کیا دبدبۂ نادر کیا دبدبۂ نادر کیا 

دل جلوں میں الجھ کر تلف کھول کے پیتے تھے پیوست 

تم سبھی کچھ کھٹکتا تھا شغف فقیری ملی انکو سرفرازی نازاں 

پندار کا پيغام ہے کھرا ہے کھرا ہے کھرا ہے کھرا 




کہ چھپ کے پیتے تھے پیوست گلو بنا ہے کھرا ہے 

کاش رِضواں ہی خودکشی کرے اخذِ فیضِ جاں ستاں ناوک خیز 

پیماں سے باندھا گیا کیونکر میسر میر سپاہ ناسزا لشکریاں شکستہ 

توڑا جو چرا کر تلف کھول کے پیتے تھے پیوست گلو 






## Poetry Generation with Tri-gram Model

In [None]:
# import random
    
#poem = []

#For each of 3 stanzas
for stanza in range(0,3):
    #stanza = []
    
    #For each of 4 verses
    for verse in range(0,4):
        verse = []
        
        #Adding two starting Words
        verse.append(random.choice(startingWords))
        if verse[0] in corpusWords:
            indexForNextWord = corpusWords.index(verse[0])
            verse.append(corpusWords[indexForNextWord+1])
        else:   
            while verse[0] not in corpusWords:
                verse[0] = random.choice(startingWords)

            indexForNextWord = corpusWords.index(verse[0])
            verse.append(corpusWords[indexForNextWord+1])
        
        print(verse[0], verse[1], end = " ")
        
        noOfWords = random.randint(7,10)
        #For each for words in verse
        for index in range(1, noOfWords):
            candidateWords = []
            candidateWordsProb = []
    
            for word in trigrams:
                if(word[1] == verse[index-1] and word[2] == verse[index]):
                    candidateWords.append(word[0])
                    candidateWordsProb.append(word[3])
            
            if candidateWordsProb:
                maxProb = max(candidateWordsProb)
                maxProbIndex = candidateWordsProb.index(maxProb)
                
                verse.append(candidateWords[maxProbIndex])
                print(candidateWords[maxProbIndex], end = " ")
            else:
                #wordTemp = random.choice(corpusWords)
                #verse.append(wordTemp)
                #print(wordTemp, end = " ")
                print("No Word Found!")
        
        #stanza.append(verse)
        print("\n")
    
    #poem.append(stanza)
    #poem.append("\n")
    print("\n\n")
            

حسن میں رہیں ، کھائیں گے کیا ؟ رکھ دیا 

نفی سے کرتی ہے چمک جن کی ستاروں کو عرق 

اس دکھاوے سے دل جلوں میں شمار ہوگا جو 

سکوت پردۂ ساز میں تو پیر مے خانہ ہر 




یہ کہا کہ وہ اثر کہن نہ تری حکایت 

رنجش دل ‘ یک جہاں ویراں کرے گی جو 

یہ کہا کہ وہ اثر کہن نہ تری حکایت 

علاج ضعف یقیں ان سے ہو ‘ تو غربت 




غم مقامات آہ و فغاں اور بھی ہیں ابھی عشق کے 

مالی نے کسی اور شجر کے سجا دیا لکھی 

کہ ہزاروں سجدے تڑپ رہے ہیں وہ آنسو کرتی ہے چمک 

گرچہ تو زنداني اسباب ہے قلب کو ليکن 




