# PA1.1 Text Generation using Shannon Visualization Method

### Introduction

In this notebook, you will be generating text using the Shannon Visualization method.

An n-gram is a contiguous sequence of n words. For example "Machine" is a unigram, "Machine Learning" is a bigram and "Machine Learning PA1" is a trigram. In language modeling, n-gram models are probabilistic models of text that use word dependencies and context to predict the likelihood of occurence of an n-gram, i.e. predicting the nth word in an n-gram based on the previous n-1 words. One use of the predictions made by such a model is text generation. In this part, you will be generating text using the Shannon Visualization Method.

For additional details of the working of n-gram models and shannon visualization method, you can also consult [Chapter 3](https://web.stanford.edu/~jurafsky/slp3/3.pdf) of the SLP3 book as reference.

### Instructions

- Follow along with the notebook, filling out the necessary code where instructed.

- <span style="color: red;">Read the Submission Instructions, Plagiarism Policy, and Late Days Policy in the attached PDF.</span>

- <span style="color: red;">Make sure to run all cells for credit.</span>

- <span style="color: red;">Do not remove any pre-written code.</span>

- <span style="color: red;">You must attempt all parts.</span>

For this notebook, in addition to standard libraries i.e. `numpy`, `pandas`, `regex`, `matplotlib` and `scipy`, you **can** use [UrduHack](https://github.com/urduhack/urduhack) for tokenization, and [NLTK](https://www.nltk.org/) for training your n-grams. However, no other machine learning toolkits or libraries are allowed.

In [1]:
# import all required libraries here
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import regex
import re
import scipy


### Dataset

You will be using the Urdu short stories by Patras Bukhari given in the folder `Urdu Short Stories` in the attached zip file for the purposes of this part of the assignment. This contains 6 stories of varying lengths which will serve as inputs for your n-gram model. 

You're required to implement an n-gram model that uses the given stories to generate Urdu text that mimics the input stories.

## Loading and Preprocessing the Dataset

Read in the short story files given and tokenize the text to be preprocessed.

In [2]:
import os

data = ""

# Specify the path to your folder containing TXT files
folder_path = "DataP1"

# Iterate through each TXT file in the folder and append its content to the 'data' variable
for file_name in os.listdir(folder_path):
    if file_name.endswith(".txt"):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8', errors='ignore') as file:
            data += file.read()


Preprocess the tokenized data. Go through the data and use your own discretion to decide on what kind of pre-processing might be required.

In [3]:
# pre-process
import re

urdu_diacritics  = ['ِ', 'ٰ', 'ُ', 'ٍ', 'ً', 'َ',',','!','?','‘‘','’’',':']
urdu_digits = ['۶', '۴', '۵', '۸', '۲', '۰', '۷', '۹', '۳', '۱']

def preProcess(txt):
    
    # remove diacritics
    for d in urdu_diacritics:
        txt = txt.replace(d, '')
        
    # remove digits
    for digit in urdu_digits:
        txt = txt.replace(digit, '')
    

    # remove unnecessary punctuation, but keep sentence-ending punctuation
    txt = re.sub(r'(?<!\w)(?<![۔؟.!؛])', '', txt)
    return txt

processed_txt = preProcess(data)


In [4]:
print("Original txt: ")
print(data)


Original txt: 
’’سینما کا عشق‘‘ عنوان تو عجب ہوس خیز ہے، لیکن افسوس کہ اس مضمون سے آپ کی تمام توقعات مجروح ہوں گی۔ کیونکہ مجھے تو اس مضمون میں کچھ دل کے داغ دکھانے مقصود ہیں۔ 

اس سے آپ یہ نہ سمجھئے کہ مجھے فلموں سے دلچسپی نہیں، یا سینما کی موسیقی اور تاریکی میں جو ارمان انگیزی ہے میں اس کا قائل نہیں۔ میں تو سینما کے معاملے میں اوائل عمر ہی سے بزرگوں کا مورد عتاب رہ چکا ہوں، لیکن آج کل ہمارے دوست مرزا صاحب کی مہربانیوں کی طفیل سینما گویا میری ایک دکھتی رگ بن کر رہ گیا ہے۔ جہاں اس کا نام سن پاتا ہوں بعض دردانگیز واقعات کی یاد تازہ ہوجاتی ہے، جس سے رفتہ رفتہ میری فطرت ہی کج بیں بن گئی ہے۔ 

اول تو خدا کے فضل سے ہم سینما کبھی وقت پر نہیں پہنچ سکے۔ اس میں میری سستی کو ذرا دخل نہیں۔ یہ سب قصور ہمارے دوست مرزا صاحب کا ہے جو کہنے کو تو ہمارے دوست ہیں لیکن خدا شاہد ہے، ان کی دوستی سے جو نقصان ہمیں پہنچے ہیں کسی دشمن کے قبضئہ قدرت سے بھی باہر ہوں گے۔ جب سینما جانے کا ارادہ ہو، ہفتہ بھر پہلے سے انہیں کہہ رکھتا ہوں کہ کیوں بھئی مرزا اگلی جمعرات سینما چلو گے نا! میری مراد یہ ہوتی ہے کہ وہ پہلے سے 

In [5]:
print("After Processing: ")
print(processed_txt)


After Processing: 
سینما کا عشق عنوان تو عجب ہوس خیز ہے، لیکن افسوس کہ اس مضمون سے آپ کی تمام توقعات مجروح ہوں گی۔ کیونکہ مجھے تو اس مضمون میں کچھ دل کے داغ دکھانے مقصود ہیں۔ 

اس سے آپ یہ نہ سمجھئے کہ مجھے فلموں سے دلچسپی نہیں، یا سینما کی موسیقی اور تاریکی میں جو ارمان انگیزی ہے میں اس کا قائل نہیں۔ میں تو سینما کے معاملے میں اوائل عمر ہی سے بزرگوں کا مورد عتاب رہ چکا ہوں، لیکن آج کل ہمارے دوست مرزا صاحب کی مہربانیوں کی طفیل سینما گویا میری ایک دکھتی رگ بن کر رہ گیا ہے۔ جہاں اس کا نام سن پاتا ہوں بعض دردانگیز واقعات کی یاد تازہ ہوجاتی ہے، جس سے رفتہ رفتہ میری فطرت ہی کج بیں بن گئی ہے۔ 

اول تو خدا کے فضل سے ہم سینما کبھی وقت پر نہیں پہنچ سکے۔ اس میں میری سستی کو ذرا دخل نہیں۔ یہ سب قصور ہمارے دوست مرزا صاحب کا ہے جو کہنے کو تو ہمارے دوست ہیں لیکن خدا شاہد ہے، ان کی دوستی سے جو نقصان ہمیں پہنچے ہیں کسی دشمن کے قبضئہ قدرت سے بھی باہر ہوں گے۔ جب سینما جانے کا ارادہ ہو، ہفتہ بھر پہلے سے انہیں کہہ رکھتا ہوں کہ کیوں بھئی مرزا اگلی جمعرات سینما چلو گے نا میری مراد یہ ہوتی ہے کہ وہ پہلے سے ت

In [6]:
#normalize first

from urduhack.normalization import normalize_characters
from urduhack.normalization import normalize_combine_characters
normalized_text = normalize_characters(processed_txt)
normalized_text = normalize_combine_characters(processed_txt)



In [7]:
import nltk
nltk.download('punkt')

from nltk.tokenize import word_tokenize
tokens = word_tokenize(normalized_text)



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sehar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [8]:
tokens

['سینما',
 'کا',
 'عشق',
 'عنوان',
 'تو',
 'عجب',
 'ہوس',
 'خیز',
 'ہے،',
 'لیکن',
 'افسوس',
 'کہ',
 'اس',
 'مضمون',
 'سے',
 'آپ',
 'کی',
 'تمام',
 'توقعات',
 'مجروح',
 'ہوں',
 'گی۔',
 'کیونکہ',
 'مجھے',
 'تو',
 'اس',
 'مضمون',
 'میں',
 'کچھ',
 'دل',
 'کے',
 'داغ',
 'دکھانے',
 'مقصود',
 'ہیں۔',
 'اس',
 'سے',
 'آپ',
 'یہ',
 'نہ',
 'سمجھئے',
 'کہ',
 'مجھے',
 'فلموں',
 'سے',
 'دلچسپی',
 'نہیں،',
 'یا',
 'سینما',
 'کی',
 'موسیقی',
 'اور',
 'تاریکی',
 'میں',
 'جو',
 'ارمان',
 'انگیزی',
 'ہے',
 'میں',
 'اس',
 'کا',
 'قائل',
 'نہیں۔',
 'میں',
 'تو',
 'سینما',
 'کے',
 'معاملے',
 'میں',
 'اوائل',
 'عمر',
 'ہی',
 'سے',
 'بزرگوں',
 'کا',
 'مورد',
 'عتاب',
 'رہ',
 'چکا',
 'ہوں،',
 'لیکن',
 'آج',
 'کل',
 'ہمارے',
 'دوست',
 'مرزا',
 'صاحب',
 'کی',
 'مہربانیوں',
 'کی',
 'طفیل',
 'سینما',
 'گویا',
 'میری',
 'ایک',
 'دکھتی',
 'رگ',
 'بن',
 'کر',
 'رہ',
 'گیا',
 'ہے۔',
 'جہاں',
 'اس',
 'کا',
 'نام',
 'سن',
 'پاتا',
 'ہوں',
 'بعض',
 'دردانگیز',
 'واقعات',
 'کی',
 'یاد',
 'تازہ',
 'ہوجاتی',
 'ہے،',
 'جس',

## Creating Unigrams

Generate a list of unigrams. Print the first 10 unigrams obtained.

In [9]:
# Generate unigrams
unigrams = tokens

# Print the first 10 unigrams
print("First 10 Unigrams:")
print(unigrams[:10])

First 10 Unigrams:
['سینما', 'کا', 'عشق', 'عنوان', 'تو', 'عجب', 'ہوس', 'خیز', 'ہے،', 'لیکن']


Find the probabilities for each unique unigram. (Refer to the Shannon Visualization Method that we studied in class.)

In [10]:
# code here
#

from collections import Counter
import operator

def unigrams_prob(tokens):
    # Calculate the frequency of each word
    word_frequencies = Counter(tokens)

    # Calculate the total number of words in the tokens
    total_words = len(tokens)

    # Calculate the probability of each word
    word_probabilities = {word: frequency / total_words for word, frequency in word_frequencies.items()}

    # Sort the words based on their probabilities in descending order
    sorted_words = sorted(word_probabilities.items(), key=operator.itemgetter(1), reverse=True)

    return sorted_words



In [11]:

# Create unigrams
unigrams = unigrams_prob(tokens)

# Print the unigrams
for word, probability in unigrams:
    print(f"{word}: {probability:.4f}")


میں: 0.0297
کے: 0.0281
اور: 0.0219
کی: 0.0209
سے: 0.0190
کہ: 0.0163
اس: 0.0153
کا: 0.0151
تو: 0.0135
کو: 0.0135
پر: 0.0100
ایک: 0.0097
ہے۔: 0.0095
نے: 0.0093
یہ: 0.0092
ہے: 0.0090
کر: 0.0090
بھی: 0.0076
نہ: 0.0073
ان: 0.0068
آپ: 0.0067
ہم: 0.0067
لیکن: 0.0062
ہیں۔: 0.0059
ہو: 0.0056
ہی: 0.0051
وہ: 0.0051
کیا: 0.0051
نہیں: 0.0050
ہیں: 0.0044
جو: 0.0043
ہوں: 0.0040
پھر: 0.0039
کوئی: 0.0036
یا: 0.0036
اب: 0.0034
کسی: 0.0029
ہر: 0.0029
بعد: 0.0029
ہوں۔: 0.0027
لاہور: 0.0027
کچھ: 0.0026
بہت: 0.0026
اپنے: 0.0026
تھا: 0.0026
تک: 0.0026
جب: 0.0024
ليے: 0.0024
ہے،: 0.0024
وقت: 0.0024
ساتھ: 0.0023
اپنی: 0.0022
رہے: 0.0022
ہوا: 0.0022
صرف: 0.0021
کرتے: 0.0021
طرح: 0.0021
سب: 0.0021
لئے: 0.0021
سال: 0.0021
دل: 0.0020
جس: 0.0020
ہاسٹل: 0.0020
مجھے: 0.0019
تھا۔: 0.0019
ہیں،: 0.0019
دو: 0.0019
بجے: 0.0019
پاس: 0.0019
ہمارے: 0.0018
شروع: 0.0018
ہوتا: 0.0018
ہمیں: 0.0017
میری: 0.0017
بعض: 0.0017
ضرور: 0.0017
دن: 0.0016
دیا: 0.0016
جاتا: 0.0016
ہونے: 0.0016
بات: 0.0016
صاحب: 0.0015
گیا: 0.0015
پہلے: 0.0

## Creating Bigrams

Generate a list of bigrams. Print the first 10 bigrams obtained.

In [12]:
# code here
# Generate bigrams
bigrams_list = [(tokens[i], tokens[i + 1]) for i in range(len(tokens) - 1)]

# Print the first 10 bigrams
print("First 10 Bigrams:")
print(bigrams_list[:10])


First 10 Bigrams:
[('سینما', 'کا'), ('کا', 'عشق'), ('عشق', 'عنوان'), ('عنوان', 'تو'), ('تو', 'عجب'), ('عجب', 'ہوس'), ('ہوس', 'خیز'), ('خیز', 'ہے،'), ('ہے،', 'لیکن'), ('لیکن', 'افسوس')]


Find the probabilities for each unique bigram. 

In [13]:
# code here
from collections import Counter

def bigrams_prob():


    # Count occurrences of each bigram
    bigram_counts = Counter(bigrams_list)

    # Calculate probabilities for each bigram
    total_bigrams = len(bigrams_list)
    bigram_probabilities = {bigram: count / total_bigrams for bigram, count in bigram_counts.items()}

    return bigram_probabilities

# Call the function with  tokens
bigram_probs = bigrams_prob()

# Print the probabilities for each unique bigram
print("Bigram Probabilities:")
for bigram, probability in bigram_probs.items():
    print(f"{bigram}: {probability}")


Bigram Probabilities:
('سینما', 'کا'): 6.22975330176925e-05
('کا', 'عشق'): 6.22975330176925e-05
('عشق', 'عنوان'): 6.22975330176925e-05
('عنوان', 'تو'): 6.22975330176925e-05
('تو', 'عجب'): 6.22975330176925e-05
('عجب', 'ہوس'): 6.22975330176925e-05
('ہوس', 'خیز'): 6.22975330176925e-05
('خیز', 'ہے،'): 6.22975330176925e-05
('ہے،', 'لیکن'): 0.0004360827311238475
('لیکن', 'افسوس'): 6.22975330176925e-05
('افسوس', 'کہ'): 6.22975330176925e-05
('کہ', 'اس'): 0.000622975330176925
('اس', 'مضمون'): 0.0003114876650884625
('مضمون', 'سے'): 0.000124595066035385
('سے', 'آپ'): 0.0004360827311238475
('آپ', 'کی'): 0.0005606777971592325
('کی', 'تمام'): 6.22975330176925e-05
('تمام', 'توقعات'): 6.22975330176925e-05
('توقعات', 'مجروح'): 6.22975330176925e-05
('مجروح', 'ہوں'): 6.22975330176925e-05
('ہوں', 'گی۔'): 6.22975330176925e-05
('گی۔', 'کیونکہ'): 6.22975330176925e-05
('کیونکہ', 'مجھے'): 6.22975330176925e-05
('مجھے', 'تو'): 6.22975330176925e-05
('تو', 'اس'): 0.0004360827311238475
('مضمون', 'میں'): 0.000249190

## Generating Text using the Shannon Visualization Method

Generate a paragraph with ten sentences. Use the Shannon visualization method that we studied in class.

In [14]:
import random

def generate_text(bigram_probabilities, seed_word, num_sentences=10):
    text = []
    current_word = seed_word

    for _ in range(num_sentences):
        sentence = []
        while True:
            # Choose the next word based on the probability distribution
            next_word_candidates = [word for word, prob in bigram_probabilities.items() if word[0] == current_word]
            
            if not next_word_candidates:
                break  # If there are no candidates, end the sentence
            
            next_word = random.choice(next_word_candidates)
            sentence.append(next_word[1])
            current_word = next_word[1]

            # Check if the next word indicates the end of a sentence
            if next_word[1].endswith(('.', '!', '?','۔', '،')):
                
                break
            sentence.append(current_word)

        text.append(" ".join(sentence))

    return ". ".join(text) + "."

# Choose a random seed word from the tokens
seed_word = random.choice(tokens)

# Generate text using the Shannon Visualization method
generated_text = generate_text(bigram_probs, seed_word)

# Print the generated text
print("Generated Text:")
print(generated_text)


Generated Text:
شام شام کو کو بتاتا بتاتا ہوں۔. مرزا مرزا نہیں نہیں اڑایا؟ اڑایا؟ اور اور ہزاروں ہزاروں کی کی جاتی جاتی ہوں ہوں اور اور خم خم لنڈھاتے لنڈھاتے پھرتے پھرتے کہ کہ اس اس زندگی زندگی کچھ کچھ سجھائی سجھائی نہیں نہیں اڑایا؟ اڑایا؟ اور اور گفتگو گفتگو کرتی کرتی تھی۔. اس اس وقت وقت چند چند تصویروں تصویروں کا کا خطہ،. وہ وہ اگر اگر چاہیں چاہیں پاس پاس بھیجے بھیجے جاتے جاتے تھے،. لکھ لکھ کر کر آیا آیا بھی بھی تھے۔. زندہ زندہ رہے رہے ہیں،. بعد بعد بھی بھی نہیں۔. مصنف مصنف سے سے اشتہار اشتہار لگا لگا کر کر چکی چکی تھی۔. یہاں یہاں ٹینس ٹینس کھیلنے کھیلنے آتے آتے ہیں۔. بعض بعض کامیاب کامیاب طلبہ طلبہ اپنے اپنے مطالعے مطالعے سے سے کون کون سی سی موسیقی،.


In [15]:
print("Generated Sentences:")
sentence_list = generated_text.split('.')

#removing the last empty sentence with space
sentence_list.pop()

for i, sentence in enumerate(sentence_list, start=1):
    print(f"Sentence {i}: {sentence.strip()}")


Generated Sentences:
Sentence 1: شام شام کو کو بتاتا بتاتا ہوں۔
Sentence 2: مرزا مرزا نہیں نہیں اڑایا؟ اڑایا؟ اور اور ہزاروں ہزاروں کی کی جاتی جاتی ہوں ہوں اور اور خم خم لنڈھاتے لنڈھاتے پھرتے پھرتے کہ کہ اس اس زندگی زندگی کچھ کچھ سجھائی سجھائی نہیں نہیں اڑایا؟ اڑایا؟ اور اور گفتگو گفتگو کرتی کرتی تھی۔
Sentence 3: اس اس وقت وقت چند چند تصویروں تصویروں کا کا خطہ،
Sentence 4: وہ وہ اگر اگر چاہیں چاہیں پاس پاس بھیجے بھیجے جاتے جاتے تھے،
Sentence 5: لکھ لکھ کر کر آیا آیا بھی بھی تھے۔
Sentence 6: زندہ زندہ رہے رہے ہیں،
Sentence 7: بعد بعد بھی بھی نہیں۔
Sentence 8: مصنف مصنف سے سے اشتہار اشتہار لگا لگا کر کر چکی چکی تھی۔
Sentence 9: یہاں یہاں ٹینس ٹینس کھیلنے کھیلنے آتے آتے ہیں۔
Sentence 10: بعض بعض کامیاب کامیاب طلبہ طلبہ اپنے اپنے مطالعے مطالعے سے سے کون کون سی سی موسیقی،


## Computing the Probability of Sentences

Compute the probability of each sentence that has been generated in the previous step. Refer to the lecture slides to see what does it mean to compute the _probability of a sentence_. 

Apply the **unigram assumption** while computing these probabilities.


## Discussion and Evaluation

- Analyze the text generated, and mention 3 distinct observations. Also compare it with the input text and how different it is and why might that be.

- Do you notice any repetition of words in the generated sentences? If yes, how would you solve it?

- Is going upto `n=2` enough? What do you think would be a good value of n and why?


Answer here:
<div style="color:green;">
a) Yes, in sentences some words are repeated again. A way to reduce this repitition could be to maintain a list of recently generated word and use that to avoid repeating those words for a few iterations

b) N=2 captures some patterns in the text, however, a higher value of n might capture more complex patterns. However, with higher values of n, the n-grams become more rarer hence the probabilities of sentences start approaching to zero. Further, smoothening techniques might be needed to deal with those zeros.
</div>
