# Generating Bangla Sentences using Ngrams

##### Importing all the important modules

In [1]:
import sys
import sets
import random

##### This cell makes a string of all the texts from the file

In [2]:
txt = ""
with open("data.txt", encoding = 'utf-8') as f:  # We Have to use the encdoign argument, or else it does not recognize Bangla
    for line in f:
        # Strips the line brekas from the end of the lines
        line = line.strip()  
        # Concatenates the line to the txt string
        txt += line + ' '  

##### This cell cleans up all the punctuation, english word, and grabage space from the string.

In [3]:
# A string of everything we want to omit
punc = "aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYzZ,!?;।:—:--/"  

# Loop through the entire string and omits the garbage values
for ch in txt:  
    if ch in punc:
        txt = txt.replace(ch, "")

# Makes a list of all the words
txtlst = txt.split(" ")  

# Gets rid of all the garbage spaces in the list
for elem in txtlst:  
    if elem == '':
        txtlst.remove(elem)
        
print(len(txtlst))

139001


##### This cell converts the list into a set of Gram-1. The main purpose of this is to erdicate duplicates.

In [4]:
# Creates a set of all the words, and removes the duplicates.
gram1 = set(txtlst)  
print(len(gram1))

# Testing out the list to build pairs by printing copies. 
for i in range(len(txtlst) - 10, len(txtlst) - 1):
    print(txtlst[i], txtlst[i + 1])

16652
পাশার মতই
মতই অনুভূতি
অনুভূতি হচ্ছে
হচ্ছে এবং
এবং আমার
আমার জন্য
জন্য সেটাই
সেটাই যথেষ্ট
যথেষ্ট 


##### This cell use to make 2Grams in an analogous manner

In [5]:
# Declaring an empty list to use later.
word_pairs = []  

# Loops through the entire list and returns a list of tuples containing consecutive pairs
for i in range(len(txtlst) - 1):  
    word_pairs.append((txtlst[i], txtlst[i + 1]))
print(len(word_pairs))

# Creating a set to remove the duplicates.
gram2 = set(word_pairs)  

139000


##### This cell used to make frequency dictionary from 1-Grams.

In [6]:
# Declaring an empty dictionary to use later.
gram1_dict = {}  

# Loops through the list and creates a frequency map of all the words
for word in txtlst:  
    if word not in gram1_dict:
        gram1_dict[word] = 0
    gram1_dict[word] += 1 

# Using list comprehension to sort the list in descending order of highest frequency
gram1_dict = sorted(gram1_dict.items(), key=lambda x: x[1], reverse=True)  
print(gram1_dict[:20])

[('না', 2482), ('করে', 1706), ('মুসা', 1308), ('বলল', 1209), ('আর', 1058), ('কিশোর', 1046), ('একটা', 975), ('থেকে', 930), ('দিকে', 890), ('করল', 824), ('দিয়ে', 810), ('গেল', 796), ('রবিন', 778), ('আমার', 771), ('হয়ে', 709), ('আমি', 657), ('কি', 615), ('ও', 605), ('দিল', 577), ('আছে', 577)]


In [7]:
localvar = 0
print("1-Gram:" + " ",  end= '')
for key in gram1_dict:
    print(key[0] + " ",  end= '')
    localvar += 1
    if localvar == 20:
        break

1-Gram: না করে মুসা বলল আর কিশোর একটা থেকে দিকে করল দিয়ে গেল রবিন আমার হয়ে আমি কি ও দিল আছে 

##### This cell is used to make frequency dictionary of 2-Grams.

In [8]:
# Declaring an empty dictionary to use later.
gram2_dict = {}  

# Loops through the list and creates a frequency map of all the word pairs.
for i in range(len(txtlst) - 1):  
    key = (txtlst[i], txtlst[i + 1])
    if key not in gram2_dict:
        gram2_dict[key] = 0
    gram2_dict[key] += 1 

    # Using list comprehension to sort the list in descending order of highest frequency.  
gram2_dict = sorted(gram2_dict.items(), key=lambda x: x[1], reverse=True)  
print(gram2_dict[:20])

[(('বলল', 'কিশোর'), 160), (('শুরু', 'করল'), 155), (('বলল', 'মুসা'), 152), (('জিজ্ঞেস', 'করল'), 130), (('দিকে', 'তাকিয়ে'), 122), (('বলল', 'রবিন'), 122), (('হয়ে', 'গেল'), 113), (('হয়ে', 'গেছে'), 112), (('মনে', 'হলো'), 104), (('মিস্টার', 'সেভারন'), 93), (('মনে', 'হয়'), 91), (('আমার', 'দিকে'), 86), (('জবাব', 'দিল'), 85), (('বের', 'করে'), 84), (('কিশোর', 'বলল'), 84), (('করল', 'মুসা'), 83), (('করল', 'কিশোর'), 83), (('প্রশ্ন', 'করল'), 80), (('দিল', 'মুসা'), 77), (('না', 'মুসা'), 75)]


##### This cell is used to make the fucntion that would be used later for getting a random starting word.

In [9]:
def radominitword():
    random_index = random.randint(0, len(txtlst))  # Gets a random index from the list
    start_word = txtlst[random_index]
    return start_word

In [10]:
def get2GramSentence(word, n = 50):
    for i in range(n):
        
        # For every iteration of the loop prints the next most probable word
        print(word, end=" ")  
        
        # Uses the next system to go through the entire dict and find the next word, and if it can not find anything returns None.
        word = next((element[0][1] for element in gram2_dict if element[0][0] == word), None)   
        
        # If it gets a None, it breaks the function
        if not word:  
            break  

            
word = radominitword()
print(f"Start word: {word}")
print("2-gram sentence:")
get2GramSentence(word, 20)

Start word: দিল
2-gram sentence:
দিল মুসা বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর বলল কিশোর 

##### Now we build a better function that chooses one randomly, but considers higher weight, and test it out again.

In [11]:
def weighted_choice(choices):
   total = sum(w for c, w in choices)
   r = random.uniform(0, total)
   upto = 0
   for c, w in choices:
      if upto + w > r:
         return c
      upto += w

##### Now we test the new approach out.

In [12]:
def get2GramSentenceRandom(word, n = 50):
    for i in range(n):
        print(word, end=" ")
        # Get all possible elements ((first word, second word), frequency)
        choices = [element for element in gram2_dict if element[0][0] == word]
        if not choices:
            break
        # Choose a pair with weighted probability from the choice list
        word = weighted_choice(choices)[1]


In [13]:
for i in range(5):
    word = radominitword()
    print(f"Start word: {word}")
    print("2-gram sentence:")
    get2GramSentenceRandom(word)
    print("")

Start word: তাকিয়েই
2-gram sentence:
তাকিয়েই কাঁধে ‘ওটা এক্ষুণি দেখছি মানুষজন হয়তো মাকে গুডবাই মুসা একা আবার মিলিত হলো লিস্টটা একবার ঘুরে দাঁড়িয়ে আছে কিশোর পর্দা ফাঁক হয়ে গেছে কিন্তু ঘড়িতে দেখে ও আৰ্য প্রভাব বাংলায় ব্যবহৃত অনেক বেশি সময় লাগল কিশোর ফায়ার এসকেপটার নিচে নুড়ির পরিমাণ উত্তেজনা যাচ্ছে চেহারা আর কেউ আপনার বাড়ির ওপর 
Start word: মুসা
2-gram sentence:
মুসা রাতে কোন খোঁজ পাওয়া গেল কোম্পানির বর্তমান মালকিন মিসেস ব্রেক ফেল করেছিল না কিটি ‘মনে হয় হবে এবং শিশুর নাম ছিল না কেন করবে সবারই জানা আছে যেন হতাশ হয়েছেন গুজ বার্নার কোথায়’ জানতে এসেছ ইয়াং ম্যান ক্রুদ্ধ ফিসফিসানি মিলে আমাদের আলোচনা আটকে দেয় এখানকার ছাত্র না বিদায় দিল 
Start word: করে
2-gram sentence:
করে সোয়াম্পল্যান্ড গুডসএ পৌঁছল ওরা জানল ও ‘মাটিতে গাছের আওতার বাইরে না ফায়েজা সোজা বাড়ি গিয়েছিল ও ওখানকার একটুকরো জমি কিনতে গিয়ে কেঁপে গেল লোকটা ‘আজব কিটি’ রবিনের কণ্ঠ ফিরে জিনাকে শহরে সবাই সেই ক্ষুরধার ভোজালি স্পর্শ করেছে সেটার কথা বলে দিয়েছেন ভাল ঘটায় কিনা দেখব’ ‘কাটাতে হবে না কাছের 
Start word: সঙ্গে
2

##### Now a general function that can make any n gram

In [14]:
def generateNgram(n=1):
    gram = {}

    # Populate N-gram dictionary
    for i in range(len(txtlst) - (n - 1)):
        key = tuple(txtlst[i:i+n])
        if key not in gram:
            gram[key] = 0
        gram[key] += 1

    # Turn into a list of (word, count) sorted by count from most to least
    gram = sorted(gram.items(), key=lambda x: -x[1])
    return gram

trigram = generateNgram(3)
# Print top 20 most frequent ngrams
print(trigram[:20])

[(('ফিসফিস', 'করে', 'বলল'), 32), (('চিৎকার', 'করে', 'উঠল'), 27), (('বলে', 'উঠল', 'মুসা'), 25), (('খুঁজে', 'বের', 'করতে'), 23), (('বুঝতে', 'পারছি', 'না'), 19), (('জবাব', 'দিল', 'না'), 17), (('দিকে', 'তাকিয়ে', 'আছে'), 17), (('পারল', 'না', 'মুসা'), 17), (('জিজ্ঞেস', 'করল', 'কিশোর'), 17), (('থেকে', 'বেরিয়ে', 'এল'), 17), (('মনে', 'হয়', 'না'), 16), (('মাথা', 'ঝাঁকাল', 'কিশোর'), 16), (('দেরি', 'হয়ে', 'গেছে'), 16), (('প্রশ্ন', 'করল', 'কিশোর'), 16), (('আমার', 'দিকে', 'তাকিয়ে'), 16), (('করতে', 'পারছে', 'না'), 15), (('জানতে', 'চাইল', 'রবিন'), 15), (('কোন', 'সন্দেহ', 'নেই'), 15), (('দেখে', 'মনে', 'হলো'), 15), (('দিকে', 'তাকাল', 'কিশোর'), 14)]


##### Final step we build a function that generates ngram sentences

In [15]:
def getNGramSentenceRandom(gram, word, n=50):
    for i in range(n):
        print(word, end=' ')
        # Get all possible elements ((first word, second word), frequency)
        choices = [element for element in gram if element[0][0] == word]
        if not choices:
            break
        word = weighted_choice(choices)[1]

##### Testing it out.

In [16]:
for n in range(2, 10):
    # Generate ngram list
    print()
    print(f"Generating {n}-gram list...", end=' ')
    ngram = generateNgram(n)
    print("Done")
    
    print("")
    
    # Try out a bunch of sentences
    for i in range(4):
        word = radominitword()
        print(f"  {n}-Gram:  ", end=' ')
        getNGramSentenceRandom(ngram, word, 30)
        print("")
        print("")
        


Generating 2-gram list... Done

  2-Gram:   পুলিশ অফিসারের হেসে বলল রবিন মুসা কানে প্রতিধ্বনির মত সাগরের পটভূমিতে বিশাল এক লোক মি. বগি এক গুঁড়ির গায়ে গাঢ় বাদামী চেহারাটা দেখতে একইরকম দড়ির চাপে পড়ে গেছে ডাক্তারের কাছে 

  2-Gram:   ভাল আছি’ বলল মনে হলো নইলে প্রফেসারি ছেড়ে ভ্রূ দেখাল হাসিটা মুছে তাকাল মুসা সবার মুখের দিকে একদৃষ্টে তাঁর সঙ্গে যুক্ত হয়েছে আম্মু আম্মু’ ‘এখনও জিনিসটা পরীক্ষা করল একবার আমাজন 

  2-Gram:   কীরকম পিনপতন নীরবতা ভেঙে উঠে কিটির অলক্ষে ছবি ভাল মেয়ে কোন মানে পারিবারিক কৌতুক কিন্তু কী কিশোর জেরিকে ঢুকিয়ে জোরে একটা ফায়ার এসকেপ দিয়ে ঠাহর করার নেই সেরকম আজ শনিবার 

  2-Gram:   নিজের ওপর খরচ করেছে এ ঘরে এসে তুলে সোজা হলো দুজনে পাখি ঠিক করছে কাঁধ চেপে ধরে টানল এসো আমরা যখন দেখল আগুনটা দুই হাত তুলে তাকাল সবাই ডাইনিং রুম 


Generating 3-gram list... Done

  3-Gram:   নিচ্ছে ও হাঁপিয়ে গেছে কৌতূহল বেড়ে গেল তবে মনে হলো কাঁপা হাতে কী’ ‘অ্যালিগেইটরের বাসা’ চিনতে পারল না বলে সবাই জেনে নাওগে আমার নেই’ বলল ‘মরিসের বোটটা ডুবিয়ে দিয়েছে মিসেস 

  3-Gram:   আছে এই সংবাদ