In [1]:
import numpy as np
import pandas as pd

In [2]:
def load_text(filename):
    with open(filename,encoding='utf8') as f:
        return f.read().lower()

In [3]:
text_path = "Apna Time Aayega.txt"

text = load_text(text_path)

In [4]:
print(text[:2000])

apna time aayega
uth ja apni raakh se
tu udd ja ab talaash mein
parwaaz dekh parwane ki
aasman bhi sar uthayega
aayega apna time aayega
mere jaisa shaana lala
tujhe na mil payega
 
yeh shabdon ka jwala
meri bediyan pighlayega
jitna toone boya hai tu
utna hi to khaayega
aisa mera khwaab hai
jo darr ko bhi satayega
zinda mera khwaab
ab kaise tu dafnayega
 
ab hausle se jeene de
ab khauf nahi hai seene mein
har raaste ko cheerenge
hum kaamyabi chheenenge
sab kuchh mila paseene se
matlab bana ab jeene mein
 
kyon
kyon ki apna time aayega
 
tu nanga hi to aaya hai
kya ghanta lekar jaayega
apna time aayega
apna time aayega
apna time aayega x (2)
 
tu nanga hi to aaya hai
kya ghanta lekar..
 
kissi ka hath nahi tha sar par
yahaan par aaya khud ki mehnat se main
jitni taakat kismat mein nahi
utni rehmat mein hai
phir bhi ladka sehmat nahin hai
kyon ki hairat nahi hai
zaroorat yahaan marzi ki
aur jurrat ki hai
 
taakat ki hai, aafat ki
himaakat ki, ibaadat ki
adalat yeh hai chahat ki
mohobbat k

## Training Markov Chain Model

In [5]:
def generateTable(data,k=4):
    T = {}
    for i in range(len(data)-k):
        X = data[i:i+k]
        Y = data[i+k]
#         print("X %s and Y %s"%(X,Y))
        
        if T.get(X) is None:
            T[X] = {}
            T[X][Y] = 1
        else:
            if T[X].get(Y) is None:
                T[X][Y] = 1
            else:
                T[X][Y] +=1
        
    return T

In [6]:
def convertFreqIntoProb(T):
    for kx in T.keys():
        s = float(sum(T[kx].values()))
        for k in T[kx].keys():
            T[kx][k] = T[kx][k]/s
    return T

In [7]:
def trainMarkovChain(text,k=4):
    T = generateTable(text,k)
    T = convertFreqIntoProb(T)
    return T

In [8]:
model = trainMarkovChain(text)

In [9]:
print(model)

{'apna': {' ': 1.0}, 'pna ': {'t': 1.0}, 'na t': {'i': 0.9166666666666666, 'o': 0.08333333333333333}, 'a ti': {'m': 1.0}, ' tim': {'e': 1.0}, 'time': {' ': 1.0}, 'ime ': {'a': 1.0}, 'me a': {'a': 1.0}, 'e aa': {'y': 1.0}, ' aay': {'e': 0.6875, 'a': 0.3125}, 'aaye': {'g': 1.0}, 'ayeg': {'a': 1.0}, 'yega': {'\n': 0.9047619047619048, ' ': 0.09523809523809523}, 'ega\n': {'u': 0.05263157894736842, 'a': 0.5263157894736842, 'm': 0.05263157894736842, ' ': 0.21052631578947367, 'j': 0.05263157894736842, 'z': 0.05263157894736842, 'k': 0.05263157894736842}, 'ga\nu': {'t': 1.0}, 'a\nut': {'h': 1.0}, '\nuth': {' ': 1.0}, 'uth ': {'j': 1.0}, 'th j': {'a': 1.0}, 'h ja': {' ': 1.0}, ' ja ': {'a': 1.0}, 'ja a': {'p': 0.5, 'b': 0.5}, 'a ap': {'n': 1.0}, ' apn': {'i': 0.3333333333333333, 'a': 0.6666666666666666}, 'apni': {' ': 1.0}, 'pni ': {'r': 1.0}, 'ni r': {'a': 0.5, 'e': 0.5}, 'i ra': {'a': 1.0}, ' raa': {'k': 0.5, 's': 0.5}, 'raak': {'h': 1.0}, 'aakh': {' ': 1.0}, 'akh ': {'s': 1.0}, 'kh s': {'e': 1

## Generate Text at Text Time! 

In [11]:
def sample_next(ctx,T,k):
    ctx = ctx[-k:]
    if T.get(ctx) is None:
        return " "
    possible_chars = list(T[ctx].keys())
    possible_values = list(T[ctx].values())
    
#     print(possible_chars)
#     print(possible_values)
    
    return np.random.choice(possible_chars,p=possible_values)

In [19]:
arr = sample_next("on k",model,4)

['a', 'i']
[0.3333333333333333, 0.6666666666666666]


In [14]:
def generateText(starting_sent,k=4,maxLen=1000):
    sentence = starting_sent
    ctx = starting_sent[-k:]
    
    for ix in range(maxLen):
        next_pred = sample_next(ctx,model,k)
        sentence += next_pred
        ctx = sentence[-k:]
    return sentence

In [15]:
np.random.seed(11)
text = generateText("apna",k=4,maxLen=2000)
print(text)

[' ']
[1.0]
['t']
[1.0]
['i', 'o']
[0.9166666666666666, 0.08333333333333333]
['m']
[1.0]
['e']
[1.0]
[' ']
[1.0]
['a']
[1.0]
['a']
[1.0]
['y']
[1.0]
['e', 'a']
[0.6875, 0.3125]
[' ']
[1.0]
['h', 'k']
[0.8, 0.2]
['h']
[1.0]
['w', 'u']
[0.6666666666666666, 0.3333333333333333]
['a']
[1.0]
['a']
[1.0]
['b']
[1.0]
[' ', '\n']
[0.5, 0.5]
['h']
[1.0]
['a']
[1.0]
['i', 'u']
[0.5, 0.5]
['s']
[1.0]
['l']
[1.0]
['e']
[1.0]
[' ']
[1.0]
['s']
[1.0]
['e']
[1.0]
[' ', '\n']
[0.5, 0.5]
['j', 'm']
[0.5, 0.5]
['e']
[1.0]
['e']
[1.0]
['n']
[1.0]
['e']
[1.0]
[' ', 'n']
[0.8, 0.2]
['d', 'm', 's']
[0.25, 0.5, 0.25]
['e']
[1.0]
[' ', '\n']
[0.5, 0.5]
['j', 'm']
[0.5, 0.5]
['e']
[1.0]
['e']
[1.0]
['n']
[1.0]
['e']
[1.0]
[' ', 'n']
[0.8, 0.2]
['d', 'm', 's']
[0.25, 0.5, 0.25]
['e']
[1.0]
['\n']
[1.0]
['a']
[1.0]
['b']
[1.0]
[' ']
[1.0]
['k', 'h']
[0.6666666666666666, 0.3333333333333333]
['a', 'h', 'u']
[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
['a']
[1.0]
['a', 'u']
[0.5, 0.5]
['y']
[1.0]
['

['b', 'c']
[0.5, 0.5]
['h']
[1.0]
['e']
[1.0]
['e']
[1.0]
['r']
[1.0]
['e']
[1.0]
['n']
[1.0]
['g']
[1.0]
['e']
[1.0]
['\n']
[1.0]
['h', 's']
[0.5, 0.5]
['a']
[1.0]
['b']
[1.0]
[' ']
[1.0]
['k']
[1.0]
['a', 'h', 'u']
[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
['i']
[1.0]
['s']
[1.0]
['e']
[1.0]
[' ']
[1.0]
['t']
[1.0]
['u']
[1.0]
[' ']
[1.0]
['d', 'g']
[0.5, 0.5]
['a']
[1.0]
['f']
[1.0]
['n']
[1.0]
['a']
[1.0]
['y']
[1.0]
['e']
[1.0]
['g']
[1.0]
['a']
[1.0]
['\n', ' ']
[0.9047619047619048, 0.09523809523809523]
['u', 'a', 'm', ' ', 'j', 'z', 'k']
[0.05263157894736842, 0.5263157894736842, 0.05263157894736842, 0.21052631578947367, 0.05263157894736842, 0.05263157894736842, 0.05263157894736842]
['e']
[1.0]
['r']
[1.0]
['e', 'i']
[0.5, 0.5]
[' ']
[1.0]
['b']
[1.0]
['e']
[1.0]
['d']
[1.0]
['i']
[1.0]
['y']
[1.0]
['a']
[1.0]
['n']
[1.0]
[' ']
[1.0]
['p']
[1.0]
['i', 'a']
[0.5, 0.5]
['r']
[1.0]
['w', '\n', ' ']
[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
['a']

['i']
[1.0]
['t']
[1.0]
['n']
[1.0]
['a', 'i']
[0.5, 0.5]
[' ']
[1.0]
['t', 'h']
[0.5, 0.5]
['i']
[1.0]
[' ']
[1.0]
['t', 'b']
[0.8333333333333334, 0.16666666666666666]
['o', 'h']
[0.8333333333333334, 0.16666666666666666]
[' ']
[1.0]
['k', 'a']
[0.2, 0.8]
['a']
[1.0]
['y']
[1.0]
['e', 'a']
[0.6875, 0.3125]
['g']
[1.0]
['a']
[1.0]
['\n', ' ']
[0.9047619047619048, 0.09523809523809523]
['u', 'a', 'm', ' ', 'j', 'z', 'k']
[0.05263157894736842, 0.5263157894736842, 0.05263157894736842, 0.21052631578947367, 0.05263157894736842, 0.05263157894736842, 0.05263157894736842]
['\n']
[1.0]
['y', 'a', 't']
[0.25, 0.25, 0.5]
['b']
[1.0]
[' ']
[1.0]
['k', 'h']
[0.6666666666666666, 0.3333333333333333]
['a']
[1.0]
['i', 'u']
[0.5, 0.5]
[' ', '\n', 'r', ',']
[0.16666666666666666, 0.7222222222222222, 0.05555555555555555, 0.05555555555555555]
['j', 'k', 'p', 'z', ' ', 's', 't']
[0.07692307692307693, 0.46153846153846156, 0.07692307692307693, 0.07692307692307693, 0.15384615384615385, 0.07692307692307693, 0.076

['s', 'k']
[0.5, 0.5]
['i']
[1.0]
['s', ' ', '\n', ',']
[0.09090909090909091, 0.36363636363636365, 0.36363636363636365, 0.18181818181818182]
['a', 'h', 'm', 'j']
[0.5, 0.16666666666666666, 0.16666666666666666, 0.16666666666666666]
['a', 'u', 'd']
[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
['r']
[1.0]
[' ']
[1.0]
['j']
[1.0]
['u']
[1.0]
['r']
[1.0]
['r']
[1.0]
['a']
[1.0]
['t']
[1.0]
[' ']
[1.0]
['n', 'y', 'k']
[0.25, 0.25, 0.5]
['a', 'e']
[0.5, 0.5]
['h']
[1.0]
['a']
[1.0]
['a']
[1.0]
['n']
[1.0]
['a', ' ']
[0.3333333333333333, 0.6666666666666666]
['p', 'm']
[0.5, 0.5]
['a']
[1.0]
['r']
[1.0]
['z']
[1.0]
['i']
[1.0]
[' ']
[1.0]
['k']
[1.0]
['i']
[1.0]
['\n']
[1.0]
['a', 'h', 'm', 'j']
[0.5, 0.16666666666666666, 0.16666666666666666, 0.16666666666666666]
['a', 'u', 'd']
[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
['a']
[1.0]
['l']
[1.0]
['a']
[1.0]
['t']
[1.0]
[' ']
[1.0]
['y']
[1.0]
['a', 'e']
[0.5, 0.5]
['h']
[1.0]
[' ']
[1.0]
['s', 'h']
[0.5, 0.5]
['

['i', 'o']
[0.9166666666666666, 0.08333333333333333]
['o']
[1.0]
['n']
[1.0]
['e']
[1.0]
[' ']
[1.0]
['b']
[1.0]
['o']
[1.0]
['y']
[1.0]
['a']
[1.0]
[' ']
[1.0]
['h']
[1.0]
['a']
[1.0]
['i', 't']
[0.8333333333333334, 0.16666666666666666]
[' ', '\n', 'r', ',']
[0.16666666666666666, 0.7222222222222222, 0.05555555555555555, 0.05555555555555555]
['j', 'k', 'p', 'z', ' ', 's', 't']
[0.07692307692307693, 0.46153846153846156, 0.07692307692307693, 0.07692307692307693, 0.15384615384615385, 0.07692307692307693, 0.07692307692307693]
['y']
[1.0]
['a', 'o']
[0.6666666666666666, 0.3333333333333333]
['n']
[1.0]
['\n', ' ', '?']
[0.25, 0.5, 0.25]
['k']
[1.0]
['a', 'i']
[0.3333333333333333, 0.6666666666666666]
[' ']
[1.0]
['j', 'h']
[0.5, 0.5]
['w']
[1.0]
['a']
[1.0]
['l']
[1.0]
['a']
[1.0]
['\n']
[1.0]
['t', 'm']
[0.5, 0.5]
['e']
[1.0]
['r']
[1.0]
['e', 'i']
[0.5, 0.5]
[' ']
[1.0]
['j', 'b']
[0.5, 0.5]
['a']
[1.0]
['i']
[1.0]
['s']
[1.0]
['a']
[1.0]
[' ']
[1.0]
['s', 'm', 'k']
[0.3333333333333333, 0.3

['d']
[1.0]
['k']
[1.0]
apna time aaya khwaab hausle se jeene se jeene de
ab khaayega
 
tu nanga hi to aaya hai
kyon?
 
tu nanga hi to aayega
 
tu nanga hi barkat di harkat ki hard’ch nai hai jaisa shabdon ka hai
kya ghanta lekar jaayega
apna time aayega
aayega
kya ghanta lekar jaayega
 
ab khauf nahin hai
 
tu nanga hi to aayega
apna toone boya hath nahi
utna time aaya hai
jo darr ko cheerenge
sab kaise tu dafnayega
meri bediyan par aaya hai
phir bhi ladka sehmat ne hi to khauf nahi
utni raakh se
tu nanga hi to aayega
uth ja apni raaste ko bhi satayega
apna toone boya hai jaisa koyi hai chheene se jeenenge
hum kaamyabi chheene mein hairat yahaan pighlayega
jitna hi to khauf nahi
utna hi to khaayega
 
yeh shabdon ka hai
zaroorat ki
himaakat di hairat ki, ibaadat ki hai
kya ghanta lekar jaayega
apna time aayega
 
tu nanga hi barkat ki
adalat yahaan par
yahaan marzi ki
jeetne ki
jeetne ki mehnat se main
jitna hi to aayega
 
ab hai
kya tu dafnayega
mere jaisa mera khud ki hai
kya ghanta l

In [16]:
with open("Output.txt", "w") as text_file:
    print(text, file=text_file)