In [131]:
import re
from nltk.tokenize import word_tokenize
import random

In [132]:
data_path = "./premchand.txt"

def read_text(data_path):
    txt = []
    
    with open(data_path) as f:
        for line in f:
            line = line.strip()
            if line!='':txt.append(line)
    return txt
        
stories = read_text(data_path)
print("Lines read ", len(stories))

Lines read  28068


In [133]:
def clean_data(txt):
    cleaned_txt = []
    for line in txt:
        line = re.sub(r"[,.\"\'!@#$%^&*(){}?/;`~:<>+=-\\]।", "", line)
        tokens = word_tokenize(line)
        words = [word for word in tokens if word.isalpha()]
        cleaned_txt+=words
    return cleaned_txt

cleaned_txt = clean_data(stories)
print("number of words = ", len(cleaned_txt))

number of words =  186852


In [134]:
def init_model(cleaned_txt):
    # this is for the number of words in one token for context
    context_length = 2  
    
    
    markov_model = dict()
    for i in range(len(cleaned_txt)-context_length-1):
        curr_state, next_state = "", ""
        for j in range(context_length):
            curr_state += cleaned_txt[i+j] + " "
            next_state += cleaned_txt[i+j+context_length] + " "
        curr_state = curr_state.strip()
        next_state = next_state.strip()
        if curr_state not in markov_model:
            markov_model[curr_state] = {}
            markov_model[curr_state][next_state] = 1
        else:
            if next_state in markov_model[curr_state]:
                markov_model[curr_state][next_state] += 1
            else:
                markov_model[curr_state][next_state] = 1
    
    for curr_state, transition in markov_model.items():
        total = sum(transition.values())
        for state, count in transition.items():
            markov_model[curr_state][state] = count/total
        
    return markov_model
markov_model = init_model(cleaned_txt)

In [142]:
# this is so that you can get one random key to try
print(random.choice(list(markov_model.items())))

('आज गई', {'घर आग': 0.04, 'मर गए': 0.04, 'घर घर': 0.04, 'और तरफ': 0.04, 'वह तक': 0.04, 'हम वह': 0.04, 'कब मन': 0.04, 'रह यह': 0.04, 'और तक': 0.04, 'इस आ': 0.04, 'वह पर': 0.04, 'इन पर': 0.04, 'वर कह': 0.04, 'रतन आज': 0.04, 'जब एक': 0.04, 'और आकर': 0.04, 'और पहर': 0.04, 'और पर': 0.04, 'और कह': 0.04, 'एक एक': 0.04, 'वह अलग': 0.04, 'वह आज': 0.04, 'वह समझ': 0.04, 'इस नगर': 0.04, 'तप और': 0.04})


In [144]:
def predict_next_token(markov_model, limit=100, start='आज गई'):
    n = 0
    curr_state = start
    next_state = None
    text = ""
    text+=curr_state+" "
    while n<limit:
        next_state = random.choices(list(markov_model[curr_state].keys()),
                                    list(markov_model[curr_state].values()))
        
        curr_state = next_state[0]
        text+=curr_state+" "
        n+=1
    return text

In [145]:
for i in range(15):
    print(str(i)+". ", predict_next_token(markov_model, start="आ समय", limit=8))

0.  आज गई और आकर पर मतई आकर फट और न हम मकसद यह न और कई इस पर 
1.  आज गई वर कह आप न और और न कर मन कर कर मन भय यह इन जब 
2.  आज गई और पर आज और और एक आ और और न आप इस यह अब समझ न 
3.  आज गई और पर न जगह पर और पर इस कई अब तक समझकर आज वह आसन और 
4.  आज गई और कह पर जप हवन पर और और वतन वह और पर न और उछल बरस 
5.  आज गई और कह पर न गई और पर न इस बन वह एमए कर पद हम इस 
6.  आज गई और आकर पर और और हम यह वह कर एक मर बच बच इस इस पर 
7.  आज गई वह पर अगर घर कलह यह कर जब इस बखत और न समझकर मन यह इस 
8.  आज गई वह तक इस ओर वह पर न वह कर एक घर इस तब जब गरज तब 
9.  आज गई वह समझ गए इस आकर तक और गरम जब तक और न और न मगर और 
10.  आज गई वह तक कर इस अमर अब तक कर अब हटकर पर आप और पर पर रसद 
11.  आज गई वह समझ आप आप अकड बस आन आन इस उस और बच न और मरन हम 
12.  आज गई रतन आज घर कल कह समय आ पर और अगर यह गई कर एक और बद 
13.  आज गई एक एक और इस समय और मलमल गज अब मगर एक कह एक और एक न 
14.  आज गई रह यह आप बन यह सब अदब और समझ वह अकसर कर अब मदद पर न 


In [151]:
print(predict_next_token(markov_model, start=random.choice(list(markov_model.items()))[0], limit=100))

उधर बजट पर अगर पर नजर वह आ मगर कह अगर वह कह आज अगर इस सरल मन कह न यह वह यह वह आए जब पर उन एक न एक न और सह आए यह न मर गए यह कमर पर कर कई ओर न यह और घर इस पर पर कदम और उस पर वह वह जब न आ यह और वह और जब रह तब जब औरत औरत औरत पर इस और अगर घर न और आठ पर और पर और मन न सदय तब उस इस समय पर इस एक इन कर एक यह पर वह घर घर घर आज वह घर वह वह और पर इस न इधर उधर पर मन और पर पर और पर कह मगर हम सब अब न यह न हट यह आग कर कर बदन अब आप गजब न इन और जब पर कर यह आज पर वह सफ न पर ओर और न तक वह इस समय वह पर अतएव करण ओर तक न वह और समय आ आज वह मरहम जईरत वह अटल पर यह पर और आज ओर और न और यह सब न इन समझकर दरद अब और अब छ पर फसल अगर आठ न वह तक शहर 
