In [1]:
def load_file(filename):
    with open(filename, encoding="utf-8") as f:
        return f.read().lower()

In [2]:
dataset = load_file("data.txt")

In [3]:
def transitionTable(data, k=4):
    """Here data is string and k is an integer denoting the value of length of substring"""
    T = {}
    # Some computation
    for i in range(len(data)-k):
        X = data[i:i+k] # Substring extraction
        Y = data[i+k] # Next character of Substring
        if T.get(X) is None: # If Substring is not present
            T[X] = {}
            T[X][Y] = 1
        elif T[X].get(Y) is None: # if next character of substring is not present
            T[X][Y] = 1
        else: # increasing the frequency
            T[X][Y] += 1
    return T

In [4]:
tranisitiondata = transitionTable("hello hello hy helli")
print(tranisitiondata)

{'hell': {'o': 2, 'i': 1}, 'ello': {' ': 2}, 'llo ': {'h': 2}, 'lo h': {'e': 1, 'y': 1}, 'o he': {'l': 1}, ' hel': {'l': 2}, 'o hy': {' ': 1}, ' hy ': {'h': 1}, 'hy h': {'e': 1}, 'y he': {'l': 1}}


In [5]:
sum(tranisitiondata["hell"].values())

3

In [6]:
def probabilityTransition(T):
    for kx in T.keys():
        norm_factor = sum(T[kx].values()) # extract the denominator
        for val in T[kx].keys():
            T[kx][val] = T[kx][val]/norm_factor #divide to get the probability

In [7]:
probabilityTransition(tranisitiondata)

In [8]:
tranisitiondata

{'hell': {'o': 0.6666666666666666, 'i': 0.3333333333333333},
 'ello': {' ': 1.0},
 'llo ': {'h': 1.0},
 'lo h': {'e': 0.5, 'y': 0.5},
 'o he': {'l': 1.0},
 ' hel': {'l': 1.0},
 'o hy': {' ': 1.0},
 ' hy ': {'h': 1.0},
 'hy h': {'e': 1.0},
 'y he': {'l': 1.0}}

## prediction

In [9]:
import numpy as np

fruits = ["Mango", "Banana", "Apple"]
probab = [0.7, 0.2, 0.1]

for i in range(10):
    print(np.random.choice(fruits, p=probab))

Mango
Banana
Mango
Mango
Mango
Banana
Mango
Mango
Apple
Apple


In [10]:
def predict(string, T):
    if T.get(string) is None:
        return " "
    keys = list(T[string].keys())
    probability = list(T[string].values())
    
    return np.random.choice(keys, p=probability)

In [11]:
for i in range(10):
    print(predict("hell", tranisitiondata))

i
i
o
o
o
i
o
o
o
o


In [12]:
tranisitiondata["hell"].values()

dict_values([0.6666666666666666, 0.3333333333333333])

In [13]:
transit_dataset = transitionTable(dataset)
print(transit_dataset)

{'कौन ': {'ब': 3}, 'ौन ब': {'ो': 3}, 'न बो': {'ल': 3}, ' बोल': {'ा': 3}, 'बोला': {' ': 1, ',': 1, '\n': 1}, 'ोला ': {'म': 1}, 'ला म': {'ु': 1}, 'ा मु': {'झ': 1}, ' मुझ': {'स': 1}, 'मुझस': {'े': 1}, 'ुझसे': {' ': 1}, 'झसे ': {'न': 1}, 'से न': {' ': 1}, 'े न ': {'ह': 1, 'म': 1}, ' न ह': {'ो': 1}, 'न हो': {' ': 1}, ' हो ': {'प': 1}, 'हो प': {'ा': 1}, 'ो पा': {'य': 1}, ' पाय': {'े': 2}, 'पाये': {'ग': 2}, 'ायेग': {'ा': 5}, 'येगा': {'\n': 5}, 'ेगा\n': {'क': 1, 'य': 1, 'ज': 1, 'ऐ': 1, 'अ': 1}, 'गा\nक': {'ौ': 1, 'ल': 1}, 'ा\nकौ': {'न': 1}, '\nकौन': {' ': 1}, 'ोला,': {' ': 1}, 'ला, ': {'क': 1}, 'ा, क': {'ौ': 1}, ', कौ': {'न': 1}, ' कौन': {' ': 1}, 'ोला\n': {'अ': 1}, 'ला\nअ': {'प': 1}, 'ा\nअप': {'न': 16}, '\nअपन': {'ा': 16}, 'अपना': {' ': 19}, 'पना ': {'t': 19}, 'ना t': {'i': 19}, 'ा ti': {'m': 19}, ' tim': {'e': 19}, 'time': {' ': 19}, 'ime ': {'आ': 19}, 'me आ': {'ए': 19}, 'e आए': {'ग': 19}, ' आएग': {'ा': 19}, 'आएगा': {'\n': 18, ' ': 2}, 'एगा\n': {'उ': 1, 'आ': 1, 'म': 1, 'ज': 1, 'त': 6, 'अ': 15

In [14]:
probabilityTransition(transit_dataset)

In [15]:
print(transit_dataset)

{'कौन ': {'ब': 1.0}, 'ौन ब': {'ो': 1.0}, 'न बो': {'ल': 1.0}, ' बोल': {'ा': 1.0}, 'बोला': {' ': 0.3333333333333333, ',': 0.3333333333333333, '\n': 0.3333333333333333}, 'ोला ': {'म': 1.0}, 'ला म': {'ु': 1.0}, 'ा मु': {'झ': 1.0}, ' मुझ': {'स': 1.0}, 'मुझस': {'े': 1.0}, 'ुझसे': {' ': 1.0}, 'झसे ': {'न': 1.0}, 'से न': {' ': 1.0}, 'े न ': {'ह': 0.5, 'म': 0.5}, ' न ह': {'ो': 1.0}, 'न हो': {' ': 1.0}, ' हो ': {'प': 1.0}, 'हो प': {'ा': 1.0}, 'ो पा': {'य': 1.0}, ' पाय': {'े': 1.0}, 'पाये': {'ग': 1.0}, 'ायेग': {'ा': 1.0}, 'येगा': {'\n': 1.0}, 'ेगा\n': {'क': 0.2, 'य': 0.2, 'ज': 0.2, 'ऐ': 0.2, 'अ': 0.2}, 'गा\nक': {'ौ': 0.5, 'ल': 0.5}, 'ा\nकौ': {'न': 1.0}, '\nकौन': {' ': 1.0}, 'ोला,': {' ': 1.0}, 'ला, ': {'क': 1.0}, 'ा, क': {'ौ': 1.0}, ', कौ': {'न': 1.0}, ' कौन': {' ': 1.0}, 'ोला\n': {'अ': 1.0}, 'ला\nअ': {'प': 1.0}, 'ा\nअप': {'न': 1.0}, '\nअपन': {'ा': 1.0}, 'अपना': {' ': 1.0}, 'पना ': {'t': 1.0}, 'ना t': {'i': 1.0}, 'ा ti': {'m': 1.0}, ' tim': {'e': 1.0}, 'time': {' ': 1.0}, 'ime ': {'आ': 1.0}, 'me 

In [20]:
output_statement = "कौन "
for i in range(100):
    predicted_char = predict(output_statement[-4:], transit_dataset)
    output_statement+=predicted_char

print(output_statement)

कौन बोला
अपना time आएगा अपनी राख से जीने में नहीं
उतनी ताकत किस्मत में
परवाज़ देख परवाने की
असमान भी लड़का
