In [23]:
import numpy as np
np.random.seed(42)
import tensorflow as tf
tf.set_random_seed(42)
from keras.models import Sequential, load_model
from keras.layers import Dense, Activation
from keras.layers import LSTM, Dropout
from keras.layers import TimeDistributed
from keras.layers.core import Dense, Activation, Dropout, RepeatVector
from keras.optimizers import RMSprop
import pickle


In [24]:
from nltk.corpus import PlaintextCorpusReader
import os
import sys
wordlists = PlaintextCorpusReader("Nepali_Corpus", '.*txt')
data = wordlists.fileids()[:500]
text = []
for i in data:
    with open(os.path.join("Nepali_Corpus",i)) as file:
        text.append(file.read())
text = "\n".join(text)

In [25]:
chars = sorted(list(set(text)))

char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))
print("Chars",len(char_indices))
print("No. of Chars",len(text))

Chars 102
No. of Chars 1052559


In [26]:
SEQUENCE_LENGTH = 40
step = 3
sentences = []
next_chars = []

for i in range(0, len(text) - SEQUENCE_LENGTH, step):
    sentences.append(text[i: i + SEQUENCE_LENGTH])
    next_chars.append(text[i + SEQUENCE_LENGTH])
print("Comlpeted")


Comlpeted


In [27]:
X = np.zeros((len(sentences), SEQUENCE_LENGTH, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
X.shape,y.shape  

((350840, 40, 102), (350840, 102))

In [28]:
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        X[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1
print(X[0][0])

[False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False  True False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False]


In [29]:

model = Sequential()
model.add(LSTM(128, input_shape=(SEQUENCE_LENGTH, len(chars))))
model.add(Dense(len(chars)))
model.add(Activation('softmax'))
optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer, metrics=['accuracy'])
history = model.fit(X, y, validation_split=0.05, batch_size=32, epochs=50, shuffle=True).history
model.save('keras_modelseq2.h5')
pickle.dump(history, open("historyseq2.p", "wb"))

Train on 333298 samples, validate on 17542 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [30]:
model

<keras.models.Sequential at 0x7f32c6b0ce80>

In [31]:
text

"मकवानपुर – फिल्म ‘हुर्रे’ले रिलिज मिति नजिकिएसँगै प्रचारप्रसारमा तीव्रता दिएको छ । शनिबार हेटौंडा आइपुगेको फिल्मको निर्माता तथा कलाकारको टोलीले फिल्म हास्यप्रधान रहे पनि पृथक कथाबस्तुमा निर्माण रहेको बताए । फिल्मको प्रचारका लागि देश दौडाहामा रहेको फिल्मको टोली पोखरा, बुटवल, चितवनपछि हेटौंडा आइपुगेको थियो।\nहेटौंडामा आयोजित अन्तरक्रियामा अभिनेता अनुपविक्रम शाहीले फिल्म मनोरञ्जक रहेको बताए भने अभिनेत्री केकी अधिकारीले फिल्मभित्र आफू सबैलाई मोहमा फसाएर राख्ने स्वर्गकी अप्सरा ‘मेनका’को जस्तै भूमिकामा रहेको बताइन् । हास्य कलाकार राजाराम पौडेलले एक महिना सुटिङ गर्दा आर्यघाटको धुँवाले कलाकारहरू बिरामी परेको बताए । ‘फिल्म हेरेपछि हाँस्दा–हाँस्दा भोक लाग्छ, उनले रमाइलो गर्दै भने, ‘सबै फिल्ममा सन्देश राख्दा मजा हुँदैन, सन्देश मात्र खोज्ने भए पुराण सुने भैगो नि।’\nयम थापाको लेखन तथा निर्देशन रहेको फिल्ममा अनुपविक्रम शाही, केकी अधिकारी, बिजय बराल, अंकित खड्का, संगीता नापित लगायतको अभिनय छ । फागुनको २५ गतेबाट प्रदर्शित हुने फिल्मलाई याखा इन्टरटेनमेन्टको ब्यानरमा दावा शेर्पा, सोनम लामा भ्लोन र छिरि

In [None]:

def prepare_input(text):
    x = np.zeros((1, SEQUENCE_LENGTH, len(chars)))
    for t, char in enumerate(text):
        x[0, t, char_indices[char]] = 1
    return x

def sample(preds, top_n=3):
  
    preds = preds
    return heapq.nlargest(top_n, range(len(preds)), preds.take)

def predict_completion(text):
    original_text = text
    generated = text
    completion=''
    while True:
        x = prepare_input(text)
        preds = model.predict(x, verbose=0)[0]
        next_index = sample(preds, top_n=1)[0]
        next_char = indices_char[next_index]

        text = text[1:] + next_char
        completion += next_char
        if next_char == ' ':
            return completion

def predict_completions(text, n):
    x = prepare_input(text)
    preds = model.predict(x, verbose=0)[0]
    next_indices = sample(preds, n)
    return "".join([indices_char[idx] + predict_completion(text[1:] + indices_char[idx]) for idx in next_indices])

quotes = [
   "हिट फिल्म ‘कुछ कुछ होता है’ मा उनको"
]

for q in quotes:
    seq = q[:40]
    print(seq)
    print(predict_completions(seq, 5))
print("Completion")