# **Text Generation**

In [1]:
import tensorflow.keras
import numpy as np

In [2]:
path = tensorflow.keras.utils.get_file('nietzsche.txt',
                                       origin ='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
text = open(path).read().lower()

Downloading data from https://s3.amazonaws.com/text-datasets/nietzsche.txt


In [3]:
corpus_length = len(text)
print(corpus_length)

600893


In [4]:
chars = sorted(list(set(text)))
len(chars)

57

In [5]:
dict_chars = dict((char,chars.index(char))for char in chars)
print(dict_chars.keys())
print(dict_chars.values())

dict_keys(['\n', ' ', '!', '"', "'", '(', ')', ',', '-', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '=', '?', '[', ']', '_', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ä', 'æ', 'é', 'ë'])
dict_values([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56])


In [6]:
maxLen = 60
step = 3
sentences = []
next_char = []
for i in range(0,corpus_length-maxLen,step):
  current = text[i:i+maxLen]
  sentences.append(current)
  next_char.append(text[i+maxLen])
print(len(sentences),len(next_char))

200278 200278


In [7]:
X = np.zeros((len(sentences),maxLen,len(chars)))
Y = np.zeros((len(sentences),len(chars)))
print(X.shape,Y.shape)

(200278, 60, 57) (200278, 57)


In [8]:
for i,sentence in enumerate(sentences):
  for j, char in enumerate(sentence):
    X[i,j,dict_chars[char]] = 1
  Y[i,dict_chars[next_char[i]]] = 1

In [9]:
def sample(preds,temp=0.5):
  preds = np.asarray(preds).astype('float64')
  preds = np.log(preds)/temp
  exp_preds = np.exp(preds)
  preds = exp_preds/(np.sum(exp_preds))
  probabs = np.random.multinomial(1,preds,1)
  return np.argmax(probabs)

In [10]:
from tensorflow.keras.models import Sequential
from tensorflow.keras import layers 

In [14]:
model = Sequential()
model.add(layers.LSTM(128,input_shape=(maxLen,len(chars))))
model.add(layers.Dense(len(chars),activation='softmax'))
model.compile(optimizer='adam',loss='categorical_crossentropy')

In [15]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_1 (LSTM)                (None, 128)               95232     
_________________________________________________________________
dense_1 (Dense)              (None, 57)                7353      
Total params: 102,585
Trainable params: 102,585
Non-trainable params: 0
_________________________________________________________________


In [18]:
for i in range(1):
  print('epoch: ',i)
  model.fit(X,Y,epochs=1,batch_size=128)
  initial_start = np.random.randint(0,corpus_length-maxLen)
  ini_str = text[initial_start:initial_start+maxLen]
  
  final_str = ini_str
  for j in range(4000):
    x_test = np.zeros((1,len(ini_str),len(chars)))
    for k, char in enumerate(ini_str):
      x_test[0,k,dict_chars[char]] = 1
    preds = model.predict(x_test)[0]
    next_index = sample(preds,1)
    next_char = chars[next_index]

    final_str = final_str + next_char
    ini_str = ini_str + next_char
    ini_str = ini_str[1:]
  print('-----------------------------------------------')
  print('Generated text')
  print(final_str)
  print('-----------------------------------------------')

epoch:  0
-----------------------------------------------
Generated text
t result thus and so, that we are comparatively
calculable and any man in the spirit all the most men and who has extrance of the sense of the sease of the strangere and in the sense of the single and the most means of the consequently and and the most profound, and all the same the present of the sense of the sense of the same to be sense and the sense of the same to be soul and any last from the most medere of the most proved the most provering the same 
-----------------------------------------------
epoch:  1
-----------------------------------------------
Generated text
ants,
the scientific workers of philosophy, remain standing, the such a more self-conternety of the stranges and same to be and the more and the stranges of the same to the sensime to the sense of the strength perhaps and the most desire of the same to the spirit and something of the fact of the states of the same to the sense of the same to t

In [19]:
for i in range(1):
  print('epoch: ',i)
  model.fit(X,Y,epochs=1,batch_size=128)
  initial_start = np.random.randint(0,corpus_length-maxLen)
  ini_str = text[initial_start:initial_start+maxLen]
  
  final_str = ini_str
  for j in range(4000):
    x_test = np.zeros((1,len(ini_str),len(chars)))
    for k, char in enumerate(ini_str):
      x_test[0,k,dict_chars[char]] = 1
    preds = model.predict(x_test)[0]
    next_index = sample(preds,1)
    next_char = chars[next_index]

    final_str = final_str + next_char
    ini_str = ini_str + next_char
    ini_str = ini_str[1:]
  print('-----------------------------------------------')
  print('Generated text')
  print(final_str)
  print('-----------------------------------------------')

epoch:  0
-----------------------------------------------
Generated text
nic one, but it may notwithstanding be the right
imperative or derwau

borts of scirtience.

178. on a unter the parts as to say naces, their treet
for nowad its was in the highest knowith is such a domard to ansives therewich as rulent a decalters!-notr sublumitation of contades: that is lices
at traclisible, supporrs to defectededis, whenweed with attoway which, the philosophy it
has eyes, a state of which whol? incalled physionoud to the same gurbaticing,
in the way of even fact that is are invalureat, which have been being bood! lettures. there is other sign of the natures and pecious some minds, in a midfled the
physiove of auth of the german "be person of loghto god affincts to
impurfeinedly so lootising premeated the samen, in the philosopher through to three tumpheld have
in through a rage: thus cruce
himself
german mat blencupmy intervitionability, wherefre, no'stept to thein its pride the moral strange, 

# **Telugu Text Generation**

In [22]:
raw_text = open('Agnigundam.txt',encoding='utf-8').read().lower()

In [23]:
raw_text[:1000]

'\nజాగ్రత్త పడవలసిన ఘట్టం\n\n\nఒక పెద్ద పోలీసు అధికారి ఒక మేధావుల సభలో హైద్రాబాద్\u200cలో ప్రసంగిస్తూ ప్రజలలో హింసా ప్రవృత్తీ, దౌర్జన్య\nదృక్పథం పెరిగి పోయిందన్నారు. పోలీసు బలగానికికూడా ఇదే వర్తిస్తుందని ఆయన చెప్పినా, ప్రజలలో ఆ ప్రవృత్తి తీవ్రం\nకావడంచేతనే పోలీసులలోనూ దాన్ని ప్రతి క్రియారూపంలో చూస్తామనేది ఆయన వాదన సారాంశం.\n\nప్రభుత్వ శాఖలు, ప్రభుత్వ వర్గాలు, పాలక వర్గాలలో పెచ్చు పెరిగిపోతున్న అవినీతి, ప్రజా వ్యతిరేకత, హింసా\nప్రవృత్తికి ప్రతిక్రియగానే ప్రజలలో దౌర్జన్యకాండమీద మొగ్గుదల ప్రబలుతూంది. ఒక లారీనో బస్సునో తగలపెట్టేరన్నా,\nఒక పోలీసు స్టేషను మీద రాళ్ళు విసిరేరన్నా, ఒక ఆఫీసరునో, కళాశాలాధికారినో చెయ్యి చేసుకున్నారన్నా, ప్రత్యర్ధిని\nఒంటరిగా చిక్కించుకొని పొడిచేశారన్నా చివరికి నక్సలైట్ వుద్యమం చెలరేగిందన్నా ఇది సమాజంలో నోరుగలవాళ్ళూ, అధికారం\nగలవాళ్ళూ నిర్భయంగా సాగిస్తున్న అన్యాయాలూ, దురంతాల ప్రతిక్రియగా వస్తున్నదేగాని వేరుకాదు. నా \'రధచక్రాలలో\' ఒక\nవాక్యం వుంది: "నిప్పు ముట్టించేవాళ్ళమూ మనమే, చెయ్యి కాలి ఏడ్చేవాళ్ళమూ మనమే"--నని. నిజానికి పాలకవర్గాలు\nచేస్తున్నదదే.\n\nఈ నవలలోని ఘట

In [40]:
raw_text = ''.join(c for c in raw_text if not c.isdigit())

In [52]:
len(raw_text)

174846

In [41]:
tel_chars = sorted(list(set(raw_text)))
print(tel_chars)

['\n', ' ', '!', '"', "'", '(', ')', ',', '-', '.', ':', ';', '?', 'a', 'd', 'e', 'g', 'h', 'i', 'k', 'l', 'm', 'n', 'p', 's', 't', 'v', 'ం', 'ః', 'అ', 'ఆ', 'ఇ', 'ఈ', 'ఉ', 'ఊ', 'ఎ', 'ఏ', 'ఐ', 'ఒ', 'ఓ', 'ఔ', 'క', 'ఖ', 'గ', 'ఘ', 'ఙ', 'చ', 'ఛ', 'జ', 'ఝ', 'ఞ', 'ట', 'ఠ', 'డ', 'ఢ', 'ణ', 'త', 'థ', 'ద', 'ధ', 'న', 'ప', 'ఫ', 'బ', 'భ', 'మ', 'య', 'ర', 'ల', 'ళ', 'వ', 'శ', 'ష', 'స', 'హ', 'ా', 'ి', 'ీ', 'ు', 'ూ', 'ృ', 'ె', 'ే', 'ై', 'ొ', 'ో', 'ౌ', '్', '\u200c', '–', '—', '‘', '’']


In [43]:
tot_chars = len(tel_chars)
print(tot_chars)

93


In [46]:
dict_tel_chars = dict((char,tel_chars.index(char)) for char in tel_chars)
print(dict_tel_chars.keys())
print(dict_tel_chars.values())

dict_keys(['\n', ' ', '!', '"', "'", '(', ')', ',', '-', '.', ':', ';', '?', 'a', 'd', 'e', 'g', 'h', 'i', 'k', 'l', 'm', 'n', 'p', 's', 't', 'v', 'ం', 'ః', 'అ', 'ఆ', 'ఇ', 'ఈ', 'ఉ', 'ఊ', 'ఎ', 'ఏ', 'ఐ', 'ఒ', 'ఓ', 'ఔ', 'క', 'ఖ', 'గ', 'ఘ', 'ఙ', 'చ', 'ఛ', 'జ', 'ఝ', 'ఞ', 'ట', 'ఠ', 'డ', 'ఢ', 'ణ', 'త', 'థ', 'ద', 'ధ', 'న', 'ప', 'ఫ', 'బ', 'భ', 'మ', 'య', 'ర', 'ల', 'ళ', 'వ', 'శ', 'ష', 'స', 'హ', 'ా', 'ి', 'ీ', 'ు', 'ూ', 'ృ', 'ె', 'ే', 'ై', 'ొ', 'ో', 'ౌ', '్', '\u200c', '–', '—', '‘', '’'])
dict_values([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92])


In [54]:
maxLen = 60
steps = 3
sentences = []
next_chars = []
for i in range(0,len(raw_text)-maxLen,step):
  current = raw_text[i:i+maxLen]
  sentences.append(current)
  next_chars.append(raw_text[i+maxLen])
sentences = np.array(sentences)
next_chars = np.array(next_chars)

In [55]:
print(sentences.shape,next_chars.shape)

(58262,) (58262,)


In [58]:
type(sentences[0])

numpy.str_

In [53]:
raw_text[0:60]

'\nజాగ్రత్త పడవలసిన ఘట్టం\n\n\nఒక పెద్ద పోలీసు అధికారి ఒక మేధావుల'

In [59]:
len(sentences)

58262

In [60]:
X = np.zeros((len(sentences),maxLen,tot_chars))
Y = np.zeros((len(sentences),tot_chars))

for i, sentence in enumerate(sentences):
  for j, char in enumerate(sentence):
    X[i,j,dict_tel_chars[char]] = 1
  Y[i,dict_tel_chars[next_chars[i]]] = 1
print(X.shape,Y.shape)

(58262, 60, 93) (58262, 93)


In [61]:
model_tel = Sequential()
model_tel.add(layers.LSTM(128,return_sequences=True,input_shape=(maxLen,tot_chars)))
model_tel.add(layers.Dropout(0.2))
model_tel.add(layers.LSTM(128))
model_tel.add(layers.Dropout(0.2))
model_tel.add(layers.Dense(tot_chars,activation='softmax'))
model_tel.compile(optimizer='adam',loss='categorical_crossentropy')

In [62]:
model_tel.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_2 (LSTM)                (None, 60, 128)           113664    
_________________________________________________________________
dropout (Dropout)            (None, 60, 128)           0         
_________________________________________________________________
lstm_3 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dropout_1 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 93)                11997     
Total params: 257,245
Trainable params: 257,245
Non-trainable params: 0
_________________________________________________________________


In [66]:
for i in range(20):
  print('epoch ',i+1)
  model_tel.fit(X,Y,epochs=1,batch_size=128)
  ini_start = np.random.randint(0,len(raw_text)-maxLen)
  ini_str = raw_text[ini_start:ini_start+maxLen]
  final_str = ini_str
  for j in range(1000):
    x_text = np.zeros((1,len(ini_str),tot_chars))
    for k,char in enumerate(ini_str):
      x_text[0,k,dict_tel_chars[char]] = 1
    preds = model_tel.predict(x_text)[0]
    next_index = sample(preds,0.6)
    next_char = tel_chars[next_index]

    final_str = final_str+next_char
    ini_str = ini_str+next_char
    ini_str = ini_str[1:]
  
  print('-----------------------------------------------')
  print('Generated text')
  print(final_str)
  print('-----------------------------------------------')

epoch  1
-----------------------------------------------
Generated text
 యింకా ఎవరిదో తేలలేదు.

"మీరడిగింది పాకలో గుమాస్తా గారిని. ఆనా ప్లి ను ప్ర్రి పావ్ర్ని నా న్ లు న్మా ని వాలి నాలి మాలి వ్నా ి్క్లు చారాను రి వ్న్ నాను ప్క్కా తారు వాలి పుల్రి ను రును మ్ను కులు వా్ని దాను వాచు నాల్ను నాటి. నాటు కార్ను చాక్ రా రాలు పార్పు కారు వాల్ తాలు ను వాత్ని ్పికి చానా చానా తాము పాని చీన్ ములు చాలి  రారి పాలి అలి లిను ను ర్వ్టి కాలు మ్ర్వి వ్రా వాలు చాలా ను చురు చ్నా ప్క్ స్రి రుత్ను మాచ్నా న్న్వాలు రాల్ న్ని నాలా ల్ను వాల్నా ప్పి న్వ్న్లు  నాల్ రిదు రానాకా రార్లా వి న్ల్రి న్ర్రు పార్ న్లు చురు పాలి చారి పురు చ్న్వి మారా మాంా రి పా్లు వాలు కు లాచి వి చార్కి కాపట్లా చను వులు నారు చాలా పురా నురు ను ాపాంి కాసా మాచ్ న్యు విలు మాలి రాను. అనా ెవా త్న్ పార్నా తిలి పిలాను పి ంరా పాని అా్రి రాని పిల్ ప్యాలు నాకు పాని పాలి న్కు ని వాను పుర్పిని చెపాలి వు క్లి రూలా చారా క్స్లి మిక్ని పాన్ను ర్లు పాలు విలు పాపున్లి న్కు విను రా ్లు ల్ర్లి చాను నాని చారి వులా కా రాసా రి లు ప్రు పాదు మాక్ను నాటు కురు చాలి పా

In [67]:
for i in range(20):
  print('epoch ',i+1)
  model_tel.fit(X,Y,epochs=1,batch_size=128)
  ini_start = np.random.randint(0,len(raw_text)-maxLen)
  ini_str = raw_text[ini_start:ini_start+maxLen]
  final_str = ini_str
  for j in range(1000):
    x_text = np.zeros((1,len(ini_str),tot_chars))
    for k,char in enumerate(ini_str):
      x_text[0,k,dict_tel_chars[char]] = 1
    preds = model_tel.predict(x_text)[0]
    next_index = sample(preds,0.6)
    next_char = tel_chars[next_index]

    final_str = final_str+next_char
    ini_str = ini_str+next_char
    ini_str = ini_str[1:]
  
  print('-----------------------------------------------')
  print('Generated text')
  print(final_str)
  print('-----------------------------------------------')

epoch  1
-----------------------------------------------
Generated text
్యనారాయణ నవ్వేసేడు.

"మీరే చెప్పండి. మీరు చెప్పే వోర్పుకి హదిగితో బెడ్లేదు. ఆ సారతాన్ని వినిలి తేరుకు గాలు ఆదన సమాధారంగా అనిపించింది. కాని, ఎక్కు మీరు వుంది. అందరా కాదు. మీరు మోచం అన్నాడు. పన్లాడు విని వచ్చిన కాలీ మాటేస్తుంటి దవ్వుకుంటా ఏమిటంటా."

"అంత ఇద్రామ్మారో వుంటాలు. ఆ వుడు తీసుకున్నారు.

"మాటి చెయ్యరాలు వద్దు. అయ్యో కస్తా ప్రశ్న ఎవరాడు కూడం కార్డుకు ఆత్సిద్లో పోయేడు. వాళ్ళు తెల్లా తాలుకోలేదు. కాని వుంది కాతారు. ఇది సిష్యం కారి తాకు కేశులు పెళ్ళిక్న మన్ని కమ్మరించి నవ్వేడు. మీర్లుగులు నేనండి కూడా తన వుంటుక్నాడు. అదులా పెట్టూ ప్రభ్వం కొచ్చిన దాదారావు బొట్టును అయితు వెళ్ళకు మీ వానికి నాలుగు వింది.

"సందారు. వెళ్ళి చేసింది. తెలురు పెట్టుకున్నాడు.

"పాళ్ళ స్థితి చేసుకున్నాడు. ఆ వుద్యోగం లేదు. ప్రశ్ల మీచేదు. గాలు కూస్చుంది.

"మీ పాలు కూలా కాలలో విని చూసిన ప్రశాలు చెప్పుకున్నారు."

"కాని, వాధిని
మాటలు వుంది. రామారావు ఆమె అంటు చెయ్యడం. ఈ ఆలోచించేడు. మనమోదు మంత ప్రణల్నే సంతోసరు గుర్తు వెళ్ళిక ఎస్తు చెప్పారు."

"అన్నా

In [68]:
for i in range(1):
  print('epoch ',i+1)
  model_tel.fit(X,Y,epochs=1,batch_size=128)
  ini_start = np.random.randint(0,len(raw_text)-maxLen)
  ini_str = raw_text[ini_start:ini_start+maxLen]
  final_str = ini_str
  for j in range(1000):
    x_text = np.zeros((1,len(ini_str),tot_chars))
    for k,char in enumerate(ini_str):
      x_text[0,k,dict_tel_chars[char]] = 1
    preds = model_tel.predict(x_text)[0]
    next_index = sample(preds,0.01)
    next_char = tel_chars[next_index]

    final_str = final_str+next_char
    ini_str = ini_str+next_char
    ini_str = ini_str[1:]
  
  print('-----------------------------------------------')
  print('Generated text')
  print(final_str)
  print('-----------------------------------------------')

epoch  1
-----------------------------------------------
Generated text
 గాయాలు తగిలేయి.
ఆనాడు పోలీసులు పెట్టిన కేసుల్లో కొందరు యీనా వున్నారు. వాళ్ళు కాలుగు వెళ్ళి చూసింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వెళ్ళి వుండా వుంది. కాని, ప్రశ్న మీరు వుంది. కాని, ఆ కాటలు వాళ్ళు వుండా వున్నాడు. అందరా కాల్చానికి వెళ్ళింది.

"అంతా వుంది. నాన్న మంచి కాలుగు వెళ్ళి చూసింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు వచ్చింది.

"నీ మాటలు వార్టు చెయ్యడం అని మాటకు