# 2.0 Text Sequence

In [94]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

## 2.1 Understand text sequence

In [33]:
sentences = [
    'আমি ভালবাসি বই পড়তে,',
    'আমি ভালবাসি বই লিখতে!',
    'বইমেলা এলে আমি প্রচুর বই কিনি'
    ]

tokenizer = Tokenizer(num_words= 10)
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
word_index

{'আমি': 1,
 'বই': 2,
 'ভালবাসি': 3,
 'পড়তে': 4,
 'লিখতে': 5,
 'বইমেলা': 6,
 'এলে': 7,
 'প্রচুর': 8,
 'কিনি': 9}

In [25]:
tokenizer.word_counts

OrderedDict([('আমি', 3),
             ('ভালবাসি', 2),
             ('বই', 3),
             ('পড়তে', 1),
             ('লিখতে', 1),
             ('বইমেলা', 1),
             ('এলে', 1),
             ('প্রচুর', 1),
             ('কিনি', 1)])

In [31]:
tokenizer.texts_to_sequences(sentences)

[[1, 3, 2, 4], [1, 3, 2, 5], [6, 7, 1, 8, 2, 9]]

In [27]:
tokenizer.get_config()

{'num_words': 10,
 'filters': '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
 'lower': True,
 'split': ' ',
 'char_level': False,
 'oov_token': None,
 'document_count': 3,
 'word_counts': '{"\\u0986\\u09ae\\u09bf": 3, "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf": 2, "\\u09ac\\u0987": 3, "\\u09aa\\u09dc\\u09a4\\u09c7": 1, "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7": 1, "\\u09ac\\u0987\\u09ae\\u09c7\\u09b2\\u09be": 1, "\\u098f\\u09b2\\u09c7": 1, "\\u09aa\\u09cd\\u09b0\\u099a\\u09c1\\u09b0": 1, "\\u0995\\u09bf\\u09a8\\u09bf": 1}',
 'word_docs': '{"\\u09aa\\u09dc\\u09a4\\u09c7": 1, "\\u0986\\u09ae\\u09bf": 3, "\\u09ac\\u0987": 3, "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf": 2, "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7": 1, "\\u09aa\\u09cd\\u09b0\\u099a\\u09c1\\u09b0": 1, "\\u09ac\\u0987\\u09ae\\u09c7\\u09b2\\u09be": 1, "\\u098f\\u09b2\\u09c7": 1, "\\u0995\\u09bf\\u09a8\\u09bf": 1}',
 'index_docs': '{"4": 1, "1": 3, "2": 3, "3": 2, "5": 1, "8": 1, "6": 1, "7": 1, "9": 1}',
 'index_word': '{"1"

In [85]:
sentences = [
    'আমি ভালবাসি বই পড়তে,',
    'আমি ভালবাসি বই লিখতে!',
    'বইমেলা এলে আমি প্রচুর বই কিনি',
    'এইবার বইমেলায় আমার সাথে তুমি কি যাবে?'
]

tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
word_index

{'আমি': 1,
 'বই': 2,
 'ভালবাসি': 3,
 'পড়তে': 4,
 'লিখতে': 5,
 'বইমেলা': 6,
 'এলে': 7,
 'প্রচুর': 8,
 'কিনি': 9,
 'এইবার': 10,
 'বইমেলায়': 11,
 'আমার': 12,
 'সাথে': 13,
 'তুমি': 14,
 'কি': 15,
 'যাবে': 16}

In [115]:
sequences = tokenizer.texts_to_sequences(sentences)

sequences

[[1, 3, 2, 7], [1, 3, 2, 8], [9, 10, 1, 11, 2, 12], [13, 14, 15, 16, 4, 5, 6]]

In [117]:
tokenizer.word_index

{'আমি': 1,
 'বই': 2,
 'ভালবাসি': 3,
 'তুমি': 4,
 'কি': 5,
 'যাবে': 6,
 'পড়তে': 7,
 'লিখতে': 8,
 'বইমেলা': 9,
 'এলে': 10,
 'প্রচুর': 11,
 'কিনি': 12,
 'এইবার': 13,
 'বইমেলায়': 14,
 'আমার': 15,
 'সাথে': 16,
 'দেশে': 17}

## 2.2 Padding

In [145]:
# Padding with zeor
padded = pad_sequences(sequences)

print(padded)

[[ 0  0  0  1  3  2  7]
 [ 0  0  0  1  3  2  8]
 [ 0  9 10  1 11  2 12]
 [13 14 15 16  4  5  6]]


In [147]:
padded.shape

(4, 7)

In [149]:
padded = pad_sequences(sequences, padding='post', maxlen=10)

padded

array([[ 1,  3,  2,  7,  0,  0,  0,  0,  0,  0],
       [ 1,  3,  2,  8,  0,  0,  0,  0,  0,  0],
       [ 9, 10,  1, 11,  2, 12,  0,  0,  0,  0],
       [13, 14, 15, 16,  4,  5,  6,  0,  0,  0]], dtype=int32)

In [159]:
padded = pad_sequences(sequences, padding='post', truncating='post', maxlen=5)

print("'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স তবে ৫টা সর্বোচ্চ শব্দ:")
print(padded)

'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স তবে ৫টা সর্বোচ্চ শব্দ:
[[ 1  3  2  7  0]
 [ 1  3  2  8  0]
 [ 9 10  1 11  2]
 [13 14 15 16  4]]


In [163]:
# আমরা নতুন কিছু শব্দ ব্যবহার করি যেটা আমাদের টোকেনাইজারকে ফিট করা হয়নি
test_data = [
    'আমি আসলেই ভালবাসি বই পড়তে',
    'বইমেলায় এবার প্রচুর নতুন বই এসেছে!'
]

# texts_to_sequences কি বের করে দেখি
test_seq = tokenizer.texts_to_sequences(test_data)
print(test_seq)

[[1, 3, 2, 7], [14, 11, 2]]
