# 3.0 Lab

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [4]:
train_data = [
  "আচ্ছা, ডেটা কিভাবে কথা বলে?",
  "পড়ছিলাম হান্স রোসলিং এর একটা বই, ফ্যাক্টফুলনেস।",
  "ধারণা থেকে নয়, বরং ডেটাকে কথা বলতে দিলে আমাদের সব বিপদ কাটবে।",
  "এই লোক পৃথিবীকে দেখিয়েছিলেন কিভাবে ২০০ বছরের ডেটা আমাদের বাঁচার সময় বাড়িয়েছে!"
]

test_data = [
  "এই অ্যানিমেশন আমরা করবো আমাদের পিসিতে।",
  "সরাসরি চালান নিচের লিংক থেকে, হচ্ছে তো?",
  "পাল্টান প্যারামিটার, চালান নিজের মতো করে।"
]

In [6]:
num_words = 1000
oov_token = '<UNK>'
pad_type = 'post'
trunc_type = 'post'

In [20]:
tokenizer = Tokenizer(num_words=num_words, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n।', oov_token=oov_token)
tokenizer.fit_on_texts(train_data)

In [104]:
word_index = tokenizer.word_index
print(word_index)

{'<UNK>': 1, 'ডেটা': 2, 'কিভাবে': 3, 'কথা': 4, 'আমাদের': 5, 'আচ্ছা': 6, 'বলে': 7, 'পড়ছিলাম': 8, 'হান্স': 9, 'রোসলিং': 10, 'এর': 11, 'একটা': 12, 'বই': 13, 'ফ্যাক্টফুলনেস': 14, 'ধারণা': 15, 'থেকে': 16, 'নয়': 17, 'বরং': 18, 'ডেটাকে': 19, 'বলতে': 20, 'দিলে': 21, 'সব': 22, 'বিপদ': 23, 'কাটবে': 24, 'এই': 25, 'লোক': 26, 'পৃথিবীকে': 27, 'দেখিয়েছিলেন': 28, '২০০': 29, 'বছরের': 30, 'বাঁচার': 31, 'সময়': 32, 'বাড়িয়েছে': 33}


In [56]:
type(tokenizer.get_config())

dict

In [58]:
train_sequences = tokenizer.texts_to_sequences(train_data)
train_sequences

[[6, 2, 3, 4, 7],
 [8, 9, 10, 11, 12, 13, 14],
 [15, 16, 17, 18, 19, 4, 20, 21, 5, 22, 23, 24],
 [25, 26, 27, 28, 3, 29, 30, 2, 5, 31, 32, 33]]

In [74]:
maxlen = max([len(x) for x in train_sequences])
maxlen

12

In [106]:
train_padded = pad_sequences(train_sequences, padding=pad_type, truncating=trunc_type, maxlen=maxlen)

### Output

In [111]:
train_data

['আচ্ছা, ডেটা কিভাবে কথা বলে?',
 'পড়ছিলাম হান্স রোসলিং এর একটা বই, ফ্যাক্টফুলনেস।',
 'ধারণা থেকে নয়, বরং ডেটাকে কথা বলতে দিলে আমাদের সব বিপদ কাটবে।',
 'এই লোক পৃথিবীকে দেখিয়েছিলেন কিভাবে ২০০ বছরের ডেটা আমাদের বাঁচার সময় বাড়িয়েছে!']

In [113]:
train_sequences

[[6, 2, 3, 4, 7],
 [8, 9, 10, 11, 12, 13, 14],
 [15, 16, 17, 18, 19, 4, 20, 21, 5, 22, 23, 24],
 [25, 26, 27, 28, 3, 29, 30, 2, 5, 31, 32, 33]]

In [115]:
train_padded

array([[ 6,  2,  3,  4,  7,  0,  0,  0,  0,  0,  0,  0],
       [ 8,  9, 10, 11, 12, 13, 14,  0,  0,  0,  0,  0],
       [15, 16, 17, 18, 19,  4, 20, 21,  5, 22, 23, 24],
       [25, 26, 27, 28,  3, 29, 30,  2,  5, 31, 32, 33]], dtype=int32)

In [119]:
train_padded.shape

(4, 12)

## Testing 

In [125]:
test_data

['এই অ্যানিমেশন আমরা করবো আমাদের পিসিতে।',
 'সরাসরি চালান নিচের লিংক থেকে, হচ্ছে তো?',
 'পাল্টান প্যারামিটার, চালান নিজের মতো করে।']

In [123]:
test_sequences = tokenizer.texts_to_sequences(test_data)
test_sequences

[[25, 1, 1, 1, 5, 1], [1, 1, 1, 1, 16, 1, 1], [1, 1, 1, 1, 1, 1]]

In [131]:
test_padded = pad_sequences(test_sequences, padding=pad_type, truncating=trunc_type, maxlen=maxlen)
test_padded

array([[25,  1,  1,  1,  5,  1,  0,  0,  0,  0,  0,  0],
       [ 1,  1,  1,  1, 16,  1,  1,  0,  0,  0,  0,  0],
       [ 1,  1,  1,  1,  1,  1,  0,  0,  0,  0,  0,  0]], dtype=int32)

In [139]:
for x, y in zip(test_data, test_padded):
    print('{} -> {}'.format(x,y))

এই অ্যানিমেশন আমরা করবো আমাদের পিসিতে। -> [25  1  1  1  5  1  0  0  0  0  0  0]
সরাসরি চালান নিচের লিংক থেকে, হচ্ছে তো? -> [ 1  1  1  1 16  1  1  0  0  0  0  0]
পাল্টান প্যারামিটার, চালান নিজের মতো করে। -> [1 1 1 1 1 1 0 0 0 0 0 0]
