<a href="https://colab.research.google.com/github/raqueeb/nlp_bangla/blob/master/NLP_tokenization_pad_sequences.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## সহজ বাংলায় 'বাংলা' ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) - ২

In [0]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

train_data = [
  "আচ্ছা, ডেটা কিভাবে কথা বলে?",
  "পড়ছিলাম হান্স রোসলিং এর একটা বই, ফ্যাক্টফুলনেস।",
  "ধারণা থেকে নয়, বরং ডেটাকে কথা বলতে দিলে আমাদের সব বিপদ কাটবে।",
  "এই লোক পৃথিবীকে দেখিয়েছিলেন কিভাবে ২০০ বছরের ডেটা আমাদের বাঁচার সময় বাড়িয়েছে!"
]

test_data = [
  "এই অ্যানিমেশন আমরা করবো আমাদের পিসিতে।",
  "সরাসরি চালান নিচের লিংক থেকে, হচ্ছে তো?",
  "পাল্টান প্যারামিটার, চালান নিজের মতো করে।"
]

In [0]:
num_words = 1000
oov_token = '<UNK>'
pad_type = 'post'
trunc_type = 'post'

In [0]:
# আমাদের ট্রেনিং ডেটা টোকেনাইজ করি, বাংলায় স্টপওয়ার্ড হিসেবে দাড়ি '।'কে ফেলে দিতে হবে।
tokenizer = Tokenizer(num_words=num_words, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n।', oov_token=oov_token)
tokenizer.fit_on_texts(train_data)

In [0]:
# ট্রেনিং ডেটার ওয়ার্ড ইনডেক্স বের করি
word_index = tokenizer.word_index

In [5]:
tokenizer.get_config()

{'char_level': False,
 'document_count': 4,
 'filters': '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n।',
 'index_docs': '{"6": 1, "2": 2, "4": 2, "3": 2, "7": 1, "8": 1, "10": 1, "14": 1, "11": 1, "12": 1, "13": 1, "9": 1, "18": 1, "19": 1, "17": 1, "23": 1, "16": 1, "5": 2, "22": 1, "24": 1, "20": 1, "21": 1, "15": 1, "25": 1, "29": 1, "30": 1, "32": 1, "28": 1, "33": 1, "26": 1, "27": 1, "31": 1}',
 'index_word': '{"1": "<UNK>", "2": "\\u09a1\\u09c7\\u099f\\u09be", "3": "\\u0995\\u09bf\\u09ad\\u09be\\u09ac\\u09c7", "4": "\\u0995\\u09a5\\u09be", "5": "\\u0986\\u09ae\\u09be\\u09a6\\u09c7\\u09b0", "6": "\\u0986\\u099a\\u09cd\\u099b\\u09be", "7": "\\u09ac\\u09b2\\u09c7", "8": "\\u09aa\\u09dc\\u099b\\u09bf\\u09b2\\u09be\\u09ae", "9": "\\u09b9\\u09be\\u09a8\\u09cd\\u09b8", "10": "\\u09b0\\u09cb\\u09b8\\u09b2\\u09bf\\u0982", "11": "\\u098f\\u09b0", "12": "\\u098f\\u0995\\u099f\\u09be", "13": "\\u09ac\\u0987", "14": "\\u09ab\\u09cd\\u09af\\u09be\\u0995\\u09cd\\u099f\\u09ab\\u09c1\\u09b2\\u09a8\\u09c

In [0]:
# টেনিং ডেটার বাক্যগুলোকে সিকোয়েন্স এ ফেলি
train_sequences = tokenizer.texts_to_sequences(train_data)

In [0]:
# ট্রেনিং এর সর্বোচ্চ লেনথ বের করি
maxlen = max([len(x) for x in train_sequences])

In [0]:
# ট্রেনিং এর সিকোয়েন্স এর প্যাডিং যোগ করি
train_padded = pad_sequences(train_sequences, padding=pad_type, truncating=trunc_type, maxlen=maxlen)

In [9]:
# আমাদের কাজের আউটপুটগুলো দেখি ভিন্ন ভাবে, তবে বাংলায় স্টপওয়ার্ড হিসেবে '।'কে ফেলে দিয়েছি।
print("Word index:\n", word_index)
print("\nTraining sequences:\n", train_sequences)
print("\nPadded training sequences:\n", train_padded)
print("\nPadded training shape:", train_padded.shape)
print("Training sequences data type:", type(train_sequences))
print("Padded Training sequences data type:", type(train_padded))

Word index:
 {'<UNK>': 1, 'ডেটা': 2, 'কিভাবে': 3, 'কথা': 4, 'আমাদের': 5, 'আচ্ছা': 6, 'বলে': 7, 'পড়ছিলাম': 8, 'হান্স': 9, 'রোসলিং': 10, 'এর': 11, 'একটা': 12, 'বই': 13, 'ফ্যাক্টফুলনেস': 14, 'ধারণা': 15, 'থেকে': 16, 'নয়': 17, 'বরং': 18, 'ডেটাকে': 19, 'বলতে': 20, 'দিলে': 21, 'সব': 22, 'বিপদ': 23, 'কাটবে': 24, 'এই': 25, 'লোক': 26, 'পৃথিবীকে': 27, 'দেখিয়েছিলেন': 28, '২০০': 29, 'বছরের': 30, 'বাঁচার': 31, 'সময়': 32, 'বাড়িয়েছে': 33}

Training sequences:
 [[6, 2, 3, 4, 7], [8, 9, 10, 11, 12, 13, 14], [15, 16, 17, 18, 19, 4, 20, 21, 5, 22, 23, 24], [25, 26, 27, 28, 3, 29, 30, 2, 5, 31, 32, 33]]

Padded training sequences:
 [[ 6  2  3  4  7  0  0  0  0  0  0  0]
 [ 8  9 10 11 12 13 14  0  0  0  0  0]
 [15 16 17 18 19  4 20 21  5 22 23 24]
 [25 26 27 28  3 29 30  2  5 31 32 33]]

Padded training shape: (4, 12)
Training sequences data type: <class 'list'>
Padded Training sequences data type: <class 'numpy.ndarray'>


In [10]:
test_sequences = tokenizer.texts_to_sequences(test_data)
test_padded = pad_sequences(test_sequences, padding=pad_type, truncating=trunc_type, maxlen=maxlen)

print("Testing sequences:\n", test_sequences)
print("\nPadded testing sequences:\n", test_padded)
print("\nPadded testing shape:",test_padded.shape)

Testing sequences:
 [[25, 1, 1, 1, 5, 1], [1, 1, 1, 1, 16, 1, 1], [1, 1, 1, 1, 1, 1]]

Padded testing sequences:
 [[25  1  1  1  5  1  0  0  0  0  0  0]
 [ 1  1  1  1 16  1  1  0  0  0  0  0]
 [ 1  1  1  1  1  1  0  0  0  0  0  0]]

Padded testing shape: (3, 12)


In [11]:
for x, y in zip(test_data, test_padded):
  print('{} -> {}'.format(x, y))

print("\nWord index (for reference):", word_index)

এই অ্যানিমেশন আমরা করবো আমাদের পিসিতে। -> [25  1  1  1  5  1  0  0  0  0  0  0]
সরাসরি চালান নিচের লিংক থেকে, হচ্ছে তো? -> [ 1  1  1  1 16  1  1  0  0  0  0  0]
পাল্টান প্যারামিটার, চালান নিজের মতো করে। -> [1 1 1 1 1 1 0 0 0 0 0 0]

Word index (for reference): {'<UNK>': 1, 'ডেটা': 2, 'কিভাবে': 3, 'কথা': 4, 'আমাদের': 5, 'আচ্ছা': 6, 'বলে': 7, 'পড়ছিলাম': 8, 'হান্স': 9, 'রোসলিং': 10, 'এর': 11, 'একটা': 12, 'বই': 13, 'ফ্যাক্টফুলনেস': 14, 'ধারণা': 15, 'থেকে': 16, 'নয়': 17, 'বরং': 18, 'ডেটাকে': 19, 'বলতে': 20, 'দিলে': 21, 'সব': 22, 'বিপদ': 23, 'কাটবে': 24, 'এই': 25, 'লোক': 26, 'পৃথিবীকে': 27, 'দেখিয়েছিলেন': 28, '২০০': 29, 'বছরের': 30, 'বাঁচার': 31, 'সময়': 32, 'বাড়িয়েছে': 33}
