Tokenization

In [27]:
import tensorflow as tf

In [28]:
tf.strings.unicode_decode("সকল", input_encoding='UTF-8')

<tf.Tensor: shape=(3,), dtype=int32, numpy=array([2488, 2453, 2482], dtype=int32)>

In [29]:
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'আমি ভালবাসি বই পড়তে।'
        ]

tokenizer = Tokenizer(num_words = 10, filters='!।')

In [30]:
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
print(word_index)

{'আমি': 1, 'ভালবাসি': 2, 'বই': 3, 'পড়তে': 4}


In [31]:
tokenizer.num_words

10

In [32]:
sentences = [
    'আমি ভালবাসি বই পড়তে।',
    'আমি ভালবাসি বই লিখতে!'
        ]

In [33]:
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
print(word_index)

{'আমি': 1, 'ভালবাসি': 2, 'বই': 3, 'পড়তে': 4, 'লিখতে': 5}


In [34]:
tokenizer.word_counts

OrderedDict([('আমি', 3), ('ভালবাসি', 3), ('বই', 3), ('পড়তে', 2), ('লিখতে', 1)])

In [35]:
tokenizer.get_config()

{'char_level': False,
 'document_count': 3,
 'filters': '!।',
 'index_docs': '{"1": 3, "4": 2, "2": 3, "3": 3, "5": 1}',
 'index_word': '{"1": "\\u0986\\u09ae\\u09bf", "2": "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf", "3": "\\u09ac\\u0987", "4": "\\u09aa\\u09dc\\u09a4\\u09c7", "5": "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7"}',
 'lower': True,
 'num_words': 10,
 'oov_token': None,
 'split': ' ',
 'word_counts': '{"\\u0986\\u09ae\\u09bf": 3, "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf": 3, "\\u09ac\\u0987": 3, "\\u09aa\\u09dc\\u09a4\\u09c7": 2, "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7": 1}',
 'word_docs': '{"\\u0986\\u09ae\\u09bf": 3, "\\u09aa\\u09dc\\u09a4\\u09c7": 2, "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf": 3, "\\u09ac\\u0987": 3, "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7": 1}',
 'word_index': '{"\\u0986\\u09ae\\u09bf": 1, "\\u09ad\\u09be\\u09b2\\u09ac\\u09be\\u09b8\\u09bf": 2, "\\u09ac\\u0987": 3, "\\u09aa\\u09dc\\u09a4\\u09c7": 4, "\\u09b2\\u09bf\\u0996\\u09a4\\u09c7": 5

In [36]:
tokenizer.word_index

{'আমি': 1, 'পড়তে': 4, 'বই': 3, 'ভালবাসি': 2, 'লিখতে': 5}

In [37]:
sentences = [
    'আমি ভালবাসি বই পড়তে,',
    'আমি ভালবাসি বই লিখতে!',
    'বইমেলা এলে আমি প্রচুর বই কিনি'
        ]

tokenizer = Tokenizer(num_words = 10)

In [38]:
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
print(word_index)

{'আমি': 1, 'বই': 2, 'ভালবাসি': 3, 'পড়তে': 4, 'লিখতে': 5, 'বইমেলা': 6, 'এলে': 7, 'প্রচুর': 8, 'কিনি': 9}


Sequence

In [39]:
tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

In [40]:
sequences = tokenizer.texts_to_sequences(sentences)
print("\nওয়ার্ড ইনডেক্স = " , word_index)
print("\nসিকোয়েন্স = " , sequences)


ওয়ার্ড ইনডেক্স =  {'আমি': 1, 'বই': 2, 'ভালবাসি': 3, 'পড়তে': 4, 'লিখতে': 5, 'বইমেলা': 6, 'এলে': 7, 'প্রচুর': 8, 'কিনি': 9}

সিকোয়েন্স =  [[1, 3, 2, 4], [1, 3, 2, 5], [6, 7, 1, 8, 2, 9]]


Padding

In [41]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences)
print("ওয়ার্ড ইনডেক্স = " , word_index)
print("\nসিকোয়েন্স = " , sequences)
print("\n'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:")
print(padded)

ওয়ার্ড ইনডেক্স =  {'আমি': 1, 'বই': 2, 'ভালবাসি': 3, 'পড়তে': 4, 'লিখতে': 5, 'বইমেলা': 6, 'এলে': 7, 'প্রচুর': 8, 'কিনি': 9}

সিকোয়েন্স =  [[1, 3, 2, 4], [1, 3, 2, 5], [6, 7, 1, 8, 2, 9]]

'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:
[[0 0 1 3 2 4]
 [0 0 1 3 2 5]
 [6 7 1 8 2 9]]


In [42]:
padded = pad_sequences(sequences, padding='post', maxlen=10)

print("'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:")
print(padded)

'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:
[[1 3 2 4 0 0 0 0 0 0]
 [1 3 2 5 0 0 0 0 0 0]
 [6 7 1 8 2 9 0 0 0 0]]


In [43]:
padded = pad_sequences(sequences, padding='post', truncating='post', maxlen=5)

print("'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স তবে ৫টা সর্বোচ্চ শব্দ:")
print(padded)

'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স তবে ৫টা সর্বোচ্চ শব্দ:
[[1 3 2 4 0]
 [1 3 2 5 0]
 [6 7 1 8 2]]


Testing the Corpus

In [44]:
test_data = [
    'আমি আসলেই ভালবাসি বই পড়তে',
    'বইমেলায় এবার প্রচুর নতুন বই এসেছে!'
]

In [45]:
test_seq = tokenizer.texts_to_sequences(test_data)
print("টেস্ট সিকোয়েন্স = ", test_seq)

টেস্ট সিকোয়েন্স =  [[1, 3, 2, 4], [8, 2]]


Out of Vocabulary Token and Pad Sequence

In [46]:
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'আমি ভালবাসি বই পড়তে,',
    'আমি ভালবাসি বই লিখতে!',
    'বইমেলা এলে আমি প্রচুর বই কিনি',
    'এইবার বইমেলায় আমার সাথে তুমি কি যাবে?'
]

In [47]:
tf.keras.preprocessing.text.Tokenizer(
    num_words=None,
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
    lower=True,
    split=" ",
    char_level=False,
    oov_token=None,
    document_count=0,
)

<keras_preprocessing.text.Tokenizer at 0x7f34a0616890>

In [48]:
tokenizer = Tokenizer(num_words = 100, oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(sentences)

In [49]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences, maxlen=8)
print("ওয়ার্ড ইনডেক্স = " , word_index)
print("\nসিকোয়েন্স = " , sequences)
print("\n'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:")
print(padded)

ওয়ার্ড ইনডেক্স =  {'<OOV>': 1, 'আমি': 2, 'বই': 3, 'ভালবাসি': 4, 'পড়তে': 5, 'লিখতে': 6, 'বইমেলা': 7, 'এলে': 8, 'প্রচুর': 9, 'কিনি': 10, 'এইবার': 11, 'বইমেলায়': 12, 'আমার': 13, 'সাথে': 14, 'তুমি': 15, 'কি': 16, 'যাবে': 17}

সিকোয়েন্স =  [[2, 4, 3, 5], [2, 4, 3, 6], [7, 8, 2, 9, 3, 10], [11, 12, 13, 14, 15, 16, 17]]

'০' দিয়ে প্যাডিং দেয়া সিকোয়েন্স:
[[ 0  0  0  0  2  4  3  5]
 [ 0  0  0  0  2  4  3  6]
 [ 0  0  7  8  2  9  3 10]
 [ 0 11 12 13 14 15 16 17]]


In [50]:
test_data = [
    'আমি আসলেই ভালবাসি বই পড়তে',
    'বইমেলায় এবার প্রচুর নতুন বই এসেছে!'
]

In [51]:
test_seq = tokenizer.texts_to_sequences(test_data)
print("টেস্ট সিকোয়েন্স = ", test_seq)

padded = pad_sequences(test_seq, maxlen=8)
print("\nপ্যাডিং দেয়া টেস্ট সিকোয়েন্স: ")
print(padded)

টেস্ট সিকোয়েন্স =  [[2, 1, 4, 3, 5], [12, 1, 9, 1, 3, 1]]

প্যাডিং দেয়া টেস্ট সিকোয়েন্স: 
[[ 0  0  0  2  1  4  3  5]
 [ 0  0 12  1  9  1  3  1]]


Loading JSON as Dataset

In [52]:
try:
  %tensorflow_version 2.x
except Exception:
  pass

In [54]:
from google.colab import files
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"humaunkabir","key":"0faff99073bbccfde0e87075bdeb488e"}'}

In [55]:
!pip install -q kaggle
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!ls ~/.kaggle
!chmod 600 /root/.kaggle/kaggle.json

kaggle.json


In [56]:
!kaggle datasets download -d furcifer/bangla-newspaper-dataset

Downloading bangla-newspaper-dataset.zip to /content
 99% 1.02G/1.03G [00:15<00:00, 124MB/s]
100% 1.03G/1.03G [00:15<00:00, 70.4MB/s]


In [57]:
!unzip bangla-newspaper-dataset.zip

Archive:  bangla-newspaper-dataset.zip
  inflating: data/data.json          
  inflating: data_v2/data_v2.json    


In [59]:
import json
with open('data_v2/data_v2.json', encoding='utf-8') as f:
    datastore = json.load(f)

sentences = []
labels = []

for item in datastore:
    sentences.append(item['content'])
    labels.append(item['category'])

In [60]:
datastore[0]

{'author': 'গাজীপুর প্রতিনিধি',
 'category': 'bangladesh',
 'category_bn': 'বাংলাদেশ',
 'comment_count': 0,
 'content': 'গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায় আজ বৃহস্পতিবার রাতের টিফিন খেয়ে একটি পোশাক কারখানার ৫০০ শ্রমিক অসুস্থ হয়ে পড়েছেন। এ ঘটনায় বিক্ষোভ করেছেন ওই কারখানার শ্রমিকেরা।সফিপুর মডার্ন হাসপাতালের জরুরি বিভাগের চিকিত্সক আল আমিন প্রথম আলো ডটকমকে বলেন, খাদ্যে বিষক্রিয়ায় তাঁরা (শ্রমিকেরা) অসুস্থ হয়ে পড়েছেন। এতে আতঙ্কিত হওয়ার কিছু নেই। অসুস্থদের চিকিত্সা দেওয়া হয়েছে।কারখানার শ্রমিক ও পুলিশ সূত্রে জানা যায়, উপজেলার তেলিরচালা এলাকার সেজাদ সোয়েটার লিমিটেড কারখানার শ্রমিকদের আজ রাত সাড়ে সাতটার দিকে টিফিন দেওয়া হয়। টিফিনে ছিল ডিম, রুটি, পেটিস ও কলা। টিফিন খেয়ে শ্রমিকেরা যথারীতি কাজে যোগ দেন। ওই টিফিন খাওয়ার প্রায় এক ঘণ্টা পর রাত সাড়ে আটটার দিকে কয়েকজন শ্রমিকের বমি ও পেট ব্যথা শুরু হয়। এরপর ধীরে ধীরে পুরো কারখানার শ্রমিকেরা অসুস্থ হতে থাকে। অনেকেই কারখানার মেঝেতে ঢলে পড়ে। এতে পাঁচ শতাধিক শ্রমিক অসুস্থ হয়ে পড়ে।পরে কারখানা কর্তৃপক্ষ দ্রুত যানবাহনের ব্য

In [61]:
len(sentences)

408471

In [62]:
set(labels)

{'bangladesh',
 'economy',
 'education',
 'entertainment',
 'international',
 'life-style',
 'opinion',
 'sports',
 'technology'}

Classification - Bangla News Dataset

In [63]:
from sklearn.preprocessing import LabelEncoder

testlabel = LabelEncoder()
testlabel.fit(["ঢাকা", "ঢাকা", "দিনাজপুর", "রংপুর"])

LabelEncoder()

In [65]:
list(testlabel.classes_)

['ঢাকা', 'দিনাজপুর', 'রংপুর']

In [66]:
testlabel.transform(["ঢাকা", "ঢাকা", "দিনাজপুর", "রংপুর"])

array([0, 0, 1, 2])

In [67]:
label = testlabel.fit_transform(labels)

In [68]:
set(label)

{0, 1, 2, 3, 4, 5, 6, 7, 8}

In [69]:
training_size = 350000

training_sentences = sentences[0:training_size]
testing_sentences = sentences[training_size:]
training_labels = label[0:training_size]
testing_labels = label[training_size:]

In [70]:
len(testing_sentences)

58471

In [71]:
58471

58471

In [72]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [73]:
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(training_sentences)

In [74]:
list(tokenizer.word_index.items())[:20] 

[('<OOV>', 1),
 ('ও', 2),
 ('এ', 3),
 ('থেকে', 4),
 ('করে', 5),
 ('করা', 6),
 ('বলেন', 7),
 ('এই', 8),
 ('জন্য', 9),
 ('না', 10),
 ('তিনি', 11),
 ('সঙ্গে', 12),
 ('তাঁর', 13),
 ('এক', 14),
 ('একটি', 15),
 ('নিয়ে', 16),
 ('এবং', 17),
 ('করতে', 18),
 ('হয়।', 19),
 ('মধ্যে', 20)]

In [75]:
vocab_size = len(tokenizer.word_index) + 1
vocab_size

2040686

In [76]:
max_length = 500
trunc_type='post'
padding_type='post'

training_sequences = tokenizer.texts_to_sequences(training_sentences)
training_padded = pad_sequences(training_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

testing_sequences = tokenizer.texts_to_sequences(testing_sentences)
testing_padded = pad_sequences(testing_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

In [77]:
tokenizer.texts_to_sequences(['ভোকাবুলারি সাইজ ঠিক করে নিচ্ছি'])

[[178189, 34714, 413, 5, 18478]]

In [78]:
print(training_sequences[0])

[2259, 15036, 78, 72533, 687, 61, 215, 2489, 18955, 8167, 15, 1074, 1368, 1046, 620, 1697, 294, 10719, 3, 966, 1270, 114, 21, 1368, 690932, 17037, 598, 1134, 201, 8588, 414, 1254, 27, 795, 5183, 7, 11270, 57451, 62, 2185, 1697, 294, 10719, 102, 7279, 909, 70, 150, 93383, 8308, 316, 186860, 620, 2, 52, 358, 131, 721, 78, 72533, 191, 302937, 39067, 2420, 1368, 1350, 61, 253, 680, 2990, 66, 18955, 316, 166, 81996, 54, 3394, 9610, 124015, 2, 81997, 18955, 8167, 2185, 9313, 468, 724, 240, 21, 18955, 10238, 692, 14, 662, 24, 253, 680, 1791, 66, 1919, 3591, 9453, 2, 8055, 3248, 49, 166, 225, 1768, 1768, 806, 1368, 2185, 1697, 96, 536, 1037, 1368, 7597, 9454, 2517, 102, 224, 1189, 620, 1697, 294, 175688, 1530, 760, 522, 3950, 227, 5, 94, 23802, 727, 995, 23802, 17037, 995, 87, 445, 40841, 55, 5429, 373, 116, 20612, 10856, 884, 6377, 113308, 2374, 294, 1368, 213, 1270, 116, 276, 1762, 52, 955, 1350, 12142, 2, 884, 1113, 706, 97, 227, 1613, 2430, 850, 2185, 3375, 690933, 727, 247, 373, 620, 2088

In [79]:
#tf v2.x
import numpy as np

training_padded = np.array(training_padded)
training_labels = np.array(training_labels)
testing_padded = np.array(testing_padded)
testing_labels = np.array(testing_labels)

In [80]:
embedding_dim = 8
training_padded
#embedding_layer = tf.keras.layers.Embedding(1000, 5)

array([[  2259,  15036,     78, ...,      0,      0,      0],
       [  1082, 216926,  21406, ...,      0,      0,      0],
       [   764,   2002,    470, ...,      0,      0,      0],
       ...,
       [ 22488,  39163,  15195, ...,      0,      0,      0],
       [  1692,    174,   9581, ...,      0,      0,      0],
       [ 23523,  60309,    558, ...,      0,      0,      0]], dtype=int32)

In [81]:
model =  tf.keras.Sequential([
                              tf.keras.layers.Embedding(input_dim=vocab_size, 
                              output_dim=embedding_dim, 
                              input_length=max_length),
                              tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64, return_sequences=True)),
                              tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
                              tf.keras.layers.Dense(9, activation='softmax')
])

In [82]:
model.compile(loss='sparse_categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
# model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])

In [83]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 500, 8)            16325488  
                                                                 
 bidirectional (Bidirectiona  (None, 500, 128)         37376     
 l)                                                              
                                                                 
 bidirectional_1 (Bidirectio  (None, 64)               41216     
 nal)                                                            
                                                                 
 dense (Dense)               (None, 9)                 585       
                                                                 
Total params: 16,404,665
Trainable params: 16,404,665
Non-trainable params: 0
_________________________________________________________________


In [None]:
num_epochs = 5
history = model.fit(training_padded, training_labels, epochs=num_epochs, validation_data=(testing_padded, testing_labels), callbacks=[tensorboard_callback], verbose=2)

In [87]:
#model.save('/content/gdrive/My Drive/Colab Notebooks/saved_model/my_model.h5')

In [None]:
# accuracy and loss plotting

import matplotlib.pyplot as plt

def plot_graphs(history, string):
  plt.plot(history.history[string])
  plt.plot(history.history['val_'+string])
  plt.xlabel("Epochs")
  plt.ylabel(string)
  plt.legend([string, 'val_'+string])
  plt.show()

plot_graphs(history, "accuracy")
plot_graphs(history, "loss")

In [None]:
%load_ext tensorboard
%tensorboard --logdir logs

In [90]:
# 'sentence' এর মধ্যে যেকোন পত্রিকা থেকে কয়েকটা লাইন দিয়ে সেটাকে দেখতে পারি কোন ক্যাটাগরিতে পড়বে

sentence = ["২০১৯ সালটা খুব একটা ভালো কাটেনি বাংলাদেশ জাতীয় ক্রিকেট দলের। খেলার সাফল্যের চেয়ে ব্যর্থতার পাল্লায় ছিল ভারী। ২০২০ সালটা হতে যাচ্ছে বেশ কঠিন কারণ এই বছরে যে বিদেশের মাটিতে অনেক খেলা রয়েছে।"]
sequences = tokenizer.texts_to_sequences(sentence)
padded = pad_sequences(sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
print(model.predict(padded))

[[0.11078926 0.11070082 0.11125582 0.11019136 0.11135468 0.11268651
  0.11142048 0.11007097 0.11153011]]


In [None]:
weights = model.get_layer('embedding_2').get_weights()[0]

In [None]:
print(weights.shape) 

In [None]:
reverse_word_index = dict([(value, key) for (key, value) in tokenizer.word_index.items()])

def decode_sentence(text):
    return ' '.join([reverse_word_index.get(i, '?') for i in text])

print(decode_sentence(training_padded[0]))
print(training_sentences[2])
print(labels[2])

In [None]:
import io

out_v = io.open('vecs.tsv', 'w', encoding='utf-8')
out_m = io.open('meta.tsv', 'w', encoding='utf-8')

for word_num in range(1, vocab_size):
  word = reverse_word_index[word_num]
  embeddings = weights[word_num]
  out_m.write(word + "\n")
  out_v.write('\t'.join([str(x) for x in embeddings]) + "\n")
out_v.close()
out_m.close()

In [None]:
try:
  from google.colab import files
except ImportError:
  pass
else:
  files.download('vecs.tsv')
  files.download('meta.tsv')