In [22]:
import numpy as np

In [23]:
def sigmoid(z, derive=False):
  if derive == True:
    return z*(1-z)
    
  # sigmoid rule
  return 1/(1+np.exp(-z))

In [24]:
# Training Set
X = np.array( [[1, 0, 0, 0],
               [1, 0, 0, 1],
               [1, 0, 1, 0],
               [1, 1, 0, 1],
               [1, 1, 0, 0],
               [1, 1, 1, 1]] )

# Gold/Actual Label or Output
y = np.array([[0],
              [0],
              [0],
              [0],
              [0],
              [1]])

# Initialize the wights - randomly or with zeroes
# w = np.random.random((4, 1))
w = np.zeros((4, 1))
w

array([[0.],
       [0.],
       [0.],
       [0.]])

In [25]:
# Training the ANN (perceptron)... Setting No. of Iteration (epochs)
for iter in range(1000):
  # Forward Propagation: to Predict output (y_hat)
  z = np.dot(X, w)
  y_hat = sigmoid(z)
  # print(y_hat)

  # simple 'cost' calculation
  # cost = pow((y - y_hat), 2) * 0.5    # M.S.E = Mean Squared Error
  # cost = abs(y - y_hat) * 0.5
  cost = y - y_hat

  # Back-propagtion (future studies)
  dy_hat = sigmoid(y_hat, derive=True)
  delta_w = cost * dy_hat

  # update weights
  w += np.dot(X.T, delta_w)

In [26]:
print("\n Output after Training ...")
print(y_hat)

print("\n Weights:")
print(w)


 Output after Training ...
[[1.85293178e-04]
 [3.24981421e-03]
 [4.84029659e-02]
 [5.42477690e-02]
 [3.24981421e-03]
 [9.40273030e-01]]

 Weights:
[[-8.5950654 ]
 [ 2.86804413]
 [ 5.61593016]
 [ 2.86804413]]


In [27]:
# Test Set
T = np.array([[1, 0, 1, 1],
              [1, 1, 1, 0]])

# Final Predictions on the Test Set
y_hat = sigmoid(np.dot(T, w))

print("\nTest Predictions...")
print(y_hat)


Test Predictions...
[[0.47225575]
 [0.47225575]]


In [28]:
sentence_bn = ['আমরা আজ ল্যাব ক্লাস এ নিউরাল নেটওয়ার্ক প্রয়োগ করব', 'আমাদের প্রোগ্রামিং অনেক ভালো লাগে', 'আমরা সবাই এই কোর্সে ভালো মার্ক পেতে চাই']
sentence_en = ['We do not know how to implement a neural network', 'We don\'t like programking at all', 'We are in great doubt about our marks in this course']

In [29]:
import nltk
import warnings

warnings.filterwarnings("ignore")
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [30]:
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
# vec.fit(sentence_bn)
model = vec.fit_transform(sentence_en)

vec.vocabulary_
vocab_list = vec.get_feature_names()
print(vocab_list)
# print(model.toarray())
count_list = model.toarray().sum(axis=0)

['about', 'all', 'are', 'at', 'course', 'do', 'don', 'doubt', 'great', 'how', 'implement', 'in', 'know', 'like', 'marks', 'network', 'neural', 'not', 'our', 'programking', 'this', 'to', 'we']


In [31]:
print(dict(zip(vocab_list,count_list)))

{'about': 1, 'all': 1, 'are': 1, 'at': 1, 'course': 1, 'do': 1, 'don': 1, 'doubt': 1, 'great': 1, 'how': 1, 'implement': 1, 'in': 2, 'know': 1, 'like': 1, 'marks': 1, 'network': 1, 'neural': 1, 'not': 1, 'our': 1, 'programking': 1, 'this': 1, 'to': 1, 'we': 3}


In [32]:
from nltk import word_tokenize

vec_new = CountVectorizer(encoding='utf-8', tokenizer=word_tokenize)
vec_new.fit(sentence_bn)

vocab_list_bn = vec_new.get_feature_names()
print(vocab_list_bn)
print(vec_new.vocabulary_)

['অনেক', 'আজ', 'আমরা', 'আমাদের', 'এ', 'এই', 'করব', 'কোর্সে', 'ক্লাস', 'চাই', 'নিউরাল', 'নেটওয়ার্ক', 'পেতে', 'প্রোগ্রামিং', 'প্রয়োগ', 'ভালো', 'মার্ক', 'লাগে', 'ল্যাব', 'সবাই']
{'আমরা': 2, 'আজ': 1, 'ল্যাব': 18, 'ক্লাস': 8, 'এ': 4, 'নিউরাল': 10, 'নেটওয়ার্ক': 11, 'প্রয়োগ': 14, 'করব': 6, 'আমাদের': 3, 'প্রোগ্রামিং': 13, 'অনেক': 0, 'ভালো': 15, 'লাগে': 17, 'সবাই': 19, 'এই': 5, 'কোর্সে': 7, 'মার্ক': 16, 'পেতে': 12, 'চাই': 9}


In [33]:
# Tokenization

tokenized_bn = []

new_sentence = sentence_bn + ['এইখানে আমরা নতুন আরো একটি বাক্য রাখলাম']

for sent in new_sentence:
  tokenized_sent = word_tokenize(sent)
  # print(tokenized_sent)
  tokenized_bn.append(tokenized_sent)

print(tokenized_bn)

[['আমরা', 'আজ', 'ল্যাব', 'ক্লাস', 'এ', 'নিউরাল', 'নেটওয়ার্ক', 'প্রয়োগ', 'করব'], ['আমাদের', 'প্রোগ্রামিং', 'অনেক', 'ভালো', 'লাগে'], ['আমরা', 'সবাই', 'এই', 'কোর্সে', 'ভালো', 'মার্ক', 'পেতে', 'চাই'], ['এইখানে', 'আমরা', 'নতুন', 'আরো', 'একটি', 'বাক্য', 'রাখলাম']]


In [34]:
# Manually Implement the Number of Occurences of each words in the sentence_bn dataset - C.W

In [35]:
from sklearn.preprocessing import LabelEncoder

std_names = ['জিয়াদ', 'নয়ন', 'কিশোর', 'বিলাস', 'ইমতিয়াজুল', 'মনিরুল' , 'নয়ন']

encoder = LabelEncoder()
name_labels = encoder.fit_transform(std_names)

# dense representation
print(name_labels)

[2 3 1 4 0 5 3]


In [36]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
name_labels = name_labels.reshape((7, 1))

sparse_rep = encoder.fit_transform(name_labels).toarray()
print(sparse_rep)

[[0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]]


In [37]:
import tensorflow as tf
print(tf.__version__)

2.6.0


In [38]:
from tensorflow.keras import layers

embedding_layer = layers.Embedding(1000, 5)

In [39]:
result = embedding_layer(tf.constant([1, 2, 3]))
result.numpy()

array([[-0.04963868, -0.01968982,  0.01111265, -0.02539588,  0.0450342 ],
       [-0.02905295, -0.03385232,  0.02321938, -0.0279748 , -0.00261045],
       [ 0.02179753, -0.0216635 ,  0.00325959,  0.03234151,  0.01134565]],
      dtype=float32)

In [40]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()

sentence = ['এই মাত্র পাওয়া সংবাদে জানা গেলো দেশ এর করোনা পরিস্থিতির উন্নতি হয়েছে', 
            'আমাদের সমাজে মুখোশধারী মানুষের অভাব নাই', 
            'আমরা দিন দিন বোকার রাজ্যে নির্বাসিত হচ্ছি']

tokenizer.fit_on_texts(sentence)

sequence = tokenizer.texts_to_sequences(sentence)

sequence

[[2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13],
 [14, 15, 16, 17, 18, 19],
 [20, 1, 1, 21, 22, 23, 24]]

In [41]:
result = embedding_layer(tf.constant(sequence[0]))
result.numpy()

array([[-0.02905295, -0.03385232,  0.02321938, -0.0279748 , -0.00261045],
       [ 0.02179753, -0.0216635 ,  0.00325959,  0.03234151,  0.01134565],
       [ 0.03221888,  0.04403212,  0.04695613,  0.04018353, -0.00687975],
       [ 0.04763016,  0.0004434 , -0.02749204,  0.02341368, -0.03677921],
       [-0.02460402, -0.03339466,  0.00023228,  0.02098242,  0.00367998],
       [ 0.02211041, -0.02584176, -0.0296883 ,  0.04999756, -0.03297983],
       [ 0.04393085,  0.0045329 ,  0.01364804, -0.03426585, -0.02552226],
       [-0.00521391,  0.0494909 ,  0.00989445,  0.00033556, -0.02501909],
       [-0.01824832, -0.04194999, -0.01358656, -0.04907768,  0.02796395],
       [-0.000151  ,  0.02046824,  0.03847941,  0.02208743,  0.01204553],
       [ 0.02858442,  0.00445946, -0.03480124,  0.0341277 , -0.00523623],
       [-0.01782662,  0.01902096,  0.03889645,  0.00678461,  0.00323581]],
      dtype=float32)

In [42]:
from numpy import array
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Embedding, Dense, LSTM, Bidirectional

In [43]:
# Real Life Example of Classification

train_ex = ['পণ্য ১০০% অরজিনাল কিন্তু আমার সাইজ যেটা আসছে ওটা আমাকে হচ্ছে না। আমার দরকার ৪২',
             'জুতা এপেক্সের ছিল একটু ভারী মনে হয়েছে জুতা এবং শক্ত। প্রোডাক্টটি ঠিক আছে যা চেয়েছিলাম তাই পেয়েছি  ওভারঅল ভালো',
             'আমি বিস্মিত, ঠিক যেমনটি চেয়েছিলাম তেমনটি পেয়েছি।। ধন্যবাদ এপেক্স ধন্যবাদ দারাজ।।',
             'অসাধারণ...ধন্যবাদ দারাজ।ধন্যবাদ এপেক্স। অরিজিনাল প্রোডাক্ট দেওয়ার জন্য।',
             'বেশি বলবনা এককথায় একশতে একশ। দাম অনুযায়ী খুবইসুন্দর প্রোডাক্ট, ধন্যবাদ দারাজ এবং সেলার ভাইটিকে।',
             'খুব একটা ভালো বলা চলে না। চাইলাম ৪১ আর দিলো ৪০।।ওনারা নিজেরাই ভালো রিভিউ দেয় কাস্টমারদের দেখানোর জন্ন্যে',
             'হাটার সময় অনেক আন ইজি পা বাকাতে প্রব্লেম হয়',
             'এপেক্স এর মত এই রকম প্রোডাক্ট আশা করা যায় না',
             'এপেক্স তো সবসময়ই ভালো বাট ডেলিভারি বাজে ছিলো😡😡😡 যেদিন দেয়ার কথা এর ২ দিন পর দিছে...',
             'ফালতু সেলার। মেসেজ দিয়া বল্লাম সাইজ যাতে উল্টোপাল্টা না আসে। কেউ অরডার করে প্রতারিত হবেন না।।'
             ]

# Reviews -- negative = 0 || positive = 1 (class/labels)
train_label = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])


In [44]:
train_ex[3]

'অসাধারণ...ধন্যবাদ দারাজ।ধন্যবাদ এপেক্স। অরিজিনাল প্রোডাক্ট দেওয়ার জন্য।'

In [45]:
# tokenization and converting words into sequences
tokenizer = Tokenizer()
tokenizer.fit_on_texts(train_ex)
dense_train_ex = tokenizer.texts_to_sequences(train_ex)

dense_train_ex

[[14, 15, 16, 17, 5, 6, 18, 19, 20, 21, 22, 7, 5, 23, 24],
 [8, 25, 26, 27, 28, 29, 30, 8, 9, 31, 32, 10, 33, 34, 11, 35, 36, 37, 1],
 [38, 39, 10, 40, 11, 41, 42, 2, 3, 2, 43],
 [44, 2, 45, 46, 47, 4, 48, 49],
 [50, 51, 52, 53, 54, 55, 56, 57, 4, 2, 58, 9, 59, 60],
 [61, 62, 1, 63, 64, 7, 65, 66, 67, 68, 69, 70, 1, 71, 72, 73, 74, 75],
 [76, 77, 78, 79, 80, 81, 82, 83, 84],
 [3, 12, 85, 86, 87, 4, 88, 89, 90, 13],
 [3, 91, 92, 1, 93, 94, 95, 96, 97, 98, 99, 12, 100, 101, 102, 103],
 [104, 105, 106, 107, 108, 6, 109, 110, 13, 111, 112, 113, 114, 115, 116, 117]]

In [46]:
# padding the training documents in order to make them equal length
MAX_LENGTH = 16

padded_train_ex = pad_sequences(dense_train_ex, maxlen=MAX_LENGTH, padding='post')

for pd_sen in padded_train_ex:
  print(pd_sen)

[14 15 16 17  5  6 18 19 20 21 22  7  5 23 24  0]
[27 28 29 30  8  9 31 32 10 33 34 11 35 36 37  1]
[38 39 10 40 11 41 42  2  3  2 43  0  0  0  0  0]
[44  2 45 46 47  4 48 49  0  0  0  0  0  0  0  0]
[50 51 52 53 54 55 56 57  4  2 58  9 59 60  0  0]
[ 1 63 64  7 65 66 67 68 69 70  1 71 72 73 74 75]
[76 77 78 79 80 81 82 83 84  0  0  0  0  0  0  0]
[ 3 12 85 86 87  4 88 89 90 13  0  0  0  0  0  0]
[  3  91  92   1  93  94  95  96  97  98  99  12 100 101 102 103]
[104 105 106 107 108   6 109 110  13 111 112 113 114 115 116 117]


In [47]:
# Model Declaration
VOCAB_SIZE = 118

model = Sequential()

# Embedding Layer
embedding_layer = Embedding(input_dim=VOCAB_SIZE, output_dim=8, input_length=MAX_LENGTH)
model.add(embedding_layer)

# # Flatten Layer
# model.add(Flatten())

# model.add(Dense(units=160, activation='relu'))
# model.add(Dense(units=80, activation='relu'))
# model.add(Dense(units=40, activation='relu'))
# model.add(Dense(units=10, activation='relu'))

# LSTM - for better performance
# model.add(LSTM(units=128))

# Bidirectional LSTM
forward_layers = LSTM(units=128, return_sequences=False)
backward_layers = LSTM(units=128, return_sequences=False, go_backwards=True)
model.add(Bidirectional(layer=forward_layers, backward_layer=backward_layers))

# Output Layer
model.add(Dense(units=1, activation='sigmoid'))

model.compile(optimizer='adam', loss='mse', metrics=['acc'])

print(model.summary())

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 16, 8)             944       
_________________________________________________________________
bidirectional (Bidirectional (None, 256)               140288    
_________________________________________________________________
dense (Dense)                (None, 1)                 257       
Total params: 141,489
Trainable params: 141,489
Non-trainable params: 0
_________________________________________________________________
None


In [48]:
model.fit(padded_train_ex, train_label, epochs=10, verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f9e574a5b50>

In [49]:
# Testing
test_ex = ['দামে বেশি হলেও মানে ভালো, ধন্যবাদ এপেক্স এবং দারাজ কে', 
           'জুতাটি হাতে পেয়ে আমি সত্যিই বিস্মিত', 
           'একদম বাজে, মনে হচ্ছে প্রতারিত হলাম 😡',
           'এতো ফালতু প্রডাক্ট পবো আশা করি নি']

# tokenization and converting words into sequence
dense_test_ex = tokenizer.texts_to_sequences(test_ex)

# padding the test documents
padded_test_ex = pad_sequences(dense_test_ex, maxlen=MAX_LENGTH, padding='post')

prediction = model.predict(padded_test_ex)

print(prediction)

[[0.501005  ]
 [0.5013156 ]
 [0.50083774]
 [0.49560586]]
