# Bi-directional LSTMs (BiLSTMs)

### Apa itu RNN dan LSTM?

RNN (Recurrent Neural Networks) adalah jenis jaringan saraf yang dirancang untuk menangani data berurutan, seperti teks atau deret waktu. RNN bekerja dengan menggunakan hasil dari langkah sebelumnya untuk mempengaruhi hasil langkah saat ini. Ini sangat berguna untuk memahami konteks dalam urutan data.

LSTM (Long Short-Term Memory) adalah jenis khusus dari RNN yang dirancang untuk mengatasi masalah "vanishing gradient", yang sering terjadi pada RNN biasa. LSTM memiliki mekanisme khusus yang memungkinkan mereka untuk mengingat informasi penting dalam jangka waktu yang lebih lama.

### Bagaimana RNN Bekerja?

RNN menggunakan keluaran dari langkah sebelumnya (misalnya, waktu t-1) sebagai masukan tambahan untuk langkah saat ini (waktu t). Secara matematis, ini bisa dijelaskan dengan persamaan berikut:

$ f_t(x_t) = f(f_{t-1}(x_{t-1}, x_t; \theta))$

Di sini:
- $ f_t $ adalah fungsi yang menghitung keluaran pada waktu t.
- $ x_t $ adalah data masukan pada waktu t.
- $ f_{t-1} $ adalah keluaran pada waktu t-1.
- $ \theta $ adalah parameter atau bobot yang dipelajari selama pelatihan.

### Apa itu BiLSTM?

BiLSTM (Bi-directional LSTM) adalah pengembangan dari LSTM yang memproses data dalam dua arah: maju (dari awal ke akhir) dan mundur (dari akhir ke awal). Ini memungkinkan model untuk memahami konteks dari kedua arah, yang sangat berguna dalam banyak aplikasi, seperti pemrosesan bahasa alami.

### Mengapa Ini Penting?

Dengan menggunakan BiLSTM, kita bisa mendapatkan pemahaman yang lebih baik tentang konteks dalam data berurutan. Misalnya, dalam pemrosesan bahasa alami, memahami kata-kata sebelumnya dan sesudahnya dalam sebuah kalimat dapat membantu model untuk membuat prediksi yang lebih akurat.

### Contoh Aplikasi

1. **Pengenalan Suara**: Memahami konteks dari kata-kata yang diucapkan sebelumnya dan sesudahnya.
2. **Penerjemahan Bahasa**: Menggunakan konteks dari seluruh kalimat untuk menghasilkan terjemahan yang lebih akurat.
3. **Analisis Sentimen**: Menentukan emosi atau sentimen dari teks dengan memahami konteks penuh dari kalimat.

Dengan memahami konsep dasar ini, kamu bisa lebih mudah memahami bagaimana RNN dan LSTM bekerja, serta bagaimana BiLSTM dapat meningkatkan kinerja dalam berbagai aplikasi pemrosesan data berurutan.

---
### Memahami RNN (Recurrent Neural Network) dengan Contoh Sederhana

#### Pendahuluan
Recurrent Neural Networks (RNN) adalah jenis jaringan saraf tiruan yang dirancang khusus untuk bekerja dengan data berurutan. Contoh data berurutan termasuk teks, suara, atau urutan waktu (time series). RNN sangat berguna ketika urutan atau konteks dari data tersebut penting untuk membuat prediksi.

### Blok Dasar RNN

![image.png](attachment:image.png)

Pada dasarnya, RNN memiliki struktur yang sangat sederhana, yaitu terdiri dari satu unit atau "sel" yang berulang pada setiap langkah waktu. Untuk lebih mudah dipahami, bayangkan kamu sedang membaca sebuah cerita. Saat kamu membaca setiap kata, otakmu mengingat kata-kata sebelumnya untuk memahami kalimat tersebut. RNN bekerja dengan cara yang mirip—ia "mengingat" informasi dari langkah sebelumnya untuk memproses langkah berikutnya.

#### Cara Kerja RNN
Di setiap langkah waktu (misalnya, setiap kata dalam sebuah kalimat), RNN menerima input, yaitu data dari langkah waktu saat ini, dan menggunakan informasi dari langkah sebelumnya untuk memprosesnya. Mari kita lihat lebih detail:

1. **Input Vector (Xt)**: Ini adalah data yang masuk pada langkah waktu t. Misalnya, dalam kalimat "Aku suka makan pizza," jika kita berada pada kata "suka," maka "suka" adalah input di langkah waktu t.

2. **Bobot (Weights) U, V, W**:
    - **U**: Mengalikan input "suka" dengan bobot **U** untuk menghasilkan aktivasi awal.
    - **V**: Bobot **V** digunakan untuk mengalikan output dari langkah waktu sebelumnya (katakanlah kata "Aku") dan menambahkannya ke aktivasi saat ini.
    - **W**: Setelah itu, aktivasi tersebut dikalikan dengan bobot **W** untuk menghasilkan output akhir di langkah waktu t.

3. **Rumus Matematis**:
    - **Aktivasi pada langkah waktu t**:
      $
      h_t = \text{fungsi aktivasi} (U \cdot X_t + V \cdot h_{t-1})
      $
      Di sini, $h_{t-1}$ adalah aktivasi dari langkah sebelumnya.

    - **Output pada langkah waktu t**:
      $
      O_t = W \cdot h_t
      $
      Output ini akan menjadi bagian dari input di langkah berikutnya.

#### Tantangan dalam RNN
Namun, ada beberapa masalah ketika urutan data menjadi sangat panjang:

1. **Vanishing Gradient**: Saat melatih jaringan, gradient (turunan dari fungsi error terhadap bobot) bisa menjadi sangat kecil, sehingga sulit bagi jaringan untuk belajar dari langkah-langkah yang jauh di masa lalu.

2. **Exploding Gradient**: Sebaliknya, gradient bisa menjadi sangat besar, yang menyebabkan masalah pembelajaran.

3. **Kesulitan Mengingat Jangka Panjang**: Misalkan ada sebuah kata yang sangat penting di awal kalimat, tetapi karena informasi terus "dilupakan" seiring dengan langkah waktu, jaringan mungkin tidak mampu mengingatnya saat mencapai akhir kalimat.

#### Solusi: LSTM dan GRU
Untuk mengatasi masalah-masalah ini, dikembangkan jenis-jenis sel RNN khusus yang disebut **LSTM (Long Short-Term Memory)** dan **GRU (Gated Recurrent Unit)**. Sel-sel ini dirancang untuk lebih efektif dalam menangani informasi jangka panjang dan mencegah masalah vanishing/exploding gradient.

TensorFlow, salah satu library yang populer untuk machine learning, sudah menyediakan implementasi dari LSTM dan GRU ini, sehingga kamu bisa dengan mudah menggunakannya dalam membangun model RNN yang lebih kuat dan efisien.

---
### Long Short-Term Memory (LSTM)
LSTM diperkenalkan pada tahun 1997 dan telah diperbaiki serta dipopulerkan oleh banyak peneliti sejak saat itu. LSTM sangat efektif dalam menangani urutan data yang panjang, seperti teks atau rekaman suara. LSTM memiliki empat komponen utama:

1. **Cell State ($C_t$)**: Ini adalah "memori" dari jaringan yang menyimpan informasi penting sepanjang waktu. Bisa dibilang, cell state adalah inti dari LSTM yang membantu jaringan untuk mengingat informasi penting dari waktu ke waktu.

2. **Input Gate ($i_t$)**: Gerbang ini menentukan seberapa banyak informasi baru dari input yang akan digunakan untuk memperbarui cell state. Jika informasi baru dianggap penting, input gate akan membiarkan lebih banyak informasi masuk.

3. **Forget Gate ($f_t$)**: Gerbang ini memutuskan seberapa banyak dari cell state saat ini yang akan dibuang atau "dilupakan". Misalnya, jika informasi lama sudah tidak relevan, forget gate akan menurunkan pengaruhnya pada cell state.

4. **Output Gate ($o_t$)**: Gerbang ini menentukan seberapa banyak informasi dari cell state yang akan digunakan untuk menghasilkan output pada langkah waktu saat ini.

![image.png](attachment:image.png)

#### Proses di LSTM
Setiap kali data baru masuk ke dalam LSTM (misalnya, kata dalam sebuah kalimat), ketiga gerbang (input, forget, dan output) bekerja bersama-sama untuk memutuskan bagaimana informasi baru tersebut akan mempengaruhi cell state dan output. Berikut adalah gambaran singkat prosesnya:

- **Forget Gate** memutuskan apa yang perlu dilupakan dari cell state.
- **Input Gate** memutuskan apa yang perlu ditambahkan ke cell state.
- Cell state diperbarui berdasarkan keputusan dari kedua gerbang di atas.
- **Output Gate** menentukan apa yang akan dihasilkan sebagai output berdasarkan cell state yang diperbarui.

---
### Gated Recurrent Units (GRU)
GRU adalah varian RNN yang lebih sederhana daripada LSTM dan diperkenalkan pada tahun 2014. GRU menggabungkan beberapa fungsi dari LSTM menjadi satu, sehingga lebih mudah dilatih dan diimplementasikan. GRU juga memiliki performa yang baik dalam banyak tugas, terutama dalam pengenalan suara dan pemrosesan suara. 

![image.png](attachment:image.png)

Berikut adalah perbedaan utama antara LSTM dan GRU:

- **Update Gate ($z_t$)**: GRU menggabungkan fungsi dari input gate dan forget gate menjadi satu gerbang yang disebut update gate. Ini berarti GRU hanya memiliki dua gerbang utama: update gate dan reset gate.
- **Reset Gate ($r_t$)**: Gerbang ini memutuskan seberapa besar pengaruh informasi sebelumnya terhadap informasi baru.

Karena kesederhanaannya, GRU sering kali lebih cepat untuk dilatih daripada LSTM, meskipun dalam beberapa kasus seperti terjemahan mesin, LSTM sering kali menunjukkan performa yang lebih baik.

#### Mengapa LSTM dan GRU Penting?
LSTM dan GRU sangat penting karena mereka memungkinkan model untuk mengingat informasi yang relevan dalam urutan data yang panjang. Ini sangat berguna dalam tugas-tugas NLP seperti klasifikasi sentimen, di mana konteks seluruh kalimat penting untuk menentukan apakah suatu pernyataan bersifat positif, negatif, atau netral.

### Sentiment classification with LSTMs  

### Pendahuluan
Klasifikasi sentimen adalah salah satu aplikasi paling umum dalam Natural Language Processing (NLP). Bayangkan kamu membaca ulasan tentang sebuah film atau produk di internet. Ada ulasan yang mengatakan "Film ini luar biasa!" dan ada yang berkata "Sangat mengecewakan." Klasifikasi sentimen bertujuan untuk mengidentifikasi apakah ulasan tersebut bernada positif, negatif, atau mungkin netral.

### Mengapa Penting?
Klasifikasi sentimen banyak digunakan di berbagai industri. Misalnya, perusahaan dapat menganalisis sentimen dari tweet untuk memahami bagaimana publik melihat merek mereka. Dalam dunia keuangan, sentimen dari berita atau tweet bisa digunakan untuk memprediksi pergerakan harga saham. Di e-commerce, ulasan produk dapat diproses untuk memberikan wawasan tentang kepuasan pelanggan.

### Dataset IMDb
Untuk melihat bagaimana LSTM bekerja dalam klasifikasi sentimen, kita bisa menggunakan **dataset ulasan film dari IMDb**. Dataset ini dipublikasikan dalam sebuah makalah yang berjudul *Learning Word Vectors for Sentiment Analysis* pada konferensi ACL 2011. Dataset ini sangat populer untuk tugas klasifikasi sentimen karena memiliki jumlah data yang cukup besar:

- **25.000 ulasan** untuk set pelatihan
- **25.000 ulasan** untuk set pengujian

Setiap ulasan dalam dataset ini sudah diberi label sebagai ulasan positif atau negatif, sehingga kita bisa melatih model LSTM untuk mengenali pola-pola yang menunjukkan sentimen tertentu.

### Bagaimana LSTM Bekerja dalam Klasifikasi Sentimen?
LSTM sangat efektif dalam menangani urutan data yang panjang, seperti ulasan teks, karena kemampuannya untuk "mengingat" informasi penting dari langkah-langkah sebelumnya dalam urutan. Ini memungkinkan LSTM untuk memahami konteks dari keseluruhan ulasan, bukan hanya kata-kata individual. Misalnya, dalam kalimat "Meskipun film ini agak lambat, aktingnya sangat luar biasa," kata "luar biasa" pada akhirnya lebih menentukan sentimen positif.

### Langkah-langkah Utama
1. **Preprocessing Teks**: Sebelum memasukkan data ulasan ke dalam LSTM, kita harus melakukan preprocessing. Ini mencakup langkah-langkah seperti menghapus tanda baca, mengubah teks menjadi huruf kecil, dan mengonversi kata-kata menjadi angka (tokenisasi).

2. **Pembagian Data**: Dataset dibagi menjadi dua bagian—set pelatihan dan set pengujian. Set pelatihan digunakan untuk melatih model, sementara set pengujian digunakan untuk mengevaluasi seberapa baik model bekerja dengan data baru.

3. **Pelatihan LSTM**: LSTM dilatih menggunakan set pelatihan untuk belajar mengenali pola-pola yang menunjukkan sentimen positif atau negatif.

4. **Evaluasi Model**: Setelah model dilatih, kita mengujinya dengan set pengujian untuk melihat seberapa akurat model dalam mengklasifikasikan ulasan sebagai positif atau negatif.

### Mengapa LSTM?
LSTM adalah pilihan yang kuat untuk tugas ini karena mereka dapat menangani masalah seperti **vanishing gradient** yang biasanya muncul dalam RNN standar. LSTM juga mampu mengingat informasi dari awal hingga akhir ulasan, yang sangat penting untuk menentukan sentimen secara keseluruhan.

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelBinarizer
from Src import DatasetSplitter

import tensorflow as tf
import spacy
import pandas  as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
DATASET_PATH='./Assets/Datasets/IMDB Dataset.csv'

In [5]:
with open(DATASET_PATH, 'r') as file:
    for idx, line in enumerate(file, 1):
        line = line.strip()
        display(line)
        if idx == 5:
            break

'review,sentiment'

'"One of the other reviewers has mentioned that after watching just 1 Oz episode you\'ll be hooked. They are right, as this is exactly what happened with me.<br /><br />The first thing that struck me about Oz was its brutality and unflinching scenes of violence, which set in right from the word GO. Trust me, this is not a show for the faint hearted or timid. This show pulls no punches with regards to drugs, sex or violence. Its is hardcore, in the classic use of the word.<br /><br />It is called OZ as that is the nickname given to the Oswald Maximum Security State Penitentary. It focuses mainly on Emerald City, an experimental section of the prison where all the cells have glass fronts and face inwards, so privacy is not high on the agenda. Em City is home to many..Aryans, Muslims, gangstas, Latinos, Christians, Italians, Irish and more....so scuffles, death stares, dodgy dealings and shady agreements are never far away.<br /><br />I would say the main appeal of the show is due to the 

'"A wonderful little production. <br /><br />The filming technique is very unassuming- very old-time-BBC fashion and gives a comforting, and sometimes discomforting, sense of realism to the entire piece. <br /><br />The actors are extremely well chosen- Michael Sheen not only ""has got all the polari"" but he has all the voices down pat too! You can truly see the seamless editing guided by the references to Williams\' diary entries, not only is it well worth the watching but it is a terrificly written and performed piece. A masterful production about one of the great master\'s of comedy and his life. <br /><br />The realism really comes home with the little things: the fantasy of the guard which, rather than use the traditional \'dream\' techniques remains solid then disappears. It plays on our knowledge and our senses, particularly with the scenes concerning Orton and Halliwell and the sets (particularly of their flat with Halliwell\'s murals decorating every surface) are terribly wel

'"I thought this was a wonderful way to spend time on a too hot summer weekend, sitting in the air conditioned theater and watching a light-hearted comedy. The plot is simplistic, but the dialogue is witty and the characters are likable (even the well bread suspected serial killer). While some may be disappointed when they realize this is not Match Point 2: Risk Addiction, I thought it was proof that Woody Allen is still fully in control of the style many of us have grown to love.<br /><br />This was the most I\'d laughed at one of Woody\'s comedies in years (dare I say a decade?). While I\'ve never been impressed with Scarlet Johanson, in this she managed to tone down her ""sexy"" image and jumped right into a average, but spirited young woman.<br /><br />This may not be the crown jewel of his career, but it was wittier than ""Devil Wears Prada"" and more interesting than ""Superman"" a great comedy to go see with friends.",positive'

'"Basically there\'s a family where a little boy (Jake) thinks there\'s a zombie in his closet & his parents are fighting all the time.<br /><br />This movie is slower than a soap opera... and suddenly, Jake decides to become Rambo and kill the zombie.<br /><br />OK, first of all when you\'re going to make a film you must Decide if its a thriller or a drama! As a drama the movie is watchable. Parents are divorcing & arguing like in real life. And then we have Jake with his closet which totally ruins all the film! I expected to see a BOOGEYMAN similar movie, and instead i watched a drama with some meaningless thriller spots.<br /><br />3 out of 10 just for the well playing parents & descent dialogs. As for the shots with Jake: just ignore them.",negative'

In [6]:
df = pd.read_csv(DATASET_PATH, sep=',')

In [None]:
df.shape

(50000, 2)

In [None]:
df[:5]

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


## Normalisasi dan Vektorisasi dalam NLP

### Pendahuluan
Dalam Natural Language Processing (NLP), **normalisasi** dan **vektorisasi** adalah dua langkah penting yang membantu kita mengubah teks mentah menjadi bentuk yang bisa dipahami dan diolah oleh model machine learning, seperti Recurrent Neural Networks (RNN) dan Long Short-Term Memory (LSTM).

### Apa Itu Normalisasi?
Normalisasi adalah proses untuk membersihkan dan menyederhanakan teks sehingga bisa dianalisis lebih mudah oleh komputer. Dalam bab pertama, kita sudah membahas beberapa metode normalisasi. Di sini, kita akan fokus pada dua langkah dasar:

1. **Tokenisasi**: Memecah teks menjadi kata-kata individu yang disebut "token." Misalnya, kalimat "Saya suka belajar NLP" akan diubah menjadi ["Saya", "suka", "belajar", "NLP"].

2. **Membangun Kosakata (Vocabulary)**: Setelah teks dipecah menjadi token, kita perlu membuat daftar semua kata unik yang muncul dalam data. Daftar ini disebut kosakata atau vocabulary. Misalnya, jika dalam semua teks yang kita miliki hanya ada lima kata: ["Saya", "suka", "belajar", "NLP", "AI"], ini menjadi kosakata kita.

### Apa Itu Vektorisasi?
Vektorisasi adalah proses mengubah kata-kata dalam teks menjadi angka-angka yang dapat diproses oleh komputer. Setelah kita memiliki kosakata, kita bisa mengubah setiap kata dalam teks menjadi representasi angka berdasarkan urutan atau frekuensi kemunculannya dalam kosakata.

Misalnya, dengan kosakata ["Saya", "suka", "belajar", "NLP", "AI"], kita bisa merepresentasikan kalimat "Saya suka NLP" sebagai vektor [1, 1, 0, 1, 0], di mana:

- **1** berarti kata tersebut muncul dalam kalimat.
- **0** berarti kata tersebut tidak muncul dalam kalimat.

### Mengapa Ini Penting?
Mengubah teks menjadi angka sangat penting karena model machine learning seperti LSTM tidak bisa langsung memahami teks mentah. Mereka hanya bisa bekerja dengan data numerik. Dengan tokenisasi dan vektorisasi, kita dapat memberi model data yang bisa diolah untuk memprediksi atau mengklasifikasikan sesuatu, misalnya menentukan apakah ulasan film bersifat positif atau negatif.

### Aplikasi pada RNN dan LSTM
Setelah teks dinormalisasi dan dikektorisasi, kita bisa memasukkan data ini ke dalam model RNN atau LSTM untuk mempelajari pola-pola yang ada dalam urutan kata-kata. Dalam contoh ini, kita akan menggunakan fitur yang sama pada model RNN dengan LSTM, dan kemudian mencoba model yang lebih canggih, yaitu BiLSTM (Bidirectional LSTM).

### BiLSTM: Peningkatan dari LSTM
**BiLSTM** adalah versi LSTM yang lebih kuat karena dapat memproses data teks dalam dua arah—dari awal ke akhir dan dari akhir ke awal. Ini memungkinkan model untuk memahami konteks dari kedua sisi, memberikan hasil yang lebih akurat, terutama dalam tugas-tugas seperti klasifikasi sentimen.

### Kesimpulan
Normalisasi dan vektorisasi adalah fondasi penting dalam setiap proyek NLP. Tanpa langkah-langkah ini, model machine learning tidak akan bisa memahami teks mentah. Dengan tokenisasi dan pembuatan kosakata, kita mengubah kata-kata menjadi bentuk yang bisa diproses oleh komputer, dan dengan vektorisasi, kita mengubahnya menjadi angka-angka yang bisa diolah oleh model seperti LSTM dan BiLSTM. 

Memahami konsep-konsep ini akan membantu kamu dalam berbagai proyek NLP, mulai dari analisis sentimen hingga terjemahan mesin dan beyond!

In [7]:
df_copy = df.copy(deep=True)
lb = LabelBinarizer()
df_copy['sentiment'] = lb.fit_transform(df_copy['sentiment'])

In [8]:
lb.classes_

array(['negative', 'positive'], dtype='<U8')

In [9]:
df_copy[:5]

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,1
1,A wonderful little production. <br /><br />The...,1
2,I thought this was a wonderful way to spend ti...,1
3,Basically there's a family where a little boy ...,0
4,"Petter Mattei's ""Love in the Time of Money"" is...",1


In [8]:
reviews = df_copy['review']
sentiment = df_copy['sentiment']

In [11]:
sentiment.value_counts()

sentiment
1    25000
0    25000
Name: count, dtype: int64

In [9]:
imdb_reviews_tf_dataset = tf.data.Dataset.from_tensor_slices((reviews, sentiment))

In [13]:
print(f'info train data: {imdb_reviews_tf_dataset}')
print(f'number of train data: {len(imdb_reviews_tf_dataset)}')

info train data: <_TensorSliceDataset element_spec=(TensorSpec(shape=(), dtype=tf.string, name=None), TensorSpec(shape=(), dtype=tf.int32, name=None))>
number of train data: 50000


In [10]:
# Initialize the tokenizer
vocab_size = 10000  # Maximum number of words in the vocabulary
oov_token = "<OOV>"  # Token for out-of-vocabulary words
tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_token)
# Fit the tokenizer on the dataset
tokenizer.fit_on_texts(reviews)

In [15]:
decode_text_dicts = tokenizer.index_word

In [16]:
len(decode_text_dicts)

124253

In [17]:
for data, label in imdb_reviews_tf_dataset.shuffle(buffer_size=len(imdb_reviews_tf_dataset)).skip(5).take(1):
    label_str = lb.inverse_transform(np.array(label))
    text_lower = tf.strings.lower(data)
    byte_to_text = tf.compat.as_text(text_lower.numpy())
    
    sequences = tokenizer.texts_to_sequences([byte_to_text])
    padded = pad_sequences(sequences, maxlen=235, padding='post')

    print(f'text: {byte_to_text}')
    print(f'label: {label} --> {label_str[0]}')
    print(f'count vector: {sequences[0]}')
    print('decode text: ', end=' ')
    for index in sequences[0]:
        print(f'[{index}:{decode_text_dicts[index]}]', end=' ')
    print(f'padded vector: {padded[0].shape}')
    print()

text: okay, here's the deal. there's this american pilot who's flying along, minding his own business, when suddenly he's outnumbered by evil, cowardly non-american fighter planes (they're middle eastern types, but suffice to say they don't like apple pie or elvis presley), who proceed to shoot him down. now this american pilot was doing nothing wrong, but those evil non-americans didn't care and before you know it he's banged up in a foreign jail and sentenced to death!!<br /><br />now, what would normally happen here is that the us military would carpet bomb a couple of nearby towns until the pilot was released, but not this time. those evil peace lovin' types probably got involved and managed to stop any kind of retaliatory massacre. as you can imagine, this doesn't please the pilot's family and the evil foreign dictator has this smug, contented look about him. he'll make those americans pay, oh yes indeed!<br /><br />but he didn't reckon on doug masters, the captured pilots 16-year

In [18]:
def calculate_length(text):
    text_lower = tf.strings.lower(text) 
    byte_to_text = tf.compat.as_text(text_lower.numpy())
    sequences = tokenizer.texts_to_sequences([byte_to_text])  # Convert text to sequence of tokens
    length = len(sequences[0])  # Get the length of the sequence
    return length

def tf_calculate_length(text, label):
    length = tf.py_function(calculate_length, inp=[text], Tout=tf.int64)
    return length

In [19]:
review_lengths = imdb_reviews_tf_dataset.map(tf_calculate_length, num_parallel_calls=tf.data.AUTOTUNE)
review_lengths_cached = review_lengths.cache()

In [20]:
sum_review_lengths = review_lengths_cached.reduce(
    initial_state=tf.constant(0, dtype=tf.int64),
    reduce_func= lambda x, y: x + y
)

max_token_length = review_lengths_cached.reduce(
    initial_state=tf.constant(0, dtype=tf.int64),
    reduce_func= lambda x, y: tf.maximum(x, y)
)

min_token_length = review_lengths_cached.reduce(
    initial_state=tf.constant(2493, dtype=tf.int64),
    reduce_func= lambda x, y: tf.minimum(x, y)
)

average_token_length = sum_review_lengths.numpy() / len(review_lengths_cached)

print(f"The minimum length of reviews is: {max_token_length}")
print(f"The average length of reviews is: {average_token_length}")
print(f"The minimum length of reviews is: {min_token_length}")

The minimum length of reviews is: 2493
The average length of reviews is: 235.03316
The minimum length of reviews is: 6


In [21]:
def length_filter_review(text, length_filter, operator):
    # # Get the length of the sequence
    length = calculate_length(text)
    # Dynamically evaluate the condition based on operator
    condition = eval(f"{length} {tf.compat.as_text(operator.numpy())} {length_filter}")
    return condition

def tf_length_review(text, label, length_filter, operator):
    # Apply length_filter_review using tf.py_function
    result = tf.py_function(length_filter_review, inp=[text, length_filter, operator], Tout=tf.bool)
    # Ensure the result has a static shape
    result.set_shape([])
    return result

# Example usage: Filter the dataset where review length is greater than 6
filtered_dataset = imdb_reviews_tf_dataset.filter(lambda text, label: tf_length_review(text, label, 6, "=="))
filtered_dataset_cached = filtered_dataset.cache()

In [22]:
for text, label in filtered_dataset_cached.take(1):
    label_str = lb.inverse_transform(np.array(label))
    byte_to_text = tf.compat.as_text(text.numpy())
    
    print(f'text: {byte_to_text}')
    print(f'label: {label} --> {label_str[0]}')
    print()

text: Read the book, forget the movie!
label: 0 --> negative



In [11]:
# Function to tokenize and pad sequences
def tokenize_and_pad(text, max_pad):
    text_lower = tf.strings.lower(text)  # Lowercase the text
    byte_to_text = tf.compat.as_text(text_lower.numpy())  # Ensure that the input is a string
    sequences = tokenizer.texts_to_sequences([byte_to_text])  # Convert text to sequence of tokens
    padded = pad_sequences(sequences, maxlen=max_pad, padding='post')  # Pad sequences to the same length
    return padded[0]

# Wrapper to use the function with `map`
def tf_tokenize_and_pad(text, label, max_pad):
    label = tf.cast(label, tf.int32)
    text_tokenized = tf.py_function(tokenize_and_pad, inp=[text, max_pad], Tout=(tf.int32))
    text_tokenized.set_shape((max_pad, ))
    return text_tokenized, label

In [12]:
imdb_reviews_tokenized = imdb_reviews_tf_dataset.map(
    map_func= lambda review, sentiment:
        tf_tokenize_and_pad(
            text=review, 
            label=sentiment, 
            max_pad=235
        ),
    num_parallel_calls=tf.data.AUTOTUNE
)
imdb_reviews_tokenized_cached = imdb_reviews_tokenized.cache()

In [13]:
print(f'info train data: {imdb_reviews_tokenized_cached}')
print(f'number of train data: {len(imdb_reviews_tokenized_cached)}')

info train data: <CacheDataset element_spec=(TensorSpec(shape=(235,), dtype=tf.int32, name=None), TensorSpec(shape=(), dtype=tf.int32, name=None))>
number of train data: 50000


In [17]:
for review, sentiment in imdb_reviews_tokenized_cached.skip(100).take(1):
    print(f'review: {review}: type: {review.dtype}')
    print(f'sentiment: {sentiment}: type: {sentiment.dtype}')
    print()

review: [  12  335   20   13 1607    2  527    6   27  364 1603  786    1 2911
    7    4  580  413   13    1  451  743 2360    1 2627  957    2  335
   20  406 2452    2    1   36  101  110 3809   37   25  294 5178    9
    2  558  451    2  477    1   12  857 2220   16   48  153 1468  735
    2  454   19    7 1185 1002   16    2 8239    5    2  786   12  631
 1108  779  638   56    7 5846   32   48 1037 1965  203    3    4  398
  697  628  480   22   73  330 1632 1795   10    2  112   13    7  269
   54  150   63   26   56    6  120   19   45 1411 1111   10  112  127
   72  107  300  333  370  105   12   20    7  279  148   31  225    4
  172  210  188   10   16   49   10    7    3   90  526    4  861   65
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    

In [22]:
# Length of the vocabulary in chars
VOCAB_SIZE = len(tokenizer.index_word ) + 1 # len(chars)
# The embedding dimension
EMBEDDING_DIM = 64
# Number of RNN units
RNN_UNITS = 64
# batch size
BATCH_SIZE = 64

In [14]:
splitter = DatasetSplitter(batch_size=BATCH_SIZE, train_split=0.8)

In [15]:
SMSSpamCollection_tf_data_train, SMSSpamCollection_tf_data_valid = splitter.split_and_prepare(imdb_reviews_tokenized_cached)

Info data: <CacheDataset element_spec=(TensorSpec(shape=(235,), dtype=tf.int32, name=None), TensorSpec(shape=(), dtype=tf.int32, name=None))>
Number of data: 50000
BATCH SIZE: 64
Info data: <_TakeDataset element_spec=(TensorSpec(shape=(None, 235), dtype=tf.int32, name=None), TensorSpec(shape=(None,), dtype=tf.int32, name=None))>
Training Split: 0.8
Number of data: 625
Info data: <_SkipDataset element_spec=(TensorSpec(shape=(None, 235), dtype=tf.int32, name=None), TensorSpec(shape=(None,), dtype=tf.int32, name=None))>
Validation Split: 0.2
Number of data: 157


In [26]:
import tensorflow as tf

def build_model_lstm(vocab_size, embedding_dim, rnn_units, batch_size):
    # Input layer
    inputs = tf.keras.Input(shape=(None,), dtype=tf.int32, name='inputs')

    # Embedding layer
    x = tf.keras.layers.Embedding(vocab_size, embedding_dim, mask_zero=True, name='embedding')(inputs)

    # LSTM layer
    x = tf.keras.layers.LSTM(rnn_units, name='lstm')(x)

    # Dense layer with sigmoid activation
    outputs = tf.keras.layers.Dense(1, activation='sigmoid', name='output')(x)

    # Create the model
    model = tf.keras.Model(inputs=inputs, outputs=outputs, name='lstm_model')

    return model

In [27]:
# Length of the vocabulary in chars
VOCAB_SIZE = len(tokenizer.index_word ) + 1 # len(chars)
# The embedding dimension
EMBEDDING_DIM = 64
# Number of RNN units
RNN_UNITS = 64
# batch size
BATCH_SIZE = 64

In [28]:
model = build_model_lstm(
  vocab_size = VOCAB_SIZE,
  embedding_dim = EMBEDDING_DIM,
  rnn_units = RNN_UNITS,
  batch_size = BATCH_SIZE
)

model.compile(loss='binary_crossentropy', 
             optimizer='adam', 
             metrics=['accuracy', 'Precision', 'Recall'])

model.summary()

In [1]:
history = model.fit(
    SMSSpamCollection_tf_data_train,
    validation_data=SMSSpamCollection_tf_data_valid,
    epochs=10,
)