
# Chapter 16: Natural Language Processing with RNNs and Attention

## 1. Pendahuluan

Natural Language Processing (NLP) adalah cabang Machine Learning yang menangani data berbentuk teks atau bahasa manusia. Pada bab ini, fokusnya adalah memahami bagaimana menggunakan Recurrent Neural Networks (RNNs) dan Attention Mechanisms untuk memproses teks secara urutan, menerjemahkan bahasa, menganalisis sentimen, dan tugas NLP lainnya.



## 2. Tokenization dan Encoding

Langkah pertama pada NLP adalah mengubah teks mentah menjadi token numerik agar dapat diproses oleh model.


In [None]:

from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    "I love TensorFlow",
    "NLP is amazing"
]

tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)

sequences = tokenizer.texts_to_sequences(sentences)
print(sequences)



## 3. Padding Sequences

Agar data dapat diproses dalam batch, semua urutan harus memiliki panjang yang sama. Gunakan `pad_sequences`:


In [None]:

from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences, padding='post')
print(padded)



## 4. Word Embeddings

Word Embedding mengubah token menjadi vektor numerik padat yang menangkap makna semantik kata.


In [None]:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding

model = Sequential()
model.add(Embedding(input_dim=100, output_dim=16, input_length=5))



## 5. Recurrent Neural Networks (RNN)

RNN adalah arsitektur khusus untuk memproses data urutan. `SimpleRNN`, `LSTM`, dan `GRU` adalah varian RNN di Keras.


In [None]:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

model = Sequential([
    Embedding(input_dim=10000, output_dim=32, input_length=100),
    LSTM(64),
    Dense(1, activation='sigmoid')
])
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])



## 6. Bidirectional RNN

RNN standar hanya membaca data dari awal ke akhir. `Bidirectional` memungkinkan membaca maju dan mundur sehingga konteks lebih kaya.


In [None]:

from tensorflow.keras.layers import Bidirectional

model = Sequential([
    Embedding(input_dim=10000, output_dim=32, input_length=100),
    Bidirectional(LSTM(64)),
    Dense(1, activation='sigmoid')
])



## 7. Sequence-to-Sequence (Seq2Seq)

Seq2Seq digunakan pada tugas terjemahan, summarization, dan chatbot. Arsitektur umumnya melibatkan Encoder dan Decoder.

Encoder: Membaca input sequence.  
Decoder: Menghasilkan output sequence.



## 8. Attention Mechanism

Attention meningkatkan performa Seq2Seq dengan cara memungkinkan decoder untuk melihat ke seluruh input sequence dan fokus pada bagian relevan saat menghasilkan setiap token output.

Attention dapat diintegrasikan sebagai layer khusus. TensorFlow Addons atau implementasi manual dapat digunakan untuk menambahkan Attention.



## 9. Transformer Architecture

Transformer adalah arsitektur modern untuk NLP, menggantikan RNN dengan Attention sepenuhnya. Komponen utamanya adalah Self-Attention dan Multi-Head Attention.

Model terkenal berbasis Transformer:
- BERT (Bidirectional Encoder Representations from Transformers)
- GPT (Generative Pre-trained Transformer)

Transformer mendukung paralelisasi dan performa lebih cepat dibanding RNN.



## 10. Fine-Tuning Pretrained NLP Models

Transfer learning juga populer di NLP. Model BERT, GPT, T5 dan lainnya dapat di-*fine-tune* menggunakan `transformers` library dari Hugging Face.


In [None]:

from transformers import TFBertForSequenceClassification, BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = TFBertForSequenceClassification.from_pretrained("bert-base-uncased")



## 11. Tips Praktis NLP

- Selalu bersihkan data teks: hilangkan stopwords, tanda baca, dan normalisasi casing.
- Gunakan embedding pretrained (misal GloVe, Word2Vec) jika dataset kecil.
- Untuk dataset besar, training embedding dari awal juga bisa efektif.
- Jika memungkinkan, gunakan model Transformer karena performanya lebih baik dibanding RNN pada umumnya.
