# Bab 16: Processing Natural Language with RNNs and Attention (Memproses Bahasa Alami dengan RNN dan Atensi)

### 1. Pendahuluan

Bab 16 ini adalah kelanjutan dari Bab 15, secara spesifik menerapkan konsep Jaringan Saraf Berulang (RNNs) dan mekanisme Attention ke bidang **Natural Language Processing (NLP)**. NLP adalah salah satu aplikasi *Deep Learning* yang paling menantang dan menarik, meliputi tugas-tugas seperti penerjemahan mesin, analisis sentimen, pembuatan teks, dan tanya jawab. Memproses bahasa manusia memiliki kompleksitas unik yang membuat RNN dan Transformer menjadi sangat cocok.

### 2. Word Embeddings (Embedding Kata)

Kata-kata harus dikonversi menjadi representasi numerik yang dapat diproses oleh JST. Teknik yang paling umum adalah *Word Embeddings*.

* **One-Hot Encoding:** Representasi yang paling sederhana, di mana setiap kata unik diwakili oleh vektor biner dengan `1` pada indeks kata tersebut dan `0` di tempat lain. Kekurangan: sangat *sparse*, tidak menangkap hubungan semantik antar kata, dan menghasilkan vektor berdimensi tinggi.
* **Word Embeddings:** Representasi vektor padat dan berdimensi rendah yang menangkap makna semantik dan hubungan antar kata. Kata-kata dengan makna yang serupa akan memiliki vektor *embedding* yang dekat dalam ruang vektor.
    * **Pembelajaran Embedding:** *Word embeddings* dapat dipelajari selama pelatihan jaringan saraf (misalnya, `keras.layers.Embedding` di Keras).
    * **Pre-trained Embeddings:** Seringkali lebih baik menggunakan *word embeddings* yang sudah dilatih pada korpus teks yang sangat besar (misalnya, Word2Vec, GloVe, FastText). Ini dapat mempercepat pelatihan dan meningkatkan kinerja, terutama pada dataset kecil.

### 3. Encoder-Decoder Network untuk Penerjemahan Mesin (An Encoder-Decoder Network for Machine Translation)

Arsitektur *encoder-decoder* sangat umum untuk tugas *sequence-to-sequence* seperti penerjemahan mesin.

* **Encoder:** Sebuah RNN (misalnya, LSTM atau GRU) yang memproses urutan teks input (misalnya, kalimat dalam bahasa sumber) dan mengkompresnya menjadi satu vektor *context* atau *state* tersembunyi.
* **Decoder:** RNN lain yang mengambil vektor *context* ini sebagai input awal dan menghasilkan urutan teks output (misalnya, kalimat terjemahan dalam bahasa target) kata demi kata.
* **Tantangan:** Vektor *context* tunggal dapat menjadi *bottleneck* informasi, terutama untuk kalimat yang sangat panjang, menyebabkan hilangnya detail.

### 4. Attention Mechanisms (Mekanisme Atensi)

Mekanisme *Attention* adalah inovasi penting yang mengatasi *bottleneck* *encoder-decoder* pada urutan panjang.

* **Bagaimana Atensi Bekerja:** Daripada memaksa *encoder* mengkompres seluruh kalimat input ke dalam satu vektor *context* tunggal, *attention* memungkinkan *decoder* untuk "melihat kembali" dan memberikan bobot berbeda pada setiap langkah waktu input *encoder* saat menghasilkan setiap kata output.
* Ini memungkinkan *decoder* untuk fokus pada bagian-bagian yang paling relevan dari kalimat input pada setiap langkah waktu output, mirip dengan bagaimana manusia menerjemahkan.
* **Manfaat:** Meningkatkan kinerja secara signifikan pada tugas *sequence-to-sequence* dengan urutan panjang, dan juga memberikan interpretasi tentang bagian input mana yang paling penting untuk setiap bagian output.

### 5. Transformer Architecture (Arsitektur Transformer)

Arsitektur Transformer, diperkenalkan pada paper "Attention Is All You Need" (2017), telah merevolusi NLP. Ia sepenuhnya menghilangkan rekurensi dan mengandalkan mekanisme *self-attention*.

* **Self-Attention:** Komponen kunci Transformer. Ini memungkinkan setiap kata dalam urutan untuk menghitung *score* relevansinya terhadap semua kata lain dalam urutan, dan kemudian menghasilkan representasi baru untuk setiap kata sebagai jumlah bobot dari representasi semua kata lain.
    * **Query, Key, Value:** Untuk setiap kata, Transformer menghitung tiga vektor: *Query* ($Q$), *Key* ($K$), dan *Value* ($V$). *Query* dan *Key* digunakan untuk menghitung skor kesamaan, yang kemudian digunakan untuk membobot *Value*.
    * **Multi-Head Attention:** Menggabungkan beberapa mekanisme *self-attention* yang berjalan secara paralel (*attention heads*), masing-masing belajar fokus pada bagian yang berbeda dari urutan, kemudian outputnya digabungkan.
* **Positional Encoding:** Karena Transformer tidak memiliki rekurensi, informasi posisi kata dalam urutan ditambahkan secara eksplisit ke *embedding* kata.
* **Encoder-Decoder Stack:** Transformer juga memiliki arsitektur *encoder-decoder*, dengan setiap bagian terdiri dari beberapa lapisan yang identik. Setiap lapisan encoder dan decoder mengandung blok *multi-head attention* dan *feed-forward neural network*.
* **Keuntungan:** Komputasi yang sangat paralel (tidak ada dependensi rekuren), mampu menangani dependensi jarak jauh secara efektif, dan menjadi dasar untuk banyak model NLP *pre-trained* seperti BERT, GPT, dll.

### 6. Large Language Models (LLMs) (Model Bahasa Besar)

Model Transformer yang sangat besar, dilatih pada korpus teks yang sangat luas, disebut *Large Language Models* (LLMs). Ini adalah perkembangan paling signifikan di NLP dalam beberapa tahun terakhir.

* **Pre-training & Fine-tuning:** LLMs biasanya dilatih dengan proses dua tahap:
    1.  **Pre-training (Pelatihan Awal):** Model dilatih pada dataset teks yang masif (misalnya, seluruh internet) untuk tugas *unsupervised* seperti memprediksi kata berikutnya atau mengisi bagian yang hilang dalam kalimat. Ini memungkinkan model mempelajari representasi bahasa yang kaya.
    2.  **Fine-tuning (Penyetelan Halus):** Model yang sudah dilatih kemudian disetel pada dataset yang lebih kecil dan spesifik untuk tugas hilir (misalnya, klasifikasi sentimen, tanya jawab).
* **Transfer Learning:** LLMs memanfaatkan *transfer learning* secara ekstrem, memungkinkan kinerja *state-of-the-art* pada berbagai tugas dengan data spesifik tugas yang relatif sedikit.
* **Prompt Engineering:** Dengan LLMs, seringkali cukup dengan "meminta" model untuk melakukan tugas tertentu melalui *prompt* yang dirancang dengan cermat, tanpa perlu *fine-tuning* sama sekali (disebut *zero-shot* atau *few-shot learning*).

### 7. Kesimpulan

Bab 16 adalah pengantar penting untuk NLP dengan *deep learning*. Ini menjelaskan bagaimana kata-kata direpresentasikan secara numerik melalui *embeddings*, bagaimana RNN (dengan LSTM/GRU) dan arsitektur *encoder-decoder* digunakan untuk tugas-tugas *sequence-to-sequence*. Diskusi mendalam tentang mekanisme *Attention* dan arsitektur Transformer adalah kunci, karena mereka membentuk dasar dari perkembangan terkini di NLP, termasuk *Large Language Models*. Bab ini membuka pintu ke dunia yang kompleks dan menarik dari pemahaman dan pembuatan bahasa alami oleh mesin.

## 1. Setup

In [1]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd

### Loading and Preprocessing Data (Example: IMDB Reviews)

In [2]:
# The book often uses the IMDB dataset for sentiment analysis.
imdb = keras.datasets.imdb
(X_train_full, y_train_full), (X_test, y_test) = imdb.load_data()
word_index = imdb.get_word_index() # A dictionary mapping words to integer indices
id_to_word = {id_ + 3: word for word, id_ in word_index.items()}
for id_ in range(3): # For special tokens
    id_to_word[id_] = ["<pad>", "<sos>", "<unk>"][id_]
X_train_full = [
    np.array([id_to_word[word_id] for word_id in review])
    for review in X_train_full
]
X_test = [
    np.array([id_to_word[word_id] for word_id in review])
    for review in X_test
]

# For code reproducibility, let's create simple dummy data if actual dataset loading is not feasible.
# Maximum sequence length
max_len = 20
# Vocabulary size (e.g., top 10000 words + 3 special tokens)
vocab_size = 10000 + 3 # <pad>, <sos>, <unk>

# Dummy data for demonstration purposes
X_train_full = keras.preprocessing.sequence.pad_sequences(
    np.random.randint(0, vocab_size, size=(25000, max_len)),
    maxlen=max_len)
y_train_full = np.random.randint(0, 2, size=(25000,)) # Binary classification
X_test = keras.preprocessing.sequence.pad_sequences(
    np.random.randint(0, vocab_size, size=(5000, max_len)),
    maxlen=max_len)
y_test = np.random.randint(0, 2, size=(5000,))

X_valid, X_train = X_train_full[:2000], X_train_full[2000:]
y_valid, y_train = y_train_full[:2000], y_train_full[2000:]

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json
[1m1641221/1641221[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


## 2. Word Embeddings

In [3]:
# Embedding layer
embedding_dim = 100 # Example embedding dimension
model_embedding = keras.models.Sequential([
    keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_len),
    keras.layers.GlobalAveragePooling1D(), # Or GlobalMaxPooling1D, Flatten
    keras.layers.Dense(1, activation="sigmoid") # For binary classification
])



In [4]:
model_embedding.summary()

In [5]:
# Compile and train (example)
model_embedding.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
history_embedding = model_embedding.fit(X_train, y_train, epochs=10,
                                        validation_data=(X_valid, y_valid))

Epoch 1/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 14ms/step - accuracy: 0.4963 - loss: 0.6935 - val_accuracy: 0.5105 - val_loss: 0.6934
Epoch 2/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 14ms/step - accuracy: 0.6681 - loss: 0.6592 - val_accuracy: 0.5050 - val_loss: 0.7286
Epoch 3/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 13ms/step - accuracy: 0.7296 - loss: 0.5615 - val_accuracy: 0.5010 - val_loss: 0.8066
Epoch 4/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 15ms/step - accuracy: 0.7507 - loss: 0.5181 - val_accuracy: 0.5065 - val_loss: 0.8739
Epoch 5/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 14ms/step - accuracy: 0.7675 - loss: 0.4927 - val_accuracy: 0.5105 - val_loss: 0.9257
Epoch 6/10
[1m719/719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 14ms/step - accuracy: 0.7784 - loss: 0.4764 - val_accuracy: 0.5075 - val_loss: 0.9619
Epoch 7/10
[1m71

### Pre-trained Embeddings (Conceptual)

In [6]:
# !wget [http://nlp.stanford.edu/data/glove.6B.zip](http://nlp.stanford.edu/data/glove.6B.zip)
# !unzip -q glove.6B.zip

def load_glove_embeddings(filepath):
    embeddings_index = {}
    with open(filepath, encoding='utf-8') as f:
        for line in f:
            values = line.split()
            word = values[0]
            coefs = np.asarray(values[1:], dtype='float32')
            embeddings_index[word] = coefs
    return embeddings_index

glove_embedding_dim = 100
glove_filepath = 'glove.6B.100d.txt'

try:
    glove_embeddings = load_glove_embeddings(glove_filepath)
except FileNotFoundError:
    print(f"File GloVe tidak ditemukan di {glove_filepath}. Pastikan Anda sudah mengunduh dan mengekstraknya.")
    print("Melewatkan bagian pre-trained embeddings.")
    embedding_matrix_glove = None # Set to None to skip if file not found
else:
    # Build embedding matrix
    embedding_matrix_glove = np.zeros((vocab_size, glove_embedding_dim))
    for word, i in word_index.items():
        if i < vocab_size: # Only include words in our vocabulary
            embedding_vector = glove_embeddings.get(word)
            if embedding_vector is not None:
                embedding_matrix_glove[i] = embedding_vector

    print("Ukuran matriks embedding GloVe:", embedding_matrix_glove.shape)


if embedding_matrix_glove is not None:
    model_pretrained_embedding = keras.models.Sequential([
        keras.layers.Embedding(vocab_size, glove_embedding_dim,
                               weights=[embedding_matrix_glove],
                               trainable=False, # Freeze pre-trained weights
                               input_length=max_len),
        keras.layers.GlobalAveragePooling1D(),
        keras.layers.Dense(1, activation="sigmoid")
    ])

    model_pretrained_embedding.summary()

    # Compile and train
    model_pretrained_embedding.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
    history_pretrained = model_pretrained_embedding.fit(X_train, y_train, epochs=10,
                                                        validation_data=(X_valid, y_valid))
else:
    print("Tidak melatih model dengan pre-trained embeddings karena file GloVe tidak ditemukan.")

File GloVe tidak ditemukan di glove.6B.100d.txt. Pastikan Anda sudah mengunduh dan mengekstraknya.
Melewatkan bagian pre-trained embeddings.
Tidak melatih model dengan pre-trained embeddings karena file GloVe tidak ditemukan.


## 3. Encoder-Decoder Network for Machine Translation (Conceptual)

In [7]:
source_vocab_size = 1000
target_vocab_size = 1000
encoder_max_len = 15
decoder_max_len = 20
embedding_dim_mt = 64
rnn_units = 128

# Encoder
encoder_inputs = keras.layers.Input(shape=[None], dtype=tf.int32, name="encoder_inputs")
encoder_embedding = keras.layers.Embedding(source_vocab_size, embedding_dim_mt)(encoder_inputs)
encoder_outputs, state_h_enc, state_c_enc = keras.layers.LSTM(
    rnn_units, return_state=True, name="encoder_lstm"
)(encoder_embedding)
encoder_states = [state_h_enc, state_c_enc]

# Decoder
decoder_inputs = keras.layers.Input(shape=[None], dtype=tf.int32, name="decoder_inputs")
decoder_embedding = keras.layers.Embedding(target_vocab_size, embedding_dim_mt)(decoder_inputs)
decoder_lstm = keras.layers.LSTM(
    rnn_units, return_sequences=True, name="decoder_lstm"
)
decoder_outputs = decoder_lstm(decoder_embedding, initial_state=encoder_states)
decoder_dense = keras.layers.Dense(target_vocab_size, activation="softmax", name="decoder_output")
decoder_outputs = decoder_dense(decoder_outputs)

# Model
model_encoder_decoder = keras.models.Model(inputs=[encoder_inputs, decoder_inputs],
                                           outputs=decoder_outputs)

model_encoder_decoder.summary()

# --- Kompilasi dan Pelatihan (Menggunakan data dummy) ---
# Untuk pelatihan nyata, y_true_decoder akan menjadi shifted target sequence
# (misalnya, [SOS, w1, w2, ..., wN] sebagai input, dan [w1, w2, ..., wN, EOS] sebagai target)
dummy_encoder_input_data = np.random.randint(0, source_vocab_size, size=(100, encoder_max_len))
dummy_decoder_input_data = np.random.randint(0, target_vocab_size, size=(100, decoder_max_len))
dummy_decoder_target_data = np.random.randint(0, target_vocab_size, size=(100, decoder_max_len)) # Example: one-hot encoded or integer labels

model_encoder_decoder.compile(optimizer="rmsprop", loss="sparse_categorical_crossentropy") # For integer targets
model_encoder_decoder.fit([dummy_encoder_input_data, dummy_decoder_input_data], dummy_decoder_target_data, epochs=5)

Epoch 1/5
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 70ms/step - loss: 6.9077
Epoch 2/5
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 66ms/step - loss: 6.9048
Epoch 3/5
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 67ms/step - loss: 6.9028
Epoch 4/5
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 63ms/step - loss: 6.9009
Epoch 5/5
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 67ms/step - loss: 6.8992


<keras.src.callbacks.history.History at 0x78ae243e1d10>

## 4. Attention Mechanisms (Conceptual)

In [8]:
# Attention mechanisms are often integrated within Encoder-Decoder models.
# TensorFlow 2.x provides `keras.layers.Attention` and `keras.layers.MultiHeadAttention`.

# Example of a simple Attention layer (conceptual, requires specific context/inputs):
# from keras.layers import Attention

# Query = decoder_output # e.g., output of a decoder GRU
# Value = encoder_outputs # e.g., sequence of outputs from encoder GRU (return_sequences=True)

# attention_output = Attention()([Query, Value])
# Then concatenate attention_output with Query for next step.