### 1. Setup

In [1]:
# Memastikan versi Python yang digunakan adalah 3.5 atau lebih tinggi
import sys
assert sys.version_info >= (3, 5)

# Memeriksa apakah notebook dijalankan di lingkungan Colab atau Kaggle
IS_COLAB = "google.colab" in sys.modules
IS_KAGGLE = "kaggle_secrets" in sys.modules

# Jika di Colab, install library tambahan yang diperlukan
if IS_COLAB:
    # %pip install -q -U tensorflow-addons
    # %pip install -q -U transformers
    print("Menjalankan di Colab, library tambahan (jika diperlukan) akan diinstal.")

# Memastikan versi Scikit-Learn yang digunakan adalah 0.20 atau lebih tinggi
import sklearn
assert sklearn.__version__ >= "0.20"

# Memastikan versi TensorFlow yang digunakan adalah 2.0 atau lebih tinggi
import tensorflow as tf
from tensorflow import keras
assert tf.__version__ >= "2.0"

# Memberi peringatan jika GPU tidak terdeteksi karena dapat memperlambat training
if not tf.config.list_physical_devices('GPU'):
    print("Tidak ada GPU yang terdeteksi. Proses training LSTM dan CNN bisa sangat lambat.")
    if IS_COLAB:
        print("Buka Runtime > Change runtime type dan pilih GPU hardware accelerator.")
    if IS_KAGGLE:
        print("Buka Settings > Accelerator dan pilih GPU.")

# Impor library umum lainnya
import numpy as np
import os

# Mengatur seed untuk NumPy dan TensorFlow agar hasilnya konsisten dan dapat direproduksi
np.random.seed(42)
tf.random.set_seed(42)

2025-06-20 21:46:50.711864: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1750430810.791495  226720 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1750430810.821319  226720 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-06-20 21:46:50.915277: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: SSE4.1 SSE4.2 AVX AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


### 2. Char-RNN (Character-Level Recurrent Neural Network)

In [5]:
# --- 2.1 Memuat dan Menyiapkan Dataset ---
print("\n--- Memulai Bagian Char-RNN ---")

# Mengunduh dataset teks Shakespeare
shakespeare_url = "https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

shakespeare_text = shakespeare_text[:50000]  # Ambil hanya 50.000 karakter pertama


# Membuat tokenizer untuk mengubah teks menjadi urutan integer (sekuens)
# char_level=True berarti tokenisasi dilakukan per karakter
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)
tokenizer.fit_on_texts(shakespeare_text)

# Mengubah seluruh teks menjadi sekuens dan mengurangi 1 agar indeks dimulai dari 0
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1

# Membagi data menjadi 90% untuk training
train_size = int(len(encoded) * 0.9)
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

# Menyiapkan dataset untuk model sekuens-ke-sekuens
n_steps = 50
window_length = n_steps + 1
dataset = dataset.window(window_length, shift=1, drop_remainder=True)
dataset = dataset.flat_map(lambda window: window.batch(window_length))

# Mengacak, membuat batch, dan memetakan data menjadi (input, target)
batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size)
dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))

# Mengubah input menjadi one-hot encoding
max_id = len(tokenizer.word_index)
dataset = dataset.map(lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))
dataset = dataset.prefetch(1)


--- Memulai Bagian Char-RNN ---


In [6]:
# --- 2.2 Membuat dan Melatih Model ---
# Model ini terdiri dari dua lapisan GRU dan satu lapisan output TimeDistributed
# untuk memprediksi karakter berikutnya pada setiap langkah waktu.
model_char_rnn = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id], dropout=0.2),
    keras.layers.GRU(128, return_sequences=True, dropout=0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id, activation="softmax"))
])

model_char_rnn.compile(loss="sparse_categorical_crossentropy", optimizer="adam")
print("Memulai training model Char-RNN...")
# Mengurangi epoch untuk demonstrasi cepat
history_char_rnn = model_char_rnn.fit(dataset, epochs=1)

# --- 2.3 Menggunakan Model untuk Menghasilkan Teks ---
# Fungsi untuk memproses teks input sebelum dimasukkan ke model
def preprocess(texts):
    X = np.array(tokenizer.texts_to_sequences(texts)) - 1
    return tf.one_hot(X, depth=max_id)

# Fungsi untuk menghasilkan karakter berikutnya dengan variasi (temperature)
def next_char(text, temperature=1):
    X_new = preprocess([text])
    y_proba = model_char_rnn(X_new)[0, -1:, :]
    rescaled_logits = tf.math.log(y_proba) / temperature
    char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1
    return tokenizer.sequences_to_texts(char_id.numpy())[0]

# Fungsi untuk melengkapi teks dengan memanggil next_char berulang kali
def complete_text(text, n_chars=50, temperature=1):
    for _ in range(n_chars):
        text += next_char(text, temperature)
    return text

# Menghasilkan teks dengan suhu yang berbeda untuk melihat kreativitas model
tf.random.set_seed(42)
print("\n--- Contoh Teks yang Dihasilkan ---")
print("Suhu 0.2 (konservatif):", complete_text("t", temperature=0.2))
print("Suhu 1.0 (seimbang):", complete_text("t", temperature=1))
print("Suhu 2.0 (kreatif/kacau):", complete_text("t", temperature=2))

Memulai training model Char-RNN...
[1m1405/1405[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m185s[0m 125ms/step - loss: 2.4171

--- Contoh Teks yang Dihasilkan ---


2025-06-20 21:51:48.986761: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
	 [[{{node IteratorGetNext}}]]
	 [[IteratorGetNext/_2]]
2025-06-20 21:51:48.986840: I tensorflow/core/framework/local_rendezvous.cc:424] Local rendezvous recv item cancelled. Key hash: 3242550056011346075
2025-06-20 21:51:48.986852: I tensorflow/core/framework/local_rendezvous.cc:428] Local rendezvous send item cancelled. Key hash: 3437443392836736613
2025-06-20 21:51:48.986862: I tensorflow/core/framework/local_rendezvous.cc:424] Local rendezvous recv item cancelled. Key hash: 4380480487630059913
2025-06-20 21:51:48.986869: I tensorflow/core/framework/local_rendezvous.cc:424] Local rendezvous recv item cancelled. Key hash: 7333056241386358457
2025-06-20 21:51:48.986877: I tensorflow/core/framework/local_rendezvous.cc:424] Local rendezvous recv item cancelled. Key hash: 18397756847690952389
2025-06-20 21:51:48.986887: I tensorflow/core

Suhu 0.2 (konservatif): the forse the partions to the partion, the condring
Suhu 1.0 (seimbang): tove, by
loreichen hobper, so, i thanes that him, t
Suhu 2.0 (kreatif/kacau): tpenabme. for'he!-good sheefhe.

columala:
ca!
ieem


### 3. Analisis Sentimen

In [11]:
print("\n--- Memulai Bagian Analisis Sentimen ---")

import os
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
import tensorflow_hub as hub
import tensorflow_datasets as tfds

# --- 1. Memuat dan Memproses Data IMDB (integer encoded) ---
print("Memuat data IMDB dari keras.datasets...")

# Hanya ambil 10.000 kata yang paling sering muncul
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

# Padding agar panjang seragam
train_data = pad_sequences(train_data, maxlen=256)
test_data = pad_sequences(test_data, maxlen=256)

# --- 2. Membuat dan Melatih Model Analisis Sentimen (dengan GRU) ---
vocab_size = 10000
embed_size = 128

model_sentiment = keras.Sequential([
    keras.layers.Embedding(vocab_size, embed_size, input_length=256),
    keras.layers.GRU(64, return_sequences=True),
    keras.layers.GRU(64),
    keras.layers.Dense(1, activation="sigmoid")
])

model_sentiment.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

print("Melatih model berbasis GRU...")
history_sentiment = model_sentiment.fit(
    train_data, train_labels,
    epochs=2,  # Dipersingkat untuk demonstrasi
    batch_size=32,
    validation_data=(test_data, test_labels)
)



--- Memulai Bagian Analisis Sentimen ---
Memuat data IMDB dari keras.datasets...
Melatih model berbasis GRU...
Epoch 1/2
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m64s[0m 78ms/step - accuracy: 0.7202 - loss: 0.5194 - val_accuracy: 0.8621 - val_loss: 0.3303
Epoch 2/2
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m66s[0m 85ms/step - accuracy: 0.8947 - loss: 0.2605 - val_accuracy: 0.8735 - val_loss: 0.2992


### 4. Terjemahan Otomatis (Automatic Translation)

In [19]:
print("\n--- Memulai Bagian Terjemahan Otomatis (Implementasi Keras Standar) ---")
print("\n--- Menggunakan Implementasi Keras Standar karena tensorflow-addons sudah tidak update lagi, tidak support python (3.12) dan tensorflow terbaru (2.18.0) ---")
tf.random.set_seed(42)

# --- 4.1 Model Encoder-Decoder Standar (Tanpa TFA) ---
vocab_size_trans = 100
embed_size_trans = 10
lstm_units = 512

# Input untuk encoder dan decoder
encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32, name="encoder_inputs")
decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32, name="decoder_inputs")

# Lapisan embedding bersama dengan masking untuk menangani padding (input 0)
# mask_zero=True secara otomatis akan mengabaikan langkah waktu dengan input 0
shared_embeddings = keras.layers.Embedding(vocab_size_trans, embed_size_trans, mask_zero=True)
encoder_embeddings = shared_embeddings(encoder_inputs)
decoder_embeddings = shared_embeddings(decoder_inputs)

# Encoder: LSTM yang mengembalikan state terakhirnya (thought vector)
# Bagian ini sama seperti sebelumnya
encoder = keras.layers.LSTM(lstm_units, return_state=True)
# Kita tidak memerlukan output encoder (hanya state-nya)
_, state_h, state_c = encoder(encoder_embeddings)
encoder_state = [state_h, state_c]

# Decoder: LSTM yang menerima state dari encoder sebagai initial_state
# return_sequences=True agar menghasilkan output untuk setiap langkah waktu
decoder_lstm = keras.layers.LSTM(lstm_units, return_sequences=True)
# Inisialisasi state decoder dengan state akhir dari encoder
decoder_outputs = decoder_lstm(decoder_embeddings, initial_state=encoder_state)

# Lapisan output
# Lapisan Dense akan secara otomatis diterapkan pada setiap langkah waktu
output_layer = keras.layers.Dense(vocab_size_trans, activation="softmax")
Y_proba = output_layer(decoder_outputs)

# Menggabungkan menjadi model Keras
# Model ini tidak lagi memerlukan input 'sequence_lengths' karena masking
model_translate = keras.models.Model(
    inputs=[encoder_inputs, decoder_inputs],
    outputs=[Y_proba])

model_translate.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
model_translate.summary()

from tensorflow.keras.preprocessing.sequence import pad_sequences

# Buat data dummy variatif panjang lalu pad ke kanan
raw_X = [np.random.randint(1, 100, size=np.random.randint(5, 10)) for _ in range(1000)]
raw_Y = [np.random.randint(1, 100, size=np.random.randint(6, 15)) for _ in range(1000)]

# Membuat data dummy untuk training
X = pad_sequences(raw_X, maxlen=10, padding="post")
Y = pad_sequences(raw_Y, maxlen=15, padding="post")
X_decoder = np.c_[np.zeros((1000, 1), dtype=int), Y[:, :-1]]

# Input decoder untuk teacher forcing: token <start> (diasumsikan 0) + target sequence tanpa token terakhir
X_decoder = np.c_[np.zeros((1000, 1)), Y[:, :-1]]

print("\nMemulai training model Terjemahan Otomatis (dengan data dummy)...")
# Mengurangi epoch untuk demonstrasi cepat
history_translate = model_translate.fit([X, X_decoder], Y, epochs=5, batch_size=64)



# --- 4.2 Positional Encoding dan Transformer ---
# Konsep penting dalam arsitektur Transformer yang menggantikan RNN

# Kelas untuk membuat Positional Encoding
class PositionalEncoding(keras.layers.Layer):
    def __init__(self, max_steps, max_dims, dtype=tf.float32, **kwargs):
        super().__init__(dtype=dtype, **kwargs)
        if max_dims % 2 == 1: max_dims += 1
        p, i = np.meshgrid(np.arange(max_steps), np.arange(max_dims // 2))
        pos_emb = np.empty((1, max_steps, max_dims))
        pos_emb[0, :, ::2] = np.sin(p / 10000**(2 * i / max_dims)).T
        pos_emb[0, :, 1::2] = np.cos(p / 10000**(2 * i / max_dims)).T
        self.positional_embedding = tf.constant(pos_emb.astype(self.dtype))
    def call(self, inputs):
        shape = tf.shape(inputs)
        return inputs + self.positional_embedding[:, :shape[-2], :shape[-1]]

# Kelas untuk Blok Decoder Transformer yang Lengkap
# Ini mencakup Masked Multi-Head Attention, Encoder-Decoder Attention, dan Feed-Forward Network.
class TransformerDecoderBlock(keras.layers.Layer):
    def __init__(self, embed_dim, num_heads, ff_dim, rate=0.1, **kwargs):
        super().__init__(**kwargs)
        # Lapisan-lapisan yang dibutuhkan
        self.mha_self = keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)
        self.mha_enc_dec = keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)
        self.ffn = keras.Sequential([
            keras.layers.Dense(ff_dim, activation="relu"),
            keras.layers.Dense(embed_dim)
        ])
        self.layernorm1 = keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm3 = keras.layers.LayerNormalization(epsilon=1e-6)
        self.dropout1 = keras.layers.Dropout(rate)
        self.dropout2 = keras.layers.Dropout(rate)
        self.dropout3 = keras.layers.Dropout(rate)

    def call(self, inputs, encoder_outputs):
        # inputs: input untuk decoder
        # encoder_outputs: output dari encoder (untuk key dan value)

        # 1. Masked Multi-Head Self-Attention (query, value, key berasal dari decoder)
        # 'use_causal_mask=True' memastikan decoder tidak bisa "melihat" token di masa depan
        attn_self_output = self.mha_self(
            query=inputs, value=inputs, key=inputs, use_causal_mask=True)
        attn_self_output = self.dropout1(attn_self_output)
        # Koneksi residual pertama (Add & Norm)
        out1 = self.layernorm1(inputs + attn_self_output)

        # 2. Encoder-Decoder Attention (query dari decoder, key & value dari encoder)
        attn_enc_dec_output = self.mha_enc_dec(
            query=out1, value=encoder_outputs, key=encoder_outputs)
        attn_enc_dec_output = self.dropout2(attn_enc_dec_output)
        # Koneksi residual kedua (Add & Norm)
        out2 = self.layernorm2(out1 + attn_enc_dec_output)

        # 3. Feed-Forward Network
        ffn_output = self.ffn(out2)
        ffn_output = self.dropout3(ffn_output)
        # Koneksi residual ketiga (Add & Norm)
        return self.layernorm3(out2 + ffn_output)

# Arsitektur Transformer (Sangat Disederhanakan)
embed_size_transformer = 512
max_steps_transformer = 500
vocab_size_transformer = 10000
num_heads = 8 # Jumlah attention heads
ff_dim = 2048 # Dimensi hidden layer di Feed-Forward Network

encoder_inputs_tr = keras.layers.Input(shape=[None], dtype=np.int32)
decoder_inputs_tr = keras.layers.Input(shape=[None], dtype=np.int32)

embeddings_tr = keras.layers.Embedding(vocab_size_transformer, embed_size_transformer)
encoder_embeddings_tr = embeddings_tr(encoder_inputs_tr)
decoder_embeddings_tr = embeddings_tr(decoder_inputs_tr)

positional_encoding = PositionalEncoding(max_steps_transformer, max_dims=embed_size_transformer)
encoder_in = positional_encoding(encoder_embeddings_tr)
decoder_in = positional_encoding(decoder_embeddings_tr)

# Blok Encoder Transformer (sederhana, menggunakan MultiHeadAttention)
Z_encoder = encoder_in
for N in range(6):
    attn_output = keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_size_transformer)(Z_encoder, Z_encoder)
    Z_encoder = keras.layers.LayerNormalization(epsilon=1e-6)(Z_encoder + attn_output)

encoder_outputs_tr = Z_encoder

# Blok Decoder Transformer menggunakan custom layer yang sudah dibuat
Z_decoder = decoder_in
for N in range(6):
    # Membuat instance dari blok decoder
    decoder_block = TransformerDecoderBlock(embed_dim=embed_size_transformer, num_heads=num_heads, ff_dim=ff_dim)
    # Memanggil blok dengan input yang sesuai
    Z_decoder = decoder_block(Z_decoder, encoder_outputs_tr)

# ======================== AKHIR BLOK PERBAIKAN =======================

# Lapisan output akhir
outputs = keras.layers.TimeDistributed(
    keras.layers.Dense(vocab_size_transformer, activation="softmax"))(Z_decoder)

# Model Transformer yang disederhanakan (tidak dilatih)
model_transformer = keras.Model(inputs=[encoder_inputs_tr, decoder_inputs_tr], outputs=[outputs])
print("\n--- Ringkasan Model Transformer Sederhana ---")
model_transformer.summary()


--- Memulai Bagian Terjemahan Otomatis (Implementasi Keras Standar) ---

--- Menggunakan Implementasi Keras Standar karena tensorflow-addons sudah tidak update lagi, tidak support python (3.12) dan tensorflow terbaru (2.18.0) ---



Memulai training model Terjemahan Otomatis (dengan data dummy)...
Epoch 1/5
[1m16/16[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 36ms/step - accuracy: 0.2625 - loss: 4.5403
Epoch 2/5
[1m16/16[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step - accuracy: 0.3303 - loss: 4.3806
Epoch 3/5
[1m16/16[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step - accuracy: 0.3303 - loss: 4.3778
Epoch 4/5
[1m16/16[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step - accuracy: 0.3303 - loss: 4.3760
Epoch 5/5
[1m16/16[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step - accuracy: 0.3303 - loss: 4.3742

--- Ringkasan Model Transformer Sederhana ---


#  Penjelasan

Notebook ini mengeksplorasi penggunaan model Recurrent Neural Networks (RNN) dan Attention untuk tiga tugas utama NLP: **generasi teks**, **analisis sentimen**, dan **terjemahan otomatis**. Setiap bagian menampilkan arsitektur dan hasil yang dicapai, serta perbandingan singkat antar metode.

---

##  1. Char-RNN untuk Generasi Teks

Model ini mempelajari gaya bahasa dari teks karya *Shakespeare* dan digunakan untuk menghasilkan teks baru dengan pendekatan level karakter.

- **Arsitektur**: Dua lapisan GRU yang ditumpuk, menerima input one-hot dari sekuens karakter.
- **Hasil**:
  - Setelah hanya 1 epoch, model dapat meniru gaya sintaksis Shakespeare.
  - **Pengaruh parameter temperature** saat sampling:
    - `0.2`: Teks repetitif dan aman → `"the forse the partions to the partion"`
    - `1.0`: Kreatif dan koheren → `"tove, by loreichen hobper, so, i thanes that him"`
    - `2.0`: Acak dan tidak stabil → `"tpenabme. for'he!-good sheefhe"`
- **Kesimpulan**: Char-RNN mampu belajar pola karakter dalam teks dan menghasilkan sekuens sintaksis yang menyerupai gaya aslinya.

---

##  2. Analisis Sentimen IMDB

Tugas klasifikasi biner: menentukan apakah ulasan film bersentimen positif atau negatif.

- **Arsitektur**:
  - `Embedding layer` → dua lapisan `GRU` → `Dense layer` dengan sigmoid.
- **Hasil**:
  - Akurasi validasi: **87.35%** dalam hanya 2 epoch.
- **Kesimpulan**: GRU efektif dalam menangkap pola sekuensial dan sangat cocok untuk klasifikasi teks. Penggunaan embedding memperkaya representasi input.

---

##  3. Terjemahan Otomatis (Demo)

Bagian ini menunjukkan dua pendekatan untuk tugas sequence-to-sequence. Tujuannya adalah **demonstrasi arsitektur**, bukan pelatihan serius.

###  Encoder–Decoder (LSTM)
- **Struktur**: Encoder menghasilkan *thought vector*, decoder menghasilkan urutan output.
- **Catatan**: Implementasi menggunakan API Keras terbaru dan dapat dilatih di data dummy.

###  Transformer (Sederhana)
- **Fitur utama**:
  - `PositionalEncoding` untuk informasi posisi token
  - `MultiHeadAttention` untuk perhatian paralel
  - `TransformerDecoderBlock` dengan masked attention & FFN
- **Status**: Arsitektur berhasil dibangun dan direview, namun belum dilatih.

---

##  Tabel Perbandingan Arsitektur

| Tugas            | Arsitektur                | Hasil Kunci                                                                 |
|------------------|---------------------------|------------------------------------------------------------------------------|
| Generasi Teks    | Stacked GRU (Char-RNN)    | Teks mirip Shakespeare, pengaturan temperature memengaruhi kreativitas      |
| Analisis Sentimen| Embedding + Stacked GRU   | Akurasi validasi **87.35%**                                                 |
| Terjemahan (Demo)| Encoder–Decoder (LSTM)    | Arsitektur berhasil diimplementasikan di Keras API terbaru                  |
| Terjemahan (Demo)| Transformer               | Arsitektur modern berhasil dibangun (tanpa pelatihan)                       |

---

## Kesimpulan Umum

- **GRU dan RNN** sangat fleksibel dan efektif untuk tugas-tugas seperti generasi teks & klasifikasi.
- **Embedding** memegang peranan penting dalam merepresentasikan makna kata.
- Untuk tugas kompleks seperti **machine translation**, pendekatan Encoder–Decoder dan Transformer menjadi pondasi penting.
- **Transformer**, meskipun tidak dilatih dalam notebook, menunjukkan kemampuannya sebagai arsitektur standar industri dalam pemrosesan sekuens modern.

---