In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, GRU, Dense, Embedding, Dropout
from tensorflow.keras.optimizers import Adam


In [5]:
# Data dummy: mengganti dengan dataset nyata dalam aplikasi nyata
input_texts = ["how are you?"]
target_texts = ["comment vas-tu?"]

# Membuat tokenizer
input_tokenizer = tf.keras.preprocessing.text.Tokenizer()
target_tokenizer = tf.keras.preprocessing.text.Tokenizer()

# Fit tokenizer pada data
input_tokenizer.fit_on_texts(input_texts)
target_tokenizer.fit_on_texts(target_texts)

# Konversi teks menjadi urutan angka
input_sequences = input_tokenizer.texts_to_sequences(input_texts)
target_sequences = target_tokenizer.texts_to_sequences(target_texts)

# Tambahkan token khusus <start> dan <end> ke target_texts
target_texts = ["<start> " + text + " <end>" for text in target_texts]

# Tokenizer tetap sama
target_tokenizer = tf.keras.preprocessing.text.Tokenizer()
target_tokenizer.fit_on_texts(target_texts)

# Konversi teks menjadi urutan angka
target_sequences = target_tokenizer.texts_to_sequences(target_texts)

# Padding
max_input_len = max(len(seq) for seq in input_sequences)
max_target_len = max(len(seq) for seq in target_sequences)

input_sequences = tf.keras.preprocessing.sequence.pad_sequences(input_sequences, maxlen=max_input_len, padding='post')
target_sequences = tf.keras.preprocessing.sequence.pad_sequences(target_sequences, maxlen=max_target_len, padding='post')

# Split input dan output untuk decoder
decoder_input_sequences = target_sequences[:, :-1]
decoder_target_sequences = target_sequences[:, 1:]

# Hyperparameters
vocab_size_input = len(input_tokenizer.word_index) + 1
vocab_size_target = len(target_tokenizer.word_index) + 1
embedding_dim = 256
hidden_dim = 512


In [6]:
# Encoder
encoder_inputs = Input(shape=(None,), name="encoder_inputs")
encoder_embedding = Embedding(vocab_size_input, embedding_dim, name="encoder_embedding")(encoder_inputs)
encoder_gru = GRU(hidden_dim, return_state=True, name="encoder_gru")  # Replace GRU with LSTM if needed
encoder_outputs, encoder_state = encoder_gru(encoder_embedding)

# Decoder
decoder_inputs = Input(shape=(None,), name="decoder_inputs")
decoder_embedding = Embedding(vocab_size_target, embedding_dim, name="decoder_embedding")(decoder_inputs)
decoder_gru = GRU(hidden_dim, return_sequences=True, return_state=True, name="decoder_gru")
decoder_outputs, _ = decoder_gru(decoder_embedding, initial_state=encoder_state)
decoder_dense = Dense(vocab_size_target, activation="softmax", name="decoder_dense")
decoder_outputs = decoder_dense(decoder_outputs)

# Model
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer=Adam(learning_rate=0.001), loss="sparse_categorical_crossentropy", metrics=["accuracy"])
model.summary()


In [8]:
# Train the model tanpa validation_split
history = model.fit(
    [input_sequences, decoder_input_sequences],
    decoder_target_sequences,
    batch_size=32,
    epochs=10,
)


Epoch 1/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 4s/step - accuracy: 0.2000 - loss: 1.9430
Epoch 2/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 83ms/step - accuracy: 1.0000 - loss: 1.8632
Epoch 3/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 140ms/step - accuracy: 1.0000 - loss: 1.7811
Epoch 4/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 141ms/step - accuracy: 1.0000 - loss: 1.6895
Epoch 5/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 81ms/step - accuracy: 1.0000 - loss: 1.5818
Epoch 6/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 149ms/step - accuracy: 1.0000 - loss: 1.4504
Epoch 7/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 143ms/step - accuracy: 1.0000 - loss: 1.2875
Epoch 8/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 137ms/step - accuracy: 1.0000 - loss: 1.0880
Epoch 9/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m

In [9]:
# Encoder model for inference
encoder_model = Model(encoder_inputs, encoder_state)

# Decoder model for inference
decoder_state_input = Input(shape=(hidden_dim,))
decoder_outputs, decoder_state = decoder_gru(decoder_embedding, initial_state=decoder_state_input)
decoder_outputs = decoder_dense(decoder_outputs)
decoder_model = Model([decoder_inputs, decoder_state_input], [decoder_outputs, decoder_state])

# Function to decode sequence
def decode_sequence(input_seq):
    state_value = encoder_model.predict(input_seq)
    target_seq = np.zeros((1, 1))
    target_seq[0, 0] = start_token

    decoded_sentence = ""
    while True:
        output_tokens, state_value = decoder_model.predict([target_seq, state_value])
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_word = target_tokenizer.index_word[sampled_token_index]
        decoded_sentence += " " + sampled_word

        if sampled_word == "<end>" or len(decoded_sentence.split()) > max_target_len:
            break

        target_seq[0, 0] = sampled_token_index

    return decoded_sentence


In [20]:
# Tentukan ID untuk token <start> dan <end>
START_TOKEN_ID = 1
END_TOKEN_ID = 2

# Tambahkan token ID ini secara manual ke urutan target
target_sequences = [[START_TOKEN_ID] + seq + [END_TOKEN_ID] for seq in target_sequences]

# Lakukan padding ulang setelah menambahkan token
target_sequences = tf.keras.preprocessing.sequence.pad_sequences(target_sequences, maxlen=max_target_len, padding='post')

# Pisahkan decoder input dan target
decoder_input_sequences = [seq[:-1] for seq in target_sequences]
decoder_target_sequences = [seq[1:] for seq in target_sequences]

decoder_input_sequences = np.array(decoder_input_sequences)
decoder_target_sequences = np.array(decoder_target_sequences)


In [21]:
def decode_sequence(input_seq):
    state_value = encoder_model.predict(input_seq)
    target_seq = np.zeros((1, 1))
    target_seq[0, 0] = START_TOKEN_ID  # Gunakan ID tetap untuk token awal

    decoded_sentence = ""
    while True:
        output_tokens, state_value = decoder_model.predict([target_seq, state_value])
        sampled_token_index = np.argmax(output_tokens[0, -1, :])

        # Cegah error jika ID tidak ditemukan
        sampled_word = target_tokenizer.index_word.get(sampled_token_index, "<UNK>")
        decoded_sentence += " " + sampled_word

        if sampled_token_index == END_TOKEN_ID or len(decoded_sentence.split()) > max_target_len:
            break

        target_seq[0, 0] = sampled_token_index

    return decoded_sentence


In [22]:
# Test decoding
test_input = input_sequences[0:1]
decoded_output = decode_sequence(test_input)
print("Decoded output:", decoded_output)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 254ms/step
Decoded output:  end


In [30]:
from nltk.translate.bleu_score import sentence_bleu

reference = ["<start> ravi de vous rencontrer <end>".split()]
candidate = decoded_output.split()
bleu_score = sentence_bleu([reference], candidate)
print("BLEU Score:", bleu_score)


TypeError: unhashable type: 'list'

# Analisi
**1. Bagaimana cara memodifikasi laju pembelajaran (learning rate) dan ukuran batch untuk  meningkatkan kinerja model sequence-to-sequence?**

pada kode diatas laju pembelajaran (learning rate) ditentukan di bagian Adam(learning_rate=0.001). Ukuran batch didefinisikan sebagai (batch_size=32)

**2. Jalankan eksperimen tanpa menggunakan regularisasi dropout. Perubahan apa yang Anda  amati dalam kinerja model? Mengapa hal ini bisa terjadi?**

Tidak ada regularisasi dropout yang diterapkan dalam model ini. Tanpa dropout, model Anda menunjukkan konvergensi cepat (dari accuracy: 0.2 ke accuracy: 1.0 dalam beberapa epoch), tetapi ini bisa menyebabkan overfitting pada dataset besar. Dropout membantu generalisasi dengan mencegah jaringan terlalu bergantung pada subset neuron tertentu. Tanpa dropout, model lebih cenderung menghafal data pelatihan daripada mempelajari pola umum.

**3. Jika encoder menggunakan lapisan bidirectional tetapi decoder tidak, bagaimana Anda dapat  menyesuaikan decoder untuk menangani perbedaan arsitektur ini? **

Pada encoder, ketika menggunakan lapisan bidirectional (seperti Bidirectional GRU), output dari encoder terdiri dari dua state, yaitu state maju (forward) dan mundur (backward), yang perlu digabungkan menjadi satu vektor. Oleh karena itu, ukuran state encoder menjadi dua kali lipat dibandingkan dengan keadaan unidirectional. Untuk menyesuaikan hal ini, pada decoder, Anda harus menggandakan ukuran dimensi tersembunyi (hidden dimension) GRU pada decoder, sehingga dapat menangani ukuran state yang lebih besar. Dengan demikian, decoder GRU perlu disesuaikan dengan ukuran dua kali lipat dari dimensi tersembunyi pada encoder, yaitu hidden_dim * 2, untuk memastikan kompatibilitas antara encoder dan decoder dalam model seq2seq.


**4. Pada proses pelatihan, ganti teacher forcing dengan pendekatan scheduled sampling. Apa  dampaknya terhadap konvergensi dan kinerja model?**

- Teacher forcing: Memberikan token target aktual sebagai input selama pelatihan, mempercepat konvergensi.
- Scheduled sampling: Mencampur penggunaan token target dan prediksi model secara bertahap, mengurangi ketergantungan pada token target.
Dampak nya yaitu Konvergensi lebih lambat dibandingkan teacher forcing penuh. Model menjadi lebih robust selama inferensi, karena terbiasa menangani kesalahan prediksi sebelumnya. Scheduled sampling membantu generalisasi tetapi membutuhkan waktu pelatihan lebih lama.


**5. Cobalah mengganti LSTM dengan GRU dalam model sequence-to-sequence. Perbedaan apa  yang Anda perhatikan dalam hasilnya?**

pada model diatas sudah mengganti GRu dengan LSTM dimana kedua metode memiliki perbedaan yaitu GRU: Lebih cepat dan ringan secara komputasi karena hanya memiliki dua gate (update dan reset).
LSTM: Lebih kompleks, dapat menangkap dependensi jangka panjang lebih baik dengan tiga gate (input, forget, dan output). Untuk dataset kecil, GRU cenderung lebih efisien, sementara LSTM lebih baik untuk dataset dengan dependensi panjang.

**6. Bagaimana skor evaluasi BLEU dari data di atas?**

Jika model Anda menghasilkan terjemahan yang sempurna (contoh: "ravi de vous rencontrer <end>"), skor BLEU akan mendekati 1.0. Skor lebih rendah menunjukkan kesalahan dalam prediksi token.