# Chapter 10: NLP with TensorFlow â€“ Language Modeling

Bab ini membahas dasar-dasar *Language Modeling*, yaitu kemampuan model untuk memprediksi kata berikutnya dalam sebuah urutan teks, serta bagaimana mengukur kualitas teks yang dihasilkan oleh AI.

---

## 10.1 Konsep Language Modeling
*Language Modeling* adalah tugas inti dalam NLP yang bertujuan menghitung probabilitas sebuah kata muncul setelah urutan kata tertentu.
* **Tujuan**: Membangun model yang memahami struktur bahasa sehingga dapat menghasilkan kalimat yang koheren.
* **Trainable Parameters**: Model belajar dari korpus teks besar untuk menyesuaikan bobot (parameter) agar prediksi kata berikutnya semakin akurat.

---

## 10.2 Pendekatan N-grams
Sebelum era Deep Learning, N-grams adalah metode standar untuk memodelkan bahasa.
* **Mekanisme**: Membagi teks menjadi potongan-potongan kecil dengan panjang $N$ (misal: *Bigram* untuk 2 kata, *Trigram* untuk 3 kata).
* **Karakteristik**: Bisa dibuat saling tumpang tindih (*overlapping*) untuk menangkap transisi antar kata, namun sulit menangkap hubungan jarak jauh dalam kalimat.

---

## 10.3 Tokenisasi & Pipeline tf.data
Proses pengolahan data untuk *Language Modeling* memerlukan persiapan khusus:
* **Tokenizing**: Memecah kalimat menjadi token (kata/karakter) dan memberikan ID unik untuk setiap token.
* **Windowing**: Menggunakan `tf.data.Dataset.window()` untuk menciptakan potongan sekuens teks bergeser.
    * Contoh: Dari kalimat "Saya belajar TensorFlow", model dibuat belajar bahwa "Saya" memprediksi "belajar", dan "Saya belajar" memprediksi "TensorFlow".
* **Flattening**: Mengubah struktur *windowed data* yang kompleks menjadi dataset satu dimensi yang siap diproses oleh model.

---

## 10.4 Generating Text dengan GRU (Gated Recurrent Units)
GRU adalah variasi dari RNN yang lebih efisien daripada LSTM karena memiliki arsitektur yang lebih sederhana namun tetap mampu menangani masalah memori jangka pendek.
* **Update Gate**: Menentukan seberapa banyak informasi dari *hidden state* sebelumnya yang harus disimpan untuk masa depan.
* **Reset Gate**: Menentukan seberapa banyak informasi masa lalu yang harus dilupakan.
* **Keunggulan**: Memerlukan parameter lebih sedikit dan waktu komputasi yang lebih cepat dibandingkan LSTM, namun dengan performa yang bersaing.



---

## 10.5 Mengukur Kualitas Teks: Perplexity
Bagaimana kita tahu model bahasa itu "pintar"?
* **Entropi**: Mengukur tingkat ketidakpastian atau informasi dalam sebuah urutan kata.
* **Perplexity**: Metrik evaluasi utama dalam *Language Modeling*. Perplexity yang rendah menunjukkan bahwa model tidak "terkejut" oleh data tes, yang berarti model mampu memprediksi kata-kata dengan percaya diri dan akurat.

---

## 10.6 Strategi Decoding: Menghasilkan Teks
Setelah model dilatih, kita perlu strategi untuk memilih kata saat proses generasi:

1.  **Greedy Decoding**: Selalu memilih kata dengan probabilitas tertinggi.
    * *Masalah*: Sering menghasilkan teks yang berulang-ulang dan kaku. Diperlukan logika tambahan (seperti *Random Sampling* atau *Temperature*) untuk meningkatkan variasi.
2.  **Beam Search**: Daripada hanya satu kata, model menyimpan beberapa kandidat kalimat terbaik (jalur) sekaligus dan mengevaluasi mana yang paling masuk akal beberapa langkah ke depan.
    * *Hasil*: Kalimat yang dihasilkan jauh lebih akurat dan natural secara tata bahasa.

---

## 10.7 Implementasi Tambahan (Instalasi & Tooling)
Pada tahap ini, kamu mungkin mulai memerlukan library tambahan untuk menangani teks skala besar:

```python
# Seringkali diperlukan untuk pemrosesan teks tingkat lanjut
!pip install tensorflow-text

import tensorflow as tf
from tensorflow.keras.layers import GRU, Embedding, Dense

# Contoh sederhana membangun model bahasa
model = tf.keras.Sequential([
    Embedding(input_dim=1000, output_dim=64),
    GRU(128, return_sequences=True),
    Dense(1000, activation='softmax')
])