## Nama : Rizky Ramdhani Koswara
## NPM : 11122300
## Kelas : 4KA25

# **Automated Article Generation**

Dalam praktikum ini Anda akan mencoba untuk membuat sebuah artikel dengan library yang telah di training sebelumnya atau yang dikenal sebagai pre- trained model. Apabila Anda akan mengunduh file praktikum dan menjalankan pada mesin local Anda, silahkan pastikan dependency library lainnya telah terinstall. Pada praktikum ini Anda akan menggunakan model GPT2 dari OpenAI.

In [None]:
import tensorflow as tf
from transformers import GPT2LMHeadModel, GPT2Tokenizer

### **Penjelasan Logika & Output Bagian 1: Impor Library**

**Logika Kode:**
Blok ini mengimpor library yang diperlukan:
* `tensorflow as tf`: Mengimpor TensorFlow, meskipun dalam kode ini penggunaannya tidak terlihat secara langsung, library `transformers` seringkali membutuhkan TensorFlow atau PyTorch sebagai backend-nya.
* `transformers`: Ini adalah library utama dari Hugging Face yang menyediakan akses mudah ke model-model *pre-trained* NLP, termasuk GPT-2. Kita mengimpor dua komponen spesifik:
    * `GPT2LMHeadModel`: Kelas model GPT-2 yang dirancang untuk tugas *Language Modeling* (memprediksi kata berikutnya dalam urutan). `LMHead` artinya model ini memiliki "kepala" (lapisan tambahan) untuk tugas generasi bahasa.
    * `GPT2Tokenizer`: Kelas *tokenizer* yang sesuai untuk model GPT-2. Tokenizer bertugas mengubah teks mentah menjadi format angka (token ID) yang dapat dipahami oleh model, dan sebaliknya.

**Output/Efek:**
* Library TensorFlow dan komponen `GPT2LMHeadModel` serta `GPT2Tokenizer` dari `transformers` dimuat ke dalam memori, siap untuk digunakan di sel-sel berikutnya. Tidak ada output visual yang dihasilkan saat sel ini dieksekusi.

# **Set Up Tokenizer dan Model**

Pada praktikum ini karena kita menggunakan model yang telah di latih sebelumnya, kita perlu mendefinisikan dua kompenen sebelum dapat membuat artikel secara otomatis yaitu tipe tokenizer dan model yang akan digunakan

In [None]:
tokenizer = GPT2Tokenizer.from_pretrained("gpt2-large")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]



### **Penjelasan Logika & Output Bagian 2: Set Up Tokenizer**

**Logika Kode:**
Kode ini menginisialisasi *tokenizer* GPT-2:
* `GPT2Tokenizer.from_pretrained("gpt2-large")`: Baris ini mengunduh (jika belum ada di *cache*) dan memuat konfigurasi serta kosakata (*vocabulary*) dari *tokenizer* yang sesuai dengan model **"gpt2-large"**. Model "gpt2-large" adalah salah satu varian GPT-2 yang lebih besar dan (umumnya) lebih mampu daripada versi standarnya. Tokenizer ini tahu cara memecah teks menjadi token-token yang dipahami oleh model GPT-2 Large dan cara mengubah token ID kembali menjadi teks.

**Output/Efek:**
* File-file konfigurasi dan kosakata untuk tokenizer "gpt2-large" diunduh dari Hugging Face Hub (jika belum ada). Output sel akan menampilkan progress bar unduhan untuk file seperti `vocab.json`, `merges.txt`, dll.
* Sebuah objek tokenizer dibuat dan disimpan dalam variabel `tokenizer`.
* Peringatan (*warning*) tentang `HF_TOKEN` mungkin muncul jika Anda tidak login ke Hugging Face, tetapi ini tidak menghalangi penggunaan model publik seperti GPT-2.
* Peringatan tentang `clean_up_tokenization_spaces` mungkin muncul, ini terkait perubahan *default* di versi library yang akan datang dan bisa diabaikan untuk saat ini.

In [None]:
model = GPT2LMHeadModel.from_pretrained("gpt2-large", pad_token_id=tokenizer.eos_token_id)

model.safetensors:   0%|          | 0.00/3.25G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

### **Penjelasan Logika & Output Bagian 3: Set Up Model**

**Logika Kode:**
Kode ini menginisialisasi model GPT-2 itu sendiri:
* `GPT2LMHeadModel.from_pretrained("gpt2-large", ...)`: Baris ini mengunduh (jika belum ada) dan memuat *pre-trained weights* (bobot yang sudah dilatih) untuk model **"gpt2-large"**. Ini adalah "otak" dari sistem generasi teks kita. Bobot ini berisi pengetahuan yang dipelajari model dari data pelatihan masifnya.
* `pad_token_id=tokenizer.eos_token_id`: Argumen ini penting. Ia memberi tahu model token mana yang harus digunakan untuk *padding* (menyamakan panjang urutan input jika diperlukan). Di sini, kita mengaturnya agar sama dengan token *End-Of-Sequence* (`eos_token_id`), yang merupakan praktik umum untuk model GPT-2 saat melakukan generasi.

**Output/Efek:**
* File bobot (*weights*) model "gpt2-large" (biasanya berukuran besar, beberapa Gigabyte) diunduh dari Hugging Face Hub. Output sel akan menampilkan progress bar unduhan untuk file seperti `model.safetensors` atau `pytorch_model.bin`. Proses ini bisa memakan waktu cukup lama tergantung koneksi internet dan ukuran model.
* Sebuah objek model GPT-2 yang siap pakai dibuat dan disimpan dalam variabel `model`.

# **Proses Tokenisasi**

Pada praktikum ini karena kita menggunakan model yang telah di latih sebelumnya, kita perlu mendefinisikan dua kompenen sebelum dapat membuat artikel secara otomatis yaitu tipe tokenizer dan model yang akan digunakan. Proses tokenisasi pada dasarnya adalah pemisahan frasa, kalimat, paragraf, atau seluruh dokumen teks menjadi unit yang lebih kecil, seperti kata atau istilah individual. Masing-masing unit yang lebih kecil ini disebut token. Dalam tokenization, unit yang lebih kecil dibuat dengan menempatkan batas kata. Batas kata adalah titik akhir dari sebuah kata dan awal dari kata berikutnya. Token ini dianggap sebagai langkah pertama untuk proses stemming dan lemmatization

In [None]:
blog_title = "Weekend Gateway"

### **Penjelasan Logika & Output Bagian 4: Input Teks Awal**

**Logika Kode:**
Blok ini mendefinisikan teks awal atau *prompt* yang akan kita berikan kepada model untuk memulai proses generasi artikel.
* `blog_title = "Weekend Gateway"`: Sebuah variabel string sederhana dibuat untuk menyimpan judul atau ide awal artikel, yaitu "Weekend Gateway".

**Output/Efek:**
* Variabel `blog_title` berisi string "Weekend Gateway" disimpan dalam memori. Tidak ada output visual.

In [None]:
input = tokenizer.encode(blog_title, return_tensors='pt')

### **Penjelasan Logika & Output Bagian 5: Tokenisasi Input**

**Logika Kode:**
Kode ini menggunakan tokenizer yang sudah diinisialisasi untuk mengubah *prompt* teks menjadi format yang dapat diterima oleh model.
* `tokenizer.encode(blog_title, return_tensors='pt')`:
    * `tokenizer.encode(blog_title)`: Mengambil string "Weekend Gateway" dan mengubahnya menjadi urutan angka (token ID) berdasarkan kosakata tokenizer GPT-2. Misalnya, "Weekend" mungkin menjadi satu token ID, " Gate" menjadi ID lain, dan "way" menjadi ID lain (GPT-2 menggunakan *Byte-Pair Encoding*).
    * `return_tensors='pt'`: Parameter ini meminta tokenizer untuk mengembalikan token ID dalam format **PyTorch Tensor**. Meskipun kita mengimpor TensorFlow di awal, library `transformers` seringkali lebih mudah digunakan dengan tensor PyTorch atau TensorFlow, dan 'pt' adalah singkatan umum untuk PyTorch. Model `transformers` biasanya bisa menerima tensor dari kedua *framework*.

**Output/Efek:**
* Teks "Weekend Gateway" diubah menjadi urutan token ID.
* Urutan token ID ini dikemas dalam sebuah tensor PyTorch dan disimpan dalam variabel `input`.
* Sel berikutnya (`input`) akan menampilkan isi tensor ini, yang berupa array angka (misalnya: `tensor([[20916, 437, 29916]])`).

In [None]:
input

tensor([[20916,   437, 29916]])

### **Penjelasan Logika & Output Bagian 6: Menampilkan Tensor Input**

**Logika Kode:**
Blok ini hanya menampilkan isi dari variabel `input` yang dibuat di sel sebelumnya.

**Output/Efek:**
* Output sel menunjukkan representasi tensor dari *prompt* "Weekend Gateway". Contohnya: `tensor([[20916, 437, 29916]])`. Angka-angka ini adalah ID unik untuk token "Weekend", " Gate", dan "way" dalam kosakata GPT-2. Tanda `[[...]]` menunjukkan bahwa ini adalah *batch* yang berisi satu urutan.

# **Let's Generate!**

Pada tahapan ini Anda sudah siap untuk membuat model pertama Anda

In [None]:
output = model.generate(input, max_length=100, num_beams=5, no_repeat_ngram_size=2, early_stopping=True)

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


### **Penjelasan Logika & Output Bagian 7: Proses Generasi Teks**

**Logika Kode:**
Ini adalah inti dari proses pembuatan artikel otomatis. Kita memanggil metode `generate` pada model GPT-2 yang sudah dimuat.
* `model.generate(input, ...)`: Memulai proses generasi teks. Model akan mengambil `input` (token ID dari "Weekend Gateway") sebagai konteks awal dan mulai memprediksi token berikutnya secara berulang.
* **Parameter Generasi**:
    * `max_length=100`: Membatasi panjang total output (termasuk *prompt* awal) hingga **100 token**. Ini mencegah model menghasilkan teks yang terlalu panjang.
    * `num_beams=5`: Menggunakan **Beam Search** dengan 5 *beams*. Beam search adalah teknik decoding yang lebih canggih daripada sekadar memilih token berikutnya yang paling mungkin. Ia menjelajahi beberapa kemungkinan urutan token secara paralel (dalam hal ini 5) dan memilih urutan yang memiliki probabilitas keseluruhan terbaik. Ini sering menghasilkan teks yang lebih koheren dan relevan.
    * `no_repeat_ngram_size=2`: Mencegah model mengulang **bigram** (urutan 2 kata/token) yang sama persis. Ini membantu mengurangi repetisi yang tidak alami dalam teks yang dihasilkan.
    * `early_stopping=True`: Digunakan bersama dengan *beam search*. Jika semua *beams* telah menghasilkan token *End-Of-Sequence* (EOS), proses generasi akan berhenti lebih awal, bahkan jika `max_length` belum tercapai.

**Output/Efek:**
* Model GPT-2 melakukan proses komputasi yang intensif untuk menghasilkan urutan token baru. Proses ini bisa memakan waktu beberapa detik hingga menit tergantung pada panjang output, parameter, dan kekuatan *hardware* (GPU sangat membantu).
* Peringatan (*warning*) tentang `attention_mask` mungkin muncul. Ini karena kita tidak secara eksplisit memberikan *attention mask*, dan karena `pad_token_id` sama dengan `eos_token_id`, model mungkin tidak bisa membedakannya secara otomatis. Namun, untuk input tunggal tanpa *padding*, ini biasanya tidak masalah.
* Urutan token ID hasil generasi (termasuk token ID input awal) disimpan dalam variabel `output` sebagai tensor.

In [None]:
print(tokenizer.decode(output[0], skip_special_tokens=True))

Weekend Gateway

If you're looking for a place to stay during the weekend, we've got you covered. We have a variety of options for you to choose from, including hotels, motels, inns, and more. Check out the list below to see what we have to offer. If you have any questions, feel free to contact us.


### **Penjelasan Logika & Output Bagian 8: Decoding dan Menampilkan Hasil**

**Logika Kode:**
Blok terakhir ini mengubah urutan token ID yang dihasilkan oleh model kembali menjadi teks yang dapat dibaca manusia.
* `tokenizer.decode(output[0], skip_special_tokens=True)`:
    * `output[0]`: Mengambil urutan token ID pertama dari *batch* output (karena kita hanya memberikan satu input, hanya ada satu hasil).
    * `tokenizer.decode(...)`: Menggunakan tokenizer untuk menerjemahkan urutan token ID kembali menjadi string teks.
    * `skip_special_tokens=True`: Memberi tahu decoder untuk mengabaikan token-token khusus (seperti token EOS atau padding) saat merekonstruksi teks.

**Output/Efek:**
* Output sel menampilkan **teks artikel** yang dihasilkan oleh model GPT-2, dimulai dengan *prompt* "Weekend Gateway". Contoh output yang Anda dapatkan adalah:
    ```
    Weekend Gateway

    If you're looking for a place to stay during the weekend, we've got you covered. We have a variety of options for you to choose from, including hotels, motels, inns, and more. Check out the list below to see what we have to offer. If you have any questions, feel free to contact us.
    ```
    Teks ini dibuat oleh model berdasarkan pengetahuannya yang luas tentang pola bahasa dan informasi dari internet. Parameter seperti `num_beams` dan `no_repeat_ngram_size` membantu membuat teks ini lebih terstruktur dan mengurangi repetisi.