# GPT-2 with Indonesian Wikipedia

In [1]:
import torch
from transformers import TFGPT2LMHeadModel, GPT2Tokenizer, GPT2LMHeadModel

In [2]:
tokenizer = GPT2Tokenizer.from_pretrained("cahya/gpt2-small-indonesian-522M")

# add the EOS token as PAD token to avoid warnings
model = GPT2LMHeadModel.from_pretrained("cahya/gpt2-small-indonesian-522M", pad_token_id=tokenizer.eos_token_id)

## Text Generation

In [3]:
input_sentences = [
    'Cirebon adalah sebuah kota kecil di Jawa Barat dengan keindahannya yang melebihi kota Bandung',
    'Sriwijaya adalah salah satu kemaharajaan bahari yang pernah berdiri di pulau Sumatra dan banyak memberi pengaruh di Nusantara dengan daerah kekuasaan yang luas',
    'Pantai berpasir putih ini cukup populer akhir-akhir ini karena menawarkan pemandangan yang begitu eksotis dan mempesona.',
    'Perbukitan yang hijau dipenuhi dengan pepohonan tropis yang lengkap dengan area persawahan dan lembah'    
]

In [4]:
torch.manual_seed(3)
for i, sentence in enumerate(input_sentences):
    input_ids = tokenizer.encode(sentence, return_tensors='pt')
    sample_output = model.generate(
        input_ids,
        do_sample=True, 
        max_length=100, 
        top_k=50, 
        top_p=0.95
    )
    print("Output:\n" + 100 * '-')
    print("{}: {}".format(i, tokenizer.decode(sample_output[0], skip_special_tokens=True)))

Setting `pad_token_id` to 50256 (first `eos_token_id`) to generate sequence
Setting `pad_token_id` to 50256 (first `eos_token_id`) to generate sequence


Output:
----------------------------------------------------------------------------------------------------
0: Cirebon adalah sebuah kota kecil di Jawa Barat dengan keindahannya yang melebihi kota Bandung, Jawa Barat, Indonesia.  Kota ini didirikan pada tahun 1946 dengan sebutan "Calabo" (bahasa Indonesia: "Balabo") (Bahasa Indonesia: "Badiwa") yang artinya kota ini memiliki sejarah yang panjang dan sedikit yang lebih luas. Kota ini hanya terdapat di sekitar kota Bandung, tetapi di beberapa kota besar, melainkan banyak kota di kota kecil saja seperti kota Bandung, dan beberapa kota di luar pulau


Setting `pad_token_id` to 50256 (first `eos_token_id`) to generate sequence


Output:
----------------------------------------------------------------------------------------------------
1: Sriwijaya adalah salah satu kemaharajaan bahari yang pernah berdiri di pulau Sumatra dan banyak memberi pengaruh di Nusantara dengan daerah kekuasaan yang luas pada tahun 1685 – 1177. Kerajaan ini pertama kali dijadikan salah satu kota yang sangat populer dan dibangun di Sulawesi Selatan.  Kerajaan kerajaan ini dibentuk oleh Sultan Agung Agung, yaitu penguasa Kerajaan Sriwijaya tahun 1387 M (tahun 1063 M), dan merupakan salah satu dari Kerajaan Sriwijaya yang memerintah selama Perang Dunia I. Raja ini sendiri berasal dari Kerajaan Sumbawa dan kemudian menetap di Sumatra


Setting `pad_token_id` to 50256 (first `eos_token_id`) to generate sequence


Output:
----------------------------------------------------------------------------------------------------
2: Pantai berpasir putih ini cukup populer akhir-akhir ini karena menawarkan pemandangan yang begitu eksotis dan mempesona. Pantai ini bisa kita bisa berenang dan bisa merasakan rasa dingin di udara kering. Pantai ini letaknya di bagian timur pantai. Pantai ini sangat indah. Pantai ini letaknya sangat sangat sejuk dan sejuk dan sejuk. Pantai ini memiliki pemandangan yang indah. Pantai ini sangat sejuk dan baik, dapat diakses dengan baik dari kota kota-kota kecil maupun tempat-tempat tertentu seperti Pantai Gading. Pantai ini biasanya banyak ditemui di daerah kota lain
Output:
----------------------------------------------------------------------------------------------------
3: Perbukitan yang hijau dipenuhi dengan pepohonan tropis yang lengkap dengan area persawahan dan lembah yang indah, serta pegunungan tropis, di sebelah utara, sungai dengan puncak pegunungan. Pada umumnya, 

## Other Tasks