# Prefix Generator HuggingFace

Give initial sentence, then the models will continue to generate the text.

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/prefix-generator-huggingface](https://github.com/huseinzol05/Malaya/tree/master/example/prefix-generator-huggingface).
    
</div>

In [1]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = ''
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'

In [2]:
%%time
import malaya
from pprint import pprint

CPU times: user 3 s, sys: 3.39 s, total: 6.38 s
Wall time: 2.46 s


### List available HuggingFace models

In [3]:
malaya.generator.prefix.available_huggingface()

Unnamed: 0,Size (MB)
mesolitica/gpt2-117m-bahasa-cased-v2,454
mesolitica/gpt2-355m-bahasa-cased,454


### load HuggingFace model

```python
def huggingface(model: str = 'mesolitica/gpt2-117m-bahasa-cased-v2', force_check: bool = True, **kwargs):
    """
    Load Prefix language model.

    Parameters
    ----------
    model: str, optional (default='mesolitica/gpt2-117m-bahasa-cased-v2')
        Check available models at `malaya.generator.prefix.available_huggingface()`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.Prefix class
    """
```

In [4]:
model = malaya.generator.prefix.huggingface(model = 'mesolitica/gpt2-117m-bahasa-cased-v2')

In [5]:
string = 'ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, '

#### generate

```python
def generate(self, string, **kwargs):
    """
    Generate texts from the input.

    Parameters
    ----------
    string : str
    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """
```

Good thing about huggingface, you can do greedy decoder, beam decoder, nucleus decoder and sampling decoder very easy, read more at https://huggingface.co/blog/how-to-generate

Recently, huggingface released Contrastive Search, https://huggingface.co/blog/introducing-csearch

In [7]:
print(model.generate(string, penalty_alpha=0.8, top_k=4, max_length=256))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


['ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, ari-ari dia tulis.\n\nDia tak suka orang buat macam-macam.” Kata-kataku. “Tak apa, kita jumpa di tempat lain.” Aku mula-mulanya terkejut dengan apa yang aku dengar dari mulut budak-budak yang baru belajar di sekolah dulu.\n-tiba ada seorang lelaki datang ke bilik aku untuk ambil barang-barangan dari kedai yang aku duduk di tingkat 3, tapi tak lama lepas tu dia tanya, “Mana beg kau?” Dia jawab, “Dah lama tak balik rumah, baru aku perasan”.\n\n“Aku nak beli baju yang kau pakai tu, tapi tak sampai hati aku nak cakap dengan kau.” Kata-katak gadis itu dengan muka masam mencuka.\n\n-kata yang keluar dari mulut budak tu, “Kau ni kenapa tak bagi duit kat orang yang tak ada duit ni?” Aku cuba berlagak biasa-lainan dengan dia, tapi bila dah masuk universiti, aku rasa tak sedap hati.\n\n“Kalau kau tak dapat apa-apakan aku, tolong jangan ambil kesempatan dengan cara kau ni.\n& tak nak susahkan di

In [8]:
print(model.generate(string, do_sample=True, max_length=256, top_p=0.95, top_k=0))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


['ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, alahan, aku wat tambah beberapa keping gambar kenangan di perpustakaan.\n\nBila aku tgk cerita, aku tersedar aku menjadi seram, sebab aku ikut je cakap muka pencacai politik.\n\nLepastu aku check balik dekat instagram dan bahagian bayaran.\n\nApa yang aku lalui sebenarnya ialah cerita yang aku diamkan oleh para wartawan.\n\nMesti cerita ni betul2.\n\nTepat waktu, aku suarakan ketika zaman sekolah menengah, aku sebak dan sebak sebaik melihat kemenangan selepas goyah sekampung.\n\nLaki-laki, anak-anak, menantu dan putera-putera yang lain turut berada dalam situasi tersebut.\n\nNext week, dalam perjalanan, aku ada kelas mingguan "jumpa kawan-kawan," (walaupun kawan-kawan dia betul-betul dapat duit \'aku\') dan tidur untuk orang lain.\n\nSepanjang perjalanan itu, aku terjaga dan bersandar di belakang badanku.\n\nWaktu itu aku nampak terus hilang mood yang tidak berpenghujung dan aku semak