# Isi Penting Generator: News Style

Generate a long text output with the style of a news article when given important facts (isi penting in Malay).

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/isi-penting-generator-news-style](https://github.com/huseinzol05/Malaya/tree/master/example/isi-penting-generator-news-style).
    
</div>

<div class="alert alert-warning">

The results you see here are generated using stochastic methods. Learn more about the stochastic process on <a href="https://en.wikipedia.org/wiki/Stochastic_process" target="_blank">Wikipedia</a>
    
</div>

In [1]:
%%time
import malaya
from pprint import pprint

CPU times: user 3.07 s, sys: 445 ms, total: 3.51 s
Wall time: 3.31 s


  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))


### List all available HuggingFace transformers

The `malaya` library has a built in function to find all available transformers for this task. As of writing we have two transformers which are:

1. mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased <br>
https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased
   
2. mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased <br>
https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased

In [2]:
malaya.generator.isi_penting.available_huggingface

{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

---

### Load HuggingFace

The Generator transformer in `malaya` is quite unique, most of the text generative model we found on the internet like GPT2 or Markov simply just continue the prefix input from user, but not for our Generator transformer. 

We want to generate an article or karangan like high school when the users give 'isi penting' or important facts for the article.

```python
def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
```

In [3]:
model = malaya.generator.isi_penting.huggingface()

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


Here is the `generate` function and the parameters it expects. 

```python
def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """
```

---

### Benefits of HuggingFace

With the `generate` method you can use Greedy, Beam, Sampling, Nucleus decoder and so much more, read more about it on the [HuggingFace Article on How to Generate](https://huggingface.co/blog/how-to-generate). And recently, HuggingFace also released a new article [Introducing Csearch](https://huggingface.co/blog/introducing-csearch)

Let's give a few lines of important facts or isi penting for the model to use to generate text.

In [4]:
isi_penting = ['Dr M perlu dikekalkan sebagai perdana menteri',
              'Muhyiddin perlulah menolong Dr M',
              'rakyat perlu menolong Muhyiddin']

In [5]:
pprint(model.generate(isi_penting, mode = 'surat-khabar',
    do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.95,))

['KUALA LUMPUR: Presiden Parti Pribumi Bersatu Malaysia (Bersatu), Tan Sri '
 'Muhyiddin Yassin perlu dikekalkan sebagai perdana menteri, kata Presiden '
 'Parti Amanah Negara (Amanah), Mohamad Sabu. Mohamad berkata, Muhyiddin '
 'perlulah membantu Dr M. Muhyiddin untuk membangunkan negara termasuk '
 'menambah baik ekonomi dan kewangan negara. "Sebagai presiden parti, tugas '
 'dan peranan utama Dr M adalah untuk membantu rakyat supaya negara boleh '
 'maju. "Rakyat akan merasa terkesan (daripada tindakan Muhyiddin)," katanya '
 'kepada Astro AWANI di sini pada Rabu. Mohamad berkata demikian ketika '
 'mengulas kenyataan Pengerusi Pakatan Harapan (PH), Tun Dr Mahathir Mohamad '
 'yang mencadangkan Dr Mahathir sebagai perdana menteri interim. Tambah '
 'Mohamad, Perdana Menteri yang juga Pengerusi Pakatan Harapan juga mempunyai '
 'tugas penting dalam menyelesaikan pelbagai masalah rakyat yang perlu diberi '
 'perhatian. "Saya fikir Dr Mahathir akan bantu (penubuhan kerajaan interim), 

In [6]:
pprint(model.generate(isi_penting, mode = 'surat-khabar',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['ULASAN | Muhyiddin Yassin telah menyatakan bahawa Dr Mahathir Mohamad perlu '
 'dikekalkan sebagai perdana menteri. Beliau juga telah menyatakan bahawa jika '
 'Dr Mahathir kekal dengan pendiriannya, maka Dr Mahathir perlulah menolong '
 'beliau. Muhyiddin juga telah menyatakan bahawa beliau perlu mengekalkan '
 'jawatannya sebagai perdana menteri. Namun, jika Dr Mahathir masih kekal, '
 'maka rakyat tidak mahu Muhyiddin menjadi Perdana Menteri. Ini kerana beliau '
 'tidak mempunyai sokongan majoriti ahli parlimen untuk menubuhkan kerajaan '
 'baharu. Muhyiddin telah menyatakan bahawa beliau perlu terus kekal sebagai '
 'perdana menteri. Jika Mahathir kekal, maka rakyat akan memberi sokongan '
 'kepada Muhyiddin. Jika Muhyiddin masih kekal, maka Dr Mahathir akan terus '
 'memegang jawatan tersebut. Jika Dr Mahathir kekal, maka Dr Mahathir akan '
 'terus kekal sebagai perdana menteri. Jika Muhyiddin kekal, Dr Mahathir akan '
 'terus kekal sebagai perdana menteri. Jika Dr Mahathir keka

In [7]:
isi_penting = ['Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini',
              'Long Tiger sanggup membantu Neelofa',
              'Tiba-tiba Long Tiger bergaduh dengan Husein Zolkepli']

As above, we can give any isi penting even if it does not make any sense. Now we'll use the `generate` method and pass in a few of the vector arguments mentioned in a previous linked article by HuggingFace.

In [8]:
pprint(model.generate(isi_penting, do_sample=True,
    max_length=256,
    top_k=50, 
    top_p=0.9, ))

['VOKALIS kumpulan Monologue, Neelofa tetap dengan keputusan untuk berkahwin '
 'akhir tahun ini. Kata Neelofa, ia sebagai langkah persediaannya selepas '
 'menghadapi saat getir seperti dilalui bekas kekasihnya, Wan Raja yang baru '
 'mendirikan rumah tangga dengan Datuk Husein Zolkepli pada 1 April lalu. '
 'Bagaimanapun kata Neelofa, setiap orang pasti mempunyai hal sendiri dalam '
 'menentukan pasangan masing-masing. "Saya sangat bersyukur dan bersyukur. Ini '
 'masa yang terbaik untuk kami sekeluarga dan berharap agar perkahwinan ini '
 'kekal bahagia hingga akhir hayat. "Tetapi saya perlu ingat untuk kekal dalam '
 'perkahwinan, setiap orang pasti ada hal sendiri. Dalam hal ini, apa yang '
 'penting adalah perkahwinan. "Saya juga mendoakan semoga perkahwinan ini '
 'berkekalan hingga ke akhir hayat. Apa yang penting adalah perkahwinan ini '
 'kekal bahagia hingga ke akhir hayat," ujarnya. Long Tiger sanggup bantu '
 'Neelofa. Tiba-tiba Long Tiger bergaduh dengan Husein Zolkepli. 

Previously we set the `top_k` parameter to `50`. A higher `top_k` value means the model considers more candidates, potentially leading to more diversity in the generated text but also increasing the computational cost.

Now let's try lowering the parameter down and introduce the `penalty_alpha` argument to decrease randomness.

In [9]:
pprint(model.generate(isi_penting, mode = 'surat-khabar',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['KUALA LUMPUR: Pelakon, pengacara, pengacara dan usahawan, Neelofa tetap '
 'dengan keputusan untuk berkahwin akhir tahun ini, walaupun sudah bernikah '
 'dengan bekas isteri, Datin Husein Zolkepli. Menerusi satu entri di '
 'Instagram, Neelofa atau nama sebenarnya, Noor Neelofa Mohd Noor, 27, '
 'berkata, dia tidak pernah gentar dengan Long Tiger. "Tak pernah gentar '
 'dengan Long Tiger. Long Tiger tak pernah gentar dengan saya. "Saya tak '
 'pernah gentar dengan Long Tiger. Long Tiger sanggup membantu saya. Tiba-tiba '
 'Long Tiger bergaduh dengan Husein. "Saya pun tak pernah nak bergaduh dengan '
 'mereka. Saya pun tak pernah nak bergaduh dengan mereka," katanya. View this '
 'post on Instagram #twtwtwt #twtwt #twtwt #twtwt #twtwt #twtwt #twtwt #twtwt '
 '#twt #twtwt #twt #twtwt #twtwt #tw']
