# Isi Penting Generator: Karangan Style

Generate a long text output with the style of an essay (karangan) when given important facts (isi penting in Malay).

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/isi-penting-generator-karangan-style](https://github.com/huseinzol05/Malaya/tree/master/example/isi-penting-generator-karangan-style).
    
</div>

<div class="alert alert-warning">

The results you see here are generated using stochastic methods. Learn more about the stochastic process on <a href="https://en.wikipedia.org/wiki/Stochastic_process" target="_blank">Wikipedia</a>
    
</div>

In [1]:
%%time
import malaya
from pprint import pprint

CPU times: user 2.85 s, sys: 374 ms, total: 3.22 s
Wall time: 2.86 s


  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))


### List all available HuggingFace transformers

The `malaya` library has a built in function to find all available transformers for this task. As of writing we have two transformers which are:

1. mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased <br>
https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased
   
2. mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased <br>
https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased

In [2]:
malaya.generator.isi_penting.available_huggingface

{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

---

### Load HuggingFace

The Generator transformer in `malaya` is quite unique, most of the text generative model we found on the internet like GPT2 or Markov simply just continue the prefix input from user, but not for our Generator transformer. 

We want to generate an article or karangan like high school when the users give 'isi penting' or important facts for the article.

```python
def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
```

In [3]:
model = malaya.generator.isi_penting.huggingface()

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


Here is the `generate` function and the parameters it expects. 

```python
def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """
```

---

### Benefits of HuggingFace

With the `generate` method you can use Greedy, Beam, Sampling, Nucleus decoder and so much more, read more about it on the [HuggingFace Article on How to Generate](https://huggingface.co/blog/how-to-generate). And recently, HuggingFace also released a new article [Introducing Csearch](https://huggingface.co/blog/introducing-csearch)

Let's give a few lines of important facts or isi penting for the model to use to generate text.

In [4]:
isi_penting = ['ayam yang sihat dan sejahtera', 
               'nasi ayam yang sedap dan lazat', 
               'kedai bernama Husein Nasi Ayam']

In [5]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.95,))

['Nasi Ayam telah menjadi salah satu hidangan yang wajib ada di mana-mana '
 'kawasan di Malaysia malah ada dikalangan masyarakat yang dihidangkan dengan '
 'pelbagai jenis juadah seperti nasi kerabu dan mi goreng. Oleh itu, kita '
 'perlu menelusuri setiap masalah yang membelenggu masyarakat kita kerana '
 'terdapat segelintir masyarakat yang mengamalkan cara hidup yang tidak sihat. '
 'Persoalan yang timbul ialah, apakah cara yang boleh dilakukan oleh ibu bapa '
 'untuk menjaga anak mereka yang sedang hanyut dalam arus globalisasi kini? '
 'Antara cara yang boleh dilakukan bagi membantu ibu bapa memelihara anak-anak '
 'mereka dari segi pemakanan adalah dengan menyediakan makanan berkhasiat. Ibu '
 'bapa hendaklah menyediakan makanan yang berkhasiat seperti nasi ayam, kuih '
 'muih dan banyak lagi mengikut cara hidup rakyat Malaysia seperti peribahasa '
 'Melayu, muafakat bagai aur dengan tebing. Dengan cara ini, ibu bapa dapat '
 'mengetahui tabiat pemakanan anak-anak mereka dan men

Previously we set the `top_k` parameter to `50`. A higher `top_k` value means the model considers more candidates, potentially leading to more diversity in the generated text but also increasing the computational cost.

Now let's try lowering the parameter down and introduce the `penalty_alpha` argument to decrease randomness.

In [6]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['Dalam era pasca-2020, negara telah mengalami pelbagai perubahan dasar dan '
 'pembangunan yang rancak. Lantaran itu, pelbagai langkah perlu diambil untuk '
 'menangani isu ini daripada terus menerus membelenggu masyarakat. Antara '
 'tindakan yang boleh dilakukan adalah dengan menyediakan makanan kepada '
 'anak-anak yang terabai dan ibu bapa yang kurang memberikan makanan kepada '
 'anak-anak. Makanan ini hendaklah dimasak dalam jumlah yang cukup dan '
 'hendaklah disediakan dalam periuk yang mengandungi ayam. Anak-anak boleh '
 'bermain dengan anak ayam dan mereka akan memakannya dengan banyak seperti '
 'cili padi. Oleh itu, ibu bapa hendaklah membantu anak-anak menyediakan '
 'makanan kepada anak-anak dengan menyediakan makanan yang seimbang dan sihat. '
 'Langkah lain yang boleh dilakukan adalah dengan menyediakan makanan ayam '
 'kepada anak-anak. Pembekal makanan ringan ini hendaklah menyediakan makanan '
 'yang berkhasiat dan seimbang kepada ayam yang telah digoreng. Makanan 

Try changing the `isi_penting` variable and rerun the generate method again for more results. The sample isi penting here are borrowed from [mieadham86's Blogspot page](http://mieadham86.blogspot.com/2016/09/isi-isi-penting-karangan-bahasa-melayu.html).

In [7]:
isi_penting = ['Rajin berusaha – tidak mudah putus asa',
               'Menghormati orang yang lebih tua – mendapat keberkatan',
               'Melibatkan diri secara aktif dalam bidang kokurikulum',
               'Memberi tumpuan ketika guru mengajar.',
               'Berdisiplin – menepati jadual yang disediakan.',
               'Bercita-cita tinggi – mempunyai keazaman yang tinggi untuk berjaya']

In [8]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'karangan',
    max_length=256,
    top_k=50, 
    top_p=0.95, ))

['Sebagai anak yang bertanggungjawab, kita sewajarnya mempunyai nama keluarga '
 'yang kukuh. Keluarga yang bertanggungjawab seharusnya mempunyai nama '
 'keluarga yang mudah untuk digambarkan. Jika keluarga itu mempunyai nama '
 'keluarga yang baik dan berunsurkan kasih sayang, pasti kita dapat '
 'menghormati individu yang berjaya dalam hidup. Hal ini demikian kerana, kita '
 'mampu menjadi seorang yang lebih baik daripada orang lain. Selain itu, '
 'keluarga yang berjaya juga adalah penting dan harus dihargai. Kepelbagaian '
 'latar belakang seperti agama dan bangsa telah memberikan kita pelbagai '
 'manfaat dan keistimewaan yang wajar untuk kita nikmati. Namun begitu, tidak '
 'dinafikan bahawa kepelbagaian kaum itu telah memberikan kesan kepada kita '
 'sebagai anak didik. Ibarat peribahasa Melayu, melentur buluh biarlah dari '
 'rebungnya. Sekiranya kita dapat berganding bahu untuk menjadikan keluarga '
 'yang berjaya sebagai sebuah keluarga yang berbudi bahasa, kita boleh '
 'me

In [9]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['"Bersatu kita teguh, bercerai kita roboh". Itu antara peribahasa Melayu yang '
 'sesuai untuk menggambarkan kepayahan golongan dewasa hari ini yang mempunyai '
 'pelbagai jenis masalah. Akibat daripada itu, golongan dewasa ini telah '
 'kehilangan sumber kewangan yang banyak untuk menampung kos hidup kerana '
 'tidak mempunyai pekerjaan tetap dan terpaksa bekerja. Keadaan ini telah '
 'memberi impak negatif kepada mereka yang mempunyai anak-anak. Mereka '
 'kehilangan pekerjaan yang mampu memberi kesan yang besar kepada mereka dan '
 'juga keluarga. Oleh itu, kita hendaklah mengkaji punca mereka menganggur. '
 'Persoalannya ialah apakah punca-punca berlakunya masalah yang melibatkan '
 'golongan dewasa ini? Antara punca yang signifikan dalam isu ini ialah mereka '
 'tidak mempunyai masa dan wang yang cukup untuk diri sendiri. Hal ini '
 'disebabkan oleh mereka terlalu sibuk bekerja sehingga tidak mempunyai masa '
 'untuk diri sendiri. Sebagai contoh, bagi mereka yang bekerja di pasar