# Isi Penting Generator karangan style

Generate a long text with karangan style given isi penting (important facts).

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/isi-penting-generator-karangan-style](https://github.com/huseinzol05/Malaya/tree/master/example/isi-penting-generator-karangan-style).
    
</div>

<div class="alert alert-warning">

Results generated using stochastic methods.
    
</div>

In [1]:
%%time
import malaya
from pprint import pprint

CPU times: user 2.81 s, sys: 3.92 s, total: 6.73 s
Wall time: 1.98 s


  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))


### List available HuggingFace

In [2]:
malaya.generator.isi_penting.available_huggingface

{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

### Load HuggingFace

Transformer Generator in Malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov, simply just continue prefix input from user, but not for Transformer Generator. We want to generate an article or karangan like high school when the users give 'isi penting'.

```python
def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
```

In [3]:
model = malaya.generator.isi_penting.huggingface()

Loading the tokenizer from the `special_tokens_map.json` and the `added_tokens.json` will be removed in `transformers 5`,  it is kept for forward compatibility, but it is recommended to update your `tokenizer_config.json` by uploading it again. You will see the new `added_tokens_decoder` attribute that will store the relevant information.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. If you see this, DO NOT PANIC! This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


#### generate

```python
def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """
```

### Good thing about HuggingFace

In `generate` method, you can do greedy, beam, sampling, nucleus decoder and so much more, read it at https://huggingface.co/blog/how-to-generate

And recently, huggingface released https://huggingface.co/blog/introducing-csearch

In [4]:
isi_penting = ['ayam yang sihat dan sejahtera', 'nasi ayam yang sedap dan lazat', 'kedai bernama Husein Nasi Ayam']

In [5]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.95,))

spaces_between_special_tokens is deprecated and will be removed in transformers v5. It was adding spaces between `added_tokens`, not special tokens, and does not exist in our fast implementation. Future tokenizers will handle the decoding process on a per-model rule.


['Mutakhir ini, pelbagai berita mengenai penternakan ayam di negara ini hangat '
 'diperkatakan di media sosial. Hal ini demikian kerana ayam merupakan sumber '
 'protein yang sangat penting dalam kehidupan seharian dan terdapat banyak '
 'lemak, lemak dan kalori yang boleh disalurkan secara terus ke dalam badan '
 'kita melalui cara yang mudah seperti memasak. Kita perlu sedar bahawa haiwan '
 'juga memerlukan sumber makanan yang cukup untuk kelangsungan hidup mereka. '
 'Oleh itu, kita perlu mengenal pasti cara-cara untuk memastikan proses '
 'penternakan ayam berjalan dengan lancar. Prakarsa utama dalam memastikan '
 'penjagaan ayam yang halal adalah dengan memastikan setiap produk yang '
 'dihasilkan selamat untuk dimakan. Sebagai contoh, pihak pengeluar telah '
 'membuat senarai produk yang menggunakan bahan-bahan yang selamat untuk '
 'dimakan, dimana bahan-bahan seperti ayam dan telur sentiasa berada di dalam '
 'keadaan yang bersih. Dengan berbuat demikian, pengguna dapat menja

In [6]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['Dalam era pasca-2020 yang penuh cabaran lantaran pandemik COVID-19, negara '
 'telah kehilangan khazanah makanan yang amat bernilai buat rakyat. Ayam '
 'merupakan makanan asas yang disediakan untuk penduduk negara yang bergantung '
 'kepada kita untuk menghantar makanan ke rumah masing-masing. Oleh itu, kita '
 'perlu mengenal pasti cara terbaik untuk menyediakan nasi berlauk yang cukup '
 'sedap untuk dimakan bersama-sama. Cara pertama untuk menyediakan nasi '
 'berlauk yang cukup sedap adalah dengan membawa makanan tersebut ke dalam '
 'mangkuk yang disediakan. Sebaiknya kita membawa makanan tersebut ke dalam '
 'mangkuk yang disediakan dan kita perlu mengambil makanan tersebut dengan '
 'teliti kerana ia mengandungi zat-zat yang sangat penting untuk kesihatan '
 'tubuh badan kita. Antara cara lain untuk menyediakan nasi berlauk yang cukup '
 'sedap adalah dengan membawa hidangan makanan tersebut ke dalam mangkuk yang '
 'disediakan. Seperti peribahasa Melayu, di mana ada gula, di

In [7]:
# http://mieadham86.blogspot.com/2016/09/isi-isi-penting-karangan-bahasa-melayu.html
# CARA MENJADI MURID CEMERLANG

isi_penting = ['Rajin berusaha – tidak mudah putus asa',
               'Menghormati orang yang lebih tua – mendapat keberkatan',
               'Melibatkan diri secara aktif dalam bidang kokurikulum',
               'Memberi tumpuan ketika guru mengajar.',
               'Berdisiplin – menepati jadual yang disediakan.',
               'Bercita-cita tinggi – mempunyai keazaman yang tinggi untuk berjaya']

In [8]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'karangan',
    max_length=256,
    top_k=50, 
    top_p=0.95, ))

["'Kejayaan' bukan sahaja dirasai masyarakat di negara ini tetapi seluruh "
 'masyarakat kita di negara ini kerana ia adalah tulang belakang kejayaan '
 'kokurikulum yang berjaya. Bukan sahaja dalam kalangan pelajar malah '
 'orang-orang tua juga mendapat kejayaan yang sama kerana bangsa kita itu '
 'bersatu padu. Namun, apa yang berlaku di negara kita ibarat telur di hujung '
 'tanduk, selepas seharian kita melangit akibat daripada salah satu impak '
 'negatif daripada kegagalan ini. Jika ditelusuri, kejayaan pelajar '
 'terutamanya dalam akademik tidak akan dapat dicapai jika mereka terus '
 'cemerlang dalam akademik tanpa sokongan moral. Apa yang lebih membimbangkan, '
 'pelajar-pelajar yang cemerlang semakin dipinggirkan kerana tidak mendapat '
 'pendidikan yang sempurna. Kesilapan dalam menghafal dan menafsiran mata '
 'pelajaran ini mungkin disebabkan mereka tidak bersungguh-sungguh dalam '
 'subjek atau program yang disertai. Mereka akan ketagih dan mereka perlu '
 'melalui pelb

In [9]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True, 
    max_length=256, 
    penalty_alpha=0.8, top_k=4,))

['Dalam mendepani arus modenisasi hari ini, pelbagai cabaran yang bakal '
 'menghambat kemajuan negara pada masa kini. Misalnya, pandemik COVID-19 yang '
 'melanda negara telah menyebabkan banyak negara mengalami kemelesetan '
 'ekonomi, pengangguran dan juga kadar pengangguran yang tinggi. Namun '
 'demikian, terdapat segelintir yang langsung tidak mengambil kisah dan '
 'mengambil endah akan nasib yang menimpa negara kita. Sebagai warganegara '
 'Malaysia, kita sewajarnya bersyukur dan bertuah kerana mempunyai pelbagai '
 'kemudahan dan infrastruktur yang cukup baik disamping mengharungi kehidupan '
 'yang sejahtera dan harmoni. Sebagai warganegara Malaysia yang bertuah, kita '
 'haruslah mengharumkan nama negara di mata dunia dengan melakukan pelbagai '
 'aktiviti yang dapat membantu kita untuk menjadi seorang yang lebih baik. '
 'Antara aktiviti yang boleh dilakukan adalah seperti bersukan, sukan, '
 'melepak, dan beriadah bersama-sama. Aktiviti ini adalah penting dalam '
 'membent