# Generator

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/generator](https://github.com/huseinzol05/Malaya/tree/master/example/generator).
    
</div>

In [1]:
%%time
import malaya
from pprint import pprint

CPU times: user 4.74 s, sys: 901 ms, total: 5.64 s
Wall time: 8.03 s


### List available Transformer

<div class="alert alert-warning">

This module trained heavily on news structure.
    
</div>

In [2]:
malaya.generator.available_transformer()

Unnamed: 0,Size (MB),Quantized Size (MB)
t5,1250.0,481.0
small-t5,355.6,195.0


### Load Transformer

Transformer Generator in Malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov, simply just continue prefix input from user, but not for Transformer Generator. We want to generate an article or karangan like high school when the users give 'isi penting'.

```python
def transformer(model: str = 't5', quantized: bool = False, **kwargs):

    """
    Load Transformer model to generate a string given a isu penting.

    Parameters
    ----------
    model : str, optional (default='base')
        Model architecture supported. Allowed values:

        * ``'t5'`` - T5 BASE parameters.
        * ``'small-t5'`` - T5 SMALL parameters.

    quantized : bool, optional (default=False)
        if True, will load 8-bit quantized model. 
        Quantized model not necessary faster, totally depends on the machine.

    Returns
    -------
    result: malaya.model.t5.Generator class
    """
```

In [3]:
model = malaya.generator.transformer(model = 't5', quantized = True)


Instructions for updating:
This function will only be available through the v1 compatibility library as tf.compat.v1.saved_model.loader.load or tf.compat.v1.saved_model.load. There will be a new function for importing SavedModels in Tensorflow 2.0.
INFO:tensorflow:Restoring parameters from /Users/huseinzolkepli/Malaya/generator-sample/t5/base/model/variables/variables


In [4]:
isi_penting = ['Dr M perlu dikekalkan sebagai perdana menteri',
              'Muhyiddin perlulah menolong Dr M',
              'rakyat perlu menolong Muhyiddin']

I just want to test the model given this isi penting, because we all know, Dr M and Muhyiddin are not supporting each others in the real world.

#### generate

```python
def greedy_decoder(self, strings: List[str]):
    """
    generate a long text given a isi penting. 
    Decoder is greedy decoder with beam width size 1, alpha 0.5 .

    Parameters
    ----------
    strings: List[str]

    Returns
    -------
    result: str
    """
```

In [5]:
pprint(model.greedy_decoder(isi_penting))

(': Presiden Bersatu, Tan Sri Muhyiddin Yassin perlu mengekalkan Tun Dr '
 'Mahathir Mohamad sebagai perdana menteri berbanding Datuk Seri Anwar Ibrahim '
 'yang hanya minta bantuan untuk menyelesaikan kemelut kedudukan '
 'negara.Muhyiddin berkata, ini kerana semua pihak tahu masalah yang dihadapi '
 'oleh Perdana Menteri adalah di luar bidang kuasa beliau sendiri.Katanya, '
 'Muhyiddin perlu membantu beliau kerana beliau percaya rakyat Malaysia tahu '
 'apa yang berlaku di luar bidang kuasa beliau."Apa yang berlaku di luar '
 'bidang kuasa Dr Mahathir... semua tahu bahawa ini berlaku di bawah '
 'kepimpinan Anwar."Muhyiddin dan seluruh rakyat yang tahu apa yang berlaku di '
 'Johor."Ini kerana di Johor ini, majoriti menteri-menteri dalam Pakatan '
 'Harapan banyak sangat ketua-ketua parti."Jadi Muhyiddin perlu bantu Dr '
 'Mahathir sebab rakyat tahu apa yang berlaku di Johor Bahru," katanya dalam '
 'satu kenyataan di sini, pada Jumaat.Dalam pada itu, Muhyiddin berkata, '
 'rakyat ju

Pretty good!

In [6]:
isi_penting = ['Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini',
              'Long Tiger sanggup membantu Neelofa',
              'Tiba-tiba Long Tiger bergaduh dengan Husein']

We also can give any isi penting even does not make any sense.

In [7]:
pprint(model.greedy_decoder(isi_penting))

('Kuala Lumpur: Pelakon, Neelofa tetap dengan keputusan dibuat untuk berkahwin '
 'penutup tahun ini, selepas mengadakan pertemuan dengan Long Tiger. Neelofa '
 'atau nama sebenarnya, Mohd Neelofa Ahmad Noor berkata, dia tidak pernah '
 'merancang untuk berkahwin, namun menegaskan dirinya lebih mengutamakan masa '
 'depan. "Saya seronok bersama keluarga. Kalau kami berkahwin awal tahun ini, '
 'ia mengambil masa yang lama. Itu impian saya tetapi biarlah, selepas setahun '
 'saya berehat, saya akan mula bekerja. "Jadi, apabila sering sesi pertemuan '
 'dengan Long Tiger, saya kena tegas mengenai perkara ini. Bukan soal nak '
 'memalukan diri sendiri tetapi siapa yang boleh menghentam saya," katanya '
 'kepada Bh Online. Dalam sesi pertemuan itu, Neelofa yang juga pengacara '
 'acara Top 5, bergaduh dengan Husein, dalam pergaduhan yang berlaku di '
 'Kompleks Mahkamah Tinggi Syariah di sini, baru-baru ini. Ditanya mengenai '
 'hubungannya dengan wanita itu, Neelofa berkata, mereka masih 

How about karangan like high school?

In [8]:
# http://mieadham86.blogspot.com/2016/09/isi-isi-penting-karangan-bahasa-melayu.html
# KEBAIKAN AMALAN BERGOTONG-ROYONG

isi_penting = ['Dapat memupuk semangat kerjasama',
               'Dapat mengeratkan hubungan silaturahim.',
               'Kebersihan kawasan persekitaran terpelihara.',
               'Terhindar daripada wabak penyakit seperti Denggi',
               'Mengisi masa lapang',
               'Menerapkan nilai-nilai murni dalam kehidupan']

In [10]:
pprint(model.greedy_decoder(isi_penting))

('Dewasa ini, kes-kes seumpama denggi semakin menular di kalangan masyarakat. '
 'Justeru, individu yang bertanggungjawab dan berkesan perlu memainkan peranan '
 'penting dalam memastikan persekitaran dalam komuniti terjamin. Persis kata '
 'peribahasa Melayu, melentur buluh biarlah dari rebungnya. Oleh itu, tindakan '
 'yang wajar perlu diambil terutamanya jika kita mengamalkan sikap-sikap di '
 'dalam komuniti supaya kehidupan kita tidak terjejas. Oleh itu, kita perlu '
 'mengamalkan sikap bekerjasama dengan masyarakat dalam memastikan '
 'persekitaran kita selamat. Jika kita sehati, sikap bekerjasama dapat dipupuk '
 'dan dibudayakan dalam masyarakat. Maka, amalan ini secara tidak langsung '
 'mampu membantu kita supaya tidak hidup lebih sejahtera. Pada masa yang sama, '
 'ia juga dapat mengelakkan berlakunya sebarang masalah kesihatan dan '
 'seterusnya membantu yang mungkin akan berlaku pada masa akan datang. '
 'Masyarakat yang prihatin perlu meluahkan perasaan dan menitik beratk

In [11]:
# http://mieadham86.blogspot.com/2016/09/isi-isi-penting-karangan-bahasa-melayu.html
# CARA MENJADI MURID CEMERLANG

isi_penting = ['Rajin berusaha – tidak mudah putus asa',
               'Menghormati orang yang lebih tua – mendapat keberkatan',
               'Melibatkan diri secara aktif dalam bidang kokurikulum',
               'Memberi tumpuan ketika guru mengajar.',
               'Berdisiplin – menepati jadual yang disediakan.',
               'Bercita-cita tinggi – mempunyai keazaman yang tinggi untuk berjaya']

In [12]:
pprint(model.greedy_decoder(isi_penting))

('Sejak akhir-akhir ini, pelbagai isu yang hangat diperkatakan oleh masyarakat '
 'yang berkait dengan sambutan Hari Raya Aidilfitri. Pelbagai faktor yang '
 'melatari perkara yang berlaku dalam kalangan masyarakat hari ini, khususnya '
 'bagi golongan muda. Dikatakan bahawa kehidupan kita hari ini semakin '
 'mencabar terutamanya kesibukan dalam menjalankan tugas dan mengajar. '
 'Justeru, tidak dinafikan apabila semakin jauh kita, semakin ramai yang '
 'memilih untuk lalai atau tidak mematuhi arahan yang telah ditetapkan. '
 'Mendepani cabaran ini, golongan muda terpaksa menempuhi segala cabaran untuk '
 'menjadi lebih baik dan lebih baik. Minda yang perlu diterapkan, terutama di '
 'dalam kelas untuk mempelajari ilmu pengetahuan. Jika tidak, kita akan '
 'menjadi lebih mudah untuk menilai dan menyelesaikan masalah yang dihadapi. '
 'Oleh itu, kita perlu berfikir untuk menetapkan langkah yang patut atau perlu '
 'dilaksanakan bagi mengatasi masalah yang berlaku. Selain itu, guru-guru

### Load GPT2

Malaya provided Pretrained GPT2 model, specific to Malay, we called it GPT2-Bahasa. This interface not able us to use it to do custom training.

GPT2-Bahasa was pretrained on ~0.9 billion words, and below is the list of dataset we trained,

1. [dumping wikipedia (222MB)](https://github.com/huseinzol05/Malaya-Dataset#wikipedia-1).
2. [local news (257MB)](https://github.com/huseinzol05/Malaya-Dataset#public-news).
3. [local parliament text (45MB)](https://github.com/huseinzol05/Malaya-Dataset#parliament).
4. [IIUM Confession (74MB)](https://github.com/huseinzol05/Malaya-Dataset#iium-confession).
5. [Wattpad (74MB)](https://github.com/huseinzol05/Malaya-Dataset#wattpad).
6. [Academia PDF (42MB)](https://github.com/huseinzol05/Malaya-Dataset#academia-pdf).
7. [Common-Crawl (3GB)](https://github.com/huseinzol05/malaya-dataset#common-crawl).

If you want to download pretrained model for GPT2-Bahasa and use it for custom transfer-learning, you can download it here, https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/gpt2, some notebooks to help you get started.

**Here we hope these models are not use to finetune for spreading fake news**.

#### load model

GPT2-Bahasa only available `117M` and `345M` models.

1. `117M` size around 442MB.
2. `345M` is around 1.2GB.

```python
def gpt2(
    model: str = '345M',
    generate_length: int = 256,
    temperature: float = 1.0,
    top_k: int = 40,
    **kwargs
):

    """
    Load GPT2 model to generate a string given a prefix string.

    Parameters
    ----------
    model : str, optional (default='345M')
        Model architecture supported. Allowed values:

        * ``'117M'`` - GPT2 117M parameters.
        * ``'345M'`` - GPT2 345M parameters.

    generate_length : int, optional (default=256)
        length of sentence to generate.
    temperature : float, optional (default=1.0)
        temperature value, value should between 0 and 1.
    top_k : int, optional (default=40)
        top-k in nucleus sampling selection.

    Returns
    -------
    result: malaya.transformers.gpt2.Model class
    """
```

In [3]:
model = malaya.generator.gpt2(model = '117M')

Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where




INFO:tensorflow:Restoring parameters from /Users/huseinzolkepli/Malaya/gpt2/117M/gpt2-bahasa-117M/model.ckpt


In [5]:
string = 'ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, '

#### generate

`model.generate` accepts a string.

```python
def generate(self, string: str):
    """
    generate a text given an initial string.

    Parameters
    ----------
    string : str

    Returns
    -------
    result: str
    """
```

In [4]:
print(model.generate(string))

ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, ara aku yang lain keluar, aku pandang cerita tapi tak ingat, aku takut dan bimbang aku terpaksa marah kerana hati aku yang berada di sekeliling aku tadi tak putus-putus.
Dalam diam, aku juga merasa kagum dan terharu bila aku bangun pagi untuk bangun dan tengok kisah seram ni, masa tu aku terus pandang, bila aku berada dalam bilik yang indah, aku tahu tentang benda yang nak diperkatakan.
“Tu sikit, dengan banyak masa aku nak keluar dan keluar aku dah mula bangun pagi, aku nak keluar lagi, lepas tu nanti terus masuk ke bilik sambil nampak benda yang tak ada yang nak diperkatakan.
Tak tau cerita tu macam benda yang boleh aku buat kalau rasa macam cerita.
Sampai di bilik, aku pun rasa macam, benda yang nak diperkatakan tu bukan benda yang perlu aku buat.
Macam tak percaya apa yang aku buat ni?
Mungkin benda yang nak diperkatakan itu boleh buat aku jugak, cuma benda yang boleh bagi aku kata 

In [6]:
model = malaya.generator.gpt2(model = '345M')

INFO:tensorflow:Restoring parameters from /Users/huseinzolkepli/Malaya/gpt2/345M/gpt2-bahasa-345M/model.ckpt


In [7]:
string = 'ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, '
print(model.generate(string))

ceritanya sebegini, aku bangun pagi baca surat khabar berita harian, tetiba aku nampak cerita seram, omputeh-uteh cerita lama-lama, seram tak boleh bayang
Sebelum kejadian, dalam 2 jam aku buat panggilan polis , lepas tu kira la sendiri nak ke lokasi.
Tengok cerita lama..
Sekarang ni, apa yang aku lalui, kita yang jaga diri, kita yang jaga kesihatan dan juga kita yang jaga minda dalam hidup.
Maka, inilah jalan penyelesaian terbaiknya.
Jangan lupakan manusia
Orang yang paling ditakuti untuk berjaya dalam hidup, tidak akan jumpa yang tersayang!
Jangan rosakkan masa depannya, ingatlah apa yang kita nak buat, walaupun pahit untuk ditelan.
Jangan lupakan orang lain - masa depan mereka.
Jangan lupakan orang - masa itulah kita yang lebih dicintai.
Jangan lupakan orang - orang yang kita sayang, mereka bukan orang yang tersayang!
Jangan lupakan orang - orang yang kita cinta, mereka cinta pada kita.
Jangan lupakan diri - diri kita - yang kita punya, yang kita tinggal adalah masa lalu kita.
Janga

### Using Babble method

We also can generate a text like GPT2 using Transformer-Bahasa. Right now only supported BERT, ALBERT and ELECTRA.

```python
def babble(
    string: str,
    model,
    generate_length: int = 30,
    leed_out_len: int = 1,
    temperature: float = 1.0,
    top_k: int = 100,
    burnin: int = 15,
    batch_size: int = 5,
):
    """
    Use pretrained transformer models to generate a string given a prefix string.
    https://github.com/nyu-dl/bert-gen, https://arxiv.org/abs/1902.04094

    Parameters
    ----------
    string: str
    model: object
        transformer interface object. Right now only supported BERT, ALBERT.
    generate_length : int, optional (default=256)
        length of sentence to generate.
    leed_out_len : int, optional (default=1)
        length of extra masks for each iteration. 
    temperature: float, optional (default=1.0)
        logits * temperature.
    top_k: int, optional (default=100)
        k for top-k sampling.
    burnin: int, optional (default=15)
        for the first burnin steps, sample from the entire next word distribution, instead of top_k.
    batch_size: int, optional (default=5)
        generate sentences size of batch_size.

    Returns
    -------
    result: List[str]
    """
```

Make sure you already installed `tensorflow-probability`,

```bash
pip3 install tensorflow-probability==0.7.0
```

In [10]:
# !pip3 install tensorflow-probability==0.7.0

In [3]:
electra = malaya.transformer.load(model = 'electra')


Instructions for updating:
Use keras.layers.Dense instead.
Instructions for updating:
Please use `layer.__call__` method instead.


Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
Instructions for updating:
Use `tf.random.categorical` instead.






INFO:tensorflow:Restoring parameters from /Users/huseinzolkepli/Malaya/electra-model/base/electra-base/model.ckpt


In [11]:
malaya.generator.babble(string, electra)

['ceritanya sebegini , aku bangun pagi baca surat khabar berita harian , tetiba aku nampak cerita seram , terseksa juga hidup di sekeliling aku . Diorang tak tahu sebab diorang tahu titik hitam yang mana kita tengok dari mana kita sendiri nampak cerita ke . Haih .',
 'ceritanya sebegini , aku bangun pagi baca surat khabar berita harian , tetiba aku nampak cerita seram , tengah baca benda besar pasal bumbung bilik . Rasanya sejuk macam pulau harapan . So aku baca cerita seram pelik . Jadi sedih juga dengar cerita seram seram ni .',
 'ceritanya sebegini , aku bangun pagi baca surat khabar berita harian , tetiba aku nampak cerita seram , lalu ibu ambil pusing bagi buku sejarah . Dah baca marsh pastu aku dah buat thread seram , ada dalam masa terdekat baru bangun . Sedih , hidup lagi',
 'ceritanya sebegini , aku bangun pagi baca surat khabar berita harian , tetiba aku nampak cerita seram , mesti seram sampai aku ikut takdir Allah bagi betul2 aib kita kembali menulis mengenai kisah cinta ak

### ngrams

You can generate ngrams pretty easy using this interface,

```python
def ngrams(
    sequence,
    n: int,
    pad_left = False,
    pad_right = False,
    left_pad_symbol = None,
    right_pad_symbol = None,
):
    """
    generate ngrams.

    Parameters
    ----------
    sequence : List[str]
        list of tokenize words.
    n : int
        ngram size

    Returns
    -------
    ngram: list
    """
```

In [6]:
string = 'saya suka makan ayam'

list(malaya.generator.ngrams(string.split(), n = 2))

[('saya', 'suka'), ('suka', 'makan'), ('makan', 'ayam')]

In [7]:
list(malaya.generator.ngrams(string.split(), n = 2, pad_left = True, pad_right = True))

[(None, 'saya'),
 ('saya', 'suka'),
 ('suka', 'makan'),
 ('makan', 'ayam'),
 ('ayam', None)]

In [8]:
list(malaya.generator.ngrams(string.split(), n = 2, pad_left = True, pad_right = True,
                            left_pad_symbol = 'START'))

[('START', 'saya'),
 ('saya', 'suka'),
 ('suka', 'makan'),
 ('makan', 'ayam'),
 ('ayam', None)]

In [8]:
list(malaya.generator.ngrams(string.split(), n = 2, pad_left = True, pad_right = True,
                            left_pad_symbol = 'START', right_pad_symbol = 'END'))

[('START', 'saya'),
 ('saya', 'suka'),
 ('suka', 'makan'),
 ('makan', 'ayam'),
 ('ayam', 'END')]