# Kesalahan Tatabahasa

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/tatabahasa](https://github.com/huseinzol05/Malaya/tree/master/example/tatabahasa).
    
</div>

<div class="alert alert-warning">

This module only trained on standard language structure, so it is not save to use it for local language structure.
    
</div>

In [1]:
import logging

logging.basicConfig(level=logging.INFO)

In [2]:
import malaya
from pprint import pprint

INFO:numexpr.utils:NumExpr defaulting to 8 threads.


### List available Transformer models

In [3]:
malaya.tatabahasa.available_transformer()

INFO:malaya.tatabahasa:tested on 7.5k generated dataset at https://github.com/huseinzol05/malaya/blob/master/session/tatabahasa/t5/prepare-tatabahasa.ipynb


Unnamed: 0,Size (MB),Quantized Size (MB),WER
t5,1250.0,481.0,0.01789
small-t5,355.6,195.0,0.018797
tiny-t5,208.0,103.0,0.032804
super-tiny-t5,81.8,27.1,0.035114
3x-super-tiny-t5,18.3,4.46,0.036762


### Load Transformer model

```python
def transformer(model: str = 'small-t5', quantized: bool = False, **kwargs):
    """
    Load Malaya transformer encoder-decoder model to correct a `kesalahan tatabahasa` text.

    Parameters
    ----------
    model : str, optional (default='small-t5')
        Model architecture supported. Allowed values:

        * ``'t5'`` - T5 BASE parameters.
        * ``'small-t5'`` - T5 SMALL parameters.
        * ``'tiny-t5'`` - T5 TINY parameters.
        * ``'super-tiny-t5'`` - T5 SUPER TINY parameters.
        * ``'3x-super-tiny-t5'`` - T5 3X SUPER TINY parameters.

    quantized : bool, optional (default=False)
        if True, will load 8-bit quantized model.
        Quantized model not necessary faster, totally depends on the machine.

    Returns
    -------
    result: model
        List of model classes:

        * if `t5` in model, will return `malaya.model.t5.Tatabahasa`.
    """
```

In [3]:
model = malaya.tatabahasa.transformer(model = 'small-t5')

INFO:root:running kesalahan-tatabahasa/small-t5 using device /device:CPU:0


### Predict using greedy decoder

```python
def greedy_decoder(self, strings: List[str]):
    """
    fix kesalahan tatabahasa.

    Parameters
    ----------
    strings: List[str]

    Returns
    -------
    result: List[str]
    """
```

In [4]:
# https://ms.wikipedia.org/wiki/Bola_sepak
string = 'Pada amnya, hanya penjaga gol sahaja yang dibenarkan menyentuh bola dengan tangan di dalam kawasan golnya'

In [5]:
model.greedy_decoder([string])

['Pada amnya , hanya penjaga gol sahaja yang dibenarkan menyentuh bola dengan tangan di dalam kawasan golnya']

Now assumed we have kesalahan frasa nama, from `penjaga gol` become `gol penjaga`.

In [6]:
# https://ms.wikipedia.org/wiki/Bola_sepak
string = 'Pada amnya, hanya gol penjaga sahaja yang dibenarkan menyentuh bola dengan tangan di dalam kawasan golnya'

In [7]:
model.greedy_decoder([string])

['Pada amnya , hanya penjaga gol sahaja yang dibenarkan menyentuh bola dengan tangan di dalam kawasan golnya']

In [8]:
string = 'Sani mendapat markah yang tertinggi sekali.'
string1 = 'Hassan ialah peserta yang termuda sekali dalam pertandingan itu.'
model.greedy_decoder([string, string1])

['Sani mendapat markah yang tertinggi .',
 'Hassan ialah peserta yang termuda dalam pertandingan itu .']

In [19]:
string = 'Dia kata kepada saya.'
model.greedy_decoder([string])

['Dia berkata kepada saya .']

### More examples

I just copy pasted from https://ms.wikipedia.org/wiki/Kesalahan_biasa_tatabahasa_Melayu

In [11]:
string = 'Tidak ada apa yang mereka risaukan waktu itu.'
model.greedy_decoder([string])

['Tidak ada apa yang mereka risaukan waktu itu .']

In [12]:
string = 'Ayahnya setuju walaupun melanggar syarat yang dia sendiri menetapkan.'
model.greedy_decoder([string])

['Ayahnya setuju walaupun melanggar syarat yang dia sendiri menetapkan .']

In [14]:
string = 'Semuanya dia kenal.'
model.greedy_decoder([string])

['Semuanya dia kenal .']

In [15]:
string = 'Dia menjawab seperti disuruh-suruh oleh kuasa yang dia tidak tahu dari mana puncanya.'
model.greedy_decoder([string])

['Dia menjawab seperti disuruh-suruh oleh kuasa yang dia tidak tahu dari mana puncanya .']

In [16]:
string = 'Bola ini ditendang oleh saya.'
model.greedy_decoder([string])

['Bola ini ditendang oleh saya .']

In [17]:
string = 'Makanan ini kamu telah makan?'
model.greedy_decoder([string])

['Makanan ini kamu telah makan .']

In [18]:
string = 'Segala perubahan yang berlaku kita akan menghadapi sama-sama.'
model.greedy_decoder([string])

['Segala perubahan yang berlaku kita akan menghadapi sama-sama .']

In [20]:
string = 'Kakak saya sedang memasak gulai nangka. Dia menyenduk seketul nangka gulai dan menyuruh saya merasanya.'
model.greedy_decoder([string])

['Kakak saya sedang memasak gulai nangka . Dia menyenduk seketul gulai nangka dan menyuruh saya merasanya .']

In [22]:
string = 'Sally sedang membaca bila saya tiba di rumahnya.'
model.greedy_decoder([string])

['Sally sedang membaca bila dia tiba di rumahnya .']

In [23]:
string = 'Badannya besar kecuali kakinya kecil.'
model.greedy_decoder([string])

['Badannya besar dan kakinya kecil .']

In [24]:
string = 'Beribu peniaga tidak membayar cukai pendapatan.'
model.greedy_decoder([string])

['Beribu peniaga tidak membayar cukai pendapatan .']

In [25]:
string = 'Setengah remaja suka membuang masa di pasar raya.'
model.greedy_decoder([string])

['Setengah remaja suka membuang masa di pasar raya .']

In [26]:
string = 'Umar telah berpindah daripada sekolah ini bulan lalu.'
model.greedy_decoder([string])

['Umar telah berpindah ke sekolah ini bulan lalu .']

In [28]:
string = 'Para-para peserta sedang berbaris.'
model.greedy_decoder([string])

['Para peserta sedang berbaris .']