In [1]:
%%time
import malaya

CPU times: user 4.21 s, sys: 879 ms, total: 5.08 s
Wall time: 5.46 s


## Wordvector augmentation

Let say you have a very limited labelled corpus, and you want to add more, but labelling is very costly.

So, text augmentation! You can use wordvector to replace words with similar semantics!

```python
def wordvector_augmentation(
    string,
    wordvector,
    threshold = 0.5,
    top_n = 5,
    soft = False,
    cleaning_function = None,
):
    """
    augmenting a string using wordvector.

    Parameters
    ----------
    string: str
    wordvector: object
        wordvector interface object.
    threshold: float, optional (default=0.5)
        random selection for a word.
    soft: bool, optional (default=False)
        if True, a word not in the dictionary will be replaced with nearest jarowrinkler ratio.
        if False, it will throw an exception if a word not in the dictionary.
    top_n: int, (default=5)
        number of nearest neighbors returned.
    cleaning_function: function, (default=None)
        function to clean text.

    Returns
    -------
    result: list
    """
```  

In [2]:
string = 'saya suka makan ayam dan ikan'

In [3]:
embedded_wiki = malaya.wordvector.load_wiki()
word_vector_wiki = malaya.wordvector.load(embedded_wiki['nce_weights'], embedded_wiki['dictionary'])





In [4]:
augmented = malaya.generator.wordvector_augmentation(string,
                                  word_vector_wiki,
                                  soft=True)
augmented

['saya suka makan ayam dan ikan',
 'anda gemar minum itik atau kerang',
 'kami pandai mengeram kambing serta daging',
 'kamu sanggup mengunyah lembu ataupun ayam',
 'kita terpesona memakan arnab mahupun udang']

In [5]:
text = 'Perdana Menteri berkata, beliau perlu memperoleh maklumat terperinci berhubung isu berkenaan sebelum kerajaan dapat mengambil sebarang tindakan lanjut. Bagaimanapun, beliau yakin masalah itu dapat diselesaikan dan pentadbiran kerajaan boleh berfungsi dengan baik.'

In [6]:
augmented = malaya.generator.wordvector_augmentation(text,
                                  word_vector_wiki,
                                  soft=True)
augmented

['Perdana Menteri berkata , beliau perlu memperoleh maklumat terperinci berhubung isu berkenaan sebelum kerajaan dapat mengambil sebarang tindakan lanjut . Bagaimanapun , beliau yakin masalah itu dapat diselesaikan dan pentadbiran kerajaan boleh berfungsi dengan baik .',
 'Perdana Menteri berkata , dia perlu memperoleh informasi teliti berhubung isu berkenaan sebelum kerajaan boleh mengambil suatu perbuatan lanjut . Bagaimanapun , dia yakin masaalah itu dapat diselesaikan atau pentadbiran kerajaan boleh beroperasi dengan baiknya .',
 'Perdana Menteri berkata , mereka perlu memperoleh data sistematik berhubung isu berkenaan sebelum kerajaan harus mengambil sesuatu perlakuan lanjut . Bagaimanapun , mereka yakin permasalahan itu dapat diselesaikan serta pentadbiran kerajaan boleh bertindak dengan hebat .',
 'Perdana Menteri berkata , baginda perlu memperoleh perincian ekstensif berhubung isu berkenaan sebelum kerajaan mampu mengambil pelbagai sikap lanjut . Bagaimanapun , baginda yakin ke

## Transformer augmentation

Problem with wordvector, it just replaced a word for near synonym without understood the whole sentence context, so, Transformer comes to the rescue!

```python
def transformer_augmentation(
    string,
    model,
    threshold = 0.5,
    top_p = 0.8,
    top_k = 100,
    temperature = 0.8,
    top_n = 5,
    cleaning_function = None,
):

    """
    augmenting a string using transformer + nucleus sampling / top-k sampling.

    Parameters
    ----------
    string: str
    model: object
        transformer interface object. Right now only supported BERT.
    threshold: float, optional (default=0.5)
        random selection for a word.
    top_p: float, optional (default=0.8)
        cumulative sum of probabilities to sample a word. If top_n bigger than 0, the model will use nucleus sampling, else top-k sampling.
    top_k: int, optional (default=100)
        k for top-k sampling.
    temperature: float, optional (default=0.8)
        logits * temperature.
    top_n: int, (default=5)
        number of nearest neighbors returned.
    cleaning_function: function, (default=None)
        function to clean text.

    Returns
    -------
    result: list
    """
```    

In [7]:
model = malaya.transformer.load(model = 'bert', size = 'small')





The TensorFlow contrib module will not be included in TensorFlow 2.0.
For more information, please see:
  * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md
  * https://github.com/tensorflow/addons
  * https://github.com/tensorflow/io (for I/O related ops)
If you depend on functionality not listed there, please file an issue.

Instructions for updating:
Use keras.layers.Dense instead.
Instructions for updating:
Please use `layer.__call__` method instead.
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
Instructions for updating:
Use `tf.random.categorical` instead.





INFO:tensorflow:Restoring parameters from /Users/huseinzolkepli/Malaya/bert-model/small/bert-small-v2/model.ckpt


In [8]:
augmented = malaya.generator.transformer_augmentation(text, model)
augmented

['Perdana Menteri berkata, beliau telah mendapatkan maklumat terperinci mengenai perkara berkenaan supaya kerajaan tidak mengambil sebarang tindakan.. Bagaimanapun, beliau yakin isu itu dapat diselesaikan dan pastinya kerajaan boleh berfungsi dengan baik.',
 'Perdana Menteri berkata, beliau akan mendapatkan maklumat terperinci berhubung perkara berkenaan supaya kerajaan tidak mengambil sebarang tindakan segera. Bagaimanapun, beliau yakin isu itu dapat diselesaikan dan diharap kerajaan boleh berfungsi dengan baik.',
 'Perdana Menteri berkata, beliau akan memberikan maklumat terperinci berhubung isu berkenaan agar kerajaan perlu mengambil sebarang tindakan.. Bagaimanapun, beliau yakin perkara itu dapat diselesaikan dan berharap kerajaan boleh berfungsi dengan baik.',
 'Perdana Menteri berkata, beliau akan memberikan maklumat terperinci berhubung perkara berkenaan dan kerajaan akan mengambil sebarang tindakan sewajarnya. Bagaimanapun, beliau yakin perkara itu dapat diselesaikan dan berhar