In [1]:
import malaya

In [2]:
string = 'KUALA LUMPUR: Sempena sambutan Aidilfitri minggu depan, Perdana Menteri Tun Dr Mahathir Mohamad dan Menteri Pengangkutan Anthony Loke Siew Fook menitipkan pesanan khas kepada orang ramai yang mahu pulang ke kampung halaman masing-masing. Dalam video pendek terbitan Jabatan Keselamatan Jalan Raya (JKJR) itu, Dr Mahathir menasihati mereka supaya berhenti berehat dan tidur sebentar  sekiranya mengantuk ketika memandu.'

## Cluster same word structure based on POS and Entities

In [3]:
bahdanau_entities = malaya.entity.deep_model('bahdanau')
bahdanau_pos = malaya.pos.deep_model('bahdanau')

In [4]:
result_entities = bahdanau_entities.predict(string)
result_pos = bahdanau_pos.predict(string)

In [5]:
from malaya.cluster import cluster_words, pos_entities_ngram

In [6]:
generated_grams = pos_entities_ngram(
    result_pos,
    result_entities,
    ngram = (1, 3),
    accept_pos = ['NOUN', 'PROPN', 'VERB'],
    accept_entities = ['law', 'location', 'organization', 'person', 'time'],
)
generated_grams

['pengangkutan anthony',
 'khas orang pulang',
 'terbitan jabatan keselamatan',
 'dr mahathir menasihati',
 'tidur sekiranya mengantuk',
 'kuala',
 'raya',
 'berehat',
 'jalan',
 'berhenti',
 'video',
 'pulang kampung',
 'dr',
 'menasihati',
 'mengantuk',
 'depan perdana menteri',
 'memandu',
 'mohamad menteri pengangkutan',
 'jabatan',
 'siew',
 'mahathir menasihati',
 'menteri tun dr',
 'kampung halaman masing-masing',
 'menteri tun',
 'sekiranya mengantuk memandu',
 'khas',
 'mohamad menteri',
 'halaman',
 'berhenti berehat',
 'khas orang',
 'jalan raya',
 'raya jkjr dr',
 'terbitan',
 'pesanan',
 'minggu depan',
 'siew fook menitipkan',
 'orang',
 'halaman masing-masing',
 'mengantuk memandu',
 'fook menitipkan pesanan',
 'mohamad',
 'kampung',
 'fook menitipkan',
 'video terbitan',
 'minggu',
 'video terbitan jabatan',
 'kuala lumpur sempena',
 'tun dr',
 'jkjr dr mahathir',
 'sambutan aidilfitri minggu',
 'berhenti berehat tidur',
 'loke siew fook',
 'loke siew',
 'kuala lumpur',

In [7]:
cluster_words(generated_grams)

['khas orang pulang',
 'terbitan jabatan keselamatan',
 'sekiranya mengantuk memandu',
 'orang pulang kampung',
 'masing-masing video terbitan',
 'dr mahathir menasihati',
 'menteri pengangkutan anthony',
 'tidur sekiranya mengantuk',
 'mahathir menasihati berhenti',
 'tun dr mahathir',
 'minggu depan perdana',
 'raya jkjr dr',
 'halaman masing-masing video',
 'siew fook menitipkan',
 'jalan raya jkjr',
 'menteri tun dr',
 'lumpur sempena sambutan',
 'aidilfitri minggu depan',
 'sempena sambutan aidilfitri',
 'pengangkutan anthony loke',
 'fook menitipkan pesanan',
 'jabatan keselamatan jalan',
 'menitipkan pesanan khas',
 'depan perdana menteri',
 'pulang kampung halaman',
 'video terbitan jabatan',
 'kuala lumpur sempena',
 'berehat tidur sekiranya',
 'mohamad menteri pengangkutan',
 'menasihati berhenti berehat',
 'jkjr dr mahathir',
 'perdana menteri tun',
 'pesanan khas orang',
 'sambutan aidilfitri minggu',
 'anthony loke siew',
 'berhenti berehat tidur',
 'loke siew fook',
 'dr 

## Cluster POS and Entities

In [8]:
from malaya.cluster import cluster_pos, cluster_entities

In [9]:
cluster_pos(result_pos)

{'ADJ': ['depan perdana', 'khas', 'ramai', 'pendek'],
 'ADP': ['kepada', 'ke', 'dalam'],
 'ADV': ['mahu', 'sebentar'],
 'ADX': [],
 'CCONJ': ['dan'],
 'DET': ['itu'],
 'NOUN': ['sambutan',
  'menteri',
  'menitipkan',
  'orang',
  'kampung halaman',
  'video',
  'terbitan jabatan keselamatan jalan raya jkjr'],
 'NUM': [],
 'PART': [],
 'PRON': ['yang', 'mereka'],
 'PROPN': ['kuala lumpur sempena',
  'aidilfitri minggu',
  'tun dr mahathir mohamad',
  'pengangkutan anthony loke siew fook',
  'masing-masing',
  'dr mahathir',
  'berehat',
  'sekiranya mengantuk'],
 'SCONJ': ['supaya', 'ketika'],
 'SYM': [],
 'VERB': ['pesanan', 'pulang', 'menasihati', 'berhenti', 'tidur'],
 'X': []}

In [10]:
cluster_entities(result_entities)

{'OTHER': ['sempena',
  'dan',
  'pengangkutan',
  'menitipkan pesanan',
  'kepada',
  'ramai yang mahu pulang ke kampung',
  'masing-masing dalam video pendek terbitan',
  'itu'],
 'law': [],
 'location': ['kuala lumpur', 'halaman'],
 'organization': ['khas', 'orang', 'jabatan keselamatan jalan raya jkjr'],
 'person': ['perdana menteri tun dr mahathir mohamad',
  'menteri',
  'anthony loke siew fook',
  'dr mahathir'],
 'quantity': [],
 'time': ['minggu depan'],
 'event': ['sambutan aidilfitri']}

## Generate ngrams

In [11]:
from malaya.cluster import sentence_ngram

In [12]:
sentence_ngram(string, ngram = (3, 5))

['video pendek terbitan',
 'menitipkan pesanan khas kepada',
 'tidur sebentar sekiranya',
 'sekiranya mengantuk ketika',
 '(JKJR) itu, Dr',
 'supaya berhenti berehat dan',
 'yang mahu pulang ke',
 'halaman masing-masing. Dalam video pendek',
 'pendek terbitan Jabatan Keselamatan',
 'Loke Siew Fook',
 'ramai yang mahu',
 'mengantuk ketika memandu.',
 'Jabatan Keselamatan Jalan Raya',
 'ke kampung halaman masing-masing. Dalam',
 'berhenti berehat dan',
 'LUMPUR: Sempena sambutan Aidilfitri',
 'minggu depan, Perdana',
 'Raya (JKJR) itu, Dr',
 'Sempena sambutan Aidilfitri minggu depan,',
 'Mohamad dan Menteri Pengangkutan Anthony',
 'Dr Mahathir Mohamad',
 'masing-masing. Dalam video pendek terbitan',
 'depan, Perdana Menteri',
 'menasihati mereka supaya berhenti',
 'Dalam video pendek terbitan Jabatan',
 'sebentar sekiranya mengantuk ketika memandu.',
 'ke kampung halaman masing-masing.',
 'sebentar sekiranya mengantuk ketika',
 'Tun Dr Mahathir Mohamad',
 'Loke Siew Fook menitipkan',
 't