In [1]:
import os

os.environ['CUDA_VISIBLE_DEVICES'] = ''

In [2]:
import malaya

In [3]:
from malaya.text.function import remove_html_tags

In [4]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained('mesolitica/t5-small-standard-bahasa-cased')

In [5]:
from glob import glob

checkpoints = sorted(glob('finetune-t5-base-standard-bahasa-cased-v2/checkpoint-*'))
checkpoints

['finetune-t5-base-standard-bahasa-cased-v2/checkpoint-456000',
 'finetune-t5-base-standard-bahasa-cased-v2/checkpoint-458000']

In [6]:
model = T5ForConditionalGeneration.from_pretrained(checkpoints[-1])

In [7]:
isi_penting = ['Dr M perlu dikekalkan sebagai perdana menteri',
              'Muhyiddin perlulah menolong Dr M',
              'rakyat perlu menolong Muhyiddin']

In [8]:
from unidecode import unidecode

def remove_repeat_fullstop(string):
    return ' '.join([unidecode(k.strip()) for k in string.split('.') if len(k.strip())])

In [9]:
points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'tajuk-surat-khabar: {points}'
points

'tajuk-surat-khabar: 1. Dr M perlu dikekalkan sebagai perdana menteri. 2. Muhyiddin perlulah menolong Dr M. 3. rakyat perlu menolong Muhyiddin.'

In [10]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids, do_sample=True,
    max_length=256,
    top_k=0,
    temperature=0.5)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Bekas Perdana Menteri, Tan Sri Muhyiddin Yassin menegaskan, Dr Mahathir Mohamad perlu dikekalkan sebagai perdana menteri sehingga pilihan raya umum akan datang. Beliau juga menjelaskan, Dr Mahathir perlulah menolong Dr Mahathir dan kerajaan Perikatan Nasional (PN) untuk memulihkan ekonomi negara. "Ini merupakan satu amanah yang harus dipikul oleh Dr Mahathir dan kerajaan PN. "Rakyat perlu menolong Muhyiddin untuk memulihkan ekonomi negara dan memulihkan ekonomi negara," katanya dalam satu hantaran di laman Facebooknya pada Khamis.'

In [11]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids, do_sample=True,
    max_length=256,
    top_k=50, 
    top_p=0.95)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'KUALA LUMPUR:Tun Dr Mahathir Mohamad seharusnya terus kekal sebagai perdana menteri sebagai Presiden PKR dan menjadi Pengerusi Pakatan Harapan, kata Penganalisis Politik, Mujibu Abd Muis. "Bagi rakyat pula, Dr Mahathir perlulah membela Dr M atau menjadi perdana menteri lagi. Bagi Presiden Pakatan Harapan, Datuk Seri Anwar Ibrahim pula, Dr Mahathir perlu kekal sebagai presiden parti. Selain itu, Setiausaha Agung UMNO, Tan Sri Annuar Musa berkata, Dr Mahathir juga perlu terus menjadi presiden parti. "Dr Mahathir juga perlu terus kekal sebagai presiden parti. Untuk rakyat juga, rakyat perlu menolong," ujarnya.'

In [12]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,do_sample=True,
    max_length=256, 
    penalty_alpha=0.8, top_k=4)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Perdana Menteri Tan Sri Muhyiddin Yassin perlu dikekalkan sebagai perdana menteri sehingga tamat penggal ini, kata Presiden PKR, Datuk Seri Anwar Ibrahim. Menurut beliau, jika Dr Mahathir kekal, beliau perlulah menolong Dr M. Ini kerana, katanya, Dr Mahathir tidak pernah mendesak agar beliau meletak jawatan. Anwar juga menegaskan, Dr Mahathir perlu diberi peluang untuk mentadbir negara. "Jika beliau mahu kekal sebagai perdana menteri sehingga tamat penggal ini, Dr Mahathir juga boleh berbuat demikian," katanya dalam satu sidang media, di sini, pada Isnin.'

In [13]:
isi_penting = ['Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini',
              'Long Tiger sanggup membantu Neelofa',
              'Tiba-tiba Long Tiger bergaduh dengan Husein']

points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'surat-khabar: {points}'
points

'surat-khabar: 1. Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini. 2. Long Tiger sanggup membantu Neelofa. 3. Tiba-tiba Long Tiger bergaduh dengan Husein.'

In [14]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
    max_length=256, 
    penalty_alpha=0.8, top_k=4)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'PELAKON NeelOne tetap dengan keputusan untuk berkahwin akhir tahun ini walaupun berdepan kontroversi dengan teman lelakinya Husein. Long Tiger sanggup membantu bekas isterinya itu, kata akreviti TV Alhijrah itu, dia dan isteri, Farah Nabilah Mohd. Farah, 32, tidak mahu bergaduh sesama sendiri. Tiba-tiba Long Tiger bergaduh dengan Husebin di rumah mereka di Petaling Jaya baru-baru ini". Dia tak nak bergaduh," katanya seperti dilaporkan portal Berita Harian hari ini. BACA SEMUA MENGENAI KRISIF PERKEMBANGAN POLITIES DI LAMAN MIKRO INI BACA: Didakwa menjadi mangsa buli siber, Farah Nabilah sah bergelar isteri kepada Wan Nur Farah Awaludin Dalam pada itu, menerusi perkongsian di Instagramnya, Farah turut memuat naik video yang menunjukkan pasangan itu saling bergurau senda di atas pentas bersama-Samad dan Wan Nur Farah Awaludin. View this post on Instagram I am happy to announce our marriage ended 2018 and we\'ve met a couple in the same time, both of us.'

In [15]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.95, )
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'PELAKON dan pengacara Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini selepas melihat keakraban anak mereka, Husein. Tiba-tiba Long Tiger itu bergaduh dengan Husein. "Terkejut sebab Long Tiger begitu rapat dengan anak kami," kata Neelofa kepada Astro Gempak. "Sepanjang tempoh saya bersama isteri selama tiga bulan, memang kami berbeza. "Tak dinafikan, ada anak-anak dan keluarga saya juga mempunyai hubungan yang baik seperti kami. "Bagaimanapun, kami sudah berkahwin dan masih mengekalkan hubungan baik dengan suami walaupun mereka masih belum mempelai"! tambah Neelofa. Namun, ada juga peminat yang mendoakan agar hubungan yang terjalin dengan Long Tiger dipermudahkan. "Sepanjang Ramadan ini, peminat sedang mendoakan agar kami dikurniakan rezeki pada bulan yang mulia ini. "Malah, ada juga yang mendoakan agar kami menjadi lebih baik lagi. "Terima kasih semua. Selamat menyambut Hari Raya Aidilfitri dan selamat menyambut Aidilfitri buat saya dan isteri. Terima kasih banyak-bany

In [16]:
isi_penting = ['Dapat memupuk semangat kerjasama',
               'Dapat mengeratkan hubungan silaturahim.',
               'Kebersihan kawasan persekitaran terpelihara.',
               'Terhindar daripada wabak penyakit seperti Denggi',
               'Mengisi masa lapang',
               'Menerapkan nilai-nilai murni dalam kehidupan']

points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'karangan: {points}'
points

'karangan: 1. Dapat memupuk semangat kerjasama. 2. Dapat mengeratkan hubungan silaturahim. 3. Kebersihan kawasan persekitaran terpelihara. 4. Terhindar daripada wabak penyakit seperti Denggi. 5. Mengisi masa lapang. 6. Menerapkan nilai-nilai murni dalam kehidupan.'

In [17]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.95, )
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Sejak dua dan tiga dekad kebelakangan ini, Malaysia mengalami perubahan daripada sebuah negara yang amat pesat membangun kepada sebuah negara yang pesat membangun dengan populasi rakyat yang berbilang kaum. Kepelbagaian etnik dan agama yang terdapat di negara kita telah membentuk masyarakat yang harmoni dan hidup dalam keadaan aman damai. Kemajmukan masyarakat semakin dirasai dengan adanya hubungan yang baik antara kaum serta masyarakat yang saling tolong-menolong antara satu sama lain. Sebagai rakyat Malaysia yang bertuah, kita haruslah menghargai dan memberi penghargaan kepada diri kita sendiri atas nikmat yang telah dikurniakan oleh Allah. Dalam konteks yang berlainan pula, kita juga haruslah bekerjasama demi membangunkan negara. Kita haruslah membuka ruang yang luas kepada orang-orang yang mempunyai sifat-sifat murni ini untuk bersama-sama membangunkan negara. Jika ditelusuri, nilai-nilai murni dalam kehidupan adalah nilai-nilai yang penting seperti toleransi, saling bekerjasama, 

In [18]:
isi_penting = ['Rajin berusaha – tidak mudah putus asa',
               'Menghormati orang yang lebih tua – mendapat keberkatan',
               'Melibatkan diri secara aktif dalam bidang kokurikulum',
               'Memberi tumpuan ketika guru mengajar.',
               'Berdisiplin – menepati jadual yang disediakan.',
               'Bercita-cita tinggi – mempunyai keazaman yang tinggi untuk berjaya']

points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'karangan: {points}'
points

'karangan: 1. Rajin berusaha - tidak mudah putus asa. 2. Menghormati orang yang lebih tua - mendapat keberkatan. 3. Melibatkan diri secara aktif dalam bidang kokurikulum. 4. Memberi tumpuan ketika guru mengajar. 5. Berdisiplin - menepati jadual yang disediakan. 6. Bercita-cita tinggi - mempunyai keazaman yang tinggi untuk berjaya.'

In [19]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        penalty_alpha=0.8, top_k=4, max_length = 128)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Mutisan modenisasi hari ini menjadikan pelbagai perkara seperti masa luang baru di alam maya menjadi semakin rancak dan pelbagai cabaran serta rintangan yang dihadapi para pelajar. Jika ditelusuri, golongan yang berpelajaran di institusi pengajian tinggi lazimnya mempunyai masalah untuk menghadapi peperiksaan atau mata Pelajaran yang subjektif atau subjek teras seperti Matematik, Bahasa Inggeris dan Sains. Sebagai warganegara kelas pertama, kita seharusnya menjadi contoh dan ikutan pelajar-pelajar di peringkat sekolah rendah dan menengah dalam bidang kemahiran dan kesukarelawanan seperti memasak, menjahit dan berniaga. Kegiatan-kegiatan yang bermanfaat kepada diri dan juga masyarakat seharusnya dititikber'

In [20]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        do_sample=True, 
    max_length=128, 
    top_k=50, 
    top_p=0.95, )
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Malaysia telah melalui fasa pembaharuan yang panjang berbanding sebelum ini. Kemajmukan masyarakat semakin dikecapi dan melahirkan ramai individu yang mempunyai pencapaian yang cemerlang. Kemajmukan masyarakat semakin menjadi kepunyaan kepada golongan muda hari ini kerana mereka mempunyai cita-cita dan impian yang ingin dicapai sehingga mereka mampu berdiri sama tinggi dengan negara yang maju. Begitu juga dengan bangsa yang telah berjaya mengharumkan nama negara dan menjadi kebanggaan rakyat Malaysia apabila berjaya mengekalkan momentum dalam bidang akademik dan kokurikulum sehingga mendapat keputusan cemerlang dalam peperiksaan yang disertai. Namun, hari ini kita tidak dapat melihat dengan mata kasar rancangan pembangunan negara yang diterajui oleh kerajaan kerana kegagalan'

In [21]:
isi_penting = ['ayam sedap',
               'ayam yang lembut',
               'ayam bersih',
               'campuran herba yang sedap',
              'anda boleh mandi bersama dengan ayam untuk kulit yang lebih licin dan gebu']

points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'penerangan-produk: {points}'
points

'penerangan-produk: 1. ayam sedap. 2. ayam yang lembut. 3. ayam bersih. 4. campuran herba yang sedap. 5. anda boleh mandi bersama dengan ayam untuk kulit yang lebih licin dan gebu.'

In [22]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        penalty_alpha=0.8, top_k=4, max_length = 128)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Ayam yang disumbat dengan kismica, bawang putih, lavenzuela dan campuran herbetik yang sedap dan berkhasiat yang boleh anda rasakan untuk diri sendiri atau orang yang anda sayangi. Anda boleh mandi bersama dengan ayam untuk kulit yang lebih licin dan gelatin, ayam sedap. Dirumuskan secara saintifik dengan ramuan-asas yang berasal dari alam semula jadi, ayam yang disumbat dengan kismica, bawang putih, lavenzuela dan campuran herba yang sedap dan berargumentasi boleh digunakan dalam sup ayam, sup ayam, salad dan banyak lagi.'

In [23]:
remove_html_tags(t)

'Ayam yang disumbat dengan kismica, bawang putih, lavenzuela dan campuran herbetik yang sedap dan berkhasiat yang boleh anda rasakan untuk diri sendiri atau orang yang anda sayangi. Anda boleh mandi bersama dengan ayam untuk kulit yang lebih licin dan gelatin, ayam sedap. Dirumuskan secara saintifik dengan ramuan-asas yang berasal dari alam semula jadi, ayam yang disumbat dengan kismica, bawang putih, lavenzuela dan campuran herba yang sedap dan berargumentasi boleh digunakan dalam sup ayam, sup ayam, salad dan banyak lagi.'

In [24]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        do_sample=True, 
    max_length=256, 
    top_k=50, 
    top_p=0.9)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'Semua ramuan ini telah ditambahkan untuk kulit, kaldu dan kulit. Anda boleh mencampurkan dengan baik, dan dengan pelbagai ramuan, anda boleh mandi bersama dengan ayam untuk kulit yang lebih licin dan gebu. Dibungkus dengan ayam sedap. Ayam yang lembut. "Ayam bersih. Ayam bersih. Ayam gebu." Ayam sedap. Ayam bersih. Ayam bersih. Ayam segar. Ayam segar. Ayam segar. Ayam segar. Ayam gebu. Ayam segar. Ayam gebu. Ayam segar. Ayam segar. Ayam gebu. Ayam segar. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam segar. Ayam gebu. Ayam gebu. Ayam segar. Ayam segar. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam gebu. Ayam ge'

In [25]:
# https://ms.wikipedia.org/wiki/Burger_Ramly
isi_penting = ['Penubuhan Makma Mikrobiologi',
               'mengawal kualiti produk',
               'memastikan produknya adalah suci',
               'satu tempat penyelidikan dan pembangunan produk',
              'peralatan teknologi tinggi']

points = [
    f'{no + 1}. {remove_repeat_fullstop(string)}.'
    for no, string in enumerate(isi_penting)
]
points = ' '.join(points)
points = f'penerangan-produk: {points}'
points

'penerangan-produk: 1. Penubuhan Makma Mikrobiologi. 2. mengawal kualiti produk. 3. memastikan produknya adalah suci. 4. satu tempat penyelidikan dan pembangunan produk. 5. peralatan teknologi tinggi.'

In [26]:
input_ids = tokenizer.encode(points, return_tensors = 'pt')
outputs = model.generate(input_ids,
                        do_sample=True, 
    max_length=128, 
    top_p=0.95, top_k=0)
t = tokenizer.decode(outputs[0], skip_special_tokens=True)
t

'"BORANG PENTING" adalah peneraju di sebalik produk dan produk penjagaan diri untuk meningkatkan kesejahteraan dan kesejahteraan komuniti di seluruh dunia. Sistem perodal sejuk ini sangat berkesan untuk mengurangkan pemanasan, demam sejuk dan perubahan keadaan iklim. Pengatur sistem makanan kami yang memastikan produknya adalah suci menggunakan alat steril semula jadi. Tambahan pula, kami mempunyai sistem pengurusan dan penyelidikan yang unik, tidak seperti sistem iklim lain yang mengawal kualiti produk. Dari peralatan teknologi tinggi hingga sistem dobi yang inovatif, peralatan kami yang memenuhi standard perubatan di seluruh dunia dan menerapkan sains sosial dan alam sekitar dalam rawatan penduduk global tidak mudah ketinggalan. Inovasi kami dirumuskan untuk'

In [27]:
remove_html_tags(t)

'"BORANG PENTING" adalah peneraju di sebalik produk dan produk penjagaan diri untuk meningkatkan kesejahteraan dan kesejahteraan komuniti di seluruh dunia. Sistem perodal sejuk ini sangat berkesan untuk mengurangkan pemanasan, demam sejuk dan perubahan keadaan iklim. Pengatur sistem makanan kami yang memastikan produknya adalah suci menggunakan alat steril semula jadi. Tambahan pula, kami mempunyai sistem pengurusan dan penyelidikan yang unik, tidak seperti sistem iklim lain yang mengawal kualiti produk. Dari peralatan teknologi tinggi hingga sistem dobi yang inovatif, peralatan kami yang memenuhi standard perubatan di seluruh dunia dan menerapkan sains sosial dan alam sekitar dalam rawatan penduduk global tidak mudah ketinggalan. Inovasi kami dirumuskan untuk'

In [28]:
model.push_to_hub('finetune-isi-penting-generator-t5-base-standard-bahasa-cased', organization='mesolitica')

CommitInfo(commit_url='https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased/commit/eeed0b7bbab6c80d7fa60de788d8152163ca8a82', commit_message='Upload T5ForConditionalGeneration', commit_description='', oid='eeed0b7bbab6c80d7fa60de788d8152163ca8a82', pr_url=None, pr_revision=None, pr_num=None)

In [29]:
tokenizer.push_to_hub('finetune-isi-penting-generator-t5-base-standard-bahasa-cased', organization='mesolitica')

CommitInfo(commit_url='https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased/commit/9b8c37c93f869df9e52d32918424fbf10b1f77b2', commit_message='Upload tokenizer', commit_description='', oid='9b8c37c93f869df9e52d32918424fbf10b1f77b2', pr_url=None, pr_revision=None, pr_num=None)