Pada latihan kali ini kita akan belajar bagaimana melakukan **tokenization** dan membuat sequence dari teks kita. Untuk menggunakan tokenizer, impor library di bawah

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

Kemudian buat objek tokenizer dengan memanggil fungsi `tokenizer` dan melengkapi parameternya. Parameter `num_words` adalah jumlah kata yang akan dikonversi ke dalam token/bilangan numerik. Jika parameter `num_words` diisi 15, maka hanya 15 huruf yang paling sering muncul akan ditokenisasi dari seluruh kata pada dataset. 

Sedangkan parameter `oov_token` adalah parameter yang berfungsi untuk mengganti kata-kata yang tidak ditokenisasi menjadi karakter tertentu. Pada praktiknya, lebih baik untuk mengganti kata yang tidak dikenali dengan suatu kata tertentu dibanding melewatkan kata tersebut untuk mengurangi informasi yang hilang. Hal inilah yang dapat dilakukan dengan menambahkan parameter 'OOV'.

In [None]:
tokenizer = Tokenizer(num_words=15, oov_token='-')

Lalu, buat teks yang akan kita tokenisasi dan kita pakai untuk pelatihan model. 

In [None]:
teks = ['Saya suka programming',
        'Programming sangat menyenangkan',
        'Machine Learning berbeda dengan pemrograman konvesional']

Untuk melakukan tokenisasi, panggil fungsi `fit_on_text()` pada objek tokenizer dan isi teks kita sebagai argumennya.

In [None]:
tokenizer.fit_on_texts(teks)

Kemudian, kita akan mengubah kalimat ke dalam nilai yang sesuai dengan fungsi `texts_to_sequences`.

In [None]:
sequences = tokenizer.texts_to_sequences(teks)

Untuk melihat hasil tokenisasi, kita bisa memanggil atribut `word_index` dari objek tokenizer. Atribut `word_index` mengembalikan dictionary berupa kata sebagai key dan token atau nilai numeriknya sebagai value. Perlu diperhatikan bahwa tanda baca dan huruf kapital tidak diproses oleh tokenizer. Contohnya kata “Selamat!” dan “SELAMAT” akan diperlakukan sebagai kata yang sama. Hasil dari cell di bawah menunjukkan bahwa kata-kata yang out-of-vocabulary akan diberi token bernilai 1. 

In [None]:
print(tokenizer.word_index)

{'-': 1, 'programming': 2, 'saya': 3, 'suka': 4, 'sangat': 5, 'menyenangkan': 6, 'machine': 7, 'learning': 8, 'berbeda': 9, 'dengan': 10, 'pemrograman': 11, 'konvesional': 12}


Setelah tokenisasi, untuk mengubah kalimat ke dalam nilai-nilai yang sesuai dapat dengan menggunakan fungsi `text_to_sequence`() dan masukkan parameter dari teks kita. Ketika sequence telah dibuat, hal yang perlu kita lakukan adalah **padding**. Yup, padding adalah proses untuk membuat setiap kalimat pada teks memiliki panjang yang seragam. Sama seperti melakukan resize gambar, agar resolusi setiap gambar sama besar. Untuk menggunakan padding impor library `pad_sequence`. Kemudian buat panggil fungsi `pad_sequence`() dan masukkan sequence hasil tokenisasi sebagai parameternya.

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

sequences_samapanjang = pad_sequences(sequences)

Hasil setelah padding adalah setiap sequence memiliki panjang yang sama. Padding dapat melakukan ini dengan menambahkan 0 secara default pada awal sequence yang lebih pendek.

In [None]:
print(sequences_samapanjang)

[[ 0  0  0  3  4  2]
 [ 0  0  0  2  5  6]
 [ 7  8  9 10 11 12]]


Jika kita ingin merubah sehingga 0 ditambahkan di akhir sequence, kita dapat menggunakan parameter padding dengan nilai ‘post’. Selain itu kita dapat mengatur berapa maksimum panjang setiap sequence dengan parameter `maxlen` dan nilai yang kita inginkan. Jika kita mengisi nilai 5, maka panjang sebuah sequence tidak akan melebihi 5. 

In [None]:
sequences_samapanjang = pad_sequences(sequences,
                                      padding='post',
                                      maxlen=5)

Jika teks kita memiliki panjang lebih dari nilai parameter `maxlen` misalnya 5, maka secara default nilai dari sequence akan diambil 5 nilai terakhir atau 5 kata terakhir saja dari setiap kalimat. Untuk mengubah pengaturan ini dan mengambil 5 kata terakhir dari tiap kalimat, kita dapat menggunakan parameter `truncating` dan mengisi nilai ‘post’.

In [None]:
sequences_samapanjang = pad_sequences(sequences, 
                                      padding='post',
                                      maxlen=5,
                                      truncating='post')