<a href="https://colab.research.google.com/github/Gengsu07/ML_DICODING/blob/main/NLP_TOKENIZATION.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##### Melakukan tokenization dan membuat sequence dari teks

In [19]:
from tensorflow.keras.preprocessing.text import Tokenizer

num_words: This parameter specifies the maximum number of words to keep based on word frequency. Only the most common words in the corpus will be kept, and less frequent words will be discarded. This can help reduce the size of the vocabulary and improve training performance.

oov_token: This parameter specifies the token to use for out-of-vocabulary words (i.e., words that are not present in the word index). When oov_token is specified, any word that is not in the word index will be replaced by this token.

lower: This parameter specifies whether to convert all text to lowercase. This can help reduce the size of the vocabulary and make the model more robust to variations in capitalization.

char_level: This parameter specifies whether to tokenize the text at the character level instead of the word level. When char_level=True, each character in the input text will be treated as a separate token.

filters: This parameter specifies a string containing characters that should be filtered out from the input text. For example, if filters='!"#$%&()*+,-./:;<=>?@[\\]^_{|}~\t\n'`, any of these characters that appear in the input text will be removed.

split: This parameter specifies the string to use for splitting the input text into tokens. The default value is ' ', which splits the text at whitespace characters. You can also specify other delimiters such as ',' or ';'.

In [20]:
tokenizer = Tokenizer(num_words=15, oov_token='-')

In [21]:
teks = ['saya adalah seorang pemberani',
        'suka belajar teknologi dan hal baru',
        'berusaha selalu memperbaiki diri',
        'bersiap menuju hari akhir ']

Untuk melakukan tokenisasi, panggil fungsi fit_on_text() pada objek tokenizer dan isi teks kita sebagai argumennya.

In [22]:
tokenizer.fit_on_texts(teks)

Kemudian, kita akan mengubah text yang telah dibuat sebelumnya ke dalam bentuk sequence menggunakan fungsi text_to_sequences.

In [23]:
sequences = tokenizer.texts_to_sequences(teks)

Untuk melihat hasil tokenisasi, kita bisa memanggil atribut word_index dari objek tokenizer. Atribut word index mengembalikan dictionary berupa kata sebagai key dan token atau nilai numeriknya sebagai value. Perlu diperhatikan bahwa tanda baca dan huruf kapital tidak diproses oleh tokenizer. Contohnya kata “Selamat!” dan “SELAMAT” akan diperlakukan sebagai kata yang sama. Hasil dari cell di bawah menunjukkan bahwa kata-kata yang out-of-vocabulary akan diberi token bernilai 1. 

In [24]:
print(tokenizer.word_index)

{'-': 1, 'saya': 2, 'adalah': 3, 'seorang': 4, 'pemberani': 5, 'suka': 6, 'belajar': 7, 'teknologi': 8, 'dan': 9, 'hal': 10, 'baru': 11, 'berusaha': 12, 'selalu': 13, 'memperbaiki': 14, 'diri': 15, 'bersiap': 16, 'menuju': 17, 'hari': 18, 'akhir': 19}


. Output kode di bawah merupakan contoh penggunaan token untuk mengubah kalimat ke dalam bentuk numerik. Pada contoh tersebut, kata ‘belajar’, ‘sejak’, dan ‘SMP’ ditandai dengan nilai "1". Hal ini menunjukkan bahwa kata-kata tersebut tidak terdapat pada dictionary yang sebelumnya telah dibuat (OOV). Tanpa OOV, kata yang tidak memiliki token tidak dimasukkan pada sequence. Jika kita menggunakan OOV, maka setiap kata yang tidak memiliki token akan diberikan token yang seragam. Dengan OOV, informasi urutan setiap kata pada kalimat tidak hilang.

In [26]:
print(tokenizer.texts_to_sequences(['suka belajar teknologi dan hal baru']))
print(tokenizer.texts_to_sequences(['berusaha selalu memperbaiki diri']))
print(tokenizer.texts_to_sequences(['bersiap menuju hari akhir ']))

[[6, 7, 8, 9, 10, 11]]
[[12, 13, 14, 1]]
[[1, 1, 1, 1]]


Terlihat bahwa yg =1 tidak ter tokenize karena num_words cuman=15, jadi tetap tertangkap kata tersebut dgn token yg sama daripada informasinya dihilangkan

In [27]:
sequences

[[2, 3, 4, 5], [6, 7, 8, 9, 10, 11], [12, 13, 14, 1], [1, 1, 1, 1]]

 Ketika sequence telah dibuat, hal yang perlu kita lakukan adalah padding. Yup, padding adalah proses untuk membuat setiap kalimat pada teks memiliki panjang yang seragam. Sama seperti melakukan resize gambar, agar resolusi setiap gambar sama besar. 

In [28]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
sequences_sama_panjang = pad_sequences(sequences)

In [29]:
sequences_sama_panjang

array([[ 0,  0,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [ 0,  0, 12, 13, 14,  1],
       [ 0,  0,  1,  1,  1,  1]], dtype=int32)

setiap sequence akan memiliki panjang yang sama. Padding dapat melakukan ini dengan menambahkan 0 secara default pada awal sequence yang lebih pendek

Jika kita ingin merubah sehingga 0 ditambahkan di akhir sequence, kita dapat menggunakan parameter padding dengan nilai ‘post’. Selain itu kita dapat mengatur parameter maxlen (panjang maksimum setiap sequence) dengan nilai yang kita inginkan. Jika kita mengisi nilai 5, maka panjang sebuah sequence tidak akan melebihi 5. 



In [32]:
sequences_sama_panjang = pad_sequences(sequences,
                                       padding='post',
                                       maxlen = 5)

In [33]:
sequences_sama_panjang

array([[ 2,  3,  4,  5,  0],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14,  1,  0],
       [ 1,  1,  1,  1,  0]], dtype=int32)

Jika teks kita memiliki panjang lebih dari nilai parameter maxlen misalnya 5, maka secara default nilai dari sequence akan diambil 5 nilai terakhir atau 5 kata terakhir saja dari setiap kalimat (mengabaikan kata sebelumnya). 

Untuk mengubah pengaturan ini dan mengambil 5 kata awal dari tiap kalimat, kita dapat menggunakan parameter truncating dan mengisi nilai ‘post’.

In [34]:
sequences_sama_panjang = pad_sequences(sequences,
                                       padding='post',
                                       maxlen = 5,
                                       truncating = 'post')

In [35]:
sequences_sama_panjang

array([[ 2,  3,  4,  5,  0],
       [ 6,  7,  8,  9, 10],
       [12, 13, 14,  1,  0],
       [ 1,  1,  1,  1,  0]], dtype=int32)