In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
tokenizer = Tokenizer(num_words=15, oov_token='-')

In [None]:
teks = ['Saya suka programming',
        'Programming sangat menyenangkan',
        'Machine Learning berbeda dengan pemrograman konvesional']

In [None]:
tokenizer.fit_on_texts(teks)

In [None]:
sequences = tokenizer.texts_to_sequences(teks)

In [None]:
print(tokenizer.word_index)

{'-': 1, 'programming': 2, 'saya': 3, 'suka': 4, 'sangat': 5, 'menyenangkan': 6, 'machine': 7, 'learning': 8, 'berbeda': 9, 'dengan': 10, 'pemrograman': 11, 'konvesional': 12}


In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

sequences_samapanjang = pad_sequences(sequences)

In [None]:
print(sequences_samapanjang)

[[ 0  0  0  3  4  2]
 [ 0  0  0  2  5  6]
 [ 7  8  9 10 11 12]]


In [None]:
sequences_samapanjang = pad_sequences(sequences,
                                      padding='post',
                                      maxlen=5)

In [None]:
sequences_samapanjang = pad_sequences(sequences, 
                                      padding='post',
                                      maxlen=5,
                                      truncating='post')



---



Pada submodul sebelumnya kita telah belajar bagaimana mengubah teks menjadi sequence berisi nilai-nilai yang merepresentasikan setiap kata pada kalimat. Lalu apa tahapan lanjut yang perlu kita lakukan dalam klasifikasi NLP?

Pada klasifikasi teks, kita perlu melakukan **embedding** yang merupakan kunci dalam klasifikasi teks di Tensorflow. **Embedding** memungkinkan model ML untuk memahami makna di setiap kata dan mengelompokkan kata-kata dengan makna yang mirip agar berdekatan. Misalnya komentar pada sebuah video youtube, di mana kata-kata “menarik”, “keren”, dan “luar biasa” akan dikelompokkan berdekatan. Pengelompokkan ini dapat dicapai dengan memetakan setiap kata ke dalam vektor atau larik. Di mana kata yang mirip akan memiliki nilai vektor yang mirip. 

Makna dari sebuah kata didapat dari label dari data tersebut. Misalnya pada teks yang berlabel negatif terdapat banyak kata ‘membosankan’, dan ‘jelek’. Maka kedua kata tersebut memiliki makna yang mirip sehingga nilai vektor mereka mirip. Informasi lebih detail mengenai Embedding dapat Anda lihat pada [tautan berikut](https://www.tensorflow.org/text/guide/word_embeddings)

Untuk mengimplementasikan Embedding pada Keras juga sangatlah mudah. Pada model sequential, kita tinggal memanggil fungsi `embedding()` dan mengisi parameter total kata yang di tokenisasi, panjang kalimat, serta dimensi embedding yang diinginkan. Karena hasil dari embedding merupakan larik 2 dimensi yang berisi panjang setiap kalimat, dan dimensi embedding, maka kita memerlukan fungsi `flatten()`.

In [None]:
import tensorflow as tf

model = tf.keras.Sequential([
    tf.keras.layers.Embedding(jumlah_kata, dimensi_embedding, panjang_input),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(24, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

NameError: ignored

Setelah mengimplementasikan Embedding pada model sekuensial kita, panggil fungsi `compile`. Untuk optimizer, kita dapat menggunakan optimizer yang telah kita pelajari sebelumnya. Sedangkan loss disesuaikan dengan kelas yang terdapat pada dataset. 

In [None]:
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

Untuk fungsi `fit`, kita memerlukan parameter teks yang telah di-padding, label dari data training, jumlah epoch, serta data validasi. Mudah bukan.

In [None]:
model.fit(padded_latih, label_latih, 
          epochs=num_epochs, 
          validation_data=(padded_test, label_test))

# Sampai di sini, kita telah memahami tahapan dalam mengembangkan model untuk klasifikasi teks. Dapat dilihat pada penjelasan sebelumnya bahwa pengembangan model untuk NLP tidak jauh berbeda dengan kasus klasifikasi gambar. Di submodul selanjutnya kita akan latihan dengan mengimplementasikan model untuk klasifikasi teks 2 kelas.