### Teori Dasar
Dalam NLP, model seperti neural network tidak bisa langsung memproses teks. Oleh karena itu, teks harus diubah menjadi angka atau vektor. Salah satu cara adalah dengan membangun vocabulary (kumpulan kata unik dalam teks) dan memberikan indeks (nomor urut) pada setiap kata.

TextVectorization adalah layer di TensorFlow yang membantu membuat vocabulary dari teks dan mengonversi teks menjadi indeks berdasarkan vocabulary tersebut. Layer ini memungkinkan teks mentah diolah menjadi data yang siap diproses oleh model.

### Analogi
Bayangkan Anda memiliki sebuah kamus (vocabulary) yang hanya berisi kata-kata tertentu. Setiap kata diberi nomor halaman (indeks). Misalnya, "love" ada di halaman 3, "dog" ada di halaman 2, dan sebagainya. Jadi, jika Anda ingin membaca kalimat "I love my dog," Anda hanya perlu mencari nomor halaman untuk setiap kata di kamus itu. Demikian juga dalam pemrosesan teks, kita membuat "kamus" dari kata-kata yang ada dan menggunakan nomor sebagai penggantinya.

Tokenize=menandai

Lets's Code!

In [1]:
import tensorflow as tf

In [13]:
#sample inputs
sentences=[
    'i love your cat', #pliss, jangan sampai lupa koma kalau mau outputnya aneh
    'You, Him, and Her love my horse!',
    'I, love my dog'
]

#layer untuk mengonversi teks menjadi angka
vectorize_layer=tf.keras.layers.TextVectorization()

#menyimpan inputan dalam bentuk index
vectorize_layer.adapt(sentences)

#membuat vocabulary dengan ignore special tokens
vocabulary=vectorize_layer.get_vocabulary(include_special_tokens=False)

In [14]:
#Print the token index
for index, word in enumerate(vocabulary):
    print(index, word)

0 love
1 my
2 i
3 your
4 you
5 horse
6 him
7 her
8 dog
9 cat
10 and


Walaupun ada huruf i kecil dan besar tetap akan di standarisasi makanya hasilnya muncul i (huruf kecil) saja

#### Menggunakan token khusus

In [15]:
# Get the vocabulary list dengan mengambil special token
vocabulary = vectorize_layer.get_vocabulary()

# Print the token index
for index, word in enumerate(vocabulary):
  print(index, word)

0 
1 [UNK]
2 love
3 my
4 i
5 your
6 you
7 horse
8 him
9 her
10 dog
11 cat
12 and


### Penjelasan Peran Token Khusus
Token khusus seperti [UNK] dan [PAD] digunakan untuk mengatasi kondisi tertentu:

- [UNK] (Unknown) digunakan untuk kata-kata yang tidak ada di vocabulary (tidak dikenali).
- [PAD] digunakan untuk penyesuaian panjang kalimat agar bisa diolah dalam batch dengan panjang yang sama.

In [26]:
#Test new sentence
new_sentences=[
    'I love your fish',
    'They love my chicken',
    'I love your dog'
]

vectorize_sentence=vectorize_layer(new_sentences)

for index, word in enumerate(vocabulary):
  print(index, word)

for i, vec in enumerate(vectorize_sentence):
    print(f"\nKalimat '{new_sentences[i]}' ditransformasikan menjadi indeks:", vec.numpy())

0 
1 [UNK]
2 love
3 my
4 i
5 your
6 you
7 horse
8 him
9 her
10 dog
11 cat
12 and

Kalimat 'I love your fish' ditransformasikan menjadi indeks: [4 2 5 1]

Kalimat 'They love my chicken' ditransformasikan menjadi indeks: [1 2 3 1]

Kalimat 'I love your dog' ditransformasikan menjadi indeks: [ 4  2  5 10]


### Another Example

Dalam konteks pemrosesan teks dan machine learning, padding merujuk pada menambahkan nilai khusus (biasanya nol) di akhir atau awal dari sebuah urutan teks (misalnya kalimat) agar semua urutan memiliki panjang yang sama. Padding otomatis dilakukan oleh layer tertentu (seperti TextVectorization di TensorFlow) atau saat kita mempersiapkan data input, sehingga setiap kalimat atau urutan memiliki jumlah kata atau token yang konsisten.

In [28]:
import tensorflow as tf

# Daftar kalimat awal untuk membangun vocabulary
sentences = [
    'I love my dog',
    'I love my cat'
]

# Inisialisasi layer TextVectorization dengan output sequence length tertentu
# untuk menambahkan padding secara otomatis
vectorize_layer = tf.keras.layers.TextVectorization(output_sequence_length=5)

# Membuat vocabulary dari kalimat-kalimat awal
vectorize_layer.adapt(sentences)

# Melihat vocabulary yang dihasilkan
vocabulary = vectorize_layer.get_vocabulary()
for index, word in enumerate(vocabulary):
    print(f"{index}: {word}")

# Vocabulary yang dihasilkan akan seperti ini:
# 0: [PAD]
# 1: [UNK]
# 2: i
# 3: love
# 4: my
# 5: dog
# 6: cat

# Tes kalimat baru dengan kata yang tidak ada dalam vocabulary
test_sentences = [
    'I love my dog',    # Semua kata ada di vocabulary
    'I love my fish',   # Kata "fish" tidak ada di vocabulary, jadi akan jadi [UNK]
    'You love my cat'   # Kata "You" tidak ada di vocabulary, jadi akan jadi [UNK]
]

# Transformasikan kalimat ke dalam bentuk angka
vectorized_sentences = vectorize_layer(test_sentences)

# Print hasilnya
for i, vec in enumerate(vectorized_sentences):
    print(f"Kalimat '{test_sentences[i]}' ditransformasikan menjadi indeks:", vec.numpy())


0: 
1: [UNK]
2: my
3: love
4: i
5: dog
6: cat
Kalimat 'I love my dog' ditransformasikan menjadi indeks: [4 3 2 5 0]
Kalimat 'I love my fish' ditransformasikan menjadi indeks: [4 3 2 1 0]
Kalimat 'You love my cat' ditransformasikan menjadi indeks: [1 3 2 6 0]
