<img src="https://2.bp.blogspot.com/-066qpJs0Ttc/WiYPXGNYEYI/AAAAAAAAFu8/XbOaf7DqfDMM9truu3DkrkIGfRgP4zBzgCLcBGAs/s1600/udinus.jpg"  width="200">

# AMS - Word Embedding

oleh: Dr. Eng. Farrikh Alzami M.Kom; Abu Salam, M.Kom

disini kita akan belajar menggunakan modul:
- Apa itu Word Embedding

## Apa itu Word Embedding (Penyematan Kata)

Dalam istilah yang sangat sederhana, Penyematan Kata adalah teks yang diubah menjadi angka dan mungkin ada representasi numerik yang berbeda dari teks yang sama. Tapi sebelum kita masuk ke detail Word Embeddings, pertanyaan berikut harus ditanyakan – Mengapa kita membutuhkan Word Embeddings?

Ternyata, banyak algoritma Pembelajaran Mesin dan hampir semua Arsitektur Pembelajaran Mendalam tidak mampu memproses string atau teks biasa dalam bentuk mentahnya. Mereka membutuhkan angka sebagai input untuk melakukan pekerjaan apa pun, baik itu klasifikasi, regresi, dll. dalam arti luas. Dan dengan banyaknya data yang ada dalam format teks, sangat penting untuk mengekstrak pengetahuan darinya dan membangun aplikasi. Beberapa aplikasi aplikasi teks dunia nyata adalah – analisis sentimen ulasan oleh Amazon dll., klasifikasi dokumen atau berita atau pengelompokan oleh Google, dll.

Sekarang mari kita definisikan Word Embeddings secara formal. Format Penyematan Kata umumnya mencoba memetakan kata menggunakan kamus ke vektor. Mari kita pecahkan kalimat ini menjadi detail yang lebih baik untuk mendapatkan gambaran yang jelas.

sentence= `Word Embeddings are Word converted into numbers`

maka

dictionary = `[‘Word’,’Embeddings’,’are’,’Converted’,’into’,’numbers’]`

Representasi vektor dari sebuah kata mungkin merupakan vektor one-hot encoding di mana 1 mewakili posisi di mana kata itu ada dan 0 di tempat lain.

Representasi vektor '**numbers**' dalam format ini menurut kamus di atas adalah

[‘Word’,’Embeddings’,’are’,’Converted’,’into’,**’numbers’**]`

[0,0,0,0,0,1]

Representasi Vector '**Converted**' adalah

[‘Word’,’Embeddings’,’are’,’**Converted**’,’into’,’numbers’]`

[0,0,0,1,0,0].



## Type word Embedding

Berbagai jenis penyisipan kata dapat secara luas diklasifikasikan ke dalam dua kategori-

- Penyematan berbasis frekuensi (Frequency based Embedding)
- Penyematan berdasarkan prediksi (Prediction based Embedding)

Mari kita coba memahami masing-masing metode ini secara rinci.

### Frequency based Embedding

- Count Vector
- TF-IDF Vector
- Co-Occurrence Vector

#### Count Vector / Bag of Words (BoW)
lihat dokumen Corpus $C$ dari $D$

${d1,d2…..dD}$

dan $N$ token unik yang diekstraksi dari corpus $C$.

Token $N$ akan membentuk kamus dan ukuran hitungan vektor $M$ akan diberikan oleh $D X N$. Setiap baris dalam matriks $M$ berisi frekuensi token dalam dokumen $D(i)$.

contoh:

D1: He is a lazy boy. She is also lazy.

D2: Neeraj is a lazy person.

dictionary yang terbuat:

[‘He’,’She’,’lazy’,’boy’,’Neeraj’,’person’]

maka $D=2$ (ada 2 dokumen) dan $N=6$ (ada 6 isian di list)

matrik $M$ dengan ukuran $2X6$ dapat ditulis sebagai berikut:

He	She	lazy	boy	Neeraj	person

|D1|	1	|1	|2	|1	|0	|0|


|D2|	0	|0	|1	|0	|1	|1|

Sekarang, kolom juga dapat dipahami sebagai word vector / vektor kata untuk kata yang sesuai dalam matriks M. Misalnya, vektor kata untuk 'lazy' dalam matriks di atas adalah [2,1] dan seterusnya. Di sini, baris sesuai dengan dokumen dalam korpus dan kolom sesuai dengan token dalam kamus. Baris kedua pada matriks di atas dapat dibaca sebagai – D2 berisi 'lazy': sekali, 'Neeraj': sekali dan 'person' sekali.

Sekarang mungkin ada beberapa variasi saat menyiapkan matriks M di atas. Variasi umumnya akan di-
1. Cara kamus disiapkan.
Mengapa? Karena dalam aplikasi dunia nyata kita mungkin memiliki corpus yang berisi jutaan dokumen. Dan dengan jutaan dokumen, Kita dapat mengekstrak ratusan juta kata unik. Jadi pada dasarnya, matriks yang akan disiapkan seperti di atas akan sangat jarang dan tidak efisien untuk perhitungan apa pun. Jadi alternatif untuk menggunakan setiap kata unik sebagai elemen kamus adalah dengan memilih 10.000 kata teratas berdasarkan frekuensi dan kemudian menyiapkan kamus.
2. cara menghitung diambil untuk setiap kata.
Kita dapat mengambil frekuensi (berapa kali sebuah kata muncul dalam dokumen) atau kehadiran (apakah kata tersebut muncul dalam dokumen?) sebagai entri dalam matriks hitungan M. Tetapi umumnya, metode frekuensi lebih disukai daripada yang terakhir.

contoh adalah sebagai berikut:

<img src='https://cdn.analyticsvidhya.com/wp-content/uploads/2017/06/04164920/count-vector.png'>

#### contoh count vector

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

doc1 = "He is a lazy boy. She is also lazy."
doc2 = "Neeraj is a lazy person."

bow_vectorizer = CountVectorizer()

X = bow_vectorizer.fit_transform([doc1,doc2])

bow_df = pd.DataFrame(X.toarray(),columns=bow_vectorizer.get_feature_names_out())
bow_df.head()

Unnamed: 0,also,boy,he,is,lazy,neeraj,person,she
0,1,1,1,2,2,0,0,1
1,0,0,0,1,1,1,1,0


### Prediction based Embedding

#### Word2Vec

##### Apa itu Word2Vec?
Word2vec adalah salah satu metode embedding word yang berguna untuk merepresentasikan kata menjadi sebuah vektor dengan panjang N. Misalnya sebuah kata “Indonesia” di representasikan menjadi sebuah vektor dengan panjang 5 yaitu : [0.2, 0.4, -0.8, 0.9, -0.5]. Vektor tersebut tidak hanya merepresentasikan kata secara sintaktik tapi juga secara semantik atau secara makna.

Sebagai contoh, apabila word2vec di train menggunakan korpus yang cukup lengkap, maka vektor representasi dari kata “Indonesia” akan berdekatan dengan vektor “Jakarta” sebagaimana vektor “Perancis” akan berdekatan dengan vektor “Paris”. Dengan kata lain, model word2vec akan memahami bahwa “Indonesia” dan “Jakarta memiliki hubungan yang sama dengan “Perancis” dan “Paris” yaitu negara dan ibukotanya.

![1_cFtPUE7k7C58m90x1dPePg.png](attachment:1_cFtPUE7k7C58m90x1dPePg.png)

#### Bagaimana cara kerja Word2Vec?
Word2Vec menggunakan neural network untuk mendapatkan vektor tersebut. Arsitektur Word2vec hanya terdiri dari 3 layer yaitu Input, Projection (Hidden Layer),dan Output. Input pada Word2vec berbentuk one-hot encoded vector dengan panjang = jumlah kata unik pada data training.

Terdapat 2 jenis arsitektur neural network dari Word2Vec yaitu “Skip-gram” dan “Continous Bag of Word” (CBOW).

![2_yuMyr323aSnzivITzCSt_g.png](attachment:2_yuMyr323aSnzivITzCSt_g.png)

Tujuan dari arsitektur skip-gram adalah untuk memprediksi konteks (output) di sekitar current word (input). Untuk memahaminya mari kita lihat ilustrasi berikut.

Misal data trainingnya adalah sebuah kalimat “Ibu kota Negara Indonesia adalah Jakarta” dengan window size = 2

##### Ilustrasi Windowing Skip-gram

![3_b_7V7TbQYtaabmgVGshBIg.gif](attachment:3_b_7V7TbQYtaabmgVGshBIg.gif)

#### Ilustrasi Neural Network Skip-gram
![4_JSxmmxktQvq5UaHPiy3G0g.gif](attachment:4_JSxmmxktQvq5UaHPiy3G0g.gif)

Data input berbentuk one-hot encoded vector sehingga bentuk datanya adalah seperti berikut (anggap seluruh data di lowercase terlebih dahulu):

- ibu          :[1,0,0,0,0,0]
- kota         :[0,1,0,0,0,0]
- negara       :[0,0,1,0,0,0]
- indonesia    :[0,0,0,1,0,0]
- adalah       :[0,0,0,0,1,0]
- jakarta      :[0,0,0,0,0,1]

Misal current word = Indonesia, maka ilustrasinya adalah sebagai berikut (Feed forward Neural Network Skip-gram
) :

![5_9ZqoCa5VDyPrzhaYarQKxw.png](attachment:5_9ZqoCa5VDyPrzhaYarQKxw.png)

Inisialisasi bobot pada W dan W’ adalah random. Bobot W dan W’ merupakan matrik dengan ukuran W = V x N dan W’ = N x V. Pada proses feedforward, vektor input akan di dot product dengan bobot W dan menghasilkan nilai pada layer projection. Kemudian layer projection di dot product dengan bobot W’ dan menghasilkan vektor output. Setelah mendapatkan nilai output pada tahap feedforward, maka akan dihitung nilai eror nya dengan menggunakan metode cross entropy yaitu Target - Output. Selanjutnya adalah tahap backpropagation dengan memanfaatkan teknik gradient descent yaitu dengan melakukan update bobot W dan W’. Proses ini akan diulang kembali ke tahap feedforward hingga tercapai nilai eror minimum.

Setelah didapatkan nilai eror minimum pada cross entropy, maka vektor yang merepresentasikan kata tersebut diambil dari bobot W dengan cara mengalikan dot product antara one-hot encoded vector masing-masing kata dengan bobot W, sedangkan bobot pada W’ akan diabaikan.

#### Continous Bag of Word (CBOW)

Arsitektur Word2vec CBOW
![6_dyaCy5RHz1E8-ToDTuz6bw.png](attachment:6_dyaCy5RHz1E8-ToDTuz6bw.png)

Arsitektur Word2Vec CBOW adalah kebalikan dari Word2vec skip-gram. Tujuannya adalah untuk memprediksi kata (output) ketika diberikan konteks disekitar kata tersebut (input). Berikut ini adalah ilustrasinya.

Saya menggunakan kalimat yang sama dengan yang dicontohkan sebelumnya yaitu kalimat “Ibu kota Negara Indonesia adalah Jakarta”

Ilustrasi Windowing CBOW:

![7_Ctq9tsfV3U-2ZS-hf266VA.gif](attachment:7_Ctq9tsfV3U-2ZS-hf266VA.gif)

Ilustrasi Neural Network CBOW



![8_ys5PY7M3i0zqqDkYZEgKsg.gif](attachment:8_ys5PY7M3i0zqqDkYZEgKsg.gif)

Data input Word2Vec Skip-gram berbentuk n-hot encoded vector. Ketika proses training berjalan, kata yang sedang menjadi inputan akan bernilai 1 sedangkan kata yang lainnya akan bernilai 0. Karena targetnya hanya 1 kata, maka target output akan berbentuk one-hot encoded vector.

Berikut ini ilustrasi ketika target outputnya adalah kata “Indonesia”

Ilustrasi Feedforward Word2vec CBOW


![9_4JpkuWJjnr2lti9SeLDesw.jpeg](attachment:9_4JpkuWJjnr2lti9SeLDesw.jpeg)

Prosesnya tidak jauh berbeda dengan arsitektur Skip-gram. Perbedaannya hanya terletak pada data inputnya yang berupa n-hot encoded vector dan target outputnya berupa one-hot encoded vector.

Setelah dilakukan training hingga mencapai eror minimum, maka kita dapat mengambil vektor representasi kata dengan cara mengalikan one-hot encoded vector masing masing kata dengan bobot W.

##### Contoh Kasus

Misal kita memiliki sebuah kalimat “Kucing melihat seekor tikus, kucing mengejar tikus, tikus berlari keluar rumah” korpus kosakata dalam kalimat tersebut memiliki delapan kata, selanjutnya disusun berdasarkan urutan abjad, masing-masing kata diberi indeks

Kosakata (Indeks)

- Berlari (1)
- Keluar (2)
- Kucing (3)
- Melihat (4)
- Mengejar (5)
- Rumah	(6)
- Seekor (7)
- Tikus	(8)

Dalam Tabel 2 jaringan syaraf memiliki delapan neuron input dan delapan neuron output. Asumsikan bahwa akan digunakan tiga neuron pada hidden layer. Hal ini akan membentu matriks W1 = 8×3 dan W0 = 3×8. Sebelum memulai pelatihan, matriks ini akan diinisialisasi sebagai nilai acak yang kecil seperti biasa dalam pelatihan jaringan syaraf tiruan. Nilai W1 dan W0 dapat diinisialisasikan sebagai berikut:

![10-word2vec-process1.jpg](attachment:10-word2vec-process1.jpg)

Misalkan jaringan akan mempelajari hubungan antara kata “keluar” dengan kata “melihat”. Maka jaringan harus menunjukkan probabilitas tinggi terhadap kata “melihat” saat kata “keluar” dimasukkan dalam jaringan. Secara terminologi word embedding, kata “keluar” disebut konteks dan kata “melihat” disebut sebagai sasaran kata. Diasumsikan vektor input pada kata “keluar” akan dikodekan menjadi [01000000], indeks kedua bernilai 1, hal ini karena kata input “keluar” berada pada posisi kedua dalam daftar korpus kata. Sementara kata “melihat” yang menjadi target dikodekan menjadi [00010000]. Dengan input vektor dari kata “keluar”, output pada hidden layer neuron dapat dihitung dengan persamaan 1

![11-word2vec-process2.jpg](attachment:11-word2vec-process2.jpg)

Sebagaimana H adalah hidden layer, X adalah neuron input sebelumnya dan W1 adalah bobot, output dari hidden neuron yaitu H yang direpresentasikan dari baris kedua matriks W1. Hal ini karena input yang diberikan ke jaringan dikodekan menggunakan representasi “1-out of-V”. Sehingga hanya satu baris masukkan yang mempunyai nilai satu dan sisanya untuk jalur input diatur ke nol. Dengan demikian fungsi input ke koneksi hidden layer yaitu menyalin vektor input kata ke hidden layer, kemudian untuk outputnya hidden layer diperoleh pada persamaan 2.

![12-word2vec-process3.jpg](attachment:12-word2vec-process3.jpg)

Setelah itu untuk menghasilkan probabilitas kata, Word2vec menggunakan fungsi Softmax dalam lapisan output, maka probabilitas dari delapan kata dalam korpus dapat dihitung menggunakan persamaan 3.

![13-word2vec-process4.jpg](attachment:13-word2vec-process4.jpg)

Dengan demikian probabilitas dari delapan kata dalam korpus menghasilkan

![14-word2vec-process5.jpg](attachment:14-word2vec-process5.jpg)

Nilai yang dicetak tebal merupakan hasil probabilitas kata “melihat” mengingat vektor sasaran berada pada indeks keempat [00010000] dalam korpus kata. Kesalahan vektor untuk output layer dapat dihitung dalam mengurangkan vektor probabilitas dengan vektor sasaran. Setelah diketahui tingkat kesalahan, bobot pada matriks W1 dan W0 dapat diperbarui menggunakan backpropagation. Setelah ini, pelatihan dapat diteruskan terhadap berbagai pasangangan konteks-target kata dari korpus.