# Word Embedding

Word Embedding adalah cara mengubah suatu teks menjadi representasi vektor. Terdapat beberapa cara yang bisa dilakukan untuk membuat Word Embedding, diantaranya:

- Classic Method
    - Bag of Words
    - TF-IDF
- Machine Learning Method
    - GloVe
    - Word2Vec
    
Berikut adalah library yang dibutuhkan:

- scikit-learn
- gensim

**Load Dataset**

In [1]:
# Load Dataset
import pandas as pd
raw_data = pd.read_csv("./data/berita.csv", sep=";")
raw_data

Unnamed: 0,judul,tanggal,isi_berita
0,"Lawan Diskriminasi CPO, Pemerintah Ajak Pebisn...",2019-03-25,Pemerintah meminta dunia usaha khususnya para ...
1,"KKP Terus Lakukan Langkah Masif, Produksi Tuna...",2019-03-25,Indonesia telah mengalami peningkatan produksi...
2,"Ada Aturan Besaran Tarif Ojek Online, Bagaiman...",2019-03-25,Kementerian Perhubungan (Kemenhub) telah menet...
3,Aplikator Boleh Patok Harga Lebih Besar 20 Per...,2019-03-25,Dirjen Perhubungan Darat Kementerian Perhubung...
4,"Menurut Bill Gates, Lakukan Trik Ini agar Suks...",2019-03-25,Pendiri Microsoft dan miliarder Bill Gates me...
5,Kemenhub Bandingkan Tarif Ojek Online di Thail...,2019-03-25,Kementerian Perhubungan telah menentukan besa...
6,"CPO Didiskriminasi, Pemerintah Galang Dukungan...",2019-03-25,Diskriminasi terhadap minyak kelapa sawit men...
7,Cerita Netizen Miami yang Terlilit Utang demi ...,2019-03-25,dan beberapa dari mereka tampaknya menghabiska...
8,"Gaet Milenial, NAM Air Akan Usung Konsep ""Bout...",2019-03-25,Potensi pasar generasi milenial yang besar mu...
9,5 Perusahaan Teknologi dengan Lingkungan Kerja...,2019-03-25,Pekerjaan di sektor teknologi kerap memiliki j...


In [2]:
# ambil kolom isi_berita dan buang nilai NA jika ada
isi_berita = raw_data.isi_berita.dropna()
# melihat indeks pertama dari isi_berita
isi_berita[0]

'Pemerintah meminta dunia usaha khususnya para pebisnis  kelapa sawit turut menggugat Uni Eropa bila Delegated Act disahkan.\nDelegated Act dinilai pemerintah bentuk diskriminasi terhadap  CPO karena melarang pengunaan CPO untuk diesel. CPO juga dimasukan ke komoditas berisiko tinggi.\n"Kami mendorong bisnis juga untuk melakukan gugatan," ujar Dirjen Perdagangan Luar Negeri Kementerian Perdagangan (Kemendag) Oke Nurwan\xa0di Jakarta, Seni (5/3/2019).\nBila gugatan tersebut dilakukan oleh para pengusaha, maka upaya itu akan melengkapi langkah pemerintah membawa persolan diskriminasi CPO ke WTO.\nGugatan itu juga diharapkan memberikan tekanan lebih kepada Uni Eropa bila memutuskan untuk mengadopsi Delegated Act.\n"Kami belum memutuskan menggugat menggunakan law firm-nya siapa dan dimana. Jadi agenda itulah yang akan kamj susun semua," kata dia.\nDi sisi lain, Oke juga mengatakan akan menunggu tindakan keras dari Malaysia. Negeri Jiran tersebut juga memrotes Delegated Act yang mendiskrimi

### Classic Method (Bag of Words)

Bag of Words, secara sederhana, adalah metode untuk membuat representasi vektor dari teks dengan cara menghitung frekuensi kemunculan tiap kata per dokumen.

**Implementasi dengan Python**

In [3]:
# import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# membuat objek vectorizer
vectorizer = CountVectorizer()
# Transformasi menjadi matriks
matriks_isi_berita = vectorizer.fit_transform(isi_berita)
matriks_isi_berita

<518x12848 sparse matrix of type '<class 'numpy.int64'>'
	with 92303 stored elements in Compressed Sparse Row format>

Melihat count matrix dengan memanggil method ```toarray```

In [6]:
matriks_isi_berita.nonzero()

(array([  0,   0,   0, ..., 517, 517, 517], dtype=int32),
 array([10512,  7134, 10678, ...,  5051, 12482,  5207], dtype=int32))

In [4]:
matriks_isi_berita.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 7, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

Melihat kata-kata yang dijadikan fitur dengan menggunakan method ```get_feature_names```

In [7]:
vectorizer.get_feature_names()

['00',
 '000',
 '0003152',
 '000pecahan',
 '002',
 '003',
 '006',
 '008',
 '01',
 '015',
 '017',
 '018',
 '02',
 '022',
 '023',
 '03',
 '032',
 '034',
 '037',
 '04',
 '040',
 '041',
 '043',
 '044',
 '05',
 '051',
 '06',
 '060',
 '065',
 '07',
 '073',
 '08',
 '080',
 '083000426',
 '085',
 '09',
 '092',
 '093',
 '096',
 '10',
 '100',
 '1000',
 '10010',
 '1007',
 '101',
 '1015',
 '1017',
 '102',
 '1028',
 '103',
 '104',
 '1048',
 '105',
 '106',
 '1065',
 '107',
 '108',
 '1085',
 '1087',
 '11',
 '110',
 '1109',
 '111',
 '112',
 '113',
 '114',
 '115',
 '116',
 '117',
 '118',
 '119',
 '12',
 '120',
 '121',
 '122',
 '125',
 '126',
 '128',
 '1280',
 '13',
 '130',
 '131',
 '1312',
 '132',
 '133',
 '1337',
 '136',
 '1375',
 '1392',
 '13a',
 '14',
 '140',
 '143',
 '144',
 '145',
 '146',
 '148',
 '149',
 '15',
 '150',
 '1500',
 '1500200',
 '151',
 '152',
 '153',
 '154',
 '1542',
 '155',
 '156',
 '157',
 '15kg',
 '16',
 '160',
 '1605',
 '162',
 '165',
 '166',
 '167',
 '168',
 '169',
 '17',
 '170',


## TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) adalah salah satu metode embedding yang memberikan pembobotan pada term tertentu sehingga kata-kata yang paling sering muncul namun tidak berarti akan diberi bobot yang lebih rendah.

Secara matematis, TF-IDF dirumuskan sebagai berikut:

$$\text{tf-idf}(t,d) = \text{tf}(t,d) \times \text{idf}(t)$$

Dimana:

$$\text{idf}(t) = \log{\frac{1+n}{1+\text{df}(t)}+1}$$

dengan $n$ adalah jumlah dokumen dan $\text{df}(t)$ adalah jumlah dokumen yang memuat kata $t$. Vektor TF-IDF yang dihasilkan selanjutnya akan dinormalisasi dengan menggunakan norm Euclidean:

$$v_{\text{norm}} = \frac{v}{\|{v}\|_{2}} = \frac{v}{\sqrt{v_{1}^{2} + ... + v_{n}^{2}}}$$

**Implementasi dengan Python**

In [8]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
transformer

TfidfTransformer(norm='l2', smooth_idf=True, sublinear_tf=False, use_idf=True)

In [9]:
matriks_tfidf = transformer.fit_transform(matriks_isi_berita)

matriks_tfidf

<518x12848 sparse matrix of type '<class 'numpy.float64'>'
	with 92303 stored elements in Compressed Sparse Row format>

In [10]:
matriks_tfidf.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.11241627, 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.0181134 , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [11]:
transformer.idf_

array([4.76699723, 2.31742995, 6.5587567 , ..., 6.5587567 , 6.15329159,
       6.5587567 ])

In [12]:
pd.DataFrame({
    "Fitur": vectorizer.get_feature_names(),
    "Bobot": transformer.idf_
}).sort_values(by='Bobot', ascending=False)

Unnamed: 0,Fitur,Bobot
12847,zurich,6.558757
10400,rp7,6.558757
5237,kasepuhan,6.558757
5236,kasdi,6.558757
5234,kasad,6.558757
10350,rob,6.558757
10351,robbins,6.558757
5229,karyasehat,6.558757
10354,robot,6.558757
10355,robotisasi,6.558757


## GloVe

GloVe (Global Vector) adalah salah satu model untuk membuat representasi teks. GloVe merupakan metode unsupervised learning yang digunakan untuk membuat representasi vektor dari kata-kata. Hal ini dilakukan dengan cara melakukan agregasi co-occurence dari tiap kata dalam bentuk matriks, lalu membuat representasi vektor dari matriks tersebut.

![matriks co-occurence](./images/matrik-cooccurence.png)

## Word2Vec
Word2Vec adalah salah satu model untuk membuat representasi teks dengan menggunakan model deep learning/neural network. Word2Vec merupakan gabungan dari dua model, yaitu model CBOW dan skip-gram.

![CBOW dan Skip-Gram](./images/cbow_skip.png)

Sumber: https://www.researchgate.net/figure/Continuous-Bag-of-words-CBOW-CB-and-Skip-gram-SG-training-model-illustrations_fig1_326588219

Word2Vec berbeda dengan GloVe walaupun secara hasil sama: keduanya dapat menangkap struktur semantik dari teks. Perbedaan dari kedua model adalah sebagai berikut:

- Word2Vec menggunakan model neural network sedangkan GloVe hanya menggunakan metode statistik saja.
- Global/Local information: Word2Vec hanya menggunakan informasi global semacam co-occurence matrix, sedangkan GloVe membentuk co-occurence matrix dari korpus yang diberikan.

**Implementasi dengan Python**

In [14]:
import gensim

In [15]:
teks = isi_berita.str.lower().tolist()
teks[0]

'pemerintah meminta dunia usaha khususnya para pebisnis  kelapa sawit turut menggugat uni eropa bila delegated act disahkan.\ndelegated act dinilai pemerintah bentuk diskriminasi terhadap  cpo karena melarang pengunaan cpo untuk diesel. cpo juga dimasukan ke komoditas berisiko tinggi.\n"kami mendorong bisnis juga untuk melakukan gugatan," ujar dirjen perdagangan luar negeri kementerian perdagangan (kemendag) oke nurwan\xa0di jakarta, seni (5/3/2019).\nbila gugatan tersebut dilakukan oleh para pengusaha, maka upaya itu akan melengkapi langkah pemerintah membawa persolan diskriminasi cpo ke wto.\ngugatan itu juga diharapkan memberikan tekanan lebih kepada uni eropa bila memutuskan untuk mengadopsi delegated act.\n"kami belum memutuskan menggugat menggunakan law firm-nya siapa dan dimana. jadi agenda itulah yang akan kamj susun semua," kata dia.\ndi sisi lain, oke juga mengatakan akan menunggu tindakan keras dari malaysia. negeri jiran tersebut juga memrotes delegated act yang mendiskrimi

In [16]:
hasil_preprocess = []

for i, sent in enumerate(teks):
    hasil_preprocess.append(gensim.utils.simple_preprocess(sent))

In [17]:
hasil_preprocess[0]

['pemerintah',
 'meminta',
 'dunia',
 'usaha',
 'khususnya',
 'para',
 'pebisnis',
 'kelapa',
 'sawit',
 'turut',
 'menggugat',
 'uni',
 'eropa',
 'bila',
 'delegated',
 'act',
 'disahkan',
 'delegated',
 'act',
 'dinilai',
 'pemerintah',
 'bentuk',
 'diskriminasi',
 'terhadap',
 'cpo',
 'karena',
 'melarang',
 'pengunaan',
 'cpo',
 'untuk',
 'diesel',
 'cpo',
 'juga',
 'dimasukan',
 'ke',
 'komoditas',
 'berisiko',
 'tinggi',
 'kami',
 'mendorong',
 'bisnis',
 'juga',
 'untuk',
 'melakukan',
 'gugatan',
 'ujar',
 'dirjen',
 'perdagangan',
 'luar',
 'negeri',
 'kementerian',
 'perdagangan',
 'kemendag',
 'oke',
 'nurwan',
 'di',
 'jakarta',
 'seni',
 'bila',
 'gugatan',
 'tersebut',
 'dilakukan',
 'oleh',
 'para',
 'pengusaha',
 'maka',
 'upaya',
 'itu',
 'akan',
 'melengkapi',
 'langkah',
 'pemerintah',
 'membawa',
 'persolan',
 'diskriminasi',
 'cpo',
 'ke',
 'wto',
 'gugatan',
 'itu',
 'juga',
 'diharapkan',
 'memberikan',
 'tekanan',
 'lebih',
 'kepada',
 'uni',
 'eropa',
 'bila',


In [18]:
from gensim.models import Word2Vec
model = Word2Vec(hasil_preprocess, min_count=1)
print(model)

Word2Vec(vocab=12146, size=100, alpha=0.025)


**Daftar Kata atau Vocabulary**

In [19]:
list(model.wv.vocab)

['pemerintah',
 'meminta',
 'dunia',
 'usaha',
 'khususnya',
 'para',
 'pebisnis',
 'kelapa',
 'sawit',
 'turut',
 'menggugat',
 'uni',
 'eropa',
 'bila',
 'delegated',
 'act',
 'disahkan',
 'dinilai',
 'bentuk',
 'diskriminasi',
 'terhadap',
 'cpo',
 'karena',
 'melarang',
 'pengunaan',
 'untuk',
 'diesel',
 'juga',
 'dimasukan',
 'ke',
 'komoditas',
 'berisiko',
 'tinggi',
 'kami',
 'mendorong',
 'bisnis',
 'melakukan',
 'gugatan',
 'ujar',
 'dirjen',
 'perdagangan',
 'luar',
 'negeri',
 'kementerian',
 'kemendag',
 'oke',
 'nurwan',
 'di',
 'jakarta',
 'seni',
 'tersebut',
 'dilakukan',
 'oleh',
 'pengusaha',
 'maka',
 'upaya',
 'itu',
 'akan',
 'melengkapi',
 'langkah',
 'membawa',
 'persolan',
 'wto',
 'diharapkan',
 'memberikan',
 'tekanan',
 'lebih',
 'kepada',
 'memutuskan',
 'mengadopsi',
 'belum',
 'menggunakan',
 'law',
 'firm',
 'nya',
 'siapa',
 'dan',
 'dimana',
 'jadi',
 'agenda',
 'itulah',
 'yang',
 'kamj',
 'susun',
 'semua',
 'kata',
 'dia',
 'sisi',
 'lain',
 'menga

**Representasi Vektor dari Kata**

In [24]:
model.wv['pemerintah']

array([-0.34867004,  0.20220158,  0.8462527 , -0.14216411, -0.11721411,
        0.04395517, -0.43779665, -0.32961857,  0.7009537 , -0.8246853 ,
        0.98835397,  0.12906422, -0.4563418 ,  0.15544441, -0.7443101 ,
        0.38296998, -0.1762519 , -0.01276474,  0.9480642 , -2.2891564 ,
        0.6867948 , -0.25873792, -0.5620381 ,  0.4659718 ,  0.38866654,
        0.87050843, -0.7256462 ,  0.7072623 ,  0.75843287,  1.1089704 ,
       -0.6444309 ,  0.36810282,  0.06928173,  0.20673838,  0.3047451 ,
        0.65383786,  0.39155516, -0.24301192,  0.52965665,  0.51174563,
       -0.43897817, -0.41708645, -0.150694  ,  0.50690866, -0.15689503,
        0.0325863 , -0.23833527, -0.06990439, -0.6303318 ,  0.01814915,
       -0.65742004,  0.11833794,  0.12759033, -1.3143923 , -0.45377168,
       -1.0809938 , -0.36761585, -0.22793086, -0.36809623,  0.45408538,
        0.3685965 , -0.57424164,  0.4717446 ,  0.9506115 ,  0.3652787 ,
       -0.04139627, -0.32793373, -0.27045497, -0.39858592, -0.90

In [20]:
# Melihat representasi vektor dari kata pemerintah
model['pemerintah']

  


array([-0.34867004,  0.20220158,  0.8462527 , -0.14216411, -0.11721411,
        0.04395517, -0.43779665, -0.32961857,  0.7009537 , -0.8246853 ,
        0.98835397,  0.12906422, -0.4563418 ,  0.15544441, -0.7443101 ,
        0.38296998, -0.1762519 , -0.01276474,  0.9480642 , -2.2891564 ,
        0.6867948 , -0.25873792, -0.5620381 ,  0.4659718 ,  0.38866654,
        0.87050843, -0.7256462 ,  0.7072623 ,  0.75843287,  1.1089704 ,
       -0.6444309 ,  0.36810282,  0.06928173,  0.20673838,  0.3047451 ,
        0.65383786,  0.39155516, -0.24301192,  0.52965665,  0.51174563,
       -0.43897817, -0.41708645, -0.150694  ,  0.50690866, -0.15689503,
        0.0325863 , -0.23833527, -0.06990439, -0.6303318 ,  0.01814915,
       -0.65742004,  0.11833794,  0.12759033, -1.3143923 , -0.45377168,
       -1.0809938 , -0.36761585, -0.22793086, -0.36809623,  0.45408538,
        0.3685965 , -0.57424164,  0.4717446 ,  0.9506115 ,  0.3652787 ,
       -0.04139627, -0.32793373, -0.27045497, -0.39858592, -0.90

In [21]:
# melihat representasi vektor dari kata apbn
model['apbn']

  


array([-0.12573604,  0.0955205 ,  0.14860308, -0.04841897, -0.07938948,
       -0.00313   , -0.0860282 , -0.01164158,  0.13756798, -0.16662799,
        0.26692167,  0.03909333, -0.10423907, -0.02649037, -0.19920692,
        0.07477094, -0.0405842 ,  0.00579959,  0.20539922, -0.55811656,
        0.14349666, -0.06451788, -0.09540401,  0.09265509,  0.06875332,
        0.19999954, -0.16208164,  0.15667063,  0.20291018,  0.23702851,
       -0.15247512,  0.09494864,  0.02924239, -0.01318457,  0.02721169,
        0.21916616,  0.10819163, -0.02039118,  0.13911803,  0.20306464,
       -0.05232276, -0.13982499, -0.03750492,  0.13905711, -0.05623312,
       -0.03433431, -0.03626528,  0.05315164, -0.13979778,  0.0211393 ,
       -0.23998041,  0.00667419, -0.01317129, -0.29374865, -0.11870586,
       -0.27023792, -0.1127369 , -0.0760587 , -0.1250472 ,  0.15952541,
        0.17603385, -0.23591581,  0.08770087,  0.18560709,  0.02373298,
        0.07588084, -0.02821254, -0.04961249, -0.12955539, -0.21

**Melihat Keterkaitan Semantik antar Kata**

In [26]:
# terkait dengan kata 'ekonomi'
model.wv.most_similar(positive=['ekonomi'])

[('ekspor', 0.9993933439254761),
 ('inflasi', 0.9990881681442261),
 ('uln', 0.9989627599716187),
 ('rokok', 0.9989427328109741),
 ('gaji', 0.9988818168640137),
 ('pengangguran', 0.9988745450973511),
 ('sisi', 0.9987936019897461),
 ('china', 0.9987783432006836),
 ('tukar', 0.9987666606903076),
 ('sepanjang', 0.9987581968307495)]

In [25]:
model.wv.most_similar(positive=['sri'])

[('mulyani', 0.9976457357406616),
 ('kementerian', 0.9976400136947632),
 ('koordinator', 0.997505247592926),
 ('menteri', 0.9974340200424194),
 ('setiyadi', 0.9973781704902649),
 ('susi', 0.9973337650299072),
 ('keuangan', 0.9972330927848816),
 ('joko', 0.9971874952316284),
 ('darmin', 0.9971649646759033),
 ('kemenkeu', 0.9971247315406799)]