## GloVe (Global Vectors for Word Representation)
GloVe adalah algoritma pembelajaran representasi kata (word embeddings) yang dikembangkan oleh Stanford. GloVe mengonversi kata-kata menjadi vektor berdimensi rendah berdasarkan informasi statistik global dari korpus teks, yang memungkinkan kata-kata dengan makna serupa berada dekat satu sama lain dalam ruang vektor.

GloVe mengandalkan matriks ko-occurrence kata-kata dalam teks untuk menghasilkan representasi kata. Matriks ko-occurrence ini mencatat berapa kali dua kata muncul bersama dalam jendela konteks tertentu. GloVe kemudian mengoptimalkan fungsi biaya yang berdasarkan logaritma dari probabilitas ko-occurrence kata-kata tersebut.

## Bagaimana GloVe Bekerja?
Matriks Ko-occurrence: GloVe menggunakan matriks yang merepresentasikan berapa kali dua kata muncul bersamaan dalam konteks tertentu. Misalnya, dalam kalimat "The cat sits on the mat", kata "cat" dan "sits" mungkin memiliki ko-occurrence yang lebih tinggi karena mereka sering muncul bersamaan.

Fungsi Biaya: GloVe mengoptimalkan fungsi biaya untuk meminimalkan perbedaan antara perkiraan probabilitas ko-occurrence berdasarkan vektor kata dan probabilitas ko-occurrence aktual dari korpus teks.

Embedding Kata: Setelah pelatihan, setiap kata akan diwakili oleh vektor berdimensi rendah yang mencerminkan makna semantik kata tersebut, dan kata-kata yang memiliki konteks serupa akan memiliki vektor yang saling berdekatan.

## Kelebihan GloVe:
Menggunakan informasi global dari seluruh korpus, sehingga sangat efektif untuk menangkap hubungan semantik antar kata.

Lebih efisien daripada model berbasis konteks seperti Word2Vec dalam beberapa kasus.

## Contoh GloVe di Python
GloVe sendiri tidak tersedia langsung sebagai pustaka Python, tetapi kamu dapat menggunakan implementasi GloVe yang telah dilatih sebelumnya, seperti model GloVe yang sudah tersedia dari Stanford.

Namun, kamu bisa menggunakan pustaka gensim untuk memuat dan mengoperasikan model GloVe yang telah dilatih. Berikut adalah contoh cara memuat model GloVe yang sudah dilatih dan menggunakan representasi kata dari GloVe di Python.

In [23]:
import gensim
from gensim.models.keyedvectors import KeyedVectors

# Memuat model GloVe yang sudah dilatih (dalam format txt)
# Misalnya, menggunakan model GloVe dengan 50 dimensi
glove_file = 'glove.6B.50d.txt'

File GloVe biasanya berisi kata-kata dan vektor embedding yang dipisahkan oleh spasi. Setiap baris dalam file tersebut berisi satu kata diikuti oleh vektor angka (vektor embedding) yang mewakili kata tersebut.

In [21]:
with open(glove_file, 'r', encoding='utf-8') as file:
    # Membaca 5 baris pertama untuk melihat isinya
    for i in range(5):
        print(file.readline())

the 0.418 0.24968 -0.41242 0.1217 0.34527 -0.044457 -0.49688 -0.17862 -0.00066023 -0.6566 0.27843 -0.14767 -0.55677 0.14658 -0.0095095 0.011658 0.10204 -0.12792 -0.8443 -0.12181 -0.016801 -0.33279 -0.1552 -0.23131 -0.19181 -1.8823 -0.76746 0.099051 -0.42125 -0.19526 4.0071 -0.18594 -0.52287 -0.31681 0.00059213 0.0074449 0.17778 -0.15897 0.012041 -0.054223 -0.29871 -0.15749 -0.34758 -0.045637 -0.44251 0.18785 0.0027849 -0.18411 -0.11514 -0.78581

, 0.013441 0.23682 -0.16899 0.40951 0.63812 0.47709 -0.42852 -0.55641 -0.364 -0.23938 0.13001 -0.063734 -0.39575 -0.48162 0.23291 0.090201 -0.13324 0.078639 -0.41634 -0.15428 0.10068 0.48891 0.31226 -0.1252 -0.037512 -1.5179 0.12612 -0.02442 -0.042961 -0.28351 3.5416 -0.11956 -0.014533 -0.1499 0.21864 -0.33412 -0.13872 0.31806 0.70358 0.44858 -0.080262 0.63003 0.32111 -0.46765 0.22786 0.36034 -0.37818 -0.56657 0.044691 0.30392

. 0.15164 0.30177 -0.16763 0.17684 0.31719 0.33973 -0.43478 -0.31086 -0.44999 -0.29486 0.16608 0.11963 -0.41328 -0.423

In [25]:
# Memuat model GloVe ke dalam format Word2Vec dengan gensim
model = gensim.models.keyedvectors.KeyedVectors.load_word2vec_format(glove_file, binary=False, no_header=True)

# Menampilkan vektor untuk kata 'king'
vector_king = model['king']
print(f"Vektor untuk kata 'king':\n{vector_king}\n")

# Menampilkan kata yang paling mirip dengan 'king'
similar_words = model.most_similar('king', topn=3)
print("Kata-kata yang paling mirip dengan 'king':")
for word, similarity in similar_words:
    print(f"{word}: {similarity}")


Vektor untuk kata 'king':
[ 0.50451   0.68607  -0.59517  -0.022801  0.60046  -0.13498  -0.08813
  0.47377  -0.61798  -0.31012  -0.076666  1.493    -0.034189 -0.98173
  0.68229   0.81722  -0.51874  -0.31503  -0.55809   0.66421   0.1961
 -0.13495  -0.11476  -0.30344   0.41177  -2.223    -1.0756   -1.0783
 -0.34354   0.33505   1.9927   -0.04234  -0.64319   0.71125   0.49159
  0.16754   0.34344  -0.25663  -0.8523    0.1661    0.40102   1.1685
 -1.0137   -0.21585  -0.15155   0.78321  -0.91241  -1.6106   -0.64426
 -0.51042 ]

Kata-kata yang paling mirip dengan 'king':
prince: 0.8236179351806641
queen: 0.7839044332504272
ii: 0.7746230363845825


# Reference
- https://nlp.stanford.edu/projects/glove/