In [5]:
# Pertama-tama, kita mengimpor modul yang dibutuhkan
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

##### Kemudian, kita men-download modul Punkt tokenizer dari NLTK.

In [6]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HP-01\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

##### Langkah selanjutnya adalah mendefinisikan contoh data teks yang akan kita gunakan untuk melatih model Word2Vec

In [7]:
text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

##### Setelah itu, kita melakukan tokenisasi pada teks tersebut

In [8]:
tokenized_data = [word_tokenize(sentence.lower()) for sentence in text_data]

##### Sekarang, saatnya membangun model Word2Vec menggunakan data teks yang sudah di-tokenisasi.

In [9]:
model = Word2Vec(sentences=tokenized_data, vector_size=100, window=5, min_count=1, workers=4)

##### Setelah model dibangun, kita bisa menggunakan vektor kata untuk kata-kata tertentu atau mencari kata-kata yang mirip dengan kata tertentu.

In [10]:
word_vectors = model.wv
 
similar_words = word_vectors.most_similar('bakso', topn=3)
print("Kata-kata yang mirip dengan 'bakso':", similar_words)
 
vector = word_vectors['bakso']
print("Vektor untuk 'bakso':", vector)

Kata-kata yang mirip dengan 'bakso': [('manis', 0.2529163062572479), ('nasi', 0.17018672823905945), ('enak', 0.15006466209888458)]
Vektor untuk 'bakso': [-0.00713882  0.00124156 -0.00717766 -0.00224369  0.00371885  0.00583258
  0.00119832  0.00210183 -0.00411138  0.00722588 -0.00630644  0.00464789
 -0.00821918  0.00203677 -0.00497649 -0.00424685 -0.00310906  0.00565491
  0.00579776 -0.00497439  0.00077378 -0.0084959   0.00780977  0.00925648
 -0.00274235  0.0007995   0.00074748  0.00547704 -0.00860589  0.00058358
  0.00687019  0.00223141  0.00112457 -0.00932216  0.00848288 -0.0062632
 -0.00299165  0.00349458 -0.00077282  0.00141124  0.00178217 -0.00682961
 -0.00972456  0.00904072  0.00619895 -0.00691193  0.00340259  0.00020664
  0.00475438 -0.00712046  0.00402629  0.00434812  0.00995727 -0.00447314
 -0.00138943 -0.00731689 -0.00969748 -0.00908048 -0.00102362 -0.00650396
  0.0048507  -0.00616346  0.0025184   0.00073924 -0.00339173 -0.00097928
  0.00997817  0.009146   -0.00446089  0.00908

##### Dalam contoh ini, kita mencari kata-kata yang mirip dengan 'bakso' dan mendapatkan vektor representasinya.

Jadi, dengan menggunakan Word2Vec, kita bisa melatih model untuk membuat representasi vektor dari kata-kata dalam teks yang berguna pada berbagai tugas NLP.
