In [2]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

In [4]:
# Data kalimat untuk demonstrasi
sentences = [
    "The cat sits on the mat",
    "The dog barks at the cat",
    "The bird flies in the sky"
]

# Tokenisasi kalimat
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]

In [6]:
tokenized_sentences

[['the', 'cat', 'sits', 'on', 'the', 'mat'],
 ['the', 'dog', 'barks', 'at', 'the', 'cat'],
 ['the', 'bird', 'flies', 'in', 'the', 'sky']]

# ------------------------------------------------------
# Bagian 1: One-Hot Encoding
# ------------------------------------------------------

In [59]:
# Melakukan tokenisasi dan mendeklarasikan LabelEncoder
words = [word for sentence in tokenized_sentences for word in sentence]  # Semua kata
label_encoder = LabelEncoder()
label_encoder.fit(words)

# One-Hot Encoding
one_hot_encoded = label_encoder.transform(words)
one_hot_encoded_matrix = np.zeros((len(words), len(label_encoder.classes_)))
one_hot_encoded_matrix[np.arange(len(words)), one_hot_encoded] = 1

In [53]:
print("Semua index dan One-Hot Encoding:")
for idx, word in enumerate(words):
    print(f"Index: {idx}, Kata: '{word}', One-Hot Encoding: {one_hot_encoded_matrix[idx]}")

Semua index dan One-Hot Encoding:
Index: 0, Kata: 'the', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Index: 1, Kata: 'cat', One-Hot Encoding: [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
Index: 2, Kata: 'sits', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
Index: 3, Kata: 'on', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
Index: 4, Kata: 'the', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Index: 5, Kata: 'mat', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
Index: 6, Kata: 'the', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Index: 7, Kata: 'dog', One-Hot Encoding: [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
Index: 8, Kata: 'barks', One-Hot Encoding: [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Index: 9, Kata: 'at', One-Hot Encoding: [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Index: 10, Kata: 'the', One-Hot Encoding: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Index: 11, Kata: 'cat', One-Hot Encoding: [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
Index: 12, Kata

In [57]:
one_hot_encoded_matrix

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0., 0.,

# ------------------------------------------------------
# Bagian 2: Word Embedding (Word2Vec)
# ------------------------------------------------------

In [63]:
# Membangun model Word2Vec untuk mendapatkan word embeddings
model = Word2Vec(sentences=tokenized_sentences, vector_size=10, window=5, min_count=1, sg=0)

# Menampilkan vektor embedding untuk kata "cat"
word_embedding = model.wv['cat']

In [65]:
# Menampilkan semua kata dan vektor embedding-nya
print("Semua kata dan vektor embedding:")
for word in model.wv.index_to_key:  # index_to_key adalah daftar kata yang ada dalam model
    word_embedding = model.wv[word]
    print(f"Kata: '{word}', Vektor Embedding: {word_embedding}")

Semua kata dan vektor embedding:
Kata: 'the', Vektor Embedding: [-0.00536227  0.00236431  0.0510335   0.09009273 -0.0930295  -0.07116809
  0.06458873  0.08972988 -0.05015428 -0.03763372]
Kata: 'cat', Vektor Embedding: [ 0.07380505 -0.01533471 -0.04536613  0.06554051 -0.0486016  -0.01816018
  0.0287658   0.00991874 -0.08285215 -0.09448818]
Kata: 'sky', Vektor Embedding: [ 0.07311811  0.05070294  0.06757735  0.0076287   0.0635093  -0.03405387
 -0.00946407  0.05768609 -0.07521684 -0.03936128]
Kata: 'in', Vektor Embedding: [-0.07511582 -0.00930042  0.09538119 -0.07319167 -0.02333769 -0.01937741
  0.08077437 -0.05930896  0.00045162 -0.04753734]
Kata: 'flies', Vektor Embedding: [-0.0960355   0.05007293 -0.08759586 -0.04391825 -0.000351   -0.00296181
 -0.0766124   0.09614743  0.04982058  0.09233143]
Kata: 'bird', Vektor Embedding: [-0.08157779  0.04495894 -0.04136949  0.0082455   0.08498739 -0.04462241
  0.04517483 -0.06786852 -0.03548631  0.09398434]
Kata: 'at', Vektor Embedding: [-0.0157765

# Perbedaan Word Embedding dan One Hot Encoding
- Dari hasil tersebut one hot encoding hanya mengubah variabel kategorikal (seperti teks atau kategori) menjadi format numerik yang dapat digunakan oleh model pembelajaran mesin. Dalam metode ini, setiap kategori atau nilai unik dari variabel digantikan dengan vektor biner (vektor angka 0 dan 1).

- Sedangkan  Word embedding menyatakan kedekatan antar kategori yang mencerminkan hubungan semantik dengan kata lain dalam konteks kalimat. Oleh karena itu nilainya buka 0 dan 1.