# Word Embedding
Menggunakan library Word2Vec dari nltk

In [4]:
# mengimpor modul yang dibutuhkan
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

In [5]:
# mendownload modul punkt
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
# membuat contoh data
text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

In [8]:
# melakukan tokenisasi pada teks
tokenized_data = [word_tokenize(sentence.lower()) for sentence in text_data]
print(tokenized_data)

[['saya', 'suka', 'makan', 'bakso'], ['bakso', 'enak', 'dan', 'lezat'], ['makanan', 'favorit', 'saya', 'adalah', 'nasi', 'goreng'], ['nasi', 'goreng', 'pedas', 'adalah', 'makanan', 'favorit', 'saya'], ['saya', 'suka', 'makanan', 'manis', 'seperti', 'es', 'krim']]


In [11]:
# ekstraksi fitur menggunakan model Word2Vec
model = Word2Vec(sentences=tokenized_data, vector_size=100, window=5, min_count=1, workers=4)

# sentences   : Data teks yang telah di-tokenisasi.
# ector_size  : Ukuran dari vektor representasi kata. Dalam kasus ini, 100.
# window      : Jumlah maksimum kata-kata yang dianggap konteks dekat dalam satu kalimat.
# min_count   : Jumlah minimum kemunculan sebuah kata dalam korpus agar kata tersebut diperhitungkan.
# workers     : Jumlah thread yang digunakan dalam proses pembangunan model.

In [12]:
# mencari kata-kata yang mirip dengan kata tertentu
word_vectors = model.wv

similar_words = word_vectors.most_similar('bakso', topn=3)
print("Kata-kata yang mirip dengan 'bakso':", similar_words)

vector = word_vectors['bakso']
print("Vektor untuk 'bakso':", vector)

Kata-kata yang mirip dengan 'bakso': [('manis', 0.2529163062572479), ('nasi', 0.17018672823905945), ('enak', 0.15006466209888458)]
Vektor untuk 'bakso': [-0.00713882  0.00124156 -0.00717766 -0.00224369  0.00371885  0.00583258
  0.00119832  0.00210183 -0.00411138  0.00722588 -0.00630644  0.00464789
 -0.00821918  0.00203677 -0.00497649 -0.00424685 -0.00310906  0.00565491
  0.00579776 -0.00497439  0.00077378 -0.0084959   0.00780977  0.00925648
 -0.00274235  0.0007995   0.00074748  0.00547704 -0.00860589  0.00058358
  0.00687019  0.00223141  0.00112457 -0.00932216  0.00848288 -0.0062632
 -0.00299165  0.00349458 -0.00077282  0.00141124  0.00178217 -0.00682961
 -0.00972456  0.00904072  0.00619895 -0.00691193  0.00340259  0.00020664
  0.00475438 -0.00712046  0.00402629  0.00434812  0.00995727 -0.00447314
 -0.00138943 -0.00731689 -0.00969748 -0.00908048 -0.00102362 -0.00650396
  0.0048507  -0.00616346  0.0025184   0.00073924 -0.00339173 -0.00097928
  0.00997817  0.009146   -0.00446089  0.00908

# Term Frequency-Inverse Document Frequency (TF-IDF)
Menggunakan library TfidfVectorizer dari Scikit-learn

In [14]:
# mengimpor library yang dibutuhkan
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
# membuat contoh data
documents = [
    "Saya suka makan bakso",
    "Bakso enak dan lezat",
    "Makanan favorit saya adalah nasi goreng",
    "Nasi goreng pedas adalah makanan favorit saya",
    "Saya suka makanan manis seperti es krim",
]

In [16]:
# inisialisasi objek
tfidf_vectorizer = TfidfVectorizer()

In [18]:
# menghitung tf-idf dari document
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
print(tfidf_matrix)

  (0, 1)	0.498511878090309
  (0, 9)	0.6178926235233461
  (0, 16)	0.498511878090309
  (0, 14)	0.348109926030819
  (1, 8)	0.5233582502695435
  (1, 2)	0.5233582502695435
  (1, 3)	0.5233582502695435
  (1, 1)	0.4222421409859579
  (2, 6)	0.43951605905204943
  (2, 12)	0.43951605905204943
  (2, 0)	0.43951605905204943
  (2, 5)	0.43951605905204943
  (2, 10)	0.3648380321234529
  (2, 14)	0.30691325428809335
  (3, 13)	0.47838797624108775
  (3, 6)	0.3859604070556704
  (3, 12)	0.3859604070556704
  (3, 0)	0.3859604070556704
  (3, 5)	0.3859604070556704
  (3, 10)	0.32038200308644904
  (3, 14)	0.26951544116795256
  (4, 7)	0.4296624589591145
  (4, 4)	0.4296624589591145
  (4, 15)	0.4296624589591145
  (4, 11)	0.4296624589591145
  (4, 10)	0.2877499562886115
  (4, 16)	0.3466489665133793
  (4, 14)	0.2420643346631988


In [19]:
# melihat kata unik
print("Vocabulary:", tfidf_vectorizer.vocabulary_)

Vocabulary: {'saya': 14, 'suka': 16, 'makan': 9, 'bakso': 1, 'enak': 3, 'dan': 2, 'lezat': 8, 'makanan': 10, 'favorit': 5, 'adalah': 0, 'nasi': 12, 'goreng': 6, 'pedas': 13, 'manis': 11, 'seperti': 15, 'es': 4, 'krim': 7}


In [20]:
# hasil dalam bentuk array
print("TF-IDF Matrix:")
print(tfidf_matrix.toarray())

TF-IDF Matrix:
[[0.         0.49851188 0.         0.         0.         0.
  0.         0.         0.         0.61789262 0.         0.
  0.         0.         0.34810993 0.         0.49851188]
 [0.         0.42224214 0.52335825 0.52335825 0.         0.
  0.         0.         0.52335825 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.43951606 0.         0.         0.         0.         0.43951606
  0.43951606 0.         0.         0.         0.36483803 0.
  0.43951606 0.         0.30691325 0.         0.        ]
 [0.38596041 0.         0.         0.         0.         0.38596041
  0.38596041 0.         0.         0.         0.320382   0.
  0.38596041 0.47838798 0.26951544 0.         0.        ]
 [0.         0.         0.         0.         0.42966246 0.
  0.         0.42966246 0.         0.         0.28774996 0.42966246
  0.         0.         0.24206433 0.42966246 0.34664897]]


# Bag of Words (BoW)
Menggunakan library CountVectorizer dari Scikit-learn

In [21]:
# mengimport library yang dibutuhkan
from sklearn.feature_extraction.text import CountVectorizer

In [22]:
# membuat contoh data
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

In [23]:
# inisialisasi objek
vectorizer = CountVectorizer()

In [24]:
# melakukan fittin dan transformasi pada teks
# menghitung frekuensi kemunculan setiap kata dalam dokumen
bow_matrix = vectorizer.fit_transform(documents)

In [27]:
# memperlihatkan matriks dari Bag of Words (BoW)
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]])

In [28]:
# mendapatkan fitur
features = vectorizer.get_feature_names_out()

In [31]:
# memperlihatkan fitur urut secara alfabet
print(features)

['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


In [33]:
print("Matriks BoW:")
print(bow_matrix.toarray())

print("\nDaftar Fitur:")
print(features)

# matriks BoW memiliki 4 baris yang mewakili 4 dokumen dan 7 kolom yang mewakili 7 kata unik dalam teks.
# dalam dokumen pertama, kata 'adalah', 'contoh', 'dokumen', dan 'ini' muncul masing-masing 1 kali, sementara kata 'kedua', 'ketiga', dan 'pertama' tidak muncul.

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


# N-gram
Menggunakan library ngrams dari nltk

In [34]:
# mengimport library yang dibutuhkan
from nltk.util import ngrams

In [35]:
# membuat contoh data
sentences = [
    "Saya suka makan bakso enak di warung dekat rumah.",
    "Nasi goreng adalah salah satu makanan favorit saya.",
    "Es krim coklat sangat lezat dan menyegarkan.",
    "Saat hari hujan, saya suka minum teh hangat.",
    "Pemandangan pegunungan di pagi hari sangat indah.",
    "Bola basket adalah olahraga favorit saya sejak kecil."
]

In [39]:
# iterasi setiap kalimat
for sentence in sentences:
  words = sentence.split() # Bagi setiap kalimat menjadi kata-kata individu
  unigrams = list(ngrams(words, 1)) # Buat 1-gram (unigram)
  bigrams = list(ngrams(words, 2))  # Buat 2-gram (bigram)
  trigrams = list(ngrams(words, 3)) # Buat 3-gram (trigram)

  # cetak hasil untuk setiap kalimat
  print("\nKalimat:", sentence)
  print("1-gram:")
  for gram in unigrams:
    print(gram)
  print("\n2-gram:")
  for gram in bigrams:
    print(gram)
  print("\n3-gram:")
  for gram in trigrams:
    print(gram)


Kalimat: Saya suka makan bakso enak di warung dekat rumah.
1-gram:
('Saya',)
('suka',)
('makan',)
('bakso',)
('enak',)
('di',)
('warung',)
('dekat',)
('rumah.',)

2-gram:
('Saya', 'suka')
('suka', 'makan')
('makan', 'bakso')
('bakso', 'enak')
('enak', 'di')
('di', 'warung')
('warung', 'dekat')
('dekat', 'rumah.')

3-gram:
('Saya', 'suka', 'makan')
('suka', 'makan', 'bakso')
('makan', 'bakso', 'enak')
('bakso', 'enak', 'di')
('enak', 'di', 'warung')
('di', 'warung', 'dekat')
('warung', 'dekat', 'rumah.')

Kalimat: Nasi goreng adalah salah satu makanan favorit saya.
1-gram:
('Nasi',)
('goreng',)
('adalah',)
('salah',)
('satu',)
('makanan',)
('favorit',)
('saya.',)

2-gram:
('Nasi', 'goreng')
('goreng', 'adalah')
('adalah', 'salah')
('salah', 'satu')
('satu', 'makanan')
('makanan', 'favorit')
('favorit', 'saya.')

3-gram:
('Nasi', 'goreng', 'adalah')
('goreng', 'adalah', 'salah')
('adalah', 'salah', 'satu')
('salah', 'satu', 'makanan')
('satu', 'makanan', 'favorit')
('makanan', 'favorit'