<a href="https://colab.research.google.com/github/Vicysaragih/IDCamp-2024-Level-Menengah/blob/main/IDCamp_2024_Level_Menengah_10_Feb_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Latihan Ekstraksi Fitur pada Teks**

# **Word Embedding**

Kode berikut adalah contoh implementasi Word2Vec menggunakan library Gensim dan NLTK di Python. Mari kita kupas bagian demi bagian.

In [None]:
# Pertama-tama, kita mengimpor modul yang dibutuhkan.
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

In [None]:
# Kemudian, kita men-download modul Punkt tokenizer dari NLTK
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# Langkah selanjutnya adalah mendefinisikan contoh data teks yang akan kita gunakan untuk melatih model Word2Vec.
text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

In [None]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
# Setelah itu, kita melakukan tokenisasi pada teks tersebut
tokenized_data = [word_tokenize(sentence.lower()) for sentence in text_data]

In [None]:
# Sekarang, saatnya membangun model Word2Vec menggunakan data teks yang sudah di-tokenisasi.
model = Word2Vec(sentences=tokenized_data, vector_size=100, window=5, min_count=1, workers=4)

In [None]:
'''
Di sini, parameter yang kita gunakan sebagai berikut.
sentences: Data teks yang telah di-tokenisasi.
vector_size: Ukuran dari vektor representasi kata. Dalam kasus ini, 100.
window: Jumlah maksimum kata-kata yang dianggap konteks dekat dalam satu kalimat.
min_count: Jumlah minimum kemunculan sebuah kata dalam korpus agar kata tersebut diperhitungkan.
workers: Jumlah thread yang digunakan dalam proses pembangunan model.
'''

'\nDi sini, parameter yang kita gunakan sebagai berikut.\nsentences: Data teks yang telah di-tokenisasi.\nvector_size: Ukuran dari vektor representasi kata. Dalam kasus ini, 100.\nwindow: Jumlah maksimum kata-kata yang dianggap konteks dekat dalam satu kalimat.\nmin_count: Jumlah minimum kemunculan sebuah kata dalam korpus agar kata tersebut diperhitungkan.\nworkers: Jumlah thread yang digunakan dalam proses pembangunan model.\n'

In [None]:
# Setelah model dibangun, kita bisa menggunakan vektor kata untuk kata-kata tertentu atau mencari kata-kata yang mirip dengan kata tertentu.
word_vectors = model.wv

similar_words = word_vectors.most_similar('bakso', topn=3)
print("Kata-kata yang mirip dengan 'bakso':", similar_words)

vector = word_vectors['bakso']
print("Vektor untuk 'bakso':", vector)

Kata-kata yang mirip dengan 'bakso': [('manis', 0.2529163062572479), ('nasi', 0.17018672823905945), ('enak', 0.15006466209888458)]
Vektor untuk 'bakso': [-0.00713882  0.00124156 -0.00717766 -0.00224369  0.00371885  0.00583258
  0.00119832  0.00210183 -0.00411138  0.00722588 -0.00630644  0.00464789
 -0.00821918  0.00203677 -0.00497649 -0.00424685 -0.00310906  0.00565491
  0.00579776 -0.00497439  0.00077378 -0.0084959   0.00780977  0.00925648
 -0.00274235  0.0007995   0.00074748  0.00547704 -0.00860589  0.00058358
  0.00687019  0.00223141  0.00112457 -0.00932216  0.00848288 -0.0062632
 -0.00299165  0.00349458 -0.00077282  0.00141124  0.00178217 -0.00682961
 -0.00972456  0.00904072  0.00619895 -0.00691193  0.00340259  0.00020664
  0.00475438 -0.00712046  0.00402629  0.00434812  0.00995727 -0.00447314
 -0.00138943 -0.00731689 -0.00969748 -0.00908048 -0.00102362 -0.00650396
  0.0048507  -0.00616346  0.0025184   0.00073924 -0.00339173 -0.00097928
  0.00997817  0.009146   -0.00446089  0.00908

# **Term Frequency-Inverse Document Frequency (TF-IDF)**


In [None]:
# Pertama-tama, kita mengimpor modul yang dibutuhkan.
from sklearn.feature_extraction.text import TfidfVectorizer


In [None]:
#Selanjutnya, kita memiliki data teks contoh yang terdiri dari beberapa dokumen
documents = [
    "Saya suka makan bakso",
    "Bakso enak dan lezat",
    "Makanan favorit saya adalah nasi goreng",
    "Nasi goreng pedas adalah makanan favorit saya",
    "Saya suka makanan manis seperti es krim",
]

In [None]:
# Inisialisasi objek TfidfVectorizer.
tfidf_vectorizer = TfidfVectorizer()

In [None]:
# menghitung TF-IDF dari dokumen-dokumen tersebut
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

In [None]:
# melihat vocabulary (kata unik) yang dihasilkan oleh TfidfVectorizer
print("Vocabulary:", tfidf_vectorizer.vocabulary_)

Vocabulary: {'saya': 14, 'suka': 16, 'makan': 9, 'bakso': 1, 'enak': 3, 'dan': 2, 'lezat': 8, 'makanan': 10, 'favorit': 5, 'adalah': 0, 'nasi': 12, 'goreng': 6, 'pedas': 13, 'manis': 11, 'seperti': 15, 'es': 4, 'krim': 7}


In [None]:
# melihat hasil dari TF-IDF matrix dalam bentuk array.
print("TF-IDF Matrix:")
print(tfidf_matrix.toarray())

TF-IDF Matrix:
[[0.         0.49851188 0.         0.         0.         0.
  0.         0.         0.         0.61789262 0.         0.
  0.         0.         0.34810993 0.         0.49851188]
 [0.         0.42224214 0.52335825 0.52335825 0.         0.
  0.         0.         0.52335825 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.43951606 0.         0.         0.         0.         0.43951606
  0.43951606 0.         0.         0.         0.36483803 0.
  0.43951606 0.         0.30691325 0.         0.        ]
 [0.38596041 0.         0.         0.         0.         0.38596041
  0.38596041 0.         0.         0.         0.320382   0.
  0.38596041 0.47838798 0.26951544 0.         0.        ]
 [0.         0.         0.         0.         0.42966246 0.
  0.         0.42966246 0.         0.         0.28774996 0.42966246
  0.         0.         0.24206433 0.42966246 0.34664897]]


Dengan TF-IDF Matrix ini, kita bisa melihat kata-kata yang paling penting dalam setiap dokumen berdasarkan konteksnya. Semakin tinggi nilai dalam tabel, semakin penting kata tersebut pada dokumen tersebut.

# **Bag of Words (BoW)**

In [None]:
# Import library CountVectorizer dari Scikit-learn yang digunakan untuk mengubah teks menjadi representasi Bag of Words (BoW).
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# Data teks berisi beberapa dokumen contoh yang akan diolah
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

In [None]:
# Inisialisasi objek CountVectorizer
vectorizer = CountVectorizer()

In [None]:
# Melakukan fitting dan transformasi pada data teks menggunakan CountVectorizer. Proses ini akan menghitung frekuensi kemunculan setiap kata dalam setiap dokumen.
bow_matrix = vectorizer.fit_transform(documents)

In [None]:
# Setelah transformasi, kita mendapatkan matriks Bag of Words (BoW), yang merupakan representasi numerik dari teks. Matriks ini berisi jumlah kemunculan setiap kata dalam setiap dokumen.
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]])

In [None]:
features = vectorizer.get_feature_names_out()

In [None]:
# Hasilnya, kita mencetak matriks BoW beserta daftar fitur yang dihasilkan.
print("Matriks BoW:")
print(bow_matrix.toarray())

print("\nDaftar Fitur:")
print(features)

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


**Matriks Bag of Words (BoW**) adalah representasi numerik dari teks yang menunjukkan jumlah kemunculan setiap kata dalam setiap dokumen. Pada contoh ini, matriks BoW memiliki 4 baris yang mewakili 4 dokumen dan 7 kolom yang mewakili 7 kata unik dalam teks.

Misalnya, dalam dokumen pertama, kata 'adalah', 'contoh', 'dokumen', dan 'ini' muncul masing-masing 1 kali, sementara kata 'kedua', 'ketiga', dan 'pertama' tidak muncul. Daftar fitur adalah daftar kata-kata unik yang diurutkan secara alfabetis.

# **N-gram**


In [None]:
# Import library yang diperlukan
from nltk.util import ngrams

In [None]:
# Tentukan beberapa kalimat contoh
sentences = [
    "Saya suka makan bakso enak di warung dekat rumah.",
    "Nasi goreng adalah salah satu makanan favorit saya.",
    "Es krim coklat sangat lezat dan menyegarkan.",
    "Saat hari hujan, saya suka minum teh hangat.",
    "Pemandangan pegunungan di pagi hari sangat indah.",
    "Bola basket adalah olahraga favorit saya sejak kecil."
]

In [None]:
# Iterasi melalui setiap kalimat dalam daftar kalimat
for sentence in sentences:
    pass # Add a placeholder statement since the loop body is empty

In [None]:
# Bagi setiap kalimat menjadi kata-kata individu
words = sentence.split()

In [None]:
# Buat 1-gram (unigram) dari kata-kata dalam kalimat tersebut
unigrams = list(ngrams(words, 1))

In [None]:
# Buat 2-gram (bigram) dari kata-kata dalam kalimat tersebut
bigrams = list(ngrams(words, 2))

In [None]:
# Buat 3-gram (trigram) dari kata-kata dalam kalimat tersebut
trigrams = list(ngrams(words, 3))

In [None]:
# Cetak hasil untuk setiap kalimat, termasuk unigram, bigram, dan trigram
print("\nKalimat:", sentence)
print("1-gram:")
for gram in unigrams:
    print(gram)
print("\n2-gram:")
for gram in bigrams:
    print(gram)
print("\n3-gram:")
for gram in trigrams:
    print(gram)


Kalimat: Bola basket adalah olahraga favorit saya sejak kecil.
1-gram:
('Bola',)
('basket',)
('adalah',)
('olahraga',)
('favorit',)
('saya',)
('sejak',)
('kecil.',)

2-gram:
('Bola', 'basket')
('basket', 'adalah')
('adalah', 'olahraga')
('olahraga', 'favorit')
('favorit', 'saya')
('saya', 'sejak')
('sejak', 'kecil.')

3-gram:
('Bola', 'basket', 'adalah')
('basket', 'adalah', 'olahraga')
('adalah', 'olahraga', 'favorit')
('olahraga', 'favorit', 'saya')
('favorit', 'saya', 'sejak')
('saya', 'sejak', 'kecil.')
