<a href="https://colab.research.google.com/github/codedreamerD/ml-dev_latihan/blob/main/BPML_Text_Feature_Extraction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TEXT FEATURE EXTRACTION

## Import Library

In [1]:
!pip install gensim

Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[0mInstalling collected packages: numpy
[0mSuccessfully installed numpy


In [2]:
import nltk
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from nltk.util import ngrams

## Word Embedding

Bayangkan Anda lagi main puzzle kata-kata. Anda punya sejumlah kata-kata yang tersusun dalam kalimat-kalimat, tetapi bagaimana cara mesin memahami makna sebenarnya dari kata-kata ini?

Nah, di situlah "word embedding" masuk ke permainan. Hal ini seperti memberi setiap kata-kata tempat spesial dalam ruang matematis yang besar. Bayangkan ruang itu seperti tempat parkir yang luas dan setiap kata punya tempat parkirnya sendiri.

Contohnya, kata-kata yang sering digunakan bersama-sama, seperti "anjing" dan "kucing", parkirnya dekat satu sama lain karena sering muncul dalam konteks yang sama. Sementara kata-kata seperti "meja" atau "laptop" mungkin parkirnya lebih jauh dari mereka karena maknanya berada dalam konteks berbeda.

Kode berikut adalah contoh implementasi Word2Vec menggunakan library Gensim dan NLTK di Python.

### Membangun model Word2Vec menggunakan data teks yang sudah di-tokenisasi

- Kemudian, kita men-download modul Punkt tokenizer dari NLTK.
- Langkah selanjutnya adalah mendefinisikan contoh data teks yang akan kita gunakan untuk melatih model Word2Vec.
- Setelah itu, kita melakukan tokenisasi pada teks tersebut.
- Sekarang, saatnya membangun model Word2Vec menggunakan data teks yang sudah di-tokenisasi.
- Setelah model dibangun, kita bisa menggunakan vektor kata untuk kata-kata tertentu atau mencari kata-kata yang mirip dengan kata tertentu.

In [3]:
nltk.download('punkt')
nltk.download('punkt_tab')

text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

tokenized_data = [word_tokenize(sentence.lower()) for sentence in text_data]

model = Word2Vec(sentences=tokenized_data,
                 vector_size=100,
                 window=5,
                 min_count=1,
                 workers=4)

word_vectors = model.wv

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### Menggunakan vektor kata untuk kata-kata tertentu atau mencari kata-kata yang mirip dengan kata tertentu

Dalam contoh ini, kita mencari kata-kata yang mirip dengan 'bakso' dan mendapatkan vektor representasinya. Jadi, dengan menggunakan Word2Vec, kita bisa melatih model untuk membuat representasi vektor dari kata-kata dalam teks yang berguna pada berbagai tugas NLP.

In [4]:
similar_words = word_vectors.most_similar('bakso', topn=3)
print("Kata-kata yang mirip dengan 'bakso':", similar_words)

Kata-kata yang mirip dengan 'bakso': [('manis', 0.2529163062572479), ('nasi', 0.17018672823905945), ('enak', 0.15006466209888458)]


In [5]:
vector = word_vectors['bakso']
print("Vektor untuk 'bakso':", vector)

Vektor untuk 'bakso': [-0.00713882  0.00124156 -0.00717766 -0.00224369  0.00371885  0.00583258
  0.00119832  0.00210183 -0.00411138  0.00722588 -0.00630644  0.00464789
 -0.00821918  0.00203677 -0.00497649 -0.00424685 -0.00310906  0.00565491
  0.00579776 -0.00497439  0.00077378 -0.0084959   0.00780977  0.00925648
 -0.00274235  0.0007995   0.00074748  0.00547704 -0.00860589  0.00058358
  0.00687019  0.00223141  0.00112457 -0.00932216  0.00848288 -0.0062632
 -0.00299165  0.00349458 -0.00077282  0.00141124  0.00178217 -0.00682961
 -0.00972456  0.00904072  0.00619895 -0.00691193  0.00340259  0.00020664
  0.00475438 -0.00712046  0.00402629  0.00434812  0.00995727 -0.00447314
 -0.00138943 -0.00731689 -0.00969748 -0.00908048 -0.00102362 -0.00650396
  0.0048507  -0.00616346  0.0025184   0.00073924 -0.00339173 -0.00097928
  0.00997817  0.009146   -0.00446089  0.00908287 -0.00564239  0.00593029
 -0.00309763  0.00343232  0.00301726  0.00690047 -0.00237434  0.00877584
  0.00759023 -0.00954767 -0.00

**Insight:**

Hasil yang kita dapatkan dari kode tersebut adalah berupa dua hal, yaitu kata-kata yang mirip dengan 'bakso' dan vektor representasi untuk kata 'bakso'.

Kata-kata yang mirip dengan 'bakso'
Dari hasil pencarian, kita dapatkan tiga kata yang mirip dengan 'bakso', yaitu 'manis', 'nasi', dan 'enak'. Nilai yang tercantum di samping kata-kata tersebut adalah ukuran seberapa miripnya kata-kata tersebut dengan 'bakso'. Semakin tinggi nilai tersebut, semakin mirip kata-kata tersebut dengan 'bakso'. Jadi, dalam kasus ini, 'manis' adalah kata yang paling mirip dengan 'bakso', diikuti oleh 'nasi' dan 'enak'.
Vektor untuk 'bakso'
Vektor ini adalah representasi matematis dari kata 'bakso' dalam ruang vektor. Setiap angka dalam vektor tersebut mewakili fitur atau atribut tertentu dari kata 'bakso'.

Misalnya, nilai pertama mungkin mewakili seberapa sering kata 'bakso' muncul dalam konteks tertentu, nilai kedua mungkin mewakili hubungan kata 'bakso' dengan kata-kata lain, seperti 'makanan' atau 'kuliner' dan seterusnya. Dengan vektor ini, mesin dapat memahami kata 'bakso' secara matematis dan menggunakannya dalam berbagai analisis atau tugas pemrosesan bahasa alami.

## Term Frequency-Inverse Document Frequency (TF-IDF)

Bayangkan Anda memiliki sejumlah dokumen teks, seperti artikel, laporan, atau pesan-pesan dalam media sosial. Anda ingin tahu kata-kata yang penting dalam setiap dokumen itu. Misalnya, dalam artikel tentang makanan, kata-kata seperti "makanan" atau "resep" mungkin lebih penting daripada kata-kata umum lainnya.

Di sinilah TF-IDF (Term Frequency-Inverse Document Frequency) masuk permainan. Ini seperti memberi bobot kepada setiap kata dalam dokumen berdasarkan seberapa sering kata itu muncul pada dokumen itu sendiri (frekuensi kata) dan seberapa umumnya kata itu muncul di seluruh kumpulan dokumen.

Misalnya, kata-kata yang muncul banyak dalam satu dokumen, tetapi jarang muncul pada dokumen-dokumen lain mungkin dianggap lebih penting. Contohnya, dalam sebuah artikel tentang bakso, kata "bakso" mungkin muncul berkali-kali, tetapi mungkin jarang muncul pada artikel-artikel yang tidak berkaitan dengan makanan.

Untuk menghitung TF-IDF, kita bisa menggunakan alat seperti TfidfVectorizer pada Python. Ini membantu kita mengukur pentingnya kata-kata dalam setiap dokumen berdasarkan logika yang dibahas tadi. Jadi, dengan TF-IDF, kita bisa menemukan kata-kata yang paling mencirikan atau penting dalam setiap dokumen.

Kode berikut adalah contoh implementasi TF-IDF menggunakan library TfidfVectorizer pada Python.

### Inisialisasi objek TfidfVectorizer dan menghitung TF-IDF dari dokumen-dokumen tersebut

In [6]:
documents = [
    "Saya suka makan bakso",
    "Bakso enak dan lezat",
    "Makanan favorit saya adalah nasi goreng",
    "Nasi goreng pedas adalah makanan favorit saya",
    "Saya suka makanan manis seperti es krim",
]

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

Di sini, TF-IDF (Term Frequency-Inverse Document Frequency) menghitung seberapa sering sebuah kata muncul dalam sebuah dokumen, lalu dibandingkan dengan seberapa sering kata tersebut muncul di seluruh koleksi dokumen. Ini membantu untuk menemukan kata-kata yang penting dalam sebuah dokumen.

### Melihat vocabulary (kata unik) yang dihasilkan oleh TfidfVectorizer

In [7]:
print("Vocabulary:", tfidf_vectorizer.vocabulary_)

Vocabulary: {'saya': 14, 'suka': 16, 'makan': 9, 'bakso': 1, 'enak': 3, 'dan': 2, 'lezat': 8, 'makanan': 10, 'favorit': 5, 'adalah': 0, 'nasi': 12, 'goreng': 6, 'pedas': 13, 'manis': 11, 'seperti': 15, 'es': 4, 'krim': 7}


Jadi, dengan menggunakan TfidfVectorizer dari Scikit-learn, kita dapat mengonversi dokumen teks menjadi representasi TF-IDF, yang berguna untuk menganalisis kepentingan relatif dari kata-kata dalam setiap dokumen.

### Melihat hasil dari TF-IDF matrix dalam bentuk array

In [8]:
print("TF-IDF Matrix:")
print(tfidf_matrix.toarray())

TF-IDF Matrix:
[[0.         0.49851188 0.         0.         0.         0.
  0.         0.         0.         0.61789262 0.         0.
  0.         0.         0.34810993 0.         0.49851188]
 [0.         0.42224214 0.52335825 0.52335825 0.         0.
  0.         0.         0.52335825 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.43951606 0.         0.         0.         0.         0.43951606
  0.43951606 0.         0.         0.         0.36483803 0.
  0.43951606 0.         0.30691325 0.         0.        ]
 [0.38596041 0.         0.         0.         0.         0.38596041
  0.38596041 0.         0.         0.         0.320382   0.
  0.38596041 0.47838798 0.26951544 0.         0.        ]
 [0.         0.         0.         0.         0.42966246 0.
  0.         0.42966246 0.         0.         0.28774996 0.42966246
  0.         0.         0.24206433 0.42966246 0.34664897]]


Dengan TF-IDF Matrix ini, kita bisa melihat kata-kata yang paling penting dalam setiap dokumen berdasarkan konteksnya. Semakin tinggi nilai dalam tabel, semakin penting kata tersebut pada dokumen tersebut.

## Bag of Words (BoW)

Bag of Words (BoW) adalah pendekatan sederhana dalam pemrosesan teks yang mengubah teks menjadi representasi numerik. Ide dasarnya adalah kita menganggap setiap dokumen sebagai "tas" (bag) kata-kata dan hanya peduli tentang keberadaan kata-kata dalam dokumen tersebut, bukan urutan atau konteksnya. Kemudian, untuk setiap dokumen, kita hitung berapa kali setiap kata muncul.

Hasilnya adalah matriks, yakni setiap baris mewakili sebuah dokumen dan setiap kolom mewakili kata-kata unik dalam seluruh kumpulan dokumen. Dengan cara ini, BoW memungkinkan kita mengukur kemunculan kata-kata dalam teks secara numerik, yang dapat digunakan untuk berbagai analisis teks, yakni klasifikasi dokumen, analisis sentimen, dan banyak lagi.

### Inisialisasi objek CountVectorizer

In [9]:
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

vectorizer = CountVectorizer()

Dengan menggunakan CountVectorizer, kita bisa mengonversi teks menjadi representasi numerik yang dapat diproses lebih lanjut oleh algoritma pembelajaran mesin atau analisis statistik. Ini memungkinkan kita untuk melakukan berbagai analisis dan pemrosesan teks dengan menggunakan teknik-teknik pemrosesan bahasa alami.

### Melakukan fitting dan transformasi pada data teks menggunakan CountVectorizer. Proses ini akan menghitung frekuensi kemunculan setiap kata dalam setiap dokumen.

In [10]:
bow_matrix = vectorizer.fit_transform(documents)

### Setelah transformasi, kita mendapatkan matriks Bag of Words (BoW).

In [11]:
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]])

Matriks Bag of Words (BoW) merupakan representasi numerik dari teks. Matriks ini berisi jumlah kemunculan setiap kata dalam setiap dokumen.

### Kita juga mendapatkan daftar fitur (kata-kata) yang dihasilkan oleh CountVectorizer.

In [12]:
features = vectorizer.get_feature_names_out()

### Hasilnya, kita mencetak matriks BoW beserta daftar fitur yang dihasilkan.

In [13]:
print("Matriks BoW:")
print(bow_matrix.toarray())

print("\nDaftar Fitur:")
print(features)

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


Matriks Bag of Words (BoW) adalah representasi numerik dari teks yang menunjukkan jumlah kemunculan setiap kata dalam setiap dokumen. Pada contoh ini, matriks BoW memiliki 4 baris yang mewakili 4 dokumen dan 7 kolom yang mewakili 7 kata unik dalam teks.

Misalnya, dalam dokumen pertama, kata 'adalah', 'contoh', 'dokumen', dan 'ini' muncul masing-masing 1 kali, sementara kata 'kedua', 'ketiga', dan 'pertama' tidak muncul. Daftar fitur adalah daftar kata-kata unik yang diurutkan secara alfabetis.

## N-gram

In [14]:
sentences = [
    "Saya suka makan bakso enak di warung dekat rumah.",
    "Nasi goreng adalah salah satu makanan favorit saya.",
    "Es krim coklat sangat lezat dan menyegarkan.",
    "Saat hari hujan, saya suka minum teh hangat.",
    "Pemandangan pegunungan di pagi hari sangat indah.",
    "Bola basket adalah olahraga favorit saya sejak kecil."
]

### Iterasi melalui setiap kalimat dalam daftar kalimat.

In [15]:
for sentence in sentences:
  words = sentence.split()
  unigrams = list(ngrams(words, 1))
  bigrams = list(ngrams(words, 2))
  trigrams = list(ngrams(words, 3))

### Cetak hasil untuk setiap kalimat, termasuk unigram, bigram, dan trigram.

In [16]:
print("Kalimat:", sentence)
print("1-gram:")

for gram in unigrams:
    print(gram)
print("\n2-gram:")

for gram in bigrams:
    print(gram)
print("\n3-gram:")

for gram in trigrams:
    print(gram)

Kalimat: Bola basket adalah olahraga favorit saya sejak kecil.
1-gram:
('Bola',)
('basket',)
('adalah',)
('olahraga',)
('favorit',)
('saya',)
('sejak',)
('kecil.',)

2-gram:
('Bola', 'basket')
('basket', 'adalah')
('adalah', 'olahraga')
('olahraga', 'favorit')
('favorit', 'saya')
('saya', 'sejak')
('sejak', 'kecil.')

3-gram:
('Bola', 'basket', 'adalah')
('basket', 'adalah', 'olahraga')
('adalah', 'olahraga', 'favorit')
('olahraga', 'favorit', 'saya')
('favorit', 'saya', 'sejak')
('saya', 'sejak', 'kecil.')


Dengan tahapan ini, kita dapat membagi setiap kalimat menjadi unigram, bigram, dan trigram, serta menampilkan hasilnya. Dengan demikian, kita bisa melihat bahwa kata-kata pada teks tersebut berhubungan satu sama lain dalam berbagai tingkatan.