In [3]:
import tensorflow as tf
print(tf.sysconfig.get_build_info())
print(tf.config.list_physical_devices("GPU"))


OrderedDict([('cpu_compiler', 'clang 18'), ('cuda_compute_capabilities', ['sm_60', 'sm_70', 'sm_80', 'sm_89', 'compute_90']), ('cuda_version', '12.5.1'), ('cudnn_version', '9'), ('is_cuda_build', True), ('is_rocm_build', False), ('is_tensorrt_build', False)])
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]


# Text Preprocessing

## Case Folding

Case folding adalah langkah sederhana pada pra-pemrosesan teks yang bertujuan untuk mengubah semua huruf dalam dokumen teks menjadi huruf kecil. Tujuannya adalah membuat teks lebih seragam dan memudahkan proses analisis teks, terutama dalam pengenalan kata-kata yang sama meskipun berbeda penulisan huruf besar-kecil.

In [4]:
# Contoh teks
teks_asli = "Ini Adalah Contoh Teks yang Akan Dikonversi Menjadi Lowercase."
 
# Mengubah teks menjadi lowercase
teks_lowercase = teks_asli.lower()
 
# Menampilkan hasil
print("Teks asli:", teks_asli)
print("Teks setelah diubah menjadi lowercase:", teks_lowercase)

Teks asli: Ini Adalah Contoh Teks yang Akan Dikonversi Menjadi Lowercase.
Teks setelah diubah menjadi lowercase: ini adalah contoh teks yang akan dikonversi menjadi lowercase.


## Removal Special Characters


### Menghapus Angka

In [5]:
# Fungsi untuk menghapus angka dari teks
def hapus_angka(teks):
    teks_tanpa_angka = ''.join([char for char in teks if not char.isdigit()])
    return teks_tanpa_angka
 
# Contoh teks dengan angka
teks_dengan_angka = "Ini adalah contoh teks dengan angka 12345 yang akan dihapus."
 
# Memanggil fungsi untuk menghapus angka
teks_tanpa_angka = hapus_angka(teks_dengan_angka)
 
# Menampilkan hasil
print("Teks dengan angka:", teks_dengan_angka)
print("Teks tanpa angka:", teks_tanpa_angka)

Teks dengan angka: Ini adalah contoh teks dengan angka 12345 yang akan dihapus.
Teks tanpa angka: Ini adalah contoh teks dengan angka  yang akan dihapus.


Inilah contoh penggunaan Regex untuk menghapus angka.

In [6]:
import re
 
def hapus_angka_tidak_relevan(teks):
    # Menggunakan regex untuk mengidentifikasi dan menghapus angka yang tidak relevan
    # Pola untuk mengenali angka yang harus dihapus, termasuk nomor rumah dan nomor telepon
    pola_angka_tidak_relevan = r"\b(?:\d{1,3}[-\.\s]?)?(?:\d{3}[-\.\s]?)?\d{4,}\b"
    hasil = re.sub(pola_angka_tidak_relevan, "", teks)
    return hasil.strip()
 
# Contoh kalimat dengan angka
kalimat = "Di sini ada 3 nomor rumah yaitu  123, 456, dan 789. Silakan hubungi 081234567890 untuk informasi lebih lanjut."
 
# Memanggil fungsi untuk menghapus angka tidak relevan
hasil_tanpa_angka = hapus_angka_tidak_relevan(kalimat)
 
# Menampilkan hasil
print("Kalimat dengan angka:", kalimat)
print("Kalimat tanpa angka tidak relevan:", hasil_tanpa_angka)

Kalimat dengan angka: Di sini ada 3 nomor rumah yaitu  123, 456, dan 789. Silakan hubungi 081234567890 untuk informasi lebih lanjut.
Kalimat tanpa angka tidak relevan: Di sini ada 3 nomor rumah yaitu  123, 456, dan 789. Silakan hubungi  untuk informasi lebih lanjut.


Ekspresi regex ini memiliki beberapa komponen penting sebagai berikut:

- `\b` → **anchor word boundary** yang menandakan batas antara karakter *word* (kata) dan *non-word* (bukan kata).  
  Ini memastikan bahwa kita hanya mencocokkan angka yang muncul sebagai kata terpisah.

- `\d+` → pola regex yang mencocokkan **satu atau lebih digit (angka)**.

- `\b` → **anchor word boundary** lagi yang menutup pola,  
  memastikan bahwa angka yang dicocokkan adalah kata tunggal yang berdiri sendiri.


### Menghapus Tanda Baca

In [7]:
import string
 
def remove_punctuation(text):
    # Membuat set yang berisi semua tanda baca
    punctuation_set = set(string.punctuation)
 
    # Menghapus tanda baca dari teks
    text_without_punctuation = ''.join(char for char in text if char not in punctuation_set)
 
    return text_without_punctuation
 
# Contoh teks dengan tanda baca
teks_asli = "Ini adalah contoh teks, dengan tanda baca! Contoh ini, digunakan? untuk demonstrasi."
 
# Menghapus tanda baca dari teks
teks_tanpa_tanda_baca = remove_punctuation(teks_asli)
 
# Menampilkan hasil
print("Teks asli:", teks_asli)
print("Teks setelah menghapus tanda baca:", teks_tanpa_tanda_baca)

Teks asli: Ini adalah contoh teks, dengan tanda baca! Contoh ini, digunakan? untuk demonstrasi.
Teks setelah menghapus tanda baca: Ini adalah contoh teks dengan tanda baca Contoh ini digunakan untuk demonstrasi


### Menghapus Whitespace dalam Teks

Whitespace (karakter kosong) merujuk kepada karakter yang tidak terlihat pada layar, seperti spasi, tab, newline, dan karakter kosong lainnya. Karakter whitespace umumnya digunakan untuk memisahkan kata-kata atau elemen dalam teks, tetapi kadang-kadang mereka dapat muncul secara tidak diinginkan di awal, akhir, atau pertengahan teks.

### Menggunakan strip() untuk Menghapus Whitespace di Awal dan Akhir

In [8]:
teks = "   Ini adalah contoh kalimat dengan spasi di awal dan akhir.    "
teks_setelah_strip = teks.strip()
print(teks_setelah_strip)

Ini adalah contoh kalimat dengan spasi di awal dan akhir.


### Menggunakan replace() untuk Menghapus Whitespace di Seluruh String

In [9]:
teks_dengan_whitespace = "Ini adalah    contoh kalimat    dengan spasi    di dalamnya."
teks_tanpa_whitespace = teks_dengan_whitespace.replace(" ", "")
print(teks_tanpa_whitespace)

Iniadalahcontohkalimatdenganspasididalamnya.


## Stopword Removal (Filtering)

Penghapusan stopwords adalah langkah penting dalam pra-pemrosesan teks pada NLP. Stopwords adalah kata-kata umum yang sering muncul pada teks, tetapi tidak memiliki nilai informatif tinggi dalam analisis teks. Contohnya adalah kata-kata seperti "dan", "di", "ke", "yang", dan sebagainya. Tujuan penghapusan stopwords adalah membersihkan teks dari kata-kata umum tersebut sehingga fokus analisis dapat lebih pada kata-kata kunci yang lebih bermakna. 

### Stopwords NLTK (Natural Language Toolkit)

In [10]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [11]:
# Download korpus stopwords bahasa Indonesia dari NLTK jika belum terunduh
nltk.download('stopwords')
nltk.download('punkt_tab')  # Untuk tokenisasi kata

[nltk_data] Downloading package stopwords to /home/ayam/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /home/ayam/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [12]:
teks = "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan."
 
# Tokenisasi teks menjadi kata-kata
tokens_kata = word_tokenize(teks)
 
# Ambil daftar stopwords bahasa Indonesia dari NLTK
stopwords_indonesia = set(stopwords.words('indonesian'))
 
# Filtering kata-kata dengan menghapus stopwords
kata_penting = [kata for kata in tokens_kata if kata.lower() not in stopwords_indonesia]
 
# Gabungkan kata-kata penting kembali menjadi teks
teks_tanpa_stopwords = ' '.join(kata_penting)
 
print("Teks asli:", teks)
print("Teks setelah filtering stopwords NLTK:", teks_tanpa_stopwords)

Teks asli: Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan.
Teks setelah filtering stopwords NLTK: Perekonomian Indonesia pertumbuhan membanggakan .


### Stopwords Sastrawi

Sastrawi adalah pustaka Python yang fokus pada pemrosesan teks dalam bahasa Indonesia, terutama untuk NLP. Sastrawi menyediakan daftar stopwords yang dioptimalkan untuk bahasa Indonesia sehingga sangat cocok digunakan pada analisis teks dalam bahasa Indonesia.

In [13]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.tokenize import word_tokenize
 
# Inisialisasi objek StopWordRemover dari Sastrawi
factory = StopWordRemoverFactory()
stopwords_sastrawi = factory.get_stop_words()
 
teks = "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan."
 
# Tokenisasi teks menjadi kata-kata
tokens_kata = word_tokenize(teks)
 
# Filtering kata-kata dengan menghapus stopwords Sastrawi
kata_penting = [kata for kata in tokens_kata if kata.lower() not in stopwords_sastrawi]
 
# Gabungkan kata-kata penting kembali menjadi teks
teks_tanpa_stopwords = ' '.join(kata_penting)
 
print("Teks asli:", teks)
print("Teks setelah filtering stopwords Sastrawi:", teks_tanpa_stopwords)

Teks asli: Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan.
Teks setelah filtering stopwords Sastrawi: Perekonomian Indonesia sedang pertumbuhan membanggakan .


### Perbedaan Utama dari NLTK ama Sastrawi

- **Bahasa yang Didukung**  
  - **NLTK**: menyediakan stopwords untuk beberapa bahasa, termasuk bahasa Indonesia.  
  - **Sastrawi**: dioptimalkan khusus untuk pemrosesan teks dalam bahasa Indonesia.  

- **Kustomisasi**  
  - **NLTK**: memiliki koleksi stopwords pada berbagai bahasa, sifatnya lebih umum.  
  - **Sastrawi**: menyediakan daftar stopwords yang dioptimalkan khusus untuk bahasa Indonesia.  

- **Pemilihan Tools**  
  - **Sastrawi** lebih spesifik dan sesuai jika fokus pada teks **bahasa Indonesia**.  
  - **NLTK** lebih cocok jika butuh stopwords untuk **berbagai bahasa** atau jika sudah memakai NLTK untuk pipeline NLP lain.  

## Tokenizing

Tokenisasi (tokenizing) adalah proses membagi teks menjadi potongan-potongan lebih kecil yang disebut token. Token dapat berupa kata, frasa, atau entitas lain yang lebih kecil dari teks yang dianalisis. Tujuan tokenisasi adalah memecah teks menjadi unit-unit yang lebih mudah diolah atau diinterpretasi dalam analisis teks atau pemrosesan bahasa alami.

### Tokenisasi Kata (Word Tokenization)
Memecah teks menjadi kata-kata individu. Biasanya, pemisah antar kata adalah spasi atau karakter whitespace lainnya.

In [14]:
from nltk.tokenize import word_tokenize
 
text = "Ini adalah contoh tokenisasi kata dalam pemrosesan teks."
tokens = word_tokenize(text)
print(tokens)

['Ini', 'adalah', 'contoh', 'tokenisasi', 'kata', 'dalam', 'pemrosesan', 'teks', '.']


### Tokenisasi Kalimat (Sentence Tokenization)
Memecah teks menjadi kalimat-kalimat. Pemisah antar kalimat dapat berupa tanda baca, seperti titik, tanda tanya, atau tanda seru.

In [15]:
from nltk.tokenize import sent_tokenize
 
text = "Ini adalah contoh tokenisasi kalimat. Apakah ini kalimat kedua? Ya, ini kalimat ketiga!"
sentences = sent_tokenize(text)
print(sentences)

['Ini adalah contoh tokenisasi kalimat.', 'Apakah ini kalimat kedua?', 'Ya, ini kalimat ketiga!']


### Tokenisasi Frasa (Phrase Tokenization)
Memecah teks menjadi frasa-frasa atau unit-unit frasa yang lebih besar dari kata tunggal.

In [16]:
from nltk.tokenize import TreebankWordTokenizer

text = "Pemrosesan teks adalah cabang ilmu komputer yang berfokus pada pengolahan teks dan dokumen."
tokenizer = TreebankWordTokenizer()
phrases = tokenizer.tokenize(text)
print(phrases)

['Pemrosesan', 'teks', 'adalah', 'cabang', 'ilmu', 'komputer', 'yang', 'berfokus', 'pada', 'pengolahan', 'teks', 'dan', 'dokumen', '.']


### Tokenisasi Berdasarkan Aturan (Rule-based Tokenization)
Menggunakan aturan linguistik atau aturan pemrosesan teks untuk membagi teks menjadi token. Contohnya termasuk tokenisasi khusus untuk URL, email, atau entitas tertentu.

In [17]:
import re

text = "Pertama, kita perlu menyiapkan bahan-bahan yang diperlukan."
tokens = re.findall(r'\w+|\d+', text)
print(tokens)

['Pertama', 'kita', 'perlu', 'menyiapkan', 'bahan', 'bahan', 'yang', 'diperlukan']


### Tokenisasi Berdasarkan Model (Model-based Tokenization)

Menggunakan model statistik atau model bahasa untuk memprediksi token dalam teks. Contohnya termasuk tokenisasi berbasis mesin pembelajaran, seperti model pembelajaran berbasis Transformer.

In [18]:
# Misalnya menggunakan spasi sebagai pemisah kata
text = "Ini adalah contoh tokenisasi berbasis model."
tokens = text.split()
print(tokens)

['Ini', 'adalah', 'contoh', 'tokenisasi', 'berbasis', 'model.']


## Stemming

Stemming adalah sebuah proses dalam bidang pemrosesan teks yang digunakan untuk menyederhanakan kata-kata ke bentuk dasarnya dengan cara menghilangkan awal ataupun akhiran kata. Tujuannya adalah agar kata-kata berbeda, tetapi berasal dari satu kata dasar, dapat direduksi menjadi bentuk yang lebih seragam.

In [19]:
import nltk
from nltk.stem import PorterStemmer
 
# Inisialisasi stemmer
stemmer = PorterStemmer()
 
# Kata-kata asli
words = ["running", "runs", "runner", "ran", "easily", "fairness", "better", "best", "cats", "cacti", "geese", "rocks", "oxen"]
 
# Melakukan stemming pada setiap kata
for word in words:
    stemmed_word = stemmer.stem(word)
    print(f"Kata asli: {word}, Kata setelah stemming: {stemmed_word}")

Kata asli: running, Kata setelah stemming: run
Kata asli: runs, Kata setelah stemming: run
Kata asli: runner, Kata setelah stemming: runner
Kata asli: ran, Kata setelah stemming: ran
Kata asli: easily, Kata setelah stemming: easili
Kata asli: fairness, Kata setelah stemming: fair
Kata asli: better, Kata setelah stemming: better
Kata asli: best, Kata setelah stemming: best
Kata asli: cats, Kata setelah stemming: cat
Kata asli: cacti, Kata setelah stemming: cacti
Kata asli: geese, Kata setelah stemming: gees
Kata asli: rocks, Kata setelah stemming: rock
Kata asli: oxen, Kata setelah stemming: oxen


## Lemmatization

Lemmatization adalah sebuah teknik dalam pemrosesan teks untuk mengubah kata-kata ke bentuk dasar mereka, yang disebut lemma (atau lema). Tujuannya adalah menyatukan kata-kata dengan akar sama agar dapat direpresentasikan melalui satu bentuk dasar yang merepresentasikan makna kata tersebut secara tepat.

In [20]:
import nltk
from nltk.stem import WordNetLemmatizer
 
# Download wordnet jika belum di-download
nltk.download('wordnet')
 
# Inisialisasi lemmatizer
lemmatizer = WordNetLemmatizer()
 
# Kata-kata asli
words = ["Run", "Cat", "Good", "Goose", "Rock", "City", "Big", "Happy", "Run", "Sleep"]
 
# Melakukan lematisasi pada setiap kata
for word in words:
    lemma_word = lemmatizer.lemmatize(word.lower())  # Mengonversi ke huruf kecil untuk memastikan pemrosesan yang konsisten
    print(f"Kata asli: {word}, Kata setelah lematisasi: {lemma_word}")

[nltk_data] Downloading package wordnet to /home/ayam/nltk_data...


Kata asli: Run, Kata setelah lematisasi: run
Kata asli: Cat, Kata setelah lematisasi: cat
Kata asli: Good, Kata setelah lematisasi: good
Kata asli: Goose, Kata setelah lematisasi: goose
Kata asli: Rock, Kata setelah lematisasi: rock
Kata asli: City, Kata setelah lematisasi: city
Kata asli: Big, Kata setelah lematisasi: big
Kata asli: Happy, Kata setelah lematisasi: happy
Kata asli: Run, Kata setelah lematisasi: run
Kata asli: Sleep, Kata setelah lematisasi: sleep


# Latihan Pra-pemrosesan Teks

## Pendahuluan

Pra-pemrosesan teks adalah tahap penting dalam analisis teks dan natural language processing (NLP). Tujuannya adalah membersihkan dan mempersiapkan teks mentah agar dapat diolah lebih lanjut dengan algoritma pemrosesan teks atau analisis.

### 1. Case Folding
Proses mengubah semua huruf dalam teks menjadi huruf kecil atau huruf besar agar konsisten.  
Contoh: `"TeKS"` → `"teks"` atau `"TEKS"`.

### 2. Removal Special Characters
Menghapus karakter khusus atau simbol yang tidak relevan dari teks.

- **Menghapus Angka**: Menghilangkan semua angka dari teks.  
- **Menghapus Tanda Baca**: Menghapus semua tanda baca dari teks.  
- **Menghapus White Space**: Menghapus spasi tambahan atau karakter spasi ganda dari teks.  
  - **Menggunakan `strip()`**: Menghapus spasi di awal dan akhir teks.  
  - **Menggunakan `replace()`**: Mengganti spasi tambahan dengan string kosong di seluruh teks.  

### 3. Stopword Removal (Filtering)
Menghapus kata-kata yang umumnya tidak memberikan nilai tambah dalam analisis teks, seperti `"dan"`, `"atau"`, `"yang"`, dll.

- **Stopword NLTK**: Menggunakan koleksi kata-kata stopword yang disediakan oleh NLTK.  
- **Stopword Sastrawi**: Menghapus kata-kata stopword menggunakan kamus stopword dari Sastrawi (fokus Bahasa Indonesia).  

### 4. Tokenizing
Proses membagi teks menjadi bagian-bagian lebih kecil yang disebut token.

- **Tokenisasi Kata (Word Tokenization)**: Memecah teks menjadi kata-kata individual.  
- **Tokenisasi Kalimat (Sentence Tokenization)**: Memecah teks menjadi kalimat-kalimat.  
- **Tokenisasi Frasa (Phrase Tokenization)**: Memecah teks menjadi frasa atau unit tertentu.  
- **Tokenisasi Berdasarkan Aturan (Rule-based Tokenization)**: Memecah teks berdasarkan aturan tertentu, misal tanda baca.  
- **Tokenisasi Berdasarkan Model (Model-based Tokenization)**: Memecah teks menggunakan model linguistik atau machine learning.  

### 5. Stemming
Proses menghapus imbuhan dari kata untuk mengembalikannya ke bentuk dasar.  
Contoh: `"berlari"`, `"berlarian"`, `"lari"` → `"lar"`.

### 6. Lemmatization
Proses mengubah kata ke bentuk dasarnya (lema) dengan mempertimbangkan konteks dan struktur bahasa.  
Contoh: `"menyanyikan"` → `"nyanyi"`.


# Latihan Ekstraksi Fitur pada Teks

Berikut adalah beberapa teknik yang sering digunakan untuk ekstraksi fitur pada teks:

- **Word Embedding**  
  Mengubah kata menjadi vektor numerik yang membawa makna semantik.

- **Term Frequency-Inverse Document Frequency (TF-IDF)**  
  Mengukur frekuensi kata dalam dokumen relatif terhadap seberapa umum kata itu muncul di seluruh dokumen.

- **Bag of Words (BoW)**  
  Merepresentasikan teks sebagai vektor frekuensi kata tanpa memperhatikan urutan kata.

- **N-gram**  
  Mengambil urutan kata/kombinasi kata sebagai fitur, misal bigram (dua kata berurutan) atau trigram (tiga kata berurutan).

- **POS Tagging (Part of Speech Tagging)**  
  Memberikan informasi jenis kata (kata benda, kata kerja, kata sifat, dll.) yang dapat menjadi fitur.

- **Entity Recognition**  
  Mengidentifikasi entitas penting dalam teks, seperti nama orang, lokasi, organisasi, tanggal, dll.

- **Pola atau Pola Kata (Pattern Matching)**  
  Mendeteksi pola tertentu dalam teks, misal ekspresi reguler untuk nomor telepon, email, atau kata kunci tertentu.

## Word Embedding
Bayangkan Anda lagi main puzzle kata-kata. Anda punya sejumlah kata-kata yang tersusun dalam kalimat-kalimat, tetapi bagaimana cara mesin memahami makna sebenarnya dari kata-kata ini?

Nah, di situlah "word embedding" masuk ke permainan. Hal ini seperti memberi setiap kata-kata tempat spesial dalam ruang matematis yang besar. Bayangkan ruang itu seperti tempat parkir yang luas dan setiap kata punya tempat parkirnya sendiri.

In [2]:
import tensorflow as tf
print(tf.sysconfig.get_build_info())
print(tf.config.list_physical_devices("GPU"))

2025-09-24 19:14:46.324447: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


OrderedDict([('cpu_compiler', 'clang 18'), ('cuda_compute_capabilities', ['sm_60', 'sm_70', 'sm_80', 'sm_89', 'compute_90']), ('cuda_version', '12.5.1'), ('cudnn_version', '9'), ('is_cuda_build', True), ('is_rocm_build', False), ('is_tensorrt_build', False)])
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]


In [1]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ayam/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

In [5]:
tokenized_data = [word_tokenize(sentence.lower()) for sentence in text_data]

In [6]:
model = Word2Vec(sentences=tokenized_data, vector_size=100, window=5, min_count=1, workers=4)

Berikut adalah penjelasan parameter yang digunakan:

- **sentences**  
  Data teks yang telah di-tokenisasi, biasanya berupa list of list kata.

- **vector_size**  
  Ukuran dari vektor representasi kata. Contoh: 100 berarti setiap kata direpresentasikan sebagai vektor 100 dimensi.

- **window**  
  Jumlah maksimum kata yang dianggap sebagai konteks dekat dalam satu kalimat.  
  Contoh: `window=5` berarti 5 kata sebelum dan sesudah kata target dipertimbangkan sebagai konteks.

- **min_count**  
  Jumlah minimum kemunculan sebuah kata dalam korpus agar kata tersebut diperhitungkan dalam model.  
  Contoh: `min_count=2` berarti kata yang muncul kurang dari 2 kali akan diabaikan.

- **workers**  
  Jumlah thread yang digunakan dalam proses pembangunan model. Mempercepat training pada mesin multi-core.

In [7]:
word_vectors = model.wv
 
similar_words = word_vectors.most_similar('bakso', topn=3)
print("Kata-kata yang mirip dengan 'bakso':", similar_words)
 
vector = word_vectors['bakso']
print("Vektor untuk 'bakso':", vector)

Kata-kata yang mirip dengan 'bakso': [('manis', 0.2529163062572479), ('nasi', 0.17018669843673706), ('enak', 0.15006467700004578)]
Vektor untuk 'bakso': [-0.00713882  0.00124156 -0.00717766 -0.00224369  0.00371885  0.00583258
  0.00119832  0.00210183 -0.00411138  0.00722588 -0.00630644  0.00464789
 -0.00821918  0.00203677 -0.00497649 -0.00424685 -0.00310906  0.00565491
  0.00579776 -0.00497439  0.00077378 -0.0084959   0.00780977  0.00925648
 -0.00274235  0.0007995   0.00074748  0.00547704 -0.00860589  0.00058358
  0.00687019  0.00223141  0.00112457 -0.00932216  0.00848288 -0.0062632
 -0.00299165  0.00349458 -0.00077282  0.00141124  0.00178217 -0.00682961
 -0.00972456  0.00904072  0.00619895 -0.00691193  0.00340259  0.00020664
  0.00475438 -0.00712046  0.00402629  0.00434812  0.00995727 -0.00447314
 -0.00138943 -0.00731689 -0.00969748 -0.00908048 -0.00102362 -0.00650396
  0.0048507  -0.00616346  0.0025184   0.00073924 -0.00339173 -0.00097928
  0.00997817  0.009146   -0.00446089  0.00908

## Term Frequency-Inverse Document Frequency (TF-IDF)

Bayangkan Anda memiliki sejumlah dokumen teks, seperti artikel, laporan, atau pesan-pesan dalam media sosial. Anda ingin tahu kata-kata yang penting dalam setiap dokumen itu. Misalnya, dalam artikel tentang makanan, kata-kata seperti "makanan" atau "resep" mungkin lebih penting daripada kata-kata umum lainnya.

Di sinilah TF-IDF (Term Frequency-Inverse Document Frequency) masuk permainan. Ini seperti memberi bobot kepada setiap kata dalam dokumen berdasarkan seberapa sering kata itu muncul pada dokumen itu sendiri (frekuensi kata) dan seberapa umumnya kata itu muncul di seluruh kumpulan dokumen.

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [9]:
documents = [
    "Saya suka makan bakso",
    "Bakso enak dan lezat",
    "Makanan favorit saya adalah nasi goreng",
    "Nasi goreng pedas adalah makanan favorit saya",
    "Saya suka makanan manis seperti es krim",
]

In [10]:
tfidf_vectorizer = TfidfVectorizer()

In [11]:
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

In [12]:
print("Vocabulary:", tfidf_vectorizer.vocabulary_)

Vocabulary: {'saya': 14, 'suka': 16, 'makan': 9, 'bakso': 1, 'enak': 3, 'dan': 2, 'lezat': 8, 'makanan': 10, 'favorit': 5, 'adalah': 0, 'nasi': 12, 'goreng': 6, 'pedas': 13, 'manis': 11, 'seperti': 15, 'es': 4, 'krim': 7}


In [13]:
print("TF-IDF Matrix:")
print(tfidf_matrix.toarray())

TF-IDF Matrix:
[[0.         0.49851188 0.         0.         0.         0.
  0.         0.         0.         0.61789262 0.         0.
  0.         0.         0.34810993 0.         0.49851188]
 [0.         0.42224214 0.52335825 0.52335825 0.         0.
  0.         0.         0.52335825 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.43951606 0.         0.         0.         0.         0.43951606
  0.43951606 0.         0.         0.         0.36483803 0.
  0.43951606 0.         0.30691325 0.         0.        ]
 [0.38596041 0.         0.         0.         0.         0.38596041
  0.38596041 0.         0.         0.         0.320382   0.
  0.38596041 0.47838798 0.26951544 0.         0.        ]
 [0.         0.         0.         0.         0.42966246 0.
  0.         0.42966246 0.         0.         0.28774996 0.42966246
  0.         0.         0.24206433 0.42966246 0.34664897]]


## Bag of Words (BoW)

Bag of Words (BoW) adalah pendekatan sederhana dalam pemrosesan teks yang mengubah teks menjadi representasi numerik. Ide dasarnya adalah kita menganggap setiap dokumen sebagai "tas" (bag) kata-kata dan hanya peduli tentang keberadaan kata-kata dalam dokumen tersebut, bukan urutan atau konteksnya. Kemudian, untuk setiap dokumen, kita hitung berapa kali setiap kata muncul. 

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

In [15]:
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

In [16]:
vectorizer = CountVectorizer()

In [17]:
bow_matrix = vectorizer.fit_transform(documents)

In [18]:
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]])

In [19]:
features = vectorizer.get_feature_names_out()

In [20]:
print("Matriks BoW:")
print(bow_matrix.toarray())
 
print("\nDaftar Fitur:")
print(features)

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


## N-gram

In [21]:
from nltk.util import ngrams

In [22]:
sentences = [
    "Saya suka makan bakso enak di warung dekat rumah.",
    "Nasi goreng adalah salah satu makanan favorit saya.",
    "Es krim coklat sangat lezat dan menyegarkan.",
    "Saat hari hujan, saya suka minum teh hangat.",
    "Pemandangan pegunungan di pagi hari sangat indah.",
    "Bola basket adalah olahraga favorit saya sejak kecil."
]

In [23]:
for sentence in sentences:
    words = sentence.split()
    unigrams = list(ngrams(words, 1))
    bigrams = list(ngrams(words, 2))
    trigrams = list(ngrams(words, 3))

In [24]:
print("\nKalimat:", sentence)
print("1-gram:")
for gram in unigrams:
    print(gram)
print("\n2-gram:")
for gram in bigrams:
    print(gram)
print("\n3-gram:")
for gram in trigrams:
    print(gram)


Kalimat: Bola basket adalah olahraga favorit saya sejak kecil.
1-gram:
('Bola',)
('basket',)
('adalah',)
('olahraga',)
('favorit',)
('saya',)
('sejak',)
('kecil.',)

2-gram:
('Bola', 'basket')
('basket', 'adalah')
('adalah', 'olahraga')
('olahraga', 'favorit')
('favorit', 'saya')
('saya', 'sejak')
('sejak', 'kecil.')

3-gram:
('Bola', 'basket', 'adalah')
('basket', 'adalah', 'olahraga')
('adalah', 'olahraga', 'favorit')
('olahraga', 'favorit', 'saya')
('favorit', 'saya', 'sejak')
('saya', 'sejak', 'kecil.')


# Studi Kasus Implementasi Klasifikasi Teks pada NLP: Sentimen Analisis Review APK Play Store