# **Judul dan Pembahasan**
# Kompilasi Materi Sesi 7: Analisis Sentimen (BoW & TF-IDF)

**Nama:** Heriswaya
**Tugas:** Sesi 7 PRIMA MAGANG PTKI

Notebook ini adalah gabungan (kompilasi) dari semua materi dan kode latihan Sesi 7.

Di sini, saya akan mempraktikkan dua metode fundamental untuk **Analisis Sentimen**:
1.  **Metode 1: Bag-of-Words (BoW)**, yang fokus pada frekuensi kemunculan kata.
2.  **Metode 2: TF-IDF (Term Frequency-Inverse Document Frequency)**, yang fokus pada seberapa "penting" sebuah kata.

Kedua metode ini akan digunakan untuk melatih model Naive Bayes dalam mengklasifikasikan ulasan film sebagai 'Positif' atau 'Negatif'.

## Bagian 1: Analisis Sentimen dengan Bag-of-Words (BoW)

Pertama, saya akan membangun model klasifikasi sentimen menggunakan metode Bag-of-Words (BoW). Metode ini mengubah teks menjadi angka dengan cara menghitung frekuensi kemunculan setiap kata.

### 1.1 Import Library (BoW)

Saya akan mengimpor dua library utama dari Scikit-learn:
* `CountVectorizer`: Ini adalah alat yang akan mengubah kalimat saya menjadi matriks angka berdasarkan hitungan kata (BoW).
* `MultinomialNB`: Ini adalah algoritma Machine Learning (Naive Bayes) yang akan saya gunakan untuk melatih model klasifikasi.

In [1]:
# Import library untuk Bag-of-Words
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

print("Library untuk BoW siap.")

Library untuk BoW siap.


### 1.2 Menyiapkan Data Training (BoW)

Saya akan menyiapkan data latih (`corpus`) dan labelnya (`y_labels`). Saya akan membuat data yang seimbang: 3 ulasan positif dan 3 ulasan negatif.

In [2]:
# 1. Data Training (BoW)
# Saya beri nama corpus_bow agar tidak tertukar dengan latihan TF-IDF
corpus_bow = [
    # Positif
    'Saya suka film ini',
    'film ini sangat bagus dan saya suka',
    'review film ini luar biasa bagus',

    # Negatif
    'Saya benci film itu',
    'Saya tidak suka film ini', # Penting untuk menangkap "tidak suka"
    'film ini jelek sekali'
]

# Label yang sesuai
y_labels_bow = [
    'Positif', 'Positif', 'Positif',
    'Negatif', 'Negatif', 'Negatif'
]

print(f"Data BoW: {len(corpus_bow)} ulasan, {len(y_labels_bow)} label.")

Data BoW: 6 ulasan, 6 label.


### 1.3 Vektorisasi (BoW) dengan N-grams

Sekarang, saya akan mengubah `corpus_bow` saya menjadi angka menggunakan `CountVectorizer`.

Di sini saya akan menggunakan parameter `ngram_range=(1, 2)`. Ini adalah langkah penting. Artinya, model tidak hanya akan melihat kata satu per satu (unigram, 1-gram), tetapi juga pasangan kata yang berurutan (bigram, 2-gram). Ini sangat membantu model untuk memahami konteks, contohnya membedakan "suka" dan "tidak suka".

In [3]:
# 2. Vektorisasi (BoW)
# Saya set ngram_range=(1, 2) untuk menangkap unigram dan bigram
vectorizer_bow = CountVectorizer(ngram_range=(1, 2))

# Latih vectorizer dan ubah corpus menjadi matriks angka (BoW)
X_bow = vectorizer_bow.fit_transform(corpus_bow)

print("Vektorisasi BoW (dengan n-gram) selesai.")
# Untuk melihat hasilnya (opsional):
# print(vectorizer_bow.get_feature_names_out())

Vektorisasi BoW (dengan n-gram) selesai.


### 1.4 Melatih Model (BoW)

Setelah data saya menjadi angka (`X_bow`), saya bisa melatih model `MultinomialNB`.

Saya akan memanggil fungsi `.fit()` dengan data latih (`X_bow`) dan labelnya (`y_labels_bow`).

In [4]:
# 3. Melatih Model (BoW)
model_bow = MultinomialNB()
model_bow.fit(X_bow, y_labels_bow)

print("Model BoW berhasil dilatih!")
print("="*30)

Model BoW berhasil dilatih!


### 1.5 Uji Coba Model (BoW)

Saatnya menguji model. Saya akan menyiapkan `review_baru`.

Poin penting di sini: saya harus menggunakan vectorizer yang **SAMA** (`vectorizer_bow`) dan hanya memanggil `.transform()`, bukan `.fit_transform()`. Ini untuk memastikan data baru diproses dengan "kamus" yang sama dengan data latih.

Setelah itu, saya gunakan `model_bow.predict()` untuk melihat hasilnya.

In [5]:
# 4. Uji Coba Model (BoW)
review_baru_bow = [
    'Saya benci film ini', # Harusnya 'Negatif'
    'film ini bagus dan saya suka' # Harusnya 'Positif'
]

# 5. Prediksi (BoW)
# Gunakan .transform() saja
X_baru_bow = vectorizer_bow.transform(review_baru_bow)

# Lakukan prediksi
prediksi_bow = model_bow.predict(X_baru_bow)

print("Hasil Prediksi Model BoW:")
print(f"Review: {review_baru_bow[0]} -> Prediksi: {prediksi_bow[0]}")
print(f"Review: {review_baru_bow[1]} -> Prediksi: {prediksi_bow[1]}")

Hasil Prediksi Model BoW:
Review: Saya benci film ini -> Prediksi: Negatif
Review: film ini bagus dan saya suka -> Prediksi: Positif


## Bagian 2: Analisis Sentimen dengan TF-IDF

Sekarang saya akan mencoba metode kedua, yaitu **TF-IDF (Term Frequency-Inverse Document Frequency)**.

Berbeda dengan BoW yang hanya menghitung frekuensi, TF-IDF mengukur "seberapa penting" sebuah kata dalam satu dokumen relatif terhadap keseluruhan dokumen (corpus).

### 2.1 Import Library (TF-IDF)

Mirip seperti sebelumnya, tapi kali ini saya akan mengimpor `TfidfVectorizer`. Model klasifikasinya tetap sama, yaitu `MultinomialNB`.

In [6]:
# Import library untuk TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB # (Sebenarnya sudah diimpor, tapi ini untuk kejelasan)

print("\nLibrary untuk TF-IDF siap.")


Library untuk TF-IDF siap.


### 2.2 Menyiapkan Data Training (TF-IDF)

Sesuai file Latihan 2, saya akan menggunakan dataset yang sedikit berbeda (lebih kecil) untuk mendemonstrasikan metode ini.

In [7]:
# 1. Data Training (TF-IDF)
corpus_tfidf = [
    'Saya suka film ini',
    'Saya benci film itu',
    'film ini sangat bagus dan saya suka'
]
y_labels_tfidf = ['Positif', 'Negatif', 'Positif']

print(f"Data TF-IDF: {len(corpus_tfidf)} ulasan, {len(y_labels_tfidf)} label.")

Data TF-IDF: 3 ulasan, 3 label.


### 2.3 Vektorisasi (TF-IDF) dengan Stopwords

Saat membuat `TfidfVectorizer`, saya akan mencoba parameter yang berbeda. Kali ini, saya akan menggunakan `stop_words` untuk secara otomatis mengabaikan kata-kata umum dalam bahasa Indonesia (seperti 'saya', 'ini', 'itu', 'dan') yang tidak membawa banyak makna sentimen.

Kemudian, saya akan memanggil `.fit_transform()` pada data `corpus_tfidf`.

In [8]:
# 2. Vektorisasi (TF-IDF)
# Saya hapus stopwords bahasa Indonesia secara manual
tfidf_vectorizer = TfidfVectorizer(stop_words=['saya', 'ini', 'itu', 'dan'])

# Latih vectorizer dan ubah corpus menjadi matriks TF-IDF
X_tfidf = tfidf_vectorizer.fit_transform(corpus_tfidf)

print("Vektorisasi TF-IDF (dengan stop_words) selesai.")
# Untuk melihat hasilnya (opsional):
# print(tfidf_vectorizer.get_feature_names_out())

Vektorisasi TF-IDF (dengan stop_words) selesai.


### 2.4 Melatih Model (TF-IDF)

Proses pelatihannya sama persis dengan BoW. Saya akan membuat instance `MultinomialNB` baru dan melatihnya menggunakan data TF-IDF (`X_tfidf`) dan labelnya (`y_labels_tfidf`).

In [9]:
# 3. Melatih Model (TF-IDF)
model_tfidf = MultinomialNB()
model_tfidf.fit(X_tfidf, y_labels_tfidf)

print("Model TF-IDF berhasil dilatih!")
print("="*30)

Model TF-IDF berhasil dilatih!


### 2.5 Uji Coba Model (TF-IDF)

Terakhir, saya akan menguji model TF-IDF ini. Saya akan menggunakan data uji yang sama dengan Latihan 2.

Sama seperti BoW, saya wajib menggunakan `.transform()` (bukan `.fit_transform()`) pada `tfidf_vectorizer` yang sudah dilatih. Kemudian saya panggil `.predict()` pada `model_tfidf`.

In [10]:
# 4. Uji Coba Model (TF-IDF)
review_baru_tfidf = [
    'Saya benci film ini', # Harusnya 'Negatif'
    'film ini bagus dan saya suka' # Harusnya 'Positif'
]

# 5. Prediksi (TF-IDF)
# Gunakan .transform() saja
X_baru_tfidf = tfidf_vectorizer.transform(review_baru_tfidf)

# Lakukan prediksi
prediksi_tfidf = model_tfidf.predict(X_baru_tfidf)

print("Hasil Prediksi Model TF-IDF:")
print(f"Review: {review_baru_tfidf[0]} -> Prediksi: {prediksi_tfidf[0]}")
print(f"Review: {review_baru_tfidf[1]} -> Prediksi: {prediksi_tfidf[1]}")

Hasil Prediksi Model TF-IDF:
Review: Saya benci film ini -> Prediksi: Negatif
Review: film ini bagus dan saya suka -> Prediksi: Positif


## Bagian 3: Kesimpulan

Saya telah berhasil membuat dua model Analisis Sentimen sederhana menggunakan dua metode vektorisasi yang berbeda:

1.  **Bag-of-Words (BoW)**: Fokus pada **frekuensi** kata. Sangat efektif ketika dikombinasikan dengan n-grams (misal `(1, 2)`) untuk menangkap konteks seperti "tidak suka".
2.  **TF-IDF**: Fokus pada **bobot/kepentingan** kata. Sangat efektif untuk menyaring kata-kata umum (seperti 'saya', 'ini') dan memberi nilai lebih pada kata yang unik namun penting (seperti 'bagus' atau 'benci').

Kedua model berhasil memprediksi sentimen dari data uji dengan benar. Ini menunjukkan kedua teknik adalah dasar yang kuat untuk tugas-tugas NLP klasifikasi teks.