# 📘 Text Mining dengan Naive Bayes Classifier di Jupyter Notebook


Notebook ini bertujuan untuk mendemonstrasikan langkah-langkah klasifikasi teks menggunakan **Naive Bayes Classifier**.
Contoh kasus: mengklasifikasikan ulasan pelanggan sebagai **positif** atau **negatif**.


In [None]:
# 🔹 Step 1: Import Library yang Dibutuhkan
import pandas as pd
import string
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from nltk.corpus import stopwords
import nltk

# Download stopwords (hanya perlu dijalankan sekali)
nltk.download('stopwords')

In [None]:
# 🔹 Step 2: Siapkan Dataset Ulasan Sederhana
data = {
    'review': [
        'Makanannya enak sekali!',
        'Pelayanan sangat buruk',
        'Pengiriman cepat dan rapi',
        'Saya kecewa dengan produk ini',
        'Kualitasnya bagus dan tahan lama',
        'Tidak sesuai dengan deskripsi',
        'Harga terjangkau dan kualitas oke',
        'Saya tidak akan beli lagi',
        'Produk sangat memuaskan',
        'Barang rusak saat diterima'
    ],
    'label': [
        'positif', 'negatif', 'positif', 'negatif', 'positif',
        'negatif', 'positif', 'negatif', 'positif', 'negatif'
    ]
}

df = pd.DataFrame(data)
df

In [None]:
# 🔹 Step 3: Preprocessing Teks
stop_words = set(stopwords.words('indonesian'))

def clean_text(text):
    text = text.lower()  # huruf kecil
    text = text.translate(str.maketrans('', '', string.punctuation))  # hapus tanda baca
    text = ' '.join([word for word in text.split() if word not in stop_words])  # hapus stopwords
    return text

df['clean_text'] = df['review'].apply(clean_text)
df[['review', 'clean_text']]

In [None]:
# 🔹 Step 4: Ubah Teks menjadi Fitur Angka (Bag of Words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['clean_text'])
y = df['label']

In [None]:
# 🔹 Step 5: Split Dataset menjadi Data Latih dan Uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 🔹 Step 6: Latih Model Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

In [None]:
# 🔹 Step 7: Evaluasi Model
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

In [None]:
# 🔹 Step 8: Prediksi Teks Baru
new_reviews = ["pengiriman sangat cepat dan memuaskan", "produk tidak bagus dan mengecewakan"]
new_vectors = vectorizer.transform(new_reviews)
model.predict(new_vectors)