# 📘 Text Mining dengan Naive Bayes Classifier di Jupyter Notebook


Notebook ini bertujuan untuk mendemonstrasikan langkah-langkah klasifikasi teks menggunakan **Naive Bayes Classifier**.
Contoh kasus: mengklasifikasikan ulasan pelanggan sebagai **positif** atau **negatif**.


In [11]:
import pandas as pd
import string
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from nltk.corpus import stopwords
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [12]:
data = {
    'review': [
        'Makanannya enak sekali!',
        'Pelayanan sangat buruk',
        'Pengiriman cepat dan rapi',
        'Saya kecewa dengan produk ini',
        'Kualitasnya bagus dan tahan lama',
        'Tidak sesuai dengan deskripsi',
        'Harga terjangkau dan kualitas oke',
        'Saya tidak akan beli lagi',
        'Produk sangat memuaskan',
        'Barang rusak saat diterima'
    ],
    'label': [
        'positif', 'negatif', 'positif', 'negatif', 'positif',
        'negatif', 'positif', 'negatif', 'positif', 'negatif'
    ]
}

df = pd.DataFrame(data)
df

Unnamed: 0,review,label
0,Makanannya enak sekali!,positif
1,Pelayanan sangat buruk,negatif
2,Pengiriman cepat dan rapi,positif
3,Saya kecewa dengan produk ini,negatif
4,Kualitasnya bagus dan tahan lama,positif
5,Tidak sesuai dengan deskripsi,negatif
6,Harga terjangkau dan kualitas oke,positif
7,Saya tidak akan beli lagi,negatif
8,Produk sangat memuaskan,positif
9,Barang rusak saat diterima,negatif


In [13]:
stop_words = set(stopwords.words('indonesian'))

def clean_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))  
    text = ' '.join([word for word in text.split() if word not in stop_words]) 
    return text

df['clean_text'] = df['review'].apply(clean_text)
df[['review', 'clean_text']]

Unnamed: 0,review,clean_text
0,Makanannya enak sekali!,makanannya enak
1,Pelayanan sangat buruk,pelayanan buruk
2,Pengiriman cepat dan rapi,pengiriman cepat rapi
3,Saya kecewa dengan produk ini,kecewa produk
4,Kualitasnya bagus dan tahan lama,kualitasnya bagus tahan
5,Tidak sesuai dengan deskripsi,sesuai deskripsi
6,Harga terjangkau dan kualitas oke,harga terjangkau kualitas oke
7,Saya tidak akan beli lagi,beli
8,Produk sangat memuaskan,produk memuaskan
9,Barang rusak saat diterima,barang rusak diterima


In [14]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['clean_text'])
y = df['label']

In [15]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [16]:
model = MultinomialNB()
model.fit(X_train, y_train)

In [17]:
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

     negatif       0.50      1.00      0.67         1
     positif       0.00      0.00      0.00         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [18]:
new_reviews = ["pengiriman sangat cepat dan memuaskan", "produk tidak bagus dan mengecewakan"]
new_vectors = vectorizer.transform(new_reviews)
model.predict(new_vectors)

array(['positif', 'negatif'], dtype='<U7')