In [9]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [None]:
# Inisialisasi stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Dataset
dataset = [

    ["Restoran ini memiliki suasana yang nyaman dan harga yang terjangkau.", 1],
    ["Saya sangat menikmati hidangan seafood di sini, segar dan bumbu pas.", 1],
    ["Pelayan sangat membantu dan cepat tanggap. Menu sarapannya luar biasa!", 1],
    ["Tempat ini menjadi favorit keluarga kami. Makanannya selalu konsisten enak.", 1],
    ["Koki di restoran ini sangat berbakat, cita rasa masakan lokal yang autentik.", 1],
    ["Dessert-nya luar biasa enak, terutama es krim durian homemade mereka.", 1],
    ["Tempatnya instagramable dan makanannya tidak mengecewakan.", 1],
    ["Harga sepadan dengan kualitas makanan yang disajikan. Puas!", 1],
    ["Pelayanan cepat meski restoran sedang ramai pengunjung.", 1],
    ["Menu vegetarian mereka sangat beragam dan lezat.", 1],
    ["Pelayanan lambat dan pelayan tidak ramah sama sekali.", 0],
    ["Tempat ini kotor dan toiletnya bau. Tidak akan kembali lagi.", 0],
    ["Menunggu lebih dari satu jam untuk makanan yang biasa saja.", 0],
    ["Porsinya terlalu kecil untuk harga yang dibayarkan.", 0],
    ["Saya menemukan rambut di dalam sup saya. Sangat mengecewakan.", 0],
    ["AC tidak berfungsi dengan baik dan tempat sangat panas.", 0],
    ["Menu tidak sesuai dengan yang ada di foto, sangat berbeda kenyataannya.", 0],
    ["Makanan terlalu asin dan minumannya tidak segar.", 0],
]

# Pisahkan teks dan label
texts = [item[0] for item in dataset]
labels = [item[1] for item in dataset]

# Preprocessing: stemming dan lowercase
texts_stemmed = [stemmer.stem(text.lower()) for text in texts]

# Ekstraksi fitur dengan CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts_stemmed)
y = labels

# Split dataset: 80% training, 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)



# Prediksi pada data baru
new_texts = [
    "Nasi gorengnya terlalu berminyak dan tidak ada rasanya.",
    "Makanan cepat saji yang lambat disajikan, ironis sekali.", 
    "Wifi tidak berfungsi padahal mereka mengiklankan free wifi.",
    "Makanan Jepang autentik dengan bahan-bahan premium.", 
    "Sate ayam terbaik di kota, bumbunya meresap sampai ke dalam."
]

# Preprocessing data baru
new_texts_stemmed = [stemmer.stem(text.lower()) for text in new_texts]

# Transformasi ke fitur
X_new = vectorizer.transform(new_texts_stemmed)

# Prediksi sentimen
new_predictions = model.predict(X_new)

# Tampilkan hasil prediksi
print("\nPrediksi Sentimen Data Baru:")
for text, pred in zip(new_texts, new_predictions):
    label = "Positif" if pred == 1 else "Negatif"
    print(f"Teks: \"{text}\" => Sentimen: {label}")

# Evaluasi model
y_pred = model.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))



Prediksi Sentimen Data Baru:
Teks: "Nasi gorengnya terlalu berminyak dan tidak ada rasanya." => Sentimen: Negatif
Teks: "Makanan cepat saji yang lambat disajikan, ironis sekali." => Sentimen: Positif
Teks: "Wifi tidak berfungsi padahal mereka mengiklankan free wifi." => Sentimen: Negatif
Teks: "Makanan Jepang autentik dengan bahan-bahan premium." => Sentimen: Positif
Teks: "Sate ayam terbaik di kota, bumbunya meresap sampai ke dalam." => Sentimen: Negatif
Confusion Matrix:
[[0 0]
 [1 3]]

Classification Report:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       1.00      0.75      0.86         4

    accuracy                           0.75         4
   macro avg       0.50      0.38      0.43         4
weighted avg       1.00      0.75      0.86         4



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
