In [8]:
!pip install pandas



In [14]:
# 1. Import library yang dibutuhkan
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from google.colab import files
import pandas as pd

# 2. Upload file CSV dari komputer
uploaded = files.upload()

# Ambil nama file yang diupload
for file_name in uploaded.keys():
    print(f"File diunggah: {file_name}")
    df = pd.read_csv(file_name)

# 3. Tampilkan beberapa baris awal
print("Data awal:")
print(df.head())

# 4. Gunakan kolom sesuai dataset kamu
emails = df['Pesan']          # teks email
labels = df['Kategori']       # label spam / bukan spam

# 5. Ubah teks menjadi fitur numerik (bag of words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# 6. Pisahkan data training dan testing
X_train, X_test, y_train, y_test = train_test_split(
    X, labels, test_size=0.3, random_state=42, stratify=labels
)

# 7. Gunakan model Naive Bayes tipe Multinomial
model = MultinomialNB()

# 8. Latih model
model.fit(X_train, y_train)

# 9. Prediksi data uji
y_pred = model.predict(X_test)

# 10. Evaluasi performa
print("\nAkurasi:", accuracy_score(y_test, y_pred))
print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred, zero_division=1))

# 11. Uji dengan data baru
contoh_email = [
    "Segera klaim hadiah Anda sekarang juga!",
    "Jangan lewatkan kesempatan emas ini dan besok buatkan laporannya."
]
X_new = vectorizer.transform(contoh_email)
prediksi = model.predict(X_new)

print("\nHasil Prediksi Email Baru:")
for text, label in zip(contoh_email, prediksi):
    print(f"Teks: '{text}' => Prediksi: {label}")


Saving email_spam_indo.csv to email_spam_indo (4).csv
File diunggah: email_spam_indo (4).csv
Data awal:
  Kategori                                              Pesan
0     spam  Secara alami tak tertahankan identitas perusah...
1     spam  Fanny Gunslinger Perdagangan Saham adalah Merr...
2     spam  Rumah -rumah baru yang luar biasa menjadi muda...
3     spam  4 Permintaan Khusus Pencetakan Warna Informasi...
4     spam  Jangan punya uang, dapatkan CD perangkat lunak...

Akurasi: 0.988621997471555

Laporan Klasifikasi:
              precision    recall  f1-score   support

         ham       0.99      0.99      0.99       380
        spam       0.99      0.99      0.99       411

    accuracy                           0.99       791
   macro avg       0.99      0.99      0.99       791
weighted avg       0.99      0.99      0.99       791


Hasil Prediksi Email Baru:
Teks: 'Segera klaim hadiah Anda sekarang juga!' => Prediksi: spam
Teks: 'Jangan lewatkan kesempatan emas ini dan besok 