# Import Library

In [1]:
'''
Dua baris ini mengimpor pustaka NumPy dan Pandas. NumPy digunakan untuk operasi numerik dan array, 
sementara Pandas digunakan untuk bekerja dengan data tabular.
'''
import numpy as np
import pandas as pd

# Menambahkan Dataset

In [2]:
#Import dataset
data=pd.read_csv('spam.csv')

# Menampilkan Isi Data

In [3]:
#Menampilkan data yang dimuat dalam file spam.csv
data

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [4]:
# Menampilkan nama kolom dalam dataset
data.columns

Index(['Category', 'Message'], dtype='object')

In [5]:
# Memberikan informasi tentang dataset termasuk tipe data dan apakah terdapat nilai yang hilang (NaN)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Category  5572 non-null   object
 1   Message   5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB


In [6]:
# Menghitung jumlah nilai yang hilang (NaN) untuk setiap kolom dalam dataset
data.isna().sum()

Category    0
Message     0
dtype: int64

In [7]:
'''
Membuat kolom baru bernama 'Spam' yang berisi nilai biner (1 untuk spam, 0 untuk bukan spam) 
berdasarkan nilai kolom 'Category' dalam dataset
'''
data['Spam']=data['Category'].apply(lambda x:1 if x=='spam' else 0)

In [8]:
# Menampilkan lima baris pertama dari dataset untuk memeriksanya
data.head(5)

Unnamed: 0,Category,Message,Spam
0,ham,"Go until jurong point, crazy.. Available only ...",0
1,ham,Ok lar... Joking wif u oni...,0
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,ham,U dun say so early hor... U c already then say...,0
4,ham,"Nah I don't think he goes to usf, he lives aro...",0


In [9]:
'''
Mengimpor fungsi train_test_split dari scikit-learn dan membagi data menjadi data latih 
dan data uji dengan ukuran data uji sebesar 25%
'''
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(data.Message,data.Spam,test_size=0.25)

In [10]:
'''
Mengimpor CountVectorizer dari scikit-learn untuk mengonversi 
teks menjadi vektor fitur berdasarkan frekuensi kata
'''
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
'''
Mengimpor kelas Multinomial Naive Bayes dari scikit-learn, 
yang akan digunakan sebagai model klasifikasi
'''
from sklearn.naive_bayes import MultinomialNB

In [12]:
'''
Membuat pipeline dengan dua langkah: langkah pertama menggunakan 
CountVectorizer untuk mengonversi teks menjadi vektor fitur 
dan langkah kedua menggunakan MultinomialNB untuk melakukan klasifikasi Naive Bayes
'''
from sklearn.pipeline import Pipeline
clf=Pipeline([
    ('vectorizer',CountVectorizer()),
    ('nb',MultinomialNB())
])

In [13]:
'''
Melatih model klasifikasi menggunakan data latih
'''
clf.fit(X_train,y_train)

In [14]:
# Emails adalah daftar dari dua email yang akan diuji dengan model
emails=[
    'Sounds great! Are you home now?',
    'Will u meet ur dream partner soon? Is ur career off 2 a flyng start? 2 find out free, txt HORO followed by ur star sign, e. g. HORO ARIES'
]

In [15]:
# Memprediksi apakah email dalam daftar emails adalah spam atau bukan spam
predictions = clf.predict(emails)
predictions_boolean = [True if pred == 1 else False for pred in predictions]
print(predictions_boolean)

[False, True]


 > email pertama bernilai False dikarenakan tidak dikategorikan spam.
 > email kedua bernilai True dikarenakan dikategorikan sebagai spam.

In [16]:
# Menghitung akurasi model menggunakan data uji
clf.score(X_test,y_test)

0.9892318736539842

> Akurasi menunjukkan 98% berarti model bekerja dengan baik dalam membedakan email spam dan bukan spam.

In [17]:
# Mengukur kinerja model dengan menggunakan confusion matrix
from sklearn.metrics import confusion_matrix

y_pred = clf.predict(X_test)
confusion_matrix(y_test, y_pred)


array([[1209,    4],
       [  11,  169]], dtype=int64)

***Hasil Kinerja Model:***
* Diagonal utama menunjukkan jumlah prediksi yang benar.
* 1216 sampel non-spam diprediksi dengan benar sebagai non-spam.
* 155 sampel spam diprediksi dengan benar sebagai spam.
* Diagonal sekunder menunjukkan kesalahan prediksi.
* 18 sampel spam yang sebenarnya diprediksi sebagai non-spam (False Negative).
* 4 sampel non-spam yang sebenarnya diprediksi sebagai spam (False Positive).

Sumber Code & Dataset:
https://www.kaggle.com/code/mfaisalqureshi/email-spam-detection-98-accuracy