# Email Classification

In [1]:
import pandas as pd
df = pd.read_csv('./data/email_spam.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2636 entries, 0 to 2635
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Kategori  2636 non-null   object
 1   Pesan     2636 non-null   object
dtypes: object(2)
memory usage: 41.3+ KB


In [2]:
df.sample(5)

Unnamed: 0,Kategori,Pesan
668,spam,Penghematan tepercaya pada obat resep. Sekaran...
13,spam,Fenomena Wall Street mendapatkan hadiah kecil ...
2338,ham,"Wawancara telepon per percakapan kami kemarin,..."
2407,ham,Promosi Promosi kami tercantum di bawah ini. K...
2491,ham,"Mengunjungi Enron 4 Mei Christie, FYI. Pesan y..."


In [3]:
df.isnull().sum()

Kategori    0
Pesan       0
dtype: int64

In [4]:
df.groupby('Kategori').count()

Unnamed: 0_level_0,Pesan
Kategori,Unnamed: 1_level_1
ham,1268
spam,1368


## Preprocessing

### Membersihkan data dari yang bukan teks (angka, tanda baca)

In [5]:
import re
import string

clean_text = lambda text: re.sub(f'[{string.punctuation}0-9]', '', text)
df['Pesan'] = df['Pesan'].apply(clean_text)

df.sample(5)

Unnamed: 0,Kategori,Pesan
2086,ham,RE Diskusi Panel Risiko Steve sebuah pertemua...
1761,ham,Thomas Knudsen Wawancara membatalkan semua say...
2526,ham,Re Informasi kontak Eric terima kasih atas pes...
360,spam,Bonus Penjualan Anuitas LST Anuitas jaminan ...
2027,ham,Konfirmasi pesanan Anda Ini adalah konfirmasi ...


### Mengubah text menjadi lowercase

In [6]:
df['Pesan'] = df['Pesan'].apply(lambda text: text.lower())
df.sample(5)

Unnamed: 0,Kategori,Pesan
45,spam,brosur penuh warna tsa design products idea...
1585,ham,re wawancara telepon dengan enron corp kelompo...
97,spam,apakah saya mengharuskan pengacara untuk mengg...
2380,ham,acara bash sampah pada hari sabtu maret terim...
1898,ham,re eol clayton berita bagus saya ingin duduk b...


### Stemming

In [None]:
# from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# factory = StemmerFactory()
# stemmer = factory.create_stemmer()

# df['Pesan'] = df['Pesan'].apply(stemmer.stem)
# df.sample(5)

In [17]:
df = pd.read_csv('data/email_stemming.csv')
df.sample(5)

Unnamed: 0,Kategori,Pesan
1200,spam,rumah baru yang luar biasa untuk as ini adalah...
555,spam,fortune kerja di rumah repetisi yang butuh ban...
108,spam,anda tidak tahu cara tarik langgan ke situs we...
300,spam,jadi selidik ini kerja untuk anda perangkat lu...
769,spam,semua perangkat lunak grafis sedia versi oem m...


### Tokenisasi

In [18]:
from nltk.tokenize import word_tokenize

df['Pesan'] = df['Pesan'].apply(word_tokenize)
df.sample(5)

Unnamed: 0,Kategori,Pesan
2224,ham,"[re, re, workshop, ini, adalah, berita, bagus,..."
1321,spam,"[identitas, dan, logo, visual, sekarang, kerja..."
163,spam,"[sempat, untuk, dapat, logo, baru, sekarang, k..."
213,spam,"[investasi, tumbuh, tinggi, untuk, besok, tumb..."
390,spam,"[berita, bagus, dari, bank, anda, bagaimana, k..."


### Remove Stopwords

In [19]:
# from nltk.corpus import stopwords

# remove_stopwords = lambda words: [word for word in words if word not in stopwords.words('indonesian')]

# df['Pesan'] = df['Pesan'].apply(remove_stopwords)
# df.sample(5)

Unnamed: 0,Kategori,Pesan
2490,ham,"[daftar, konferensi, simpan, gas, amerika, uta..."
1581,ham,"[koreksi, model, ppi, buku, inflasi, sayang, m..."
439,spam,"[logo, perfect, charset, koi, r, pikir, hembus..."
1982,ham,"[re, pemrograman, model, rdi, michelle, kode, ..."
87,spam,"[surat, host, name, server, net, host, temu, p..."


In [23]:
df = pd.read_csv('data/email_stopword.csv')
df.sample(5)

Unnamed: 0,Kategori,Pesan
1365,spam,"['balas', 'butuh', 'dear', 'sir', 'dr', 'james..."
1167,spam,"['sistem', 'kendali', 'uang', 'sistem', 'kenda..."
1765,ham,"['selamat', 'vince', 'selamat', 'promosi', 'di..."
2260,ham,"['re', 'gwen', 'koepke', 'lihat', 'jumat', 'pe..."
1573,ham,"['re', 'tindak', 'iris', 'mack', 'hi', 'terima..."


### TF-IDF