# Import Library

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import re
from string import punctuation

# Open Dataset

In [2]:
df = pd.read_excel('dataset/dataspam.xlsx')[['pesan','label']]
df

Unnamed: 0,pesan,label
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...",1
1,"Hari gini masih minta jajan sama ortu, Gak deh...",1
2,Instal snack Video diPlayStore atau dengan Ket...,1
3,"Buka aplikasi SnackVideo, lalu log in dengan F...",1
4,Untuk Tips and Trik Join Grupnya sebelum posti...,1
...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,1
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,1
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,1
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,1


# Dataset Info

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   pesan   999 non-null    object
 1   label   1000 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 15.8+ KB


# Cek Missing Value

In [4]:
df.isna().sum()

pesan    1
label    0
dtype: int64

# Drop Missing Value

In [5]:
df.dropna(inplace=True)
df

Unnamed: 0,pesan,label
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...",1
1,"Hari gini masih minta jajan sama ortu, Gak deh...",1
2,Instal snack Video diPlayStore atau dengan Ket...,1
3,"Buka aplikasi SnackVideo, lalu log in dengan F...",1
4,Untuk Tips and Trik Join Grupnya sebelum posti...,1
...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,1
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,1
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,1
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,1


# Inisiasi X, dan y

In [6]:
X = df[['pesan']]
y = df.label

In [7]:
# def case_folding(text):
#     text = re.sub(r"http\S+","",text)
#     text = text.lower() # merubah bentuk menjadi lower case
#     text = re.sub(r'\d+', '', text) # menghapus angka
#     text = re.sub(r'[^\w\s]','',text) # menghapus karakter tanda baca
#     text = text.strip()
#     return text
# df['clean_text'] = list(map(case_folding,df['pesan']))
X

Unnamed: 0,pesan
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ..."
1,"Hari gini masih minta jajan sama ortu, Gak deh..."
2,Instal snack Video diPlayStore atau dengan Ket...
3,"Buka aplikasi SnackVideo, lalu log in dengan F..."
4,Untuk Tips and Trik Join Grupnya sebelum posti...
...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...


# Preprocessing

## Case Folding

In [8]:
X['text_lower'] =  X['pesan'].str.lower()

In [9]:
X

Unnamed: 0,pesan,text_lower
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...","ayo klaim voucher diskon 50 ribunya sekarang, ..."
1,"Hari gini masih minta jajan sama ortu, Gak deh...","hari gini masih minta jajan sama ortu, gak deh..."
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...
3,"Buka aplikasi SnackVideo, lalu log in dengan F...","buka aplikasi snackvideo, lalu log in dengan f..."
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...
...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siang&#10;izin gabung dan izin share&#...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan raya&#10;bisa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota. spesifikasi pada gamb...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas 25 hektar&#10;surat girik&#10;...


## Remove Angka,tanda baca, dan spasi

In [10]:

# def remove_punctuation(text):
#     """custom function to remove the punctuation"""
#     text = str(text)
#     return text.translate(str.maketrans('', '', punctuation))

# df["punc"] = df["text_lower"].apply(lambda text: remove_punctuation(text))
# df.head()
def remove_punct(text):
    text = re.sub(r"http\S+","",text)
    # text = text.lower() # merubah bentuk menjadi lower case
    text = re.sub(r'\d+', '', text) # menghapus angka
    text = re.sub(r'[^\w\s]','',text) # menghapus karakter tanda baca
    text = text.strip()
    return text
X['clean_text'] = list(map(remove_punc,X['text_lower']))

In [11]:
X

Unnamed: 0,pesan,text_lower,clean_text
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...","ayo klaim voucher diskon 50 ribunya sekarang, ...",ayo klaim voucher diskon ribunya sekarang bia...
1,"Hari gini masih minta jajan sama ortu, Gak deh...","hari gini masih minta jajan sama ortu, gak deh...",hari gini masih minta jajan sama ortu gak dehh...
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore atau dengan ket...
3,"Buka aplikasi SnackVideo, lalu log in dengan F...","buka aplikasi snackvideo, lalu log in dengan f...",buka aplikasi snackvideo lalu log in dengan fb...
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...
...,...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siang&#10;izin gabung dan izin share&#...,selamat siangizin gabung dan izin sharedijual ...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan raya&#10;bisa...,dijual tanah sawah pinggir jalan rayabisa untu...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota. spesifikasi pada gamb...,rumah dijual bogor kota spesifikasi pada gamba...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas hektarsurat girikjual harga d...


## Stopwords

In [13]:
from nltk.corpus import stopwords

In [15]:
STOPWORDS = set(stopwords.words('indonesian'))

In [17]:
def remove_stopwords(text):
    return " ".join([word for word in str(text).split() if word not in STOPWORDS])
X['text_stop']  = X.clean_text.apply(lambda text:remove_stopwords(text))

In [18]:
X

Unnamed: 0,pesan,text_lower,clean_text,text_stop
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...","ayo klaim voucher diskon 50 ribunya sekarang, ...",ayo klaim voucher diskon ribunya sekarang bia...,ayo klaim voucher diskon ribunya biar tanggal ...
1,"Hari gini masih minta jajan sama ortu, Gak deh...","hari gini masih minta jajan sama ortu, gak deh...",hari gini masih minta jajan sama ortu gak dehh...,gini jajan ortu gak dehh ikutin mimin aplikasi...
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore ketuk tautan
3,"Buka aplikasi SnackVideo, lalu log in dengan F...","buka aplikasi snackvideo, lalu log in dengan f...",buka aplikasi snackvideo lalu log in dengan fb...,buka aplikasi snackvideo log in fb no hp klik ...
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,tips and trik join grupnya postingan hilang
...,...,...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siang&#10;izin gabung dan izin share&#...,selamat siangizin gabung dan izin sharedijual ...,selamat siangizin gabung izin sharedijual tana...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan raya&#10;bisa...,dijual tanah sawah pinggir jalan rayabisa untu...,dijual tanah sawah pinggir jalan rayabisa sawa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota. spesifikasi pada gamb...,rumah dijual bogor kota spesifikasi pada gamba...,rumah dijual bogor kota spesifikasi gambar hub...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas hektarsurat girikjual harga d...,jual tanah luas hektarsurat girikjual harga di...


## Remove Kata dengan frequensi tertinggi yang tidak penting

In [30]:
from collections import Counter
cnt = Counter()
for text in X['text_stopfreq'].values:
    for word in text.split():
        cnt[word] +=1
cnt.most_common(10)

[('m', 56),
 ('investasi', 56),
 ('masuk', 55),
 ('cek', 52),
 ('harga', 52),
 ('alhamdulillah', 52),
 ('kasih', 49),
 ('dana', 48),
 ('yg', 47),
 ('nego', 44)]

In [31]:
FREQWORDS = set([w for (w, wc) in cnt.most_common(1)])
def remove_freqwords(text):
    """custom function to remove the frequent words"""
    return " ".join([word for word in str(text).split() if word not in FREQWORDS])

X["text_stopfreq"] = X["text_stopfreq"].apply(lambda text: remove_freqwords(text))


In [32]:
X

Unnamed: 0,pesan,text_lower,clean_text,text_stop,text_stopfreq
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...","ayo klaim voucher diskon 50 ribunya sekarang, ...",ayo klaim voucher diskon ribunya sekarang bia...,ayo klaim voucher diskon ribunya biar tanggal ...,ayo klaim voucher diskon ribunya biar tanggal ...
1,"Hari gini masih minta jajan sama ortu, Gak deh...","hari gini masih minta jajan sama ortu, gak deh...",hari gini masih minta jajan sama ortu gak dehh...,gini jajan ortu gak dehh ikutin mimin aplikasi...,gini jajan ortu gak dehh ikutin mimin aplikasi...
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore ketuk tautan,instal snack video diplaystore ketuk tautan
3,"Buka aplikasi SnackVideo, lalu log in dengan F...","buka aplikasi snackvideo, lalu log in dengan f...",buka aplikasi snackvideo lalu log in dengan fb...,buka aplikasi snackvideo log in fb no hp klik ...,buka aplikasi snackvideo log in fb no hp klik ...
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,tips and trik join grupnya postingan hilang,tips and trik join grupnya postingan hilang
...,...,...,...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siang&#10;izin gabung dan izin share&#...,selamat siangizin gabung dan izin sharedijual ...,selamat siangizin gabung izin sharedijual tana...,selamat siangizin gabung izin sharedijual tana...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan raya&#10;bisa...,dijual tanah sawah pinggir jalan rayabisa untu...,dijual tanah sawah pinggir jalan rayabisa sawa...,dijual tanah sawah pinggir jalan rayabisa sawa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota. spesifikasi pada gamb...,rumah dijual bogor kota spesifikasi pada gamba...,rumah dijual bogor kota spesifikasi gambar hub...,rumah dijual bogor kota spesifikasi gambar hub...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas hektarsurat girikjual harga d...,jual tanah luas hektarsurat girikjual harga di...,jual tanah luas hektarsurat girikjual harga di...


## Remove Kata frequensi ter rendah yang tidak penting

In [42]:
from collections import Counter
cnt = Counter()
for text in X['text_stopfreq'].values:
    for word in text.split():
        cnt[word] +=1
cnt.most_common(10)

[('investasi', 56),
 ('masuk', 55),
 ('cek', 52),
 ('harga', 52),
 ('alhamdulillah', 52),
 ('kasih', 49),
 ('dana', 48),
 ('yg', 47),
 ('nego', 44),
 ('aja', 42)]

In [40]:
X.drop(columns=['text_lower','text_stop'],inplace=True)

In [41]:
X

Unnamed: 0,pesan,clean_text,text_stopfreq
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...",ayo klaim voucher diskon ribunya sekarang bia...,ayo klaim voucher diskon ribunya biar tanggal ...
1,"Hari gini masih minta jajan sama ortu, Gak deh...",hari gini masih minta jajan sama ortu gak dehh...,gini jajan ortu gak dehh ikutin mimin aplikasi...
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore ketuk tautan
3,"Buka aplikasi SnackVideo, lalu log in dengan F...",buka aplikasi snackvideo lalu log in dengan fb...,buka aplikasi snackvideo log in fb no hp klik ...
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,tips and trik join grupnya postingan hilang
...,...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siangizin gabung dan izin sharedijual ...,selamat siangizin gabung izin sharedijual tana...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan rayabisa untu...,dijual tanah sawah pinggir jalan rayabisa sawa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota spesifikasi pada gamba...,rumah dijual bogor kota spesifikasi gambar hub...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas hektarsurat girikjual harga d...,jual tanah luas hektarsurat girikjual harga di...


In [51]:
n_rare_words = 15
RAREWORDS = set([w for (w, wc) in cnt.most_common()[:-n_rare_words-1:-1]])
def remove_rarewords(text):
    """custom function to remove the rare words"""
    return " ".join([word for word in str(text).split() if word not in RAREWORDS])

X["text_wo_stopfreqrare"] = X["text_stopfreq"].apply(lambda text: remove_rarewords(text))
X

Unnamed: 0,pesan,clean_text,text_stopfreq,text_wo_stopfreqrare
0,"Ayo klaim voucher diskon 50 ribunya sekarang, ...",ayo klaim voucher diskon ribunya sekarang bia...,ayo klaim voucher diskon ribunya biar tanggal ...,ayo klaim voucher diskon ribunya biar tanggal ...
1,"Hari gini masih minta jajan sama ortu, Gak deh...",hari gini masih minta jajan sama ortu gak dehh...,gini jajan ortu gak dehh ikutin mimin aplikasi...,gini jajan ortu gak dehh ikutin mimin aplikasi...
2,Instal snack Video diPlayStore atau dengan Ket...,instal snack video diplaystore atau dengan ket...,instal snack video diplaystore ketuk tautan,instal snack video diplaystore ketuk tautan
3,"Buka aplikasi SnackVideo, lalu log in dengan F...",buka aplikasi snackvideo lalu log in dengan fb...,buka aplikasi snackvideo log in fb no hp klik ...,buka aplikasi snackvideo log in fb no hp klik ...
4,Untuk Tips and Trik Join Grupnya sebelum posti...,untuk tips and trik join grupnya sebelum posti...,tips and trik join grupnya postingan hilang,tips and trik join grupnya postingan hilang
...,...,...,...,...
995,Selamat siang&#10;Izin gabung dan izin share&#...,selamat siangizin gabung dan izin sharedijual ...,selamat siangizin gabung izin sharedijual tana...,selamat siangizin gabung izin sharedijual tana...
996,Dijual Tanah Sawah Pinggir Jalan Raya&#10;Bisa...,dijual tanah sawah pinggir jalan rayabisa untu...,dijual tanah sawah pinggir jalan rayabisa sawa...,dijual tanah sawah pinggir jalan rayabisa sawa...
997,Rumah dijual Bogor kota. Spesifikasi pada gamb...,rumah dijual bogor kota spesifikasi pada gamba...,rumah dijual bogor kota spesifikasi gambar hub...,rumah dijual bogor kota spesifikasi gambar hub...
998,jual tanah luas 25 hektar&#10;surat girik&#10;...,jual tanah luas hektarsurat girikjual harga d...,jual tanah luas hektarsurat girikjual harga di...,jual tanah luas hektarsurat girikjual harga di...


In [53]:
X.text_wo_stopfreqrare

0      ayo klaim voucher diskon ribunya biar tanggal ...
1      gini jajan ortu gak dehh ikutin mimin aplikasi...
2            instal snack video diplaystore ketuk tautan
3      buka aplikasi snackvideo log in fb no hp klik ...
4            tips and trik join grupnya postingan hilang
                             ...                        
995    selamat siangizin gabung izin sharedijual tana...
996    dijual tanah sawah pinggir jalan rayabisa sawa...
997    rumah dijual bogor kota spesifikasi gambar hub...
998    jual tanah luas hektarsurat girikjual harga di...
999    assalamualaikum warahmatullahi wabarakatuh dij...
Name: text_wo_stopfreqrare, Length: 999, dtype: object

# Save Data Clean

In [54]:
df = pd.DataFrame({'data':X.text_wo_stopfreqrare,'label':y})

In [56]:
df.to_csv('data_clean.csv',index=False)