# Kampus Merdeka 6: IBM & Skilvul
# Data Science Phase Challenge
Nama  : R. Irzia Fitri Muthmainah 
Topik : Phishing Email Detection

# Problem Definition
## Latar Belakang
Email phishing merupakan salah satu jenis penipuan online yang paling umum dan berbahaya. Penipu menggunakan email phishing untuk menipu korban agar mengungkapkan informasi pribadi, seperti kata sandi, nomor kartu kredit, atau detail keuangan lainnya. Email phishing sering dirancang agar terlihat seperti berasal dari sumber terpercaya, seperti bank, perusahaan, atau lembaga pemerintah. Korban yang tertipu mungkin akan mengklik tautan berbahaya dalam email atau mengunduh lampiran yang terkontaminasi malware. Klasifikasi email phishing dengan machine learning telah menjadi area penelitian yang berkembang pesat dalam beberapa tahun terakhir. Model machine learning dapat dilatih untuk mengidentifikasi email phishing dengan menganalisis berbagai fitur email seperti isi email yang berisi ancaman atau terhadap korban dan tautan yang mengarah ke situs web palsu atau lampiran yang terkontaminasi malware. Klasifikasi email phishing dengan machine learning adalah alat yang ampuh untuk memerangi penipuan online dan melindungi data pribadi. Model machine learning yang dilatih dengan baik dapat mengidentifikasi email phishing dengan akurasi yang tinggi dan membantu menjaga keamanan pengguna di dunia digital.
## Tujuan Penelitian
1. Melindungi Pengguna dari Penipuan Online
2. Meningkatkan Keamanan Data Pribadi
3. Meningkatkan Kesadaran Pengguna
4. Meningkatkan Kualitas Layanan Email
## Rumusan Masalah
1. Fitur email apa yang penting untuk klasifikasi email phishing?
2. Algoritma Machine Learning apa yang paling efektif?
3. Bagaimana mengevaluasi perfoma model machine learning?
## Data yang akan dipakai
(tulis nama, sumber data, dan deskripsi data di sini)
- Phising_Email
- https://www.kaggle.com/datasets/subhajournal/phishingemails
- Data terdiri data 2 kolom (Email Text dan Email Type) Email Text berupa isi email dan Email Type berupa deteksi email tersebut phishing. Terdapat 16 missing value.
## Metode
Classification (SVM, Decision Tree, Random Forest, dan Navie Bayes)

# Preparation | Persiapan
## Import Libraries

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder 
encode = LabelEncoder()
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

## Get Data | Mendapatkan Data

In [4]:
df = pd.read_csv("Phishing_Email.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,Email Text,Email Type
0,0,"re : 6 . 1100 , disc : uniformitarianism , re ...",Safe Email
1,1,the other side of * galicismos * * galicismo *...,Safe Email
2,2,re : equistar deal tickets are you still avail...,Safe Email
3,3,\nHello I am your hot lil horny toy.\n I am...,Phishing Email
4,4,software at incredibly low prices ( 86 % lower...,Phishing Email


## Explore Data (EDA) | Eksplorasi Data

In [5]:
#ringkasan data
df.describe()

Unnamed: 0.1,Unnamed: 0
count,18650.0
mean,9325.154477
std,5384.327293
min,0.0
25%,4662.25
50%,9325.5
75%,13987.75
max,18650.0


In [6]:
#informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18650 entries, 0 to 18649
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  18650 non-null  int64 
 1   Email Text  18634 non-null  object
 2   Email Type  18650 non-null  object
dtypes: int64(1), object(2)
memory usage: 437.2+ KB


In [9]:
#melihat daftar kolom
df.columns

Index(['Unnamed: 0', 'Email Text', 'Email Type'], dtype='object')

In [10]:
#menghitung nilai unik  
df.nunique()

Unnamed: 0    18650
Email Text    17537
Email Type        2
dtype: int64

## Clean Data | Membersihkan Data

In [7]:
#melihat total data hilang
total_missing = df.isna().sum().sum()
print(f"Total Missing Values: {total_missing}")

Total Missing Values: 16


In [9]:
#melihat data hilang (missing value)
nan_data = df.loc[df.isna().any(axis=1)]
print(nan_data)

       Unnamed: 0 Email Text      Email Type
31             31        NaN  Phishing Email
387           387        NaN  Phishing Email
1883         1883        NaN  Phishing Email
2049         2049        NaN  Phishing Email
2451         2451        NaN  Phishing Email
2972         2972        NaN  Phishing Email
3627         3627        NaN  Phishing Email
3806         3806        NaN  Phishing Email
5763         5763        NaN  Phishing Email
6299         6299        NaN  Phishing Email
6821         6822        NaN  Phishing Email
8594         8595        NaN  Phishing Email
9999        10000        NaN  Phishing Email
11069       11070        NaN  Phishing Email
11320       11321        NaN  Phishing Email
13843       13844        NaN  Phishing Email


In [10]:
#menghapus data missing value
df = df.dropna()
df

Unnamed: 0.1,Unnamed: 0,Email Text,Email Type
0,0,"re : 6 . 1100 , disc : uniformitarianism , re ...",Safe Email
1,1,the other side of * galicismos * * galicismo *...,Safe Email
2,2,re : equistar deal tickets are you still avail...,Safe Email
3,3,\nHello I am your hot lil horny toy.\n I am...,Phishing Email
4,4,software at incredibly low prices ( 86 % lower...,Phishing Email
...,...,...,...
18645,18646,date a lonely housewife always wanted to date ...,Phishing Email
18646,18647,request submitted : access request for anita ....,Safe Email
18647,18648,"re : important - prc mtg hi dorn & john , as y...",Safe Email
18648,18649,press clippings - letter on californian utilit...,Safe Email


In [11]:
#menghapus kolom Unnamed: 0
del df['Unnamed: 0']

In [12]:
#encoding (mengubah dari objek ke integer)
df['Email Text'] = encode.fit_transform(df['Email Text'].values)
df['Email Type'] = encode.fit_transform(df['Email Type'].values)

In [13]:
df['Email Type']

0        1
1        1
2        1
3        0
4        0
        ..
18645    0
18646    1
18647    1
18648    1
18649    0
Name: Email Type, Length: 18634, dtype: int32

In [14]:
df['Email Text']

0        12862
1        16082
2        13311
3          379
4        15212
         ...  
18645     7181
18646    14542
18647    13532
18648    12516
18649     7658
Name: Email Text, Length: 18634, dtype: int32

In [15]:
#menghapus duplikat baris
df_no_duplikat = df.drop_duplicates()
print(df_no_duplikat)

       Email Text  Email Type
0           12862           1
1           16082           1
2           13311           1
3             379           0
4           15212           0
...           ...         ...
18644         573           1
18645        7181           0
18646       14542           1
18647       13532           1
18648       12516           1

[17538 rows x 2 columns]


In [16]:
df.head()

Unnamed: 0,Email Text,Email Type
0,12862,1
1,16082,1
2,13311,1
3,379,0
4,15212,0


In [17]:
#memisahkan data untuk memprediksi Phishing
# 0 = Phishing Email
# 1 = Safe Email

x = df.iloc[:,0:1] 
y = df.iloc[:,1]
x

Unnamed: 0,Email Text
0,12862
1,16082
2,13311
3,379
4,15212
...,...
18645,7181
18646,14542
18647,13532
18648,12516


# Model Training | Pelatihan Model

In [18]:
#membagi data menjadi data training dan data test
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)
y_train

5033     1
3808     1
4092     1
1477     0
3614     1
        ..
11298    0
11979    1
5398     1
862      0
15811    1
Name: Email Type, Length: 14907, dtype: int32

In [19]:
print(f"Bentuk x_train: {x_train.shape}")
print(f"Bentuk y_train: {y_train.shape}")

Bentuk x_train: (14907, 1)
Bentuk y_train: (14907,)


In [309]:
#klasifikasi model SVM
#SVM adalah algoritma klasifikasi yang bertujuan untuk menemukan hyperplane(garis atau bidang)
#yang memisahkan data dengan kelas yang berbeda dengan cara yang optimal.

model = SVC()
model.fit(x_train, y_train)

In [327]:
#klasifikasi model Decision Tree
#Decision Tree adalah algoritma klasifikasi yang membangun model pohon keputusan untuk memprediksi kelas data baru.
#Pohon keputusan dibentuk dengan membagi data berdasarkan atribut yang paling informatif secara berulang.

model = DecisionTreeClassifier()
model.fit(x_train, y_train)

In [332]:
#klasifikasi model Random Forest
#Random Forest adalah algoritma klasifikasi ensemble yang menggabungkan banyak pohon keputusan untuk meningkatkan akurasi dan stabilitas model.
#Algoritma ini melatih setiap pohon keputusan pada subset data yang berbeda dan menggabungkan hasil prediksi dari semua pohon untuk menghasilkan
#prediksi akhir.

model_rf = RandomForestClassifier()
model_rf.fit(x_train, y_train)

In [20]:
#klasifikasi model Naive Bayes
#Naive Bayes adalah algoritma klasifikasi probabilistik yang didasarkan pada teorema Bayes.
#Algoritma ini mengasumsikan bahwa fitur-fitur data independen satu sama lain, dan menghitung probabilitas data milik kelas
#tertentu berdasarkan probabilitas fitur-fiturnya.

model = GaussianNB()
model.fit(x_train, y_train)

# Model Evaluation | Evaluasi Model

In [310]:
#Evaluasi SVM
y_pred = model.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy SVM:" , accuracy)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Accuracy SVM: 0.6130936409981218
              precision    recall  f1-score   support

           0       0.70      0.09      0.16      1518
           1       0.61      0.97      0.75      2209

    accuracy                           0.61      3727
   macro avg       0.65      0.53      0.45      3727
weighted avg       0.65      0.61      0.51      3727

[[ 133 1385]
 [  57 2152]]


In [328]:
#Evaluasi Decison Tree
y_pred = model.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy Decision Tree:" , accuracy)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Accuracy Decision Tree: 0.8124496914408371
              precision    recall  f1-score   support

           0       0.77      0.78      0.77      1518
           1       0.84      0.84      0.84      2209

    accuracy                           0.81      3727
   macro avg       0.81      0.81      0.81      3727
weighted avg       0.81      0.81      0.81      3727

[[1178  340]
 [ 359 1850]]


In [333]:
#Evaluasi Random Forest
y_pred_rf = model_rf.predict(x_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Accuracy Random Forest:" , accuracy_rf)
print(classification_report(y_test, y_pred_rf))
print(confusion_matrix(y_test, y_pred_rf))

Accuracy Random Forest: 0.8116447544942312
              precision    recall  f1-score   support

           0       0.77      0.77      0.77      1518
           1       0.84      0.84      0.84      2209

    accuracy                           0.81      3727
   macro avg       0.80      0.81      0.81      3727
weighted avg       0.81      0.81      0.81      3727

[[1176  342]
 [ 360 1849]]


In [22]:
#Evaluasi Naive Bayes
y_pred = model.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy Naive Bayes:" , accuracy)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Accuracy Naive Bayes: 0.5927019050174404
              precision    recall  f1-score   support

           0       0.00      0.00      0.00      1518
           1       0.59      1.00      0.74      2209

    accuracy                           0.59      3727
   macro avg       0.30      0.50      0.37      3727
weighted avg       0.35      0.59      0.44      3727

[[   0 1518]
 [   0 2209]]


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Model Selection | Pemilihan Model
Model yang dipilih adalah Model Decision Tree dan Random Forest karena tingkat akurasinya paling tinggi dan nyaris sama
Model Decision Tree dan Random Forest memiliki nilai akurasi 81%


In [24]:
model = DecisionTreeClassifier()
model.fit(x_train, y_train)

In [25]:
model_rf = RandomForestClassifier()
model_rf.fit(x_train, y_train)

## Conclusion | Kesimpulan
Kesimpulannya dari 4 model yang dicoba, memiliki hasil evaluasi akurasi yang berbeda, Model SVM dengan akurasi 61%, Decision Tree dan Random Forest 81%,
dan Navie Bayes dengan tingkat akurasi terendah yaitu 59%. Maka Model yang dipilih adalah model Decision Tree dan Random Forest. Walaupun tingkat 
akurasi jauh dari 100% tapi tidak menutup kemungkinan untuk mendekati angka 100% apabila dataset yang dipakai lebih lengkap dan pengolahan data yang 
lebih kompleks.