## 1. Import Libraries and Load for Each Dataset (Fraud Username List Dataset and All Username List Dataset)

In [7]:
"""
Meng-import library-library yang akan digunakan di dalam penelitian kali ini
seperti library untuk membuat visualisasi data, library untuk mengeksplorasi data,
library untuk membersihkan data dan memodelkan data yang telah dibersihkan menggunakan Algoritma Machine Learning
dengan tujuan agar dapat mengklasifikasikan akun/username fraud dan bukan fraud berdasarkan kategori label
"""
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
plt.style.use("seaborn")
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

### 1.1.  Exploring Data from All Username/Account List Dataset (Both Fraud and Non-Fraud Accounts) and Preprocessing the Dataset 

In [8]:
"""
Membaca dataset yang berisikan seluruh daftar akun/username, baik akun fraud ataupun bukan fraud
dari file excel "All Username List Dataset" serta menampilkan 5 data terbawah
"""
all_username_list = pd.read_excel("All Username List Dataset.xlsx")

all_username_list.tail()

Unnamed: 0,No,Nama Akun,TANGGAL UPDATE
4513,,JECKPOT,NaT
4514,,Defzz,NaT
4515,,M M,NaT
4516,,BrenzSTORE,NaT
4517,,Tosca Cell,NaT


In [9]:
# Menampilkan 19 data teratas yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.head(19)

Unnamed: 0,No,Nama Akun,TANGGAL UPDATE
0,1.0,Maldini,2022-08-19
1,2.0,Ibnu,2022-08-19
2,3.0,Trimo,2022-08-19
3,4.0,Juned,2022-08-19
4,5.0,Gerar,2022-08-19
5,6.0,Gundul,2022-08-19
6,7.0,Saridi,2022-08-19
7,8.0,snfi,2022-08-19
8,9.0,Linda,2022-08-19
9,10.0,Ruby,2022-08-19


Berdasarkan output dari kesembilan belas data yang berhasil ditampilkan dari variabel DataFrame "all_username_list", kita dapat mengetahui jika akun yang termasuk ke dalam file dataset "All Username List Dataset.xlsx" terakhir kali mengalami update di tanggal 19 Agustus 2022. Hal ini dapat kita asumsikan jika 19 data dari hasil output diatas merupakan data-data akun e-wallet yang mengalami update terakhir di tanggal 19 Agustus 2022.

Perlu diingat dan diketahui kembali jika file dataset "All Username List Dataset.xlsx" yang memiliki format Microsoft Excel merupakan sebuah dataset dari hasil pendaftaran akun-akun e-wallet dari suatu layanan financial technology (fintech). Seluruh akun yang terdapat di dalam file dataset "All Username List Dataset.xlsx" merupakan gabungan akun antara akun fraud (akun penipuan) dan akun non-fraud atau akun yang bukan penipuan. Maka dari itu penelitian ini bertujuan untuk dapat mengklasifikasikan antara akun fraud dan akun bukan fraud sehingga akan memudahkan pengambilan keputusan dalam memberikan layanan terbaiknya dan dapat mencegah atau mem-blacklist akun-akun yang tergolong sebagai akun penipuan agar tidak ada yang dirugikan.

In [24]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.columns

Index(['No', 'Nama Akun', 'TANGGAL UPDATE'], dtype='object')

Hasil diatas menunjukkan jika variabel DataFrame "all_username_list" hanya memiliki 3 kolom saja yaitu kolom "No", "Nama Akun" dan terakhir adalah kolom "TANGGAL UPDATE". Khusus untuk kolom "No" saya akan menghapus kolom tersebut dikarenakan kolom "No" merupakan kolom yang tidak dibutuhkan selama proses penelitian ini berlangsung. Penyebab utama mengapa kolom "No" akan dihilangkan adalah data-data yang terdapat di dalam kolom ini hanya menunjukkan nomor baris dari masing-masing akun e-wallet saja.

Karena pada DataFrame sudah terdapat nomor indeks yang berfungsi sebagai penunjuk baris dari masing-masing nama akun e-wallet yang berhasil terdaftar di perusahaan PT XYZ, maka kolom "No" sudah tidak dibutuhkan. Selain itu, penelitian ini juga akan mengubah format penamaan kolom menjadi lebih rapi dan teratur karena seperti yang terlihat dari hasil output diatas, gaya penulisan antara kolom "Nama Akun" dan kolom "TANGGAL UPDATE" sangat jauh berbeda. Maka dari itu perubahan format penulisan nama kolom akan dilakukan di dalam penelitian ini.

In [25]:
# Menghapus kolom "No" dari daftar kolom variabel DataFrame "all_username_list" serta menampilkan 9 data teratas
all_username_list = all_username_list.drop(columns=["No"], axis=1)

all_username_list.head(9)

Unnamed: 0,Nama Akun,TANGGAL UPDATE
0,Maldini,2022-08-19
1,Ibnu,2022-08-19
2,Trimo,2022-08-19
3,Juned,2022-08-19
4,Gerar,2022-08-19
5,Gundul,2022-08-19
6,Saridi,2022-08-19
7,snfi,2022-08-19
8,Linda,2022-08-19


Hasil diatas menunjukkan bahwasanya saya telah berhasil menghilangkan kolom "No" dari variabel DataFrame "all_username_list" karena kolom tersebut tidak dibutuhkan karena tujuan kolom "No" hanya menjadi penunjuk nomor baris untuk masing-masing nama akun yang berhasil terdaftar dan ter-update. Sementara itu pada format DataFrame dari library Pandas telah menyediakan indeks data yang berfungsi untuk menjadi penunjuk nomor baris dari masing-masing data yang tersimpan di dalam dataset.

Maka dari itu kolom "No" dihapus/dihilangkan dan saat ini variabel DataFrame "all_username_list" hanya memiliki 2 kolom saja yaitu kolom "Nama Akun" dan "TANGGAL UPDATE". Selanjutnya kedua kolom tersebut akan diubah format penamaan kolom menjadi lebih teratur dan rapi.

In [26]:
"""
Mengubah format penamaan tulisan pada kolom "Nama Akun" menjadi "account_name"
dan "TANGGAL UPDATE" menjadi "updated_date" dari variabel DataFrame "all_username_list"
"""
all_username_list = all_username_list.rename(columns={"Nama Akun": "account_name", "TANGGAL UPDATE": "updated_date"})

all_username_list.tail(18)

Unnamed: 0,account_name,updated_date
4500,Aiwaah Cell,NaT
4501,Mirza Store,NaT
4502,Mirza Store,NaT
4503,Jzjwoeij,NaT
4504,DANZZ STORE,NaT
4505,Neng Sungai Bulan,NaT
4506,Refund,NaT
4507,Lordbase,NaT
4508,ATHA CELL,NaT
4509,QUICKSILVERZ,NaT


In [27]:
# Menampilkan jumlah baris dan jumlah kolom yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.shape

(4518, 2)

Berdasarkan hasil diatas dapat diketahui jika variabel DataFrame "all_username_list" memiliki jumlah baris data sebanyak 4.518. Sementara itu jumlah kolom yang terdapat di dalam DataFrame "all_username_list" adalah 2. Kedua kolom yang dimiliki oleh DataFrame "all_username_list" adalah kolom "account_name" dan kolom "updated_date". Namun yang perlu diketahui adalah jika variabel DataFrame "all_username_list" memiliki beberapa nilai yang hilang (missing value) karena berdasarkan 5 dan 18 data terakhir yang ditampilkan, akun/username yang bernama "JECKPOT", "Aiwaah Cell", "Defzz", "Mirza Store", "Neng Sungai Bulan" "M M", "BrenzSTORE", "Tosca Cell", dll., tidak memiliki nilai di kolom "updated_date". Hal ini sangat berbanding terbalik dengan 19 data teratas dari DataFrame "all_username_list" yang telah ditampilkan di mana kesembilan belas data tersebut memiliki nilai di kolom "updated_date".

Maka dari itu saya akan menampilkan jumlah missing value dari kedua kolom pada variabel DataFrame "all_username_list" sehingga kita dapat mengetahui seberapa banyak nilai data yang hilang dari DataFrame.

In [28]:
# Menampilkan jumlah missing value/nilai data yang hilang dari variabel DataFrame "all_username_list"
print("Jumlah Nilai Data yang Hilang (Missing Value) dari Variabel DataFrame 'all_username_list':")
print(all_username_list.isnull().sum())

Jumlah Nilai Data yang Hilang (Missing Value) dari Variabel DataFrame 'all_username_list':
account_name      0
updated_date    208
dtype: int64


Hasil diatas menunjukkan jika terdapat 208 missing value/nilai yang hilang dari kolom "updated_date" pada variabel DataFrame "all_username_list". Missing value adalah sebuah indikator nilai di dalam DataFrame di mana suatu cell atau baris data tidak menyimpan informasi nilai data yang seharusnya. Sebagai contoh pada indeks data ke-4517 atau baris data ke-4.518, sebuah akun bernama "Tosca Cell" tidak memiliki informasi nilai di dalam kolom "updated_date" dan hanya terdapat label/nilai NaN.

NaN atau Not a Number merupakan sebuah tanda jika baris data dalam suatu kolom tidak memiliki nilai karena jika di analisa lebih mendalam seharusnya indeks data ke-4517 dengan nama akun "Tosca Cell" memiliki nilai di kolom "updated_date" yang di mana kolom tersebut harus berisikan tanggal perubahan atas pendaftaran pertama terhadap masing-masing akun e-wallet yang berhasil tercatat di dalam sistem perusahaan milik PT XYZ yang bergerak di bidang financial technology. Namun karena tanggal perubahan untuk akun "Tosca Cell" tidak berhasil ter-record dengan baik di dalam kolom "updated_date", maka nilai yang terdapat di dalam kolom tersebut adalah NaN/Not a Number yang mengartikan baris tersebut adalah missing value.

In [29]:
# Menampilkan tipe data yang dimiliki oleh masing-masing kolom dari variabel DataFrame "all_username_list"
all_username_list.dtypes

account_name            object
updated_date    datetime64[ns]
dtype: object

Hasil diatas menunjukkan jika tipe data yang dimiliki oleh variabel DataFrame "all_username_list" hanya tipe data object/string dan tipe data datetime. Tipe data object/string menunjukkan jika suatu kolom di dalam DataFrame memiliki nilai yang bukan hanya terdiri dari bilangan angka numerik saja, seperti bilangan pecahan/desimal dengan tipe data float dan bilangan bulat dengan tipe data integer, tetapi tipe data object/string terdiri dari nilai-nilai data dari suatu kolom yang ditulis dengan kumpulan karakter spesial, simbol-simbol, kumpulan huruf sehingga membantuk suatu kalimat teks serta gabungan antara angka dan juga huruf dan simbol/karakter spesial. Contoh dari data yang memiliki tipe data object/string adalah "Sigit", "Kemerdekaan Indonesia 1945", "17 Agustus 1945", "Sandi_Object18@@9", "Ibnu_Maldini991@gmail.com", dst. Jika terdapat data seperti kelima contoh tersebut dapat dipastikan jika data tersebut bertipe data object/string. Kolom yang memiliki tipe data object/string dari variabel DataFrame "all_username_list" adalah kolom "account_name".

Sementara itu tipe data datetime adalah sebuah tipe data yang biasanya menunjukkan karakteristik data dari suatu event atau kejadian seperti pembelian suatu barang, persediaan barang masuk untuk jumlah stok, tanggal registrasi/pendaftaran akun e-wallet seperti pada penelitian kali ini serta tanggal perubahan suatu data. Intinya tipe data datetime merupakan tipe data yang sesuai untuk kolom "updated_date" karena data-data yang terdapat di dalam kolom tersebut menunjukkan tanggal perubahan atas pendaftaran dari seluruh akun e-wallet, baik akun fraud dan akun non-fraud. Kolom yang memiliki tipe data datetime dari variabel DataFrame "all_username_list" adalah kolom "updated_date".

Namun masalah saat ini yang terjadi di dalam variabel DataFrame "all_username_list" adalah pada kolom "updated_date" masih terdapat 208 data yang hilang (missing value) sehingga data-data yang hilang harus dibersihkan terlebih dahulu sebelum mengklasifikasikan data menggunakan Algoritma Machine Learning atau membuat data visualisasi. Jika nilai-nilai yang hilang tersebut dihilangkan/dihapus dari kolom "updated_date" yang terdapat di dalam DataFrame "all_username_list", maka proses analisis dan memberikan label/kategori pada setiap nama akun/username dari "all_username_list" untuk mengetahui akun penipuan dan akun bukan penipuan menjadi tidak valid dan penelitian ini akan kekurangan data. Maka dari itu proses pengecekan akun penipuan dan akun bukan penipuan akan dilakukan oleh 2 dataset. Dataset pertama yang saat ini telah menjadi DataFrame yaitu "all_username_list" dan dataset kedua memiliki nama file yaitu "Fraud Username List Dataset.xlsx" dengan format Microfost Excel.

In [30]:
all_username_list["account_name"].value_counts()

ARNOLD SUMALIE      81
Sunata              22
Reyhan              22
Yunus               19
Atin                17
                    ..
YUDA RAHMA           1
Surya indra jaya     1
Ummi                 1
HERMANSYAH           1
Tosca Cell           1
Name: account_name, Length: 3464, dtype: int64

In [31]:
all_username_list["account_name"].duplicated().sum()

1054

In [32]:
all_username_list.head(9)

Unnamed: 0,account_name,updated_date
0,Maldini,2022-08-19
1,Ibnu,2022-08-19
2,Trimo,2022-08-19
3,Juned,2022-08-19
4,Gerar,2022-08-19
5,Gundul,2022-08-19
6,Saridi,2022-08-19
7,snfi,2022-08-19
8,Linda,2022-08-19


In [None]:
all_username_list["updated_date"] = all_username_list["updated_date"].apply(pd.freq).dt.to_timestamp("A")

all_username_list.tail()

In [None]:
all_username_list["updated_date"] = pd.to_datetime(all_username_list["updated_date"], format="%Y-%m-%d")

all_username_list

### 1.2. Exploring Data from Fraud Username/Account List Dataset and Preprocessing the Dataset

In [18]:
# Membaca dataset yang berisikan seluruh daftar akun/username e-wallet yang terkategori sebagai akun penipuan (fraud)
fraud_username_list = pd.read_excel("Fraud Username List Dataset.xlsx")

fraud_username_list.head(24) # Menampilkan 24 data teratas yang dimiliki oleh variabel DataFrame "fraud_username_list"

Unnamed: 0,No,NAMA,TANGGAL UPDATE
0,1.0,Yahxuu,2023-01-01 00:00:00
1,2.0,Baren Wear,2023-01-01 00:00:00
2,3.0,NNG STORE CELL,2023-01-01 00:00:00
3,4.0,Ghjii,2023-01-01 00:00:00
4,5.0,SISIL PONSEL,2023-01-02 00:00:00
5,6.0,BAYI NYONYA HASFINAH HAFID,2023-01-02 00:00:00
6,7.0,BAYINYONYAINDRIADHARIANTI,2023-01-02 00:00:00
7,8.0,Ansurulloh84hagale9775@realzon.com,2023-01-02 00:00:00
8,9.0,Jzzz,2023-01-02 00:00:00
9,10.0,Easychas,2023-01-02 00:00:00


In [19]:
# Menampilkan daftar nama-nama kolom yang dimiliki oleh variabel DataFrame "fraud_username_list"
fraud_username_list.columns

Index(['No', 'NAMA', 'TANGGAL UPDATE'], dtype='object')

Hasil diatas menunjukkan jika variabel DataFrame "fraud_username_list" hanya memiliki 3 kolom saja seperti DataFrame sebelumnya yaitu "all_username_list". Ketiga kolom yang terdapat di dalam DataFrame "fraud_username_list" yaitu kolom "No", "NAMA" dan terakhir adalah kolom "TANGGAL UPDATE". Sama seperti perlakukan saya terhadap kolom "No" pada DataFrame "all_username_list", kolom "No" di dalam variabel DataFrame "fraud_username_list" akan dihapus dari daftar nama kolom karena kolom "No" merupakan kolom yang tidak dibutuhkan selama proses penelitian ini berlangsung. Penyebab utama mengapa kolom "No" akan dihilangkan adalah data-data yang terdapat di dalam kolom ini hanya menunjukkan nomor baris dari masing-masing akun e-wallet saja yang termasuk ke dalam kategori fraud atau penipuan.

Selain itu alasan utama mengapa kolom "No" akan dihapus dari variabel DataFrame "fraud_username_list" adalah karena pada DataFrame "fraud_username_list" sudah terdapat nomor indeks yang berfungsi sebagai penunjuk baris dari masing-masing nama akun e-wallet yang terkategori sebagai akun/username fraud. Maka dari itu kolom "No" sudah tidak dibutuhkan.

Di samping itu, penelitian ini juga akan mengubah format penamaan kolom menjadi lebih rapi dan teratur karena seperti yang terlihat dari hasil output diatas, gaya penulisan antara kolom "NAMA" dan kolom "TANGGAL UPDATE" sangat jauh berbeda dengan format penamaan kolom yang saat ini dimiliki oleh variabel "all_username_list". Maka dari itu perubahan format penulisan nama kolom akan dilakukan di dalam penelitian ini.

In [20]:
"""
Menghapus/menghilangkan kolom "No" dari daftar kolom pada variabel
DataFrame "fraud_username_list" karena kehadiran kolom "No" tidak dibutuhkan
di dalam penelitian ini serta kehadiran kolom "No" telah terwakili dengan indeks pada DataFrame
"""
fraud_username_list = fraud_username_list.drop(columns=["No"], axis=1)

fraud_username_list.columns # Menampilkan kembali daftar nama kolom yang dimiliki oleh variabel DataFrame "fraud_username_list"

Index(['NAMA', 'TANGGAL UPDATE'], dtype='object')

Berdasarkan hasil script dan output diatas kita dapat melihat jika kolom "No" sudah berhasil dihapus dari variabel DataFrame "fraud_username_list". Alasan utama mengapa kolom "No" dihapus dari daftar kolom-kolom pada DataFrame "fraud_username_list" adalah karena kolom tersebut sudah tidak dibutuhkan karena tujuan kolom "No" hanya menjadi penunjuk nomor baris untuk masing-masing nama akun e-wallet yang terkategorikan sebagai akun fraud atau akun penipuan. Sementara itu DataFrame dari library Pandas telah menyediakan indeks data yang berfungsi untuk menjadi penunjuk nomor baris dari masing-masing data yang tersimpan di dalam dataset. Maka dari itu kolom "No" dapat dihapus/dihilangkan dari variabel DataFrame "fraud_username_list" dan saat ini DataFrame "fraud_username_list" hanya memiliki 2 kolom saja yaitu kolom "NAMA" dan "TANGGAL UPDATE". Selanjutnya kedua kolom tersebut akan diubah format penamaan kolom menjadi lebih teratur dan rapi sama seperti penamaan kolom yang terdapat di dalam DataFrame "all_username_list".

In [21]:
"""
Mengubah format penamaan 2 kolom dari variabel DataFrame "fraud_username_list"
yaitu kolom "Nama Akun" menjadi "fraud_account_name" dan "TANGGAL UPDATE" menjadi "updated_date"
"""
fraud_username_list = fraud_username_list.rename(columns={"NAMA": "fraud_account_name", "TANGGAL UPDATE": "updated_date"})

fraud_username_list.tail()

Unnamed: 0,fraud_account_name,updated_date
2159,OTP anda adalah,2023-11-24 00:00:00
2160,INDAH CARGO,2023-11-24 00:00:00
2161,SINGAID MUHAMMAD ARYA,2023-11-24 00:00:00
2162,La Ka,2023-11-24 00:00:00
2163,PT TRI USAHA BERKAT,2023-11-26 00:00:00


In [22]:
# Menampilkan tipe data dari variabel "fraud_username_list" yaitu kolom "fraud_account_name" dan "updated_date"
fraud_username_list.dtypes

fraud_account_name    object
updated_date          object
dtype: object

Hasil diatas menunjukkan jika tipe data yang dimiliki oleh variabel DataFrame "all_username_list" hanya tipe data object/string saja. Tipe data object/string menunjukkan jika suatu kolom di dalam DataFrame memiliki nilai yang bukan hanya terdiri dari bilangan angka numerik saja, seperti bilangan pecahan/desimal dan bilangan bulat, tetapi tipe data object/string terdiri dari data yang ditulis dengan kumpulan karakter spesial, simbol-simbol, kumpulan huruf-huruf dan angka sehingga membantuk suatu kalimat teks serta gabungan antara angka dan juga huruf dan simbol/karakter spesial. Contoh dari data yang memiliki tipe data object/string adalah "Bulan April 2024", "Jl. Mangga no.18", "inikatasandi_9871", "Rumah Sakit 781", dst. Jika terdapat data seperti keempat contoh tersebut dapat dipastikan jika data tersebut memiliki tipe data object/string.


Kedua kolom yang terdapat di dalam DataFrame "fraud_account_name" dan "updated_date" memiliki tipe data object/string. Sebenarnya khusus untuk kolom "updated_date", tipe data yang sesuai bukanlah tipe data object melainkan tipe data datetime. Tipe data datetime adalah sebuah tipe data pada kolom di dalam DataFrame yang menunjukkan dari suatu event atau kejadian yang melibatkan penanggalan seperti pembelian suatu barang dengan tanggal transaksi termasuk ke dalam tipe data datetime. Lalu persediaan barang masuk untuk jumlah stok dengan tanggal dan waktu barang masuk/keluar yang juga termasuk ke dalam tipe data datetime, ataupun tanggal pendaftaran/perubahan akun e-wallet seperti pada penelitian kali ini. Intinya tipe data datetime merupakan tipe data yang disesuaikan untuk data-data yang melibatkan tanggal dan waktu dari suatu kejadian dan kolom "updated_date" pada variabel DataFrame "fraud_username_list" memenuhi persyaratan tersebut.

In [17]:
"""
Mengubah format nilai dan tipe data pada kolom "updated_date" dari yang semula
memiliki tipe data object/string menjadi datetime pada DataFrame "fraud_username_list"
"""
fraud_username_list["updated_date"] = pd.to_datetime(fraud_username_list["updated_date"], format = "%Y-%m-%d", errors="coerce")

fraud_username_list.head(18)

Unnamed: 0,fraud_account_name,updated_date
0,Yahxuu,2023-01-01
1,Baren Wear,2023-01-01
2,NNG STORE CELL,2023-01-01
3,Ghjii,2023-01-01
4,SISIL PONSEL,2023-01-02
5,BAYI NYONYA HASFINAH HAFID,2023-01-02
6,BAYINYONYAINDRIADHARIANTI,2023-01-02
7,Ansurulloh84hagale9775@realzon.com,2023-01-02
8,Jzzz,2023-01-02
9,Easychas,2023-01-02


In [23]:
"""
Menampilkan jumlah missing value terhadap ketiga kolom dari variabel
DataFrame "fraud_username_list" yaitu "No", "NAMA" dan "TANGGAL UPDATE"
"""
fraud_username_list.isnull().sum()

fraud_account_name    0
updated_date          0
dtype: int64