## 1. Import Libraries and Load for Each Dataset (Fraud Username List Dataset and All Username List Dataset)

In [42]:
"""
Meng-import library-library yang akan digunakan di dalam penelitian kali ini
seperti library untuk membuat visualisasi data, library untuk mengeksplorasi data,
library untuk membersihkan data dan memodelkan data yang telah dibersihkan menggunakan Algoritma Machine Learning
dengan tujuan agar dapat mengklasifikasikan akun/username fraud dan bukan fraud berdasarkan kategori label
"""
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
plt.style.use("seaborn")
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

### 1.1.  Exploring Data from All Username/Account List Dataset (Both Fraud and Non-Fraud Accounts) and Preprocessing the Dataset 

In [43]:
"""
Membaca dataset yang berisikan seluruh daftar akun/username, baik akun fraud ataupun bukan fraud
dari file excel "All Username List Dataset" serta menampilkan 5 data terbawah
"""
all_username_list = pd.read_excel("All Username List Dataset.xlsx")

all_username_list.tail()

Unnamed: 0,No,Nama Akun,TANGGAL UPDATE
4513,,JECKPOT,NaT
4514,,Defzz,NaT
4515,,M M,NaT
4516,,BrenzSTORE,NaT
4517,,Tosca Cell,NaT


In [44]:
# Menampilkan 19 data teratas yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.head(19)

Unnamed: 0,No,Nama Akun,TANGGAL UPDATE
0,1.0,Maldini,2022-08-19
1,2.0,Ibnu,2022-08-19
2,3.0,Trimo,2022-08-19
3,4.0,Juned,2022-08-19
4,5.0,Gerar,2022-08-19
5,6.0,Gundul,2022-08-19
6,7.0,Saridi,2022-08-19
7,8.0,snfi,2022-08-19
8,9.0,Linda,2022-08-19
9,10.0,Ruby,2022-08-19


Berdasarkan output dari kesembilan belas data yang berhasil ditampilkan dari variabel DataFrame "all_username_list", kita dapat mengetahui jika akun yang termasuk ke dalam file dataset "All Username List Dataset.xlsx" terakhir kali mengalami update di tanggal 19 Agustus 2022. Hal ini dapat kita asumsikan jika 19 data dari hasil output diatas merupakan data-data dari akun yang telah mendaftar sejak tanggal 19 Agustus 2022.

Perlu diingat dan diketahui kembali jika file dataset "All Username List Dataset.xlsx" yang memiliki format Microsoft Excel merupakan sebuah dataset dari hasil pendaftaran akun-akun e-wallet dari suatu layanan financial technology (fintech). Seluruh akun yang terdapat di dalam file dataset "All Username List Dataset.xlsx" merupakan gabungan akun antara akun fraud (akun penipuan) dan akun non-fraud atau akun yang bukan penipuan. Maka dari itu penelitian ini bertujuan untuk dapat mengklasifikasikan antara akun fraud dan akun bukan fraud sehingga akan memudahkan pengambilan keputusan dalam memberikan layanan terbaiknya dan dapat mencegah atau mem-blacklist akun-akun yang tergolong sebagai akun penipuan agar tidak ada yang dirugikan.

In [45]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.columns

Index(['No', 'Nama Akun', 'TANGGAL UPDATE'], dtype='object')

Hasil diatas menunjukkan jika variabel DataFrame "all_username_list" hanya memiliki 3 kolom saja yaitu kolom "No", "Nama Akun" dan terakhir adalah kolom "TANGGAL UPDATE". Khusus untuk kolom "No" saya akan menghapus kolom tersebut dikarenakan kolom "No" merupakan kolom yang tidak dibutuhkan selama proses penelitian ini berlangsung. Penyebab utama mengapa kolom "No" akan dihilangkan adalah data-data yang terdapat di dalam kolom ini hanya menunjukkan nomor baris dari masing-masing akun e-wallet saja.

Karena pada DataFrame sudah terdapat nomor indeks yang berfungsi sebagai penunjuk baris dari masing-masing nama akun e-wallet yang berhasil terdaftar di perusahaan PT XYZ, maka kolom "No" sudah tidak dibutuhkan. Selain itu, penelitian ini juga akan mengubah format penamaan kolom menjadi lebih rapi dan teratur karena seperti yang terlihat dari hasil output diatas, gaya penulisan antara kolom "Nama Akun" dan kolom "TANGGAL UPDATE" sangat jauh berbeda. Maka dari itu perubahan format penulisan nama kolom akan dilakukan di dalam penelitian ini.

In [46]:
# Menghapus kolom "No" dari daftar kolom variabel DataFrame "all_username_list" serta menampilkan 9 data teratas
all_username_list = all_username_list.drop(columns=["No"], axis=1)

all_username_list.head(9)

Unnamed: 0,Nama Akun,TANGGAL UPDATE
0,Maldini,2022-08-19
1,Ibnu,2022-08-19
2,Trimo,2022-08-19
3,Juned,2022-08-19
4,Gerar,2022-08-19
5,Gundul,2022-08-19
6,Saridi,2022-08-19
7,snfi,2022-08-19
8,Linda,2022-08-19


Hasil diatas menunjukkan bahwasanya saya telah berhasil menghilangkan kolom "No" dari variabel DataFrame "all_username_list" karena kolom tersebut tidak dibutuhkan karena tujuan kolom "No" hanya menjadi penunjuk nomor baris untuk masing-masing nama akun yang berhasil terdaftar dan ter-update. Sementara itu pada format DataFrame dari library Pandas telah menyediakan indeks data yang berfungsi untuk menjadi penunjuk nomor baris dari masing-masing data yang tersimpan di dalam dataset.

Maka dari itu kolom "No" dihapus/dihilangkan dan saat ini variabel DataFrame "all_username_list" hanya memiliki 2 kolom saja yaitu kolom "Nama Akun" dan "TANGGAL UPDATE". Selanjutnya kedua kolom tersebut akan diubah format penamaan kolom menjadi lebih teratur dan rapi.

In [47]:
"""
Mengubah format penamaan tulisan pada kolom "Nama Akun" menjadi "account_name"
dan "TANGGAL UPDATE" menjadi "updated_date" dari variabel DataFrame "all_username_list"
"""
all_username_list = all_username_list.rename(columns={"Nama Akun": "account_name", "TANGGAL UPDATE": "updated_date"})

all_username_list.tail(18)

Unnamed: 0,account_name,updated_date
4500,Aiwaah Cell,NaT
4501,Mirza Store,NaT
4502,Mirza Store,NaT
4503,Jzjwoeij,NaT
4504,DANZZ STORE,NaT
4505,Neng Sungai Bulan,NaT
4506,Refund,NaT
4507,Lordbase,NaT
4508,ATHA CELL,NaT
4509,QUICKSILVERZ,NaT


In [48]:
# Menampilkan jumlah baris dan jumlah kolom yang dimiliki oleh variabel DataFrame "all_username_list"
all_username_list.shape

(4518, 2)

Berdasarkan hasil diatas dapat diketahui jika variabel DataFrame "all_username_list" memiliki jumlah baris data sebanyak 4.518. Sementara itu jumlah kolom yang terdapat di dalam DataFrame "all_username_list" adalah 2. Kedua kolom yang dimiliki oleh DataFrame "all_username_list" adalah kolom "account_name" dan kolom "updated_date". Namun yang perlu diketahui adalah jika variabel DataFrame "all_username_list" memiliki beberapa nilai yang hilang (missing value) karena berdasarkan 5 dan 18 data terakhir yang ditampilkan, akun/username yang bernama "JECKPOT", "Aiwaah Cell", "Defzz", "Mirza Store", "Neng Sungai Bulan" "M M", "BrenzSTORE", "Tosca Cell", dll., tidak memiliki nilai di kolom "updated_date". Hal ini sangat berbanding terbalik dengan 19 data teratas dari DataFrame "all_username_list" yang telah ditampilkan di mana kesembilan belas data tersebut memiliki nilai di kolom "updated_date".

Maka dari itu saya akan menampilkan jumlah missing value dari kedua kolom pada variabel DataFrame "all_username_list" sehingga kita dapat mengetahui seberapa banyak nilai data yang hilang dari DataFrame.

In [49]:
# Menampilkan jumlah missing value/nilai data yang hilang dari variabel DataFrame "all_username_list"
print("Jumlah Nilai Data yang Hilang (Missing Value) dari Variabel DataFrame 'all_username_list':")
print(all_username_list.isnull().sum())

Jumlah Nilai Data yang Hilang (Missing Value) dari Variabel DataFrame 'all_username_list':
account_name      0
updated_date    208
dtype: int64


Hasil diatas menunjukkan jika terdapat 208 missing value/nilai yang hilang dari kolom "updated_date" pada variabel DataFrame "all_username_list". Missing value adalah sebuah indikator nilai di dalam DataFrame di mana suatu cell atau baris data tidak menyimpan informasi nilai data yang seharusnya. Sebagai contoh pada indeks data ke-4517 atau baris data ke-4.518, sebuah akun bernama "Tosca Cell" tidak memiliki informasi nilai di dalam kolom "updated_date" dan hanya terdapat label/nilai NaN.

NaN atau Not a Number merupakan sebuah tanda jika baris data dalam suatu kolom tidak memiliki nilai karena jika di analisa lebih mendalam seharusnya indeks data ke-4517 dengan nama akun "Tosca Cell" memiliki nilai di kolom "updated_date" yang di mana kolom tersebut harus berisikan tanggal perubahan atas pendaftaran pertama terhadap masing-masing akun e-wallet yang berhasil tercatat di dalam sistem perusahaan milik PT XYZ yang bergerak di bidang financial technology. Namun karena tanggal perubahan untuk akun "Tosca Cell" tidak berhasil ter-record dengan baik di dalam kolom "updated_date", maka nilai yang terdapat di dalam kolom tersebut adalah NaN/Not a Number yang mengartikan baris tersebut adalah missing value.

In [50]:
# Menampilkan tipe data yang dimiliki oleh masing-masing kolom dari variabel DataFrame "all_username_list"
all_username_list.dtypes

account_name            object
updated_date    datetime64[ns]
dtype: object

Hasil diatas menunjukkan jika tipe data yang dimiliki oleh variabel DataFrame "all_username_list" hanya tipe data object/string dan tipe data datetime. Tipe data object/string menunjukkan jika suatu kolom di dalam DataFrame memiliki nilai yang bukan hanya terdiri dari bilangan angka numerik saja, seperti bilangan pecahan/desimal dengan tipe data float dan bilangan bulat dengan tipe data integer, tetapi tipe data object/string terdiri dari nilai-nilai data dari suatu kolom yang ditulis dengan kumpulan karakter spesial, simbol-simbol, kumpulan huruf sehingga membantuk suatu kalimat teks serta gabungan antara angka dan juga huruf dan simbol/karakter spesial. Contoh dari data yang memiliki tipe data object/string adalah "Sigit", "Kemerdekaan Indonesia 1945", "17 Agustus 1945", "Sandi_Object18@@9", "Ibnu_Maldini991@gmail.com", dst. Jika terdapat data seperti kelima contoh tersebut dapat dipastikan jika data tersebut bertipe data object/string. Kolom yang memiliki tipe data object/string dari variabel DataFrame "all_username_list" adalah kolom "account_name".

Sementara itu tipe data datetime adalah sebuah tipe data yang biasanya menunjukkan karakteristik data dari suatu event atau kejadian seperti pembelian suatu barang, persediaan barang masuk untuk jumlah stok, tanggal registrasi/pendaftaran akun e-wallet seperti pada penelitian kali ini serta tanggal perubahan suatu data. Intinya tipe data datetime merupakan tipe data yang sesuai untuk kolom "updated_date" karena data-data yang terdapat di dalam kolom tersebut menunjukkan tanggal perubahan atas pendaftaran dari seluruh akun e-wallet, baik akun fraud dan akun non-fraud. Kolom yang memiliki tipe data datetime dari variabel DataFrame "all_username_list" adalah kolom "updated_date".

In [51]:
all_username_list["updated_date"] = pd.to_datetime(all_username_list["updated_date"], format="%Y-%m-%d")

all_username_list.head()

Unnamed: 0,account_name,updated_date
0,Maldini,2022-08-19
1,Ibnu,2022-08-19
2,Trimo,2022-08-19
3,Juned,2022-08-19
4,Gerar,2022-08-19
